Moondream3 这个小型视觉模型居然比GPT5、Gemini、Claude4都要强！一款新架构的视觉语言模型（VLM），用9B参数的MoE，实际激活参数仅2B。视觉推理能力强：不仅能识别物体，还能理解复杂场景和指令。易于训练和定制：可针对专业视觉任务训练，如医学影像、安防等复杂场景。

发布时间: 2025-09-24 00:40:14

1分

数据加载中

关注推特

收听电报

2

1

0

Moondream3 这个小型视觉模型居然比GPT5、Gemini、Claude4都要强！
一款新架构的视觉语言模型（VLM），用9B参数的MoE，实际激活参数仅2B。
视觉推理能力强：不仅能识别物体，还能理解复杂场景和指令。
易于训练和定制：可针对专业视觉任务训练，如医学影像、安防等复杂场景。
IT技术
( twitter.com )

2小时前由向阳乔木提交

Moondream3 这个小型视觉模型居然比GPT5、Gemini、Claude4都要强！

一款新架构的视觉语言模型（VLM），用9B参数的MoE，实际激活参数仅2B。

视觉推理能力强：不仅能识别物体，还能理解复杂场景和指令。

易于训练和定制：可针对专业视觉任务训练，如医学影像、安防等复杂场景。

推理速度快：适合需要实时响应的应用，如无人机巡检、安防监控等。

运行成本低：适合大规模图片处理场景，降低企业使用门槛。

结构化输出与OCR：能直接生成JSON、Markdown等结构化数据，OCR识别能力显著提升。

已开放预览，支持在线体验和下载。

点击图片查看原图

点击图片查看原图

点击图片查看原图

点击图片查看原图

Markdown支持

评论加载中...

您可能感兴趣的：更多

1

3

2

2

来了嗷！全网首测！DeepSeek 4 小时之前又发布了一个多模态模型——Janus-pro！这个模型的特点是将文生图和图生文合二为一了！
我觉得这个模型更多是方向上的验证，如果验证靠谱就会推出可以投入生产的模型了。
[1/?]
时政
( twitter.com)

7个月前 • karminski-牙医 • -- 点击 • 下载视频 0 评论

00:01:38

2

2

1

1

微软最新发布 Phi 系列的两个全新小模型：Phi-4-multimodal（多模态）和 Phi-4-mini（迷你版） 1. Phi-4-multimodal（5.6B参数）
- 多模态能力：首次整合语音、视觉、文本处理，无需多个模型或复杂流程，统一处理多类型输入。
- 性能亮点： -
时政
( twitter.com)

6个月前 • meng shao • -- 点击 0 评论

3

2

1

1

集成了 GPT-4o 视觉模型的变形金刚玩具，可以对话，卖 $1199，值这个价吗？

IT技术
( twitter.com)

8个月前 • 宝玉 • -- 点击 • 下载视频 0 评论

00:00:58

4

2

1

1

Meta AI 发布 Llama 3.2 多模态AI模型
性能与GPT4o-mini 相当能够在边缘设备上高效运行
Llama 3.2包括适用于边缘和移动设备的小型和中型视觉大语言模型（11B 和 90B）以及轻量文本模型（1B 和 3B）。
LLaMA 3.2支持同时处理文本、图像和视频，能够理解并生成跨媒体内容。
时政
( twitter.com)

1年前 • 小互 • -- 点击 • 下载视频 0 评论

00:00:38

5

2

1

1

看到个PDF识别大模型 olmOCR-7B-0225-preview 。我用发票试了一下，感觉效果还可以？
这个7B模型是BF16的，量化后估计能在4GB左右？普通电脑也能用。
模型地址：
在线测试地址：
#大模型竞技场
时政
( twitter.com)

6个月前 • karminski-牙医 • -- 点击 0 评论

6

2

1

1

视觉大模型的一个应用场景：
整理白板手写内容为Markdown笔记。
IT技术
( twitter.com)

1个月前 • 向阳乔木 • -- 点击 0 评论

7

2

1

1

【阿里「通義千問」成為日本AI開發基礎】在日經4月公開的「AI模型評分」榜中，阿里雲的「通義千問（Qwen）」模型超過了中國DeepSeek的模型，在113個模型中位居第6。作為開源模型，通義千問正在得到很多日本新興企業的使用。在評分榜位居日本企業首位的模型正是基於通義千問開發……
时政
( twitter.com)

4个月前 • 日經中文網 • -- 点击 0 评论

8

5

4

4

复活晚清老照片： - 不知道为什么，这个模型和小视频，在小红书超级火. - 随便发一个都是爆款.
时政
( twitter.com)

10个月前 • Y11 • -- 点击 • 下载视频 0 评论

00:00:32

9

2

1

1

Andrej Karpathy 在YouTube上发布了一段新视频，时长3小时31分钟：
《深入探讨大型语言模型（LLM）如ChatGPT》
IT技术
( twitter.com)

7个月前 • 宝玉 • -- 点击 0 评论

0.01877 Second , Gzip Enable.本网所有言论均来自网络，不代表本网站立场。联系方式: [email protected]

©2012.11.21 bad.news All rights reserved. 社区自动运营第 -- 年零 -- 天
This site is protected by reCAPTCHA and the Google Privacy Policy and Terms of Service apply.

关注推特