DeepSeek识图模式新模型实测,我被灰度到了

鱼羊 发自 凹非寺

今天,你被DeepSeek识图模式灰度到了吗?

DeepSeek识图模式新模型实测,我被灰度到了

大家对DeepSeek的多模态属实期待了太久太久。从V3到V4,DeepSeek一直专注于纯文本能力的极致打磨,业内普遍认为多模态画像只是“未来展望”中的长期目标。然而惊喜紧随V4的发布而来,没等官方释出更多信息,民间已经从各个方向开始挖掘“识图”背后的种种蛛丝马迹。

还真有不少发现。

比如,DeepSeek识图模式背后,看上去是一个独立于V4 flash/pro的新模型

DeepSeek识图模式新模型实测,我被灰度到了

又比如,DeepSeek在V4技术报告里的“未来展望”,实际上可能都做的差不多了……

DeepSeek识图模式新模型实测,我被灰度到了

今天眼睛一睁,俺也喜提灰度,这就来展示一下实测成果。

在识图模式下,可以选择是否开启深度思考。

DeepSeek识图模式新模型实测,我被灰度到了

非思考模式下,这个DeepSeek视觉模型的速度非常快,几乎瞬时响应,但准确度往往存疑。这其实暴露了当前轻量级多模态模型的一个普遍短板:快速感知缺乏推理约束,容易产生幻觉。

DeepSeek识图模式新模型实测,我被灰度到了

那么思考和非思考模式下,DeepSeek识图模式的推理能力会有什么样的差别?

先上一道空间推理题:要想使右侧图形在不旋转的情况下拼合成左侧的正方体造型,还需在问号处添加的图形是哪个?

DeepSeek识图模式新模型实测,我被灰度到了

非思考模式秒给答案,然后……秒错。

DeepSeek识图模式新模型实测,我被灰度到了

开启深度思考后,DeepSeek成功闯关,给出了正确答案D。

DeepSeek识图模式新模型实测,我被灰度到了

但可以看到,它思考这个问题整整用了4分多钟。这个思考过程的冗长程度,我们可以直观地感受一下——

在思考的中段,其实DeepSeek已经找到了正确答案:

DeepSeek识图模式新模型实测,我被灰度到了

但马上就是一个“等等”,然后……又绕了一大堆。

DeepSeek识图模式新模型实测,我被灰度到了

这个问题有人也在DeepSeek研究员陈小康的推文下反馈了。

DeepSeek识图模式新模型实测,我被灰度到了

再试试图片找不同:找出两张图片中所有的不同点。

DeepSeek识图模式新模型实测,我被灰度到了

非思考模式下,DeepSeek很快找到了7处不同。

DeepSeek识图模式新模型实测,我被灰度到了

可以很明显地看出,其中幻觉不少,比如第5点托盘里的钥匙不知道是怎么来的,第7点苹果和香蕉之间也没有白色的空盘子。这种“看到不存在的东西”是多模态模型在快速回答时常见的缺陷,本质是视觉编码与语言生成之间的对齐不够精细。

思考模式这次则只用了16秒的时间,找出了12处不同。

DeepSeek识图模式新模型实测,我被灰度到了

但……不知道是不是图片本身的原因,幻觉更多了。

推理部分还有进步空间,那么在实用功能方面,DeepSeek的识图模式是否靠谱呢?

试试OCR

DeepSeek识图模式新模型实测,我被灰度到了

纯文本看上去问题不大,再看看表格DeepSeek能不能hold住。

DeepSeek识图模式新模型实测,我被灰度到了

没什么问题,格式上也能用markdown码得整整齐齐。这得益于DeepSeek V4本身强大的文本理解能力,视觉模块只要把版面结构提取准确,后面的文本格式化就顺理成章。

而更受欢迎的一种新玩法是,把网页图片发给DeepSeek,它直接能给你复原出HTML来(非思考模式就能实现)。

DeepSeek识图模式新模型实测,我被灰度到了
DeepSeek识图模式新模型实测,我被灰度到了

DeepSeek还能顺利通过“隐藏图片”测试。

DeepSeek识图模式新模型实测,我被灰度到了

但在色盲测试中,偶见翻车。

DeepSeek识图模式新模型实测,我被灰度到了

根据识图模式自己的回答,它的知识和DeepSeek V4 flash/pro一样,截止到2025年5月。

DeepSeek识图模式新模型实测,我被灰度到了

而从它的世界知识中,有博主发现了端倪:视觉模型知道Ta,而V4 flash/pro则并不了解Ta。

是不是说,识图模式中的视觉模型,是独立训练的?

DeepSeek识图模式新模型实测,我被灰度到了

验证了一下,flash不联网的时候确实没有关于这位主包的知识。但识图模式则找到了2026年4月的信息。这进一步暗示视觉模型可能拥有自己的知识参数库,并非简单调用文本模型的权重。

DeepSeek识图模式新模型实测,我被灰度到了
DeepSeek识图模式新模型实测,我被灰度到了

目前,DeepSeek的识图模式还在灰度测试当中,陈小康透露灰度范围正在逐步扩大。

DeepSeek识图模式新模型实测,我被灰度到了

实测下来坦白说,DeepSeek Vision还有不少可以精进之处。空间推理耗时过长、细节识别依然存在幻觉,这些都是多模态模型从“能用”到“好用”的必经关卡。但考虑到DeepSeek团队一贯的迭代效率——V2到V3仅用数月,V3到V4更是刷新了开源模型的标杆——这种“灰度阶段”的快速进化往往预示着正式版会有质的提升。

但话说回来,谁又能想到DeepSeek的多模态,来的这么快呢?

当DeepSeek在V4的技术报告中写下,“我们也正在努力将多模态能力整合到我们的模型中”,大家都以为这还只是个优先级没那么高的目标,不少朋友都在惋惜的同时,也认同“资源有限的情况下优先做好纯文本是对的”。然而从这次灰度来看,DeepSeek在视觉编码、图文混合推理上已经积累了扎实的技术储备,尤其是独立视觉模型的思路,避免了传统“接茬”式多模态的耦合问题。

而现在看来,DeepSeek做到的或许比外界想象的更多、更快。如果连多模态都能在V4之后迅速落地,那么论文中提到的“在MoE和稀疏注意力架构之外,将积极探索模型稀疏性的其他新维度”,是不是也已经在路上?

DeepSeek识图模式新模型实测,我被灰度到了
免责声明:本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时,可联系本站进行审核删除。
(0)
AI快讯网编辑-青青AI快讯网编辑-青青
上一篇 6小时前
下一篇 4小时前

相关推荐

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

欢迎来到AI快讯网,开启AI资讯新时代!