顶尖大模型在视觉推理上能超越六岁孩童吗？

近期，人工智能在各项顶尖竞赛中的屡屡胜出，给公众留下了AI已全面超越人类的印象。然而，一项由UniPat AI、xbench、阿里巴巴、月之暗面（Moonshot AI）以及StepZen等知名机构联合发布的最新研究，为这种乐观情绪泼上了一盆冷水。研究结果令人震惊：即便是当前该领域领跑者Gemini 3 Pro Preview，其在视觉推理能力上仅略微超越三岁孩童，面对六岁孩童的认知水平时，仍存在高达20%的能力差距。

这项名为“BabyVision”的视觉推理“闭卷考试”，揭示了大型模型在感知物理世界方面的显著短板。那些曾经轻松应对复杂数学难题的AI巨头，如今在“找不同”、“空间拼图”这类对人类婴儿而言易如反掌的任务面前，却显得力不从心。

“语言陷阱”：AI为何“看不懂”世界？

拥有数万亿参数的大型模型，为何会在如此基础的视觉任务上“卡壳”？研究发现，根源在于它们本质上仍是“语言动物”。在处理视觉信息时，它们倾向于先将图像转化为文字描述，再进行逻辑推理。这种“曲线救国”的模式在宏观概念上尚能奏效，但一旦遇到难以被精确言语捕捉的视觉特征——如微小的曲线偏差、复杂的几何交叠、细微的空间遮挡关系——信息在转换过程中便大量损耗，导致推理失误。

视觉推理的四大“硬伤”

通过BabyVision基准测试，研究团队将大型模型的视觉缺陷归纳为四个维度：

非语言的精细细节缺失：大型模型往往无法区分像素级别的几何差异，在旋转和对齐形状的“脑内想象”能力不足时，在匹配类谜题中频繁选错。
流形一致性丢失：在长距离连接或轨迹追踪任务中，大型模型如同迷宫中迷失方向的孩子，在遇到路径交叉点时，容易“迷失”原始的感知线索。
空间想象力匮乏：文字描述无法精确还原三维空间，导致模型在推断积木的侧视图或隐藏体积时，常出现层数误计或投影错误。
视觉模式归纳障碍：它们更倾向于僵硬的“属性计数”，而非理解模式的变化，难以从少量视觉样本中提炼出深层因果逻辑。

痛苦与重生：通往具身智能的必经之路

此结论无疑给当前火热的“具身智能”领域带来了巨大压力。如果一个AI连六岁孩童都能轻松应付的物理环境都无法准确识别，又如何能期望它在真实物理世界中安全地辅助人类？

为解决这一瓶颈，研究者提出了两条演化路径：一是以“强化学习视觉推理”（RLVR），通过显式的中间推理来缓解感知不确定性；二则是要彻底拥抱“原生多模态推理”，让模型像Sora 2那样，直接在像素空间内进行“视觉计算”，而非依赖语言。

这场AI发展史上的“进化逆行”，提醒我们通往通用人工智能（AGI）的道路，或许不在于攻克更难的数学难题，而在于掌握那些六岁孩童信手拈来的益智游戏。

您是否想了解更多关于BabyVision测试细节，或是回顾这份完整的研发报告？

免责声明：本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿，凡在本网站出现的信息，均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性，但不保证有关资料的准确性及可靠性，读者在使用前请进一步核实，并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏，概不负任何法律责任。任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时，可联系本站进行审核删除。