近期,一项名为 SuperCLUE-VLM12 的月度多模态视觉语言基准评估报告新鲜出炉,全球范围内的大型人工智能模型在此次评测中展开了一场激烈的较量。此次评估从基础认知、视觉推理以及视觉应用三大核心维度出发,全方位地检验了各模型在“看”和“想”方面的真实实力。

在这场智能力量与视觉感知力的比拼中,来自谷歌的
此外,百度的人工智能模型 ERNIE-5.0-Preview 以及阿里巴巴的 Qwen3-vl 也成功跻身前五名之列。其中,Qwen3-vl 的表现尤为突出,它成为了榜单上首个突破 70 分大关的开源模型,凭借其强大的视觉分析能力,为开源领域的发展做出了重要的贡献。
与此形成对比的是,一些在多模态领域深耕多年的国际一线模型,在此次评估中似乎未能交出令人满意的答卷。例如,Anthropic 推出的 Claude-opus-4-5 获得了 71.44 分;而此前常居前列的 OpenAI 的 GPT-5.2 (high) 则出人意料地跌出第一梯队,以 69.16 分的成绩排名相对靠后。这一排名的变化,预示着多模态人工智能领域的竞争已进入更加白热化的新阶段。技术迭代的速度与模型能力的飞跃,正不断重塑着行业格局。
核心看点:
-
🏆 全球领跑者: 谷歌 Gemini-3-pro 以 83.64 分夺魁,并在基础认知、视觉推理、视觉应用三大维度上均取得了第一名的成绩。
-
🇨🇳 国产新突破: 商汤 SenseNova 和字节跳动抖音分别获得第二、三名,中国模型在视觉理解能力上的竞争力日益凸显。
-
📊 格局重塑: Qwen3-vl 成为首个突破 70 分的开源模型,而 GPT-5.2 (high) 在此次视觉评测中表现不尽如人意,排名靠后。