文心一言、商汤领衔国产模型，Gemini 表现突出

近期，一项名为 SuperCLUE-VLM12 的月度多模态视觉语言基准评估报告新鲜出炉，全球范围内的大型人工智能模型在此次评测中展开了一场激烈的较量。此次评估从基础认知、视觉推理以及视觉应用三大核心维度出发，全方位地检验了各模型在“看”和“想”方面的真实实力。

在这场智能力量与视觉感知力的比拼中，来自谷歌的 Gemini-3-pro 以高达 83.64 分的绝对优势，稳居榜首。详细的分数分布揭示，该模型在基础认知、视觉推理和视觉应用这三项关键分指标上均实现了全面领先，充分展现了国际顶尖模型的深厚底蕴。在国内模型方面，表现同样亮眼。商汤科技的 SenseNova V6.5Pro 以 75.35 分的成绩位列第二，而字节跳动的抖音视觉版本则以 73.15 分紧随其后，获得了第三名的位置。值得注意的是，在基础认知这一环节，抖音在对复杂信息的理解能力上，甚至超越了一些国际上的老牌劲旅。

此外，百度的人工智能模型 ERNIE-5.0-Preview 以及阿里巴巴的 Qwen3-vl 也成功跻身前五名之列。其中，Qwen3-vl 的表现尤为突出，它成为了榜单上首个突破 70 分大关的开源模型，凭借其强大的视觉分析能力，为开源领域的发展做出了重要的贡献。

与此形成对比的是，一些在多模态领域深耕多年的国际一线模型，在此次评估中似乎未能交出令人满意的答卷。例如，Anthropic 推出的 Claude-opus-4-5 获得了 71.44 分；而此前常居前列的 OpenAI 的 GPT-5.2 (high) 则出人意料地跌出第一梯队，以 69.16 分的成绩排名相对靠后。这一排名的变化，预示着多模态人工智能领域的竞争已进入更加白热化的新阶段。技术迭代的速度与模型能力的飞跃，正不断重塑着行业格局。

核心看点：

🏆 全球领跑者： 谷歌 Gemini-3-pro 以 83.64 分夺魁，并在基础认知、视觉推理、视觉应用三大维度上均取得了第一名的成绩。
🇨🇳 国产新突破： 商汤 SenseNova 和字节跳动抖音分别获得第二、三名，中国模型在视觉理解能力上的竞争力日益凸显。
📊 格局重塑： Qwen3-vl 成为首个突破 70 分的开源模型，而 GPT-5.2 (high) 在此次视觉评测中表现不尽如人意，排名靠后。

免责声明：本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿，凡在本网站出现的信息，均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性，但不保证有关资料的准确性及可靠性，读者在使用前请进一步核实，并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏，概不负任何法律责任。任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时，可联系本站进行审核删除。

一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30	31

文心一言、商汤领衔国产模型，Gemini 表现突出

相关推荐

发表回复