中文大模型测评出炉：豆包跻身全球第一梯队小米MiMo上榜

Rain科技3月30日消息，备受关注的中文大模型基准测评SuperCLUE近日公布了其2026年3月的评估结果，共有来自国内外共计22款主流模型参与此次性能角逐。

字节跳动旗下的人工智能助手豆包，其具体版本Doubao-Seed-2.0-pro-260215(high)以71.53的综合得分荣登国内榜首，并成功进入全球顶尖模型行列；与此同时，小米集团推出的MiMo-V2系列两款模型也双双上榜，显示出国内厂商在AI领域的积极布局。

此次测评体系设计严谨，涵盖了数学推理、科学推理、代码生成、文本理解、对话能力与任务规划六大核心维度，旨在全方位检验模型的综合智能水平。从总分排名来看，海外闭源模型依然展现出强劲实力，Anthropic的Claude-Opus-4.6(max)、Google的Gemini-3.1-Pro-Preview(high)以及OpenAI的GPT-5.4(xhigh)分列全球前三。

值得注意的是，国产模型豆包的表现尤为亮眼，其总分与排名第三的GPT-5.4仅相差0.95分，显示出在多项能力上的快速追赶态势。特别是在衡量模型自主性和执行力的“智能体任务规划”维度，豆包甚至实现了对部分海外领先模型的超越，位列全球前五，这标志着国产模型在复杂场景应用方面取得了实质性突破。

小米公司的表现也同样值得关注。其闭源版本模型MiMo-V2-Pro以60.67分在闭源模型榜单中占据前列位置，并在数学推理任务中获得了84.03的高分，体现了其在逻辑计算领域的专项优势。而开源版本MiMo-V2-Flash虽总分49.97分排名相对靠后，但在代码生成等特定应用场景中展现了潜力，为开发者社区提供了有价值的开源选择。

本次测评结果还揭示了一个重要趋势：国产模型整体进步显著，尤其在开源赛道优势突出。来自国内的Kimi-K2.5-Thinking、Qwen3.5-397B-A17B-Thinking等开源模型包揽了开源榜前三名，得分大幅领先于海外同类开源模型。这反映出中国AI研发团队不仅在技术追赶上发力，更在开源生态建设和技术共享方面走在了前沿，可能对未来全球大模型技术的发展格局产生深远影响。

综合来看，此次测评不仅是一次简单的性能排名，更清晰地勾勒出当前全球大模型竞争的态势。海外巨头在综合性能上依然领跑，但国产模型正通过聚焦特定优势领域（如数学推理）、深耕开源生态以及在关键维度（如任务规划）实现单点突破，形成了多层次、差异化的追赶路径。这种多元化的发展策略，有助于推动技术应用的百花齐放，并可能加速大模型技术在实际产业中的落地与融合。

文章内容举报

免责声明：本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿，凡在本网站出现的信息，均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性，但不保证有关资料的准确性及可靠性，读者在使用前请进一步核实，并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏，概不负任何法律责任。任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时，可联系本站进行审核删除。

一	二	三	四	五	六	日
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28	29
30	31

中文大模型测评出炉：豆包跻身全球第一梯队 小米MiMo上榜

相关推荐

发表回复

中文大模型测评出炉：豆包跻身全球第一梯队小米MiMo上榜