Rain科技3月30日消息,备受关注的中文大模型基准测评SuperCLUE近日公布了其2026年3月的评估结果,共有来自国内外共计22款主流模型参与此次性能角逐。
字节跳动旗下的人工智能助手豆包,其具体版本Doubao-Seed-2.0-pro-260215(high)以71.53的综合得分荣登国内榜首,并成功进入全球顶尖模型行列;与此同时,小米集团推出的MiMo-V2系列两款模型也双双上榜,显示出国内厂商在AI领域的积极布局。
此次测评体系设计严谨,涵盖了数学推理、科学推理、代码生成、文本理解、对话能力与任务规划六大核心维度,旨在全方位检验模型的综合智能水平。从总分排名来看,海外闭源模型依然展现出强劲实力,Anthropic的Claude-Opus-4.6(max)、Google的Gemini-3.1-Pro-Preview(high)以及OpenAI的GPT-5.4(xhigh)分列全球前三。
值得注意的是,国产模型豆包的表现尤为亮眼,其总分与排名第三的GPT-5.4仅相差0.95分,显示出在多项能力上的快速追赶态势。特别是在衡量模型自主性和执行力的“智能体任务规划”维度,豆包甚至实现了对部分海外领先模型的超越,位列全球前五,这标志着国产模型在复杂场景应用方面取得了实质性突破。
小米公司的表现也同样值得关注。其闭源版本模型MiMo-V2-Pro以60.67分在闭源模型榜单中占据前列位置,并在数学推理任务中获得了84.03的高分,体现了其在逻辑计算领域的专项优势。而开源版本MiMo-V2-Flash虽总分49.97分排名相对靠后,但在代码生成等特定应用场景中展现了潜力,为开发者社区提供了有价值的开源选择。
本次测评结果还揭示了一个重要趋势:国产模型整体进步显著,尤其在开源赛道优势突出。来自国内的Kimi-K2.5-Thinking、Qwen3.5-397B-A17B-Thinking等开源模型包揽了开源榜前三名,得分大幅领先于海外同类开源模型。这反映出中国AI研发团队不仅在技术追赶上发力,更在开源生态建设和技术共享方面走在了前沿,可能对未来全球大模型技术的发展格局产生深远影响。
综合来看,此次测评不仅是一次简单的性能排名,更清晰地勾勒出当前全球大模型竞争的态势。海外巨头在综合性能上依然领跑,但国产模型正通过聚焦特定优势领域(如数学推理)、深耕开源生态以及在关键维度(如任务规划)实现单点突破,形成了多层次、差异化的追赶路径。这种多元化的发展策略,有助于推动技术应用的百花齐放,并可能加速大模型技术在实际产业中的落地与融合。
