备受业界瞩目的SuperCLUE近日发布了最新的《中文大模型基准测评报告》,详细呈现了2025年5月份中文大模型在通用能力上的最新进展,引发广泛关注。
本次测评聚焦于大模型的综合能力,涵盖了数学推理、科学推理、代码生成、智能体Agent、精确指令遵循以及文本理解与创作六大核心任务。报告采用了1579道多轮简答题,旨在全面、客观地评估大模型在不同应用场景下的表现。
测评结果显示,豆包1.5·深度思考模型(Doubao-1.5-thinking-pro)与商汤日日新V6多模态模型(SenseNova-V6 Reasoner)表现卓越,双双荣获金牌。值得注意的是,这两款国产大模型成功超越了Gemini 2.5 Flash Preview,领跑国内大模型的第一梯队,彰显了中国AI技术的蓬勃发展。
紧随其后的是第二梯队的大模型,包括DeepSeek-R1、NebulaCoder-V6、Hunyuan-T1和DeepSeek-V3。尽管未能摘得金牌,但这四款模型也展现出了强大的实力,反映出国内大模型整体水平的稳步提升。
SuperCLUE的报告中指出,国内外第一梯队大模型在中文领域的通用能力差距正在快速缩小。这一结论对于中国大模型产业而言无疑是一个积极的信号,预示着国产大模型在技术层面正逐渐接近国际领先水平。特别值得一提的是,Doubao-1.5-thinking-pro-205415和SenseNova V6 Reasoner在多个子任务中表现突出,证明了国内团队在特定领域的创新能力和技术积累。
作为行业内权威的通用大模型综合性测评基准,SuperCLUE的报告一直以来都备受关注。本次报告的发布,不仅客观地呈现了当前中文大模型的最新发展态势,也为未来大模型的技术研究和商业应用提供了重要的参考依据。未来的大模型发展趋势将更加注重效率、成本以及特定场景的深度优化。