SuperCLUE发布《中文大模型基准测评2024上半年报告》，360智脑大模型稳居大模型第一梯队

7月9日，国内权威大模型评测机构SuperCLUE发布了《中文大模型基准测评2024上半年报告》。报告显示，360智脑大模型（360GPT2-pro）在SuperCLUE基准6月份测评中，取得总分72分，超过GPT-3.5-Turbo-0125，位列国内大模型第四名，稳居大模型第一梯队，并入选SuperCLUE“卓越领导者”模型象限。

《中文大模型基准测评2024上半年报告》对国内外具有代表性的33个大模型进行了综合性测评，采用了多维度、多层次的评估方案。报告将大模型能力划分为理科、文科和Hard三大维度，真实反映了大模型的通用能力。报告指出，国内大模型市场现已形成三大梯队的格局，360gpt2-pro位列第一梯队，凭借其在基础能力和场景应用上的领先优势，入选“卓越领导者”模型象限。这意味着360gpt2-pro正通过快速迭代、技术积累和资源优势，引领着国内大模型发展，并不断缩小与国际领先模型的差距。

SuperCLUE发布《中文大模型基准测评2024上半年报告》，360智脑大模型稳居大模型第一梯队

值得注意的是，360gpt2-pro在文科方面取得了75分的优异成绩，排名第二，其中生成创作单项排名第一，与GPT-4o处于同一水平。相比其他国内外头部大模型，360智脑大模型在高语言处理质量、内容生成和理解水平等文科任务上展现出更强的竞争力，这表明360智脑在中文语义理解和内容创作能力方面已经达到国际先进水平。

在SuperCLUE中文检索增强生成测评中，360智脑RAG排名第四，进一步缩小了国内外模型的差距，体现了其在中文检索生成能力上的竞争力。此前，360宣布开源两款大模型360Zhinao-search和360Zhinao-1.8B-Reranking，这两款模型专注于提升长文本检索效果，并在RAG技术的检索和排序阶段进行了模型优化，结合此前开源的360K长文本能力，形成了完整的RAG技术链路。这一系列举措为行业提供了一种可靠的降低大模型“幻觉”概率的方法，将进一步促进大模型在信息检索和知识问答等领域的应用。

目前，360智脑大模型已形成多参数、多模态、多场景应用的大模型矩阵，并且首批通过了国家标准符合性测试，综合能力位列大模型第一梯队。360不仅在技术方面不断夯实基础，更积极将模型能力应用到实际场景中，打造出新场景新应用，以解决用户的实际需求和痛点。今年以来，360重塑了国民级产品，相继推出了360AI浏览器、360AI搜索等产品。其中，360AI搜索连续登榜全球AI产品数据增速榜榜首，成为国内AI搜索引擎市场的领跑者。

免责声明：本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿，凡在本网站出现的信息，均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性，但不保证有关资料的准确性及可靠性，读者在使用前请进一步核实，并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏，概不负任何法律责任。任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时，可联系本站进行审核删除。

一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30	31

SuperCLUE发布《中文大模型基准测评2024上半年报告》，360智脑大模型稳居大模型第一梯队

相关推荐

发表回复