7月9日,国内权威大模型评测机构SuperCLUE发布了《中文大模型基准测评2024上半年报告》。报告显示,360智脑大模型(360GPT2-pro)在SuperCLUE基准6月份测评中,取得总分72分,超过GPT-3.5-Turbo-0125,位列国内大模型第四名,稳居大模型第一梯队,并入选SuperCLUE“卓越领导者”模型象限。

《中文大模型基准测评2024上半年报告》对国内外具有代表性的33个大模型进行了综合性测评,采用了多维度、多层次的评估方案。报告将大模型能力划分为理科、文科和Hard三大维度,真实反映了大模型的通用能力。报告指出,国内大模型市场现已形成三大梯队的格局,360gpt2-pro位列第一梯队,凭借其在基础能力和场景应用上的领先优势,入选“卓越领导者”模型象限。这意味着360gpt2-pro正通过快速迭代、技术积累和资源优势,引领着国内大模型发展,并不断缩小与国际领先模型的差距。

值得注意的是,360gpt2-pro在文科方面取得了75分的优异成绩,排名第二,其中生成创作单项排名第一,与GPT-4o处于同一水平。相比其他国内外头部大模型,360智脑大模型在高语言处理质量、内容生成和理解水平等文科任务上展现出更强的竞争力,这表明360智脑在中文语义理解和内容创作能力方面已经达到国际先进水平。
在SuperCLUE中文检索增强生成测评中,360智脑RAG排名第四,进一步缩小了国内外模型的差距,体现了其在中文检索生成能力上的竞争力。此前,360宣布开源两款大模型360Zhinao-search和360Zhinao-1.8B-Reranking,这两款模型专注于提升长文本检索效果,并在RAG技术的检索和排序阶段进行了模型优化,结合此前开源的360K长文本能力,形成了完整的RAG技术链路。这一系列举措为行业提供了一种可靠的降低大模型“幻觉”概率的方法,将进一步促进大模型在信息检索和知识问答等领域的应用。
目前,360智脑大模型已形成多参数、多模态、多场景应用的大模型矩阵,并且首批通过了国家标准符合性测试,综合能力位列大模型第一梯队。360不仅在技术方面不断夯实基础,更积极将模型能力应用到实际场景中,打造出新场景新应用,以解决用户的实际需求和痛点。今年以来,360重塑了国民级产品,相继推出了360AI浏览器、360AI搜索等产品。其中,360AI搜索连续登榜全球AI产品数据增速榜榜首,成为国内AI搜索引擎市场的领跑者。