DeepSeek R1模型升级,思维深度提升,表现逼近国际顶尖水平!

中国人工智能企业DeepSeek(深度求索)于近期(5月29日晚间)正式宣布,其R1模型迎来一次重要的迭代升级,新版本命名为DeepSeek-R1-0528。此次升级备受业界关注,预示着国产大模型在思维深度和推理能力上的一次显著跃升。

据官方披露,DeepSeek-R1-0528依然基于2023年12月发布的DeepSeek V3 Base模型架构,但其核心改进在于后训练阶段投入了更大的算力资源。这种策略上的转变,直接带来了模型在思维深度和复杂推理能力上的显著提升。这意味着模型在解决复杂问题时,拥有了更强的分析、归纳和演绎能力,而这些能力是衡量AI智能水平的关键指标。

评估结果显示,DeepSeek-R1-0528在数学、编程以及通用逻辑等多个关键领域都取得了卓越的成绩。尤其值得关注的是,该模型不仅在国内同类模型中表现突出,其整体性能也已经逼近国际顶尖模型,例如o3和Gemini-2.5-Pro等。考虑到目前国内大模型发展普遍面临的挑战,例如算力资源、数据质量以及人才储备等,DeepSeek取得的这一进展,无疑是中国人工智能技术进步的重要里程碑。

在复杂推理任务上的性能提升是本次升级的一大亮点。以AIME 2025(美国数学邀请赛)测试为例,DeepSeek-R1-0528的准确率从旧版本的70%大幅度提升至87.5%。这种百分比上的显著提升反映了模型在处理高难度、需要深度分析的问题时的能力大幅增强。 这一增长源于模型思维深度的提升,使其能够更加深入地理解问题本质并找到合适的解决方案。

性能提升的背后,是模型在解题过程中调用tokens数量的显著增加。在AIME 2025测试集上,旧版模型平均每题使用12K tokens,而新版模型则达到了23K tokens。这意味着新版模型在生成答案时,进行了更为全面、细致的推理过程, 从而提升了答案的准确性。 Token数量的增加也反映了模型对于上下文信息更为充分的利用,以及更强的长文本处理能力。

除了自身能力的提升,DeepSeek还巧妙地将DeepSeek-R1-0528的“思维链”知识迁移到小型模型上。他们利用DeepSeek-R1-0528对Qwen3-8B Base模型进行了蒸馏训练,成功推出了DeepSeek-R1-0528-Qwen3-8B模型。这款仅有80亿参数的模型,在数学测试AIME 2024中的表现令人印象深刻,其得分仅次于DeepSeek-R1-0528,并超越了Qwen3-8B(+10.0%),与Qwen3-235B旗鼓相当。 这一成果体现了 DeepSeek 在模型知识迁移和优化方面的创新能力, 为小模型实现高性能提供了一种有效途径。

DeepSeek强调,DeepSeek-R1-0528所展现的“思维链”能力,对于学术界和工业界都具有重要价值。它有望推动推理模型的研究和发展,并为小模型的开发提供新的思路和方法。深度求索的这一表态,也暗示着他们将继续致力于大模型领域的创新和探索,积极推动相关技术在各行各业的应用。

除了推理能力,新版DeepSeek R1还在减少模型“幻觉”方面进行了优化。针对性改进后,新模型在改写润色、总结摘要、阅读理解等场景中,幻觉率降低了约45%~50%。这意味着模型能够为用户提供更加真实可靠的信息,并降低信息误导的风险。 这一改进对于提升用户体验至关重要, 尤其是在需要模型提供事实性信息的应用场景中。

同时,新版R1模型在创意写作方面也取得了显著进步。通过对议论文、小说、散文等文体的优化,模型能够生成篇幅更长、结构更完整、内容更丰富的长篇作品。此外,其写作风格也更加贴近人类的偏好,生成文本的自然度和流畅度得到了显著提升。 这使得模型能够更好地辅助人类进行创意写作, 甚至能够独立完成一些文学创作任务。

DeepSeek R1模型升级,思维深度提升,表现逼近国际顶尖水平!

免责声明:本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时,可联系本站进行审核删除。
(0)
AI快讯网编辑-青青AI快讯网编辑-青青
上一篇 2025年 5月 29日 下午11:55
下一篇 2025年 5月 30日 上午1:22

相关推荐

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

欢迎来到AI快讯网,开启AI资讯新时代!