一个令人担忧的消息是,开源大模型与闭源大模型之间的差距正日益拉大。然而,就在此时,DeepSeek 再次为开源社区带来了振奋的消息。
12 月 1 日,DeepSeek 正式发布了两款全新模型:DeepSeek V3.2 和 DeepSeek-V3.2-Speciale。
其中,DeepSeek V3.2 在性能上已经能够与 OpenAI 的 GPT-5 等顶级闭源模型展开有力竞争;而高性能版的 DeepSeek-V3.2-Speciale 则更是表现亮眼,在多项评测中超越了 GPT 系列模型,并与闭源模型中的佼佼者 Gemini 形成了不相上下的局面。
据了解,这些新模型在 IMO 2025(国际数学奥林匹克)和 CMO 2025(中国数学奥林匹克)等一系列高难度竞赛中取得了优异成绩,证明了其强大的数理逻辑和推理能力。
此次更新标志着 DeepSeek 在今年内连续第九次发布新模型,虽然大家翘首以盼的 R2 版本尚未到来。尽管如此,DeepSeek 的持续发力,尤其是在技术创新和性能提升方面,再次引发了行业关注。那么,DeepSeek 是如何利用更少的数据和更少的计算资源,创造出能够与国际顶尖模型抗衡的强大模型的呢?我们深入研读了其发布的论文,试图揭开其中的奥秘。
为了达到这一目标,DeepSeek 在新模型的设计和训练中,引入了多项创新性的技术和策略:
首先,DeepSeek 将稀疏注意力机制(DSA)正式集成到其核心模型中。
该技术曾在之前的 V3.2-EXP 版本中作为实验性功能出现,旨在评估其对模型性能的影响。如今,DSA 已被确立为 V3.2 系列模型的核心组成部分。

在与大型模型的交互过程中,用户可能已经注意到,即使是在同一个对话框内,随着交流内容的增多,模型有时会表现出“胡言乱语”的倾向,甚至可能中断对话。

这一现象主要源于传统大模型原生注意力机制的局限性。根据其工作原理,每一个新生成的 token 都需要与其之前的所有 token 进行计算,这导致了计算量随输入序列长度呈指数级增长。例如,当句子长度翻倍时,计算量将增加至原来的四倍;长度增加三倍,计算量则飙升至原来的九倍,这带来了巨大的计算负担和效率瓶颈。
DeepSeek 敏锐地察觉到这一问题,并提出了创新的解决方案:通过引入具有固定数量的“目录”(即稀疏注意力)来优化模型处理长文本的能力。这相当于为模型提供了一个学习重点的框架,使其在处理信息时,不再需要逐一审视全部内容,而是能够更高效地聚焦于关键部分。这种机制使模型在处理长篇内容时,只需计算当前 token 与目录中相关部分的关联,如同在阅读书籍时先查阅目录,然后根据兴趣深入阅读特定章节。
这种优化极大地增强了大模型处理长文本的能力。从下图可以看出,随着输入文本长度的增加,传统 V3.1 模型的推理成本呈现出快速增长的趋势;而采用了稀疏注意力机制的 V3.2 模型,其推理成本几乎保持不变,展现出了显著的效率提升。
这一改进无疑为模型带来了“超级省钱”的优势,极大地降低了计算资源消耗。
另一方面,DeepSeek 开始更加重视对开源模型进行后训练(post-training)的投入。大模型从预训练到最终评测的整个过程,可以类比为人类学生从小学到高中毕业的求学阶段。初期的预训练阶段,如同学生在小学到高二期间,系统性地学习各科教材、课后习题和模拟考题。在此阶段,不同模型(无论是闭源还是开源)都基本遵循相似的学习路径。
然而,在临近高考的冲刺阶段,即模型的后训练阶段,闭源模型通常会投入大量资源,聘请名师指导,进行大量的强化训练,以期在最终的考试中取得优异成绩。相比之下,过去的开源模型在此方面的力度普遍不足。DeepSeek 指出,许多开源模型可能已经具备了扎实的基础能力,但由于缺乏足够的“难题攻坚”训练,导致其最终表现未能达到最大潜力。
因此,DeepSeek 决定为自己的模型提供“名师辅导班”,设计了一套全新的强化学习协议。在完成大规模预训练后,DeepSeek 投入了超过总训练计算量的 10% 用于模型的“开小灶”,以弥补之前可能存在的短板。同时,DeepSeek 还推出了一个具备超长思考能力的特殊优化版本——DeepSeek V3.2-Speciale。
该版本的核心理念在于突破传统大模型的上下文长度限制。过去,为了控制模型在深度思考时产生的冗长输出,训练过程中通常会实施标注惩罚机制,对模型过长的思考内容进行扣分。然而,DeepSeek V3.2-Speciale 采取了截然不同的策略:它取消了这一惩罚项,反而积极鼓励模型进行更深入、更自由的思考,允许其按照自己的节奏和方式探索解决方案。
正是基于这一创新,DeepSeek V3.2-Speciale 成功地在多项评测中与近期备受关注的 Gemini 3 系列模型展开了激烈的较量。
此外,DeepSeek 还高度重视模型在智能代理(Agent)方面的能力提升。一方面,为了增强模型的基础能力,DeepSeek 构建了一个复杂的虚拟环境,并生成了数以万计的数据来辅助训练。具体而言,DeepSeek-V3.2 在后训练阶段整合了 24667 个真实代码环境任务、50275 个真实搜索任务、4417 个合成通用 Agent 场景以及 5908 个真实代码解释任务。
另一方面,DeepSeek 显著优化了模型调用外部工具的流程。过去,DeepSeek 模型的一个主要弊病在于将“思考”与“工具调用”割裂开来。一旦模型调用外部工具,之前的思考过程往往被视为结束,待工具返回结果后,模型需要重新梳理并开始新的推理过程。这种低效的设计导致了一种糟糕的用户体验:即使是查询“今天的日期”这样简单的问题,模型也可能需要从头开始重建整套推理链,白白浪费大量时间。
V3.2 版本彻底改变了这一现状。新的机制规定,在连续的工具调用过程中,模型的“思考过程”将得以保留。只有当用户发出新的查询时,本轮推理才会重置;而工具调用的记录和结果则会像聊天记录一样,持续保存在模型的上下文信息中。
通过实施模型架构优化、重视后训练以及强化 Agent 能力这“三板斧”,DeepSeek 成功地让其最新模型具备了与世界顶尖开源模型再次一较高下的实力。
当然,尽管取得了显著的进步,DeepSeek 的表现并非完美无缺。正如 DeepSeek 在其论文中所坦诚的那样,他们始终愿意承认自身的不足,并将其公之于众。这是一种可贵的科学态度,也极大地增进了用户和开发者的信任。
例如,在最新发布的论文中,DeepSeek 指出,虽然 DeepSeek V3.2-Speciale 能够与谷歌的 Gemini 3 Pro 互有胜负,但在回答相同问题时,DeepSeek 需要消耗更多的 Token。
为了验证这一点,我从“人类的最终考试”题库中随机抽取了一个问题,并同时提交给了 Gemini 3 Pro 和 DeepSeek V3.2-Speciale。
题目内容如下:“蜂鸟类在足形目中独特地拥有双侧成对的椭圆形骨,这是一种嵌入在膨胀的十字翼腱膜的尾状骨中,嵌入压低多粒骨的尾状骨。这块籽骨支撑着多少对对腱?请用数字回答。”
结果显示,Gemini 仅用了 4972 个 Tokens 就成功回答了问题。
而 DeepSeek 则消耗了 8077 个 Tokens 才完成解答。
从 Token 消耗量来看,DeepSeek 高出了近六成,确实存在一定的差距。但是,我们也不能忽略成本效益。DeepSeek 的模型虽然 Token 消耗量更大,但其价格却更为亲民。以刚才的例子为例,DeepSeek 的 8000 多个 Tokens 仅花费了我 0.0032 美元;而 Gemini 的不到 5000 Tokens 则收费 0.06 美元,价格高出 DeepSeek 约 20 倍。
如此看来,从性价比角度衡量,DeepSeek 的模型无疑更具吸引力。
回到论文的开篇,DeepSeek 曾指出,近半年来,开源模型与闭源模型之间的差距正在逐步扩大。但 DeepSeek 始终在用自己的方式,努力缩减这一差距。
DeepSeek 在节省算力、优化数据使用方面的努力,不禁让人联想到前段时间 OpenAI 前联合创始人 Ilya Sutskever 的一番话。他认为,一味地堆砌参数并非长久之计。

Ilya Sutskever 曾提到,早期的 AlexNet 仅使用了两块 GPU,Transformer 模型最初的实验规模也在 8-64 块 GPU 范围内。Transformer 模型的早期版本,即使以今天的标准来看,也仅相当于几块 GPU 的计算量,ResNet 也是如此。他强调,“没有哪篇论文仅仅依靠庞大的集群才能完成。” 他认为,算法研究的重要性与算力的堆砌同等重要。
这正是 DeepSeek 一直在践行的理念。从 V2 的 MoE(混合专家模型),到 V3 的 MLA(多头潜在注意力),再到 DeepSeek Math V2 的自验证机制,以及如今 V3.2 的稀疏注意力(DSA),DeepSeek 向我们展示的是,其技术的进步并非源于单纯的参数规模的扩张,而是始终在探索如何用有限的数据和资源,实现更大的智能跃升。正如“巧妇难为无米之炊”,DeepSeek 正在努力解决“无米之炊”的困境,用更精巧的算法实现突破。
那么,大家期待的 R2 版本,何时才能真正到来呢?













