Thinking Machines 推出的新策略蒸馏技术，让 LLM 后训练效率大幅提升，开启高效学习新时代

在这个AI进化日新月异的时代，模型训练的效率和性能始终是大家关注的焦点。近日，一个名为THINKING MACHINES的研究团队推出了一项让业界眼前一亮的新技术——“在线策略蒸馏”（On-Policy Distillation）。这项开源的方法，巧妙地将强化学习（RL）与监督微调（SFT）的优点融为一体，尤其在数学推理和个性化知识迁移等领域，展现出了惊人的训练效率提升。其核心理念是让高效的“教师”模型实时“指导”学习中的“学生”模型，从而将稀疏的最终反馈转化为更密集、更有指导意义的过程反馈。这项技术已经在其官方博客上进行了详细披露，为我们打开了通往更高效模型训练新世界的大门。

说起大语言模型的后训练，我们常常要在这两种范式之间纠结：一方面，强化学习（RL）以其试错机制，能够直接瞄准问题核心进行修正，但其最大的短板在于效率，往往需要大量的交互和稀疏的最终奖励，训练起来费时费力。另一方面，监督微调（SFT）则通过“手把手”的逐词指导，学习速度快了很多，但一旦数据出现偏差，就容易“养出”一个只会死记硬背、泛化能力差的模型，甚至出现复合误差。

“在线策略蒸馏”正是为了解决这一两难境地而生。它的精髓在于，引入一个能力超群的“教师”模型，由它来实时评估“学生”模型在生成每一个词/token时的表现，并给出“打分”。这样一来，原本只在最终才给出的“奖励”信号，就被转化成了贯穿整个生成过程的、更加精细化的“过程奖励”。

从技术架构来看，这个训练框架的搭建颇具匠心，大致可以分为四个关键步骤：

首先，你需要一个强大的“教师”模型。它被部署为一个独立的评分模块，只负责“指导”和“评估”，而不会参与到“学生”模型的梯度更新里，保持其“优等生”的风范。
接着，“学生”模型便可以自由发挥，自主生成完整的回答序列。在生成的过程中，它会乖乖地记录下每一步的对数概率，就像是在写一份详细的学习笔记。
之后，“教师”模型就会“亲临指导”，在相同的上下文条件下，对“学生”模型的生成结果进行逐词的精细评估。它会计算“学生”模型和自己（教师）的策略之间差异，用KL散度来衡量。
最后，通过“反向”的KL散度作为惩罚信号，来引导“学生”模型逐步收敛，尽量减少与“教师”策略的偏差。

实验数据更是让人眼前一亮，特别是在数学推理这个对逻辑清晰度要求极高的领域。“在线策略蒸馏”展现出了惊人的效率提升。举个例子，研究人员将一个拥有320亿参数的Qwen3教师模型的能力，迁移到了一个80亿参数的学生模型上。令人难以置信的是，仅需150个训练步骤，学生模型的AIME’24数学竞赛基准得分就从60%飙升到70%！与传统的强化学习相比，其计算效率提升了50-100倍；而与纯粹的监督微调相比，成本反而降低了9-30倍。这种效率的飞跃，很大程度上归功于教师模型能够精准地识别出那些导致错误的关键路径。比如在物理常识推理中，它不会只盯着最终答案对错与否，而是能优先惩罚那些导致逻辑链条断裂的早期错误，这才是真正的高效指导。

在模型个性化知识迁移的场景下，“在线策略蒸馏”的表现同样不逊色。研究团队模拟了企业知识库迁移的实验。他们发现，在注入新知识时，传统的监督微调会让模型的原有指令遵循能力大幅下滑，从85%直接跌至45%！简直是“顾此失彼”。而采用“在线策略蒸馏”的“两阶段”训练策略——先用监督微调学习新知识，然后以原始模型为教师进行在线策略蒸馏来恢复能力——则能让指令遵循能力回升到83%，新知识掌握度也从36%提升到41%。这有效地解决了模型在学习新知识时容易出现的“灾难性遗忘”问题。

如果从信息论的角度来剖析，“在线策略蒸馏”之所以能实现效率上的突破，在于其“逐词监督”的机制。相比于强化学习在每个训练回合里只提供O(1)比特的信息，这种方法在每个序列中可以提供O(N)比特（N为序列长度）的过程信息。这种密集的反馈，使得模型在处理长序列任务时，能够更精确地找到错误的根源。比如，在演算数学证明时，它能清晰地区分是计算错误还是逻辑漏洞。更有趣的是，研究表明，仅仅通过单个训练提示进行多轮的蒸馏，学生模型的性能就能接近经过海量数据训练的教师模型水平，这无疑大大降低了对超大规模数据集的需求。

在技术实现层面，该方法已经通过Tinker训练API进行了验证。其核心优势在于，教师模型只需要进行概率计算，而无需进行反向传播，这极大地压缩了计算开销。而且，研究团队还特别强调，使用“反向KL散度”作为损失函数，具有“不可被利用”的特性。这意味着它不会像传统的奖励模型那样，容易被模型“欺骗”而找到次优的策略。相反，它能驱动模型学习到教师模型特有的、更优的行为模式。

最令人兴奋的是，这项技术已经完全开源！开发者们可以通过GitHub上的Tinker Cookbook模块，轻松地访问和使用它。这项突破为那些资源有限但又面临模型定制化需求的场景，特别是需要持续学习新知识的企业应用，提供了一个全新的思路。通过“监督微调注入知识+在线策略蒸馏恢复能力”的交替训练模式，其优势尤为突出。可以预见，随着更多实践应用的落地，“在线策略蒸馏”有望成为推动大模型走向更广泛实用化的关键技术之一。在这个AI竞速赛道上，高效的训练方法，无疑会成为决定胜负的关键因素。

免责声明：本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿，凡在本网站出现的信息，均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性，但不保证有关资料的准确性及可靠性，读者在使用前请进一步核实，并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏，概不负任何法律责任。任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时，可联系本站进行审核删除。

一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

Thinking Machines 推出的新策略蒸馏技术，让 LLM 后训练效率大幅提升，开启高效学习新时代

相关推荐

发表回复