智行机器实验室博客发布策略蒸馏新成果：Qwen启发下的显著成效

在人工智能的浪潮中，模型大小与能力之间的权衡始终是核心议题。大型模型固然强大，但其高昂的训练和部署成本限制了其广泛应用。近期，一家名为Thinking Machines Lab（TML）的技术团队，以其独到的视角和精湛的技艺，为我们带来了一套名为“策略蒸馏”（On-policy Distillation）的创新训练方法。这套方法的核心在于，它巧妙地将强化学习中精准的纠错能力，与监督微调细致入微的反馈机制相结合，从而赋予了轻量级语言模型比肩巨头的数学推理和个性化服务实力。

TML的技术突破，正如其CEO米拉·穆拉蒂所言，为成本效益的AI应用打开了新的大门。过去，想要让小型模型在特定领域脱颖而出，往往需要耗费巨大的计算资源。而“策略蒸馏”的出现，让这种“小身材、大智慧”的梦想成为可能。我们看到，在AIME’24这一极具挑战性的数学推理基准测试中，采用该方法训练的模型，不仅在性能上超越了传统强化学习方案，更避免了后者常见的“复合错误”这一顽疾。这不仅是技术上的进步，更是对AI落地效率的一次重要推动。

TML的研究团队为此设计了一个三阶段的训练流程，堪称步步为营，环环相扣。首先，模型经历一次通用的预训练，打下坚实的语言基础；随后，通过领域文档进行“中训练”（Intermediate Training），让模型“消化”专业知识，如同为模型量身定制了一份“教科书”。而最关键的，是最后的“策略蒸馏”后训练阶段。这一阶段，模型将以“学徒”的身份，通过逐token的密集反馈，精准修正每一个推理步骤，直至达到“专家”级别的表现。这种精细化的打磨，远非简单地给予“对”或“错”的反馈，而是深入到逻辑链的每一个节点。

让我们看看具体的实验数据。在数学推理场景下，以Qwen3-8B模型为基石，仅需150个训练步骤，“策略蒸馏”就让模型在AIME’24的准确率飙升至70%。与此形成鲜明对比的是，传统强化学习方法需要惊人的17，920个GPU小时才能触及相似的准确率。效率的提升，归功于蒸馏过程中所使用的反向KL散度损失函数。这个函数扮演着“显微镜”的角色，能够精确捕捉学生模型与教师模型在每个生成token上的概率分布差异，从而指导模型进行最有效的学习。

在技术实现上，TML构建了一个包含高性能教师模型评估的迭代训练框架。每当学生模型生成一个推理轨迹，高性能教师模型就会对其中的每一个token进行“评分”。通过计算反向KL散度，系统能够精准定位错误发生的环节，是运算顺序出了岔子，还是基础算术上的失误，都能一目了然。这种深度的错误分析，是提升模型逻辑严谨性的关键。

“策略蒸馏”的强大之处，还在于其出色的适应性。在个性化助手开发实验中，当模型先通过内部文档进行“中训练”后，专业知识能力显著增强，但遵循指令的能力却有所下滑。这时，TML巧妙地引入“策略蒸馏”，以早期版本模型作为“导师”，进行行为矫正。结果令人欣喜：指令响应能力得到恢复，且专业知识水平依旧保持。这种持续优化的能力，为模型在部署后进行动态更新和迭代提供了极具潜力的解决方案。

数据利用效率，是“策略蒸馏”在与传统方法对比中的另一大亮点。实验表明，单个训练提示通过多次采样生成的轨迹，能够提供比传统强化学习更丰富、更具指导意义的监督信号。这意味着，即便在数据采集受限的场景下，开发者依然能够通过更高效的方式完成模型训练，极大地拓展了AI应用的部署边界。

值得注意的是，这项成果的达成，离不开对Qwen3系列模型深入的研究。TML团队坦言，Qwen3团队的相关研究为他们的工作提供了重要的启发，其公开的模型架构和训练数据，为实验验证提供了坚实的基础。博客原文中“Qwen”一词的高频出现，生动地说明了开源模型在推动AI技术进步中的核心作用。开放与协作，正在成为AI领域最强劲的驱动力之一。

令人振奋的是，Thinking Machines Lab已将这套完整的“策略蒸馏”技术实现方案，通过Tinker训练平台进行了全面开源。从数据准备到模型部署，开发者可以获得全流程的指导，轻松复现数学推理和个性化助手等典型应用场景。TML团队的最终目标清晰而坚定：这套高度复用且易于上手的训练范式，不仅能加速学术研究的步伐，更能为企业级AI应用的开发，提供一条低成本、高效率的全新路径。

免责声明：本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿，凡在本网站出现的信息，均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性，但不保证有关资料的准确性及可靠性，读者在使用前请进一步核实，并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏，概不负任何法律责任。任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时，可联系本站进行审核删除。

一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

智行机器实验室博客发布策略蒸馏新成果：Qwen启发下的显著成效

相关推荐

发表回复