阿里云通义推出强化学习新方法SAPO，提升大语言模型稳定性和效能

在大模型领域，算力与算法的军备竞赛从未停歇。特别是在强化学习（RL）应用于语言模型（LLM）的训练过程中，如何在高维度、动态变化的状态空间中保持策略优化的稳定性和高效性，一直是个棘手的挑战。

近期，来自阿里通义千问团队的一项研究，为这个难题抛出了一个颇具匠心的解决方案：Soft Adaptive Policy Optimization (SAPO)。这项技术旨在直接解决当前大模型在RL训练中普遍存在的策略优化不稳定的顽疾，尤其是在面对海量参数和混合专家（MoE）架构时，其重要性不言而喻。

此前，诸如GRPO和GSPO等传统的强化学习方法，为了确保训练过程中策略更新的稳定性，普遍采用了“硬截断”（hard clipping）的技术来约束重要性比例（importance ratios）的范围。然而，这种“一刀切”的方式，在实践中却暴露出了不少弊端：

首先，过于严苛的截断往往会“误伤”大量有效的学习信号。尤其是在GSPO中，如果某个词元（token）的表现不佳，整个序列的梯度都可能被舍弃，这无疑是种巨大的信息浪费。其次，截断范围的调整本身就是一个高度敏感且困难的任务。截断范围过小，大量样本产生的梯度信号可能无法被有效利用；反之，范围过大，又可能引入噪声，反而破坏了学习的稳定性。这些问题在规模巨大的混合专家（MoE）模型中，更是被放大化，成为制约性能进一步提升的瓶颈。

正是在这样的背景下，通义千问团队提出了SAPO，一种全新的强化学习范式，其核心目标是显著提升大语言模型在RL训练下的稳定性和终极表现。SAPO用一种平滑且具备温度控制的门控函数（gate function）巧妙地取代了传统的硬截断策略。这种设计能够更精细地保留有效的梯度信息，同时又不失策略优化的稳定性。其独特之处主要体现在以下几个方面：

1. **连续信任区域（Continuous Trust Region）**：SAPO有效规避了由硬截断带来的不连续性问题，使得策略更新更加平滑自然。

2. **序列级一致性（Sequence-Level Consistency）**：新方法确保了不会因为个别词元的不佳表现而整序列丢弃，最大限度地保留了宝贵的训练数据信息。

3. **词元级自适应（Token-Level Adaptability）**：SAPO能够降低异常词元对整体学习过程的影响，使得模型更加鲁棒。

值得一提的是，SAPO在处理正向和负向词元时，还采用了非对称的温度设计。这意味着模型能够依据词元的性质进行差异化处理，进一步优化了学习效果。在一系列实验验证中，SAPO在不同规模的密集模型（dense models）和MoE模型上，均展现出了令人瞩目的性能提升。

为了全面验证这一创新方法的效力，通义千问团队精心设计了一系列评测任务。这些任务涵盖了数学推理、代码生成、逻辑推理以及多模态数学推理等多个关键领域。结果显示，SAPO在各项任务上均显著优于GRPO和GSPO等传统方法。这项突破不仅是阿里通义在大语言模型领域的一次重要技术创新，更为未来人工智能的研究方向开辟了新的可能性。

详细技术细节，可参阅论文：https://arxiv.org/abs/2511.20347

免责声明：本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿，凡在本网站出现的信息，均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性，但不保证有关资料的准确性及可靠性，读者在使用前请进一步核实，并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏，概不负任何法律责任。任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时，可联系本站进行审核删除。

一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30	31

阿里云通义推出强化学习新方法SAPO，提升大语言模型稳定性和效能

相关推荐

发表回复