在大模型领域,算力与算法的军备竞赛从未停歇。特别是在强化学习(RL)应用于语言模型(LLM)的训练过程中,如何在高维度、动态变化的状态空间中保持策略优化的稳定性和高效性,一直是个棘手的挑战。
近期,来自阿里通义千问团队的一项研究,为这个难题抛出了一个颇具匠心的解决方案:Soft Adaptive Policy Optimization (SAPO)。这项技术旨在直接解决当前大模型在RL训练中普遍存在的策略优化不稳定的顽疾,尤其是在面对海量参数和混合专家(MoE)架构时,其重要性不言而喻。

此前,诸如GRPO和GSPO等传统的强化学习方法,为了确保训练过程中策略更新的稳定性,普遍采用了“硬截断”(hard clipping)的技术来约束重要性比例(importance ratios)的范围。然而,这种“一刀切”的方式,在实践中却暴露出了不少弊端:
首先,过于严苛的截断往往会“误伤”大量有效的学习信号。尤其是在GSPO中,如果某个词元(token)的表现不佳,整个序列的梯度都可能被舍弃,这无疑是种巨大的信息浪费。其次,截断范围的调整本身就是一个高度敏感且困难的任务。截断范围过小,大量样本产生的梯度信号可能无法被有效利用;反之,范围过大,又可能引入噪声,反而破坏了学习的稳定性。这些问题在规模巨大的混合专家(MoE)模型中,更是被放大化,成为制约性能进一步提升的瓶颈。
正是在这样的背景下,通义千问团队提出了SAPO,一种全新的强化学习范式,其核心目标是显著提升大语言模型在RL训练下的稳定性和终极表现。SAPO用一种平滑且具备温度控制的门控函数(gate function)巧妙地取代了传统的硬截断策略。这种设计能够更精细地保留有效的梯度信息,同时又不失策略优化的稳定性。其独特之处主要体现在以下几个方面:
1. **连续信任区域(Continuous Trust Region)**:SAPO有效规避了由硬截断带来的不连续性问题,使得策略更新更加平滑自然。
2. **序列级一致性(Sequence-Level Consistency)**:新方法确保了不会因为个别词元的不佳表现而整序列丢弃,最大限度地保留了宝贵的训练数据信息。
3. **词元级自适应(Token-Level Adaptability)**:SAPO能够降低异常词元对整体学习过程的影响,使得模型更加鲁棒。
值得一提的是,SAPO在处理正向和负向词元时,还采用了非对称的温度设计。这意味着模型能够依据词元的性质进行差异化处理,进一步优化了学习效果。在一系列实验验证中,SAPO在不同规模的密集模型(dense models)和MoE模型上,均展现出了令人瞩目的性能提升。
为了全面验证这一创新方法的效力,通义千问团队精心设计了一系列评测任务。这些任务涵盖了数学推理、代码生成、逻辑推理以及多模态数学推理等多个关键领域。结果显示,SAPO在各项任务上均显著优于GRPO和GSPO等传统方法。这项突破不仅是阿里通义在大语言模型领域的一次重要技术创新,更为未来人工智能的研究方向开辟了新的可能性。
详细技术细节,可参阅论文:https://arxiv.org/abs/2511.20347