Alibaba Tongyi

人工智能

阿里云通义推出强化学习新方法SAPO，提升大语言模型稳定性和效能

在大模型领域，算力与算法的军备竞赛从未停歇。特别是在强化学习（RL）应用于语言模型（LLM）的训练过程中，如何在高维度、动态变化的状态空间中保持策略优化的稳定性和高效性，一直是个棘…

2025年 12月 10日