在AI Agent(智能体)赛道狂飙的当下,如何让代码Agent真正学会“自己动手改Bug”,成了业界突破的关键。传统强化学习往往卡在单步决策上,但真实开发场景需要多轮工具调用、上下文管理甚至与操作系统交互——这种长程任务的训练,一直是个棘手难题。
最近,NVIDIA研究团队悄然开源了一个名为Polar的AI框架,试图用一种优雅的方式破局:它不重写现有Agent框架(比如Codex、Claude Code和Qwen Code),而是像“适配器”一样挂在模型API的边界上,把GRPO(广义相对策略优化)训练方法无缝接入这些框架,同时保留它们原有的工具调用、上下文组织和补丁提交逻辑。

GRPO本身是一种强化学习优化技术,通过奖励信号调整模型策略,让模型在多步决策任务中学会更优的行为模式。NVIDIA这次将其用于代码Agent训练,核心目标是在真实的工具调用和补丁提交流程中,持续提升模型表现。从技术角度看,这相当于给现有Agent框架装上了一套“可训练的神经系统”。
客观来看,Polar的巧妙之处在于系统架构设计:它不试图修改Agent框架的执行环境(比如复杂的代码仓库操作流程),而是将Agent放置在推理服务器与执行框架之间。Polar充当一个“模型代理”,支持各种请求风格,记录关键轨迹数据,并把这些数据转换成强化学习可用的训练信号。任务提交、会话调度、状态持久化等功能都被封装在内,通过优化初始化、执行和后处理流程,大幅度提升训练效率。
实验结果相当惊人:在SWE-Bench Verified基准测试中,使用Polar配合GRPO训练的Codex Agent,pass@1得分从3.8%飙升至26.4%,增长幅度达到594.74%。同时,训练效率也实现了质的飞跃——训练时间缩短约5.39倍,平均GPU利用率显著提高。这意味着,过去需要几天才能跑完的训练,现在可能只需几个小时,且资源消耗更低。
坦白说,这个方向的价值不限于代码Agent。Polar的设计理念——在不侵入现有框架的前提下引入强化学习训练——对于浏览器操作、系统交互等长程Agent任务同样具有参考意义。NVIDIA这次开源,等于把底层“训练管道”公开给了社区,后续开发者可以基于Polar快速为自己的Agent框架注入强化学习能力。
关键看点:
- 🛠️ NVIDIA开源Polar框架,让Codex等Agent框架无痛接入GRPO训练方法
- 📈 Codex在SWE-Bench测试中pass@1提升594.74%,从3.8%跃升至26.4%
- ⚙️ 训练时间减少约5.39倍,GPU利用率大幅优化,为长程Agent训练树立新标杆