英伟达发布开源AI框架Polar Codex，性能提升近600%

在AI Agent（智能体）赛道狂飙的当下，如何让代码Agent真正学会“自己动手改Bug”，成了业界突破的关键。传统强化学习往往卡在单步决策上，但真实开发场景需要多轮工具调用、上下文管理甚至与操作系统交互——这种长程任务的训练，一直是个棘手难题。

最近，NVIDIA研究团队悄然开源了一个名为Polar的AI框架，试图用一种优雅的方式破局：它不重写现有Agent框架（比如Codex、Claude Code和Qwen Code），而是像“适配器”一样挂在模型API的边界上，把GRPO（广义相对策略优化）训练方法无缝接入这些框架，同时保留它们原有的工具调用、上下文组织和补丁提交逻辑。

GRPO本身是一种强化学习优化技术，通过奖励信号调整模型策略，让模型在多步决策任务中学会更优的行为模式。NVIDIA这次将其用于代码Agent训练，核心目标是在真实的工具调用和补丁提交流程中，持续提升模型表现。从技术角度看，这相当于给现有Agent框架装上了一套“可训练的神经系统”。

客观来看，Polar的巧妙之处在于系统架构设计：它不试图修改Agent框架的执行环境（比如复杂的代码仓库操作流程），而是将Agent放置在推理服务器与执行框架之间。Polar充当一个“模型代理”，支持各种请求风格，记录关键轨迹数据，并把这些数据转换成强化学习可用的训练信号。任务提交、会话调度、状态持久化等功能都被封装在内，通过优化初始化、执行和后处理流程，大幅度提升训练效率。

实验结果相当惊人：在SWE-Bench Verified基准测试中，使用Polar配合GRPO训练的Codex Agent，pass@1得分从3.8%飙升至26.4%，增长幅度达到594.74%。同时，训练效率也实现了质的飞跃——训练时间缩短约5.39倍，平均GPU利用率显著提高。这意味着，过去需要几天才能跑完的训练，现在可能只需几个小时，且资源消耗更低。

坦白说，这个方向的价值不限于代码Agent。Polar的设计理念——在不侵入现有框架的前提下引入强化学习训练——对于浏览器操作、系统交互等长程Agent任务同样具有参考意义。NVIDIA这次开源，等于把底层“训练管道”公开给了社区，后续开发者可以基于Polar快速为自己的Agent框架注入强化学习能力。

关键看点：

🛠️ NVIDIA开源Polar框架，让Codex等Agent框架无痛接入GRPO训练方法
📈 Codex在SWE-Bench测试中pass@1提升594.74%，从3.8%跃升至26.4%
⚙️ 训练时间减少约5.39倍，GPU利用率大幅优化，为长程Agent训练树立新标杆

免责声明：本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿，凡在本网站出现的信息，均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性，但不保证有关资料的准确性及可靠性，读者在使用前请进一步核实，并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏，概不负任何法律责任。任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时，可联系本站进行审核删除。

一	二	三	四	五	六	日
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30	31

英伟达发布开源AI框架Polar Codex，性能提升近600%

相关推荐

发表回复