视觉推理，强化学习，开源

人工智能

刘壮陈丹琦开源通用视觉推理 RL 框架，0 思考数据刷新 SOTA

在当前大模型技术演进的路径中，强化学习（RL）已被证明是提升推理能力的关键手段。然而，相较于文本领域，视觉领域的强化学习研究长期面临数据稀缺与奖励机制难以统一的挑战。多数开源方案往…

2026年 4月 11日