刘壮陈丹琦开源通用视觉推理 RL 框架，0 思考数据刷新 SOTA

在当前大模型技术演进的路径中，强化学习（RL）已被证明是提升推理能力的关键手段。然而，相较于文本领域，视觉领域的强化学习研究长期面临数据稀缺与奖励机制难以统一的挑战。多数开源方案往往局限于单一任务，难以兼顾图表理解、空间感知与科学推理等多维需求。

此次普林斯顿团队推出的开源框架，不仅填补了通用视觉推理强化学习的空白，更为学术界提供了追赶工业界顶尖水平的可行路径。以下是对该技术突破的详细解读。

广泛的数据是视觉推理强化学习 Scaling 的主要驱动力

普林斯顿大学视觉与语言实验室

开源项目 Vero 技术解读

面向通用视觉推理的强化学习（RL）框架，迎来了关键的开源突破！

该项工作由普林斯顿大学刘壮教授团队主导，著名学者陈丹琦亦位列合作者之中。

该项目命名为Vero。基于此方案构建的视觉推理器，能够胜任图表分析、科学问题解答、空间理解以及各类开放视觉任务。在 30 多项基准测试中，其表现达到了 8B 参数规模视觉语言模型的 SOTA 水平。

在此之前，尽管 GPT、Gemini 等顶尖闭源模型已展现出强大的视觉推理能力，但其背后的强化学习训练方案往往是厂商的“独门秘籍”。现有的开源方案大多只能覆盖特定的视觉任务，缺乏通用性。

Vero 的出现具有重要意义。用项目负责人刘壮的话说，这证明了“即使在学术环境下，只要有合适的人才和投入，我们也能够追赶上顶尖工业界团队所取得的部分成就”。

要打造全能型的视觉推理模型，通常面临两类核心挑战。

其一，基于现有开源 RL 方案训练的视觉语言模型（VLM），往往只擅长单一任务。例如擅长解数学题，一旦遇到图表分析就容易“抓瞎”。

其二，若将多种任务混合训练，模型容易出现能力干扰，导致越学越乱、性能崩溃的现象。

Vero 团队深入分析后发现，根本原因在于不同的视觉任务需要放大不同的推理策略。例如，图表问答需要数值提取与比较，而目标定位任务则需要空间扫描与绑定。

针对这些痛点，Vero 团队主要实施了三项关键改进。

首先，研究人员从 59 个数据集中精心挑选、过滤，构建了一个包含 60 万高质量样本的多样化训练集。

这些样本被划分为六大类别：

图表与光学字符识别（Chart & OCR）
科学、技术、工程与数学（STEM）
空间与动作理解（Spatial & Action）
知识储备与物体识别（Knowledge & Recognition）
定位、计数与搜索（Grounding，Counting & Search）
图像描述与指令遵循（Captioning & Instruction Following）

研究人员发现，基于单任务 RL 训练出来的模型无法实现可靠的泛化，针对某一类别的过度训练往往会降低模型在其他任务上的表现。

相比之下，在广泛且均衡的数据集上进行 RL 训练，模型能够学到通用的视觉推理模式，有效避免了在单一任务上训练导致的能力退化。

在视觉推理场景中，不同任务的答案格式之间存在显著差异。

为此，Vero 提出了任务路由奖励机制：设计了一套多路奖励系统，能根据任务类型的不同，自动把输出路由给相应的验证器，分别计算奖励。

例如，对于选择题，评分标准是选项是否正确；对于数学题，则需要数学校验；对于开放描述，Vero 会引入另一个大模型作为裁判，来评估回答的质量。

相比于闭源模型依赖于私有”Thinking”数据的强化学习方案，Vero 提出了一条新的技术路径：

只要拥有高质量的数据过滤、均衡的任务混合，以及精确的路由奖励，仅仅通过单阶段强化学习，就能激发基础模型的通用视觉推理能力。

实验结果显示，在没有引入任何私有“思考”数据的情况下，基于 Vero 训练的模型在 30 个基准测试中的 23 项上，超越了经过专门微调的 Qwen3-VL-8B-Thinking。

研究团队的消融实验还表明：

广泛的数据覆盖是视觉推理强化学习 Scaling 的主要驱动力。

目前，Vero 的所有数据、代码、模型均已开源。

Vero 的两位通讯作者是 Gabriel Sarch 和 Linrong Cai。

Gabriel Sarch 博士毕业于卡内基梅隆大学（CMU），目前是普林斯顿大学 PLI（Princeton Language and Intelligence）的博士后研究员。

论文的作者之一陈丹琦，现在也是 PLI 的副主任。

Linrong Cai，天津第一中学校友。本科毕业于威斯康星大学麦迪逊分校，目前正在攻读普林斯顿大学计算机科学专业硕士学位，师从刘壮。同时 Gabriel Sarch 也是他的 mentor。他的研究方向是视觉语言模型中的推理。

刘壮则是 Vero 的项目负责人。刘壮本科毕业于清华姚班，后于加州大学伯克利分校获得博士学位，现在是普林斯顿大学计算机科学助理教授。

在 CVPR 2017 上，刘壮的一作论文 DenseNet 获得了最佳论文奖。ConvNeXt 则是他在 Meta FAIR 任高级研究科学家期间，和谢赛宁合作发表的成果。

在 Meta 期间，刘壮和何恺明、LeCun 等亦有深度合作。

项目地址：

客观分析与展望

Vero 的开源标志着视觉推理领域的一个重要转折点。长期以来，工业界凭借私有数据和高昂的算力壁垒，在推理模型上保持着显著优势。该研究证明，通过精心设计的数据混合策略和奖励机制，学术界同样能够在通用推理能力上取得突破。

然而，值得注意的是，虽然 Vero 在多项测试中达到了 SOTA，但其在极端复杂场景下的鲁棒性仍需进一步验证。此外，强化学习训练过程中的算力消耗依然是不可忽视的成本。未来，如何进一步降低训练门槛，以及如何将这种通用推理能力更好地迁移到具身智能等实际应用场景，将是社区关注的焦点。

总体而言，Vero 为开发者提供了一个高质量的基线，有望加速视觉推理技术在教育、科研及自动化领域的落地应用。

免责声明：本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿，凡在本网站出现的信息，均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性，但不保证有关资料的准确性及可靠性，读者在使用前请进一步核实，并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏，概不负任何法律责任。任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时，可联系本站进行审核删除。

一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30

刘壮陈丹琦开源通用视觉推理 RL 框架，0 思考数据刷新 SOTA

相关推荐

发表回复