τ0-WM：最大规模预训练的开源具身世界模型发布

< p > 具身智能领域正经历一场深刻的范式转换。过去两年，行业普遍将真机数据视为“奢侈品”，认为其采集成本高昂、难以规模化，通常只将其用于模型微调的“临门一脚”。然而，一个来自上海创智学院与智元机器人的联合团队，刚刚用事实颠覆了这一认知。他们不仅将真机数据大规模用于预训练，还一举刷新了行业纪录。

罗剑岚教授团队此次开源的成果，被命名为τ0-World Model（τ0-WM），这是一个参数量高达5B的预训练具身世界模型。其最引人注目的地方，在于训练数据的规模和构成：总计约3万小时的预训练数据，其中真机遥操作数据史无前例地占据了绝对主力，达到惊人的17800小时。

这是什么概念？这相当于一台机器人，在没有任何间断的情况下，被人连续遥控操作了超过两年。当业界还在为如何获取几百小时的优质数据而苦恼时，这个团队已经用几年如一日的积累，构建起了数据飞轮。

基于这套庞大的数据，τ0-WM不仅实现了对未来画面和动作的预测，更关键的是，它引入了一种名为“测试时计算（Test-Time Computation）”的机制。这相当于让机器人在执行物理动作前，先在数字大脑中进行一次“沙盘推演”，对多种可能的方案进行排序、评估甚至修正。正是这种“三思而后行”的慢思考能力，让τ0-WM在工具收纳、书包装物等长程精细操作任务中，平均成功率显著超越了当前主流的π0.5和Fast-WAM等方法。

本文将深入解析τ0-WM的技术细节，看看它如何打通“预训练—真机部署—数据回流”的闭环，以及这对整个具身智能行业意味着什么。

三思而后行：测试时计算

过去的机器人控制范式，尤其是端到端模型，大多是一种“反应式”的。神经网络看到画面，立刻输出动作，这类似于人类的肌肉记忆。在处理简单的抓取、放置任务时，这种方式高效且成功。但面对需要多步骤、长时序，或者存在物体遮挡的复杂操作时，这种“一眼定乾坤”的方式就容易导致不可逆的错误。

τ0-WM的核心思想，是让机器人学会“慢思考”。在行动之前，它会在内部虚拟环境中进行“想象”，预演不同动作的后果，并从中挑选最优解。其在线推理过程分为清晰的三步：

第一步：提议。 视频动作模型（VAM）根据当前多视角画面、语言指令和机器人状态，一次性采样出多组候选动作，同时生成对应的模糊未来画面。这相当于机器人脑中快速闪过几种不同的“走法”。

第二步：推演。 动作条件视频模拟器会针对每组候选动作，生成更精细、更清晰的多视角未来画面。之所以需要多视角，是因为在真实操作中，正面视角很容易被机械臂自身或物体遮挡。模型必须能从侧面、顶部等其他角度“脑补”未来状态，才能准确判断动作后果。

第三步：评估与修正。 这一步是最精髓的部分。系统会先用一个名为“再去噪一致性分数（RCS）”的机制来给动作打分。该分数通过观察候选动作的“重建误差”来判断其质量。误差越小，说明动作越符合模型从高质量数据中学到的模式，也就越靠谱。如果最优动作的分数仍然不理想，则会触发第二层机制“低质量动作修正（LAR）”。系统会调用视频模拟器，预测所有候选动作对应的未来状态，并找出那个推动任务进度最有效的“最优未来”，然后让VAM基于这个“最优未来”重新生成更精准的动作。

与许多仅在训练时使用未来预测、部署时为了速度而直接舍弃的世界模型不同，τ0-WM坚持在推理阶段保留并利用这些“未来想象”。对τ0-WM而言，“想象未来”不是一种训练技巧，而是机器人决策过程中不可或缺的一环，是其能在复杂任务中超越其他模型的关键。

数据金字塔的重塑：真机数据成为主角

如果说技术架构是τ0-WM的引擎，那么它的训练数据就是驱动这台引擎的“顶级燃料”。3万小时的预训练数据不仅规模全球最大，更关键的是它打破了行业固有的数据使用逻辑。

整个训练数据由三类构成，每一类都扮演着不同角色：

真机遥操作数据（1.78万小时）： 这是金字塔的“塔尖”，也是最昂贵的部分。它来自双臂机器人，多视角采集，动作空间与真实部署环境完全对齐。它是整个体系的“根基”，为模型提供了最高质量的动作监督信号。
UMI数据（6500小时）： 通用操纵界面数据。采集成本相对较低，覆盖了更多的物体种类和操作场景，能够极大地丰富模型见过的人和物。虽然它的动作空间不完全匹配真机，但却是填补“行为多样性”的绝佳素材。
人类第一视角数据（3000小时）： 采集成本最低，但覆盖范围最大。它包含了大量日常生活中的长尾交互和对混乱场景的观察。由于没有机器人动作标签，这部分数据不参与动作预测，只用于训练视觉分支，帮助模型学习物体运动的物理规律以及人与环境交互的范式。

过去，行业默认的数据路线是：用互联网视频做预热，用仿真数据做预训练，最后用昂贵的真机数据做微调。但τ0-WM的策略是“反直觉”的，它直接用最大、最贵的真机数据去砸预训练。

这背后并非单纯的成本投入，而是一套系统性工程的胜利。回顾罗剑岚团队过去一年多的布局，一条清晰的“数据飞轮”主线浮现出来。2026年1月发布的SOP，搭建了规模化的真机数据采集和回流基础设施；4月的LWD，将大规模强化学习引入后训练，形成了“部署即训练”的循环，机器人跑得越多，数据回流越多，模型越强。

当真机交互数据的积累跨过某个临界点后，一个质变发生了：真机数据终于从“后训练的耗材”，变成了“预训练的燃料”。打通“预训练—真机部署—数据回流—再预训练”这条完整链路，正是τ0-WM背后更深层的行业意义。

一个值得深入思考的行业趋势是，Ego-Centric第一视角数据在今年突然崛起。它处于互联网数据和真机数据之间，成本低又贴近真实交互，正在成为整个行业追逐的“新中层”。但τ0-WM的成功表明，仅靠Ego数据还不够，必须有足够的真机数据作为支撑，才能将这种“新中层”的价值真正发挥出来，并最终颠覆整个数据金字塔。

项目网站：https://finch.agibot.com/research/tau0-wm
项目github：https://github.com/sii-research/tau-0-wm
模型huggingface：https://huggingface.co/sii-research/tau-0-wm

免责声明：本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿，凡在本网站出现的信息，均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性，但不保证有关资料的准确性及可靠性，读者在使用前请进一步核实，并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏，概不负任何法律责任。任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时，可联系本站进行审核删除。

一	二	三	四	五	六	日
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30	31

τ0-WM：最大规模预训练的开源具身世界模型发布

三思而后行：测试时计算

数据金字塔的重塑：真机数据成为主角

相关推荐

发表回复