< p > 具身智能领域正经历一场深刻的范式转换。过去两年,行业普遍将真机数据视为“奢侈品”,认为其采集成本高昂、难以规模化,通常只将其用于模型微调的“临门一脚”。然而,一个来自上海创智学院与智元机器人的联合团队,刚刚用事实颠覆了这一认知。他们不仅将真机数据大规模用于预训练,还一举刷新了行业纪录。
罗剑岚教授团队此次开源的成果,被命名为τ0-World Model(τ0-WM),这是一个参数量高达5B的预训练具身世界模型。其最引人注目的地方,在于训练数据的规模和构成:总计约3万小时的预训练数据,其中真机遥操作数据史无前例地占据了绝对主力,达到惊人的17800小时。
这是什么概念?这相当于一台机器人,在没有任何间断的情况下,被人连续遥控操作了超过两年。当业界还在为如何获取几百小时的优质数据而苦恼时,这个团队已经用几年如一日的积累,构建起了数据飞轮。
基于这套庞大的数据,τ0-WM不仅实现了对未来画面和动作的预测,更关键的是,它引入了一种名为“测试时计算(Test-Time Computation)”的机制。这相当于让机器人在执行物理动作前,先在数字大脑中进行一次“沙盘推演”,对多种可能的方案进行排序、评估甚至修正。正是这种“三思而后行”的慢思考能力,让τ0-WM在工具收纳、书包装物等长程精细操作任务中,平均成功率显著超越了当前主流的π0.5和Fast-WAM等方法。
本文将深入解析τ0-WM的技术细节,看看它如何打通“预训练—真机部署—数据回流”的闭环,以及这对整个具身智能行业意味着什么。
三思而后行:测试时计算
过去的机器人控制范式,尤其是端到端模型,大多是一种“反应式”的。神经网络看到画面,立刻输出动作,这类似于人类的肌肉记忆。在处理简单的抓取、放置任务时,这种方式高效且成功。但面对需要多步骤、长时序,或者存在物体遮挡的复杂操作时,这种“一眼定乾坤”的方式就容易导致不可逆的错误。
τ0-WM的核心思想,是让机器人学会“慢思考”。在行动之前,它会在内部虚拟环境中进行“想象”,预演不同动作的后果,并从中挑选最优解。其在线推理过程分为清晰的三步:
第一步:提议。 视频动作模型(VAM)根据当前多视角画面、语言指令和机器人状态,一次性采样出多组候选动作,同时生成对应的模糊未来画面。这相当于机器人脑中快速闪过几种不同的“走法”。
第二步:推演。 动作条件视频模拟器会针对每组候选动作,生成更精细、更清晰的多视角未来画面。之所以需要多视角,是因为在真实操作中,正面视角很容易被机械臂自身或物体遮挡。模型必须能从侧面、顶部等其他角度“脑补”未来状态,才能准确判断动作后果。
第三步:评估与修正。 这一步是最精髓的部分。系统会先用一个名为“再去噪一致性分数(RCS)”的机制来给动作打分。该分数通过观察候选动作的“重建误差”来判断其质量。误差越小,说明动作越符合模型从高质量数据中学到的模式,也就越靠谱。如果最优动作的分数仍然不理想,则会触发第二层机制“低质量动作修正(LAR)”。系统会调用视频模拟器,预测所有候选动作对应的未来状态,并找出那个推动任务进度最有效的“最优未来”,然后让VAM基于这个“最优未来”重新生成更精准的动作。
与许多仅在训练时使用未来预测、部署时为了速度而直接舍弃的世界模型不同,τ0-WM坚持在推理阶段保留并利用这些“未来想象”。对τ0-WM而言,“想象未来”不是一种训练技巧,而是机器人决策过程中不可或缺的一环,是其能在复杂任务中超越其他模型的关键。
数据金字塔的重塑:真机数据成为主角
如果说技术架构是τ0-WM的引擎,那么它的训练数据就是驱动这台引擎的“顶级燃料”。3万小时的预训练数据不仅规模全球最大,更关键的是它打破了行业固有的数据使用逻辑。
整个训练数据由三类构成,每一类都扮演着不同角色:
- 真机遥操作数据(1.78万小时): 这是金字塔的“塔尖”,也是最昂贵的部分。它来自双臂机器人,多视角采集,动作空间与真实部署环境完全对齐。它是整个体系的“根基”,为模型提供了最高质量的动作监督信号。
- UMI数据(6500小时): 通用操纵界面数据。采集成本相对较低,覆盖了更多的物体种类和操作场景,能够极大地丰富模型见过的人和物。虽然它的动作空间不完全匹配真机,但却是填补“行为多样性”的绝佳素材。
- 人类第一视角数据(3000小时): 采集成本最低,但覆盖范围最大。它包含了大量日常生活中的长尾交互和对混乱场景的观察。由于没有机器人动作标签,这部分数据不参与动作预测,只用于训练视觉分支,帮助模型学习物体运动的物理规律以及人与环境交互的范式。
过去,行业默认的数据路线是:用互联网视频做预热,用仿真数据做预训练,最后用昂贵的真机数据做微调。但τ0-WM的策略是“反直觉”的,它直接用最大、最贵的真机数据去砸预训练。
这背后并非单纯的成本投入,而是一套系统性工程的胜利。回顾罗剑岚团队过去一年多的布局,一条清晰的“数据飞轮”主线浮现出来。2026年1月发布的SOP,搭建了规模化的真机数据采集和回流基础设施;4月的LWD,将大规模强化学习引入后训练,形成了“部署即训练”的循环,机器人跑得越多,数据回流越多,模型越强。
当真机交互数据的积累跨过某个临界点后,一个质变发生了:真机数据终于从“后训练的耗材”,变成了“预训练的燃料”。打通“预训练—真机部署—数据回流—再预训练”这条完整链路,正是τ0-WM背后更深层的行业意义。
一个值得深入思考的行业趋势是,Ego-Centric第一视角数据在今年突然崛起。它处于互联网数据和真机数据之间,成本低又贴近真实交互,正在成为整个行业追逐的“新中层”。但τ0-WM的成功表明,仅靠Ego数据还不够,必须有足够的真机数据作为支撑,才能将这种“新中层”的价值真正发挥出来,并最终颠覆整个数据金字塔。
项目网站:https://finch.agibot.com/research/tau0-wm
项目github:https://github.com/sii-research/tau-0-wm
模型huggingface:https://huggingface.co/sii-research/tau-0-wm