< img id=”wx_img” src=” width=”400″ height=”400″>
渲染、模拟、规划,三大功能的边界正在消融
鱼羊 发自 凹非寺
世界模型火了,火到连定义都各自为政。
一边是视频生成模型自称世界模型,一边是能跑游戏的语言模型也挂上这个标签,还有些人把物理引擎直接塞进来。乱象之下,连李飞飞都坐不住了。她刚刚亲自发文,给世界模型画了一条清晰的功能分界线。
措辞毫不客气:世界模型是当今AI领域最重要也最被滥用的术语之一。
古希腊人无法就世界的构成达成共识,因为“世界”从来不是一个单一的实体。AI也继承了同样的问题,而此时,这个领域最需要的就是精准性。
至少,要先分清三件事:
渲染、模拟、规划。
话不多说,赶紧抄笔记。
李飞飞首先拆解了世界模型的技术底层逻辑。
智能体(人、机器人或系统)会采取行动,这些行动会影响世界的状态。所谓“状态”,是对某一时刻世界全貌的完整描述,包括每个物体、位置、速度和属性。观察是主体对世界的局部感知,行动是主体对感知的回应。
主体→行动→状态→观察→返回,这个循环赋予了“世界模型”技术意义。当下被称为世界模型的各种事物,本质上是这个循环的不同投影。
具体到功能,李飞飞将世界模型分为渲染、模拟、规划三大类。
其中,模拟器获得关注最少,但最关键,是连接渲染和规划的桥梁。
渲染器
渲染器输出给人看的观察结果,核心指标是视觉保真度。谷歌的Genie 3,以及李飞飞自家World Labs的RTFM,都属于渲染器。这些模型本身并不具备对三维结构的明确理解,生成的是观众看到的画面,而非实际存在的画面。
李飞飞认为,渲染器是目前商业上最成熟的技术,比如Nano Banana就是风靡全球的代表。局限性在于,渲染器优化的是视觉逼真度,而非物理精确度,其输出炫目却无法用于建筑设计或机器人训练这类与现实世界紧密耦合的场景。
规划器
规划器输入观察和目标,输出下一步动作。VLA模型和新一代世界动作模型都属于规划器,这些系统决定了机器人在非结构化世界中的行为。
规划器最吸引人,也最具发展潜力。具身智能与之紧密相关,大量热钱正在涌入这一环节。但李飞飞指出,近年来许多令人印象深刻的机器人演示都局限于高度受限的实验室环境,目标范围狭窄、任务周期短,无法在真实世界部署所需的复杂性、可变性和持续时间下验证。
模拟器
模拟器输出可计算、可交互的状态,强调几何、物理、动态一致性。它要求几何结构经得起检验,物理上符合定律,动力学行为符合世界运行方式。
模拟器同时服务于两个用户群体:建筑师、设计师、电影制作人、游戏开发者等专业人士需要超越视觉逼真性的精确度;强化学习智能体、机器人控制器、自动驾驶等领域则将模拟器作为训练场,大规模测试现实世界中危险、昂贵或不可能的场景。
李飞飞认为,模拟是连接渲染和规划的桥梁。如果说语言是对世界的抽象,像素是对世界的投影,那么几何、物理和动力学就是世界本身。模拟器正是视觉外观(对渲染器)和动作后果(对规划器)得以生成的结构骨架。
仿真模型可以将自身理解转化为像素图像供人类使用,并预测智能体的行为。机器人训练、自动驾驶测试、建筑可视化、工程设计和药物研发都依赖于某种仿真技术。其商业前景极其广阔,英伟达的Omniverse平台就瞄准了超万亿美元的潜在市场。
问题在于,能用来训练模拟器的数据太少:具有明确几何形状、材料属性和物理标注的三维数据比渲染器所用的互联网视频少几个数量级。模拟本身与现实存在差异,而生成式模拟器还引入新风险:AI生成的内容可能看起来正确,但细究又不符合物理。大规模多物理场模拟(刚体、可变形物体、流体、布料交互等)的成本更是比单域模拟高出几个数量级。
World Labs自家产品Marble旨在突破模拟环节瓶颈:它支持文本、图像、视频或空间草图等多模态输入,生成可探索3D环境,并输出Gaussian splats和可供物理引擎操作的碰撞网格。但李飞飞也强调,Marble仅仅是这一领域漫长发展历程的开端。
李飞飞在这篇文章中的另一个关键观点是:三类模型正在相互融合。渲染一个世界、模拟一个世界、在一个世界中行动,所需的知识在很大程度上是同一套知识。
举个例子:如果一个模型真正理解一个杯子如何放在桌子上,包括其几何结构、材料属性、受力反应等,那么它就应该能从任意角度渲染这个杯子,模拟杯子被推动时发生什么,并规划一只手如何拿起它。
这三类能力,其实是对同一种底层理解的三种投影。
近期研究已经证明,至少概念上,一个预训练视频渲染器可以作为联合世界预测和行动预测的骨干网络,这暗示了渲染器和规划器之间的桥梁:让同一模型既想象接下来会发生什么,也想象接下来应该做什么。
Marble从单个模型中同时输出Gaussian splats和碰撞网格,就是渲染器和模拟器之间边界消融的体现。每一个层级都在从被动输出走向交互系统:渲染器变得以行动为条件,模拟器生成更可控、更可编辑的世界,规划器则从单纯反应走向真正的审慎思考。
这个逻辑终点,是一个统一的世界模型——一个基础模型,既能够渲染照片级真实的视图,也能生成物理准确的结构,并规划行动序列。
核心挑战仍然是数据。渲染器拥有海量互联网视频,但模拟器和规划器严重缺乏3D资产和机器人演示数据。追求视觉美感可能牺牲机器人或高保真模拟所需的精度,如何在单一架构中调和这些矛盾,是今天世界模型研究最核心的开放问题。
但李飞飞乐观地表示:方向已经很清楚了。
三条本来相互独立的研究线索,如今各自驱动并塑造了数十亿美元级别的产业。而现在,它们开始表现得像同一件事。当它们的边界共同塌缩,这种变化将重塑一个更大的问题:机器智能,和它所处的物理世界之间的关系。这就是空间智能的漫长弧线。语言给了机器一种谈论世界的方式,而世界模型,将是机器最终理解、想象、推理并与世界互动的方式。
从行业视角看,李飞飞的分类意义在于终结了概念混战。渲染器靠视频数据快速变现,规划器靠具身智能吸引热钱,而模拟器虽然技术门槛最高、数据最稀缺,却恰恰是连接两者的关键。这场融合不会一蹴而就,但当渲染器、模拟器和规划器真正共用同一套底层理解时,AI对物理世界的认知才可能从“看起来像”升级为“本质上是”。