当前,生成式 AI 正从二维内容创作向三维空间构建加速演进。然而,如何在长序列生成中保持空间一致性与时间稳定性,始终是制约 3D 世界模型落地的核心瓶颈。业界普遍关注的是,技术突破能否真正转化为可交互、可物理仿真的高质量资产。
英伟达研究团队近期在 Hugging Face 平台正式开源了 Lyra2.0 框架,标志着 AI 生成式 3D 世界构建技术迈向新的里程碑。仅需单张输入图像,Lyra2.0 即可生成大规模、持久一致且可自由探索的 3D 场景,支持实时渲染、机器人仿真及沉浸式应用开发。
业界观察认为,此次发布不仅显著提升了视频生成模型的时空一致性,更为物理智能、游戏开发及虚拟环境构建提供了切实可行的资产生产管线。

核心挑战与突破:告别空间遗忘与时间漂移
传统的长序列视频生成模型常受困于”空间遗忘“——模型无法记忆已生成区域的细节,导致场景不一致;以及”时间漂移“——物体位置与外观随时间推移逐渐偏移,严重影响后续 3D 重建质量。
Lyra2.0 针对这两大痛点提出了创新性解决方案:
- 空间记忆机制:系统为每一帧维护 3D 几何信息,但仅用于信息路由——检索相关历史帧并建立稠密对应关系,而外观合成仍依赖强大的生成先验,以避免几何误差累积。
- 自增强训练策略:训练过程中,模型暴露于自身退化输出,教其主动修正漂移而非继续传播,从而实现更长程的 3D 一致视频轨迹。
通过这种两阶段设计,Lyra2.0 能够从单张图像及用户定义的相机轨迹出发,生成长视频序列,并可靠地增强为高质量 3D 高斯溅射或网格模型,支持实时渲染与进一步仿真。
使用流程:从图像到可探索 3D 世界
- 输入图像(可选文本提示词);
- 通过交互式 3D 浏览器定义相机运动轨迹;
- 模型回归生成由相机控制的长视频片段;
- 将视频序列升级为显式 3D 表示(点云、高斯或网格),用于连续导航;
- 最后,导出可直接用于 Unity、Unreal 和 Isaac Sim 等环境的资产。
实验表明,在长视频生成和 3D 场景重建指标上,Lyra2.0 优于 GEN3C、CaM 和 Yume-1.5 等多种现有方法,尤其在场景规模和一致性方面表现突出。生成场景可达数十米范围,允许用户自由“回退”、环顾四周,甚至部署机器人进行实时交互。
开源与应用价值:加速物理智能与虚拟世界开发
Lyra2.0 的模型权重现已在 Hugging Face 开源(nvidia/Lyra-2.0),代码仓库亦托管于 GitHub(nv-tlabs/lyra),采用 Apache 2.0 许可证,允许商业用途。底层视频骨干网基于强大的扩散模型(如 Wan-14B),重建阶段整合了 Depth Anything V3 等工具,确保高质量且实用的输出。
该框架特别适用于:
- 具身智能与机器人训练:生成一致仿真环境直接导入 Isaac Sim;
- 游戏与沉浸式内容:快速构建可探索虚拟世界;
- 3D 资产生成管线:一站式完成从概念图到可编辑网格。
与早期版本相比,Lyra2.0 在场景持久性和可扩展性方面取得了显著进展,为“世界模型”从演示走向实用资产铺平了道路。
业内点评指出:英伟达此次开源不仅展示了生成式 AI 在时空建模上的技术突破,也反映了行业对开放生态的持续投入。随着 Lyra2.0 等工具的普及,开发者将能更高效地构建大规模交互式 3D 世界,加速机器人、自动驾驶及元宇宙应用的部署。
项目页面、论文及模型均已公开。感兴趣的开发者可立即访问 Hugging Face 和 GitHub 体验。
Paper URL: https://huggingface.co/papers/2604.13036
Model URL: https://huggingface.co/nvidia/Lyra-2.0
从技术演进视角来看,Lyra2.0 的出现意味着 3D 生成不再局限于静态物体,而是向动态、连贯的空间理解迈进。这种能力的提升,对于需要高精度空间认知的自动驾驶仿真、工业数字孪生等领域,具有潜在的深远影响。未来,随着算力成本的降低与模型效率的提升,此类技术有望成为构建虚拟与现实融合基础设施的关键组件。