从单张图像生成可行走的 3D 世界！英伟达开源 Lyra 2.0 解决长视频空间遗忘和时间漂移问题

当前，生成式 AI 正从二维内容创作向三维空间构建加速演进。然而，如何在长序列生成中保持空间一致性与时间稳定性，始终是制约 3D 世界模型落地的核心瓶颈。业界普遍关注的是，技术突破能否真正转化为可交互、可物理仿真的高质量资产。

英伟达研究团队近期在 Hugging Face 平台正式开源了 Lyra2.0 框架，标志着 AI 生成式 3D 世界构建技术迈向新的里程碑。仅需单张输入图像，Lyra2.0 即可生成大规模、持久一致且可自由探索的 3D 场景，支持实时渲染、机器人仿真及沉浸式应用开发。

业界观察认为，此次发布不仅显著提升了视频生成模型的时空一致性，更为物理智能、游戏开发及虚拟环境构建提供了切实可行的资产生产管线。

核心挑战与突破：告别空间遗忘与时间漂移

传统的长序列视频生成模型常受困于”空间遗忘“——模型无法记忆已生成区域的细节，导致场景不一致；以及”时间漂移“——物体位置与外观随时间推移逐渐偏移，严重影响后续 3D 重建质量。

Lyra2.0 针对这两大痛点提出了创新性解决方案：

空间记忆机制：系统为每一帧维护 3D 几何信息，但仅用于信息路由——检索相关历史帧并建立稠密对应关系，而外观合成仍依赖强大的生成先验，以避免几何误差累积。
自增强训练策略：训练过程中，模型暴露于自身退化输出，教其主动修正漂移而非继续传播，从而实现更长程的 3D 一致视频轨迹。

通过这种两阶段设计，Lyra2.0 能够从单张图像及用户定义的相机轨迹出发，生成长视频序列，并可靠地增强为高质量 3D 高斯溅射或网格模型，支持实时渲染与进一步仿真。

使用流程：从图像到可探索 3D 世界

输入图像（可选文本提示词）；
通过交互式 3D 浏览器定义相机运动轨迹；
模型回归生成由相机控制的长视频片段；
将视频序列升级为显式 3D 表示（点云、高斯或网格），用于连续导航；
最后，导出可直接用于 Unity、Unreal 和 Isaac Sim 等环境的资产。

实验表明，在长视频生成和 3D 场景重建指标上，Lyra2.0 优于 GEN3C、CaM 和 Yume-1.5 等多种现有方法，尤其在场景规模和一致性方面表现突出。生成场景可达数十米范围，允许用户自由“回退”、环顾四周，甚至部署机器人进行实时交互。

开源与应用价值：加速物理智能与虚拟世界开发

Lyra2.0 的模型权重现已在 Hugging Face 开源（nvidia/Lyra-2.0），代码仓库亦托管于 GitHub（nv-tlabs/lyra），采用 Apache 2.0 许可证，允许商业用途。底层视频骨干网基于强大的扩散模型（如 Wan-14B），重建阶段整合了 Depth Anything V3 等工具，确保高质量且实用的输出。

该框架特别适用于：

具身智能与机器人训练：生成一致仿真环境直接导入 Isaac Sim；
游戏与沉浸式内容：快速构建可探索虚拟世界；
3D 资产生成管线：一站式完成从概念图到可编辑网格。

与早期版本相比，Lyra2.0 在场景持久性和可扩展性方面取得了显著进展，为“世界模型”从演示走向实用资产铺平了道路。

业内点评指出：英伟达此次开源不仅展示了生成式 AI 在时空建模上的技术突破，也反映了行业对开放生态的持续投入。随着 Lyra2.0 等工具的普及，开发者将能更高效地构建大规模交互式 3D 世界，加速机器人、自动驾驶及元宇宙应用的部署。

项目页面、论文及模型均已公开。感兴趣的开发者可立即访问 Hugging Face 和 GitHub 体验。

Paper URL: https://huggingface.co/papers/2604.13036

Model URL: https://huggingface.co/nvidia/Lyra-2.0

从技术演进视角来看，Lyra2.0 的出现意味着 3D 生成不再局限于静态物体，而是向动态、连贯的空间理解迈进。这种能力的提升，对于需要高精度空间认知的自动驾驶仿真、工业数字孪生等领域，具有潜在的深远影响。未来，随着算力成本的降低与模型效率的提升，此类技术有望成为构建虚拟与现实融合基础设施的关键组件。

免责声明：本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿，凡在本网站出现的信息，均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性，但不保证有关资料的准确性及可靠性，读者在使用前请进一步核实，并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏，概不负任何法律责任。任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时，可联系本站进行审核删除。

一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30

从单张图像生成可行走的 3D 世界！英伟达开源 Lyra 2.0 解决长视频空间遗忘和时间漂移问题

核心挑战与突破：告别空间遗忘与时间漂移

使用流程：从图像到可探索 3D 世界

开源与应用价值：加速物理智能与虚拟世界开发

相关推荐

发表回复