在近期举行的2025全球开发者先锋大会“浦江AI生态论坛”上,上海人工智能实验室正式发布了其最新成果:通用具身智能仿真平台——桃源2.0 (GRUtopia 2.0),并宣布向全球开发者开放使用。这标志着中国在具身智能研发领域迈出了重要一步,有望加速相关技术的创新和应用。
桃源2.0是基于去年7月发布的“城市级”仿真平台桃源1.0的全面升级版本。此次升级着重于三个核心技术领域:模块化架构、自动化场景生成和高效数据采集。这三大技术的提升,旨在打造一个更加灵活、高效、易用的具身智能开发平台。
平台的核心亮点之一在于其全新的通用模块化仿真框架。该框架支持包括导航、操作以及运动控制等多种类型的具身智能任务。开发者不再需要频繁更换平台,只需通过简单的“三行代码”即可定义任务,显著简化了开发流程,提升了开发效率。这种模块化的设计理念,体现了平台对开发者友好性的重视。
在生成场景方面,桃源2.0整合了海量的标准化物体资产,并结合成熟的自动化生成和随机化工具,实现了复杂场景的一键快速生成。这为开发者提供了丰富多样的测试环境,方便他们进行各种场景下的算法验证和模型训练。场景的丰富性和真实性对于具身智能的训练至关重要,桃源2.0在这方面做了显著提升。
数据采集是具身智能研发的关键环节。桃源2.0对数据采集系统进行了全面优化,针对不同的任务类型,提供了相应的解决方案。对于操作任务,平台提供了多种低门槛的遥操作工具,方便开发者进行精细化的操作数据采集。而在导航任务方面,平台则引入了批量化数据采集工具,极大地提高了数据采集的效率。 官方数据显示,相较于传统的空间鼠标方式,遥操作效率提升了5倍,导航任务的数据采集效率更是提升了高达20倍。这极大地缩短了模型训练所需的时间。
上海AI实验室还宣布成功完成了首次“虚实贯通”技术体系的全闭环验证。这意味着实验室已经打通了从真实环境到模拟环境,再从模拟环境返回真实环境的完整流程。在“真实-模拟-真实”(Real-to-Sim-to-Real)的路径下,桃源2.0通过高性能仿真技术,显著提升了智能体在虚拟环境中的训练效率,并实现了向现实场景的平滑迁移,加速推动具身智能的自主演进。这种虚实结合的训练方式,是目前具身智能研究的重要趋势。

为了满足从底层控制到顶层决策任务的“通用性”训练需求,桃源2.0采用了功能全面的模块化框架。该框架具有代码轻量、灵活拓展的特点,将训练任务拆解为“场景、机器人、任务指标”三个核心要素。用户只需通过简单的代码组合,即可实现多种导航、操作和控制任务,极大地降低了开发门槛,加速了算法的迭代和验证。
在定制化数据采集方面,桃源2.0同样表现出色。平台提供了高效的数据收集管线,以满足用户在操作、导航等任务中的数据需求。为了弥补传统遥操作工具在活动范围、距离感知、动作精度等方面的不足,研究人员引入了VR、动作捕捉、双手协调等遥操作手段,从而极大地提高了模拟数据采集的效率和质量。这些创新性的数据采集方式,将有助于开发者训练出更加智能和灵活的具身智能体。

值得一提的是,在操作数据采集方面,桃源2.0首创了双手协调的“隔空操作模式”。该模式无需视觉及操作硬件支持,仅通过动作捕捉即可控制机器人的运动、视角转换、坐标系重定位和运动精度调整等功能。与传统方式相比,操作效率提升了5倍,单人一天即可采集上百条复杂的操纵数据。这种创新的操作模式,大大降低了数据采集的成本和难度。

在导航数据采集方面,桃源2.0利用全局地图ESDF并行采样合成海量轨迹数据,数据采集效率相较于人工操作的传统方式提升了近20倍。此外,针对轮式、足式以及虚拟机器人,平台还提供了默认的路径规划控制器,以实现在GRScenes-100、Matterport3D等场景中的自动化路径跟随和观测、动作数据采集。平台还支持批量化工具进行大规模的并行导航数据采集。 高效的导航数据采集能力,将加速具身智能体在复杂环境下的自主导航能力的提升。