近期,人工智能领域迎来一项引人瞩目的进展:英伟达公司正式发布Cosmos-Reason1系列模型。该模型专注于解决物理推理难题,旨在显著提升AI在物理常识学习和具身智能方面的能力,为机器人技术、自动驾驶等诸多领域的实际应用打开了新的局面。
长期以来,人工智能在自然语言处理、数学计算以及代码生成等领域取得了令人瞩目的成就。然而,将AI的能力扩展到复杂的物理环境中一直是一项充满挑战的任务。Physical AI,即物理人工智能,与传统AI技术不同,它依赖于视觉传感器等感官输入,并需要结合真实世界的物理法则来进行推理和做出反应。 这就要求AI不仅需要像传统AI一样进行抽象计算,更需要具备空间理解、时间感知以及对物理规律的深刻认知,才能执行导航、操作和交互等复杂任务。 简而言之,物理AI必须能够像人类一样运用常识进行推理。
然而,当前许多AI模型在连接物理世界方面仍然存在明显的不足。它们很难直观地理解诸如重力、空间关系等基本概念,导致在需要与物理环境交互的具身任务中表现不佳。更棘手的是,直接在物理世界中训练AI不仅成本高昂,而且蕴含着潜在的风险,例如可能导致机器人损坏或造成安全事故,这在很大程度上阻碍了相关技术的进一步发展和应用。
针对上述挑战,英伟达推出了Cosmos-Reason1系列模型,该系列包含Cosmos-Reason1-7B和Cosmos-Reason1-56B两个版本,并采用Physical AI的监督微调(SFT)和强化学习(RL)相结合的方式进行训练。 这种创新的训练方法,旨在为物理推理提供更高效、更可靠的解决方案。 可以预见,这种结合人类先验知识和强化学习自主探索的方式,将是未来物理AI发展的重要方向。

为了进一步增强模型的能力,研究团队引入了独特的双本体系统。该系统包含两个核心组成部分:首先,一个分层本体用于构建全面的物理常识知识库,将物理常识系统地划分为空间、时间和基础物理三大类别,并在此基础上进行更细致的划分,最终形成16个子类。 其次,另一个二维本体则用于映射人类、机械臂、人形机器人等五种不同具身代理的推理能力。通过这样的设计,模型能够更好地理解和处理物理世界中错综复杂的场景,从而提高其在各种物理任务中的适应性和泛化能力。
Cosmos-Reason1模型采用了仅解码器的大型语言模型(LLM)架构,并集成了视觉编码器以处理视频数据。这种架构设计的巧妙之处在于,它使得模型能够同步理解和推理文本和视觉两种不同类型的数据,从而显著提高了其在物理推理任务中的表现。 为了保证训练效果,研究团队构建了一个庞大的训练数据集,其中包含了约400万条标注的视频-文本对,涵盖了各种动作的详细描述以及复杂的推理任务。 数量充足且高质量的训练数据,是模型学习到有效物理推理能力的关键保障。
为了全面评估Cosmos-Reason1模型的性能,研究团队精心构建了一系列基准测试,其中包括针对物理常识的三个基准和针对具身推理的六个基准。 这些基准测试包含了604个问题、426个视频,以及610个问题、600个视频,分别用于评估模型在物理常识理解和具身推理方面的能力。 通过这些严格的测试,可以客观地衡量模型在不同物理任务中的表现。

实验结果表明,Cosmos-Reason1模型在物理常识和具身推理基准测试中均表现出色,展现出强大的物理世界理解能力。 尤其值得一提的是,经过RL(强化学习)训练后,模型在预测下一步行动、验证任务完成情况以及评估物理可行性等方面取得了显著的进步。 这一突破性的进展无疑为物理AI的发展注入了新的活力,预示着AI在现实世界中将扮演越来越重要的角色。
