在人工智能与机器人技术深度融合的浪潮下,智元机器人近日发布的通用具身智能基座模型“智元启元大模型Genie Operator-1”(以下简称GO-1),无疑为行业注入了新的活力。这款汇聚了前沿技术的模型,标志着具身智能正从实验室走向更广阔的应用场景,其独特的技术架构和强大的学习能力,预示着机器人将拥有更接近人类的通用性和适应性。

GO-1的核心在于其精心设计的ViLLA(Vision-Language-Latent-Action)框架。这个框架巧妙地结合了VLM(多模态大模型)与MoE(混合专家)技术,旨在赋予机器人更强大的感知、理解和执行能力。具体来说,VLM作为主干网络,其基础是开源多模态大模型的预训练权重。通过互联网海量的纯文本和图文数据训练,GO-1能够理解复杂的场景和抽象的任务指示。而MoE则利用隐动作专家模型和动作专家模型的协同作用,从互联网上积累的大规模人类操作和跨本体操作视频中学习动作模式。同时,结合高质量的仿真数据和真机数据,让GO-1不仅理解动作,还能精确执行动作。
ViLLA框架的巧妙之处在于,它并非简单地堆砌技术,而是将视觉、语言和动作有机地结合起来。这使得GO-1能够像人类一样,通过观察和理解来学习新的技能,从而摆脱对预编程的依赖,展现出更强的适应性和通用性。
GO-1的五大显著特点进一步提升了其应用价值:
- 采训推一体化设计: 实现数据采集、模型训练与模型推理的无缝衔接,缩短了模型迭代周期,提高了开发效率。
- 小样本快速泛化能力: 即使在数据稀缺的场景下,GO-1也能凭借其强大的泛化能力快速适应新的任务,大幅降低了部署成本。
- 一脑多形特性: 能够轻松迁移至不同机器人形态,快速适配各种载体,这意味着GO-1的应用潜力远不止于某一种特定类型的机器人。
- 持续进化机制: 借助智元的数据回流系统,GO-1能够从实际执行中遇到的问题数据中持续学习优化,实现自我进化,不断提升性能。
- 人类视频学习能力: 通过学习互联网视频和真实人类示范,GO-1能够更深刻地理解人类的行为意图,从而更好地完成各种任务。
为了更好地构建和训练GO-1,研发团队采用了具身领域的数字金字塔结构。这种金字塔结构从底层到顶层依次是:互联网大规模纯文本与图文数据(提供通用知识和场景理解),人类操作/跨本体视频数据(学习动作操作模式),仿真数据(增强泛化性),以及高质量的真机示教数据(确保精准执行动作)。这种分层结构使得GO-1能够逐步掌握从知识到技能的各种能力,最终实现全面适应新场景,轻松面对多样化的环境和物体,快速学习新的操作流程。

在实际应用中,GO-1已经展现出了令人瞩目的能力。例如,仅凭 “挂衣服” 这一简单的语言指令,GO-1便能通过视觉信号和语言指令的综合分析,自主输出并执行相应的动作。从理解指令含义,到预测并规划执行步骤,再到最终精准完成任务,整个过程无需人工干预。无论是家庭场景中的准备餐食、收拾桌面,还是办公和商业场景中的接待访客、发放物品,GO-1都能胜任。


此外,GO-1的持续进化能力也是其亮点之一。例如,在机器人制作咖啡的过程中,如果因为各种原因导致杯子放置不正,GO-1会从此次失败中汲取经验,不断优化自身动作,直至最终成功完成任务。这种从错误中学习的能力,使得GO-1可以不断适应新的环境和挑战,并最终成为更智能、更可靠的机器人助手。