近日,智元机器人公司正式发布了其首个通用具身基座模型——智元启元大模型Genie Operator-1(简称GO-1),这被视为机器人技术领域的一次重要突破。GO-1模型的核心在于创新的Vision-Language-Latent-Action (ViLLA) 框架,它巧妙地将VLM(多模态大模型)与MoE(混合专家)相结合,展现出强大的小样本快速泛化能力、“一脑多形”的跨本体应用潜力,以及持续进化的学习能力。不同于以往专注于特定任务的机器人模型,GO-1 的通用性设计使其在多种场景下具备更强的适应性。

ViLLA框架是GO-1模型的核心组成部分。其中,VLM作为主干网络,通过继承开源多模态大模型5-2B的权重,并结合互联网上庞大的纯文本和图像数据,赋予GO-1强大的场景感知和理解能力。这意味着GO-1能够理解复杂的指令,并识别各种物体和情境。与此同时,MoE包含隐动作专家模型和动作专家模型。隐动作专家模型通过学习海量的人类操作和跨本体操作视频,使模型能够理解动作的意图和步骤;动作专家模型则利用高质量的仿真数据和真实机器人数据,确保模型能够精确地执行这些动作。这种双重机制的设计,保证了GO-1既能理解“做什么”,也能知道“如何做”。
GO-1 的优势体现在以下五个关键特性上:
- 采训推一体化设计: 实现了数据采集、模型训练和模型推理的无缝衔接,加速了模型的迭代和优化过程。这种闭环系统允许模型从实际部署中持续学习。
- 小样本快速泛化能力: 即使在数据匮乏的情况下,GO-1也能迅速适应新的场景和任务。这极大降低了部署成本和时间。
- “一脑多形”设计: GO-1可以轻松迁移至不同机器人形态,快速适配各种本体,摆脱了传统机器人模型对特定硬件平台的依赖。
- 持续进化能力: 得益于智元的数据回流系统,GO-1能够从实际执行过程中遇到的问题中不断学习和优化,提升自身的能力。这是一个持续学习循环的过程。
- 人类视频学习能力: GO-1能够结合互联网视频和真实人类示范进行学习,增强对人类行为的理解,使其能够更好地与人类协作。

为了让GO-1具备强大的能力,智元构建了一个基于具身领域的数字金字塔结构。底层是互联网上的大规模纯文本与图文数据,为机器人提供通用知识和场景理解。在此基础上,模型通过学习海量的人类操作/跨本体视频以及仿真数据,增强泛化性和适应不同场景、物体的能力。金字塔的顶层则是高质量的真机示教数据,用于训练精准动作执行。这种多层次、全方位的训练体系,兼顾了“通识教育”与“技能培训”,使得GO-1能够灵活应对复杂的环境和物体,并快速掌握新的操作技能。

在实际应用中,GO-1展现出了令人印象深刻的能力。用户只需用自然语言描述任务,例如“挂衣服”,GO-1就能根据视觉输入、所学知识以及经验,理解任务的要求,并将其分解为一系列可执行的步骤。无论是准备餐食、收拾桌面等家庭场景任务,还是接待访客、发放物品等办公和商业场景的常见工作,GO-1都能相对轻松地完成。更重要的是,GO-1能够通过数据回流系统持续进化自己。例如,当机器人做咖啡时遇到杯子放歪的情况,系统会将此数据记录并回流到模型中,让模型从错误中学习,直到最终能够成功完成任务。


GO-1的问世,标志着具身智能正在加速迈向通用化、开放化和智能化。它有效地解决了具身智能长期以来面临的诸多挑战,包括场景和物体泛化能力不足、缺乏自然语言理解能力、无法快速学习新技能以及难以实现跨本体部署等关键问题,为机器人取代人类完成各种工作和生活任务提供了强大的智能支持。可以预见,随着GO-1的持续发展和不断完善,机器人将在更广泛的领域展现出其卓越的能力和巨大的潜力,甚至可能重塑未来的劳动力市场和社会结构。