在通用机器人技术领域,智元机器人近日发布了其首个通用具身基座模型——智元启元大模型Genie Operator-1(简称GO-1)。这一发布不仅标志着具身智能技术发展的重要里程碑,也预示着该领域向通用化、开放化和智能化转型的加速。
GO-1 最核心的创新在于其提出的 Vision-Language-Latent-Action (ViLLA) 框架。该框架创造性地将 VLM(多模态大模型)与 MoE(混合专家)技术相结合,旨在实现从数据采集、模型训练到模型推理的全流程一体化,从而突破传统具身智能的瓶颈。

ViLLA框架赋予了GO-1强大的小样本快速泛化能力,这意味着即使在少量数据甚至是零样本的情况下,GO-1也能迅速适应新的环境和任务挑战。这一能力很大程度上得益于VLM对海量互联网文本和图文数据的深度学习,使其具备了强大的语义理解能力。同时,MoE框架通过学习大量人类操作和跨领域操作视频,形成了丰富的动作知识库,为机器人执行复杂任务提供了坚实的基础。
MoE框架中的动作专家模型,更是通过融入高质量的仿真数据和真实的机器人操作数据,显著提升了GO-1的动作执行精度和稳定性。值得一提的是,仿真数据的引入,有效降低了真实机器人训练的成本和风险,为快速迭代和优化模型提供了保障。可以说,这种虚实结合的训练方式是GO-1取得成功的关键因素之一。
GO-1的独特之处还在于其”数字金字塔”式的架构设计。从底层的互联网大规模纯文本与图文数据,到中间层的人类操作视频、仿真数据,再到顶层的真实机器人示教数据,每一层都为GO-1提供了不同维度的知识和技能。这种层层递进的结构,使得GO-1在接收到用户指令时,能够迅速分解任务、理解环境信息、规划行动方案,并最终准确地执行任务。

通过演示视频,我们可以看到GO-1在多种场景下的出色表现。例如,当接收到“挂衣服”的指令后,GO-1能够准确识别服装类型、寻找衣架,并按照正确的步骤完成挂衣动作。在商务会议中,面对“帮我拿一瓶饮料”的要求,GO-1也能迅速定位饮料位置,并将饮料安全地送达指定地点。这些演示不仅展示了GO-1卓越的语言理解和任务规划能力,更体现了其在跨领域应用方面的巨大潜力。

GO-1的实际应用场景非常广泛。在家庭环境中,它可以协助完成准备食物、整理桌面等日常任务。在办公和商业环境中,它可以胜任接待访客、派发物品等工作。更重要的是,GO-1还具备数据回流能力,可以通过不断学习在执行过程中遇到的问题和挑战,持续优化自身的性能。

智元机器人还透露,未来几个月内将推出基于强化学习的仿真模型,以及全新的具身人形机器人。这些新产品的发布,将进一步推动具身智能技术的发展,并拓展机器人在各个行业的应用空间。
GO-1的成功发布,为具身智能领域注入了强劲的动力,有望加速其在场景和物体泛化、自然语言理解、新技能学习以及跨领域部署等方面的突破。随着技术的不断进步和应用场景的持续拓展,我们有理由相信,具身智能的未来充满机遇,将深刻改变我们的生活和工作方式。