在人工智能与机器人技术融合的浪潮中,智元机器人公司近日正式发布了其通用具身基座模型——智元启元大模型Genie Operator-1 (GO-1)。该模型的问世,被视为机器人技术领域在理解和执行人类指令方面取得的重大突破,标志着具身智能迈向新的发展阶段。
GO-1的核心架构是其独创的Vision-Language-Latent-Action (ViLLA)框架。 这种框架巧妙地结合了多模态大模型(VLM)与混合专家(MoE)技术,为机器人赋予了强大的环境感知、语义理解和动作执行能力。相较于传统的机器人控制方法,ViLLA框架的优势在于其出色的泛化能力,即使在数据量极少甚至零样本的情况下,GO-1也能迅速适应新的场景和任务,实现“举一反三”式的学习效果。 这将大大降低机器人部署和应用的成本,加速其商业化进程。

具体而言,VLM作为GO-1的主干网络,其权重源自开源多模态大模型5-2B,并通过互联网上浩瀚的纯文本和图文数据进行训练,积累了广泛的场景认知基础。这使得GO-1能够识别并理解各种复杂的环境和物体。而MoE中的隐动作专家模型和动作专家模型,则分别利用海量的人类操作视频、跨本体操作视频,以及高质量的仿真数据和真机数据,来提升GO-1的动作理解和执行能力。 这种数据驱动的训练方法,使得GO-1能够模仿人类的行为模式,更加自然地与环境互动。
这意味着,未来的机器人将不再需要复杂的编程,而是可以通过自然语言与用户进行交互。例如,用户只需简单地发出“挂衣服”的指令,GO-1便能通过摄像头捕捉到的画面,结合其学习到的知识,理解指令含义,规划执行步骤,并精准地完成任务。 ViLLA框架通过预测隐式动作标记(Latent Action Tokens),有效弥合了图像-文本输入与机器人执行动作之间的鸿沟,实现了从感知到动作的无缝衔接。这种自然交互的方式,将极大地提升用户体验。

为了构建GO-1,智元机器人采用了具身领域的数字金字塔结构。 金字塔的底层是互联网的海量数据,为机器人提供通用的知识和场景理解基础。 向上依次叠加的是人类操作和跨本体视频数据、仿真数据,以及最顶层用于精准执行动作的高质量真机示教数据。 这种分层结构的设计,不仅保证了GO-1的知识覆盖面和泛化能力,也确保了其在实际应用中的稳定性和可靠性。 从数据到实践,数字金字塔的设计理念体现了严谨的工程思维。
GO-1的应用前景广阔,涵盖了家庭、商务、公共服务等多个领域。 在家庭场景中,它可以完成倒水、烤吐司等日常任务;在商务会议中,它可以根据指令递送饮料或苹果;在活动现场,它可以执行检票、发放物料等工作。 更重要的是,GO-1具备持续进化的能力,它可以通过数据回流系统,从实际执行中遇到的问题数据中不断学习,从而持续提升自身性能。 这种自适应学习的能力,使其能够不断适应新的环境和任务,保持竞争力。

展望未来,智元机器人还计划在未来几个月内推出基于强化学习的仿真模型,并即将发布全新的人形机器人。 这些创新举措预示着,具身智能正朝着通用化、开放化与智能化的方向加速发展。 随着技术的不断进步,我们有理由相信,机器人将能够更好地适应复杂多变的真实世界,在各个领域发挥更大的作用,为人类生活带来更多便利。