在人工智能与机器人技术的深度融合浪潮中,智元机器人公司近日重磅推出了其通用具身基座模型——智元启元大模型Genie Operator-1(简称GO-1)。 该模型凭借其独创的Vision-Language-Latent-Action(ViLLA)框架,为机器人的智能化进程注入了强劲动力,预示着具身智能领域的新纪元。
ViLLA框架是GO-1的核心架构,由两大关键组件构成:多模态大模型(VLM)与混合专家模型(MoE)。 其中,VLM作为GO-1的主干网络,基于开源多模态大模型5-2B的权重进行了深度定制训练, 通过海量的互联网纯文本和图文数据,赋予了GO-1卓越的场景感知和环境理解能力。这意味着GO-1能够像人类一样,从视觉和语言信息中提取关键信息,理解周围世界的复杂性。
MoE则由隐动作专家模型和动作专家模型组成,前者利用互联网上大规模的人类操作及跨本体操作视频,赋予模型理解并执行各种动作的能力。 后者则通过高质量的仿真数据和真实机器人数据,确保了动作执行的精确性和可靠性。 这种双重保障的机制,使得GO-1在面对复杂任务时,能够做出更加合理和精准的决策。

GO-1的发布,标志着机器人在小样本快速泛化以及跨本体应用上取得了显著进展。 传统机器人模型往往需要大量的数据进行训练才能适应新的任务,而GO-1能够在极少量的数据甚至零样本的情况下,快速适应全新的场景和任务,实现所谓“一脑多形”的跨本体部署。换句话说,同一个GO-1模型可以驱动形态各异的机器人执行不同的任务,极大地提高了机器人的通用性和灵活性。此外,智元机器人还透露,未来几个月内将会推出基于强化学习的仿真模型,并计划推出全新的人形机器人产品,令人期待。
GO-1的成功,很大程度上归功于其独特的“数字金字塔”构建方式。金字塔的底层是来自互联网的海量纯文本和图文数据,为机器人提供了广泛的知识基础和认知能力。在此基础上, 通过引入大规模的人类操作视频、跨本体视频以及仿真数据,GO-1得以学习各种精细的动作操作模式,从而大大提升其泛化能力, 使其可以理解和模仿人类的行为。金字塔的顶层则是高质量的真机示教数据,这部分数据负责训练机器人的精准动作执行能力,确保其在真实环境中表现出色。

在实际应用中,GO-1体现出了卓越的性能。通过简单的语音指令,机器人便能够理解指令的含义,并快速执行相应的动作。 例如,当用户指示机器人“挂衣服”时,GO-1会根据其学习到的知识和仿真数据,准确理解挂衣服的步骤,并精准地完成任务。更令人印象深刻的是,GO-1还配备了数据回流系统,能够不断地从实际执行中遇到的问题数据中学习,持续进化,从而显著提高任务完成的成功率。这种自我学习和改进的能力,是GO-1能够适应复杂环境的关键。

GO-1潜在的应用场景非常广泛。从家庭环境中准备餐食、收拾桌面,到办公和商业场景中接待访客、发放物品,再到工业场景中的复杂操作,GO-1都能够胜任。 这意味着机器人将有机会走进更多不同的场景,适应复杂多变的真实世界,从而为人类的工作和生活带来更多的便利。可以预见,在不久的将来,我们将会看到GO-1的身影出现在各种各样的场所,成为我们生活中不可或缺的一部分。

智元启元大模型GO-1的发布,不仅为机器人领域带来了技术上的突破,更为具身智能的通用化、开放化与智能化发展开辟了新的道路。 虽然目前GO-1还处于发展初期,但其所展现出的潜力已经引发了业界的广泛关注。未来,随着技术的不断进步和应用场景的不断拓展,机器人将在更多领域发挥关键作用,为人类创造更加美好的生活和工作环境。我们有理由相信,GO-1将成为推动具身智能发展的重要引擎,引领机器人技术走向一个更加智能化和实用化的未来。