在机器人技术日新月异的浪潮中,上海智元机器人公司近日重磅发布了其通用具身智能基座模型——智元启元大模型 Genie Operator-1 (简称 GO-1)。这款模型的问世,预示着机器人智能发展进入了一个全新的阶段,其核心在于创新的 Vision-Language-Latent-Action (ViLLA) 框架,它有望极大地拓宽机器人应用场景,并提升其智能化水平。
GO-1 的核心架构 ViLLA 框架,巧妙地融合了 VLM (视觉语言模型) 与 MoE(混合专家模型)两大技术。前者凭借海量的互联网文本及图文数据,赋予 GO-1 强大的环境感知和语义理解能力,使其能够“看懂”并“理解”复杂的真实世界。后者则通过隐动作专家模型和动作专家模型,利用人类操作视频和高质量仿真数据,赋予 GO-1 对动作的理解和精准执行能力,使其能够“模仿”并“执行”各种任务。这意味着 GO-1 不仅仅能识别物体,还能理解它们之间的关系和操作方式。

GO-1 展现出诸多令人瞩目的性能优势。其采、训、推一体化设计,显著提升了数据采集、模型训练和推理的效率,构建了一个流畅的工作流程。小样本快速泛化能力,意味着 GO-1 仅需少量甚至零样本数据,即可快速适应新的环境和任务,极大地降低了部署成本。更重要的是,“一脑多形”的跨本体应用能力,使 GO-1 能够轻松迁移至不同形态的机器人平台,实现快速适配和部署,这为机器人技术的广泛应用提供了坚实的基础。此外,GO-1 还具备持续进化的能力,通过数据回流系统,不断从实际执行中遇到的问题数据中学习和进化,确保其智能化水平不断提升。而对人类操作视频的学习能力,进一步加强了 GO-1 对人类行为逻辑的理解,使其能够更好地与人类协同工作。
从模型构建的角度来看,GO-1 的底层架构是一个基于具身领域的数字金字塔模型。最底层是海量的互联网纯文本和图文数据,为机器人提供基础的知识储备和场景理解能力。中间层是包含人类操作和跨平台数据的视频资料,用于帮助机器人学习动作的操作模式和技巧。再往上则是仿真数据,旨在增强模型的泛化能力和鲁棒性。而金字塔的顶层,则由高质量的真实机器人(真机)示教数据所构成,用于训练机器人精准地执行各种动作。这种分层架构的设计,使得 GO-1 能够更好地适应各种复杂环境,并快速学习新的操作技能。可以预见的是,随着数据积累和模型迭代,GO-1 的性能还将持续提升。

在实际应用中,GO-1 展现出令人印象深刻的性能。用户可以使用自然语言向机器人发出指令,例如“挂衣服”,GO-1 就能根据其学习到的知识和经验,将任务拆解为多个步骤,并精确地完成指定动作。无论是家庭场景中的倒水、烤吐司,还是商务会议中的递送饮料和苹果,GO-1 都能快速响应并完美执行任务。更值得一提的是,GO-1 还能通过数据回流不断学习和改进。例如,如果在制作咖啡的过程中出现杯子放置不稳的情况,GO-1 会从失败中吸取经验,不断调整动作,直至成功完成任务。这种持续学习和自我优化的能力,是 GO-1 智能化的重要体现。

智元启元大模型 GO-1 的推出,标志着具身智能技术向着通用化、开放化和智能化方向迈出了坚实的一步。它突破了传统机器人应用中场景和物体的泛化限制,实现了语言指令的泛化,能够快速学习新技能,并跨本体部署。这意味着,无论是在家庭、办公、商业还是工业等各种场景中,GO-1 都有望迅速适应并发挥作用,为机器人代替人类完成各种工作和生活任务提供强大的智能支持。未来的机器人将更加智能、灵活和通用,成为人类可靠的助手和伙伴。