近日,机器人技术领域传来令人振奋的消息:智元机器人公司正式发布了其首个通用具身基座模型——智元启元大模型Genie Operator-1(简称GO-1)。这款模型并非简单的算法升级,而是采用了创新的Vision-Language-Latent-Action(ViLLA)框架,巧妙融合了VLM(多模态大模型)与MoE(混合专家)技术,旨在赋予机器人前所未有的智能化水平与适应能力。GO-1的问世,预示着机器人将从执行预设程序,向具备理解、判断和自主学习能力的智能体进化,值得业界高度关注。
那么,ViLLA框架是如何实现这一突破的呢?其核心在于将视觉和语言信息与潜在动作指令相结合。具体来说,VLM部分作为主干网络,借鉴并优化了一个权重达到5-2B的开源多模态大模型。通过海量互联网纯文本和图文数据的训练,GO-1获得了出色的场景感知和理解能力,能够“看懂”世界,理解人类的指令意图。而MoE则通过两种专家模型——隐动作专家模型和动作专家模型——分别负责理解和执行动作。前者依赖于大规模人类操作和跨本体操作视频进行学习,后者则结合高质量仿真数据和真机数据,确保机器人能够安全、高效地完成各种任务。这种分工协作的模式,极大地提升了GO-1的动作执行精度和泛化能力。
GO-1的重要特点之一是其在小样本快速泛化方面的卓越表现。传统机器人需要大量的训练数据才能适应新的场景和任务,而GO-1凭借其强大的预训练模型,能够在极少数据甚至零样本的情况下,快速掌握新的技能。此外,GO-1还具备“一脑多形”的跨本体应用能力,这意味着它可以轻松地在不同形态的机器人之间迁移,快速适配到不同的实体机器人上,大大降低了机器人部署和维护的成本。这种高度的灵活性,为机器人在更广泛的领域应用创造了条件。
为了确保GO-1的性能,智元机器人公司还为其量身定制了一套软硬件一体化框架,实现了数据采集、模型训练和模型推理的无缝衔接。更为重要的是,GO-1还具备持续进化的能力。通过智元的数据回流系统,机器人可以从实际执行中遇到的问题数据中不断学习和进化,从而不断提升自身的智能化水平。 这种闭环学习机制,确保了GO-1能够随着时间的推移变得越来越聪明。
得益于其强大的功能,GO-1的应用场景十分广泛。从家庭场景中的准备餐食、收拾桌面,到办公和商业场景中的接待访客、发放物品,GO-1都能轻松应对。例如,用户可以用日常用语告诉机器人“挂衣服”,GO-1就能根据所学习的知识和数据,理解指令的含义,并拆解成一系列步骤来完成任务。这无疑将极大地提升人们的生活和工作效率。
GO-1的ViLLA框架通过预测Latent Action Tokens(隐式动作标记),成功弥合了图像-文本输入与机器人执行动作之间的鸿沟。这一创新使得机器人能够更准确地理解人类的指令,并更高效地执行任务。相比于直接预测具体的关节角度或电机指令,Latent Action Tokens提供了一个更抽象、更灵活的动作表示方式,从而提高了机器人的泛化能力和鲁棒性。

在实际应用中,GO-1展现出了令人印象深刻的能力。无论是早上为用户倒水、烤吐司,还是在商务会议中为用户拿取饮料和水果,GO-1都能迅速响应并完成任务。更令人惊喜的是,它还能在数据回流的过程中不断学习和进化,例如在做咖啡时如果杯子放歪了,它就能从这次失败中学习并改进,直到成功完成任务。这种持续学习的能力,是GO-1区别于其他机器人的重要特征。