在人工智能领域不断寻求突破的浪潮中,智元机器人近日发布了其首个通用具身基座模型——智元启元大模型Genie Operator-1(简称GO-1),引发了行业内的广泛关注。GO-1的问世,不仅是智元机器人在具身智能领域的一次重要实践,也象征着具身智能技术正加速走向通用化和开放化,有望在未来重塑人机交互的模式,并为各个行业带来深远的影响。
GO-1模型的核心架构是其独创的Vision-Language-Latent-Action(ViLLA)框架。该框架巧妙地将VLM(多模态大模型)与MoE(混合专家)技术相结合,构成了一个强大的认知与执行系统。其中,VLM负责场景感知和语义理解,而MoE则负责动作规划与精准执行。这种设计赋予了GO-1卓越的环境适应性和任务执行能力,使其能够在数据量有限的情况下,甚至在零样本环境下,迅速适应新的工作场景和任务需求。

更具体地说,GO-1的VLM主干网络通过继承开源多模态大模型的预训练权重,并利用海量的互联网文本和图文数据进行微调,使其具备了对复杂环境的广泛感知和深度理解能力。而MoE模块则包含隐动作专家模型和动作专家模型,分别通过学习互联网上的人类操作视频、跨本体操作视频,以及高质量的仿真数据和真机数据,使机器人能够准确理解动作意图并进行精细化的动作控制。这种多模态融合的方式,显著提升了机器人对复杂任务的理解和执行能力。
GO-1的五大特点清晰地展现了其技术优势:
- 采训推一体化设计:实现了数据采集、模型训练和模型推理的无缝连接,加速了模型迭代和优化周期。
- 小样本快速泛化能力:能够在少量数据的支持下快速适应新的场景和任务,降低了部署成本和门槛。
- 一脑多形功能:支持在不同机器人形态之间进行模型迁移,从而快速适配不同的硬件平台和应用场景。
- 持续进化特性:借助智元的数据回流系统,机器人能够从实际执行过程中遇到的问题和错误中持续学习并改进,提升了系统的鲁棒性。
- 人类视频学习能力:通过学习互联网上的视频和真实人类的示范动作,增强了对人类行为的理解,提升了人机协作的效率。

在模型构建方面,GO-1采用了具身智能领域的数字金字塔架构,分层吸收了不同来源的数据:从底层的互联网大规模纯文本与图文数据,到中层的人类操作/跨本体视频,再到顶层的高质量仿真数据以及真机示教数据。这种由浅入深、循序渐进的数据学习方式,使得GO-1能够轻松应对各种复杂的环境和物体,并快速掌握新的操作技能。换句话说,GO-1接受了全面的“基础教育”和“能力培训”,使其在面对真实世界的复杂性时显得游刃有余。
在实际应用中,GO-1展现出了令人印象深刻的性能。用户只需用自然语言描述任务,例如“挂衣服”,机器人就能根据其视觉感知和已有的知识储备,快速理解指令的含义和要求,并规划出相应的执行步骤,最终精准地完成任务。无论是家庭环境中的准备餐食、收拾桌面,还是办公和商业场景中的接待访客、发放物品,GO-1都表现出了出色的适应性和执行力。这表明GO-1具备了在多种现实场景中进行有效人机协作的潜力。

更值得一提的是,GO-1具备持续进化的能力。例如,如果机器人在制作咖啡时意外地将杯子放歪,它能够从这次失败的经验中学习,并通过数据回流系统不断改进其操作策略,直至成功完成任务。这种持续学习和自我完善的能力,使得GO-1在面对动态变化的真实世界时更加自信和从容。这种自适应能力对于提升机器人在复杂环境中的可靠性和稳定性至关重要。

智元机器人还宣布,将在未来几个月内推出基于强化学习的仿真模型以及新一代的人形机器人。这些举措预示着GO-1的应用前景将更加广阔,同时也进一步提升了人们对未来机器人智能化水平的期望。随着技术的不断进步,具身智能将逐渐渗透到我们生活的方方面面,真正实现人与机器的和谐共生。