机器人技术领域迎来重大突破!智元机器人近日发布了其通用具身基座模型——智元启元大模型Genie Operator-1(简称GO-1),这无疑是机器人智能化进程中的一个重要里程碑。GO-1模型采用创新的Vision-Language-Latent-Action(ViLLA)框架,展现出卓越的技术实力和广泛的应用前景,预示着具身智能时代的加速到来。
ViLLA框架的核心在于多模态大模型(VLM)与混合专家(MoE)的深度融合。VLM作为主干网络,不仅继承了开源多模态大模型的强大权重,更通过海量互联网数据的训练,赋予了GO-1强大的场景感知与理解能力。这意味着GO-1不再仅仅是执行预设指令的机器,而是能够像人类一样理解周围环境,并根据环境做出判断。MoE则进一步优化了模型的动作规划与执行能力,通过隐动作专家模型和动作专家模型的协同,实现了指令理解到精准动作执行的无缝衔接。这种设计使得GO-1能够更好地适应复杂、动态的环境。

GO-1的突出优势在于其小样本快速泛化能力。“小样本”意味着在极少的数据情况下,GO-1就能学会新的技能或适应新的环境;“快速泛化”则意味着这种学习过程非常高效。这种能力使得GO-1能够在实际应用中快速适应新场景和新任务,大大降低了部署成本和时间。“一脑多形”的跨本体应用能力,则赋予了GO-1更强的适应性和灵活性,使其能够在不同形态的机器人之间灵活迁移,从而拓展其应用场景。此外,GO-1还具备持续进化的特性,能够不断从实际执行中遇到的问题数据中学习,并提升自身性能,这是一个至关重要的特性,保证了机器人在长期使用过程中的自我完善。
为了构建GO-1,智元机器人巧妙地采用了具身领域的数字金字塔结构。金字塔的底层是海量规模的互联网纯文本与图文数据,为机器人提供丰富的通用知识和强大的场景理解能力,相当于为机器人打下了坚实的基础。上一层则是大规模的人类操作视频和跨本体操作视频,这些数据帮助机器人学习各种动作操作模式,让机器人知道“如何做”。再往上一层,仿真数据增强了机器人的泛化性,使其能够适应不同场景和物体,提升了机器人的鲁棒性。最终,位于金字塔顶层的是高质量的真机示教数据,用于训练机器人精准的动作执行能力,确保机器人能够精确、稳定地完成任务。这种分层训练方式,有效提升了GO-1的整体性能和稳定性。

在实际应用中,GO-1展现了令人印象深刻的表现。通过简单的自然语言指令,例如“挂衣服”,GO-1就能快速理解并执行任务。从理解指令、规划动作到精准执行,整个过程流畅而高效,展现了极高的智能化水平。GO-1的应用场景非常广泛,无论是家庭场景中的准备餐食、收拾桌面,还是办公和商业场景中的接待访客、发放物品,它都能胜任。这预示着GO-1未来在各个领域都拥有巨大的应用潜力。

GO-1的学习能力也是其一大亮点。当机器人在执行任务时遇到问题,例如在制作咖啡时出现偏差,GO-1能够从这些错误数据中学习,不断改进自身行为,直到成功完成任务。这种自我学习和改进的能力,使得GO-1在未来的应用中具有更加广泛的前景,也使得其能够适应更加复杂和多变的任务环境。

除了GO-1之外,智元机器人还宣布将在未来几个月内推出基于强化学习的仿真模型,以及全新的人形机器人。可以预见,随着这些新技术的不断涌现,机器人将变得更加智能、更加通用,从而为人类社会带来更多的便利和价值,并加速实现人机协作的美好未来。