智元机器人发布通用基座大模型GO-1，新人形机器人亮相在即

近日，机器人技术领域传来令人振奋的消息：智元机器人公司正式发布了其首个通用具身基座模型——智元启元大模型Genie Operator-1（简称GO-1）。这款模型并非简单的算法升级，而是采用了创新的Vision-Language-Latent-Action（ViLLA）框架，巧妙融合了VLM（多模态大模型）与MoE（混合专家）技术，旨在赋予机器人前所未有的智能化水平与适应能力。GO-1的问世，预示着机器人将从执行预设程序，向具备理解、判断和自主学习能力的智能体进化，值得业界高度关注。

那么，ViLLA框架是如何实现这一突破的呢？其核心在于将视觉和语言信息与潜在动作指令相结合。具体来说，VLM部分作为主干网络，借鉴并优化了一个权重达到5-2B的开源多模态大模型。通过海量互联网纯文本和图文数据的训练，GO-1获得了出色的场景感知和理解能力，能够“看懂”世界，理解人类的指令意图。而MoE则通过两种专家模型——隐动作专家模型和动作专家模型——分别负责理解和执行动作。前者依赖于大规模人类操作和跨本体操作视频进行学习，后者则结合高质量仿真数据和真机数据，确保机器人能够安全、高效地完成各种任务。这种分工协作的模式，极大地提升了GO-1的动作执行精度和泛化能力。

GO-1的重要特点之一是其在小样本快速泛化方面的卓越表现。传统机器人需要大量的训练数据才能适应新的场景和任务，而GO-1凭借其强大的预训练模型，能够在极少数据甚至零样本的情况下，快速掌握新的技能。此外，GO-1还具备“一脑多形”的跨本体应用能力，这意味着它可以轻松地在不同形态的机器人之间迁移，快速适配到不同的实体机器人上，大大降低了机器人部署和维护的成本。这种高度的灵活性，为机器人在更广泛的领域应用创造了条件。

智元机器人发布通用基座大模型GO-1，新人形机器人亮相在即

为了确保GO-1的性能，智元机器人公司还为其量身定制了一套软硬件一体化框架，实现了数据采集、模型训练和模型推理的无缝衔接。更为重要的是，GO-1还具备持续进化的能力。通过智元的数据回流系统，机器人可以从实际执行中遇到的问题数据中不断学习和进化，从而不断提升自身的智能化水平。这种闭环学习机制，确保了GO-1能够随着时间的推移变得越来越聪明。

得益于其强大的功能，GO-1的应用场景十分广泛。从家庭场景中的准备餐食、收拾桌面，到办公和商业场景中的接待访客、发放物品，GO-1都能轻松应对。例如，用户可以用日常用语告诉机器人“挂衣服”，GO-1就能根据所学习的知识和数据，理解指令的含义，并拆解成一系列步骤来完成任务。这无疑将极大地提升人们的生活和工作效率。

智元机器人发布通用基座大模型GO-1，新人形机器人亮相在即

GO-1的ViLLA框架通过预测Latent Action Tokens（隐式动作标记），成功弥合了图像-文本输入与机器人执行动作之间的鸿沟。这一创新使得机器人能够更准确地理解人类的指令，并更高效地执行任务。相比于直接预测具体的关节角度或电机指令，Latent Action Tokens提供了一个更抽象、更灵活的动作表示方式，从而提高了机器人的泛化能力和鲁棒性。

智元机器人发布通用基座大模型GO-1，新人形机器人亮相在即

在实际应用中，GO-1展现出了令人印象深刻的能力。无论是早上为用户倒水、烤吐司，还是在商务会议中为用户拿取饮料和水果，GO-1都能迅速响应并完成任务。更令人惊喜的是，它还能在数据回流的过程中不断学习和进化，例如在做咖啡时如果杯子放歪了，它就能从这次失败中学习并改进，直到成功完成任务。这种持续学习的能力，是GO-1区别于其他机器人的重要特征。

免责声明：本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿，凡在本网站出现的信息，均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性，但不保证有关资料的准确性及可靠性，读者在使用前请进一步核实，并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏，概不负任何法律责任。任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时，可联系本站进行审核删除。

一	二	三	四	五	六	日
					1	2
3	4	5	6	7	8	9
10	11	12	13	14	15	16
17	18	19	20	21	22	23
24	25	26	27	28	29	30
31

智元机器人发布通用基座大模型GO-1，新人形机器人亮相在即

相关推荐

发表回复