智元机器人发布通用基座大模型GO-1，新人形机器人亮相在即

在人工智能与机器人技术融合的浪潮下，智元机器人近日发布的智元启元大模型Genie Operator-1（以下简称GO-1）引发了业界的广泛关注。这款通用具身基座模型，以其独特的Vision-Language-Latent-Action (ViLLA)框架，预示着机器人智能化发展的新方向。

GO-1的核心优势在于其ViLLA框架，该框架并非简单地将视觉、语言与动作连接，而是创新性地引入了隐式动作标记（Latent Action Tokens），从而更有效地弥合了图像-文本输入与机器人动作执行之间的鸿沟。ViLLA框架融合了VLM（多模态大模型）与MoE（混合专家）两种关键技术。VLM作为主干网络，通过学习海量的互联网文本和图文数据，赋予GO-1强大的环境感知和语义理解能力。而MoE则通过隐动作专家模型和动作专家模型的协同运作，使GO-1具备了对动作的细致理解和精确控制能力，使其能够在复杂的环境中执行各种任务。

智元机器人发布通用基座大模型GO-1，新人形机器人亮相在即

GO-1的五大亮点，进一步彰显了其技术实力：

采训推一体化设计： 实现了数据采集、模型训练和推理的无缝衔接，加速了模型的迭代优化过程，提高了效率。
小样本快速泛化能力： 即使在数据匮乏的情况下，GO-1也能迅速适应新的场景和任务，大大降低了部署成本。
一脑多形特性： 允许GO-1灵活地迁移到不同形态的机器人身上，打破了硬件限制，拓展了应用场景。
持续进化机制： 借助智元的数据回流系统，GO-1能够不断从实际执行过程中遇到的问题中学习并改进，实现性能的持续提升。
人类视频学习能力： 通过学习互联网视频和真实人类操作示范，GO-1能够更深入地理解人类行为，从而更好地模仿和执行相关任务。

为了构建强大的GO-1，智元机器人采用了“数字金字塔”式的数据策略。金字塔的底层是来自互联网的海量纯文本与图文数据，为机器人提供了广阔的知识库。第二层加入了人类操作和跨本体视频数据，帮助机器人学习各种动作操作模式。第三层是仿真数据，用于增强GO-1的泛化能力，使其能够适应更广泛的场景和物体。金字塔顶端则是高质量的真机示教数据，确保了GO-1精准动作执行的可靠性。

智元机器人发布通用基座大模型GO-1，新人形机器人亮相在即

与传统的Vision-Language-Action（VLA）模型相比，ViLLA框架的优势在于其能够预测隐式动作标记（Latent Action Tokens），这可以理解为一种中间状态或潜在动作意图。例如，当用户发出“挂衣服”的指令时，GO-1并非直接将语言指令转化为具体的机器人动作，而是先理解“挂衣服”这个动作背后的“意图”，再结合学习到的知识和数据，规划并执行出一系列动作。这种方式提高了机器人动作的鲁棒性和泛化性。

GO-1的应用前景十分广阔。在家庭场景中，它可以帮助完成准备餐食、整理桌面等家务；在办公和商业场景中，它可以承担接待访客、发放物品等任务；在工业领域，它可以执行更加复杂的生产操作。此外，GO-1的数据回流机制使其能够在实际应用中不断学习和优化，从而不断提升自身性能，更好地适应各种复杂环境。

智元机器人发布通用基座大模型GO-1，新人形机器人亮相在即

总而言之，智元机器人GO-1的发布，标志着通用具身智能模型取得了显著进展。它不仅为机器人技术的未来发展提供了新的思路，也为更广泛地将机器人应用于日常生活和各行各业铺平了道路。随着技术的不断成熟和应用场景的不断拓展，我们有理由期待一个更加智能化的机器人时代的到来。

免责声明：本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿，凡在本网站出现的信息，均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性，但不保证有关资料的准确性及可靠性，读者在使用前请进一步核实，并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏，概不负任何法律责任。任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时，可联系本站进行审核删除。

一	二	三	四	五	六	日
					1	2
3	4	5	6	7	8	9
10	11	12	13	14	15	16
17	18	19	20	21	22	23
24	25	26	27	28	29	30
31

智元机器人发布通用基座大模型GO-1，新人形机器人亮相在即

相关推荐

发表回复