智元机器人发布通用基座大模型GO-1，新人形机器人即将亮相！

近日，智元机器人公司正式发布了其首个通用具身基座模型——智元启元大模型Genie Operator-1（简称GO-1），这被视为机器人技术领域的一次重要突破。GO-1模型的核心在于创新的Vision-Language-Latent-Action (ViLLA) 框架，它巧妙地将VLM（多模态大模型）与MoE（混合专家）相结合，展现出强大的小样本快速泛化能力、“一脑多形”的跨本体应用潜力，以及持续进化的学习能力。不同于以往专注于特定任务的机器人模型，GO-1 的通用性设计使其在多种场景下具备更强的适应性。

ViLLA框架是GO-1模型的核心组成部分。其中，VLM作为主干网络，通过继承开源多模态大模型5-2B的权重，并结合互联网上庞大的纯文本和图像数据，赋予GO-1强大的场景感知和理解能力。这意味着GO-1能够理解复杂的指令，并识别各种物体和情境。与此同时，MoE包含隐动作专家模型和动作专家模型。隐动作专家模型通过学习海量的人类操作和跨本体操作视频，使模型能够理解动作的意图和步骤；动作专家模型则利用高质量的仿真数据和真实机器人数据，确保模型能够精确地执行这些动作。这种双重机制的设计，保证了GO-1既能理解“做什么”，也能知道“如何做”。

GO-1 的优势体现在以下五个关键特性上：

采训推一体化设计： 实现了数据采集、模型训练和模型推理的无缝衔接，加速了模型的迭代和优化过程。这种闭环系统允许模型从实际部署中持续学习。
小样本快速泛化能力： 即使在数据匮乏的情况下，GO-1也能迅速适应新的场景和任务。这极大降低了部署成本和时间。
“一脑多形”设计： GO-1可以轻松迁移至不同机器人形态，快速适配各种本体，摆脱了传统机器人模型对特定硬件平台的依赖。
持续进化能力： 得益于智元的数据回流系统，GO-1能够从实际执行过程中遇到的问题中不断学习和优化，提升自身的能力。这是一个持续学习循环的过程。
人类视频学习能力： GO-1能够结合互联网视频和真实人类示范进行学习，增强对人类行为的理解，使其能够更好地与人类协作。

智元机器人发布通用基座大模型GO-1，新人形机器人即将亮相！

为了让GO-1具备强大的能力，智元构建了一个基于具身领域的数字金字塔结构。底层是互联网上的大规模纯文本与图文数据，为机器人提供通用知识和场景理解。在此基础上，模型通过学习海量的人类操作/跨本体视频以及仿真数据，增强泛化性和适应不同场景、物体的能力。金字塔的顶层则是高质量的真机示教数据，用于训练精准动作执行。这种多层次、全方位的训练体系，兼顾了“通识教育”与“技能培训”，使得GO-1能够灵活应对复杂的环境和物体，并快速掌握新的操作技能。

智元机器人发布通用基座大模型GO-1，新人形机器人即将亮相！

在实际应用中，GO-1展现出了令人印象深刻的能力。用户只需用自然语言描述任务，例如“挂衣服”，GO-1就能根据视觉输入、所学知识以及经验，理解任务的要求，并将其分解为一系列可执行的步骤。无论是准备餐食、收拾桌面等家庭场景任务，还是接待访客、发放物品等办公和商业场景的常见工作，GO-1都能相对轻松地完成。更重要的是，GO-1能够通过数据回流系统持续进化自己。例如，当机器人做咖啡时遇到杯子放歪的情况，系统会将此数据记录并回流到模型中，让模型从错误中学习，直到最终能够成功完成任务。

智元机器人发布通用基座大模型GO-1，新人形机器人即将亮相！

GO-1的问世，标志着具身智能正在加速迈向通用化、开放化和智能化。它有效地解决了具身智能长期以来面临的诸多挑战，包括场景和物体泛化能力不足、缺乏自然语言理解能力、无法快速学习新技能以及难以实现跨本体部署等关键问题，为机器人取代人类完成各种工作和生活任务提供了强大的智能支持。可以预见，随着GO-1的持续发展和不断完善，机器人将在更广泛的领域展现出其卓越的能力和巨大的潜力，甚至可能重塑未来的劳动力市场和社会结构。

免责声明：本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿，凡在本网站出现的信息，均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性，但不保证有关资料的准确性及可靠性，读者在使用前请进一步核实，并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏，概不负任何法律责任。任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时，可联系本站进行审核删除。

一	二	三	四	五	六	日
					1	2
3	4	5	6	7	8	9
10	11	12	13	14	15	16
17	18	19	20	21	22	23
24	25	26	27	28	29	30
31

智元机器人发布通用基座大模型GO-1，新人形机器人即将亮相！

相关推荐

发表回复