智元机器人发布通用基座大模型GO-1，新人形机器人即将亮相！

在机器人技术领域，具身智能正逐渐成为研究和应用的热点。近日，智元机器人公司发布了一款名为智元启元大模型Genie Operator-1（简称GO-1）的通用具身基座模型，这一成果被视为机器人在理解指令、适应环境和执行任务能力方面的一大飞跃。GO-1的发布，预示着机器人正从“专用工具”向“通用助手”转变，未来有望在更广泛的场景中发挥作用。

GO-1的核心在于其独特的Vision-Language-Latent-Action（ViLLA）框架。该框架创造性地融合了Vision-Language Model（VLM，多模态大模型）与Mixture of Experts（MoE，混合专家）技术，兼顾了通用性和专精性。这种架构设计不仅使GO-1拥有了从数据采集到模型推理的一体化能力，更赋予了它小样本快速泛化和“一脑多形”跨本体应用等优势。相比于传统的机器人控制系统，ViLLA框架在复杂性和灵活性上都有显著提升。

智元机器人发布通用基座大模型GO-1，新人形机器人即将亮相！

具体而言，GO-1的ViLLA框架利用VLM模型继承了开源多模态大模型预训练的权重，并借助互联网上的海量文本和图文数据，实现了对通用场景的理解能力。这使得GO-1能够识别物体、理解场景，并从中提取有用的信息。另一方面，MoE中的隐动作专家模型和动作专家模型，则分别通过人类操作视频和高质量仿真、真机数据，增强了模型的动作理解和执行能力。隐动作专家模型负责学习动作的潜在表示，而动作专家模型则负责将这些表示转化为实际的动作指令。这种巧妙的设计使GO-1能够轻松应对多样化的环境和物体，并快速学习和执行新操作。

为了训练出能力全面的GO-1，智元机器人采用了具身领域的数字金字塔结构。金字塔的底层是互联网的大规模纯文本与图文数据，为机器人提供基础知识储备；中层是人类操作视频，用于学习动作模式；向上是仿真数据，用于增强泛化能力；顶层则是高质量的真机示教数据，确保动作执行的精准性。这种数据结构的设计保证了GO-1既能理解抽象的概念知识，又能执行具体的物理动作，使其能够全面适应新的场景，轻松应对各种挑战。

智元机器人发布通用基座大模型GO-1，新人形机器人即将亮相！

在实际应用中，GO-1展现出了令人印象深刻的指令理解和执行能力。例如，用户只需用日常语言向机器人发出“挂衣服”这样的指令，GO-1便能迅速理解指令含义并执行。它首先分析画面并结合先验知识理解指令的目标，然后参考人类操作视频规划动作步骤，接着通过仿真数据模拟操作过程，最后利用真机示教数据精准控制机械臂和末端执行器完成任务。整个过程流畅且高效，充分展示了GO-1在理解和执行指令方面的卓越性能。

智元机器人发布通用基座大模型GO-1，新人形机器人即将亮相！

得益于其通用性和灵活性，GO-1的应用场景非常广泛。从家庭生活中的倒水、烤吐司，到商务会议中的拿饮料、拿苹果，再到活动现场的检票、发放物料，它都能够胜任。更重要的是，GO-1还具备持续进化的能力。当机器人在执行任务过程中遇到问题时，例如在做咖啡时杯子放置不正确，它能够通过数据回流系统学习并改进，直至成功完成任务。这种自学习能力是具身智能发展的关键，也是GO-1未来应用前景的重要保障。

智元机器人发布通用基座大模型GO-1，新人形机器人即将亮相！

智元启元大模型GO-1的成功发布，不仅为机器人技术的发展注入了新的活力，更推动了具身智能向通用化、开放化和智能化方向发展。它打破了传统机器人只能执行特定任务的局限性，使得机器人能够适应更加复杂多变的真实世界。随着相关技术的不断进步和完善，可以预见，未来的机器人将更加智能、更加灵活，并在更广泛的领域为人类提供服务，极大地提升我们的生活品质和工作效率。

免责声明：本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿，凡在本网站出现的信息，均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性，但不保证有关资料的准确性及可靠性，读者在使用前请进一步核实，并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏，概不负任何法律责任。任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时，可联系本站进行审核删除。

一	二	三	四	五	六	日
					1	2
3	4	5	6	7	8	9
10	11	12	13	14	15	16
17	18	19	20	21	22	23
24	25	26	27	28	29	30
31

智元机器人发布通用基座大模型GO-1，新人形机器人即将亮相！

相关推荐

发表回复