智元机器人发布通用基座大模型GO-1，新人形机器人亮相在即

在人工智能与机器人技术深度融合的浪潮下，智元机器人公司近期发布了一款名为“智元启元大模型Genie Operator-1”（简称GO-1）的通用具身基座模型。这款模型并非简单的技术升级，而是以其创新的Vision-Language-Latent-Action（ViLLA）框架为核心，代表着机器人理解、学习和执行复杂人类指令能力的显著提升，正引领着具身智能走向新的发展阶段。

GO-1的核心在于其独特的ViLLA框架，这一框架巧妙地融合了VLM（多模态大模型）与MoE（混合专家）技术。具体来说，VLM作为主干网络，通过深度学习互联网上积累的海量纯文本和图文数据，赋予GO-1强大的环境感知和语义理解能力，使其能够“看懂”现实世界。而MoE架构则进一步将功能细化，分解为隐动作专家模型和动作专家模型，分别负责理解复杂动作的逻辑和精确执行动作。隐动作专家模型通过学习人类操作和跨本体（不同类型的机器人或工具之间的）操作视频，使GO-1能够理解并规划复杂的任务流程；动作专家模型则依赖高质量的仿真数据和真机数据进行训练，确保机器人动作的准确性和可靠性。

智元机器人发布通用基座大模型GO-1，新人形机器人亮相在即

GO-1展现出五大关键特点：采训推一体化、小样本快速泛化、一脑多形、持续进化以及人类视频学习能力。这些特性赋予了GO-1极高的适应性和扩展性。其中，“采训推一体化”简化了模型的开发流程，加速了模型的迭代速度。“小样本快速泛化”则意味着GO-1能够在极少量数据甚至零样本的情况下，快速适应新的场景和任务，这对于降低部署成本、加速应用落地具有重要意义。“一脑多形”预示着GO-1有望驱动不同形态的机器人平台，实现更广泛的应用覆盖。“持续进化”则保证了GO-1能通过数据回流不断学习和优化，提高其长期性能。

为了打造出如此强大的GO-1，智元机器人巧妙地构建了一个“数字金字塔”模型。该模型由下至上，逐层递进：底层是互联网海量的纯文本和图文数据，为机器人提供通用知识和场景理解的基础；中间层是互联网上大规模的人类操作和跨本体视频，帮助机器人学习各种动作模式；再上一层是仿真数据，用于增强机器人的泛化能力，使其能够适应各种不同的场景和物体；而位于金字塔顶端的则是高质量的真机示教数据，用于训练机器人精准执行动作，保证最终的执行效果。

智元机器人发布通用基座大模型GO-1，新人形机器人亮相在即

在实际应用中，GO-1展现了惊人的易用性。用户只需发出简单的语音指令，例如“挂衣服”，GO-1就能迅速理解指令的含义，分解任务环节，识别周围的物体和环境，并最终精确地完成任务。这种能力得益于ViLLA框架中引入的隐式动作标记预测机制，它巧妙地弥合了图像-文本输入与机器人实际执行动作之间的鸿沟，使得机器人能够真正理解人类意图并将其转化为实际行动。

智元机器人发布通用基座大模型GO-1，新人形机器人亮相在即

GO-1的应用潜力巨大，覆盖了家庭生活、商务办公、公共服务等多个领域。从家庭场景中的倒水、烤吐司等日常任务，到商务会议中的拿饮料、拿苹果等简单指令，再到活动现场的检票、发放物料等工作，GO-1都能轻松应对。更值得关注的是，得益于数据回流系统，GO-1能够从实际执行中遇到的问题数据中持续学习进化，不断提升其执行任务的能力，使其在复杂多变的环境中表现出更强的适应性。

智元机器人发布通用基座大模型GO-1，新人形机器人亮相在即

智元机器人同时预告了将在未来几个月内推出基于强化学习的仿真模型以及新的人形机器人产品。GO-1的成功发布，不仅体现了智元机器人在具身智能领域的领先优势，也为整个机器人行业指明了发展方向。伴随着GO-1等通用具身基座大模型的广泛应用，我们有理由相信，机器人将在未来能够更好地适应真实世界的复杂性，并在更多不同的场景中提供服务，为人类生活带来更多的便利和可能性。

免责声明：本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿，凡在本网站出现的信息，均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性，但不保证有关资料的准确性及可靠性，读者在使用前请进一步核实，并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏，概不负任何法律责任。任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时，可联系本站进行审核删除。

一	二	三	四	五	六	日
					1	2
3	4	5	6	7	8	9
10	11	12	13	14	15	16
17	18	19	20	21	22	23
24	25	26	27	28	29	30
31

智元机器人发布通用基座大模型GO-1，新人形机器人亮相在即

相关推荐

发表回复