智元机器人发布通用基座大模型GO-1，新人形机器人即将亮相！

在人工智能与机器人技术融合的浪潮中，智元机器人公司近日正式发布了其通用具身基座模型——智元启元大模型Genie Operator-1 (GO-1)。该模型的问世，被视为机器人技术领域在理解和执行人类指令方面取得的重大突破，标志着具身智能迈向新的发展阶段。

GO-1的核心架构是其独创的Vision-Language-Latent-Action (ViLLA)框架。这种框架巧妙地结合了多模态大模型(VLM)与混合专家(MoE)技术，为机器人赋予了强大的环境感知、语义理解和动作执行能力。相较于传统的机器人控制方法，ViLLA框架的优势在于其出色的泛化能力，即使在数据量极少甚至零样本的情况下，GO-1也能迅速适应新的场景和任务，实现“举一反三”式的学习效果。这将大大降低机器人部署和应用的成本，加速其商业化进程。

智元机器人发布通用基座大模型GO-1，新人形机器人即将亮相！

具体而言，VLM作为GO-1的主干网络，其权重源自开源多模态大模型5-2B，并通过互联网上浩瀚的纯文本和图文数据进行训练，积累了广泛的场景认知基础。这使得GO-1能够识别并理解各种复杂的环境和物体。而MoE中的隐动作专家模型和动作专家模型，则分别利用海量的人类操作视频、跨本体操作视频，以及高质量的仿真数据和真机数据，来提升GO-1的动作理解和执行能力。这种数据驱动的训练方法，使得GO-1能够模仿人类的行为模式，更加自然地与环境互动。

这意味着，未来的机器人将不再需要复杂的编程，而是可以通过自然语言与用户进行交互。例如，用户只需简单地发出“挂衣服”的指令，GO-1便能通过摄像头捕捉到的画面，结合其学习到的知识，理解指令含义，规划执行步骤，并精准地完成任务。 ViLLA框架通过预测隐式动作标记（Latent Action Tokens），有效弥合了图像-文本输入与机器人执行动作之间的鸿沟，实现了从感知到动作的无缝衔接。这种自然交互的方式，将极大地提升用户体验。

智元机器人发布通用基座大模型GO-1，新人形机器人即将亮相！

为了构建GO-1，智元机器人采用了具身领域的数字金字塔结构。金字塔的底层是互联网的海量数据，为机器人提供通用的知识和场景理解基础。向上依次叠加的是人类操作和跨本体视频数据、仿真数据，以及最顶层用于精准执行动作的高质量真机示教数据。这种分层结构的设计，不仅保证了GO-1的知识覆盖面和泛化能力，也确保了其在实际应用中的稳定性和可靠性。从数据到实践，数字金字塔的设计理念体现了严谨的工程思维。

GO-1的应用前景广阔，涵盖了家庭、商务、公共服务等多个领域。在家庭场景中，它可以完成倒水、烤吐司等日常任务；在商务会议中，它可以根据指令递送饮料或苹果；在活动现场，它可以执行检票、发放物料等工作。更重要的是，GO-1具备持续进化的能力，它可以通过数据回流系统，从实际执行中遇到的问题数据中不断学习，从而持续提升自身性能。这种自适应学习的能力，使其能够不断适应新的环境和任务，保持竞争力。

智元机器人发布通用基座大模型GO-1，新人形机器人即将亮相！

展望未来，智元机器人还计划在未来几个月内推出基于强化学习的仿真模型，并即将发布全新的人形机器人。这些创新举措预示着，具身智能正朝着通用化、开放化与智能化的方向加速发展。随着技术的不断进步，我们有理由相信，机器人将能够更好地适应复杂多变的真实世界，在各个领域发挥更大的作用，为人类生活带来更多便利。

免责声明：本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿，凡在本网站出现的信息，均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性，但不保证有关资料的准确性及可靠性，读者在使用前请进一步核实，并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏，概不负任何法律责任。任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时，可联系本站进行审核删除。

一	二	三	四	五	六	日
					1	2
3	4	5	6	7	8	9
10	11	12	13	14	15	16
17	18	19	20	21	22	23
24	25	26	27	28	29	30
31

智元机器人发布通用基座大模型GO-1，新人形机器人即将亮相！

相关推荐

发表回复