智元机器人发布通用基座大模型GO-1，新人形机器人亮相在即

在人工智能与机器人技术深度融合的时代浪潮下，具身智能正成为推动机器人应用普及的关键驱动力。智元机器人公司近日发布了其最新研发成果——智元启元大模型Genie Operator-1（GO-1）通用具身基座模型。这一模型的发布，预示着机器人领域在理解和执行复杂人类指令方面取得了显著突破，或将加速机器人从特定场景应用向通用型助手的转变。

GO-1模型的独特之处在于其采用的Vision-Language-Latent-Action（ViLLA）框架。该框架巧妙地融合了多模态大模型（VLM）与混合专家（MoE）技术，实现了从数据采集、模型训练到模型推理的一体化流程。VLM作为主干网络，凭借对海量互联网文本和图文数据的学习，使GO-1具备了强大的环境感知和理解能力。这意味着机器人不再仅仅依赖预设的程序，而是能够像人类一样，通过观察和学习来理解周围世界。

MoE架构则进一步提升了GO-1的动作执行能力。通过学习人类操作视频和跨本体操作视频，以及高质量的仿真和真机数据，MoE中的隐动作专家模型和动作专家模型能够精准地理解人类意图，并将复杂的指令分解为一系列可执行的动作序列。这种精细化的动作控制能力，是GO-1能够胜任各种复杂任务的关键。

GO-1的设计理念强调了“采训推一体化”，确保数据处理与模型应用的无缝衔接。与其他依赖大量标注数据的训练方法不同，GO-1展现出强大的小样本快速泛化能力，即使在数据量极少甚至无数据的情况下，也能迅速适应新的场景和执行新的任务。此外，GO-1还具备“一脑多形”的特性，这意味着它可以轻松迁移至不同形态的机器人平台上，实现快速适配，极大地降低了部署成本和周期。

智元机器人发布通用基座大模型GO-1，新人形机器人亮相在即

GO-1的持续进化机制是其另一大亮点。它通过数据回流系统，能够从实际执行过程中遇到的问题中不断学习和进步，例如，在实际操作中如果出现失误，系统会将相关数据反馈给模型，使其在未来的任务中避免类似情况的发生。这种迭代学习能力对于机器人在复杂、动态的环境中完成任务至关重要。

为了更好地支持模型的训练和优化，GO-1的构建采用了由底层到顶层的数字金字塔模型。底层是海量的互联网文本与图文数据，为机器人提供通用的知识和环境理解的基础。上一层是人类操作和跨本体视频，帮助机器人学习各种动作操作模式。再上一层是仿真数据，用于增强模型的泛化能力。而金字塔的顶层则是高质量的真机示教数据，用于训练精准的动作执行。这种多层次的数据结构，能够最大限度地提高模型学习效率和实际应用能力。

智元机器人发布通用基座大模型GO-1，新人形机器人亮相在即

在实际应用中，用户只需通过简单的语言指令，GO-1就能将多相机的视觉信号和人类语言指令转化为机器人的动作执行。例如，当用户说“挂衣服”时，GO-1能够理解指令的含义，结合所学的人类操作视频和仿真数据，模拟挂衣服的过程，并最终精准完成任务。ViLLA框架通过预测隐式动作标记，有效弥合了图像-文本输入与机器人执行动作之间的鸿沟，使得机器人能够像人类一样自然地与环境互动。

智元机器人发布通用基座大模型GO-1，新人形机器人亮相在即

GO-1的应用前景十分广阔。从家庭场景中的准备餐食、收拾桌面，到办公和商业场景中的接待访客、发放物品，再到工业等其他领域的操作任务，GO-1都能迅速适应并执行。借助GO-1强大的学习和适应能力，未来的机器人有望成为人类生活和工作中不可或缺的助手，极大地提高效率和改善生活品质。例如，在制作咖啡时不小心将杯子放歪时，它能够通过后续的数据回流学习，逐渐优化任务执行过程，保证最终咖啡制作的质量。这展示了具身智能模型在真实场景中不断自我完善的潜力。

免责声明：本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿，凡在本网站出现的信息，均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性，但不保证有关资料的准确性及可靠性，读者在使用前请进一步核实，并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏，概不负任何法律责任。任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时，可联系本站进行审核删除。

一	二	三	四	五	六	日
					1	2
3	4	5	6	7	8	9
10	11	12	13	14	15	16
17	18	19	20	21	22	23
24	25	26	27	28	29	30
31

智元机器人发布通用基座大模型GO-1，新人形机器人亮相在即

相关推荐

发表回复