智元机器人发布通用基座大模型GO-1，新人形机器人即将亮相！

在人工智能领域日新月异的今天，具身智能作为机器人技术发展的核心方向之一，越发受到重视。近日，智元机器人公司发布了其首个通用具身基座模型——智元启元大模型Genie Operator-1（简称GO-1），这一突破性进展预示着具身智能正加速向通用化、开放化与智能化演进，并为机器人应用开辟了广阔的前景。

GO-1的核心优势在于其创新的Vision-Language-Latent-Action（ViLLA）框架。该框架巧妙地融合了多模态大模型（VLM）与混合专家模型（MoE）两种技术。VLM作为模型的骨干网络，凭借海量的互联网文本及图文数据，赋予GO-1强大的环境感知和语义理解能力。它不再是“盲人摸象”，而是能够“眼观六路，耳听八方”，理解复杂场景下人类指令的意图。

MoE则专注于动作规划与执行，进一步提升机器人的实际操作能力。相比于传统的单一模型，MoE能够根据不同的任务调用不同的“专家”模块，例如针对“挂衣服”的任务，调用服装整理专家，针对“准备餐食”的任务，调用烹饪专家。这种模块化的设计不仅提高了模型的效率，更使其能够应对各种复杂和精细化的任务。

GO-1尤其擅长小样本快速泛化，即使在数据匮乏甚至零样本的情况下，也能迅速适应新场景和任务。此外，“一脑多形”的特性也让GO-1能够灵活适配不同形态的机器人，实现跨平台、跨本体的快速迁移和部署。这意味着，开发者可以在不同类型的机器人上运行同一套模型，大大降低了开发成本和周期，提高了研发效率。

为了更直观地了解GO-1的工作原理，我们可以设想这样一个情景：用户通过日常对话发出“挂衣服”的指令。GO-1 首先会利用VLM 理解“挂衣服”的具体含义及其在当前场景下的要求。随后，MoE 中的隐动作专家模型会调用互联网上的大规模人类操作和跨本体视频数据，规划挂衣服的具体步骤。最后，借助仿真数据和真实数据的支持，动作专家模型会精确地执行这些步骤，最终完成任务。

智元机器人发布通用基座大模型GO-1，新人形机器人即将亮相！

GO-1 在诸多场景拥有巨大的应用潜力，从家庭场景 (准备餐食，收拾桌面)，到办公和商业场景 (接待访客，发放物品)，再到工业领域的复杂操作任务， GO-1 都能快速适应并胜任。这背后离不开其强大的数字金字塔架构，它从互联网的大规模纯文本与图文数据出发，逐步吸纳人类操作视频、仿真数据和真机示教数据，为机器人提供了全面的“基础教育”和“能力培训”。这种分层式的训练方式不仅提高了模型的性能，也增强了其鲁棒性。

智元机器人发布通用基座大模型GO-1，新人形机器人即将亮相！

在实际应用中， GO-1 的表现同样令人印象深刻。无论是早上为用户倒水、烤吐司的贴心服务，还是在商务会议中快速响应拿饮料、拿苹果的便捷操作，GO-1 都展现出卓越的性能。更令人兴奋的是，GO-1 具备持续进化的能力。例如，当机器人在制作咖啡时不慎将杯子放歪时，它能够通过数据回流系统不断学习和改进，最终成功完成任务。这种自学习和纠错能力是传统机器人难以企及的。

智元机器人发布通用基座大模型GO-1，新人形机器人即将亮相！

智元机器人的GO-1，为具身智能的发展注入了新的活力。随着技术的不断完善与应用场景的不断拓展，我们有理由相信，未来的机器人将更加智能、灵活、更能适应复杂多变的环境。它们将不再局限于执行单一任务或在封闭环境中工作，而是能够快速适应各种新场景和新任务，成为人类工作和生活中的可靠助手，将极大地提高生产效率，改善生活质量。

免责声明：本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿，凡在本网站出现的信息，均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性，但不保证有关资料的准确性及可靠性，读者在使用前请进一步核实，并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏，概不负任何法律责任。任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时，可联系本站进行审核删除。

一	二	三	四	五	六	日
					1	2
3	4	5	6	7	8	9
10	11	12	13	14	15	16
17	18	19	20	21	22	23
24	25	26	27	28	29	30
31

智元机器人发布通用基座大模型GO-1，新人形机器人即将亮相！

相关推荐

发表回复