智元机器人发布通用基座大模型GO-1,新人形机器人即将亮相!

在机器人技术领域,通用具身智能正成为一个备受瞩目的发展方向。近日,智元机器人公司正式发布了其创新产品——智元启元大模型Genie Operator-1(GO-1)。这款通用具身基座模型的核心在于其独特的Vision-Language-Latent-Action(ViLLA)框架,试图在机器人领域实现更高级别的智能化。

GO-1 的核心架构是 ViLLA 框架,它由多模态大模型(VLM)与混合专家模型(MoE)两部分构成。 其中,VLM 基于开源多模态大模型 5-2B 构建,并利用互联网上的海量文本和图文数据进行训练,从而具备了强大的场景感知和理解能力。MoE 则充当隐式规划器的角色,借助隐动作专家模型和动作专家模型,分别从大规模人类操作视频、跨本体操作视频以及高质量的仿真和真机数据中学习,以此赋予 GO-1 动作理解和精细执行能力。这种设计思路旨在弥合感知与行动之间的鸿沟,使机器人能够更好地理解环境并执行复杂任务。

智元机器人发布通用基座大模型GO-1,新人形机器人即将亮相!

GO-1 的五大特点凸显了其技术优势:

  • 采训推一体化设计: 实现数据采集、模型训练和模型推理的无缝衔接,加速模型迭代优化。
  • 小样本快速泛化能力: 即使在数据稀缺的情况下,也能迅速适应新场景和新任务,提升了模型的实用性。
  • 一脑多形功能: 能够轻松迁移至不同形态的机器人平台,降低了部署成本和难度。
  • 持续进化机制: 模型能够从实际执行过程中遇到的问题数据中进行学习和改进,实现自我提升。
  • 人类视频学习能力: 结合互联网视频和真实人类示范,加深对人类行为的理解,从而更好地模仿和执行人类任务。

GO-1 的能力构建基于具身智能领域的数字金字塔模型。 金字塔的底层是互联网上庞大的非结构化数据,它为机器人提供了通用的知识储备和场景理解的基础。 在此之上是人类操作视频和跨本体视频,用于训练机器人学习动作操作的模式。 仿真数据则进一步增强了模型的泛化能力,使其能够适应不同的场景和物体。 而最顶端则是真实环境中的真机数据,确保模型能够在真实世界中精确地执行动作。

ViLLA 框架的引入是 GO-1 的一大亮点。 相比于传统的 Vision-Language-Action (VLA) 模型,ViLLA 通过预测隐式动作标记 (Latent Action Tokens) ,成功跨越了图像/文本输入与机器人实际执行动作之间的障碍。 举例来说,当用户向机器人发出“挂衣服”的指令时,GO-1 能够理解指令含义,并依据所学习的知识和数据,将任务拆解为一系列具体的步骤,最终完成挂衣服的任务。

智元机器人发布通用基座大模型GO-1,新人形机器人即将亮相!

GO-1 具备广泛的应用前景,可以应用于家庭、办公以及工业等多个领域。 在家庭环境中,它可以帮助完成倒水、烤面包等任务。在商业场景中,例如商务会议期间,它可以根据人类的语音指令,快速响应并提供饮品或物品。 此外,GO-1 还可以通过数据回流机制不断进化,例如,如果在制作咖啡时出现杯子放置不稳的情况,模型就可以从这次失败的经验中学习,从而在后续操作中避免类似错误。

智元机器人发布通用基座大模型GO-1,新人形机器人即将亮相!
智元机器人发布通用基座大模型GO-1,新人形机器人即将亮相!

GO-1 的推出标志着具身智能正在向通用化、开放化和智能化的方向加速发展。 它在一定程度上解决了场景和物体泛化能力不足、语言理解能力欠缺、新技能学习缓慢以及跨本体部署困难等问题,为机器人代替人类完成各类任务提供了强大的技术支持。 然而,值得注意的是,尽管 GO-1 在技术上取得了一定的突破,但距离真正实现通用具身智能仍然有很长的路要走。 未来的研究需要重点关注如何提升模型的鲁棒性、安全性以及伦理性,从而确保机器人技术能够更好地服务于人类社会。

免责声明:本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时,可联系本站进行审核删除。
(0)
AI快讯网编辑-青青AI快讯网编辑-青青
上一篇 2025年 3月 12日 上午9:13
下一篇 2025年 3月 12日 上午10:45

相关推荐

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

欢迎来到AI快讯网,开启AI资讯新时代!