Rain科技9月23日消息,据媒体报道,智元机器人今日宣布,通用具身基座大模型GO-1(Genie Operator-1)已在GitHub正式开源,成为全球首个采用Vision-Language-Latent-Action(ViLLA)架构的通用具身智能模型。
这一突破性进展标志着具身智能技术领域向前迈出了重要一步。GO-1模型的核心在于其创新的ViLLA架构,该架构通过引入隐式动作标记,有效弥合了图像-文本理解与机器人实际动作执行之间的语义鸿沟。这意味着机器人将能够更精准地理解复杂的指令和场景,并将其转化为流畅、有效的动作,从而显著提升其应对复杂任务的能力。此次向全球开发者免费开放,无疑将极大降低具身智能技术的门槛,加速相关领域的创新和应用落地。
该模型的架构设计尤为值得关注,它采用了多模态理解、隐式规划和动作生成三层协同运作的模式。这意味着GO-1能够融合处理来自多视角视觉、力觉信号以及自然语言指令等多种类型的信息。这种强大的信息整合能力,是实现机器人对复杂现实世界进行深度理解和有效交互的关键。 能够适应多样化的传感器输入,对于机器人在不同环境和任务中执行动作至关重要。
与此同时,智元机器人还推出了Genie Studio一站式开发平台,该平台贯穿了数据采集、模型训练直至真机部署的全流程。这一举措将极大地赋能开发者,帮助他们能够更快速、更便捷地将具身智能技术转化为实际的应用。GO-1模型已在多种不同类型的机器人本体上进行了充分验证,其优异的可移植性和仿真性能,为未来在更广泛机器人平台上的应用奠定了坚实的基础。
值得一提的是,智元机器人近期还积极发起了Genie Trailblazer全球招募计划。该计划面向全球的具身智能研究团队,旨在汇聚顶尖人才,共同探索通用具身智能模型、具身世界模型以及高级遥操作等当前具身智能领域内的核心和前沿方向。此举不仅彰显了智元机器人对推动行业发展的决心,也预示着未来具身智能领域将迎来更多激动人心的突破。

