在人工智能领域日新月异的今天,智元机器人公司近日发布了其首个通用具身基座模型——智元启元大模型Genie Operator-1(简称GO-1),在业界引起轰动。 这项技术突破不仅代表着机器人在理解和执行人类指令方面取得了显著进展,更预示着具身智能迎来了一个全新的发展阶段。 考虑到具身智能在未来智能制造、智能家居以及服务机器人等领域的巨大潜力,GO-1的发布无疑具有重要的里程碑意义。
GO-1的核心是其创新的Vision-Language-Latent-Action(ViLLA)框架,该框架巧妙地结合了VLM(多模态大模型)和MoE(混合专家模型)技术。 具体来说, VLM作为模型的主干网络,凭借互联网上大量的文本和图文数据,赋予了GO-1强大的场景感知和理解能力,使其能够“看懂”周围环境。 另一方面,MoE则进一步细分为隐动作专家模型和动作专家模型。 隐动作专家模型通过学习互联网上的人类操作视频,使模型能够理解并执行复杂的动作,例如抓取、放置等。而动作专家模型则依靠高质量的仿真数据和真实机器人数据,确保动作执行的精准性和稳定性。

GO-1展现出多项引人注目的特性。 首先,其采训推一体化的设计, 实现了数据采集、模型训练和推理的无缝衔接,大幅提升了研发效率。 其次,GO-1具备卓越的小样本快速泛化能力,即使在数据稀缺的情况下,也能迅速适应新的场景和任务。更重要的是,GO-1支持“一脑多形”功能, 这意味着它能够轻松地迁移到不同形态的机器人本体,实现快速适配,为不同领域的应用提供了极大的灵活性。 通过智元的数据回流系统,GO-1还可以持续从实际执行中学习经验,不断优化自身性能,实现自我进化。 此外,GO-1具备人类视频学习能力,这意味着它能够结合互联网视频和真实人类示范,更深入地理解人类行为,从而更好地执行任务。
GO-1的构建基于具身领域的数字金字塔模型。 金字塔的底层是互联网纯文本与图文数据,为模型提供了广泛的基础知识; 中间层是人类操作视频和仿真数据,帮助模型理解和模拟人类行为; 顶层是真机示教数据,用于精细调整和优化模型的动作执行。 这种全面的知识体系为机器人的“基础教育”和“能力培训”提供了坚实支撑, 使GO-1能够轻松应对多样化的环境和物体,快速学习并执行新的操作。 可见,这种分层递进的方式能够有效提升模型的学习效率和适应能力。

在实际应用中,GO-1的表现令人印象深刻。 无论是家庭场景中的倒水、烤吐司,还是商业活动中的检票、发放物料,甚至是商务会议中的拿饮料、拿苹果等指令,GO-1都能迅速响应并精准执行。 更令人兴奋的是,通过数据回流机制,GO-1能够不断从执行中学习,即使初次尝试出现失误,也能在后续任务中不断改进,直至完美完成任务。 这种持续学习和自我优化的能力是GO-1的核心竞争力之一。

综上所述,GO-1的发布为具身智能的发展注入了强劲动力。 它打破了传统机器人局限于单一任务、封闭环境的束缚,实现了从多种任务到开放世界的跨越,让机器人能够更好地适应多变的真实世界。 这一创新成果不仅预示着机器人将在更多场景中发挥重要作用,更为人工智能的未来发展开辟了无限可能。 随着技术的不断成熟和应用场景的不断拓展,我们有理由相信,具身智能将在未来的社会发展中扮演越来越重要的角色。