智元机器人发布通用基座大模型GO-1，新人形机器人亮相在即

在人工智能与机器人技术深度融合的时代浪潮中，智元机器人公司近日正式发布了其最新研究成果——智元启元大模型Genie Operator-1（简称GO-1）。这款通用具身基座模型，代表着机器人操作能力的一次显著提升，预示着机器人正朝着更智能、更自主的方向加速发展。

GO-1 模型的核心在于其创新的 Vision-Language-Latent-Action（ViLLA）框架。该框架巧妙地将 VLM（多模态大模型）与 MoE（混合专家）技术相结合。VLM赋予了 GO-1 强大的场景感知和理解能力，而 MoE 则使其能够快速适应不同的机器人形态，并高效执行任务。这种独特的组合，显著提升了机器人从感知到行动的整体效率和精度。

智元机器人发布通用基座大模型GO-1，新人形机器人亮相在即

具体而言，VLM 作为 GO-1 的主干网络，通过继承并优化开源多模态大模型的预训练权重，并辅以海量的互联网纯文本和图文数据进行训练，从而确保了机器人能够理解和解析复杂的现实场景。MoE 结构则由隐动作专家模型和动作专家模型构成，前者通过学习海量的人类操作和跨本体操作视频，理解动作的意图和潜在逻辑；后者则通过学习高质量的仿真数据和真实机器数据，提升动作的执行精度和稳定性。值得一提的是，MoE 架构的使用能够有效降低计算成本，提升模型的泛化能力，使其能够更好地适应不同的任务和环境。

GO-1 的发布，标志着机器人技术正迎来“小样本快速泛化”的新时代。传统机器人学习往往需要大量的特定数据进行训练，而 GO-1 模型凭借其强大的预训练能力，能够在极少数据甚至零样本的情况下，迅速适应新场景和新任务，大大降低了后期的训练成本和开发周期。此外，“一脑多形”的特性意味着 GO-1 可以在不同的机器人形态之间自由迁移，而无需对每个机器人进行单独训练，极大地提升了机器人的部署效率，这对于大规模应用场景具有重要意义。

智元机器人发布通用基座大模型GO-1，新人形机器人亮相在即

为了构建 GO-1，智元机器人采用了“数字金字塔”的数据治理策略。金字塔的底层是海量互联网纯文本与图文数据，用于构建机器人的基础知识库；中间层是人类操作/跨本体视频和仿真数据，用于训练机器人的动作理解和执行能力；金字塔的顶层则是真实机器的示教数据，用于精细化调整和优化机器人的动作表现。这种分层训练策略，类似于人类学习的过程，从基础知识到实践经验，逐步提升机器人的综合能力。

在实际应用中，GO-1 展现出了令人印象深刻的性能。用户只需用自然语言指令，例如“挂衣服”，机器人就能根据其学习的知识和数据，迅速理解并执行任务。无论是家庭场景中的倒水、烤吐司，还是商务会议中的拿饮料、拿苹果，GO-1 都能快速响应，精准完成。这些看似简单的任务，背后都蕴含着复杂的感知和决策过程，体现了 GO-1 强大的智能化水平。

智元机器人发布通用基座大模型GO-1，新人形机器人亮相在即

除了强大的泛化能力，GO-1 还具备持续进化的潜力。通过数据回流系统，机器人可以从实际执行过程中遇到的问题中不断学习，持续改进自身的表现。例如，当机器人在做咖啡时不小心把杯子放歪了，它可以将这次失败的经验记录下来，并用于优化后续的动作策略，从而提高成功率。这种持续学习的能力，是实现真正智能机器人的关键。

智元机器人发布通用基座大模型GO-1，新人形机器人亮相在即

综上所述，智元机器人公司推出的 GO-1 模型，不仅是具身智能领域的一项重要突破，也为机器人技术的未来发展指明了方向。GO-1 的出现，预示着机器人将能够更好更快的适应复杂多变的真实世界，并在各个领域得到更加广泛的应用。从家庭服务到工业自动化，从商业运营到医疗康复，GO-1 有望极大地提升人类的生活质量和工作效率，并加速实现人与机器人和谐共存的未来愿景。然而，我们也需要意识到，具身智能还处于发展初期，仍然面临着诸多挑战，例如安全性、伦理问题等，需要全社会共同努力，推动其健康可持续发展。

免责声明：本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿，凡在本网站出现的信息，均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性，但不保证有关资料的准确性及可靠性，读者在使用前请进一步核实，并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏，概不负任何法律责任。任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时，可联系本站进行审核删除。

一	二	三	四	五	六	日
					1	2
3	4	5	6	7	8	9
10	11	12	13	14	15	16
17	18	19	20	21	22	23
24	25	26	27	28	29	30
31

智元机器人发布通用基座大模型GO-1，新人形机器人亮相在即

相关推荐

发表回复