小米开源VLA大模型完整后训练流程

具身智能赛道正在经历从实验室走向真实场景的关键转折点。过去几年，视觉-语言模型（VLM）的突破让机器人“看得懂”这个世界，但如何让它“做得到”精细操作，始终是横亘在学术界和产业界之间的高墙。最近小米公司的一个动作，或许给出了新的解题思路——他们将自家视觉-语言-动作（VLA）大模型小米机器人0号的完整后训练流程进行了开源，并且直接在真实机器人上跑通。这意味着开发者不再需要从零训模型，而是可以拿着一个“半成品”，用极少的数据让机器人快速学会复杂技能。

20小时拿下“绣花针穿耳”

在预训练模型的基础上，研究团队仅用了大约20小时的任务数据进行真实机器人后训练，就教会了机器人完成高难度的“精确放耳机入仓”动作。这个动作对空间感知精度的要求极高——耳机仓的尺寸公差在亚毫米级，而且表面粗糙度极低，手一滑就会偏移。模型不仅要做到亚毫米级别的对齐，还要在动作执行过程中实时修正偏差。从实际演示来看，整个动作“丝滑连贯”，没有生硬的停顿或抖动，这种执行力让人看到了VLA模型在精密装配领域的巨大潜力。

开源生态正在加速生产力迭代

为了让这套方案真正“拿到手就能用”，小米不仅开放了模型权重，还同步发布了技术报告和源代码。这是业界少有的端到端完整开源：从预训练基座到后训练的数据采集、训练脚本、部署工具，全部公开。此前该模型在国际权威平台上已经位列全球下载量前列，如今后训练流程的开放，意味着全世界的开发者都可以在此基础上优化机器人的感知和执行逻辑。试想一下，当不同场景的开发者能针对自己的产线、仓库、家庭环境去微调同一个基座模型，机器人从“科研玩具”变成“生产工具”的进程，可能会比我们想象的快得多。

免责声明：本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿，凡在本网站出现的信息，均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性，但不保证有关资料的准确性及可靠性，读者在使用前请进一步核实，并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏，概不负任何法律责任。任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时，可联系本站进行审核删除。

一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30

小米开源VLA大模型完整后训练流程

相关推荐

发表回复