小米机器人真机运行画面公开：消费级显卡即可驱动

Rain科技2月12日消息，小米又带来了重磅新品。

今日，雷军在微博上公布了一项重大的技术突破：小米机器人团队正式发布并开源了全新的具身智能VLA（视觉-语言-动作）模型——Xiaomi-Robotics-0。这是该模型真机运行画面首次对外公开。

此次的发布不仅仅是一次简单的技术迭代，更是小米在机器人领域寻求突破的关键一步。Xiaomi-Robotics-0拥有47亿参数规模，集成了强大的视觉语言理解能力和高性能的实时执行能力。在业界三大主流仿真测试中，该模型表现出色，全面超越了现有行业标杆，获得了所有SOTA（State-of-the-Art）的顶尖成绩，并且已经在真实机器人上实现了流畅自然的动作表现。

其中最令人瞩目的创新在于，该模型首次实现了在普通消费级显卡上的实时推理。这直接解决了当前高端机器人模型“只存在于实验室，普通用户难以负担”的难题，是其区别于同类产品的一大核心优势。

许多人可能好奇，当前机器人模型在发展过程中，究竟面临哪些主要的瓶颈？

当前行业普遍存在两个长期未解决的核心痛点：

首先，是“推理延迟高、动作不连贯”的问题。传统的VLA模型虽然在参数规模和泛化能力方面有所提升，但在实际物理环境中，庞大的推理计算量导致机器人动作迟缓，显得“卡顿”、“断断续续”，无法像人类一样进行自然的操作，被网友戏称为“反应迟钝的木头人”。

其次，是“硬件门槛极高”的问题。大多数高性能的机器人模型运行都需要依赖价格昂贵的专业级显卡，这使得普通开发者和小型团队难以触及，导致先进技术长时间被局限于实验室环境，难以实现广泛的商业化落地。

此外，还有一个普遍存在的难题是“仿真测试成绩亮眼，真机执行表现逊色”。不少模型在仿真环境中表现优异，但在实际的物理任务中，如叠毛巾、拆积木等，却难以稳定完成，导致理论与实际操作脱节。而小米此次发布的Xiaomi-Robotics-0，正是为了解决这些困扰行业的顽疾而生。

小米官方明确表示：“Xiaomi-Robotics-0是一款拥有47亿参数、集视觉语言理解与高性能实时执行能力于一体的开源VLA模型。它不仅在三大主流仿真测试中取得了优异成绩，更在真实机器人任务中实现了物理智能的泛化——动作连贯、反应灵敏，并能在消费级显卡上实现实时推理。”

这句话精准地概括了模型的核心优势。尤其值得强调的是，无需配备高端计算设备或斥巨资购买专业显卡，普通的消费级显卡即可稳定运行该模型，这是小米此次最具突破性的成果之一，极大地降低了具身智能技术的应用门槛。

Xiaomi-Robotics-0之所以能取得如此成就，核心在于小米自主研发的Mixture-of-Transformers（MoT）混合架构。打个比方，这就像是为机器人配备了一个“双脑协同系统”，能够同时兼顾决策和执行的效率。

一个部分是视觉语言大脑（VLM），它负责理解人类的指令和感知周围的环境。即使是“把毛巾叠好”这样相对模糊的指令，它也能精准地理解空间关系和任务目标，保留了VLM本身强大的多模态理解能力，这是许多早期VLA模型所不具备的优势。

另一个部分是动作执行小脑（DiT），它专门负责将指令转化为流畅自然的动作。它能够生成连续流畅的“动作块”，并通过流匹配技术保证动作的精准性和稳定性，从而使机器人摆脱机械的卡顿，动作的灵活性接近人类水平，从根本上解决了传统模型动作“断层”的痛点。

为了让机器人同时具备“聪明”和“能干”的特质，团队还设计了独特的两阶段训练方案。

首先，通过跨模态预训练，使模型在学习动作的同时，不丢失物体识别、视觉问答等基础能力，避免出现“重身体轻脑袋”的情况。同时，通过Action Proposal机制，将VLM的特征空间与动作空间进行对齐，为后续的实际操作打下坚实基础。

其次，通过后训练优化，利用异步推理模式从机制上解决真机操作中的“动作断层”问题。结合Clean Action Prefix技术，确保动作轨迹的连续性和稳定性，避免抖动。而Λ-shape Attention Mask则帮助机器人聚焦于当前的视觉反馈，摆脱历史惯性的影响，即使环境发生微小变化，也能及时调整，显著提升了其在复杂环境中的适应能力。

消费级显卡就能跑！雷军公布小米机器人最新进展：真机运行画面首曝

分拣不同颜色的积木

消费级显卡就能跑！雷军公布小米机器人最新进展：真机运行画面首曝

消费级显卡就能跑！雷军公布小米机器人最新进展：真机运行画面首曝
将大块积木逐步拆成小块

消费级显卡就能跑！雷军公布小米机器人最新进展：真机运行画面首曝
将毛巾摊平-叠好

消费级显卡就能跑！雷军公布小米机器人最新进展：真机运行画面首曝

主动将多余毛巾放回以进行叠放

从此次曝光的真机运行视频中，我们可以直观地看到，面对柔软易变形的毛巾，机器人能够精准地将其铺平、对折、整理整齐，甚至会将多余的部分主动放回原位。

而对于刚性的积木，机器人能够实现稳妥的逐步拆解，其手眼协调能力表现得极为稳定，没有出现任何卡顿或失误。无论是处理柔软材料还是硬质物件，机器人都能够从容应对，这正是物理智能真正落地的直观体现，也是小米此次技术突破的核心价值所在。

在Libero、Calvin、SimplerEnv三大全球主流的具身智能测试集上，Xiaomi-Robotics-0与超过30款主流模型进行了对比。结果显示，在所有关键基准测试中，它都达到了SOTA水平，用实实在在的数据证明了其在行业内的领先地位，成功实现了“仿真测试表现优异、真机运行强大、多模态能力保持完整”的突破。

相比于技术本身的强大，小米此次更展现了开放共赢的格局：这项技术已实现全量开源。技术主页、GitHub开源代码以及Hugging Face模型权重全部公开，这意味着全球的开发者都可以免费使用，甚至进行二次开发。相关资源可在各大平台便捷获取，此举彻底打破了大型科技公司在具身智能核心技术上的垄断。

这意味着，原本高高在上的具身智能技术，正以前所未有的方式向整个行业敞开大门。它不再是大厂的专属“玩具”，普通开发者也能深度参与其中，从而加速整个机器人技术迭代的进程。

雷军也在微博上透露，小米在机器人领域早已进行了深度布局，并且仍在全球范围内积极招募顶尖人才。团队正持续为下一代技术发力，此次发布的Xiaomi-Robotics-0仅仅是一个阶段性的研究成果，未来还将会有更多令人期待的突破。

当机器人不再仅仅是演示用的、动作卡顿的道具，而是能够动作流畅、反应灵敏，并且能在消费级硬件上轻松运行的真实产品时，“家用机器人走进千家万户”的愿景，似乎正在加速变为触手可及的现实。

文章内容举报

免责声明：本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿，凡在本网站出现的信息，均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性，但不保证有关资料的准确性及可靠性，读者在使用前请进一步核实，并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏，概不负任何法律责任。任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时，可联系本站进行审核删除。

一	二	三	四	五	六	日
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28

小米机器人真机运行画面公开：消费级显卡即可驱动

相关推荐

发表回复