Rain科技2月12日消息,小米又带来了重磅新品。
今日,雷军在微博上公布了一项重大的技术突破:小米机器人团队正式发布并开源了全新的具身智能VLA(视觉-语言-动作)模型——Xiaomi-Robotics-0。这是该模型真机运行画面首次对外公开。
此次的发布不仅仅是一次简单的技术迭代,更是小米在机器人领域寻求突破的关键一步。Xiaomi-Robotics-0拥有47亿参数规模,集成了强大的视觉语言理解能力和高性能的实时执行能力。在业界三大主流仿真测试中,该模型表现出色,全面超越了现有行业标杆,获得了所有SOTA(State-of-the-Art)的顶尖成绩,并且已经在真实机器人上实现了流畅自然的动作表现。
其中最令人瞩目的创新在于,该模型首次实现了在普通消费级显卡上的实时推理。这直接解决了当前高端机器人模型“只存在于实验室,普通用户难以负担”的难题,是其区别于同类产品的一大核心优势。
许多人可能好奇,当前机器人模型在发展过程中,究竟面临哪些主要的瓶颈?
当前行业普遍存在两个长期未解决的核心痛点:
首先,是“推理延迟高、动作不连贯”的问题。传统的VLA模型虽然在参数规模和泛化能力方面有所提升,但在实际物理环境中,庞大的推理计算量导致机器人动作迟缓,显得“卡顿”、“断断续续”,无法像人类一样进行自然的操作,被网友戏称为“反应迟钝的木头人”。
其次,是“硬件门槛极高”的问题。大多数高性能的机器人模型运行都需要依赖价格昂贵的专业级显卡,这使得普通开发者和小型团队难以触及,导致先进技术长时间被局限于实验室环境,难以实现广泛的商业化落地。
此外,还有一个普遍存在的难题是“仿真测试成绩亮眼,真机执行表现逊色”。不少模型在仿真环境中表现优异,但在实际的物理任务中,如叠毛巾、拆积木等,却难以稳定完成,导致理论与实际操作脱节。而小米此次发布的Xiaomi-Robotics-0,正是为了解决这些困扰行业的顽疾而生。
小米官方明确表示:“Xiaomi-Robotics-0是一款拥有47亿参数、集视觉语言理解与高性能实时执行能力于一体的开源VLA模型。它不仅在三大主流仿真测试中取得了优异成绩,更在真实机器人任务中实现了物理智能的泛化——动作连贯、反应灵敏,并能在消费级显卡上实现实时推理。”
这句话精准地概括了模型的核心优势。尤其值得强调的是,无需配备高端计算设备或斥巨资购买专业显卡,普通的消费级显卡即可稳定运行该模型,这是小米此次最具突破性的成果之一,极大地降低了具身智能技术的应用门槛。
Xiaomi-Robotics-0之所以能取得如此成就,核心在于小米自主研发的Mixture-of-Transformers(MoT)混合架构。打个比方,这就像是为机器人配备了一个“双脑协同系统”,能够同时兼顾决策和执行的效率。
一个部分是视觉语言大脑(VLM),它负责理解人类的指令和感知周围的环境。即使是“把毛巾叠好”这样相对模糊的指令,它也能精准地理解空间关系和任务目标,保留了VLM本身强大的多模态理解能力,这是许多早期VLA模型所不具备的优势。
另一个部分是动作执行小脑(DiT),它专门负责将指令转化为流畅自然的动作。它能够生成连续流畅的“动作块”,并通过流匹配技术保证动作的精准性和稳定性,从而使机器人摆脱机械的卡顿,动作的灵活性接近人类水平,从根本上解决了传统模型动作“断层”的痛点。
为了让机器人同时具备“聪明”和“能干”的特质,团队还设计了独特的两阶段训练方案。
首先,通过跨模态预训练,使模型在学习动作的同时,不丢失物体识别、视觉问答等基础能力,避免出现“重身体轻脑袋”的情况。同时,通过Action Proposal机制,将VLM的特征空间与动作空间进行对齐,为后续的实际操作打下坚实基础。
其次,通过后训练优化,利用异步推理模式从机制上解决真机操作中的“动作断层”问题。结合Clean Action Prefix技术,确保动作轨迹的连续性和稳定性,避免抖动。而Λ-shape Attention Mask则帮助机器人聚焦于当前的视觉反馈,摆脱历史惯性的影响,即使环境发生微小变化,也能及时调整,显著提升了其在复杂环境中的适应能力。

分拣不同颜色的积木


将大块积木逐步拆成小块

将毛巾摊平-叠好

主动将多余毛巾放回以进行叠放
从此次曝光的真机运行视频中,我们可以直观地看到,面对柔软易变形的毛巾,机器人能够精准地将其铺平、对折、整理整齐,甚至会将多余的部分主动放回原位。
而对于刚性的积木,机器人能够实现稳妥的逐步拆解,其手眼协调能力表现得极为稳定,没有出现任何卡顿或失误。无论是处理柔软材料还是硬质物件,机器人都能够从容应对,这正是物理智能真正落地的直观体现,也是小米此次技术突破的核心价值所在。
在Libero、Calvin、SimplerEnv三大全球主流的具身智能测试集上,Xiaomi-Robotics-0与超过30款主流模型进行了对比。结果显示,在所有关键基准测试中,它都达到了SOTA水平,用实实在在的数据证明了其在行业内的领先地位,成功实现了“仿真测试表现优异、真机运行强大、多模态能力保持完整”的突破。
相比于技术本身的强大,小米此次更展现了开放共赢的格局:这项技术已实现全量开源。技术主页、GitHub开源代码以及Hugging Face模型权重全部公开,这意味着全球的开发者都可以免费使用,甚至进行二次开发。相关资源可在各大平台便捷获取,此举彻底打破了大型科技公司在具身智能核心技术上的垄断。
这意味着,原本高高在上的具身智能技术,正以前所未有的方式向整个行业敞开大门。它不再是大厂的专属“玩具”,普通开发者也能深度参与其中,从而加速整个机器人技术迭代的进程。
雷军也在微博上透露,小米在机器人领域早已进行了深度布局,并且仍在全球范围内积极招募顶尖人才。团队正持续为下一代技术发力,此次发布的Xiaomi-Robotics-0仅仅是一个阶段性的研究成果,未来还将会有更多令人期待的突破。
当机器人不再仅仅是演示用的、动作卡顿的道具,而是能够动作流畅、反应灵敏,并且能在消费级硬件上轻松运行的真实产品时,“家用机器人走进千家万户”的愿景,似乎正在加速变为触手可及的现实。




