小米官方于4月30日正式宣布开源其首个专注于推理能力的大模型——Xiaomi MiMo。
据官方介绍,Xiaomi MiMo 在数学推理(AIME 24-25)和代码竞赛(LiveCodeBench v5)等公开测试集中表现出色。值得注意的是,MiMo 仅使用 7B 的参数规模,其推理能力就已超越 OpenAI 的闭源推理模型 o1-mini 和阿里巴巴更大规模的开源推理模型 Qwen-32B-Preview。这一结果表明,MiMo 在有限的计算资源下,实现了卓越的推理性能。
小米官方表示,MiMo 推理能力的显著提升,归功于预训练和后训练阶段中数据和算法等多方面的创新协同驱动。这些创新主要体现在以下几个方面:
预训练:核心在于让模型学习到更多的推理模式
数据:小米着重挖掘富含推理信息的语料,并通过合成的方式生成了约 200B tokens 的推理数据。这为模型提供了充足的学习素材,使其能够更好地理解和掌握各种推理模式,数据质量是提升大模型能力的关键因素。
训练:训练过程分为三个阶段,难度逐步提升,总训练量达到 25T tokens。这种循序渐进的训练策略,有助于模型逐步学习和掌握复杂的推理能力。从预训练的策略来看,小米更加注重训练数据的质量而非数量,通过针对性的训练,大幅提高模型在推理方面的能力。
后训练:核心是高效且稳定的强化学习算法和框架
算法:小米提出了 Test Difficulty Driven Reward (TDDR) 算法,旨在缓解传统强化学习在解决困难算法问题时面临的奖励稀疏问题。同时,引入 Easy Data Re-Sampling 策略,以保证强化学习训练的稳定性。这些创新算法有效提升了模型在复杂推理任务上的表现。
框架:小米设计了 Seamless Rollout 系统,该系统显著加速了强化学习训练过程,训练速度提升 2.29 倍,验证速度提升 1.96 倍。高效的训练框架为 MiMo 的快速迭代和优化提供了有力支撑。对于大模型而言,训练的效率直接影响着模型更新迭代的速度,小米在这方面做了重点优化。
所有技术细节均已开源,详见技术报告。这一举措体现了小米在人工智能领域的开放合作精神,有利于促进相关技术的发展和应用。
MiMo-7B 全系列已开源,目前已在 HuggingFace 上发布了 4 个模型。这意味着开发者可以免费使用和修改 MiMo-7B 的代码和模型,从而加速其在各行各业的应用落地。 从开源的范围来看,小米本次诚意满满,有助于吸引更多的开发者参与到 MiMo 的生态建设中来。



