小米开源首个推理大模型Xiaomi MiMo：7B参数超越OpenAI o1-mini

小米官方于4月30日正式宣布开源其首个专注于推理能力的大模型——Xiaomi MiMo。

据官方介绍，Xiaomi MiMo 在数学推理（AIME 24-25）和代码竞赛（LiveCodeBench v5）等公开测试集中表现出色。值得注意的是，MiMo 仅使用 7B 的参数规模，其推理能力就已超越 OpenAI 的闭源推理模型 o1-mini 和阿里巴巴更大规模的开源推理模型 Qwen-32B-Preview。这一结果表明，MiMo 在有限的计算资源下，实现了卓越的推理性能。

小米官方表示，MiMo 推理能力的显著提升，归功于预训练和后训练阶段中数据和算法等多方面的创新协同驱动。这些创新主要体现在以下几个方面：

预训练：核心在于让模型学习到更多的推理模式

数据：小米着重挖掘富含推理信息的语料，并通过合成的方式生成了约 200B tokens 的推理数据。这为模型提供了充足的学习素材，使其能够更好地理解和掌握各种推理模式，数据质量是提升大模型能力的关键因素。

训练：训练过程分为三个阶段，难度逐步提升，总训练量达到 25T tokens。这种循序渐进的训练策略，有助于模型逐步学习和掌握复杂的推理能力。从预训练的策略来看，小米更加注重训练数据的质量而非数量，通过针对性的训练，大幅提高模型在推理方面的能力。

后训练：核心是高效且稳定的强化学习算法和框架

算法：小米提出了 Test Difficulty Driven Reward (TDDR) 算法，旨在缓解传统强化学习在解决困难算法问题时面临的奖励稀疏问题。同时，引入 Easy Data Re-Sampling 策略，以保证强化学习训练的稳定性。这些创新算法有效提升了模型在复杂推理任务上的表现。

框架：小米设计了 Seamless Rollout 系统，该系统显著加速了强化学习训练过程，训练速度提升 2.29 倍，验证速度提升 1.96 倍。高效的训练框架为 MiMo 的快速迭代和优化提供了有力支撑。对于大模型而言，训练的效率直接影响着模型更新迭代的速度，小米在这方面做了重点优化。

所有技术细节均已开源，详见技术报告。这一举措体现了小米在人工智能领域的开放合作精神，有利于促进相关技术的发展和应用。

MiMo-7B 全系列已开源，目前已在 HuggingFace 上发布了 4 个模型。这意味着开发者可以免费使用和修改 MiMo-7B 的代码和模型，从而加速其在各行各业的应用落地。从开源的范围来看，小米本次诚意满满，有助于吸引更多的开发者参与到 MiMo 的生态建设中来。

免责声明：本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿，凡在本网站出现的信息，均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性，但不保证有关资料的准确性及可靠性，读者在使用前请进一步核实，并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏，概不负任何法律责任。任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时，可联系本站进行审核删除。

一	二	三	四	五	六	日
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30

小米开源首个推理大模型Xiaomi MiMo：7B参数超越OpenAI o1-mini

相关推荐

发表回复