深夜上线首个万亿参数模型K2，OpenAI面临新挑战，Kimi时代即将到来？

近日，月之暗面正式发布了 Kimi K2 大模型并开源，这款新模型还同步上线了更新的 API，价格为 16 元人民币 / 百万 token 输出。此次发布的时机正值全球大模型领域风起云涌，前有 xAI 的 Grok 4，下周可能还会有谷歌的新 Gemini 和 OpenAI 的开源模型相继问世，显示出大模型正迎来一个新的技术节点。

这次 Kimi K2 的发布引起了广泛关注，尤其是在价格和性能方面。根据 Hugging Face 页面的数据显示，Kimi K2 的下载量在发布的前 20 分钟内迅速接近了 12K，显示出市场对这款模型的高度兴趣。

值得注意的是，就在 Kimi K2 发布后不久，OpenAI 也在推特上预告了自家的开源模型，虽然网友们的反响并不热烈，但这也表明市场竞争愈发激烈。

本次开源的共有两款模型，分别是基础模型 Kimi-K2-Base 和微调后模型 Kimi-K2-Instruct，均可用于商业用途。这两款模型在多个基准测试中表现出色，例如在 LiveCode Bench、AIME2025 和 GPQA-Diamond 等测试中，Kimi K2 超过了 DeepSeek-V3-0324、Qwen3-235B-A22B 等开源模型，成为开源模型的新 SOTA。同时，Kimi K2 在知识、数学推理和代码能力等方面的表现也堪比甚至超过了 GPT-4.1、Claude 4 Opus 等闭源模型。

Kimi 展示了 K2 的一些实际应用案例，显示它能够自动理解如何使用工具来完成任务。Kimi K2 不仅能够自动地理解所在任务环境并决定如何行动，还能在任务指令下达时无需用户像过去那样详细列出工作流程。这为实现复杂的任务提供了巨大的便利。

在完成复杂任务时，Kimi K2 会自动调用多种工具以扩展其能力边界。网友试验后发现，K2 在代码能力方面表现突出，这与其 16 元人民币 / 百万 token 输出的低廉价格形成了鲜明对比，使得许多开发者认为它是 Claude 4 Sonnet 的有力开源替代品。甚至有网友将 K2 视为代码模型的 DeepSeek 时刻。

HuggingFace 联合创始人 Thomas Wolf 也称赞 K2 令人难以置信，认为开源模型正在挑战最新的闭源权重模型。Kimi K2 的代码性能稳定，能够经受住初步的检验，这一点在网络测试中得到了证实。

相比之下，xAI 的 Grok 4 在代码能力方面表现不太稳定，这进一步凸显了 Kimi K2 的优势。同时，网友们也发现，Kimi K2 可以很好地与 Claude Code 链接，实现不错的集成效果。

在技术博客中，Kimi 详细介绍了 K2 训练中的一些关键技术。

预训练数据 15.5T tokens

没用传统 Adam 优化器

首先，为了解决万亿参数模型训练中稳定性不足的问题，Kimi K2 引入了 MuonClip 优化器。与传统的 Adam 优化器相比，Muon 优化器在神经网络训练过程中表现出更好的收敛性和更高的模型性能。今年 2 月，月之暗面推出的高效大模型 Moonlight 就采用了 Muon 优化器，证明了这类优化器在 LLM 训练中显著优于 AdamW。

在 K2 的开发过程中，月之暗面进一步优化了 Moonlight 架构，通过减少 Attention Heads 数量来提升长上下文效率，同时增加了 MoE 的稀疏性以提高 token 利用效率。然而，这种方法在扩展中遇到了一个持续的挑战：即Attention logits 的爆炸会导致训练不稳定。现有的解决方案如 logit 软上限控制和 query-key 归一化对这一问题的解决效果有限。

为了应对这一挑战，月之暗面在 MuonClip 中引入了 qk-clip 技术，通过在 Muon 更新后直接重新缩放 query 和 key 投影组成的权重矩阵，从根本上控制了 Attention logits 的规模，实现了稳定的训练过程。改进后的 MuonClip 优化器不仅适用于万亿参数级别的 LLM 训练，还大幅提升了 token 效率。这为模型的智能水平提升提供了坚实的基础，符合当前业界（如 Ilya Sutskever）所关注的 Scaling Laws 原则。

Kimi K2 的实验结果显示，MuonClip 有效防止了 logit 爆炸，同时保持了下游任务的性能。官方宣称，Kimi K2 成功完成了 15.5T tokens 的预训练，整个过程中没有出现任何训练尖峰，形成了一套新的 LLM 训练方法。

Token 损失曲线

这种创新的优化器可能会引领新的潮流，因为它不仅提高了训练稳定性，还大幅度降低了训练成本。在过去，优化器的探索方向并不是热点，大多数研发团队习惯使用 Adam，如果要更换优化器，则需要大量的验证成本。Kim 的全新探索无疑为未来的 LLM 训练指明了新的方向。

大规模 Agentic 数据合成

另一方面，Kimi K2 解决了真实工具交互数据稀缺的问题，采用了大规模 Agentic 数据合成策略，让模型学习复杂的工具调用能力。本周四，xAI 的工程师们在发布 Grok 4 时也强调了多智能体和工具调用能力的重要性，这表明这一方向正成为各公司的共同探索点。

Kimi 开发了一个受 ACEBench 启发的综合 pipeline，能够大规模模拟真实世界的工具使用场景。该流程系统性地演化出涵盖了数百个领域的数千种工具，包括真实的 MCP 工具和合成工具，生成了数百个具有多样化工具集的智能体。接着，这些智能体与模拟环境和用户智能体进行交互，创造了逼真的多轮工具使用情景。

大规模 Agentic 数据合成概览

最后，大语言模型（LLM）作为评判员，根据任务评分标准（rubrics）评估模拟结果，筛选出高质量的训练数据。这种可扩展的管道生成了大量的多样化和高质量数据，有效填补了特定领域或稀缺场景下真实数据的空白，并减少了低质量数据对训练结果的负面影响，为大规模拒绝采样和强化学习铺平了道路。

通用强化学习的创新

此外，Kimi K2 还引入了通用强化学习（General RL），通过结合 RL 与自我评价（self-judging）机制，在可验证任务与不可验证任务之间建立了联系。对于数学和编程等可验证任务，可以通过正确的答案和任务完成情况等具体的奖励信号不断更新并改进模型能力。然而，传统的强化学习在生成文本、撰写报告等不可验证任务中很难提供客观、及时的奖励。

为了解决这一问题，通用强化学习通过自我评价机制让模型充当自己的评判员，提供基于 rubrics 的反馈，替代了外部奖励，解决了不可验证任务中奖励稀缺的问题。同时，基于可验证奖励的策略回滚（on-policy rollouts）机制持续更新评判员，使之不断提升对最新策略的评估准确性。这种方式使 Kimi K2 既能在可验证任务中高效运行，又能在不可验证任务中自我评估，推动了强化学习技术向更广泛的应用场景扩展。

从长远来看，Kimi K2 的这些新技术实践为其在各种复杂环境中持续优化提供了可能，可能是未来模型智能水平继续进化的关键。

未来的竞争方向

Kimi 的发布不禁让人联想到前天 xAI 的 Grok-4 发布会。当时，马斯克的团队强调了其大模型在推理能力方面的突破，特别是在「人类最后的考试」（Humanities Last Exam， HLE）上取得的重要成就。OpenAI 的深入研究、Gemin 2.5 Pro 和 Kimi-Researcher 都被列为重要的里程碑。

Kimi-Researcher 上个月发布，其采用了端到端的自主强化学习，用结果驱动的算法进行训练，摆脱了传统的监督微调和基于规则的方法。结果是，探索规划的步骤越多，模型性能越强。而在 Kimi K2 上，月之暗面采用了类似 Grok 4 的大规模工具调用方式，增强了模型的多任务处理能力。

当前，国内的算力资源面临紧缺，这就促使新一波的大模型技术竞争不再单纯依赖参数堆叠和算力规模的扩大。相反，通过算法创新来提高模型的性能和效率成为一种新的趋势。这种变化不仅有助于降低研发成本，还能推动大模型在更多应用场景中的实际落地。

综上所述，Kimi K2 的快速推出及其技术创新，显示了月之暗面在大模型领域的强大竞争力。未来，随着各公司在算法和数据层面的不断探索，我们有理由期待更多高效、实用的大模型问世。

免责声明：本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿，凡在本网站出现的信息，均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性，但不保证有关资料的准确性及可靠性，读者在使用前请进一步核实，并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏，概不负任何法律责任。任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时，可联系本站进行审核删除。