当前,基础模型领域的竞争进入了一个新的阶段,各大厂商的策略也呈现出明显的差异化。一方面,部分玩家选择在某个技术痛点上进行深度攻坚,试图以单点突破的优势在极客群体中建立起强大的品牌认知。然而,这种“专才”式的策略,在一定程度上也限制了模型作为通用基础能力提供商的广阔前景。另一方面,更多的厂商则倾向于全面开花,在多模态能力上同步推进,逐步构建起一个更为强大的、覆盖面更广的基础模型生态。
在这股全面发展的浪潮中,MiniMax 以其在全球范围内领先的语音和视频大模型能力,吸引了业界的广泛关注。如今,他们更进一步,推出了其基础模型矩阵的最新成员——MiniMax M2,这标志着其在多模态模型技术的探索上迈出了坚实的一步,进一步巩固了其在该领域的领先地位。
10月28日,MiniMax 正式对外揭晓了 MiniMax M2 的神秘面纱。这款模型被精准定位为专为编程与智能体(Agent)应用而生,同时兼具轻量级和高响应速度的特质。在保障通用能力的基础上,MiniMax M2 进行了深度优化,其上下文窗口已达到当前主流模型的平均水平,最大输入与输出 Token 总量可达 200k,其中最大输出 Token 量高达 128k。更重要的是,模型提供了端到端的工具调用能力,这无疑是对开发者最实在的呼应,能够极大程度上解决实际应用中的痛点。
MiniMax M2 被赋予了“极具成本效益的模型”的定位,其核心卖点在于全球领先的性价比和极致的速度。尽管拥有惊人的 2300 亿总参数,但其激活参数被巧妙地控制在 100 亿以内,这极大地降低了算力成本。在权威评测榜单 Artificial Analysis 上,MiniMax M2 在数学、科学和编码等核心领域均取得了优异表现,总分更是跻身全球前五。这充分证明,M2 在强化编程和智能体能力的同时,并没有对模型的整体性能产生任何妥协。
更加引人注目的是,MiniMax M2 在实现高性能的同时,大幅度削减了使用成本。据 MiniMax 官方披露,该模型在某些任务上的成本甚至仅为 Claude 的 8%。目前,MiniMax M2 的 API 定价为每百万 Token 输入 0.3 美元(约合人民币 2.1 元),输出 1.2 美元(约合人民币 8.4 元)。同时,它还能提供每秒约 100 Token 的推理速率,并且这一速度还在持续优化中。从价格与速度的双重维度考量,MiniMax M2 无疑已成为当前市场上最具竞争力的模型之一。
为了吸引更多开发者亲身体验 MiniMax M2 的魅力,MiniMax 在发布后宣布延长免费试用时间至 11 月 6 日。MiniMax 在官方声明中表示:“我们目前正在免费提供 MiniMax Agent,直至服务器负荷达到极限。”这一策略随即收到了显著成效,在限时免费期间,开发者的模型调用量呈爆发式增长,MiniMax M2 迅速攀升至 OpenRouter 调用量排行榜的第十位。
MiniMax M2 在成本控制上的成功,离不开其在模型技术上的不断推陈出新以及工程能力的显著提升。伴随 MiniMax M2 的发布,MiniMax 同时宣布其 Agent 应用也得到了同步升级,并推出了相应的 Android 和 iOS 版本。这种策略与 OpenAI 在发布 Sora 2 时如出一辙,即模型从问世之初就以产品的形态呈现,模型能力与工程实现已然深度融合。用户通过 Agent 应用这一核心产品,能够直接感受到模型能力的迭代进步,这些技术上的飞跃不再仅仅停留在论文或技术报告的象牙塔中,而是化为了用户可感知的、实实在在的产品力。
为充分验证 MiniMax M2 的实力,我们进行了一系列有针对性的测试,涵盖了文章撰写速度、编程能力以及完成整个开发闭环的可能性。在文章撰写测试中,我们要求 MiniMax M2 和 Claude 4.1 以《AI 智能体的未来》为题,创作一篇约 800 字的中文文章。结果令人惊讶,MiniMax M2 几乎在瞬间便完成了文章的撰写,而 Claude 4.1 仍在逐段缓缓生成。从文章的内容结构和语言风格来看,MiniMax M2 的表现同样游刃有余,给人一种“响应即结果”的流畅高效体验。
在编程能力测试环节,我们选择了经典的 Gilded Rose Refactoring Kata 项目。该项目旨在考察模型在不改变原有功能的前提下,优化代码结构并新增功能的能力。MiniMax M2 在加载项目后,能够自动识别语言版本,并直接选择了 Python 进行实现。它首先深入解析了原始代码中的商品类型及相应逻辑,随后提出了采用策略模式进行重构的方案。在重构过程中,MiniMax M2 悉心同步修改了测试脚本和示例文件,确保了数据初始化和边界条件的正确性与新架构的兼容。经过几轮细致的调试,所有测试均成功通过,充分展现了 MiniMax M2 在编程领域的卓越实力。
我们还对 MiniMax M2 的端到端开发能力进行了深入测试。我们提供两个空文件:calc.py 和 test_calc.py,并要求模型实现加法和除法功能,同时处理除以零的错误。MiniMax M2 首先读取了测试文件,然后着手编写代码。在首次运行 pytest 报错后,它迅速捕捉到错误原因并完成了修复。整个过程耗时不到一分钟,从最初的空白文件到最终所有测试全绿,MiniMax M2 独力完成开发的能力令人瞩目。
在网页交互任务测试中,我们采用了“受控指令”的方式来量化评估 MiniMax M2 在 three.js 上的编程表现。我们清晰地列出了每一项功能要求,包括构建一个包含太阳和三个行星的三维场景、实现行星的自转与公转动画,以及显示轨道辅助线等。评测结果显示,MiniMax M2 在首次编程时便完成了大部分任务,仅在“统一控制行星大小”这一细节上,需要通过一次额外的对话进行调整。从运行日志分析,MiniMax M2 的工作流程呈现出清晰的“生成—验证—修复”的循环节奏,这进一步印证了其在代码生成与调试优化方面的出色能力。
随着 Agent 技术的蓬勃发展,关于“模型即 Agent”还是“应用本身需要更多投入”的讨论愈发激烈。MiniMax M2 的横空出世,为这些讨论注入了新的思考维度:那些在所有模态模型上都达到顶尖水准的公司,或许更能为所有人提供真正强大的 Agent 能力。目前,MiniMax 在语音和视频领域的模型均处于全球领先地位。这些模型的卓越表现,并非仅仅是“锦上添花”的创新,而是源自 MiniMax 在技术架构上的深耕,例如 Speech 模型的 Flow-VAE 架构和 Hailuo 02 视频模型的 NCR 架构。
MiniMax 在技术追求上显得尤为与众不同。它甘愿投入更多的时间,甚至显得“笨拙”,也要在技术的底层逻辑上寻求突破,解决技术落地过程中遇到的实际难题。在文本大模型领域,MiniMax 也走过了类似的进化之路。从年初发布的开源 MiniMax 01 系列,到后来的 M1,再到今天的 M2,模型的迭代进化从未停止。最终,MiniMax 交付了它心目中这个阶段最能解决实际问题的 Agent 模型。它既是模型,也是应用,是 MiniMax“让每个人都拥有充裕的智能”愿景中的关键一步。
目前,用户可以通过 MiniMax Agent APP、API 以及各大主流模型平台,便捷地体验 MiniMax M2。尤为值得关注的是,MiniMax 宣布 Agent 和模型将面向全球用户进行为期 14 天的免费体验,这是一次不容错过的深度探索机会。