Mistral首款强推理模型：开源助力，速度提升10倍

强推理终于要加快速度了。

大模型强推理赛道，迎来了另一位重量级玩家。本周二，欧洲人工智能公司 Mistral AI 发布了 Magistral，这是一个全新的大语言模型（LLM）系列，展现了强大的推理能力。它能够不断反思并解决更复杂的任务。

此次发布的 Magistral 包含两个版本：面向企业客户的大型专有模型 Magistral Medium，以及一个 24B 参数的开源版本 Magistral Small。其中开源版本使用 Apache 2.0 许可，可以自由使用和商用化；Magistral Medium 则可通过 Mistral 的 Le Chat 界面和 La Plateforme API 访问。

直接使用：https://chat.mistral.ai/chat
模型开源：https://huggingface.co/mistralai/Magistral-Small-2506
论文：https://mistral.ai/static/research/magistral.pdf

在基准测试中，新模型取得了不错的成绩。Magistral Medium 在 AIME2024 上的得分为 73.6%，其中多数投票为 64%，得分为 90%。Magistral Small 的得分分别为 70.7% 和 83.3%。

新模型在其他高要求测试中也表现出色，包括研究生水平的问答基准测试 GPQA Diamond 和用于编程挑战的 LiveCodeBench。

Mistral 进一步展示了一些实际使用的案例。Magistral Medium 展示了自身的编程能力，一次生成输出的代码就能模拟出重力和摩擦力。

Magistral Medium 展示了自身的编程能力，一次生成输出的代码就能模拟出重力、摩擦力。

Magistral 模型不仅在编程和基准测试中表现出色，还擅长在多种语言中进行高保真的推理。它尤其适合用于英语、法语、西班牙语、德语、意大利语、阿拉伯语、俄语和中文等语言的推理。

借助 Le Chat 中的 Flash Answers，Magistral Medium 能实现比大多数竞争对手多 10 倍的 token 吞吐量。Mistral 称，这基本可以实现大规模的实时推理和用户反馈。

Mistral 认为 Magistral 非常适合需要长时间思考和更高准确度的通用任务，相比非推理类的大模型，提升更为明显。

在技术报告中，Mistral 表示 Magistral 应用了自主研发的可扩展强化学习流水线。该流水线并非依赖现有实现和从先前模型中提炼出的强化学习痕迹，而是采用自下而上的方法，完全依赖自己的模型和基础设施。在 Magistral 工作中，研究人员发现基于文本的强化学习能够保持甚至提升多模态理解、指令遵循和函数调用能力。

有趣的是，Magistral 的核心设计原则是使用与用户相同的语言进行推理。在未经任何处理的数学和编程问题上进行强化学习通常会导致模型在推理过程中出现混合语言。在没有语言限制的初步实验中，Mistral 工程人员也经常观察到混合英语、中文和俄语单词的输出。这些输出虽然连贯，但为了防止语言切换，他们在计算对话（由问题、想法、答案组成）的奖励时，首先通过删除 LaTeX 内容和代码块对这三个部分进行归一化，然后对每个部分应用 fastText 分类器。如果分类器指示所有三个部分都使用相同的语言，则会额外给予 0.1 的奖励。

这样简单的修改足以使模型能够紧密跟踪用户的语言，最大限度地减少代码切换，同时保持推理任务的性能。尽管只将原始英语问题翻译成几种语言，Magistral 模型仍能成功生成任意语言的思维链和系统提示。

Mistral 进一步在系统提示中指定了格式和语言要求。实验发现强化学习训练对这些系统提示非常敏感。例如，系统提示中的「尽可能随意，尽可能长」部分增加了模型的熵，从而改善了模型的探索能力。

Mistral 正在将 Magistral Medium 模型应用于包括 Amazon SageMaker 在内的主流云平台，Azure AI、IBM WatsonX 和 Google Cloud Marketplace 也将紧随其后。

在使用成本方面，Mistral 把 Magistral Medium 定位为一款独特的高端产品，因此价格也相应提高。它的每百万输入 token 价格为 2 美元，每百万输出 token 是 5 美元，相比老款 Mistral Medium 3 价格大幅上涨，后者输入成本仅为 0.4 美元，输出成本为 2 美元。

然而，与外部竞争对手相比，Magistral Medium 的定价策略却显得极具竞争力。它的输入成本比 OpenAI 最新型号便宜，与 Gemini 2.5 Pro 的价格处于同一水平，输出成本也远低于这两款产品。

看起来，推理速度比竞品快 10 倍的竞争优势确实非常显著。

Magistral API 与其他领先 LLM 的推理成本对比。

在 Magistral 推出之后，Mistral 的目标是从此版本开始快速迭代模型。

参考内容：

https://mistral.ai/news/magistral

https://venturebeat.com/ai/mistrals-first-reasoning-model-magistral-launches-with-large-and-small-apache-2-0-version/

免责声明：本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿，凡在本网站出现的信息，均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性，但不保证有关资料的准确性及可靠性，读者在使用前请进一步核实，并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏，概不负任何法律责任。任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时，可联系本站进行审核删除。

一	二	三	四	五	六	日
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28	29
30

Mistral首款强推理模型：开源助力，速度提升10倍

相关推荐

发表回复