Rain科技1月26日报道,阿里正式发布了其旗舰级推理大模型Qwen3-Max-Thinking。该模型在多项权威评测中创下了全球新纪录,其性能表现已达到国际顶尖水平,能够与GPT-5.2和Gemini 3 Pro等模型相媲美,标志着国内AI大模型在追赶国际前沿的道路上迈出了重要一步。
通过在总参数量、强化学习算法以及推理计算规模上的极致优化,Qwen3-Max-Thinking实现了性能的飞跃式提升。它在科学知识问答(GPQA Diamond)、数学推理(IMO-AnswerBench)和代码编程(LiveCodeBench)等关键性能基准测试中,均刷新了全球纪录,展现了强大的综合能力。
Qwen3-Max-Thinking是阿里目前为止规模最大、能力最强的千问推理模型。其总参数量已超过万亿(1T),并且使用了高达36T Tokens的预训练数据,这为模型的强大能力奠定了坚实的基础。
在此之前,Qwen3-Max-Thinking的预览版本已表现出令人瞩目的推理能力,尤其是在数学推理方面,成功获得了国内首个AIME 25和HMMT 25的双满分。正式版的发布,得益于阿里通义团队在更大规模的强化学习后训练,进一步全面提升了模型的各项性能。
在涵盖事实知识、复杂推理、指令遵循、人类偏好对齐以及Agent能力等19个公认的大模型基准测试中,Qwen3-Max-Thinking取得了多项最佳表现(SOTA)纪录。其整体性能表现,已能够与GPT-5.2-Thinking-xhigh、Claude Opus 4.5和Gemini 3 Pro等国际领先模型匹敌,显示出阿里在AI大模型研发领域的实力。
在模型关键的推理能力提升方面,Qwen3-Max-Thinking引入了一种全新的“测试时扩展”(Test-time Scaling)机制。这一创新不仅显著提升了推理性能,同时也使得模型在推理过程中更加经济高效。
传统的推理计算方式往往仅仅是简单地增加并行推理路径,导致重复推导已知的结论,效率低下。而Qwen3-Max-Thinking采用的新机制,能够对先前的推理结果进行“经验提取”式的提炼,并在此基础上进行多轮的自我迭代。在相同的上下文环境下,这种方法能够实现更高效的计算,从而产生更智能的推理结果。这种技术创新是其推理性能和效率大幅提升的关键。
例如,在启用了工具的“人类最后的测试”(Human Last Effort, HLE)项目中,Qwen3-Max-Thinking取得了58.3分,远超GPT-5.2-Thinking的45.5分和Gemini 3 Pro的45.8分,创下了当前所有模型的最高纪录。这充分证明了其在复杂任务处理能力上的优势。
面向即将到来的智能体(Agent)时代,Qwen3-Max-Thinking在自主调用工具的原生Agent能力方面也得到了显著增强。通过初步的工具使用微调,以及在大量多样化任务上进行的基于规则奖励与模型奖励的联合强化学习训练,Qwen3-Max-Thinking能够更智能地结合工具进行思考和决策。
这种自适应的工具调用能力在QwenChat上得到了充分体现。模型能够自主选择并运用搜索、个性化记忆和代码解释器等核心Agent工具功能,为用户提供专业人士级别的回答。其输出结果更符合用户意图、更智能、更流畅,同时模型的“幻觉”现象也得到了显著降低,为解决真实世界中的复杂任务奠定了坚实基础。
目前,开发者可以通过QwenChat免费体验Qwen3-Max-Thinking模型。企业用户则可以通过阿里云百炼平台获取新模型的API服务。普通用户也可以通过千问PC端和网页端进行试用。据了解,千问APP也即将接入该新模型,届时所有用户都将能够免费体验到千问最强模型的强大能力。
