近日,阿里巴巴在人工智能领域再次取得重大突破,正式发布了新一代通义千问模型——Qwen3。这次发布不仅彰显了阿里巴巴在AI技术领域的深厚实力,更使Qwen3一跃成为全球领先的开源模型之一。考虑到国内AI大模型研发的激烈竞争,Qwen3的发布无疑为国内AI力量注入了一剂强心剂。
Qwen3 模型家族阵容强大,涵盖了多个版本,包括从 Qwen3-0.6B 到 Qwen3-32B 的多个稠密模型,以及更为先进的混合专家模型 (MoE) Qwen3-30B-A3B 和 Qwen3-235B-A22B。这些模型在层数、注意力头数、嵌入绑定、上下文长度等关键参数上各有侧重,以满足不同的应用场景需求。其中,旗舰模型 Qwen3-235B-A22B 在代码、数学、通用能力等多个权威基准测试中,与 DeepSeek-R1、o1、o3-mini、Grok-3 和 Gemini-2.5-Pro 等顶级模型展开了直接较量,并展现出了卓越的性能,部分指标甚至超越了同类竞品。这表明 Qwen3 在技术层面已经具备了与国际顶尖AI模型一较高下的实力。

值得一提的是,Qwen3 被誉为国内首个“混合推理模型”,创新性地融合了“快思考”与“慢思考”两种推理模式。这种融合设计允许模型在面对复杂问题时进行深入推理,如同人类的“慢思考”过程,而对于简单任务则能迅速给出答案,如同人类的“快思考”反应。这种机制极大地提高了模型的使用效率,既能保证推理的深度,又大幅节省了计算资源,在实际应用中具有显著优势。
阿里云此次的开源策略也堪称大手笔。不仅开源了 Qwen3 的 MoE 模型权重,包括 Qwen3-235B-A22B 和 Qwen3-30B-A3B,还开源了六个 Dense 模型,这些模型均采用 Apache 2.0 许可协议,允许公众免费使用和修改。这种开放的姿态无疑将极大地推动人工智能技术的普及和应用,降低了AI开发的门槛,为研究人员和开发者提供了更加广阔的创新空间。开源策略有望吸引更多社区力量参与到 Qwen3 生态的建设中来,从而进一步提升其性能和应用范围。
Qwen3 模型对多达 119 种语言和方言的支持也是其一大亮点。 这种广泛的多语言能力为模型在全球范围内的应用提供了坚实的基础。无论是简体中文、繁体中文,甚至是更为细分的粤语,Qwen3 都能流畅应对,为跨语言交流和国际化应用场景开辟了新的可能性。在全球化的背景下,多语言能力已经成为AI模型的重要竞争指标之一,Qwen3 在这方面的表现无疑更具优势。
为了确保模型具备强大的知识储备和推理能力,Qwen3 在预训练方面也下了很大功夫。与前代 Qwen2.5 相比,Qwen3 的数据集规模有了显著扩展,使用了约 36 万亿个 token 的数据进行预训练,涵盖了 119 种语言和方言。数据来源广泛,不仅包括互联网数据,还包括从 PDF 文档中提取的文本信息。此外,为了增强模型在数学和代码方面的能力,阿里云还专门利用 Qwen2.5-Math 和 Qwen2.5-Coder 这两个专家模型合成了大量相关数据。这些数据增强手段有效地提升了模型在特定领域的表现。

Qwen3 的预训练过程并非一蹴而就,而是分为三个精心设计的阶段,每个阶段都针对不同的目标和数据集进行优化。第一阶段,模型在超过 30 万亿个 token 上进行了基础预训练,为模型奠定了坚实的语言基础。第二阶段,通过增加知识密集型数据的比例来改进数据集,并在额外的 5 万亿个 token 上进行了预训练,旨在提升模型的知识理解和应用能力。第三阶段,使用高质量的长上下文数据将上下文长度扩展到 32K token,确保模型能够处理更长的输入序列,这对于处理复杂的文档和对话至关重要。 这种分阶段的预训练策略能够更有效地利用数据资源,提升模型的整体性能。
在后训练方面,阿里云实施了一个四阶段的训练流程,旨在开发同时具备思考推理和快速响应能力的混合模型。这一流程包括长思维链冷启动、长思维链强化学习、思维模式融合和通用强化学习四个关键环节。通过这些精细化的训练步骤,模型能够逐步掌握“快思考”和“慢思考”之间的平衡,从而在不同的应用场景下表现出最佳性能。

为了方便用户灵活地控制模型的行为,阿里云还为部署用户提供了一种软切换机制。通过 `enable_thinking=True` 参数,用户可以动态控制模型的思考模式。此外,用户还可以通过添加 `/think` 和 `/no_think` 指令来逐轮切换模型的思考模式,这一功能在多轮对话场景中尤为实用。 这种灵活的控制机制为用户提供了更大的自由度,可以根据实际需求定制模型的行为。

目前,用户已经可以在 Qwen Chat 网页版 (chat.qwen.ai) 和通义 App 中试用 Qwen3 模型,亲自体验其强大的功能和灵活的思考模式。Qwen3 的发布不仅仅是阿里巴巴在人工智能领域的一次技术突破,更预示着人工智能技术将朝着更加便捷、智能的方向发展,并为全球用户带来更优质的服务。