近日,阿里巴巴正式发布了其最新的推理模型——通义千问QwQ-32B,并以Apache 2.0开源协议在全球范围内开放源代码。此举不仅展现了阿里巴巴在人工智能领域的技术实力,也体现了其拥抱开源、推动AI技术普及的决心。通义千问QwQ-32B 模型通过大规模强化学习,在数学、代码及通用能力等多个方面都实现了显著提升,为开发者和企业带来了更强大的AI工具。
阿里巴巴官方介绍称,通义千问QwQ-32B的性能足以媲美顶尖开源推理模型DeepSeek-R1。然而,更具优势的是,QwQ-32B大幅降低了部署成本。这意味着,即使使用消费级显卡,也能轻松完成模型的本地部署和推理任务。对于那些希望在本地环境进行AI开发和应用的企业或个人开发者来说,这无疑是一个极具吸引力的优势。相比于动辄需要专业级服务器和高昂云服务费用的模型,QwQ-32B 的出现降低了AI应用的门槛。

通义千问QwQ-32B 的成功,归功于阿里巴巴通义团队在冷启动基础上,针对数学、编程及通用能力进行了两轮大规模强化学习的创新性方法。 这种方法使得模型在 320 亿参数的规模下,实现了卓越的推理能力。在多个权威基准测试中,QwQ-32B 的表现几乎完全超越 OpenAI 的 o1-mini 模型,甚至可以与 DeepSeek-R1 相媲美,展现出强大的竞争力。 值得注意的是,虽然模型性能优秀,但其开源协议意味着用户可以自由地进行修改、使用和分发,这有助于推动更广泛的创新和应用。
具体而言,在数学能力评估的 AIME24 评测集和代码能力评估的 LiveCodeBench 测试中,通义千问QwQ-32B展现出了与DeepSeek-R1相当的实力,远超 OpenAI 的 o1-mini 以及相同尺寸的 R1 蒸馏模型。 此外,在由Meta首席科学家杨立昆领衔的“最难LLMs评测榜” LiveBench、 谷歌提出的指令遵循能力 IFEval 评测集,以及加州大学伯克利分校等提出的评估准确调用函数或工具方面的 BFCL 测试中, QwQ-32B 的得分均超越了 DeepSeek-R1,进一步证明了其强大的综合推理能力。这些测试结果表明,QwQ-32B 在处理复杂问题和理解用户意图方面具备优秀的性能。
除了卓越的推理能力,通义千问QwQ-32B还在资源消耗方面表现出色,这使得它非常适合对响应速度和数据安全有较高要求的应用场景。开发者和企业可以方便地在消费级硬件上将模型部署到本地设备中,从而打造高度定制化的AI解决方案。 本地部署不仅可以缩短响应时间,还可以避免将敏感数据传输到云端,提高数据安全性。
更令人关注的是,通义千问QwQ-32B 集成了与智能体 (Agent) 相关的能力。 它不仅能使用工具,还能进行批判性思考,并根据环境反馈调整推理过程。 这一特性赋予了 QwQ-32B 更高的智能水平,并为未来的 AI 发展提供了更多的可能性。 这种结合了推理、工具使用和环境反馈的智能体能力,使得 QwQ-32B 在需要复杂决策和自主行动的应用场景中具有广阔的应用前景。
目前,通义千问QwQ-32B 已在魔搭社区、HuggingFace 和 GitHub 等平台基于宽松的 Apache 2.0 协议开源。 用户不仅可以免费下载模型进行本地部署,还可以通过阿里云百炼平台直接调用模型 API 服务。 对于云端部署需求,用户可以通过阿里云 PAI 平台完成快速部署,并进行模型微调、评测和应用搭建。 用户还可以选择容器服务 ACK 搭配阿里云 GPU 算力,实现模型容器化部署和高效推理。 多种部署方式为用户提供了灵活性和便利性,满足了不同用户的需求。
自 2023 年以来,阿里巴巴通义团队已开源了 200 多款模型,涵盖了文本生成、视觉理解/生成、语音理解/生成、文生图及视频等全模态,以及从 0.5B 到 110B 等参数全尺寸的模型。 截至目前,全球 AI 开源社区中千问 Qwen 的衍生模型数量已突破 10 万,超越了美国 Llama 系列模型,成为全球最大的开源模型族群。 这表明阿里巴巴在开源生态建设方面取得了显著成就,也体现了全球开发者对通义千问系列的认可和支持。 持续的开源和社区建设有利于促进 AI 技术的创新和发展。