Rain科技3月8日消息,今年除夕当天,阿里巴巴发布了其千问Qwen 3.5系列大模型。在此之前,阿里已推出高端大尺寸系列模型;近日,又新增了四个小尺寸模型:Qwen3.5-0.8B、Qwen3.5-2B、Qwen3.5-4B以及Qwen3.5-9B。
对于人工智能模型爱好者来说,小尺寸模型往往是其魅力的核心所在,尤其是其在本地部署方面的巨大吸引力。此次发布的Qwen 3.5系列不仅体积小巧,更重要的是性能表现强劲。其中,9B模型在性能上已能媲美拥有1200亿参数的GPT-OSS-120B模型。
而Qwen 3.5系列的实际表现,甚至可能超出部分用户的预期。日前,N8 Programs机构进行了实际测试,以验证官方关于4B模型性能与GPT-4o相当的说法。
测试结果显示,在大多数评测场景下,Qwen 3.5-4B模型的表现确实优于GPT-4o这类主流大模型。
具体而言,测试者使用了WildChat数据集中的1000个随机问题,让Qwen 3.5-4B和GPT-4o分别作答,并由当前最强的大模型Opus 4.6进行评判。最终数据显示,在1000组问答中,Qwen 3.5-4B赢得了499个,输了431个,另有70个为平局。这一结果表明,阿里巴巴在宣传其模型性能时,保持了相当的客观性。
值得注意的是,Qwen 3.5-4B仅是一个拥有40亿参数的小尺寸模型。而GPT-4o,作为许多用户的首选模型,其参数量高达约2000亿(公开信息未明确,但有微软论文佐证)。这意味着,Qwen 3.5-4B仅用了GPT-4o约2%的参数量,便能在部分测试中取得更优越的性能表现,这无疑是其技术实力的一大亮点。
当然,Qwen 3.5系列的小尺寸模型并非在所有方面都能超越当前的顶尖模型,但它们在本地部署方面的优势使其极具吸引力。理论上,4B模型在仅8GB显存的环境下即可运行,不过为获得更佳体验,建议配备16GB显存,并进行量化优化。目前网上已有不少相关教程,对本地部署AI模型感兴趣的用户可以尝试。
以下是千问发布时关于各模型及其性能的介绍和对比:
0.8B / 2B:极致轻量,端侧首选
特点:模型体积极小,推理速度飞快。
应用场景:非常适合部署在移动设备、IoT 边缘设备上,以及对低延迟有严格要求的实时交互场景。
4B:轻量级 Agent 的强劲基座
特点:性能强劲,作为多模态基础模型,特别适合用于构建 Agent。
应用场景:可作为轻量级智能体的核心大脑,是性能与资源消耗之间达到完美平衡的理想选择。
9B:紧凑尺寸,越级性能
特点:模型结构紧凑,但性能却能媲美拥有1200亿参数的GPT-OSS-120B,表现令人瞩目。
应用场景:适用于对智力水平有较高要求,但又受限于显存资源的服务端部署场景,是性价比极高的通用模型选项。


