人工智能领域的顶级盛会 NeurIPS 2025 已于今晚揭晓各项殊荣。来自阿里巴巴的通义千问团队凭借论文《Attention Gating Makes Better Foundation Models》,荣登最佳论文奖榜首,并成为本届四篇获奖论文中唯一来自中国的团队。本届会议共收录了 20,000 篇论文,录用率仅为 25%,竞争之激烈堪称史上之最。
在 AI 领域,大模型的研究是近年的焦点。从 Transformer 的出现到如今百花齐放的各种模型架构,效率和性能的提升一直是探索的核心。此次通义千问团队的研究,在看似成熟的 Transformer 架构中注入了新的活力,为构建更强大的基础模型提供了新的思路。
这篇获奖论文的核心亮点在于引入了一个“滑动门”机制:在标准的 Attention 机制后增加了一个可学习的门控单元。这个门能够实时决策,哪些注意力头(heads)和哪些 token 能够继续参与下游的计算。实验结果相当亮眼:一个 1.7B 参数的密集模型和 15B 参数的 MoE 模型,在 3.5T 数量级的 token 上进行训练后,参数量略微增加了 1%,困惑度(perplexity)降低了 0.2,而在 MMLU 基准测试中的分数则提升了 2 分。这种改进在 The Pile 数据集的所有子领域都得到了持续的验证。团队解释说,这个门控单元就像是 Attention 机制的“安检员”,在将信息传递给前馈网络(FFN)之前,就能有效地过滤掉不相关的部分,从而在计算效率和模型鲁棒性方面都带来了提升。
这一创新性的机制已经被整合进了即将发布的 Qwen3-Next 模型中。阿里巴巴更是积极地将代码和 1.7B 的实验模型在 GitHub 上开源,邀请全球社区进行验证,体现了其推动 AI 技术普惠的决心。通义千问团队也明确表示,下一步计划将这种门控思想扩展到多模态和长文本的场景中,目标是让“能够自我过滤的 Attention”成为下一代大模型的标准配置。
值得关注的是,基础模型的每一次性能跃升,都可能预示着下游应用的一次深刻变革。此次 NeurIPS 最佳论文的授予,不仅是对通义千问团队技术实力的认可,更是对该研究方向未来潜力的肯定。未来,类似的智能化信息筛选机制,有望成为区分不同代际大模型的重要标志,为复杂任务的处理带来更高效、更精准的解决方案。