阿里通义千问荣获中国唯一重大奖项

人工智能领域的顶级盛会 NeurIPS 2025 已于今晚揭晓各项殊荣。来自阿里巴巴的通义千问团队凭借论文《Attention Gating Makes Better Foundation Models》,荣登最佳论文奖榜首,并成为本届四篇获奖论文中唯一来自中国的团队。本届会议共收录了 20,000 篇论文,录用率仅为 25%,竞争之激烈堪称史上之最。

在 AI 领域,大模型的研究是近年的焦点。从 Transformer 的出现到如今百花齐放的各种模型架构,效率和性能的提升一直是探索的核心。此次通义千问团队的研究,在看似成熟的 Transformer 架构中注入了新的活力,为构建更强大的基础模型提供了新的思路。

这篇获奖论文的核心亮点在于引入了一个“滑动门”机制:在标准的 Attention 机制后增加了一个可学习的门控单元。这个门能够实时决策,哪些注意力头(heads)和哪些 token 能够继续参与下游的计算。实验结果相当亮眼:一个 1.7B 参数的密集模型和 15B 参数的 MoE 模型,在 3.5T 数量级的 token 上进行训练后,参数量略微增加了 1%,困惑度(perplexity)降低了 0.2,而在 MMLU 基准测试中的分数则提升了 2 分。这种改进在 The Pile 数据集的所有子领域都得到了持续的验证。团队解释说,这个门控单元就像是 Attention 机制的“安检员”,在将信息传递给前馈网络(FFN)之前,就能有效地过滤掉不相关的部分,从而在计算效率和模型鲁棒性方面都带来了提升。

这一创新性的机制已经被整合进了即将发布的 Qwen3-Next 模型中。阿里巴巴更是积极地将代码和 1.7B 的实验模型在 GitHub 上开源,邀请全球社区进行验证,体现了其推动 AI 技术普惠的决心。通义千问团队也明确表示,下一步计划将这种门控思想扩展到多模态和长文本的场景中,目标是让“能够自我过滤的 Attention”成为下一代大模型的标准配置。

值得关注的是,基础模型的每一次性能跃升,都可能预示着下游应用的一次深刻变革。此次 NeurIPS 最佳论文的授予,不仅是对通义千问团队技术实力的认可,更是对该研究方向未来潜力的肯定。未来,类似的智能化信息筛选机制,有望成为区分不同代际大模型的重要标志,为复杂任务的处理带来更高效、更精准的解决方案。

免责声明:本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时,可联系本站进行审核删除。
(0)
上一篇 2025年 11月 28日 下午7:25
下一篇 2025年 11月 28日 下午8:49

相关推荐

欢迎来到AI快讯网,开启AI资讯新时代!