WAIC 2025镇馆之宝:华为昇腾384超节点“算力核弹”解密

华为在WAIC上展出业界最大规模的昇腾384超节点,采用对等计算架构,实现384颗NPU点对点互联。其通信带宽提升15倍,时延降低10倍,支持MoE模型专家并行。该超节点大幅提升AI训练和推理性能,例如LlaMA3训练速度可达传统集群2.5倍,多模态、MoE模型性能可达3倍以上。

在2025年7月26日至29日于上海世博展览馆举办的世界人工智能大会(WAIC)上,华为首次展出了其昇腾384超节点,即Atlas 900 A3 SuperPoD。这款产品一经亮相便吸引了广泛关注,被誉为本届大会的“镇馆之宝”,并且是目前业界规模最大的超节点解决方案。

昇腾384超节点的核心创新在于打破了传统的以CPU为中心的冯·诺依曼计算架构,转而提出了对等计算架构。这种架构将数据通信的总线从服务器内部延伸至整个机柜乃至跨机柜层面,从而对数据传输和处理方式进行了颠覆性的改变。传统AI集群普遍采用由服务器、存储、网络等设备堆叠的模式,这种架构在面对大规模AI模型训练时,常常面临资源利用率低下和故障频发的问题,成为制约AI技术进一步发展的瓶颈。

WAIC 2025镇馆之宝!“算力核弹”华为昇腾384超节点一图看懂

通过高速总线将多颗NPU(神经网络处理器)紧密连接,昇腾超节点有效解决了AI计算中的互联瓶颈问题,使得多颗NPU能够像一台强大的超级计算机一样协同工作。在具体性能提升方面,其表现尤为突出:

通信带宽飞跃:该超节点实现了跨节点通信带宽的15倍提升,显著加快了数据在庞大计算单元间的传输速度。

通信时延骤减:通信时延从传统的2微秒(μs)降至0.2微秒(μs),降低了10倍,极大地缩短了数据处理的等待时间,这对于需要快速响应的AI应用至关重要。

超强互联能力:昇腾384超节点最多可支持384颗NPU进行点对点的大带宽互联。尤其值得一提的是,它是业界首款能在同一个超节点域内完成所有专家并行(EP)方案的产品,完美支持DeepSeek V/R1等模型,并为MoE(Mixture of Experts)模型提供了理想的训练和推理解决方案,效率大幅提升。

WAIC 2025镇馆之宝!“算力核弹”华为昇腾384超节点一图看懂

昇腾384超节点凭借其在带宽、时延和性能上的全面优势,在AI计算领域树立了新的标杆。

超大带宽:在超节点内部,任意两个AI处理器之间的通信带宽相较于传统架构提升了15倍,同时单跳通信时延降低了10倍,确保了数据交互的极致流畅性。

超低时延:该超节点引入了全局内存统一编址,优化了内存语义通信能力。通过指令级内存语义通信,能够以更低的时延满足大模型训练和推理过程中频繁的小包通信需求,同时也提升了专家网络小包数据传输以及离散随机访存的效率。尤其是在实时性要求极高的场景下,昇腾384超节点是业界唯一突破了Decode时延15毫秒(ms)的解决方案,能够满足用户在实时深度思考场景下的体验需求。

超强性能:实际测试结果表明,在昇腾超节点集群上,LlaMA3等千亿参数的稠密模型训练性能可以达到传统集群的2.5倍以上。而在对通信带宽要求更为苛刻的Qwen、DeepSeek等多模态和MoE模型上,性能提升更是达到了惊人的3倍以上。这些数据直观地展示了华为在AI算力硬件领域的强大实力和创新能力,为推动AI技术的长远发展提供了坚实的算力支撑。

WAIC 2025镇馆之宝!“算力核弹”华为昇腾384超节点一图看懂

免责声明:本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时,可联系本站进行审核删除。
(0)
Rain科技Rain科技
上一篇 2025年 7月 29日 上午4:11
下一篇 2025年 7月 29日 上午6:40

相关推荐

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

欢迎来到AI快讯网,开启AI资讯新时代!