在2025年7月26日至29日于上海世博展览馆举办的世界人工智能大会(WAIC)上,华为首次展出了其昇腾384超节点,即Atlas 900 A3 SuperPoD。这款产品一经亮相便吸引了广泛关注,被誉为本届大会的“镇馆之宝”,并且是目前业界规模最大的超节点解决方案。
昇腾384超节点的核心创新在于打破了传统的以CPU为中心的冯·诺依曼计算架构,转而提出了对等计算架构。这种架构将数据通信的总线从服务器内部延伸至整个机柜乃至跨机柜层面,从而对数据传输和处理方式进行了颠覆性的改变。传统AI集群普遍采用由服务器、存储、网络等设备堆叠的模式,这种架构在面对大规模AI模型训练时,常常面临资源利用率低下和故障频发的问题,成为制约AI技术进一步发展的瓶颈。

通过高速总线将多颗NPU(神经网络处理器)紧密连接,昇腾超节点有效解决了AI计算中的互联瓶颈问题,使得多颗NPU能够像一台强大的超级计算机一样协同工作。在具体性能提升方面,其表现尤为突出:
通信带宽飞跃:该超节点实现了跨节点通信带宽的15倍提升,显著加快了数据在庞大计算单元间的传输速度。
通信时延骤减:通信时延从传统的2微秒(μs)降至0.2微秒(μs),降低了10倍,极大地缩短了数据处理的等待时间,这对于需要快速响应的AI应用至关重要。
超强互联能力:昇腾384超节点最多可支持384颗NPU进行点对点的大带宽互联。尤其值得一提的是,它是业界首款能在同一个超节点域内完成所有专家并行(EP)方案的产品,完美支持DeepSeek V/R1等模型,并为MoE(Mixture of Experts)模型提供了理想的训练和推理解决方案,效率大幅提升。

昇腾384超节点凭借其在带宽、时延和性能上的全面优势,在AI计算领域树立了新的标杆。
超大带宽:在超节点内部,任意两个AI处理器之间的通信带宽相较于传统架构提升了15倍,同时单跳通信时延降低了10倍,确保了数据交互的极致流畅性。
超低时延:该超节点引入了全局内存统一编址,优化了内存语义通信能力。通过指令级内存语义通信,能够以更低的时延满足大模型训练和推理过程中频繁的小包通信需求,同时也提升了专家网络小包数据传输以及离散随机访存的效率。尤其是在实时性要求极高的场景下,昇腾384超节点是业界唯一突破了Decode时延15毫秒(ms)的解决方案,能够满足用户在实时深度思考场景下的体验需求。
超强性能:实际测试结果表明,在昇腾超节点集群上,LlaMA3等千亿参数的稠密模型训练性能可以达到传统集群的2.5倍以上。而在对通信带宽要求更为苛刻的Qwen、DeepSeek等多模态和MoE模型上,性能提升更是达到了惊人的3倍以上。这些数据直观地展示了华为在AI算力硬件领域的强大实力和创新能力,为推动AI技术的长远发展提供了坚实的算力支撑。
