今日,2025世界人工智能大会(WAIC)在上海世博中心盛大举行。在此次大会上,华为首次线下展出了昇腾384超节点,其正式名称为Atlas 900 A3 SuperPoD。此次展出标志着华为在人工智能算力领域的重要进展,特别是其在高性能计算硬件方面的自主研发能力再次得到印证。
这款产品基于创新的超节点架构而设计,通过先进的总线技术实现了384个NPU(神经网络处理单元)之间的大带宽、低时延互联。这在根本上解决了传统集群计算中算力、存储等资源之间存在的通信瓶颈问题,为AI模型的训练和推理提供了更为顺畅的数据传输通道。
通过精细的系统工程优化,该超节点实现了对各类计算资源的最高效调度。这种优化使得384个NPU能够如同一个强大的超级计算机般稳定协作运行,极大地提升了整体运算效率和稳定性。
值得注意的是,早在今年5月的鲲鹏昇腾开发者大会上,华为就已发布了昇腾超节点概念,并成功实现了业界最大规模384卡的高速总线互联。此次的线下展示,更是将这一技术实力具象化,面向公众展示其强大的AI算力解决方案。
昇腾超节点的核心优势体现在“超大带宽、超低时延、超强性能”这三大方面,能够支持包括模型训练和推理在内的多种AI应用场景。其创新的超节点架构,能够精准满足大规模AI模型在训练和推理过程中对低时延、大带宽以及长时稳定可靠运行的严苛需求。
根据官方公布的信息,华为的AI算力集群解决方案CloudMatrix 384,正是以384颗昇腾芯片为基础构建而成。该方案采用了全互连拓扑架构,使得芯片之间的协同效率得到了质的飞跃,能够为AI计算提供强大的底层支撑。
在算力方面,CloudMatrix 384能够提供高达300 PFLOPs的密集BF16算力。对比业内领先的英伟达GB200 NVL72系统,其性能接近两倍。这一数据表明,华为在单一计算单元的性能瓶颈突破之后,通过规模化集成和优化,实现了整体算力的显著领先。
此外,在内存容量和带宽方面,CM384也展现出压倒性的优势。其总内存容量是英伟达同类方案的3.6倍,而内存带宽更是达到了英伟达方案的2.1倍。这意味着在处理巨量数据和复杂模型时,CM384能够提供更充裕的存储空间和更快速的数据存取能力,为大规模AI训练和推理任务提供了更高效的硬件保障。
虽然从单颗芯片的性能来看,昇腾芯片的原始算力约是英伟达Blackwell架构GPU的三分之一,但华为通过其精妙的规模化系统设计,特别是“超节点”这种创新的互联和调度方式,成功地将整体算力提升到新的高度。在超大规模模型训练、实时推理等对算力要求极高的场景中,这种体系化的优势使得华为的解决方案展现出了更强的竞争力。
值得关注的是,国外投行普遍认为,华为的这种大规模化AI算力解决方案,“领先于英伟达和AMD目前市场上的产品一代”。这不仅是对华为技术实力的高度认可,也暗示了中国在AI基础设施领域取得的突破,可能对全球AI产业的竞争格局产生深远而持久的影响。