在2025年的华为鲲鹏昇腾开发者大会上,华为正式发布了其最新的技术突破——昇腾超节点技术。该技术的发布,标志着华为在AI基础设施领域迈出了重要一步,为AI大模型的未来发展提供了强有力的支持。昇腾超节点实现了业界领先的384卡高速总线互联规模,突破了算力瓶颈,为更大规模、更复杂模型的训练和推理提供了可能。
当前,人工智能领域正经历着快速发展,大模型在各个行业的应用日益广泛。一方面,Scaling Law持续验证着模型规模与性能之间的正相关关系,推动着模型参数量的不断增长;另一方面,诸如DeepSeek等创新架构与技术,也在加速大模型在各个领域的落地应用。特别是在混合专家系统(MoE)模型架构成为主流的趋势下,训练和推理过程中的计算挑战也日益突出。MoE模型的复杂混合并行策略导致单次通信量高达GB级别,而且难以通过传统技术手段进行有效掩盖,对底层计算基础设施提出了更高的要求。
模型并行规模的扩大,对服务器间的通信带宽提出了更高的要求。传统的以太网络互联方式已难以满足AI大模型的训练需求。实践证明,当分布式策略的混合并行域超过8卡时,跨机通信带宽便成为性能瓶颈,导致整体训练效率大幅下降。这意味着,仅仅依靠增加服务器数量来提升算力,并不能解决根本问题,高效的互联技术才是关键。
为解决这一难题,华为推出了昇腾超节点技术。与传统的以CPU为中心的冯诺依曼架构不同,昇腾超节点采用了创新性的对等计算架构。通过高速总线互联技术,实现了总线由服务器内部向整机柜乃至跨机柜的扩展,从根本上提升了通信性能。在超节点范围内,高速总线互联替代了传统的以太网,使得通信带宽提升了高达15倍,单跳通信时延也从2微秒降低至200纳秒,优化幅度达10倍。这种变革使得集群内的各个节点能够像一台计算机一样协同工作,有效突破了传统集群的性能瓶颈,为更大规模的模型训练提供了基础。
据公开资料显示,此次发布的昇腾384超节点由12个计算柜和4个总线柜组成,是目前业界规模最大的超节点方案之一。这款超节点得益于华为在ICT领域的深厚积累和技术实力,通过优化的负载均衡组网方案,还可以进一步扩展为包含数万卡的Atlas 900 SuperCluster超节点集群。这一架构设计为未来更大规模模型的训练和推理提供了坚实的基础,预示着华为将持续投入资源,推动AI基础设施的创新发展。
从性能测试数据来看,在昇腾超节点集群上运行LLaMA 3等千亿级稠密模型时,性能相比传统集群提升了2.5倍以上。更值得关注的是,在通信需求更高的Qwen、DeepSeek等多模态、MoE模型上,性能提升更是达到了3倍以上,且显著优于业界其他集群,领先幅度达到了1.2倍。这些数据充分证明了华为昇腾超节点在AI计算领域的领先地位,以及其在提升大模型训练和推理效率方面的巨大潜力。通过解决大规模AI计算面临的通信瓶颈问题,昇腾超节点有望加速AI技术在各行各业的应用落地。