华为昇腾384超节点：吊打英伟达、AMD

今日，2025世界人工智能大会（WAIC）在上海世博中心盛大举行。在此次大会上，华为首次线下展出了昇腾384超节点，其正式名称为Atlas 900 A3 SuperPoD。此次展出标志着华为在人工智能算力领域的重要进展，特别是其在高性能计算硬件方面的自主研发能力再次得到印证。

这款产品基于创新的超节点架构而设计，通过先进的总线技术实现了384个NPU（神经网络处理单元）之间的大带宽、低时延互联。这在根本上解决了传统集群计算中算力、存储等资源之间存在的通信瓶颈问题，为AI模型的训练和推理提供了更为顺畅的数据传输通道。

通过精细的系统工程优化，该超节点实现了对各类计算资源的最高效调度。这种优化使得384个NPU能够如同一个强大的超级计算机般稳定协作运行，极大地提升了整体运算效率和稳定性。

值得注意的是，早在今年5月的鲲鹏昇腾开发者大会上，华为就已发布了昇腾超节点概念，并成功实现了业界最大规模384卡的高速总线互联。此次的线下展示，更是将这一技术实力具象化，面向公众展示其强大的AI算力解决方案。

昇腾超节点的核心优势体现在“超大带宽、超低时延、超强性能”这三大方面，能够支持包括模型训练和推理在内的多种AI应用场景。其创新的超节点架构，能够精准满足大规模AI模型在训练和推理过程中对低时延、大带宽以及长时稳定可靠运行的严苛需求。

根据官方公布的信息，华为的AI算力集群解决方案CloudMatrix 384，正是以384颗昇腾芯片为基础构建而成。该方案采用了全互连拓扑架构，使得芯片之间的协同效率得到了质的飞跃，能够为AI计算提供强大的底层支撑。

在算力方面，CloudMatrix 384能够提供高达300 PFLOPs的密集BF16算力。对比业内领先的英伟达GB200 NVL72系统，其性能接近两倍。这一数据表明，华为在单一计算单元的性能瓶颈突破之后，通过规模化集成和优化，实现了整体算力的显著领先。

此外，在内存容量和带宽方面，CM384也展现出压倒性的优势。其总内存容量是英伟达同类方案的3.6倍，而内存带宽更是达到了英伟达方案的2.1倍。这意味着在处理巨量数据和复杂模型时，CM384能够提供更充裕的存储空间和更快速的数据存取能力，为大规模AI训练和推理任务提供了更高效的硬件保障。

虽然从单颗芯片的性能来看，昇腾芯片的原始算力约是英伟达Blackwell架构GPU的三分之一，但华为通过其精妙的规模化系统设计，特别是“超节点”这种创新的互联和调度方式，成功地将整体算力提升到新的高度。在超大规模模型训练、实时推理等对算力要求极高的场景中，这种体系化的优势使得华为的解决方案展现出了更强的竞争力。

值得关注的是，国外投行普遍认为，华为的这种大规模化AI算力解决方案，“领先于英伟达和AMD目前市场上的产品一代”。这不仅是对华为技术实力的高度认可，也暗示了中国在AI基础设施领域取得的突破，可能对全球AI产业的竞争格局产生深远而持久的影响。

免责声明：本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿，凡在本网站出现的信息，均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性，但不保证有关资料的准确性及可靠性，读者在使用前请进一步核实，并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏，概不负任何法律责任。任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时，可联系本站进行审核删除。

一	二	三	四	五	六	日
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30	31

华为昇腾384超节点：吊打英伟达、AMD

关于作者

Rain科技

发表回复

华为昇腾384超节点：吊打英伟达、AMD

关于作者

Rain科技

相关推荐

发表回复