在2024中国信息通信大会“算力网络算网一体创新发展论坛”上,中国移动联合天数智芯、壁仞科技、中兴、海光、瀚博等企业,重磅发布了“芯合”异构混合并行训练系统1.0版本和“芯合”算力原生基础软件栈2.0版本,标志着我国在算力融合技术领域取得了重大突破。

“芯合”异构混合并行训练系统1.0版本的核心亮点在于两大技术创新:其一,基于非均匀计算任务切分(ITD)算法的3D并行策略,该策略可在通用混合训练框架下灵活实现异构数据并行与流水线并行,并自适应调整关键参数,以优化不同算力平台的性能。其二,采用GPU Direct RDMA (GDR)技术的异构芯片高速通信技术,无需修改芯片原有通信接口,通过制定数据传输架构、流程及接口标准,有效屏蔽底层硬件差异,实现训练任务在异构算力集群上的高效分布式通信。该系统已成功应用于百亿参数大模型的交叉混合训练,支持英伟达、天数智芯、壁仞科技及海光四家芯片,集群规模可达万卡级别,训练加速比超过95%,达到业界领先水平,显著提升了智能算力资源利用率,并对推动国产算力发展具有重要意义。
“芯合”算力原生基础软件栈2.0版本则在1.0版本的基础上实现了显著升级。相较于1.0版本,2.0版本在能力、性能和效率三个方面都有大幅提升。在能力方面,它全面重构了算力抽象模型,支持英伟达、华为、海光等六家AI芯片,并兼容ONNX、SYCL等多种编程范式,实现了泛AI应用的跨芯迁移。在性能方面,新增了对标CUDA的DNN、BLAS等高性能计算库,并具备图算融合编译优化能力,显著提升了性能,跨架构迁移损耗降低至10%以内。在效率方面,构建了面向智算应用的“跨架构软件工厂”,提供全生命周期服务,大幅缩短了应用开发和上线时间。目前,该软件栈已实现泛AI应用在一键式跨芯流转迁移,转换效率超过95%,迁移性能损耗小于10%,迁移时间不超过20秒,具备规模商用条件,这将有力提升我国智能算力网络的自主可控水平。
总而言之,“芯合”系列产品的发布,是中国移动在推动国产算力发展和提升智能算力网络自主可控水平方面的重要举措,展现了中国在构建自主可控的算力生态系统方面的实力和决心。未来,“芯合”系统的进一步发展和应用,将对我国人工智能产业的发展产生深远影响。