2025鲲鹏昇腾开发者大会期间,备受瞩目的昇腾AI开发者峰在北京成功举办。华为昇腾计算业务总裁张迪煊发表了题为《携手昇腾,共创辉煌》的主题演讲,全面阐释了昇腾在人工智能计算领域的最新突破与创新成果,充分展现了昇腾加速赋能行业智能化升级的决心和实力。
张迪煊在演讲中回顾了昇腾快速发展的历程。短短六年间,昇腾团队从华为内部一个百人团队,迅速成长为拥有百万开发者的庞大生态系统。他强调,这一成就离不开广大客户、合作伙伴以及开发者的鼎力支持与一路相伴。昇腾通过持续演进的产品,深度开放的技术以及不断提升的易用性,有力地推动了整个AI产业的前进。
演讲中,张迪煊特别强调了昇腾生态的蓬勃发展。他指出,目前已有超过5万名开发者深度参与昇腾平台的性能挖掘,实现前沿技术创新,并积极为开源社区贡献力量。与此同时,昇腾积极与高校展开合作,已培养超过40万名AI人才,这些新生力量正逐步走向社会和企业,成为推动中国人工智能发展的强大引擎。这既是对人才培养的高度重视,也体现了昇腾对未来AI产业发展的战略布局。

为了进一步加速AI开发进程,昇腾始终坚持分层开放战略,赋能每一位开发者。据张迪煊介绍,昇腾CANN(Compute Architecture for Neural Networks)平台的关键组件,包括Ascend C、算子加速库、集合通信库等,均已开源,并在Gitee平台上提供丰富的参考样例,方便开发者学习和使用。此外,昇腾还深度开放了Runtime运行时和毕昇编译器等底层接口,充分满足开发者对极致性能的个性化需求。
在软件层面,昇腾发布的毕昇编译器,为开发者提供了端到端的昇腾算子编译和调优能力。 通过混合编程编译能力、亲和昇腾微架构技术以及动态二进制插桩技术等创新手段,毕昇编译器能够显著提升算子的性能和调试效率,大幅缩短开发周期。
为了进一步优化算子性能,昇腾AI还推出了创新的CATLASS算子模板库。CATLASS按照计算粒度自上而下分层设计,包括Device层、Kernel层、Block层和Tile层。开发者可以通过灵活调整接口参数,自定义优化算子切分策略,从而实现算子性能的最优化。
在硬件设施方面,昇腾打造了业界领先的超大规模昇腾384超节点。该超节点由12个计算柜和4个总线柜组成,峰值算力高达300 PFLOPS,并配备了48TB高速内存。昇腾384超节点采用高速总线互联替代传统的以太网连接,通信带宽提升高达15倍,单跳通信时延降低10倍,力求实现集群像一台计算机一样运行,为大规模AI训练提供强劲动力。

面对日益增长的AI训练需求,昇腾推出了MindSpeed RL强化学习开发套件,训练精度达到业界商用领先水平,性能表现持续优异。MindSpeed RL通过大规模训推共卡、权重Reshard和调度优化等先进技术,能够有效支持千亿规模大模型的强化学习训练,为AI模型的持续迭代和优化提供坚实保障。
针对AI推理应用,昇腾实现了大规模专家并行,有效降低了单卡内存权重占用,并释放更多内存用于用户并发所需的KV Cache,从而提升了单卡吞吐能力,降低了系统时延。此外,昇腾还推出MindIE Motor推理服务加速库,提供了AutoPD分离、精细异步调度和高阶RAS等功能特性,进一步提升了推理性能,加速AI应用的落地。

为了进一步简化AI应用的部署流程,让开发者将更多精力集中在应用本身的开发和创新上,昇腾发布了多模态理解SDK和推理微服务MIS。此外,昇腾社区也进行了全面升级,为开发者打造了一个资源丰富、氛围友好、充满活力的创新阵地。 这体现了昇腾对开发者体验和效率的高度重视。
最后,张迪煊再次强调了昇腾持续开源开放的决心,希望与广大开发者携手共建中国最具活力的开源项目。同时,昇腾将持续关注开发者成长和伙伴生态构建,提供丰富的成长体系和激励措施,赋能合作伙伴打造更具竞争力的产品和解决方案,共同推动中国人工智能产业的繁荣发展。

张迪煊的精彩演讲赢得了现场开发者们的热烈掌声。大家普遍认为,昇腾在计算领域的不断创新和开放态度,为开发者提供了强大的技术支持和广阔的发展平台,也为中国人工智能产业的自主创新注入了强劲动力。展望未来,昇腾有望在中国人工智能产业发展中扮演更加重要的角色。