近日,华为技术有限公司与北京大学高性能计算校级公共平台联合发布了DeepSeek全栈开源推理方案,标志着双方在国产人工智能推理领域展开了深度合作,并取得重要进展。这一举措不仅加速了高校科研成果的转化,也为国内AI技术的发展注入了新的活力。
DeepSeek方案的独特之处在于其完全基于国产自主研发的软硬件生态体系构建。它依托北京大学自主研发的SCOW算力平台系统与鹤思调度系统,并深度融合了DeepSeek、openEuler、MindSpore以及vLLM/RAY等多个关键开源社区的组件。特别值得一提的是,该方案是专门针对华为昇腾系列硬件进行深度优化设计的,旨在最大限度地发挥昇腾硬件的推理性能。同时,该方案还支持大规模算力集群的训推一体化部署,这意味着开发者可以在同一平台上完成模型的训练与推理,极大地简化了开发流程,降低了部署成本。
与传统的闭源推理方案相比,DeepSeek最大的优势在于完全开源。开发者可以自由获取完整的源代码,并根据自身的实际需求进行定制化开发和优化。这不仅促进了技术的开放共享,也有利于形成更加活跃的开源社区生态。更重要的是,DeepSeek在性能上也表现出色,已经可以比肩甚至接近部分商业闭源方案的水平。
为了进一步说明DeepSeek的性能,我们可以参考其在特定硬件配置下的表现。例如,在DeepSeek-R1-w8a8配置下,使用2台Atlas 800I A2服务器,当输入长度为4096时,该方案可以支持1024的输出长度,并达到高达1198的系统吞吐量。在模拟用户并发场景的测试中,DeepSeek同样展现了强大的性能,可以稳定支持128个用户的并发访问。
目前,DeepSeek方案已经成功部署在北京大学未名卓越一号集群上。该集群由北京大学计算中心负责运维,是北大鲲鹏昇腾科教创新卓越中心的核心算力支撑平台。作为国内高校首个基于自主研发基础软件的全国产智算平台,未名卓越一号集群自2024年11月18日正式上线以来,已经集成了20台昇腾AI服务器和10台鲲鹏通用服务器,其AI算力规模达到了30.64PFlops(半精度),为北京大学的科研和教学工作提供了强大的算力保障。未名卓越一号集群的成功部署,也为DeepSeek方案的实际应用提供了重要的验证平台。
DeepSeek推理方案能够取得如此卓越的性能,关键在于其对全栈开源组件的深度优化。在openEuler开源操作系统层面,DeepSeek进行了全面的优化,通过异构调度负载感知MoE冷热专家,实现了更加精细化的任务调度,有效提升了资源的利用率。此外,该方案还采用了异构融合技术,对内存管理进行了优化,显著减少了系统内存碎片,从而提高了运行的稳定性。同时,毕昇编译器的优化也进一步减少了算子下发的耗时,最终提升了推理的整体性能。可以说,DeepSeek方案的成功,是全栈国产化软硬件协同优化的结果。

上图展示了算力集群全栈开源推理方案的架构图,从图中可以清晰地看到DeepSeek方案在设计和实施上的专业性和创新性。DeepSeek全栈开源推理方案的发布,不仅展示了华为和北京大学在人工智能领域的深厚技术积累,也为国内AI推理技术的发展提供了一个新的选择。未来,随着更多高校和企业的参与,国产化的AI推理方案有望在性能和应用场景上取得更大的突破。