百度于近日正式发布飞桨框架3.0版本,此举标志着这家中国科技巨头在人工智能基础设施建设方面取得了显著进展。飞桨框架3.0定位于服务大型模型,不仅在硬件兼容性和用户开发体验上实现了全面升级,更是在大模型训练、推理以及科学智能等关键领域进行了深度优化和创新。
在大模型时代,深度学习框架的重要性不言而喻,它们是支撑人工智能应用不断突破的关键基石。飞桨框架3.0的推出,正是百度积极应对这一挑战的体现。通过引入一系列创新技术,该框架旨在为大模型的训练和高效推理提供坚实的基础,并降低开发和部署的复杂度。当前市场上的主流深度学习框架包括TensorFlow、PyTorch等,飞桨框架3.0的发布无疑将加剧这一领域的竞争,并为开发者提供更多选择。
“动静统一自动并行”技术是飞桨框架3.0的核心亮点之一。与传统的静态图和动态图框架相比,该技术能够智能地分配计算资源,自动地进行模型并行和数据并行,从而大幅度降低大模型训练的成本。这意味着算法开发者能够将更多精力集中在算法的核心逻辑创新上,而无需过多关注底层技术细节,从而加速人工智能应用的迭代速度。
此外,飞桨框架3.0采用了“训推一体”的设计理念,打破了传统训练和部署之间的壁垒。通过全方位的深度优化,该框架能够支持各种开源大模型进行高性能推理。通过对DeepSeek V3 / R1等平台的性能测试,飞桨框架3.0展现了其卓越性能。目前,飞桨框架已经支持包括文心4.5、文心X1等在内的众多主流大模型,使得构建低延迟、高吞吐量、低算力成本的推理服务成为现实,这对于大规模人工智能应用的商业落地至关重要。这表明百度文心系列模型与飞桨框架的深度融合,形成了较强的生态优势。
在科学智能领域,飞桨框架3.0同样有着出色的表现。该框架针对科学前沿探索的需求,显著提升了微分方程的求解速度。通过高阶自动微分和神经网络编译器等技术,飞桨框架3.0在微分方程求解方面实现了加速,据称其速度远远超过PyTorch等竞争对手。为了进一步提升科学计算的便捷性,飞桨还对DeepXDE、Modulus等主流开源科学计算工具进行了广泛适配,并成为了DeepXDE的默认推荐后端。这意味着科研人员可以更加高效地利用飞桨框架进行科学研究和探索。
为了进一步提高运算速度,飞桨框架3.0引入了创新的神经网络编译器CINN。实验数据显示,在A100平台上进行的RMSNorm算子性能测试中,经过CINN编译优化后的算子运行速度提升了高达4倍。更广泛的测试表明,在超过60个模型上应用CINN编译器后,超过60%的模型性能得到了显著提升,平均提升幅度达到27.4%。这充分证明了CINN编译器在性能优化方面的强大能力。
在硬件适配方面,飞桨框架3.0推出了多芯片统一适配方案,旨在构建“一次开发,全栈部署”的生态体系。通过这一方案,开发者可以摆脱对特定硬件平台的依赖,实现应用的跨平台部署。据悉,该框架目前已适配超过60个芯片系列,覆盖训练集群、自动驾驶、智能终端等多个应用场景。这意味着开发者只需编写一份代码,就可以轻松实现程序在不同芯片上的运行和业务的无缝迁移,极大地降低了开发成本和部署难度。与NVIDIA等传统硬件厂商建立更紧密的合作关系,能够进一步扩大飞桨框架的生态影响力。
截止2024年10月,飞桨文心生态已经汇聚了1808万开发者,服务了43万家企事业单位,并创造了101万个模型。这一数据表明,飞桨框架已经拥有了庞大的用户基础和活跃的社区生态。飞桨框架3.0的正式发布,无疑将进一步吸引更多的开发者加入到百度的生态体系中,共同推动人工智能技术的创新与发展。
值得一提的是,飞桨框架3.0正式版本目前已经面向广大开发者开放,并且兼容2.0版本的开发接口。这一举措降低了用户的迁移成本,使得更多的开发者能够轻松上手并使用这一强大的深度学习框架,从而共同推动人工智能技术的进步。