近日,人工智能芯片巨头英伟达宣布其最新一代Blackwell GPU在Meta的Llama 4 Maverick大型语言模型(LLM)上取得了惊人的成果,刷新了LLM推理速度的世界纪录。英伟达于上周四正式对外公布了这一突破性进展。
此次速度提升的关键在于强大的硬件配置和软件优化。权威AI基准测试机构Artificial Analysis使用配置了8块Blackwell GPU的DGX B200节点进行了测试。测试结果显示,该系统能够实现每用户每秒生成高达1000个tokens(TPS)的速度,这在以往被认为是难以企及的。 这一速度的提升,无疑将极大地提高AI应用的效率和用户体验。

为了实现这一性能突破,英伟达的技术团队进行了深度优化。 他们一方面深度优化了TensorRT-LLM软件栈,另一方面结合了EAGLE-3技术,对推测解码草稿模型进行了专门的训练。EAGLE-3技术的核心在于利用小型、快速的草稿模型预测token序列,然后由大型目标LLM进行并行验证。 这种策略允许单次迭代生成多个token,大大提高了处理速度,尽管这确实会带来额外的草稿模型计算开销。 据英伟达介绍,经过一系列优化,这套服务器系统在峰值吞吐配置下,每秒能够处理高达72,000个tokens。
英伟达方面表示,Blackwell架构之所以能与Llama 4 Maverick这类超大规模语言模型完美适配,得益于其专为大型语言模型推理加速设计的EAGLE3软件架构。这种架构与GPU硬件架构高度协同,实现了性能上的指数级提升。 这种软硬件结合的设计思路已经成为AI加速领域的趋势。

值得注意的是,英伟达在追求性能提升的同时,也十分重视推理结果的准确性。 测试结果表明,使用FP8数据格式的推理准确性与人工分析的BF16数据格式相当。 这意味着,即使在大幅提高了性能的情况下,系统依然能够保证高度的准确性,避免了性能提升带来的精度损失。 FP8精度的应用,也显示了英伟达在计算精度控制方面的技术实力。

总而言之,英伟达此次在LLM推理速度上的突破,不仅巩固了其在GPU技术领域的领先地位,也为大型语言模型的加速推理提供了新的思路和解决方案。 随着人工智能技术的快速发展,我们可以预见,这一突破将对未来的AI应用产生深远的影响,推动各种AI应用的普及和发展。 例如,更快更高效的LLM可以进一步加速自然语言处理,智能客服,内容生成等领域的应用。