英伟达Blackwell GPU助力AI推理速度飞跃，达成千TPS/用户新高度

近日，人工智能芯片巨头英伟达宣布其最新一代Blackwell GPU在Meta的Llama 4 Maverick大型语言模型（LLM）上取得了惊人的成果，刷新了LLM推理速度的世界纪录。英伟达于上周四正式对外公布了这一突破性进展。

此次速度提升的关键在于强大的硬件配置和软件优化。权威AI基准测试机构Artificial Analysis使用配置了8块Blackwell GPU的DGX B200节点进行了测试。测试结果显示，该系统能够实现每用户每秒生成高达1000个tokens（TPS）的速度，这在以往被认为是难以企及的。这一速度的提升，无疑将极大地提高AI应用的效率和用户体验。

英伟达Blackwell GPU助力AI推理速度飞跃，达成千TPS/用户新高度

为了实现这一性能突破，英伟达的技术团队进行了深度优化。他们一方面深度优化了TensorRT-LLM软件栈，另一方面结合了EAGLE-3技术，对推测解码草稿模型进行了专门的训练。EAGLE-3技术的核心在于利用小型、快速的草稿模型预测token序列，然后由大型目标LLM进行并行验证。这种策略允许单次迭代生成多个token，大大提高了处理速度，尽管这确实会带来额外的草稿模型计算开销。据英伟达介绍，经过一系列优化，这套服务器系统在峰值吞吐配置下，每秒能够处理高达72，000个tokens。

英伟达方面表示，Blackwell架构之所以能与Llama 4 Maverick这类超大规模语言模型完美适配，得益于其专为大型语言模型推理加速设计的EAGLE3软件架构。这种架构与GPU硬件架构高度协同，实现了性能上的指数级提升。这种软硬件结合的设计思路已经成为AI加速领域的趋势。

英伟达Blackwell GPU助力AI推理速度飞跃，达成千TPS/用户新高度

值得注意的是，英伟达在追求性能提升的同时，也十分重视推理结果的准确性。测试结果表明，使用FP8数据格式的推理准确性与人工分析的BF16数据格式相当。这意味着，即使在大幅提高了性能的情况下，系统依然能够保证高度的准确性，避免了性能提升带来的精度损失。 FP8精度的应用，也显示了英伟达在计算精度控制方面的技术实力。

英伟达Blackwell GPU助力AI推理速度飞跃，达成千TPS/用户新高度

总而言之，英伟达此次在LLM推理速度上的突破，不仅巩固了其在GPU技术领域的领先地位，也为大型语言模型的加速推理提供了新的思路和解决方案。随着人工智能技术的快速发展，我们可以预见，这一突破将对未来的AI应用产生深远的影响，推动各种AI应用的普及和发展。例如，更快更高效的LLM可以进一步加速自然语言处理，智能客服，内容生成等领域的应用。

免责声明：本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿，凡在本网站出现的信息，均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性，但不保证有关资料的准确性及可靠性，读者在使用前请进一步核实，并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏，概不负任何法律责任。任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时，可联系本站进行审核删除。

一	二	三	四	五	六	日
			1	2	3	4
5	6	7	8	9	10	11
12	13	14	15	16	17	18
19	20	21	22	23	24	25
26	27	28	29	30	31

英伟达Blackwell GPU助力AI推理速度飞跃，达成千TPS/用户新高度

相关推荐

发表回复