AMD AI软件性能提升3倍，能否匹敌CUDA

在当前人工智能（AI）市场，英伟达（NVIDIA）凭借其强大的AI显卡硬件性能以及完善的CUDA软件生态，牢牢占据了超过95%的市场份额。其CUDA生态系统经过16年的持续积累，已拥有超过400万开发者，这构成了英伟达在AI领域最核心的竞争优势，可谓其“护城河”。

面对强大的竞争对手，AMD正积极寻求在AI市场中获得更大的增长空间。除了计划在明年推出性能达40 PFLOPS（即每秒4亿亿次浮点运算）的MI400加速卡，AMD更将软件生态系统的突破视为关键。对此，AMD寄希望于其ROCm软件，并强调其开源开放的特性，旨在吸引更广泛的开发者群体。

今年6月，AMD正式发布了最新的ROCm 7软件。这款软件在性能、兼容性和灵活性方面都进行了显著优化，尤其在AI模型的推理和训练方面带来了重大提升。它能够支持众多最新的AI模型即插即用，并将AMD开放的生态系统从云端延伸至边缘设备，进一步拓展了应用场景。

在此前的财报会议上，AMD首席执行官苏姿丰（Lisa Su）高度评价了ROCm 7的各项优势。她强调，在该财季中，AMD在ROCm 7的性能提升、易用性改进以及用户采用率的扩大方面均取得了显著进展。

苏姿丰进一步指出：“我们发布了ROCm 7，对整个软件栈的每一层都进行了重大升级。与上一代相比，ROCm 7在推理和训练方面的性能提升了3倍以上，并且增加了对大规模训练、分布式推理以及低精度数据类型等关键功能的全面支持。”这些改进预示着AMD在AI软件方面的竞争力正在快速增强。

为了更有效地与开发者社区合作，AMD推出了一系列举措，包括提供ROCm的夜间构建版本，以及扩大即时计算基础设施的访问范围。值得一提的是，AMD还推出了其首个开发者云服务，该服务能为开发者提供预配置的容器，实现对AMD GPU的即时访问，极大地降低了开发者的入门门槛和使用成本。

在之前的发布活动中，AMD也公布了ROCm 7在实际测试中的表现。数据显示，在Llama 3.1 70B模型上，ROCm 7的性能提升了3.2倍；在Qwen2-72B模型上，性能提升了3.4倍；而在DeepSeek R1模型上，性能甚至提升了3.8倍。这些关键指标的提升，直观地展示了ROCm 7在优化AI模型运行效率方面的强大能力。

在训练任务方面，AMD同样公布了显著的性能提升。在Llama 2 70B、Llama 3.1 8B以及Qwen 1.5 7B等主流模型上，ROCm 7的平均性能提升达到了3倍。这表明ROCm 7在多样化的AI训练场景中都能够提供出色的性能表现。

展望未来，AMD计划在今年内持续深化ROCm 7的生态支持。这将包括扩展对锐龙（Ryzen）平台笔记本和工作站的支持，提供对Linux系统的全面支持，并正式加入对Windows系统的支持。这些计划的实施，将有助于解决此前开发者普遍反馈的ROCm在易用性和兼容性方面存在的问题，从而吸引更多开发者转向AMD的AI平台。

免责声明：本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿，凡在本网站出现的信息，均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性，但不保证有关资料的准确性及可靠性，读者在使用前请进一步核实，并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏，概不负任何法律责任。任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时，可联系本站进行审核删除。

一	二	三	四	五	六	日
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30	31

AMD AI软件性能提升3倍，能否匹敌CUDA

相关推荐

发表回复