在当前人工智能(AI)市场,英伟达(NVIDIA)凭借其强大的AI显卡硬件性能以及完善的CUDA软件生态,牢牢占据了超过95%的市场份额。其CUDA生态系统经过16年的持续积累,已拥有超过400万开发者,这构成了英伟达在AI领域最核心的竞争优势,可谓其“护城河”。
面对强大的竞争对手,AMD正积极寻求在AI市场中获得更大的增长空间。除了计划在明年推出性能达40 PFLOPS(即每秒4亿亿次浮点运算)的MI400加速卡,AMD更将软件生态系统的突破视为关键。对此,AMD寄希望于其ROCm软件,并强调其开源开放的特性,旨在吸引更广泛的开发者群体。
今年6月,AMD正式发布了最新的ROCm 7软件。这款软件在性能、兼容性和灵活性方面都进行了显著优化,尤其在AI模型的推理和训练方面带来了重大提升。它能够支持众多最新的AI模型即插即用,并将AMD开放的生态系统从云端延伸至边缘设备,进一步拓展了应用场景。
在此前的财报会议上,AMD首席执行官苏姿丰(Lisa Su)高度评价了ROCm 7的各项优势。她强调,在该财季中,AMD在ROCm 7的性能提升、易用性改进以及用户采用率的扩大方面均取得了显著进展。
苏姿丰进一步指出:“我们发布了ROCm 7,对整个软件栈的每一层都进行了重大升级。与上一代相比,ROCm 7在推理和训练方面的性能提升了3倍以上,并且增加了对大规模训练、分布式推理以及低精度数据类型等关键功能的全面支持。”这些改进预示着AMD在AI软件方面的竞争力正在快速增强。
为了更有效地与开发者社区合作,AMD推出了一系列举措,包括提供ROCm的夜间构建版本,以及扩大即时计算基础设施的访问范围。值得一提的是,AMD还推出了其首个开发者云服务,该服务能为开发者提供预配置的容器,实现对AMD GPU的即时访问,极大地降低了开发者的入门门槛和使用成本。
在之前的发布活动中,AMD也公布了ROCm 7在实际测试中的表现。数据显示,在Llama 3.1 70B模型上,ROCm 7的性能提升了3.2倍;在Qwen2-72B模型上,性能提升了3.4倍;而在DeepSeek R1模型上,性能甚至提升了3.8倍。这些关键指标的提升,直观地展示了ROCm 7在优化AI模型运行效率方面的强大能力。
在训练任务方面,AMD同样公布了显著的性能提升。在Llama 2 70B、Llama 3.1 8B以及Qwen 1.5 7B等主流模型上,ROCm 7的平均性能提升达到了3倍。这表明ROCm 7在多样化的AI训练场景中都能够提供出色的性能表现。
展望未来,AMD计划在今年内持续深化ROCm 7的生态支持。这将包括扩展对锐龙(Ryzen)平台笔记本和工作站的支持,提供对Linux系统的全面支持,并正式加入对Windows系统的支持。这些计划的实施,将有助于解决此前开发者普遍反馈的ROCm在易用性和兼容性方面存在的问题,从而吸引更多开发者转向AMD的AI平台。

