AMD Instinct 数据中心 GPU 首发支持 DeepSeek,FP8 高性能显著提升

Rain科技2月10日消息,DeepSeek大模型在海内外迅速走红。AMD Instinct数据中心GPU率先实现了对最新版DeepSeek V3的支持,并集成了SGLang推理框架优化,从而提供了最佳性能。

DeepSeek-V3是一个强大的开源混合专家MoE模型,拥有6710亿个参数,是目前开源社区中最受欢迎的多模态模型之一。其创新的模型架构打破了高效低成本训练的记录,赢得了业界的广泛赞誉。这种高效性主要体现在其对计算资源的优化利用上,这对于大模型的训练和部署至关重要。

AMD Instinct数据中心GPU第一时间支持DeepSeek!FP8高性能提升显著

DeepSeek-V3不仅沿用了DeepSeek V2中的多头潜在注意力机制MLA和MoE架构,还创新性地采用了无辅助损失的负载平衡策略,并设定了多token预测训练目标,从而进一步提升了模型的性能。这些技术细节的改进,体现了研发团队在模型优化方面的深入研究。

目前,DeepSeek-V3在众多主流基准测试中的表现已与GPT-4o、Claude 3.5 Sonnet、Qwen-2.5-72B等世界顶级开源和闭源模型不相上下,尤其在长文本处理、数学及代码编程能力方面表现突出。这表明DeepSeek-V3在实际应用中具备强大的竞争力。

AMD ROCm开源软件和AMD Instinct数据中心GPU加速器软硬件协同,构成了强大的基础设施,在DeepSeek V3开发的关键阶段发挥了重要作用。这再次证明了AMD对开源AI软件的承诺,并能帮助开发者构建强大的视觉推理和理解应用。这种软硬件结合的优势,有效提升了模型的运行效率和开发效率。

DeepSeek-V3的另一大亮点是采用FP8低精度训练。AMD ROCm平台对FP8的支持显著改善了大模型的计算过程,尤其提升了推理性能。FP8的采用直接关系到模型的运行效率和内存占用,对于大型模型至关重要。

通过支持FP8,AMD ROCm高效解决了内存瓶颈和高延迟读写格式等问题,在一定的硬件限制下,可以运行更大的模型或批次。这对于推动大模型技术发展具有重大意义。

相较于FP16,FP8精度计算可以显著减少数据传输和计算延迟,实现更高效的训练和推理。这使得模型能够在更短的时间内完成训练和推理过程。

借助DeepSeek的成功,AMD将继续推进ROCm开源开发生态,确保开发者能够第一时间基于AMD Instinct数据中心GPU进行DeepSeek相关的开发和应用工作,以实现最佳性能和扩展性。这体现了AMD持续投入开源社区的决心,以及其对AI技术发展的积极推动作用。

AMD官方博客传送门:

附录:AMD Instinct数据中心GPU使用SGLang推理简单教程——

开发者可以访问以下资源:

创建ROCm Docker镜像

1、启动Docker容器:

docker run -it --ipc=host --cap-add=SYS_PTRACE --network=host \\ --device=/dev/kfd --device=/dev/dri --security-opt seccomp=unconfined \\ --group-add video --privileged -w /workspace lmsysorg/sglang:v0.4.1.post4-rocm620

2、开始使用:

1)登录Hugging Face:

使用CLI登录Hugging Face:

huggingface-cli login

2)启动SGLang服务器:

在本地机器上启动一个服务器来托管DeepSeekV3 FP8模型:

python3 -m sglang.launch_server --model-path deepseek-ai/DeepSeek-V3 --port 30000 --tp 8 --trust-remote-code

3)生成文本:

在服务器运行后,打开另一个终端并发送请求生成文本:

curl -H "Content-Type: application/json" -d '{ "text": "Once upon a time,", "sampling_params": { "max_new_tokens": 16, "temperature": 0 } }'

3、性能基准测试:

单批次吞吐量和延迟:

python3 -m sglang.bench_one_batch --batch-size 32 --input 128 --output 32 --model deepseek-ai/DeepSeek-V3 --tp 8 --trust-remote-code

服务器:

python3 -m sglang.launch_server --model deepseek-ai/DeepSeek-V3 --tp 8 --trust-remote-code

python3 benchmark/gsm8k/bench_sglang.py --num-questions 2000 --parallel 2000 --num-shots 8

精度:0.952

无效:0.000

注意:由于DeepSeek-v3原生为FP8训练,且目前仅提供FP8权重,如果用户需要BF16权重进行实验,可以使用提供的转换脚本进行转换。以下是将FP8权重转换为BF16的示例:

cd inference

python fp8_cast_bf16.py --input-fp8-hf-path /path/to/fp8_weights --output-bf16-hf-path /path/to/bf16_weights

免责声明：本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿，凡在本网站出现的信息，均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性，但不保证有关资料的准确性及可靠性，读者在使用前请进一步核实，并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏，概不负任何法律责任。任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时，可联系本站进行审核删除。

一	二	三	四	五	六	日
					1	2
3	4	5	6	7	8	9
10	11	12	13	14	15	16
17	18	19	20	21	22	23
24	25	26	27	28

AMD Instinct 数据中心 GPU 首发支持 DeepSeek,FP8 高性能显著提升

相关推荐

发表回复