AMD发布首个AI小语言模型：6900亿token，解码提速3.88倍

Rain科技10月1日消息，AMD发布了其首个小型语言模型（SLM），命名为“AMD-135M”。

与日益庞大的大型语言模型（LLM）相比，AMD-135M体积更小巧，更灵活，也更具针对性，尤其适用于对隐私性和专业性要求极高的企业部署。这使得它在一些特定领域，例如需要对数据保密性有较高要求的金融、医疗等行业，具有显著优势。

AMD-135M基于Llama架构，拥有两个版本：

其一是基础模型“AMD-Llama-135M”，拥有6700亿个token，在八块Instinct MIM250 64GB加速器上训练了六天。如此规模的数据训练，体现了AMD在算力方面的实力，也为模型的性能奠定了基础。

其二是针对代码优化的延伸模型“AMD-Llama-135M-code”，额外增加了200亿个专门针对编程的token，同样在相同硬件上训练了四天。这一针对性增强，使其在代码生成、理解和调试等方面具有更强的能力。

创建与部署流程

AMD-135M采用了“推测解码”（speculative decoding）技术。这种技术通过较小的草稿模型预先生成多个候选token，再由更大的目标模型进行验证和修正。这种方法的优势在于可以并行生成多个token，从而提高生成效率，并降低内存消耗。然而，由于需要进行更多的数据交换，功耗可能会相应增加。这需要在实际应用中权衡性能和功耗之间的平衡。

AMD使用AMD-Llama-135M-code作为CodeLlama-7b的草稿模型，测试了推测解码技术的性能提升效果。实验结果表明，在MI250加速器上，性能最多提升约2.8倍；在锐龙AI CPU上，性能最多提升约3.88倍；在锐龙AI NPU上，性能最多提升约2.98倍。这些数据充分展现了推测解码技术的显著性能优势。

推测解码

AMD-135M的训练代码、数据集等资源已开源，并遵循Apache 2.0许可协议。这有利于学术界和工业界对模型进行研究和改进，推动小型语言模型领域的进一步发展。

AMD表示，AMD-135M的性能与其他开源小型语言模型相当甚至略胜一筹。在Hellaswag、SciQ、ARC-Easy等任务上，其性能超过Llama-68M和Llama-160M；在Hellaswag、WinoGrande、SciQ、MMLU、ARC-Easy等任务上，其性能与GPT-2-124M和OPT-125M接近。这些基准测试结果表明，AMD-135M在多个方面都展现了较强的竞争力。

免责声明：本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿，凡在本网站出现的信息，均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性，但不保证有关资料的准确性及可靠性，读者在使用前请进一步核实，并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏，概不负任何法律责任。任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时，可联系本站进行审核删除。

一	二	三	四	五	六	日
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30	31

AMD发布首个AI小语言模型：6900亿token，解码提速3.88倍

相关推荐

发表回复