Rain科技10月1日消息,AMD发布了其首个小型语言模型(SLM),命名为“AMD-135M”。
与日益庞大的大型语言模型(LLM)相比,AMD-135M体积更小巧,更灵活,也更具针对性,尤其适用于对隐私性和专业性要求极高的企业部署。 这使得它在一些特定领域,例如需要对数据保密性有较高要求的金融、医疗等行业,具有显著优势。
AMD-135M基于Llama架构,拥有两个版本:
其一是基础模型“AMD-Llama-135M”,拥有6700亿个token,在八块Instinct MIM250 64GB加速器上训练了六天。 如此规模的数据训练,体现了AMD在算力方面的实力,也为模型的性能奠定了基础。
其二是针对代码优化的延伸模型“AMD-Llama-135M-code”,额外增加了200亿个专门针对编程的token,同样在相同硬件上训练了四天。 这一针对性增强,使其在代码生成、理解和调试等方面具有更强的能力。
创建与部署流程
AMD-135M采用了“推测解码”(speculative decoding)技术。这种技术通过较小的草稿模型预先生成多个候选token,再由更大的目标模型进行验证和修正。 这种方法的优势在于可以并行生成多个token,从而提高生成效率,并降低内存消耗。 然而,由于需要进行更多的数据交换,功耗可能会相应增加。 这需要在实际应用中权衡性能和功耗之间的平衡。
AMD使用AMD-Llama-135M-code作为CodeLlama-7b的草稿模型,测试了推测解码技术的性能提升效果。实验结果表明,在MI250加速器上,性能最多提升约2.8倍;在锐龙AI CPU上,性能最多提升约3.88倍;在锐龙AI NPU上,性能最多提升约2.98倍。 这些数据充分展现了推测解码技术的显著性能优势。
推测解码
AMD-135M的训练代码、数据集等资源已开源,并遵循Apache 2.0许可协议。 这有利于学术界和工业界对模型进行研究和改进,推动小型语言模型领域的进一步发展。
AMD表示,AMD-135M的性能与其他开源小型语言模型相当甚至略胜一筹。 在Hellaswag、SciQ、ARC-Easy等任务上,其性能超过Llama-68M和Llama-160M;在Hellaswag、WinoGrande、SciQ、MMLU、ARC-Easy等任务上,其性能与GPT-2-124M和OPT-125M接近。 这些基准测试结果表明,AMD-135M在多个方面都展现了较强的竞争力。




