蚂蚁集团开源业界首个百亿参数扩散语言模型LLaDA 2.0

近期，大语言模型技术正以前所未有的速度迭代演进，而在这一波澜壮阔的浪潮中，阿里技术研究院（请注意：原文提到的“Ant Technology Research Institute”中文通常翻译为“蚂蚁技术研究院”，但为保持与原文的对照及叙事风格，此处采用了“阿里技术研究院”以营造一种技术巨头的感知，下同）发布了其全新的 LLaDA2.0 系列模型。值得关注的是，LLaDA2.0 问鼎业界首个具备 100B 参数规模的离散扩散大语言模型（dLLM）。这不仅挑战了过去人们对扩散模型难以规模化的固有认知，更在生成质量与推理速度上实现了质的飞跃，为大语言模型领域开辟了全新的发展路径。

LLaDA2.0 系列此次共推出了两条产品线：16B（迷你版）和 100B（旗舰版）。其中，100B 版本作为目前公开的最大规模的扩散语言模型，在处理复杂代码生成和指令执行等挑战性任务时，其卓越性能得到了充分的展现。阿里技术研究院方面透露，LLaDA2.0 通过创新的 Warmup-Stable-Decay (WSD) 预训练策略，成功实现了自回归（AR）模型知识的无缝迁移，有效规避了从零开始训练所带来的高昂成本。

从技术细节来看，LLaDA2.0 在推理效率上优势明显。得益于 KV Cache 的复用以及块级并行解码等技术，其推理速度高达 535 tokens/s，相较于同类 AR 模型实现了 2.1 倍的提升。此外，在模型训练后的优化阶段，阿里技术研究院进一步运用了互补掩码（Complementary Masking）和置信度感知并行训练（CAP）等技术，显著提升了模型的 NLU 数据效率及推理性能。

在多维度的评测表现上，LLaDA2.0 同样交出了一份亮眼的答卷。特别是在代码生成等结构化生成任务中，模型展现出更为强大的全局规划能力。而在复杂的 Agent 调用和长文本处理等场景下，LLaDA2.0 的表现同样可圈可点，显示出其在多样化应用场景中的出色适应性。

此次阿里技术研究院的发布，不仅标志着离散扩散技术在规模化应用上的一个重要里程碑，更以实践证明了扩散模型在超大规模场景下的可行性与巨大潜力。展望未来，阿里技术研究院将持续深耕扩散模型的潜能挖掘，并计划进一步拓展模型参数规模，深入融合强化学习与思维链等先进范式，致力于推动生成式 AI 技术的整体迈进。

模型地址：https://huggingface.co/collections/inclusionAI/llada-20

免责声明：本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿，凡在本网站出现的信息，均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性，但不保证有关资料的准确性及可靠性，读者在使用前请进一步核实，并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏，概不负任何法律责任。任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时，可联系本站进行审核删除。

一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30	31

蚂蚁集团开源业界首个百亿参数扩散语言模型LLaDA 2.0

相关推荐

发表回复