【蚂蚁自研2900亿大模型用国产AI芯片训练,计算成本508万元低于DeepSeek】

AI快讯网3月24日消息,钛媒体AGI获悉,近日,蚂蚁集团CTO、平台技术事业群总裁何征宇带领Ling Team团队,利用AI Infra技术,开发了两个百灵系列开源MoE模型Ling-Lite和Ling-Plus,前者参数规模168亿,Plus基座模型参数规模高达2900亿,相比之下,AI行业估计GPT-4.5参数量1.8万亿,DeepSeek-R1参数规模达6710亿。同时,论文显示,蚂蚁团队在模型预训练阶段使用较低规格的硬件系统,将计算成本降低约20%,达508万元人民币,最终实现与阿里通义Qwen2.5-72B-Instruct和DeepSeek-V2.5-1210-Chat相当的性能。目前,相关技术成果论文发表在预印版Arxiv平台上。

据相关报道,该模型在训练阶段使用的是国产AI/GPGPU芯片产品,并非完全使用英伟达芯片,但最终得到的结果与英伟达芯片(如H800)的结果相似。这是蚂蚁集团首次详细披露其在AI算力层面的进展,第一次揭秘了自身如何以远低于DeepSeek、OpenAI等强大模型所需的计算成本,完成AI大模型技术的训练并将其开源,从而加入了中美AI科技竞争热潮中。

上一篇:

下一篇:

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

欢迎来到AI快讯网,开启AI资讯新时代!