低比特大模型训练正在从实验室走向工程落地,而这次的关键变量来自国产AI芯片生态。近日,MBLab联合清华大学、OpenBMB开源社区共同发布并开源了低比特大模型训练的最新突破——BitCPM-CANN。这项成果完全在华为昇腾平台上原生完成,意味着端侧AI大模型的轻量化与工程化迈出了实质性的一步。从行业视角看,低比特技术路线能否在国产算力上实现高效可复现,直接决定了AI应用的落地成本与普及速度,BitCPM-CANN的发布恰好给出了一个积极的答案。

释放六倍内存收益,突破硬件瓶颈
此次开源的BitCPM-CANN包含0.5B、1B、3B、8B四种规格。与同尺寸全精度模型逐项对比,表现极为突出。相比传统的BF16精度,该模型在推理时能释放约六倍的内存收益,大幅降低了运行大模型的硬件门槛。需要说明的是,六倍收益并非理论值——它来自实际端到端推理的内存占用对比,意味着原本需要极高配置才能运行的8B参数大模型,现在可以在主流旗舰手机上流畅部署。这种极致的内存空间释放,将直接加速端侧AI技术在移动设备上的普及与商业化应用。对于整个手机行业而言,这或许是一个从“云端依赖”转向“本地智能”的转折点,尤其是当所有计算都在用户手中完成时,隐私与延迟问题将得到根本性改善。
高能力保留率,验证工程可复现性
在缩减模型体积的同时,BitCPM-CANN依然保持着极高的性能水准,其模型能力保留率成功维持在90%至97.2%之间。三个主力模型尺寸的能力保留率均达到95.7%至97.2%,即便是最小的0.5B模型,保留率也超过90%。这一亮眼的评测结果系统性地证明了低比特训练路线具备良好的可扩展性与工程可复现性。MBLab已基于相关核心技术构建了完整的低比特训练底座,涵盖环境适配、支持32K长序列、融合算子等全链路工程体系,为后续在昇腾上开展低比特训练工作奠定了扎实的公共基础设施。更值得关注的是,这种可复现性意味着开发者无需重新设计底层算法,即可在昇腾平台上复用成熟的低比特训练流程,从而显著降低AI应用的开发与迁移成本。