打破手机运行大模型壁垒：M6 Intelligence联合清华大学开源边缘端产品BitCPM-CANN

低比特大模型训练正在从实验室走向工程落地，而这次的关键变量来自国产AI芯片生态。近日，MBLab联合清华大学、OpenBMB开源社区共同发布并开源了低比特大模型训练的最新突破——BitCPM-CANN。这项成果完全在华为昇腾平台上原生完成，意味着端侧AI大模型的轻量化与工程化迈出了实质性的一步。从行业视角看，低比特技术路线能否在国产算力上实现高效可复现，直接决定了AI应用的落地成本与普及速度，BitCPM-CANN的发布恰好给出了一个积极的答案。

BitCPM-CANN模型架构

释放六倍内存收益，突破硬件瓶颈

此次开源的BitCPM-CANN包含0.5B、1B、3B、8B四种规格。与同尺寸全精度模型逐项对比，表现极为突出。相比传统的BF16精度，该模型在推理时能释放约六倍的内存收益，大幅降低了运行大模型的硬件门槛。需要说明的是，六倍收益并非理论值——它来自实际端到端推理的内存占用对比，意味着原本需要极高配置才能运行的8B参数大模型，现在可以在主流旗舰手机上流畅部署。这种极致的内存空间释放，将直接加速端侧AI技术在移动设备上的普及与商业化应用。对于整个手机行业而言，这或许是一个从“云端依赖”转向“本地智能”的转折点，尤其是当所有计算都在用户手中完成时，隐私与延迟问题将得到根本性改善。

高能力保留率，验证工程可复现性

在缩减模型体积的同时，BitCPM-CANN依然保持着极高的性能水准，其模型能力保留率成功维持在90%至97.2%之间。三个主力模型尺寸的能力保留率均达到95.7%至97.2%，即便是最小的0.5B模型，保留率也超过90%。这一亮眼的评测结果系统性地证明了低比特训练路线具备良好的可扩展性与工程可复现性。MBLab已基于相关核心技术构建了完整的低比特训练底座，涵盖环境适配、支持32K长序列、融合算子等全链路工程体系，为后续在昇腾上开展低比特训练工作奠定了扎实的公共基础设施。更值得关注的是，这种可复现性意味着开发者无需重新设计底层算法，即可在昇腾平台上复用成熟的低比特训练流程，从而显著降低AI应用的开发与迁移成本。

免责声明：本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿，凡在本网站出现的信息，均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性，但不保证有关资料的准确性及可靠性，读者在使用前请进一步核实，并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏，概不负任何法律责任。任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时，可联系本站进行审核删除。