
2024年末,DeepSeek公司发布的全新MoE模型DeepSeek-V3引发了AI领域的巨大震动。这款模型不仅性能领先,其惊人的成本控制能力更是成为业界关注焦点。不同于主流大模型公司,这家新兴企业选择开源DeepSeek-V3的首个版本,其参数规模高达6710亿(其中370亿为激活参数),预训练数据量更是达到14.8万亿token。
在知识问答、代码生成等任务上,DeepSeek-V3的表现与Claude-3.5-Sonnet-1022等顶级模型不相上下,甚至在数学能力上超越了多个知名开源和闭源模型。然而,DeepSeek-V3真正引爆业界的,并非其卓越的性能,而是其极低的训练成本:仅需557.6万美元,消耗278.8万GPU小时,仅为同等性能模型成本的十分之一。这一数据迅速在全球传播,将DeepSeek推向了风口浪尖。
回顾2024年初,DeepSeek凭借“MoE架构+MLA(Multi-head Latent Attention)技术”已在降低大模型成本方面取得显著成果,并引发了API价格战。DeepSeek-V3则将此创新技术进一步完善和巩固。
DeepSeek-V3的低成本训练模式,源于其在模型压缩、专家并行训练、FP8混合精度训练等技术上的突破。这些技术不仅降低了开发成本,也为行业探索低成本训练模式提供了新的思路。然而,FP8训练技术也存在模型精度不足和性能不稳定的风险,这需要强大的调优能力来保证模型性能。
DeepSeek的成功,与其雄厚的算力储备和人才储备密不可分。据悉,DeepSeek-V3仅使用2048张英伟达H800 GPU(H100 GPU的特供版)就完成了训练,而Llama-3.1则使用了超过16000张英伟达H100 GPU,训练成本高达数亿美元。这凸显了DeepSeek在成本控制上的巨大优势。其核心团队由来自中国顶尖高校的毕业生和年轻人才组成,他们的专业知识和创新思维是DeepSeek持续发展的重要动力。
在当前英伟达高端GPU在中国大陆受限的背景下,算力不足成为国内AI公司的一大挑战。而DeepSeek背后的幻方公司,凭借其雄厚的算力储备,成功克服了这一难题。这也为其他国内AI公司提供了宝贵的经验。
目前,DeepSeek主要通过开源模型API服务开发者和企业。虽然在C端和B端应用上尚未有明确动作,但从幻方的招聘信息来看,DeepSeek可能正在筹备C端产品,并计划在数学和代码能力上建立独特优势。DeepSeek的崛起,对其他大模型公司来说,既是挑战,也是巨大的威胁,其未来的商业布局值得持续关注。