DeepSeek V3:低成本高效能,能否引领AI新潮流?

DeepSeek V3:低成本高效能,能否引领AI新潮流?

2024年末,DeepSeek公司发布的全新MoE模型DeepSeek-V3引发了AI领域的巨大震动。这款模型不仅性能领先,其惊人的成本控制能力更是成为业界关注焦点。不同于主流大模型公司,这家新兴企业选择开源DeepSeek-V3的首个版本,其参数规模高达6710亿(其中370亿为激活参数),预训练数据量更是达到14.8万亿token。

在知识问答、代码生成等任务上,DeepSeek-V3的表现与Claude-3.5-Sonnet-1022等顶级模型不相上下,甚至在数学能力上超越了多个知名开源和闭源模型。然而,DeepSeek-V3真正引爆业界的,并非其卓越的性能,而是其极低的训练成本:仅需557.6万美元,消耗278.8万GPU小时,仅为同等性能模型成本的十分之一。这一数据迅速在全球传播,将DeepSeek推向了风口浪尖。

回顾2024年初,DeepSeek凭借“MoE架构+MLA(Multi-head Latent Attention)技术”已在降低大模型成本方面取得显著成果,并引发了API价格战。DeepSeek-V3则将此创新技术进一步完善和巩固。

DeepSeek-V3的低成本训练模式,源于其在模型压缩、专家并行训练、FP8混合精度训练等技术上的突破。这些技术不仅降低了开发成本,也为行业探索低成本训练模式提供了新的思路。然而,FP8训练技术也存在模型精度不足和性能不稳定的风险,这需要强大的调优能力来保证模型性能。

DeepSeek的成功,与其雄厚的算力储备和人才储备密不可分。据悉,DeepSeek-V3仅使用2048张英伟达H800 GPU(H100 GPU的特供版)就完成了训练,而Llama-3.1则使用了超过16000张英伟达H100 GPU,训练成本高达数亿美元。这凸显了DeepSeek在成本控制上的巨大优势。其核心团队由来自中国顶尖高校的毕业生和年轻人才组成,他们的专业知识和创新思维是DeepSeek持续发展的重要动力。

在当前英伟达高端GPU在中国大陆受限的背景下,算力不足成为国内AI公司的一大挑战。而DeepSeek背后的幻方公司,凭借其雄厚的算力储备,成功克服了这一难题。这也为其他国内AI公司提供了宝贵的经验。

目前,DeepSeek主要通过开源模型API服务开发者和企业。虽然在C端和B端应用上尚未有明确动作,但从幻方的招聘信息来看,DeepSeek可能正在筹备C端产品,并计划在数学和代码能力上建立独特优势。DeepSeek的崛起,对其他大模型公司来说,既是挑战,也是巨大的威胁,其未来的商业布局值得持续关注。

免责声明:本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时,可联系本站进行审核删除。
(0)
上一篇 2025年 1月 6日 下午3:12
下一篇 2025年 1月 6日 下午5:06

相关推荐

欢迎来到AI快讯网,开启AI资讯新时代!