DeepSeek发布最新开源模型，性能媲美GPT-4o，价格更亲民

蓝鲸新闻6月18日讯（记者朱俊熹） 在火热的大模型竞赛中，性能比拼已不再新鲜。随着技术的加速迭代，几乎每隔一段时间就能看到又一代更新版的AI大模型，宣称“比肩GPT-4”。

6月17日，AI公司深度求索（DeepSeek）正式上线开源模型DeepSeek-Coder-V2。DeepSeek表示，该模型在代码、数学等多个榜单上位居全球第二，性能介于目前最强闭源模型GPT-4o和GPT-4-Turbo之间。

值得注意的是，DeepSeek-Coder-V2开源大模型还展现出良好的通用性能，在中英通用能力排行榜上跻身国内第一梯队。DeepSeek介绍，该模型沿用了上一代DeepSeek-V2模型的创新架构，拥有2360亿参数，但在处理每个token时仅需激活210亿参数。这一设计不仅节省内存使用，更显著提升了计算效率。

DeepSeek最新的开源模型支持32K上下文，并延续了此前的定价策略，每百万tokens输入价格为1元、输出价格为2元。DeepSeek先前率先拉低了大模型定价，随后字节跳动、阿里云、百度等行业巨头也加入低价队列，引发了国内大模型价格战。

为了彰显模型性能排名的权威性，各企业在发布大模型时通常会附上评测榜单，其中涵盖了不同的评测集。评测集就好比AI大模型的考试试卷，通过测试其在各种任务和场景下的表现，以评估其能力的优劣。不同的评测集侧重点有所不同，因此对大模型的评价也并非绝对的。

DeepSeek发布的新模型在代码生成能力方面表现出色，在HumanEval评测集上得分高达90.2，仅次于GPT-4o的91.0分。在数学算数领域，DeepSeek-Coder-V2模型在GSM8K评测集上获得了94.9分，同样超越了众多开闭源模型。

然而，在通用能力的评测方面，DeepSeek-Coder-V2模型的表现仍存在一定差距。以目前应用最广泛的MMLU评测集为例，DeepSeek-Coder-V2模型的得分为79.2，与GPT-4存在明显差距，也低于其他几家开源模型。阿里云在6月初发布的开源模型Qwen2-72B获得82.3分，Meta的Llama3-70B模型则为80.2分。

DeepSeek认为，尽管DeepSeek-Coder-V2较前一代模型的综合得分更高，但在实际应用中，两者各有所长。DeepSeek-V2更擅长文本创作、任务规划等领域，而DeepSeek-Coder-V2则在代码编程、数学计算和逻辑推理方面更为突出，更像是“理科生”。

值得一提的是，当地时间6月14日，“AI卖铲人”英伟达宣布开源Nemotron-4 340B（3400亿参数）系列模型。据称该模型的表现超越了一众开源竞争对手，包括Llama3-70B、Qwen2-72B、法国创企Mistral AI的Mixtral-8x22B等，甚至能够与闭源模型GPT-4o相媲美。

图片来源：英伟达

Nemotron-4 340B系列包括了基础模型Base、指令对齐模型Instruct和奖励模型Reward。其中，Base模型在ARC-c、Winogrande等评估大语言模型常识推理能力的基准测试中获得了较高分数，表现确实优于其他开源模型。Reward模型则是在此基础上进一步优化得到的，能够通过反馈输出更符合人类预期的高质量结果，在专门用于评估奖励模型的基准测试RewardBench中获得92.0的最高分数，远超得分为84.7的GPT-4o。

英伟达强调，这三类模型形成了一个管道，能够生成高质量的合成数据，用于大语言模型的训练中。在指令对齐模型Instruct的训练过程中，英伟达就使用了超过98%的合成数据。合成数据也被认为是解决大模型训练“数据荒”的有效手段之一。

至少目前来看，此轮AI浪潮的最大受益者仍然是英伟达。当地时间6月17日，英伟达市值曾一度赶超苹果，距排名第一的微软仅差100亿美元。截至收盘，英伟达市值达3.22万亿美元，为全球市值第三大公司。

免责声明：本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿，凡在本网站出现的信息，均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性，但不保证有关资料的准确性及可靠性，读者在使用前请进一步核实，并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏，概不负任何法律责任。任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时，可联系本站进行审核删除。

一	二	三	四	五	六	日
					1	2
3	4	5	6	7	8	9
10	11	12	13	14	15	16
17	18	19	20	21	22	23
24	25	26	27	28	29	30

DeepSeek发布最新开源模型，性能媲美GPT-4o，价格更亲民

相关推荐

发表回复