DeepSeek:引发热议的AI自发推理

当地时间1月27日,纳斯达克股指下跌3%,引发市场广泛关注。究其原因,与中国人工智能公司DeepSeek发布的最新模型相关。

央视记者在纳斯达克交易所现场采访了纳斯达克副主席麦柯奕。麦柯奕表示,他认为DeepSeek将成为人工智能领域革命性的一部分。这一积极评价,与当日美国科技巨头股价的剧烈波动形成了鲜明对比。

受DeepSeek人工智能模型的冲击,美国芯片巨头英伟达(NVIDIA)股价暴跌约17%,博通公司股价下跌17%,超威半导体公司(AMD)股价下跌6%,微软股价下跌2%。此外,受影响的还包括与人工智能相关的产业,例如电力供应商,美国联合能源公司股价下跌21%,Vistra的股价下跌29%。这反映出市场对DeepSeek模型潜在竞争力的担忧,以及其对现有产业格局的潜在冲击。

本月,DeepSeek在世界经济论坛2025年年会开幕当天发布了其最新开源模型R1,再次引发全球关注。此举被认为是加剧了市场波动的原因之一。R1模型的意义在于其在技术上的突破:通过纯深度学习方法,使AI能够自发地展现推理能力。这一突破在数学、代码、自然语言推理等任务上展现了与OpenAI的o1模型正式版相当的性能,而其训练成本仅为560万美元,远低于美国科技巨头动辄数亿美元甚至数十亿美元的投入。

DeepSeek是一款由中国人工智能公司研发的大型语言模型,拥有强大的自然语言处理能力,能够理解并回答问题,还能辅助写代码、整理资料和解决复杂的数学问题。与OpenAI开发的ChatGPT相比,DeepSeek不仅率先实现了与OpenAI-o1模型相当的效果,更重要的是大幅降低了推理模型的成本。DeepSeek-R1以约十分之一的成本达到了GPT-o1级别的表现,这在成本敏感的AI领域具有划时代的意义,并引发了海外AI圈的广泛讨论。

北京邮电大学人工智能学院人机交互与认知工程实验室主任刘伟认为,DeepSeek最大的优势在于其算法的改进和优化,从而节省了算力和数据量。这可以被解读为,DeepSeek并非依靠“大力出奇迹”(即依靠巨大的算力投资)的方式取得成功,而是通过算法创新实现了“小力也能出奇迹”的效果,这为AI模型的研发提供了新的思路和方向。

据DeepSeek公司官网介绍,DeepSeek-R1在后训练阶段大规模使用了强化学习技术,在仅有很少标注数据的情况下极大提升了模型的推理能力。其在数学、代码、自然语言推理等任务上,测评性能与GPT-o1模型正式版接近。国际投行摩根士丹利指出,“更大(的模型)不再等于更聪明”,DeepSeek通过显著提高数据质量和改进模型架构,展示了一条与之前大模型不同的高效训练途径。摩根士丹利认为,DeepSeek模型目前在成本优势上极为突出,与国际知名大模型相比,其成本大约低了一个数量级。

高盛集团也认同DeepSeek新模型的显著成本优势,认为这意味着开发和利用大模型的门槛降低,互联网巨头将面临来自初创公司的潜在竞争。英国《金融时报》发表评论文章指出,DeepSeek挑战了人工智能产业长期以来根深蒂固的信念——即更强大的硬件才是推动人工智能发展的关键。

DeepSeek采用了完全开源策略,不仅降低了用户的使用门槛,还促进了AI开发者社区的协作生态。通过开源,DeepSeek吸引了大量开发者和研究人员的关注,推动了AI技术的发展。英伟达AI科学家Jim Fan称赞DeepSeek是“真正开放的前沿研究,赋能所有人”。然而,开源模式也面临着知识产权保护和开源社区秩序维护等挑战。俞扬指出,开源只是一种商业模式,开源项目也拥有版权,开源与闭源之争,实质上是不同商业模式在特定场景和时代背景下的有效性对比。

DeepSeek的成功被一些人视为中国技术理想主义的体现,甚至被外国人比喻为神秘的东方力量。然而,更客观地说,DeepSeek的成功或许代表着人工智能大模型发展的一种全新方向——通过算法优化而非单纯依赖算力和数据量来提升模型性能。这一方向为AI大模型产业的发展提供了新的思路,值得业界深入研究和探讨。

免责声明：本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿，凡在本网站出现的信息，均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性，但不保证有关资料的准确性及可靠性，读者在使用前请进一步核实，并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏，概不负任何法律责任。任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时，可联系本站进行审核删除。

一	二	三	四	五	六	日
					1	2
3	4	5	6	7	8	9
10	11	12	13	14	15	16
17	18	19	20	21	22	23
24	25	26	27	28

DeepSeek:引发热议的AI自发推理

相关推荐

发表回复