DeepSeek发布梁文锋新论文 V4有望支持全新记忆架构

Rain科技1月13日消息，今日，DeepSeek发布了题为《Conditional Memory via Scalable Lookup: A New Axis of Sparsity for Large Language Models》（基于可扩展查找的条件记忆：大型语言模型稀疏性的新维度）的最新研究论文。

该论文由北京大学与DeepSeek合作完成，其共同署名的作者列表中出现了梁文锋的名字。这一合作体现了学术界与产业界在人工智能前沿领域的深度融合，旨在共同推动AI技术的创新与发展。

论文的核心创新在于提出了“条件记忆”（conditional memory）的概念。通过引入一种可扩展的查找记忆结构，研究团队在保持模型参数量和计算力不变的前提下，显著提升了模型在知识调用、逻辑推理、代码生成以及数学问题解决等关键任务上的表现。这一突破性进展为大型语言模型在处理复杂信息和执行高级任务时，提供了更高效、更精准的解决方案。

在此基础上，DeepSeek公司还正式开源了相关的记忆模块——Engram。Engram模块的核心设计理念是“查—算分离”的全新架构思路。这种设计将信息的查找与计算过程解耦，有利于优化信息检索的效率和准确性，同时也为模型的训练和推理带来了更灵活的控制。业内普遍认为，Engram模块有望成为DeepSeek下一代模型V4的关键技术基石，为V4模型带来强大的记忆和学习能力。

据相关媒体报道，有知情人士透露，DeepSeek公司计划在今年2月中旬（农历新年前后）发布其V4模型。尽管具体发布时间仍有可能进行调整，但这一消息无疑为业界和用户带来了极大的期待。新模型的推出，特别是如果集成了Engram模块带来的全新记忆架构，有望在大型语言模型领域掀起新的浪潮，进一步拓展AI的应用边界。

文章内容举报

免责声明：本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿，凡在本网站出现的信息，均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性，但不保证有关资料的准确性及可靠性，读者在使用前请进一步核实，并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏，概不负任何法律责任。任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时，可联系本站进行审核删除。

一	二	三	四	五	六	日
			1	2	3	4
5	6	7	8	9	10	11
12	13	14	15	16	17	18
19	20	21	22	23	24	25
26	27	28	29	30	31

DeepSeek发布梁文锋新论文 V4有望支持全新记忆架构

相关推荐

发表回复