Rain科技1月13日消息,今日,DeepSeek发布了题为《Conditional Memory via Scalable Lookup: A New Axis of Sparsity for Large Language Models》(基于可扩展查找的条件记忆:大型语言模型稀疏性的新维度)的最新研究论文。
该论文由北京大学与DeepSeek合作完成,其共同署名的作者列表中出现了梁文锋的名字。这一合作体现了学术界与产业界在人工智能前沿领域的深度融合,旨在共同推动AI技术的创新与发展。
论文的核心创新在于提出了“条件记忆”(conditional memory)的概念。通过引入一种可扩展的查找记忆结构,研究团队在保持模型参数量和计算力不变的前提下,显著提升了模型在知识调用、逻辑推理、代码生成以及数学问题解决等关键任务上的表现。这一突破性进展为大型语言模型在处理复杂信息和执行高级任务时,提供了更高效、更精准的解决方案。
在此基础上,DeepSeek公司还正式开源了相关的记忆模块——Engram。Engram模块的核心设计理念是“查—算分离”的全新架构思路。这种设计将信息的查找与计算过程解耦,有利于优化信息检索的效率和准确性,同时也为模型的训练和推理带来了更灵活的控制。业内普遍认为,Engram模块有望成为DeepSeek下一代模型V4的关键技术基石,为V4模型带来强大的记忆和学习能力。
据相关媒体报道,有知情人士透露,DeepSeek公司计划在今年2月中旬(农历新年前后)发布其V4模型。尽管具体发布时间仍有可能进行调整,但这一消息无疑为业界和用户带来了极大的期待。新模型的推出,特别是如果集成了Engram模块带来的全新记忆架构,有望在大型语言模型领域掀起新的浪潮,进一步拓展AI的应用边界。

