在生成式AI技术飞速迭代的当下,各大模型厂商的军备竞赛从未停歇。近期,一项来自DeepSeek方面的动静,无疑为整个行业投下了一颗石子,引发了广泛关注。这家在AI领域已崭露头角的机构,正悄然准备其下一代旗舰模型的发布,预示着一场新的技术较量即将拉开序幕。
根据公开信息汇总,DeepSeek的旗舰模型——正如其首个里程碑“DeepSeek-R1”迎来一周岁生日之际,关于下一代旗舰模型,尤其是可能命名为“DeepSeek V4”的重大信息,已初步浮出水面。结合此前《The Information》的报道,这款备受期待的重磅新品,预计最快将在今年二月中旬(即农历新年期间)正式亮相。届时,其在代码生成领域的强大实力,有望得到进一步的突破与升级。

细致的开发者通过深入挖掘DeepSeek的GitHub代码库,发现在更新后的FlashMLA代码中,“MODEL1”这一神秘标识符出现了多达28次,身影遍布114个文件。从代码逻辑的分析来看,“MODEL1”显然代表着一种全新的架构设计,与当前已知的“V32”(即DeepSeek-V3.2)有着本质区别。新旧模型的核心差异,体现在键值(KV)缓存的布局方式、稀疏性处理的策略,以及对FP8数据格式解码的支持上。这些细节揭示了新模型在底层架构上进行了有针对性的重塑,旨在提升内存利用效率和计算效能。
值得注意的是,DeepSeek团队在此之前已先后发布了关于“优化残差连接(mHC)”以及“受生物启发的AI记忆模块(Engram)”等前沿技术的研究论文。业界普遍猜测,这些最新的研究成果,很可能已经被深度融入到正在开发的“MODEL1”之中,成为支撑这款未来旗舰模型的核心技术基石。此次架构的革新,预示着DeepSeek在提升模型性能、降低推理成本方面,正朝着更为精细化和前沿化的方向迈进。