22 岁开发者逆推开源 Mythos 架构，MoE 及注意力机制借鉴 DeepSeek – AI快讯网

在大模型参数规模日益庞大的背景下，架构效率成为新的竞争焦点。本文整合了公开研究资料及目前对新型架构的主流推测，探讨推理时计算扩展的可能性。

当前，人工智能领域正经历从“暴力堆叠参数”向“优化架构效率”的微妙转变。随着 Scaling Law 边际效应的讨论逐渐升温，如何在有限算力下实现更深层的逻辑推理，成为学术界与产业界共同关注的命题。

近期，关于 Anthropic 内部架构的传闻引发热议。有开发者通过逆向工程与公开论文整合，尝试复现传说中的高效架构，并将相关代码开源。

技术观察 | 深度解析

这一项目被称为 OpenMythos，其核心在于整合了现有的公开研究成果，以及对 Claude 潜在架构的主流技术推测。

22 岁开发者逆推开源 Mythos 架构，MoE 及注意力机制借鉴 DeepSeek – AI快讯网

从技术实现来看，OpenMythos 构建了一个带有混合专家（MoE）路由机制的循环深度 Transformer（Recurrent-Depth Transformer，RDT）。该架构通过跨专家的权重共享和条件计算，实现了迭代深度的推理能力。

已有多项独立研究证实，此类架构在参数量减半的情况下，仍有望获得与传统深层模型相当的性能表现。

主导这一整合工作的开发者是 Kye Gomez，这位 22 岁的开发者同时也是 Swarms 智能体框架的创始人。

他设计的 RDT 架构主要包含三个核心技术特征：

同一组权重最多可反复循环调用 16 次
每次循环激活不同的专家路径
推理全过程在潜在空间（Latent Space）内完成

这三者的结合，旨在证明让模型对一个问题“思考更多遍”，比单纯堆砌参数量更为高效。

在过去两年中，行业的主流范式是堆叠上百层不同的 Transformer 层，每一层学习不同的特征，导致参数量急剧膨胀。而 RDT 架构仅需少量层数，通过最多 16 次的循环复用，每一遍都基于前一轮的计算结果继续深化。

针对“同一权重跑 16 遍是否浪费算力”的质疑，架构设计者给出了否定的回答。关键在于每次循环激活的是不同的“专家”子集。

循环块内部采用了混合专家层，MoE 路由器在每次循环中动态激活不同的专家组合。在具体设计上，借鉴了 DeepSeekMoE 的思路：包含大量细粒度路由专家，以及少量始终在线的共享专家。

Gomez 将这一设计理念总结为：

MoE 提供领域知识的广度，循环提供推理的深度。

有了广度和深度，稳定性成为另一大挑战。必须保证循环过程不会导致梯度发散或逻辑崩塌。

来自 UCSD 和 Together AI 的新论文《Parcae: Scaling Laws For Stable Looped Language Models》提出了LTI 稳定循环注入机制，确保每一轮计算不发散。

实验数据显示，仅用 7.7 亿参数的 RDT 模型，即可追平 13 亿参数的标准 Transformer 模型效果。

这意味着参数量减少近一半，而性能保持一致。

架构的最后一块拼图是连续潜在空间推理。16 轮推理全部在 hidden state 向量中完成，不生成任何中间 token。直到最后一轮循环结束，才一次性输出答案。

这与思维链（Chain-of-Thought）截然不同。CoT 是“想一步，写一步”，中间过程完全暴露；而 RDT 是“想完 16 遍才说一句话”，推理过程完全内化。

此外，相关研究还引用了俄亥俄州立大学的论文，对循环 Transformer 架构进行了两项关键实验验证。

第一项：系统性泛化能力。

在训练时未见过的知识组合场景下，推理时循环 Transformer 仍能正确作答，而标准 Transformer 则直接失败。

这证明循环机制并非简单的重复计算，而是实现了真正的”更深层思考”。

第二项：深度外推能力。

训练时仅教授 20 跳推理链，测试时直接提升至 30 跳。

循环 Transformer 的应对策略是在推理时自动增加循环轮数，而标准模型则直接崩溃。

这些结果表明，当前大模型在预训练中已记忆大量事实，真正的瓶颈在于知识组合能力。它们难以将已知事实串联起来回答新颖问题，而循环架构似乎免费解锁了这种组合能力。

如果上述结论成立，未来 Scaling 的主流方向可能将从”训练更大的模型”转向“让现有模型在推理时多想几遍”。

有了这些研究支撑，Anthropic 的 Mythos 是否真的采用了这套架构，似乎已不再是唯一焦点。

对循环 Transformer 的猜想已经吸引了来自学术界的大量目光，更多理论和实验验证正在路上。

GitHub 项目地址：

从产业落地的角度审视，循环架构虽然理论上具备高效性，但在实际部署中仍面临推理延迟和工程化挑战。如何在动态循环次数与确定性延迟之间取得平衡，将是后续技术攻关的重点。此外，开源社区对专有架构的复现尝试，也反映了技术透明度与知识产权保护之间的张力。

免责声明：本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿，凡在本网站出现的信息，均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性，但不保证有关资料的准确性及可靠性，读者在使用前请进一步核实，并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏，概不负任何法律责任。任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时，可联系本站进行审核删除。

一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30

22 岁开发者逆推开源 Mythos 架构，MoE 及注意力机制借鉴 DeepSeek – AI快讯网

相关推荐

发表回复