Claude 未发布模型 Mythos 被疑采用字节 Seed 技术，强到不敢公开 – AI快讯网

在大模型技术进入深水区后的今天，架构创新的重要性正逐渐超越单纯的参数规模扩张。当业界普遍关注 Scaling Law 的边际效应时，一种关于“循环计算”与“潜空间思考”的技术路线正在引发隐秘而深刻的讨论。

近期，关于某头部 AI 实验室最新模型的架构猜测，意外将一家中国科技公司的基础研究推向了视野中心。这不仅是对单一模型性能的探讨，更是对下一代语言模型形态的一次前瞻性推演。

概念来自字节 Seed 团队与多个高校合作的一篇论文，Yoshua Bengio 也参与其中

技术观察发自深度实验室
前沿科技 | 专注 AI 架构演进

Claude 最强“神话”模型，可能用到来自字节的技术？

这条猜测直接冲上热搜榜。

Claude 未发布模型 Mythos 被疑采用字节 Seed 技术，强到不敢公开 – AI快讯网

这款“强到不敢公开发布”的 Mythos 模型，确实刺激了人们对下一代 LLM 架构的想象。

社区正在热烈讨论它是否采用了循环语言模型（Looped Language Model）架构。

这个概念来自字节 Seed 团队与多个高校合作的一篇论文，Yoshua Bengio也参与其中。

关键线索在于 Anthropic 公布的一组测试数据。

字节论文指出，图搜索是循环算法相比标准 RLVR 具有巨大理论优势的领域之一。

再看 Mythos，正是在广度搜索优先的图搜索测试 GraphWalks BFS中，超越对手 GPT5.4 最多。

80% 对 21.4%，接近 4 倍的差距。

在其他类型的任务上，并没有出现如此异常的分差。

说明这种进步很可能不是来自通用的 Scaling Law，而是架构创新。

GraphWalks BFS 测试，就是给模型一个复杂的图结构，让它做广度优先搜索，从起点出发，一层一层地访问所有相邻节点。

标准 Transformer 处理这类问题只能一次前向传播，从头走到尾，输出结果，没有“迭代”这个概念。

Mythos 在图遍历上拿到了 80% 的分数，表明它内部很可能在“反复计算”，对同一组信息来回处理了好几遍。

那么什么样的架构能实现“反复计算”？

字节 Seed 团队在论文中提出LoopLM循环语言模型。

简单总结 LoopLM 有三个特点。

1、不写长文思考，在模型内部潜空间迭代，不额外输出更多 token。

2、简单题少想几步，难题多想几步，自动调节。

3、预训练时就学“怎么在潜空间思考”，而不是只学“怎么预测下一个 token”。

在实验中，团队训练了 Ouro 系列循环语言模型，内置了循环思考。

测试结果，1.4B 的 Ouro 模型性能对标约 4B 的传统模型。2.8B 的 Ouro 模型相当于 8B–12B 的传统模型。

至于循环模型的能力提升来自何处，论文详细分析了知识存储 vs 知识操作的区别。

知识存储（Knowledge Storage）的容量是有限的，大约每个参数 2bits，不管用什么架构，这个数字基本不变。

循环也不会让你“记住”更多东西。

但知识操作（Knowledge Manipulation）不一样，把已知事实组合起来做多跳推理、执行程序、搜索图结构，这类能力随循环步数和训练 tokens 指数级增长。

换句话说，循环模型没有给 AI 一个更大的知识库，但它让 AI 在知识库里的搜索和组合能力提升了一个量级。

那么 Mythos 究竟是不是循环模型架构，有人总结出除了 GraphWalks 之外的更多线索。

第一条线索，也就是广度优先图搜索测试结果。

Mythos 除了分数是 GPT5.4 的 4 倍，比上一代 Opus 提升幅度也异常大。

第二条线索，Anthropic 报告 Mythos每个任务使用的 token 数量是 Opus4.6 的 1/5，但速度更慢。

（价格也贵 5 倍！）

这在标准 Transformer 框架下很难说得通，token 少，生成步骤就少，应该更快才对。

但循环模型刚好解释了这个矛盾：推理不发生在 token 层面，而是发生在潜空间，计算量花在了看不见的地方。

线索三，Mythos 在网络安全方面非常突出。

Mythos 在 CyberGym 测试上拿到 83.1%，Opus4.6 是 66.6%，领先近 17 个百分点。

以及找到上千个零日漏洞，主流操作系统和浏览器全都没逃过。

漏洞发现的本质就是对控制流图做遍历。找到一条从输入到危险函数的路径，也就是图的可达性问题。

又是图遍历。又是循环架构的天生强项。

说了这么多，终归只是大家的猜测，Anthropic 没有公开任何关于 Mythos 架构的信息，很可能以后也不会公开。

但有一句话值得思考：

Scaling Law 改善一切，相对均匀，架构创新在匹配其归纳偏置的任务上创造异常尖峰值。

循环 Transformer 的归纳偏置就是迭代图算法。Mythos 的异常尖峰，恰好出现在图遍历任务上。

Anthropic 不说，但测试数据已经替它说了。

字节论文：

从行业视角来看，若循环架构得以验证，将标志着 AI 推理模式从“单次前向传播”向“动态计算分配”的转变。这种转变不仅关乎性能，更关乎能耗与成本的重新平衡。

对于中国科技企业而言，基础研究的出海与技术理念的渗透，往往比单纯的产品输出更具深远影响。无论 Mythos 是否真的采用了相关技术，这一传闻本身已足以证明，在 AI 架构创新的全球竞赛中，多方力量正在形成新的博弈格局。

未来，随着模型对复杂逻辑推理需求的增加，类似“潜空间迭代”的机制或许将成为高端模型的标配。我们不妨保持关注，等待更多技术细节的浮出水面。

免责声明：本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿，凡在本网站出现的信息，均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性，但不保证有关资料的准确性及可靠性，读者在使用前请进一步核实，并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏，概不负任何法律责任。任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时，可联系本站进行审核删除。

一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30

Claude 未发布模型 Mythos 被疑采用字节 Seed 技术，强到不敢公开 – AI快讯网

相关推荐

发表回复