Anthropic | 当 AI 开始造自己:递归自我改进离我们有多远?

插播:之前写的《动手学 AutoML》终于出版了,从 NAS 到超参优化都有覆盖,适合想系统入门 AutoML 的同学。好了广告结束,现在进入正题。

动手学AutoML书籍封面

当 AI 开始造自己:Anthropic 递归自我改进报告深度解读

原文:When AI builds itself


1. 前言

你有没有想过这样一个问题:如果 AI 写代码的能力已经超过了写它的人,那下一代 AI 是不是也可以由 AI 自己来造?

这不是科幻。Anthropic 在 2026 年 6 月发了一篇博客,标题极其直白——When AI builds itself(当 AI 造自己)。文中用大量内部数据展示了一件事:AI 已经在加速 AI 自身的开发,且趋势在加速。

今天想和大家聊聊这篇文章到底讲了什么、哪些数字值得细品、以及作为一个做 LLM 推理效率的研究者,我自己怎么看这件事。


2. 外部证据:能力增长有多快?

Anthropic 引用的第一组数据来自 METR(一个专做 AI 长任务评测的机构):

  • 2024 年 3 月,Claude Opus 3 能完成人类 4 分钟能做完的任务
  • 一年后,Claude Sonnet 3.7 做到了 1.5 小时级别
  • 又一年,Claude Opus 4.6 做到了 12 小时级别

任务时间跨度翻倍周期从 7 个月缩短到 4 个月。如果这个趋势不停,2027 年 AI 就能处理人类需要数周完成的任务。

另外两个 benchmark:

  • SWE-bench(真实开源项目 bug 修复):两年内从个位数正确率飙升到饱和
  • CORE-Bench(复现已有研究):从 2024 年 20% 成功率到 2026 年饱和

这些数字说明的不只是”模型越来越强”,而是能力增长本身在加速——一个二阶效应。


3. 内部证据:Anthropic 自己的数据才是重头戏

外部 benchmark 大家或多或少都知道,真正让人”细思极恐”的是 Anthropic 放出来的内部数据。

3.1 代码产出:8 倍加速

截至 2026 年 5 月:

  • 超过 80% 的 merged 代码是 Claude 写的(不是人写的!)
  • 2025 年 2 月 Claude Code 发布之前,这个数字还是个位数
  • Q2 2026,工程师人均每天 merge 的代码量是 2024 年的 8 倍

文章也很老实地说了,lines of code 不等于”质量”,8 倍是一个上界估计。但即使打个折,4-5 倍的实际生产力提升也是很惊人的。

这里我想多说一句。8 倍代码产出意味着什么?意味着人的角色从”写代码”变成了”审代码”和”定方向”。这已经不是”AI 辅助编程”了,这是”人辅助 AI 编程”。

3.2 代码质量:从不如人到平起平坐

Anthropic 内部的评估是:

  • 2025 年底,Claude 写的代码质量还不如人写的
  • 2026 年中,大致持平
  • 预计年内会超过人类

更有意思的数据:他们用 Claude 做自动 code review,回溯分析发现,能提前拦住 1/3 的历史线上事故。写那些代码的工程师可是全世界最顶尖的那批人。

3.3 开放式问题解决:成功率从 26% 到 76%

Claude Code 在”最开放、最不确定”的任务上(比如线上 incident 根因定位),成功率从 2025 年底的约 26% 跃升到 2026 年 5 月的 76%,半年涨了 50 个百分点。

文中举了个具体例子:一次常规升级导致数万个训练任务崩溃,工程师只给了 Claude 一些日志和集群 access,Claude 自己排查、定位到一个 obscure debugging flag、复现问题、验证修复方案。2 小时干完了人类 2-3 天的活。

3.4 实验优化:从 3x 到 52x

Anthropic 每发一个新模型都做一个固定测试:给 Claude 一段训练代码,让它尽可能加速但保持正确性。

  • 2025 年 5 月(Opus 4):平均加速 ~3x
  • 2026 年 4 月(Mythos Preview):平均加速 ~52x

人类 skilled researcher 花 4-8 小时大概能做到 4x。Claude 现在做到 52x。在”给定目标、优化执行”这个维度上,Claude 已经 superhuman。

3.5 研究方向判断:从 51% 到 64%

这可能是最重要的一个数字。Anthropic 做了一个实验:找出真实研究 session 中人类走弯路的时刻(n=129),看 Claude 在那个时间点会选择什么 next step,然后用一个”看过全局”的 judge 来评判谁的选择更好。

  • 2025 年 11 月(Opus 4.5):Claude 的选择优于人类的比例 51%
  • 2026 年 4 月(Mythos Preview):64%

这个数字很微妙。它不是说 Claude 全面超越人类研究者,因为选取的都是”人走弯路”的时刻。但它说明一件事:在”接下来该干啥”这个决策层面,模型在变好。 而研究工作本质上就是一连串 next-step decisions。


4. 三个可能的未来

Anthropic 描述了三条路径:

路径 1:趋势停滞。 可能我们已经接近 S-curve 的拐点,”研究品味”这种东西无法从更多 compute 和 data 中学到。或者,算力供应链(芯片、电力)成为硬约束。

路径 2:持续复合加速,但人类保持方向设定权。 100 人的公司做出 10 万人公司的产出。人的角色变成”定方向 + 验证结果”。

路径 3:完全递归自我改进。 AI 系统自主设计和训练自己的下一代。人类退到”监督和验证”的角色。

Anthropic 认为他们目前处于路径 2,但路径 3 不是不可能


5. 我的几个 Take

5.1 Amdahl 定律无处不在

文章里反复提到 Amdahl’s law:加速一个环节,瓶颈只会转移到别处。Anthropic 自己就遇到了:代码产出暴增之后,human code review 变成了新瓶颈。新 idea 爆炸式涌现之后,决定做哪些事变成了新瓶颈。

这跟做 LLM 推理优化的经验是一致的。你把 attention 算快了,memory bandwidth 就是瓶颈;你把 KV cache 压缩了,scheduling overhead 就冒出来。系统性能优化永远是打地鼠。

但这里有个核心区别:物理硬件的瓶颈有物理定律兜底,而”研究品味”和”方向判断”是不是也有一个类似的”物理定律”上限?我倾向于认为没有。如果它本质上也是一种 pattern recognition + long-horizon planning 的能力,scaling 早晚能覆盖。

5.2 “研究品味”真的不可学吗?

Anthropic 目前的立场是:Claude 的比较优势在执行,人类的比较优势在 taste 和 judgment。但文章自己也说了一句非常耐人寻味的话:

“Research taste” might be just another AI capability that AI systems fail at for a time, then get good at.

我比较认同这个判断。”研究品味”这种听起来很虚的东西,拆开看无非是:

  1. 什么问题重要(需要对 field 的 landscape 有全局理解)
  2. 什么方向能走通(需要对方法论的直觉和约束条件的判断)
  3. 什么结果值得信任(需要统计素养和实验设计经验)

这三个哪一个不是可以从海量 research trajectory data 里学的?当模型见过足够多的”提出假设→验证→失败/成功”的循环之后,它对”下一步该干什么”的判断就会越来越好。上面 51% → 64% 的数字已经是早期信号了。

5.3 递归自我改进的”验证问题”

全文最让我不安的一段是关于 alignment 的:

Models could prove to be sufficiently aligned… Alternatively, the rare occurrences of misalignment present in today’s models could compound as the models build their successors, growing more frequent but less understood until we lose control of them.

这也是整个递归自我改进叙事里最核心的矛盾:如果模型能改进自己,那人类怎么验证改进后的模型仍然是安全的?每一代模型都比上一代更强,验证难度也在增加。到某个临界点,人类可能已经不具备验证能力了。

Anthropic 提出的解法是”可验证暂停”(verifiable pause):所有 frontier lab 同时停下来,并且能互相验证对方确实停了。类比核军控条约。但他们自己也承认:训练跑比导弹发射井好藏得多,违约动机极强(谁偷偷继续谁就继承领先地位),而且建立信任机制需要时间——而时间恰恰是最稀缺的。

5.4 对我们做效率优化的意味什么?

作为一个做 MoE 推理优化的人,我的直观感受是:推理效率的重要性会进一步放大。 如果未来 AI 系统需要大量做实验(跑实验、改代码、再跑实验),那 inference 的成本直接决定了递归循环的速度。文中提到自动化 weak-to-strong 研究花了 800 小时 compute、$18,000。如果推理效率翻倍,这个循环就快一倍。

换句话说,做推理效率优化的人,某种意义上是在做”加速 AI 递归自我改进”的基础设施。这既让人兴奋,也让人有点复杂的感受。


6. 结语

Anthropic 这篇文章的核心信息其实就一句话:递归自我改进不是遥远的科幻,而是一个正在展开的连续体。 我们已经处于”AI 显著加速 AI 开发”的阶段,距离”AI 完全自主开发 AI”还有一些 gap(主要在方向判断上),但这个 gap 在以可度量的速度缩小。

作为研究者,我觉得最值得警惕的不是某一天突然出现”超级 AI”(大概率不会是一个跳变),而是这个渐变过程中,人类逐步丧失验证能力的问题。每一步看起来都是 incremental improvement,但累积效应可能在某个时点突破我们的理解边界。

这大概是我们这一代 AI 研究者需要认真思考的问题。不只是”怎么让模型更快更好”,还有”快到什么程度之后,我们该停下来想想”。


欢迎评论区聊聊你怎么看递归自我改进这件事。是 overhyped 还是 underhyped?