LLM 时代，还有人搞 AutoML 吗？有，而且变得更难了

前几天有人在评论区问我：「现在都是 prompt engineering 和 fine-tune，NAS / AutoML 这条路还有人走吗？」

我当时回了一句：「你说的那些，本质上就是 AutoML。」

对方沉默了。

1. 一个被误解了十年的领域

AutoML 这个词在国内有点尴尬——说出去，一半人以为是”傻瓜调参工具”，另一半人觉得这玩意儿已经过时了。

但如果你真的做过这个方向，你会发现它背后在问的是一个永不过时的问题：

在一个复杂的搜索空间里，怎么用最少的代价找到最好的配置？

这个问题从来没有消失，只是换了马甲——

2016 年以前，它叫”超参数优化”
2017-2020 年，它叫”神经架构搜索（NAS）”
2021 年以后，它叫”LLM 结构设计、量化策略搜索、LoRA rank 选择、KV cache 压缩”

换了个名字，核心矛盾还是那个：搜索空间太大，评估太贵，资源有限。

2. 写这本书之前，我踩了什么坑

书封面

说回这本书：《动手学 AutoML：从 NAS 到大语言模型优化实战》，机械工业出版社。

我在 A*STAR CFAR 做 LLM 效率研究，之前在 HKBU 读博期间做了好几年 NAS。现在回头看，入门这个方向的时候，中文资料的确很匮乏——有的只讲概念，没有代码；有的代码能跑，但不知道在搜索什么；还有一类，就是把英文综述直接翻译一遍，读完仍然一脸懵。

我自己摸清楚这个领域，靠的是啃论文、开源 hyperbox 框架、在知乎写了一堆文章——基本上是把别人踩过的坑再踩一遍，然后记下来。

写书的念头就是这么来的：同样的坑，没必要让后来的人再踩一遍。

3. LLM 时代 AutoML 的新挑战

如果你觉得”NAS 就是搜网络结构、和 LLM 没什么关系”，那我得在这里纠正一下。

GPT 系列刚出来的时候，大家都在想：模型越来越大，怎么让它跑得更快、用更少资源？

这就引出了几类核心问题：

量化（Quantization）：把 float32 的权重压成 INT8 甚至 INT4，精度损失有多少？能不能自动找到每层的最优 bit-width？这是个搜索问题。

剪枝（Pruning）：Transformer 里有多少头是冗余的？注意力层可以砍多少？哪些 FFN 神经元可以移除？哪些不能？还是个搜索问题。

MoE 架构设计：DeepSeek、Mixtral 这类 MoE 模型，expert 的数量、每次激活几个、router 怎么设计——这些超参数怎么定？One-shot NAS 的逻辑可以直接迁移过来。

LoRA / PEFT 的配置：rank 选多少？用哪些层？不同任务的最优配置是不一样的，但你总不能每次都手调吧——这又是个 AutoML 问题。

本质上，LLM 时代反而把 AutoML 的重要性放大了，因为搜索空间更大、评估更贵、错误成本更高。以前跑错一次 NAS 实验，顶多浪费几张 GPU；现在搜错一次 LLM 量化策略，可能是几百张 A100 的时间。

4. 这本书讲了什么

书的结构大致是三层递进：从”为什么要自动化”，到 NAS 的各个范式，再到 LLM 时代的具体落地。

第一层：AutoML 基础

问题定义、搜索空间、优化策略——贝叶斯优化、进化算法、强化学习各自的适用场景和局限。这部分是打底，不会写成 wikipedia 词条那种风格，会告诉你每个方法在什么条件下会出问题。

第二层：NAS 核心范式

这是全书最厚的部分，因为这里有最多坑：

Black-box NAS：每个候选架构独立训练评估。最准，最贵，搜一次可能要 3000 GPU-days（谷歌当年 NASNet 就是这么出来的）
One-shot NAS / Weight Sharing：让所有候选共享一套 supernet 权重，把搜索成本压到几十个 GPU-hours。但有个核心问题：supernet 里排名第一的架构，独立训练后不一定还是第一。这个”ranking correlation”问题到现在还没有完美的解法
Predictor-based NAS：训练一个代理模型去预测架构的性能，少做几百次昂贵的评估。样本效率高，但代理模型本身的泛化性是个问题
Efficiency-aware NAS：把 latency、内存占用这些硬件约束直接加进搜索目标。这是最靠近工业落地的方向

书里专门有一章讲 NAS-Bench 系列——这是这个领域少有的可以在上面做可重复实验的 benchmark，想做 NAS 研究但没有大量 GPU 的同学，强烈建议把这章读透。

第三层：LLM 时代的模型压缩与优化

涵盖量化、剪枝、知识蒸馏、PEFT（LoRA / Adapter / Prefix-Tuning）。每种方法都有配套的可运行代码，不是 toy demo，是在真实模型上跑的。

5. 得说几句实在话

写了这么多，有几点必须说清楚，不然你买了之后骂我。

一，领域跑太快了。 书稿定稿到现在，又出了不少新工作。书里的内容是截止写作时的主流范式，可以给你打下系统性基础，但不代表”最新”。书是跑不过 arxiv 的。

二，LLM 那部分是全书相对薄弱的地方。 我的研究重心在 NAS 和系统效率，LLM 压缩那块写得没有前面几章深。如果你是冲着”LLM 推理系统优化”（vLLM、PagedAttention 那个层级）来的，这本书不是最对口的选择。

三，有门槛。 假设你有基础的 Python 和 PyTorch 使用经验，以及机器学习基础知识。纯零基础建议先打好底再来。

6. 写在最后

我最近在做 MoE 系统的推理效率优化，ExpertFlow 刚在 DAC 2026 被接收，下周可能会单独写篇文章聊聊这个。

顺带一提，书里有个我一直觉得被低估的观点——

NAS 和 RLHF 的优化逻辑，在结构上是同构的。

NAS：用 reward（架构性能）去指导搜索策略更新，最终收敛到好架构。
RLHF：用 reward（人类偏好）去更新模型参数，最终让模型”更像人类期望的样子”。

两者都是在高维空间里用稀疏 reward 做策略优化，只是搜索对象不同。这个角度如果你从来没有想过，书里第三章有专门的讨论，可以翻翻。

书在京东有售：《动手学 AutoML：从 NAS 到大语言模型优化实战》

欢迎评论区聊，有任何问题——包括书里写得不清楚的地方——都可以直接来问。

作者：贺鑫（marsggbo），新加坡 A*STAR CFAR 研究员
知乎 / GitHub: marsggbo