LLM 时代,还有人搞 AutoML 吗?有,而且变得更难了
LLM 时代,还有人搞 AutoML 吗?有,而且变得更难了
前几天有人在评论区问我:「现在都是 prompt engineering 和 fine-tune,NAS / AutoML 这条路还有人走吗?」
我当时回了一句:「你说的那些,本质上就是 AutoML。」
对方沉默了。
1. 一个被误解了十年的领域
AutoML 这个词在国内有点尴尬——说出去,一半人以为是”傻瓜调参工具”,另一半人觉得这玩意儿已经过时了。
但如果你真的做过这个方向,你会发现它背后在问的是一个永不过时的问题:
在一个复杂的搜索空间里,怎么用最少的代价找到最好的配置?
这个问题从来没有消失,只是换了马甲——
- 2016 年以前,它叫”超参数优化”
- 2017-2020 年,它叫”神经架构搜索(NAS)”
- 2021 年以后,它叫”LLM 结构设计、量化策略搜索、LoRA rank 选择、KV cache 压缩”
换了个名字,核心矛盾还是那个:搜索空间太大,评估太贵,资源有限。
2. 写这本书之前,我踩了什么坑

说回这本书:《动手学 AutoML:从 NAS 到大语言模型优化实战》,机械工业出版社。
我在 A*STAR CFAR 做 LLM 效率研究,之前在 HKBU 读博期间做了好几年 NAS。现在回头看,入门这个方向的时候,中文资料的确很匮乏——有的只讲概念,没有代码;有的代码能跑,但不知道在搜索什么;还有一类,就是把英文综述直接翻译一遍,读完仍然一脸懵。
我自己摸清楚这个领域,靠的是啃论文、开源 hyperbox 框架、在知乎写了一堆文章——基本上是把别人踩过的坑再踩一遍,然后记下来。
写书的念头就是这么来的:同样的坑,没必要让后来的人再踩一遍。
3. LLM 时代 AutoML 的新挑战
如果你觉得”NAS 就是搜网络结构、和 LLM 没什么关系”,那我得在这里纠正一下。
GPT 系列刚出来的时候,大家都在想:模型越来越大,怎么让它跑得更快、用更少资源?
这就引出了几类核心问题:
量化(Quantization):把 float32 的权重压成 INT8 甚至 INT4,精度损失有多少?能不能自动找到每层的最优 bit-width?这是个搜索问题。
剪枝(Pruning):Transformer 里有多少头是冗余的?注意力层可以砍多少?哪些 FFN 神经元可以移除?哪些不能?还是个搜索问题。
MoE 架构设计:DeepSeek、Mixtral 这类 MoE 模型,expert 的数量、每次激活几个、router 怎么设计——这些超参数怎么定?One-shot NAS 的逻辑可以直接迁移过来。
LoRA / PEFT 的配置:rank 选多少?用哪些层?不同任务的最优配置是不一样的,但你总不能每次都手调吧——这又是个 AutoML 问题。
本质上,LLM 时代反而把 AutoML 的重要性放大了,因为搜索空间更大、评估更贵、错误成本更高。以前跑错一次 NAS 实验,顶多浪费几张 GPU;现在搜错一次 LLM 量化策略,可能是几百张 A100 的时间。
4. 这本书讲了什么
书的结构大致是三层递进:从”为什么要自动化”,到 NAS 的各个范式,再到 LLM 时代的具体落地。
第一层:AutoML 基础
问题定义、搜索空间、优化策略——贝叶斯优化、进化算法、强化学习各自的适用场景和局限。这部分是打底,不会写成 wikipedia 词条那种风格,会告诉你每个方法在什么条件下会出问题。
第二层:NAS 核心范式
这是全书最厚的部分,因为这里有最多坑:
- Black-box NAS:每个候选架构独立训练评估。最准,最贵,搜一次可能要 3000 GPU-days(谷歌当年 NASNet 就是这么出来的)
- One-shot NAS / Weight Sharing:让所有候选共享一套 supernet 权重,把搜索成本压到几十个 GPU-hours。但有个核心问题:supernet 里排名第一的架构,独立训练后不一定还是第一。这个”ranking correlation”问题到现在还没有完美的解法
- Predictor-based NAS:训练一个代理模型去预测架构的性能,少做几百次昂贵的评估。样本效率高,但代理模型本身的泛化性是个问题
- Efficiency-aware NAS:把 latency、内存占用这些硬件约束直接加进搜索目标。这是最靠近工业落地的方向
书里专门有一章讲 NAS-Bench 系列——这是这个领域少有的可以在上面做可重复实验的 benchmark,想做 NAS 研究但没有大量 GPU 的同学,强烈建议把这章读透。
第三层:LLM 时代的模型压缩与优化
涵盖量化、剪枝、知识蒸馏、PEFT(LoRA / Adapter / Prefix-Tuning)。每种方法都有配套的可运行代码,不是 toy demo,是在真实模型上跑的。
5. 得说几句实在话
写了这么多,有几点必须说清楚,不然你买了之后骂我。
一,领域跑太快了。 书稿定稿到现在,又出了不少新工作。书里的内容是截止写作时的主流范式,可以给你打下系统性基础,但不代表”最新”。书是跑不过 arxiv 的。
二,LLM 那部分是全书相对薄弱的地方。 我的研究重心在 NAS 和系统效率,LLM 压缩那块写得没有前面几章深。如果你是冲着”LLM 推理系统优化”(vLLM、PagedAttention 那个层级)来的,这本书不是最对口的选择。
三,有门槛。 假设你有基础的 Python 和 PyTorch 使用经验,以及机器学习基础知识。纯零基础建议先打好底再来。
6. 写在最后
我最近在做 MoE 系统的推理效率优化,ExpertFlow 刚在 DAC 2026 被接收,下周可能会单独写篇文章聊聊这个。
顺带一提,书里有个我一直觉得被低估的观点——
NAS 和 RLHF 的优化逻辑,在结构上是同构的。
NAS:用 reward(架构性能)去指导搜索策略更新,最终收敛到好架构。
RLHF:用 reward(人类偏好)去更新模型参数,最终让模型”更像人类期望的样子”。
两者都是在高维空间里用稀疏 reward 做策略优化,只是搜索对象不同。这个角度如果你从来没有想过,书里第三章有专门的讨论,可以翻翻。
书在京东有售:《动手学 AutoML:从 NAS 到大语言模型优化实战》
欢迎评论区聊,有任何问题——包括书里写得不清楚的地方——都可以直接来问。
作者:贺鑫(marsggbo),新加坡 A*STAR CFAR 研究员
知乎 / GitHub: marsggbo