ICLR'26 Workshop Spotlight | Lang-PINN:让 LLM 多智能体帮你从自然语言一键搭建物理信息神经网络

ICLR’26 Workshop Spotlight | Lang-PINN:让 LLM 多智能体帮你从自然语言一键搭建物理信息神经网络

原文:Lang-PINN: From Language to Physics-Informed Neural Networks via a Multi-Agent Framework


1. 这是一篇跨界论文

写这篇 post 需要解释一下背景——我做 AutoML 和 NAS 出身,然后做 LLM 推理系统,Lang-PINN 这个工作看起来有点”出圈”:怎么又跑去做物理信息神经网络(PINN)了?

其实逻辑很直接:PINN 的搭建本质上是一个 AutoML 问题,需要:

  1. 把问题描述转化为偏微分方程(PDE)形式——等价于问题形式化
  2. 选择合适的神经网络架构——这是 NAS 问题
  3. 生成正确的 loss 函数和训练代码——这是代码生成
  4. 调试、验证和迭代——这是超参数优化+反馈

以前这四步全靠专家手工完成。现在有了 LLM,就可以把这四步自动化——于是就有了 Lang-PINN。


2. PINN 是什么?为什么搭建它这么麻烦?

PINN(Physics-Informed Neural Network)是一种把物理方程嵌进神经网络训练过程的方法。核心思路:不只用数据训练,而是把 PDE(偏微分方程)的残差作为 loss 的一部分,让网络在满足物理定律的前提下拟合数据。

总 Loss = 数据拟合 loss + PDE残差 loss + 边界条件 loss

好处是在数据稀缺场景(物理实验数据贵!)也能训练出合理的模型。应用在流体力学、热传导、电磁场等科学计算领域。

但是为什么难用? 一个科学家想用 PINN 解一个实际问题,需要:

  • 把问题描述翻译成严格的 PDE 数学形式(算子、边界条件、初始条件)
  • 选择合适的网络架构——MLP、CNN、GNN、Transformer,不同 PDE 适合不同架构
  • 手写 loss 函数代码(要正确实现 PDE 残差)
  • 还得懂梯度病态、激活函数选择、采样策略……

对领域科学家(非 DL 专家)来说,这是极高的门槛。对 DL 工程师来说,每换一个物理问题又得重来一遍。


3. Lang-PINN:四个 Agent 的流水线

Lang-PINN系统概览:四个Agent协作,从自然语言到可执行PINN代码

Lang-PINN 把整个 PINN 构建流程分解为四个专门的 Agent:

Agent 1:PDE Agent —— 把自然语言翻译成 PDE

问题:同一个物理问题,不同科学家的描述方式差异极大。有人说”热扩散方程”,有人说”温度随时间变化满足拉普拉斯算子”,有人描述里还夹杂了不相关的背景信息(”今天实验室咖啡机声音很大”)。

直接让 LLM 翻译 PDE,在描述复杂度增加时准确率急剧下降:

不同语言复杂度下PDE翻译精度对比:Level 1-4

解决方案:PDE Agent 采用三步流程:

  1. CoT 多路采样:采样 K 条思维链,每条生成一个候选 PDE
  2. 双重验证:符号等价(AST 树匹配)+ 语义一致性(embedding 余弦相似度)
  3. 共识投票:选择与其他候选平均相似度最高的那个

这样即使输入有噪声,也能鲁棒地输出正确 PDE 形式。

Agent 2:PINN Agent —— 不是所有 PDE 都适合 MLP

这张图说明了一个反直觉的事实:

不同PINN架构在四类PDE上的MSE对比(对数坐标)

  • Shallow Water 方程:各架构差不多
  • Convection(对流)方程:MLP 和 GNN 差了两个数量级以上
  • Poisson 方程:CNN 最好
  • Heat 方程:MLP 和 GNN 几乎不收敛

所以 PINN Agent 做的是:根据 PDE 的物理特征(周期性、几何复杂度、多尺度需求),把每个架构的”能力向量”和 PDE 的”特征向量”做加权余弦相似度匹配,选出最合适的架构。

还有一个 History Reuse 机制:如果遇到之前见过的相似 PDE,直接复用历史上效果最好的架构选择,不重复搜索。

Agent 3:Code Agent —— 模块化代码生成

整段代码一次生成(monolithic)的问题:一个地方出错,整个脚本报废,只能全部重写。

改为模块化生成

① model definition  ② PDE loss  ③ data preprocessing
④ training loop  ⑤ validation  ⑥ main function

六个模块独立生成,标准化接口连接,出错了只修那个模块,不影响其他部分。

实验验证:模块化比 monolithic 在六类 PDE 上成功率翻倍以上。

Agent 4:Feedback Agent —— 闭环迭代

执行代码后,Feedback Agent 做两件事:

  1. 错误定位:把 runtime error 归因到具体模块(model/loss/training),指导 Code Agent 只重生成那部分
  2. 质量评估:从三个维度打分——Effectiveness(MSE)、Efficiency(收敛速度)、Robustness(loss 平滑度 + 梯度健康度)

质量分 $S(C^t) \geq S(C^{t-1})$ 才接受新版本,否则回滚。


4. 实验结果

4.1 端到端成功率

Lang-PINN在1D/2D/3D/ND PDE上的成功率对比

在 1D 和 2D PDE 上,Lang-PINN 成功率超过 80%,而最强基线(SCoT、Self-Debug)只有 55-60%。

注意:Lang-PINN 是从自然语言开始的,其他 baseline 是直接给 canonical PDE 作为输入。换言之,Lang-PINN 多做了一步(NL→PDE),还取得了更好的结果。

4.2 MSE 精度

在 14 个不同 PDE 上:

  • KS 方程(Kuramoto-Sivashinsky,混沌系统):Lang-PINN MSE = 1.62e-3,baseline 最好 1.09(差了近 3 个数量级)
  • Poisson-MA(任意形状 Poisson):Lang-PINN MSE = 2.25e-3,baseline 最好 1.83(差 3 个数量级)
  • Heat-ND(高维热方程):Lang-PINN MSE = 4.72e-4,PINNacle reference = 8.52(差近 4 个数量级)

4.3 时间效率

Lang-PINN 平均 8 次迭代收敛,比最差基线(BayesianAgent,31 次)节省 74% 的迭代开销。


5. 这个工作的定位

Lang-PINN 是 ICLR 2026 的 Workshop Spotlight(AI with Recursive Self-Improvement 方向)。

Workshop paper 的好处是可以做一些比较探索性的工作,不需要 full paper 那么大的 benchmark 体量。这个工作的贡献更多在于:提出了一个框架,证明了”自然语言→可执行 PINN”这条路是通的。

从我自己的视角来看,这是我把 AutoML 思想(架构搜索 + 超参优化 + 自动评估)和 LLM Agent 结合的一次尝试。PINN 只是一个验证场景,背后的逻辑可以推广到更多科学计算工具的自动化。

如果你是做科学机器学习(Scientific ML)的,这个框架可能有直接参考价值。如果你是做 LLM Agent 的,这里面的 modular code generation + feedback-driven refinement 思路也可以复用。


6. 局限性(没必要回避)

  • 场景限制:目前只在 PINNacle benchmark 上测试,都是标准 PDE,真实工业场景的不规则几何、多物理耦合还没验证
  • LLM 依赖:PDE Agent 的质量高度依赖底层 LLM(用的是 DeepSeek-V3、Qwen 等),不同 LLM 效果差异较大
  • 时间开销:虽然比 baseline 少 74%,但 8 次迭代对于简单问题仍然有点重——未来应该有更快的 cold-start 路径

7. 总结

Lang-PINN 用一句话概括:四个专门化的 LLM Agent 协作,把”用自然语言描述的物理问题”全自动转化为”可执行的 PINN 训练代码”

维度 Lang-PINN 最强 baseline
是否支持 NL 输入 ✗(需手写 PDE)
MSE 改善 3-5 个数量级 -
成功率提升 >50% -
收敛迭代数 8 次 14-31 次

论文:arxiv.org/abs/2510.05158