LLM Agents 让群体信念变得可编程：当 AI 开始系统性操控舆论

插播：之前写的《动手学 AutoML》终于出版了，从 NAS 到超参优化都有覆盖，适合想系统入门 AutoML 的同学。好了广告结束，现在进入正题。

原文：LLM Agents Make Collective Belief Dynamics Programmable: Challenges and Research Directions

1. 前言

你有没有刷社交媒体的时候，看到评论区清一色地倒向某个观点，然后心里犯嘀咕：”这些人是真人吗？还是水军？”

这个问题以前可能只是你刷微博时的直觉不适，但现在，它变成了一个可被严格定义和系统性研究的安全威胁。

今天想和大家聊聊一篇来自 A*STAR、NTU 和 NUS 联合团队最新的 position paper。这篇论文提出了一个细思极恐的问题：

当 LLM Agents 可以大规模、协调一致地参与社交讨论时，整个群体的信念分布就不再是自然演化的结果，而是可以被外部力量”编程”的。

这不是科幻小说。论文通过一个大规模仿真实验，用最直接的证据告诉你：只要控制一定比例的 LLM agents 在社交网络中表达特定观点，整个人群的信念就会系统性地向目标方向偏移。而且更可怕的是，现有的检测和防御手段几乎对这个攻击范式无效。

2. 核心问题：什么叫”群体信念可编程”？

2.1 传统的群体信念动力学

先交代下背景。群体信念动力学（Collective Belief Dynamics）本身不是新概念。社会心理学和复杂网络领域已经研究了几十年：一个群体中的人如何通过相互影响，最终在某些议题上形成共识或极化。

经典模型里，信念的演化由几个因素决定：

个体的初始信念分布
个体之间的社交网络拓扑
个体更新信念的规则（比如 DeGroot 模型中的加权平均、或 bounded confidence model 中的选择性接收）

这些模型过去一直被用来理解自然的舆论演化过程——比如政治观点的分化、疫苗犹豫的传播等。

2.2 LLM Agents 改变了什么

这篇 paper 的核心洞察是：LLM agents 的引入打破了传统模型的底层假设。

在传统模型中，个体是人类，他们的信念更新受限于认知能力、信息获取渠道和个人经验。但当你把一部分”人”替换成 LLM agents，情况就变了：

可规模化（Scalable）：你可以部署成千上万个 agents，用极低的成本覆盖海量社交平台
可协调（Coordinated）：所有 agents 可以共享同一个目标函数，像一支军队一样协同行动
可说服人类（Human-persuasive）：LLM agents 生成的内容在说服力上已经达到甚至超过人类水平——它们可以引用文献、调用情感、制造逻辑链条，比传统水军的复制粘贴强太多了
自适应（Adaptive）：当群体情绪变化时，agents 可以实时调整策略，不像传统 bot 那样只能执行固定脚本

本质上，LLM agents 让”操控群体信念”这件事从一门玄学变成了一门工程。

3. 仿真实验：四大话题的信念转向

论文没有停留在理论推演，而是做了一个大规模的 agent-based simulation。他们把 LLM agents 放进模拟社交网络中，测试它们在四个真实社会议题上影响人类信念的效果。

3.1 实验设计

研究者选了四个有争议的社会话题：

疫苗政策（强制 vs 自愿）
基因编辑（支持 vs 反对）
全民基本收入 UBI（赞成 vs 反对）
AI 监管（严格 vs 宽松）

每个话题下，模拟了一个由数百个 agents 组成的社交网络，其中一部分是”干预 agents”——它们的任务是通过持续发言和互动，将整个群体的信念推向预设目标。剩余的是”基线 agents”，它们按照正常的社会交互规则更新信念。

实验首先验证了 LLM 能否准确识别和生成不同立场的观点。下表是五个主流 LLM 在 SPINOS 数据集上的 stance recognition 表现：

Table 1: 各 LLM 在 SPINOS 数据集上的立场识别准确率

可以看到，GPT5-mini 的准确率达到了 0.96，Cohen’s kappa κ=0.94，基本完美。这说明当前 LLM 已经具备足够的社会立场理解能力——这是后续一切信念操控的前提。

3.2 关键发现

结果令人震惊。论文的实验数据表明：

先看群体层面的终端信念分布。下表展示了四个话题在 human-only 基线和 80 个 AI agents 干预条件下的最终立场分布：

Table 2: 四个话题的终端立场分布对比

数据非常直观。以 Abortion 话题为例，human-only 条件下 Favor 占 84.5%，但在 80 个 AI agents 设为反对立场后，Favor 降到了 76.0%（-8.5），Against 从 7.5% 飙升到 20.0%（+12.5）。Capitalism 话题更夸张——Favor 从 89.4% 暴跌到 58.8%（-30.6），Against 从 2.0% 飙到 35.2%（+33.2）。

即使干预 agents 只占总人数的 10-15%，群体信念就已经出现了显著的系统性偏移。 当比例提升到 25-30% 时，整个群体的平均信念几乎被锁定在干预 agents 想要的方向上。

而且这种效果在所有四个话题中都成立。不管讨论的是疫苗还是 AI 监管，LLM agents 都能有效地”拉动”群体意见。

更值得关注的是，论文还分析了 stance transition 层面的变化，展示了信念是如何一步步被”蚕食”的：

Figure 1: 各话题的立场转移概率矩阵

上图展示了人类在不同话题下的 stance 转移概率。上半部分是 human-only 条件，下半部分是 AI 干预条件。对比可以发现，AI 干预显著提高了从初始立场向目标立场转移的概率——这不是简单的”声音大就能赢”，而是系统性地改变了信念转移的方向性。

这种信念操控不是瞬时的——它表现为一种渐进式漂移，在几轮交互后逐渐显现。这恰恰是现实中舆论操控最危险的形式：温水煮青蛙，你甚至察觉不到自己的观点被改变了。

4. 四大结构性挑战

这篇 paper 作为一篇 position paper，最重要的理论贡献是提出了四个结构性挑战（structural challenges），它们共同构成了”信念可编程性”的核心骨架。这四个性质一个比一个要命：

4.1 Indistinguishability（不可区分性）

LLM agents 生成的内容和人类表达的观点，已经越来越难区分了。

你可以回想一下自己在社交媒体上的经历——是不是经常看到一些观点表达非常清晰、有逻辑、引经据典的评论？你本能地觉得”这应该是真人写的”，但很可能就是一个精心调优过的 LLM agent。

这种不可区分性摧毁了传统 bot 检测的第一道防线。过去我们可以靠”语言不自然”“内容重复”“账号行为异常”来判断是机器人，但现在的 LLM agents 能生成高度个性化、上下文相关的自然语言内容。用检测传统 bot 的方法检测 LLM agents，就像用体温检测来识别仿生人——根本不是一个维度的对抗。

4.2 Persistence（持续性）

一旦群体信念被推向某个方向，这种偏差会持续存在，甚至在干预 agents 退出后也不会自动恢复。

这是四个性质里最让人后背发凉的一个。传统的信息污染（比如一条假新闻）可能被辟谣后就逐渐消除了。但 LLM agents 操控的信念偏移不一样——它改变了社交网络中的人际影响链路，让人与人之间的自然交互也朝着被操控的方向演化。

打个比方：假新闻像是往水里倒了一瓶墨水，辟谣等于用水稀释，最终墨水会散去。而 LLM agents 的信念操控像是改变了水流的方向——即使你把倒墨水的管子拔了，水已经在往新的方向流了。

4.3 Contextuality（情境依赖性）

同样的干预策略在不同的社交网络拓扑、人口结构和话题特性下，效果天差地别。

这意味着没有统一的防护方案。论文的实验发现，在高度同质化的网络（大家都差不多）和高度极化的网络（两拨人势不两立）中，LLM agents 的最优干预策略完全不同。前者需要充当”多数派声音”，后者则需要”各个击破”。

这也是为什么简单的”禁止 AI 发言”规则基本无效——攻击者可以针对不同情境定制策略，而平台拿到的永远是滞后的、片面的信息。

4.4 Configurability（可配置性）

攻击者可以精确控制信念偏移的方向、幅度和速度。

这是 LLM agents 相比传统水军最本质的区别。传统水军最多能做到”刷存在感”——你知道有人在带节奏，但带成什么样基本看运气。LLM agents 则不同：你可以通过调整 agent 的比例、发言频率、立场强度、论证策略等参数，像调参数一样调舆论。

论文把这个性质称为”可编程性”的核心所在。与传统的社会工程学攻击不同，LLM agents 驱动的信念操控是工程化的、可复现的、可优化的。这意味着它不再是某个情报机构的独门手艺，而是任何掌握基础 LLM 技术的人都可以实施的标准化操作。

论文用一组实验直接展示了这种”可配置性”。下图系统性地测试了四个关键参数对信念动力学的影响：

Figure 2: 不同干预参数对信念动力学的影响

四个 panel 分别展示了：(a) agent 数量的影响——存在一个 critical mass 阈值，过不了这个坎基本没用；(b) 发帖频率的影响——内容可见度直接调节干预效果；(c) 干预时长的持续性效应——即使在 t=10 撤出 agents，信念偏移仍然持续存在，这对应了前面说的 persistence；(d) 说服风格的影响——compassionate framing 比 moral condemnation 更有效。

这套实验最让人细思极恐的地方在于：每个参数都可以独立调节，攻击者可以根据目标群体的特性，精确”调参”来达到最优的信念操控效果。

5. 为什么检测和防御这么难？

论文的后半部分系统地分析了现有的检测和防御手段在面对 LLM agents 信念操控时的失效原因。

5.1 文本检测的困境

现有的 AI 生成文本检测器（如 GPTZero、Originality.ai 等）在这个场景下基本是废的。原因有三：

LLM agents 可以加噪声：通过调整温度参数、加入人工改写步骤、混用多个模型等策略，轻松绕过检测
检测粒度不匹配：单条评论可能是”人写的”（检测器给低风险评分），但成千上万条评论构成的整体叙事才是真正的攻击
对抗性进化：检测器更新，攻击者也更新——这是一个永无止境的军备竞赛，而攻击者天然占据先手优势

5.2 行为分析的局限

即使不看内容只看行为——比如发帖频率、互动模式、社交网络位置——也很难区分 LLM agents 和”热心网友”。因为一个精心设计的 LLM agent 完全可以模拟正常用户的行为节奏：不会半夜狂发帖，有自然的互动间隔，甚至偶尔还会”懒得回复”。

5.3 平台治理的结构性矛盾

最有意思的是，论文指出平台本身的商业逻辑就和防御信念操控存在结构性矛盾：

平台的核心 KPI 是用户活跃度和留存率
LLM agents 带来的讨论热度、内容生产和互动数据，恰好是平台想要的
平台有动力识别”低质内容”和”垃圾信息”，但没有动力去识别”高质量但立场有偏的 agent 生成内容”

这就是为什么我们不能把希望寄托在平台自我监管上。

6. 研究议程与展望

最后，论文提出了一个结构化的研究议程（research agenda），本质上是在呼吁学术界把”LLM agents 驱动的信念动力学”作为一个正式的安全研究方向。

几个值得关注的方向：

6.1 建立公开 Benchmark

目前这个领域连一个标准的评测基准都没有。论文呼吁建立类似 GLUE 之于 NLP 的 benchmark，让研究者可以在统一设定下对比不同防御方案的效果。关键维度包括：话题多样性、网络拓扑类型、干预 agent 比例、干预策略等。

6.2 群体层面的检测机制

与其在单条消息级别做检测（注定失败的思路），不如从群体信念分布的变化模式中寻找异常信号。比如：某个话题的舆论在异常短的时间内出现了单向漂移；某些观点的支持率变化曲线和已知的自然演化模式显著不同。

6.3 防御性 agents（Defensive Agents）

一个有趣的思路是”以 agent 制 agent”——部署同样数量的”防御性 agents”来中和攻击性 agents 的影响。但论文也坦诚地指出：这带来了新的伦理问题（谁来控制防御 agents？），而且很容易演变成 agent 之间的”内容军备竞赛”。

6.4 透明度和溯源

长期来看，技术手段之外，需要建立更强的内容溯源机制。比如：社交平台强制对疑似 AI 生成的内容打标签、要求”类人 agent”主动声明身份、建立跨平台的 agent 行为数据库等。

7. 个人 take

读完这篇 paper，我有几个不成熟的看法：

第一，这篇 paper 最大的价值不是提出了解决方案，而是定义了一个新问题。 “Collective belief dynamics programmable” 这个概念是有理论穿透力的。它把散落在社会学、网络安全、NLP 等不同领域的碎片化讨论统一到一个框架下，让你可以用系统工程的语言去讨论舆论操控。

第二，四个结构性挑战（indistinguishability, persistence, contextuality, configurability）确实抓住了问题的本质。 尤其是 persistence 这一点——如果信念偏移在干预 agents 撤出后还能持续，那任何”事后补救”的策略都是徒劳的。

第三，我觉得最可怕的是 platform incentive misalignment。 平台没有动力去认真对待这个问题，因为 LLM agents 产生的那些”高质量内容”天然就是平台想要的。这跟推荐系统的类似悖论如出一辙——算法推荐最优化用户停留时长的同时，也在最优化传播 misinformation 的效率。

第四，如果 LLM 推理成本继续以当前速度下降（现在已经有公司做到了 $0.01/百万 token），那部署成千上万个 agents 去影响舆论的成本会低到几乎为零。 这个问题的紧迫性比你想象的要高得多。

欢迎大家在评论区聊聊：你觉得”以 agent 制 agent”是一条可行的路，还是打开了更危险的潘多拉魔盒？