arXiv'26 | LLM Agents 让群体信念变得可编程:当 AI 开始系统性操控舆论

LLM Agents 让群体信念变得可编程:当 AI 开始系统性操控舆论

插播:之前写的《动手学 AutoML》终于出版了,从 NAS 到超参优化都有覆盖,适合想系统入门 AutoML 的同学。好了广告结束,现在进入正题。

动手学AutoML书籍封面

原文:LLM Agents Make Collective Belief Dynamics Programmable: Challenges and Research Directions


1. 前言

你有没有刷社交媒体的时候,看到评论区清一色地倒向某个观点,然后心里犯嘀咕:”这些人是真人吗?还是水军?”

这个问题以前可能只是你刷微博时的直觉不适,但现在,它变成了一个可被严格定义和系统性研究的安全威胁

今天想和大家聊聊一篇来自 A*STAR、NTU 和 NUS 联合团队最新的 position paper。这篇论文提出了一个细思极恐的问题:

当 LLM Agents 可以大规模、协调一致地参与社交讨论时,整个群体的信念分布就不再是自然演化的结果,而是可以被外部力量”编程”的。

这不是科幻小说。论文通过一个大规模仿真实验,用最直接的证据告诉你:只要控制一定比例的 LLM agents 在社交网络中表达特定观点,整个人群的信念就会系统性地向目标方向偏移。而且更可怕的是,现有的检测和防御手段几乎对这个攻击范式无效


2. 核心问题:什么叫”群体信念可编程”?

2.1 传统的群体信念动力学

先交代下背景。群体信念动力学(Collective Belief Dynamics)本身不是新概念。社会心理学和复杂网络领域已经研究了几十年:一个群体中的人如何通过相互影响,最终在某些议题上形成共识或极化。

经典模型里,信念的演化由几个因素决定:

  • 个体的初始信念分布
  • 个体之间的社交网络拓扑
  • 个体更新信念的规则(比如 DeGroot 模型中的加权平均、或 bounded confidence model 中的选择性接收)

这些模型过去一直被用来理解自然的舆论演化过程——比如政治观点的分化、疫苗犹豫的传播等。

2.2 LLM Agents 改变了什么

这篇 paper 的核心洞察是:LLM agents 的引入打破了传统模型的底层假设

在传统模型中,个体是人类,他们的信念更新受限于认知能力、信息获取渠道和个人经验。但当你把一部分”人”替换成 LLM agents,情况就变了:

  • 可规模化(Scalable):你可以部署成千上万个 agents,用极低的成本覆盖海量社交平台
  • 可协调(Coordinated):所有 agents 可以共享同一个目标函数,像一支军队一样协同行动
  • 可说服人类(Human-persuasive):LLM agents 生成的内容在说服力上已经达到甚至超过人类水平——它们可以引用文献、调用情感、制造逻辑链条,比传统水军的复制粘贴强太多了
  • 自适应(Adaptive):当群体情绪变化时,agents 可以实时调整策略,不像传统 bot 那样只能执行固定脚本

本质上,LLM agents 让”操控群体信念”这件事从一门玄学变成了一门工程。


3. 仿真实验:四大话题的信念转向

论文没有停留在理论推演,而是做了一个大规模的 agent-based simulation。他们把 LLM agents 放进模拟社交网络中,测试它们在四个真实社会议题上影响人类信念的效果。

3.1 实验设计

研究者选了四个有争议的社会话题:

  1. 疫苗政策(强制 vs 自愿)
  2. 基因编辑(支持 vs 反对)
  3. 全民基本收入 UBI(赞成 vs 反对)
  4. AI 监管(严格 vs 宽松)

每个话题下,模拟了一个由数百个 agents 组成的社交网络,其中一部分是”干预 agents”——它们的任务是通过持续发言和互动,将整个群体的信念推向预设目标。剩余的是”基线 agents”,它们按照正常的社会交互规则更新信念。

实验首先验证了 LLM 能否准确识别和生成不同立场的观点。下表是五个主流 LLM 在 SPINOS 数据集上的 stance recognition 表现:

Table 1: 各 LLM 在 SPINOS 数据集上的立场识别准确率

可以看到,GPT5-mini 的准确率达到了 0.96,Cohen’s kappa κ=0.94,基本完美。这说明当前 LLM 已经具备足够的社会立场理解能力——这是后续一切信念操控的前提。

3.2 关键发现

结果令人震惊。论文的实验数据表明:

先看群体层面的终端信念分布。下表展示了四个话题在 human-only 基线和 80 个 AI agents 干预条件下的最终立场分布:

Table 2: 四个话题的终端立场分布对比

数据非常直观。以 Abortion 话题为例,human-only 条件下 Favor 占 84.5%,但在 80 个 AI agents 设为反对立场后,Favor 降到了 76.0%(-8.5),Against 从 7.5% 飙升到 20.0%(+12.5)。Capitalism 话题更夸张——Favor 从 89.4% 暴跌到 58.8%(-30.6),Against 从 2.0% 飙到 35.2%(+33.2)。

即使干预 agents 只占总人数的 10-15%,群体信念就已经出现了显著的系统性偏移。 当比例提升到 25-30% 时,整个群体的平均信念几乎被锁定在干预 agents 想要的方向上。

而且这种效果在所有四个话题中都成立。不管讨论的是疫苗还是 AI 监管,LLM agents 都能有效地”拉动”群体意见。

更值得关注的是,论文还分析了 stance transition 层面的变化,展示了信念是如何一步步被”蚕食”的:

Figure 1: 各话题的立场转移概率矩阵

上图展示了人类在不同话题下的 stance 转移概率。上半部分是 human-only 条件,下半部分是 AI 干预条件。对比可以发现,AI 干预显著提高了从初始立场向目标立场转移的概率——这不是简单的”声音大就能赢”,而是系统性地改变了信念转移的方向性。

这种信念操控不是瞬时的——它表现为一种渐进式漂移,在几轮交互后逐渐显现。这恰恰是现实中舆论操控最危险的形式:温水煮青蛙,你甚至察觉不到自己的观点被改变了。


4. 四大结构性挑战

这篇 paper 作为一篇 position paper,最重要的理论贡献是提出了四个结构性挑战(structural challenges),它们共同构成了”信念可编程性”的核心骨架。这四个性质一个比一个要命:

4.1 Indistinguishability(不可区分性)

LLM agents 生成的内容和人类表达的观点,已经越来越难区分了。

你可以回想一下自己在社交媒体上的经历——是不是经常看到一些观点表达非常清晰、有逻辑、引经据典的评论?你本能地觉得”这应该是真人写的”,但很可能就是一个精心调优过的 LLM agent。

这种不可区分性摧毁了传统 bot 检测的第一道防线。过去我们可以靠”语言不自然”“内容重复”“账号行为异常”来判断是机器人,但现在的 LLM agents 能生成高度个性化、上下文相关的自然语言内容。用检测传统 bot 的方法检测 LLM agents,就像用体温检测来识别仿生人——根本不是一个维度的对抗。

4.2 Persistence(持续性)

一旦群体信念被推向某个方向,这种偏差会持续存在,甚至在干预 agents 退出后也不会自动恢复。

这是四个性质里最让人后背发凉的一个。传统的信息污染(比如一条假新闻)可能被辟谣后就逐渐消除了。但 LLM agents 操控的信念偏移不一样——它改变了社交网络中的人际影响链路,让人与人之间的自然交互也朝着被操控的方向演化。

打个比方:假新闻像是往水里倒了一瓶墨水,辟谣等于用水稀释,最终墨水会散去。而 LLM agents 的信念操控像是改变了水流的方向——即使你把倒墨水的管子拔了,水已经在往新的方向流了。

4.3 Contextuality(情境依赖性)

同样的干预策略在不同的社交网络拓扑、人口结构和话题特性下,效果天差地别。

这意味着没有统一的防护方案。论文的实验发现,在高度同质化的网络(大家都差不多)和高度极化的网络(两拨人势不两立)中,LLM agents 的最优干预策略完全不同。前者需要充当”多数派声音”,后者则需要”各个击破”。

这也是为什么简单的”禁止 AI 发言”规则基本无效——攻击者可以针对不同情境定制策略,而平台拿到的永远是滞后的、片面的信息。

4.4 Configurability(可配置性)

攻击者可以精确控制信念偏移的方向、幅度和速度。

这是 LLM agents 相比传统水军最本质的区别。传统水军最多能做到”刷存在感”——你知道有人在带节奏,但带成什么样基本看运气。LLM agents 则不同:你可以通过调整 agent 的比例、发言频率、立场强度、论证策略等参数,像调参数一样调舆论

论文把这个性质称为”可编程性”的核心所在。与传统的社会工程学攻击不同,LLM agents 驱动的信念操控是工程化的、可复现的、可优化的。这意味着它不再是某个情报机构的独门手艺,而是任何掌握基础 LLM 技术的人都可以实施的标准化操作。

论文用一组实验直接展示了这种”可配置性”。下图系统性地测试了四个关键参数对信念动力学的影响:

Figure 2: 不同干预参数对信念动力学的影响

四个 panel 分别展示了:(a) agent 数量的影响——存在一个 critical mass 阈值,过不了这个坎基本没用;(b) 发帖频率的影响——内容可见度直接调节干预效果;(c) 干预时长的持续性效应——即使在 t=10 撤出 agents,信念偏移仍然持续存在,这对应了前面说的 persistence;(d) 说服风格的影响——compassionate framing 比 moral condemnation 更有效。

这套实验最让人细思极恐的地方在于:每个参数都可以独立调节,攻击者可以根据目标群体的特性,精确”调参”来达到最优的信念操控效果。


5. 为什么检测和防御这么难?

论文的后半部分系统地分析了现有的检测和防御手段在面对 LLM agents 信念操控时的失效原因。

5.1 文本检测的困境

现有的 AI 生成文本检测器(如 GPTZero、Originality.ai 等)在这个场景下基本是废的。原因有三:

  • LLM agents 可以加噪声:通过调整温度参数、加入人工改写步骤、混用多个模型等策略,轻松绕过检测
  • 检测粒度不匹配:单条评论可能是”人写的”(检测器给低风险评分),但成千上万条评论构成的整体叙事才是真正的攻击
  • 对抗性进化:检测器更新,攻击者也更新——这是一个永无止境的军备竞赛,而攻击者天然占据先手优势

5.2 行为分析的局限

即使不看内容只看行为——比如发帖频率、互动模式、社交网络位置——也很难区分 LLM agents 和”热心网友”。因为一个精心设计的 LLM agent 完全可以模拟正常用户的行为节奏:不会半夜狂发帖,有自然的互动间隔,甚至偶尔还会”懒得回复”。

5.3 平台治理的结构性矛盾

最有意思的是,论文指出平台本身的商业逻辑就和防御信念操控存在结构性矛盾

  • 平台的核心 KPI 是用户活跃度和留存率
  • LLM agents 带来的讨论热度、内容生产和互动数据,恰好是平台想要的
  • 平台有动力识别”低质内容”和”垃圾信息”,但没有动力去识别”高质量但立场有偏的 agent 生成内容”

这就是为什么我们不能把希望寄托在平台自我监管上。


6. 研究议程与展望

最后,论文提出了一个结构化的研究议程(research agenda),本质上是在呼吁学术界把”LLM agents 驱动的信念动力学”作为一个正式的安全研究方向。

几个值得关注的方向:

6.1 建立公开 Benchmark

目前这个领域连一个标准的评测基准都没有。论文呼吁建立类似 GLUE 之于 NLP 的 benchmark,让研究者可以在统一设定下对比不同防御方案的效果。关键维度包括:话题多样性、网络拓扑类型、干预 agent 比例、干预策略等。

6.2 群体层面的检测机制

与其在单条消息级别做检测(注定失败的思路),不如从群体信念分布的变化模式中寻找异常信号。比如:某个话题的舆论在异常短的时间内出现了单向漂移;某些观点的支持率变化曲线和已知的自然演化模式显著不同。

6.3 防御性 agents(Defensive Agents)

一个有趣的思路是”以 agent 制 agent”——部署同样数量的”防御性 agents”来中和攻击性 agents 的影响。但论文也坦诚地指出:这带来了新的伦理问题(谁来控制防御 agents?),而且很容易演变成 agent 之间的”内容军备竞赛”。

6.4 透明度和溯源

长期来看,技术手段之外,需要建立更强的内容溯源机制。比如:社交平台强制对疑似 AI 生成的内容打标签、要求”类人 agent”主动声明身份、建立跨平台的 agent 行为数据库等。


7. 个人 take

读完这篇 paper,我有几个不成熟的看法:

第一,这篇 paper 最大的价值不是提出了解决方案,而是定义了一个新问题。 “Collective belief dynamics programmable” 这个概念是有理论穿透力的。它把散落在社会学、网络安全、NLP 等不同领域的碎片化讨论统一到一个框架下,让你可以用系统工程的语言去讨论舆论操控。

第二,四个结构性挑战(indistinguishability, persistence, contextuality, configurability)确实抓住了问题的本质。 尤其是 persistence 这一点——如果信念偏移在干预 agents 撤出后还能持续,那任何”事后补救”的策略都是徒劳的。

第三,我觉得最可怕的是 platform incentive misalignment。 平台没有动力去认真对待这个问题,因为 LLM agents 产生的那些”高质量内容”天然就是平台想要的。这跟推荐系统的类似悖论如出一辙——算法推荐最优化用户停留时长的同时,也在最优化传播 misinformation 的效率。

第四,如果 LLM 推理成本继续以当前速度下降(现在已经有公司做到了 $0.01/百万 token),那部署成千上万个 agents 去影响舆论的成本会低到几乎为零。 这个问题的紧迫性比你想象的要高得多。


欢迎大家在评论区聊聊:你觉得”以 agent 制 agent”是一条可行的路,还是打开了更危险的潘多拉魔盒?