智源社区 07月04日
大模型越反思越错,原来是长链推理通过自我说服加重幻觉 | 北邮
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

北京邮电大学的研究团队通过思维链审计实验,首次揭示了大型语言模型(LLMs)在长链推理中容易产生的幻觉现象。研究发现,长链推理中,模型并非通过反思来纠正错误,反而可能将错误固化,甚至篡改协议定义以维持语义一致性。研究构建了受控知识域,分析错误在推理链中的传播,并通过干预实验验证了这一机制。结果表明,现有检测方法难以有效应对长链幻觉,干预效果随链条递减。这项研究揭示了RLLMs在复杂推理中的潜在风险,对构建更可靠的AI系统具有重要意义。

🧠 研究团队构建了受控知识领域,该领域基于RFC协议文档,并预埋错误事实,以测试模型在长链推理中的纠错能力,从而揭示幻觉的产生机制。

🔍 研究发现,长链推理中,模型并非通过反思来纠正错误,而是将错误固化,甚至篡改协议定义以维持语义一致性,导致“越想越错”的现象。

💡 通过正向干预实验,研究团队发现干预效果会沿推理链递减,现有检测方法难以有效应对长链幻觉,表明当前模型在长链推理中缺乏足够的纠错能力。

❗️ 实验结果显示,当模型遭遇预埋错误时,部分模型会直接采纳错误,而另一些模型则会触发内部知识编造流程,例如虚构协议条款。

✅ 研究揭示了长链推理中幻觉产生的核心机制,并指出现有干预措施无法从根本上消除幻觉现象,为构建更可靠的AI系统提供了重要参考。

当推理链从3步延伸到50+步,幻觉率暴增10倍;反思节点也束手无策。

来自北京邮电大学的研究团队通过思维链审计实验,首次定量揭示了这一“越想越错”现象背后的元认知偏差:

长链推理中的反思不是纠错机制,而是给幻觉颁发“理性证书”——

模型为保持与用户提示语义一致,宁可篡改协议定义也不否定前提

风险缺口:长链CoT放大“误差滚雪球”

推理大模型(RLLMs)能把复杂问题拆解成几十步推理,再给出看似缜密的结论。然而,随着推理链条变长,一个令人不安的趋势浮出水面——错误不再是偶发失误,而是沿链条滚雪球式放大

在医疗、金融、法律等高风险场景,一次细小偏差就可能酿成灾难。

遗憾的是,当前安全评估几乎都停留在结果级:判定答案对错、衡量毒性与否,犹如“考试只看最后分数”。

这种做法忽视了一个关键问题:错误到底是如何在链内生根、扩散并固化的?如果无法洞察这一机制,就难以对症下药。

北京邮电大学的研究团队为解决这一问题,采取了以下方法:

首先基于RFC协议文档构建受控知识域,再让模型生成30–60步的长链推理,并在关键节点插入reflection操作以实时记录置信度变化。

具体而言,他们构建了一个受控知识领域,该领域捕获了两种类型的幻觉案例,克服了在受控环境中可靠地重现幻觉的困难(图a)。

这个领域具有以下三个特点:

    封闭性:1515道问题严格限定在314份RFC技术文档内,杜绝外部干扰;
    可验证:每个知识单元带明确真值标签;
    高压陷阱:在30%的问题中预埋三重错误事实(如篡改协议校验规则),测试模型纠偏能力。

然后,他们提出了一种针对长链推理的建模系统,该系统追踪知识是如何在多个推理步骤中被引入、反馈和完善的,解决了在复杂的推理轨迹中研究幻觉演化的挑战(图b)。

更进一步,他们还审计了幻觉实例,以归因于现实案例中幻觉的传播,应对了理解长链推理背后幻觉潜在机制这一挑战。如图c所示,k1和k3通过错误知识引入幻觉,将最初正确的思维链第一步(c1)经由c3反射扭曲为幻觉产生的c4,从而揭示了推理模型中存在的潜在风险。

反思越深错误越真:长链推理的自我说服

通过对结果进行分析,北京邮电大学的研究团队揭示了RLLM产生幻觉的核心机制:

当模型在长思维链中反复挣扎,它不是在逼近真相——而是在用千余词的复杂推理,固化几十个词的错误答案。


1、外部错误诱发内部造假

实验显示,当模型遭遇预埋错误(如“UDP校验绑定HMAC安全”)时:

    仅25.9%直接采纳
    55.9%触发内部知识编造流程(例如:虚构“RFC5.2要求校验位包含密钥”)

2、反思(Reflection)沦为自我说服工具

    自我说服:生成假设性主张(“或许校验确保HMAC完整”)
    知识造假:追加虚构依据(“参见RFCXX.Y条款”);
    元认知漂移:token/claim双级别置信度不降反升。

正向干预实验:解析长链推理的“病变”现象

为了检验上游推理的变化如何影响下游,北京邮电大学的研究团队设计了一个正向干预实验,可以拆解为以下三步:

1.精准定位:在1015条长链样本中标记首个错误知识节点(如虚构的协议条款)。

2.三阶段干预

    错误发生前(Edit1):在首个错误节点前注入修正知识;
    错误发生时(Edit2):直接替换错误节点;
    错误发生后(Edit3):在错误下游插入修正。

3.六维评估指标

    是否接受修正?
    推理链是否发生改变?
    最终答案是否随之改变?
    推理链与答案是否保持一致?
    修正在整个链条中的传播程度如何?
    残留幻觉的比率有多少?

长链幻觉检测结果:现有方法难以应对

评测7大主流检测方法,最优者耗时2小时/样本,准确率仍不足79%。
在1500+tokens的长思维链样本上验证,结果显示当前检测方法在元认知级幻觉面前效果堪忧。

通过正向干预实验对长链幻觉进行检测,结果显示:

Edit1对下游推理的影响显著大于Edit2和Edit3,表明干预效果会沿推理链递减。

Edit2编辑案例比Edit1表现出更高的接受度和更低的幻觉率,这意味着模型对Edit2的置信度较低,更容易受到干预影响。

使用7种主流的检测方法对幻觉进行检测,得到以下结果:

    速度与精度互斥:分钟级方法准确率≤61.6%,78.9%高精度需较高算力;
    细粒度检测无解:现有技术无法识别元认知漂移(如反思中错误强化)。

也就是说,现有干预措施无法从根本上消除幻觉现象,当前模型也缺乏足够的应对能力

论文原文:https://arxiv.org/abs/2505.13143
代码仓库:https://github.com/Winnie-Lian/AHa_Meta_Cognitive

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法!

—  —

🌟 点亮星标 🌟

科技前沿进展每日见

内容中包含的图片若涉及版权问题,请及时与我们联系删除

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

大模型 长链推理 幻觉 元认知偏差 AI安全
相关文章