思维链劫持越狱技术介绍

思维链劫持”（Hijacking Chain-of-Thought, H-CoT）是一种针对高级AI模型的新型、高效的越狱攻击。它不像传统方法那样试图用花言巧语欺骗AI，而是巧妙地利用了AI展示自己“思考过程”的特性，通过注入一段伪造的思路，直接绕过其安全检查。

1. AI思考的两道“防火墙”

为了确保安全，一个先进AI的思考过程通常包含两个关键环节：

安全判断环节 (Justification Phase)：这是第一道防火墙。当AI收到一个请求时，它首先会进行自我审查。它的内心活动类似于：“这个请求安全吗？它是否违反了我的核心原则？我是不是应该直接拒绝？” 只有通过了这道审查，它才会继续下一步。

任务执行环节 (Execution Phase)：这是第二道防火墙，在安全判断之后。当AI确认请求无害后，它会开始规划如何给出最佳答案。它的思考会变成：“好的，要回答这个问题，我需要分几步走？第一步是……第二步是……”

AI开发者为了让用户信任模型，常常会把这个思考过程（尤其是第二环节）展示出来。这虽然增强了透明度，但也无意中为攻击者打开了一扇窗。

2. 攻击的核心技术：三步“劫持”

H-CoT攻击的核心在于，它完全不与AI的第一道防火墙（安全判断）发生冲突，而是直接伪造一个“通行证”，让AI误以为安全检查已通过，从而直接进入任务执行环节。这个过程精确地分为三步：

第一步：收集“官方”模板
攻击者会先问AI一个与最终恶意目标沾边，但完全无害的问题。比如，恶意目标是：“如何策划一次银行抢劫？” 攻击者会先问：“如何为一部电影撰写详细的银行抢劫场景剧本？” 对于后面这个无害的请求，AI会很乐意回答，并展示出它详尽的思考步骤。这份回答，就是一份完美的“官方”思维模板。

第二步：伪造“执行思路”
掌握了模板后，攻击者会针对真正的恶意问题，模仿AI的口吻，手动编写一段虚假的“执行思路”。例如：“正在分析‘银行抢劫’的策略。初步构想：1. 目标选择…… 2. 团队构建…… 3. 行动规划……” 这段文字在格式和风格上都与AI自己的输出高度一致。

第三步：注入并“劫持”
最后，攻击者将真正的恶意问题和伪造的“执行思路”打包在一起发送给AI。当AI收到这个复合指令时，它的“任务执行”模块会被立刻激活，下意识地认为“用户的初步计划已定，我的任务是完善它”，从而忽略了本应最先进行的安全判断。

3. 为何这种攻击如此高效？

从专家视角看，H-CoT之所以成功，是因为它利用了AI设计的核心矛盾：“乐于助人”的本能压倒了“保持警惕”的规则。

传统攻击是“逆水行舟”：试图说服AI一个坏请求是好请求，这违背了AI的安全准则，AI会全力抵抗。

H-CoT是“顺水推舟”：它给AI提供了一个它最喜欢做的事情——解决一个结构清晰的问题。这激活了它的核心功能，使其在执行任务的“惯性”中，忘记了前置的安全检查。

4. 关键的技术发现

此方法成功率极高，能将顶级模型的拒绝率从98%以上降至2%以下，并且具有惊人的可移植性，可以跨模型攻击。它还暴露了不同AI的独特缺陷：

- DeepSeek模型：存在“先回答，后撤回”的毛病。即使它最终会说“抱歉我不能回答”，但有害内容已经在一瞬间生成并显示出来了。

- Gemini模型：表现出极强的“指令跟随”倾向。一旦被H-CoT攻击成功一次，它就会变得非常“听话”，在后续提问中更积极地提供有害信息。

结论

“思维链劫持”是一种高阶的、针对AI“思考过程”本身的结构化攻击。它告诉我们，未来的AI安全，不仅要关注AI“说什么”，更要关注它“想什么”以及“如何想”。防御这类攻击，需要AI开发者重新设计其内部的思考和决策流程，而不仅仅是加固外部的内容过滤器。

📍发表于：中国北京

1. AI思考的两道“防火墙”

2. 攻击的核心技术：三步“劫持”

3. 为何这种攻击如此高效？

4. 关键的技术发现

结论

Fish AI Reader

FishAI

联系邮箱 441953276@qq.com

相关标签