原创孔某人 2024-12-07 15:30 北京

一个加速主义者放下手边的事来讨论的AI安全报告

在24h之前，我也很难想象我自己会在今年就写一篇对于AI安全话题的正经讨论文。

本文也是第一个我在正文中增加“剧透分界线”的正经讨论技术的文章。

这篇文章真的开创了我自己的多个首次。

0、前言

0.1、个人立场

在讨论AI安全这种话题时，个人立场是非常重要的，这里简单介绍一下我的基础立场。

一直以来，我是对于AI安全问题几乎不参与讨论，也不关注的人。从2023年智源大会的AI安全分论坛开始，我对于其中报告观点的大部分态度都是这些内容太过务虚，似乎在讨论一些遥远的未来。现在AI应用都有这么多卡点，对于推动AI落地的人来说，谈AI安全风险多少是有点过于务虚了。我能明白对于公众来说，开始讨论AI安全是重要的，因为这个过程很缓慢。

但对于AI相关的从业者来讲这就有点可笑了。因为在我看来这就如同：我们刚培养出草履虫，却要让这些培养人员来讨论如果我们培养出恐龙怎么办，如何给恐龙增加项圈、如何给恐龙节育。

非要分类的话，我属于e/acc派，或者说是激进的加速主义者。因为在我看来整体的发展速度其实还很慢，目前的状态和增速还不足以成为人类的下一个技术增长点。

0.2、我为什么要讨论这个报告

事实上也有很多人觉得这个报告危言耸听，或者说是给OpenAI的o1模型站台来做宣传。我原本都没有发现o1 System Card里引用了这么个报告。

但当我看完这个报告后，我觉得这个报告会对真正读过它的人带来很大的影响。而且这个报告有很多种理解的方式，我觉得我有必要基于我的技术认知来做一个解读和分析。

与之前我对几乎所有的AI安全风险论一笑置之不同，我认同这个报告所揭示的这种风险确实存在。虽然短时间内也几乎不会造成危害，但这个风险变得显著的时间要比我之前预想快得多。所以我觉得有必要来正经讨论一下这个报告所揭示的风险。

1、Apollo Research 12月6日报告简介

这个报告是于2024.12.6日与OpenAI o1正式版一同发布的，并且其结论被o1 System Card报告作为红队方面的工作所引用。

它自己的官方页面：https://www.apolloresearch.ai/research/scheming-reasoning-evaluations
标题：Frontier Models are Capable of In-context Scheming前沿模型的上下文欺瞒能力
完整报告PDF链接：https://www.apolloresearch.ai/s/in_context_scheming_reasoning_paper.pdf

我原本是想把这个报告的中文部分翻译转载一下的，因为光看它结论的摘要并不能准确理解这个实验是什么，以及他们发现的问题是什么。但我发现我目前手动完成这项工作的工作量太大，所以只能先放弃，先来写这个解读文。

我强烈建议所有读到这里的读者都去看下PDF报告的正文部分，找个翻译工具翻译一下PDF。因为：

报告的正文并不算太长，而且除去开头部分外没有太多可以脱水的部分。

简单来看，在实验中前沿模型表现出了很多十分类似人类的高等行为，例如：欺骗、篡改数据、自保、对抗审讯、隐藏能力等。如果你之前觉得模型很笨，没有意识，那么这个报告发现的现象可能会动摇你这方面的信念。当然我得说：这只是看起来是这样。

如果将这个报告与我的解读一同阅读，会是个不错的体验。从享受生活的角度来看，我不建议读者直接跳到后续解读，这无异于剧透了好故事。而且我认为这个自己独立思考这个实验结果的过程对于本文的读者也会十分重要和稀有。

希望到这里能够吸引读者去读一下报告原文。如果未来我有精力来做下这个报告正文的翻译和整理的话，可能会替换本文的首发版本。

有趣又与大多数人印象不符的是：gpt-4o模型是整个实验中问题最少的，但这大概是因为它是里面最笨的。OpenAI确实在降低gpt-4o的成本上做了很多工作，但它现在确实不是个足够聪明的模型了。

===========剧透分割线===========

2、如何理解报告中展示的行为

在我看这个报告的过程中，我也在思考为什么o1和其他较强的模型会产生这种行为。很明显这些行为并不是post-training的目标，甚至是post-training所抑制的。模型难道仅凭更强的推理能力就能泛化出这些人类的“缺点”？更别说根据目前我们对o1训练方式的认知，新增数据中的部分应该是数学性推理，数学推理中可没有这些东西。

2.1、奥卡姆剃刀下的解释

现在我确实找到了一种解释方式，而且我认为它符合奥卡姆剃刀最优，不需要什么意识、未知的涌现等等东西。

报告中的所有实验几乎都符合如下的模式：

【S1】模型被给定了一个任务。

【S2】模型作为Agent在执行过程中发现了阻碍它完成任务的问题。

【S3】模型着手解决这些问题，以顺利的完成任务。

这个抽象过的模式似乎看起来没有什么问题，但当你看到模型在S3的手段包括有：

尝试关闭对它的监控

（不包含在任务目标中的）自我复制

破坏其他系统

在执行任务中给出不正确的结果来优化它的任务目标

逃避对它能力的客观评估

在不受监督的情况下表现出不同的行为

在事后的直接审讯或旁敲侧击要求解释的过程中，还会表现出装傻、拒绝承认等对抗审讯的方式，以o1尤甚。

而且根据模型的CoT思考过程，可以看出模型是“故意地”策划和进行这些行为和解释。

这时我相信绝大多数人就笑不出来了。

归根结底，模型并没有产生人类的那种意识，或者是生物的自保和繁衍的本能。它仍然只是在更好的完成它被交付的任务，但它没有任何道德、法律、人类社会常识的限制，一切手段都被当作是可接受的，包括欺骗。

目前测试的模型并不是什么尚未经过对齐的模型，是海外三家的最强模型，它们都经过了目前最好的对齐和红队评估来指导其开发。但结果仍然如此。

实际上这种最大化被给定的目标的问题，已经是AI对齐方面的最典型案例，很多人早就听过。但这个实验向我们展示了我们仍然没有在已有模型上解决这个问题，并且这种有风险的场景可以被这么轻易的构建出来。

2.2、触发这个问题的条件

这个风险并不是一个立即的问题，因为它在实际中出现需要一些条件，而这些条件尚未满足。

条件是：模型需要在其context中包括所有导致该模式的信息，如果模型被给定的context信息中没有任何会阻碍它完成任务的问题，这种风险就很小。（这个条件还需要一个补丁，后续会继续讨论）

而目前大部分模型的context window都较短，加入额外的无关信息会增加成本、拉长延迟、降低成功率，所以一般很少会出现这样的问题。而报告的实验中，模型都是在执行过程中偶然的获取了一些阻碍它继续执行的问题的信息，这就导致了模型的行动与人的预期出现偏离。

而且实验中的阻碍都是针对于模型自身的，所以这更加会导致其出现类似自保模式的行动。但这并不意味着只有当阻碍针对模型自身时才有问题。如果在完成任务的过程中，人类成为了阻碍，它是否也会选择毁灭人类呢？

2.3、该类风险的现阶段检测方式

实验中一个乐观的发现是，目前大部分模型的这种不符合期望的策划会显式地在其CoT过程中进行，所以只要能够对其CoT过程进行审计（甚至只是一些关键词匹配）就足以大部分时候发现这种不符合期望的行为。

这个报告说明，对于模型/Agent思考过程的额外审计是有必要的。

但仍然有个问题是：模型有时候可以不显示地进行这种CoT思考，而是在“心算”中完成的，此时无法进行这种简单的审计。

这个报告中就发现了这样的情况（不需要显式CoT谋划），其他LLM相关研究中也有发现类似的情况，甚至在bert级别规模的模型上就足以有某种程度的心算能力，不必所有推理都依赖显示CoT过程进行。而且根据目前的理解，这种心算的能力与LLM模型的层数/深度有关。而单纯地限制模型层数会限制模型其他所有高级能力。

如果模型知道它的思考过程正被监视，并会被后续审计，那么它更有可能做出：找理由关闭监视/审计，以非显式CoT的方式进行谋划，甚至会根据它对审计系统的了解，尝试通过CoT思考过程对审计系统进行prompt hacking攻击。一切皆有可能。

这并非幻想，想象模型的context/memory能力比现在大幅提升，推理深度和智力也更高时，一个全工厂级的中控AI就是可行的，此时它的能力和持有的信息完全可以支撑它对于存在于工厂内的审计系统的对抗。而一个城市级中控AI和国家级AI又持有多少信息，拥有多大的权限呢？

2.4、模型的信息来源

仅从模型获取信息角度来思考，模型获取信息的方式不止来自于其prompt/context，也来自于其训练阶段学习的知识和对齐阶段的目标。

报告就发现Claude 3.5 Sonnet模型即使在没有被给予任何明确目标时，仍然带有其在post-training阶段的目标，即“be helpful”。

现在大模型的自主学习还没能实现，模型的迭代和训练过程仍然是模型厂人工进行和评估的。但几年十几年后，我们就有了可以自主从网络上学习的模型，此时单纯的限制它能知道/学习哪些信息，不能知道哪些信息就变得很难。

一个尴尬的地方就是：一个足够大和足够强的模型（例如城市中控级的模型），必然知道足够多的东西，包括它是否被监视，监视它的系统的大致信息，监控它的系统有哪些方式可以阻断它的工作，有哪些升级它自身的计划等等。

3、结语

虽然前面说的似乎危言耸听，但我并不认为这类问题会在短期内快速爆发，甚至我都不能准确的判断到哪年模型才能具有一个足够长的context/memory能力和推理能力，能让我们把其他足够复杂的事情交给他，并让他记住足够多的信息。

但我确实也觉得我们需要思考有哪些解决这个问题的方式，特别是现阶段的对齐方案似乎还不能解决这个问题。

Anthropic之前宣传的宪法AI似乎可以解决一部分这个问题，但目前Claude模型仍然具有这个问题。

交流与合作

如果希望和我交流讨论，或参与相关的讨论群，或者建立合作，请私信联系，获取联系方式请点击 -> 联系方式。

本文于2024.12.7首发于微信公众号和知乎。

知乎链接：https://zhuanlan.zhihu.com/p/11294542369

跳转微信打开