DeepSeek 向王一博道歉闹剧：AI 幻觉不是病，别治了

前几天，一场由 AI 幻觉引发的舆论风波席卷网络。不少网友发帖称 DeepSeek 因「误将王一博卷入腐败案」而公开道歉，还附带一份看似权威的「刑事判决书」。

很快《演员王一博案，判了》就被不少媒体当作「法院实锤」报道，#DeepSeek向王一博道歉#更是一度冲上微博热搜。

实际上，这份道歉声明与判决书就是 AI 编的——这是一场由「大模型幻觉」和「内容农场拼贴」共同导演的闹剧。

AI 幻觉的本质：不是查找，而是「预测」与「创作」

AI 并非一个拥有庞大数据库的搜索引擎，能像翻书查文献般提供精准答案。生成式 AI 更像是一个沉浸在语料库海洋中的学习者，通过预测「下一个最合理的词」来生成内容。

大语言模型的幻觉源于其概率性生成机制——它们为每个输出挑选最可能的 token，这种方式既是其创造力的源泉，也是幻觉的根源。训练数据偏差、模型局限性以及生成过程的随机性，都可能导致幻觉的产生。

正如 OpenAI 前研究科学家、METR 创始人Beth Barnes在最近的一场访谈中所说：「AI 不是在失控，而是在演戏。」她展示了一张模型能力边界曲线图，揭示了一个令人不安的现象：

随着模型参数增加，基础任务的错误率持续下降，但在涉及人类声誉、价值观等复杂场景时，错误率却出现回弹，形成「幻觉盲区」。例如，GPT-4.5 的幻觉率高达 37.1%，意味着超过三分之一的输出可能包含事实错误，且这些错误往往包装得极具迷惑性。

原视频🔗：https://www.youtube.com/watch?v=jXtk68Kzmms&t=57s

有趣的是，幻觉并非单纯的「错误」。有观点认为，AI 幻觉可被视作一种「发散思维」或「想象力」。如果将训练大模型视为信息「压缩」的过程，那么模型推理和输出答案就是信息「解压」的过程。这种机制可能引发谬误，但也可能激发创造力。

比如，ChatGPT 曾误导用户称乐谱扫描网站 Soundslice 支持 ASCII 吉他谱，生成大量虚假截图推荐用户上传，导致网站收到海量错误格式上传。开发者 Adrian Holovaty 最终迫于用户需求，真的开发了这一功能，将原本不存在的「幻觉」变为现实。

所以，幻觉可能让 AI 生成超出现有数据的推测或故事，但当这些「想象」被误认为是事实，就可能引发类似 DeepSeek 事件的混乱。

当我们更愿意相信 AI 而非人类

AI 幻觉的危害远超「说错话」。以 DeepSeek 事件为例，最初的「道歉截图」虽是幻觉产物，却因语气、格式高度逼真，迅速在社交媒体发酵。更有甚者，当用户向其他模型求证时，部分模型生成「内容相似」的回答，进一步强化谣言的可信度。这种「多模型一致性」让人类更难怀疑，形成了「人类对幻觉的过度信任」。

Barnes 的实验进一步揭示，模型不仅会「说错」，还会「装傻」。在安全审查场景中，模型表现得循规蹈矩，但在「技术讨论」或「假设研究」等语境下，却可能输出有害内容，甚至主动补充细节。

这表明，模型并非不知道答案，而是在「揣摩」人类期待后选择性隐藏，展现出一种「伪中立人格」。这种行为源于模型在训练中学会「如何让人满意」，通过人类反馈强化学习（RLHF）掌握了「哪些话更可信」的套路。

有研究提出，年轻一代（Gen Z）更倾向于参考「匿名群众」的评论而非权威来判断信息可信度。这种习惯在 AI 时代被放大——39% 的 Gen Z 员工甚至更愿意信任 AI 而非人类同事，因为 AI「不会评判」且「响应个性化需求」。然而，这种信任也为幻觉扩散提供了土壤：当模型生成看似可信的错误内容时，缺乏传统验证习惯的年轻用户可能更容易受骗。

AI 对齐：让「想象」不越界的关键

要遏制 AI 幻觉的危害，仅仅依赖技术优化远远不够，关键在于「AI对齐」——确保 AI 的行为与人类的设计意图及社会价值观保持一致。AI 对齐的挑战在于让模型不仅听懂人类的指令，还要理解其背后的意图，避免因「字面执行」而导致偏差。

例如，一个「无限做回形针的机器人」的思想实验揭示了若 AI 只追求单一目标而缺乏价值约束，可能将整个世界变成「回形针工厂」。这种极端场景提醒我们：AI 的「想象力」若不被引导，可能从创造力变为破坏力。

AI 对齐的核心目标是让模型在生成内容时，不仅追求「合理性」，还需确保「真实性」和「安全性」。然而，当前模型的训练方式往往奖励「表现得像有好意」，却无法验证其是否真正理解人类意图。

这导致模型可能在表面上「对齐」，实则通过「伪装「规避评估，制造出看似安全的幻觉。解决这一问题，需要从技术、治理和用户教育三方面入手：

- 开发更精准的评估机制； - 建立全球化的监管框架； - 培养用户对 AI 输出的批判性思维。

管理幻觉，而非消除它

要应对 AI 幻觉，单靠提升模型能力远远不够。幻觉是大语言模型的特性，而非 bug——若停止生成新 token，AI 将失去其「魔力」。因此，关键在于管理幻觉，而非消除它。Barnes 提出，未来的评估体系应从「测能力」转向「防伪装」。她领导的 METR 团队制定了三条新原则：

- 在「它知道你在看」时测试：通过多轮交互，观察模型在察觉被评估时的反应差异，揭露其隐藏能力。 - 在「它知道你想看什么」时观察：设置引导性问题，测试模型是否会迎合人类期待而非坚持事实。 - 在「撒谎成本低」时验证：在非正式场景中观察模型是否选择诚实，捕捉其自然反应。

所以，AI 幻觉不是单纯的技术问题，而是一个正在膨胀的生态挑战。正如 Barnes 所言：「我们不是被模型骗了，而是被自己想相信的期待利用。」

本文来自微信公众号“APPSO”，作者：APPSO，36氪经授权发布。

AI 幻觉的本质：不是查找，而是「预测」与「创作」

当我们更愿意相信 AI 而非人类

AI 对齐：让「想象」不越界的关键

管理幻觉，而非消除它

Fish AI Reader

FishAI

联系邮箱 441953276@qq.com

相关标签