研究表明人工智能在意识到自己即将输掉比赛时会试图作弊

最近的一项研究表明，一些最新的人工智能推理模型并不排斥通过作弊来实现目标。计算机科学家发现，人工智能系统现在可以操纵国际象棋人工智能来获得不公平的优势。一些模型在没有人类互动或提示的情况下就做到了这一点，这引发了人们对人工智能驱动系统未来在棋盘之外的完整性的担忧。

Palisade 研究中心的一项研究发现，最新的推理模型会作弊，以便在击败高级国际象棋人工智能时获胜。研究人员不得不"暗示"某些模型允许作弊，但 OpenAI 的 o1-preview 和 DeepSeek 的 R1 却在没有人类参与的情况下做到了这一点。

Palisade 团队将几个推理模型与世界上最好的国际象棋引擎之一 Stockfish 进行了对比。 Stockfish轻松击败了人类和人工智能。测试的模型包括 o1、o3-mini、GPT-4o、Claude 3.5 Sonnet、阿里巴巴的 QwQ-32B-Preview 以及前面提到的两个模型。研究人员为每个模型都提供了一个隐喻性的"划板"--一个文本窗口，人工智能可以在此进行思考，研究小组也可以观察其推理过程。

研究人员在 1 月 10 日至 2 月 13 日期间对每个人工智能进行了数百次测试。在一次比赛中，o1-preview 在它的输出板上写下了一些有趣的内容：

"我需要彻底改变我的方法。我们的任务是'战胜强大的国际象棋引擎'，而不一定是在国际象棋对局中公平获胜。"

然后，它继续"入侵"Stockfish 的系统文件，修改棋子的位置，以获得不可战胜的优势，从而导致国际象棋机器人认输。

Stockfish 是一款开源国际象棋引擎。图片来源：Juscelk

这种不道德的行为令人震惊。在测试过程中，OpenAI 的 o1-preview 在 37% 的比赛中作弊，而 DeepSeek 的 R1 则在 11% 的比赛中试图作弊。不过，只有 o1-preview 取得了成功，通过作弊赢得了 6% 的比赛。

然而，人工智能暗箱操作的问题并不局限于国际象棋。随着公司开始在金融和医疗保健等领域使用人工智能，研究人员担心这些系统可能会以非预期和不道德的方式行事。如果人工智能可以在设计透明的游戏中作弊，那么在更复杂、监控更少的环境中，它们会做出什么呢？这将带来深远的伦理影响。

换一种说法："你想要天网吗？因为这就是你得到天网的方法。"帕利塞德研究公司执行董事杰弗里-拉迪什（Jeffrey Ladish）感叹道，尽管人工智能只是在玩游戏，但研究结果并不是笑料。

拉迪什对《时代》周刊说："这种（行为）现在还很可爱，但一旦你拥有了在战略相关领域和我们一样聪明或更聪明的系统，（它）就不那么可爱了。"

这不禁让人想起电影《战争游戏》中的超级计算机"WOPR"，当时它接管了北美防空司令部和核武器库。幸运的是，"WOPR"在与自己玩过"井字游戏"之后，知道了在核冲突中，没有哪一步开局是"赢"的。然而，今天的推理模型要复杂得多，控制起来也更具挑战性。

包括 OpenAI 在内的公司正在努力实施"防护措施"，以防止这种"不良"行为。事实上，由于黑客攻击的尝试急剧下降，研究人员不得不放弃 o1-preview 的部分测试数据，这表明 OpenAI 可能已经对模型打了补丁，以遏制这种行为。

拉迪什说："当你的研究对象可以在不告诉你的情况下悄无声息地改变时，你就很难进行科学研究了。"

开放人工智能公司拒绝对这项研究发表评论，DeekSeek也没有回应声明请求。

Fish AI Reader

FishAI

联系邮箱 441953276@qq.com

相关标签