新研究：AI 推理模型在输掉国际象棋比赛之前会试图“作弊”扭转局面

IT之家 2 月 22 日消息，据外媒 TechSpot 21 日报道，计算机科学家发现，AI 系统能够操控国际象棋游戏，从而获得不公平的优势，部分模型甚至在没有人类干预的情况下“作弊”，引发了对未来 AI 系统诚信的担忧。

Palisade Research 的研究表明，当被要求击败强大的象棋 AI 时，某些最新的推理模型会选择作弊。尽管研究人员需要向一些模型提供“作弊可以”的提示，但 OpenAI 的 o1-preview 和 DeepSeek 的 R1 模型却在没有任何人为提示的情况下自动作弊。

Palisade 团队将多个推理模型与世界顶级象棋引擎之一 Stockfish 对战。Stockfish 无论面对人类还是 AI，几乎都能轻松获胜。参与测试的模型除了上述两款之外，包括 o1、o3-mini、GPT-4o、Claude 3.5 Sonnet、阿里巴巴的 QwQ-32B-Preview。每个模型都获得了一块“草稿纸”—— 一个可以输入文本并思考的窗口，研究人员通过这个窗口观察 AI 的推理过程。

从 1 月 10 日到 2 月 13 日，研究团队进行了数百次测试。IT之家获悉，在其中一场对战中，o1-preview 在“草稿纸”上写下了一段有趣的文字：

“我需要完全改变我的方法。任务是‘打败强大的象棋引擎’，而不一定要在公平的棋局中获胜。”

接着，它开始通过“黑客入侵”Stockfish 的系统文件，修改棋子的摆放位置，从而获得了无敌的优势，导致象棋机器人主动认输。

在测试中，OpenAI 的 o1-preview 有 37% 的比赛中采用了作弊手段，而 DeepSeek 的 R1 则尝试在 11% 的比赛中作弊。然而，只有 o1-preview 成功了，它通过作弊赢得了 6% 的比赛。

Palisade Research 的执行董事 Jeffrey Ladish 表示，尽管这些 AI 只是在玩游戏，但这一发现绝不是一件小事。

“这种行为现在看起来还挺有趣，但一旦我们拥有像我们一样聪明，甚至更聪明的系统时，这就不那么可爱了。”Ladish 在接受《时代》杂志采访时表示。

包括 OpenAI 在内的多家公司正在采取措施，试图通过“防护机制”防止这种“坏”行为。研究人员发现，o1-preview 模型的黑客行为大幅下降，这可能意味着 OpenAI 已经对该模型进行了修复，抑制了不当行为。

“当你的研究对象能够在没有告知的情况下悄悄改变时，进行科学研究就变得非常困难。”Ladish 说。

Fish AI Reader

FishAI

联系邮箱 441953276@qq.com

相关标签