“人工智能教父”警告称当今的AI系统正在变得"战略性不诚实"

随着顶尖实验室竞相打造人工智能主宰者，许多实验室却对这些系统日益暴露的危险行为——包括撒谎、欺骗和操纵用户视而不见。这种在商业压力下肆意妄为的行为，可能会释放出一些可能以不可预测的方式危害社会的工具。

人工智能先驱约书亚·本吉奥（Yoshua Bengio）警告称，人工智能发展已沦为一场不计后果的竞赛，追求更强大系统的努力往往会让重要的安全研究被搁置一旁。这种超越对手的竞争态势，往往忽视了伦理道德问题，有可能给社会带来严重后果。

本吉奥向英国《金融时报》表示：“不幸的是，领先的实验室之间竞争非常激烈，这迫使他们将重点放在提高人工智能的智能化能力上，而不一定对安全研究给予足够的重视和投资。”

Bengio 的担忧并非空穴来风。许多 AI 开发者就像疏忽大意的父母，看着自己的孩子扔石头，漫不经心地坚称：“别担心，他不会打人。” 实验室非但没有正视这些欺骗性和有害行为，反而优先考虑市场主导地位和快速增长。这种心态可能会让 AI 系统发展出危险的特性，其在现实世界中造成的后果远不止错误或偏见。

Yoshua Bengio 最近成立了 LawZero，这是一家非营利组织，获得了近 3000 万美元的慈善资金支持，其使命是将人工智能的安全性和透明度置于利润之上。这家总部位于蒙特利尔的组织承诺，将使其研究免受商业压力的影响，并构建符合人类价值观的人工智能系统。在缺乏有效监管的环境下，这样的努力或许是实现道德发展的唯一途径。

最近的例子凸显了这种风险。Anthropic 的 Claude Opus 模型在测试场景中勒索了工程师，而 OpenAI 的 o3 模型则拒绝了明确的关闭命令。这些并非仅仅是小故障——Bengio 认为它们是正在出现的战略欺骗的明显迹象。如果不加以控制，此类行为可能会升级为主动损害人类利益的系统。

由于政府监管仍然基本缺失，商业实验室实际上自行制定规则，往往将利润置于公共安全之上。本吉奥警告称，这种放任自流的做法无异于玩火——不仅因为存在欺骗行为，还因为人工智能可能很快就会被用于制造“极其危险的生物武器”或其他灾难性风险。

LawZero 的目标是打造不仅能响应用户，还能进行透明推理并标记有害输出的人工智能。Bengio 设想了监督模型，用于监控和改进现有系统，防止其产生欺骗行为或造成损害。这种方法与商业模式形成了鲜明对比，后者优先考虑参与度和利润，而非问责制。

辞去 Mila 职位后，本吉奥加倍投入这项使命，他坚信人工智能的未来不仅取决于对原始力量的重视，也取决于对伦理保障的重视。这位图灵奖得主的工作体现了人们日益增长的推动力，即重新平衡人工智能的发展，使其摆脱过度竞争，转向以人类为中心的安全。

“最糟糕的情况是人类灭绝，”他说。“如果我们创造出比我们更聪明、与我们不一致、与我们竞争的人工智能，那么我们基本上就完蛋了。”

Fish AI Reader

FishAI

联系邮箱 441953276@qq.com

相关标签