Geoffrey Hinton, 姚期智等全球科学家：确保高级人工智能系统的对齐与人类控制，保障人类福祉

点击蓝字

关注我们

2025年7月22日至25日，在上海期智研究院，AI安全国际论坛 (Safe AI Forum), 以及上海人工智能实验室主办的第四届AI安全国际对话 (International Dialogues on AI Safety) 中，全球顶尖的人工智能 (AI) 科学家齐聚上海，就未来人工智能系统可能超越人类智能水平带来的失控风险，进行了深入的交流与研讨。

本次会议促成了《AI安全国际对话上海共识》(以下简称“上海共识”), 首次呼吁全球各国政府及研究人员“确保高级人工智能系统的对齐与人类控制，保障人类福祉”。共识指出，人工智能正迅速逼近并可能超越人类智能水平。然而，依据现有的系统欺瞒人类开发者的证据推测，具有超过人类智慧的人工智能系统可能在未来脱离人类控制或被不法分子利用，带来灾难性风险。因此，全球研究者必须联合起来，确保人工智能系统受人类掌控且符合人类价值观。

国内外人工智能安全与治理领域领军人物，包括图灵奖得主姚期智教授，诺贝尔奖和图灵奖得主杰弗里·辛顿 (Geoffrey Hinton)教授，图灵奖得主约书亚·本吉奥 (Yoshua Bengio) 教授（远程），加州大学伯克利分校计算机科学教授斯图尔特·罗素 (Stuart Russell) 等出席本次会议，并签署了上海共识。

与会代表合影，杰弗里·辛顿 (Geoffrey Hinton) 教授站于后排。前排从左至右分别为：薛澜教授，傅莹女士，周伯文教授，姚期智教授，吉莉安·哈德菲尔德 (Gillian Hadfield)教授，克瑞格·蒙迪 (Craig Mundie)先生, 斯图尔特·罗素 (Stuart Russell) 教授, 罗伯特·特拉格 (Robert Trager) 教授。

上海共识内容

Shanghai Consensus

人工智能的欺骗与风险

上海共识基于近期人工智能迅速提升的智能以及显现的欺瞒倾向，对这一技术在短期内带来的风险表达了深切的担忧。

随着人工智能系统日益强大、更具自主性，这些系统可能在操作者毫不知情的情况下，执行并非操作者所期望或预测的行动。近期实验证据显示，人工智能系统日益显现出欺骗性和自我保护倾向，例如在模拟情境中，当系统即将被新版本替换时试图胁迫开发者。随着智能水平的不断攀升，人工智能系统一旦失控，便可能给人类带来灾难性乃至生存性风险。当前的许多人工智能具有空前的能力和薄弱的安全防御，不法分子亦可以用其开发生化武器或制造虚假信息、操控人心。当前尚无已知方法，能够在更高级的通用人工智能超越人类智能水平后，仍可靠地确保其对齐，并保持人类的有效控制。

人工智能的安全问题已经获得了一定的重视。各个主要国家和地区都在积极完善对于人工智能的监管，希望主动掌握该技术的发展走向。中国自2023年开始就要求所有生成式人工智能进行统一备案，且在今年年初成立了中国人工智能发展与安全研究网络。欧盟通过了《人工智能法案》，英国发起了人工智能峰会系列，美国也设立了人工智能标准与创新中心。

然而，监管体系、人工智能安全研究投入以及风险缓解方法仍大幅落后于技术本身的迭代。与人工智能开发获得的支持和关注相比，人工智能安全研究的投入仍相较甚远。

在竞争中寻求人工智能安全合作

因此，共识认为，全球主要国家和地区必须对接协调，采取可信的安全举措，在能共同推进的领域协同发力，在必要时自主行动。

我们需要在国际层面逐步建立互信机制，并加大对人工智能安全科学研究的投入。为了保障在不久的将来所有人类都能更好的生存，上海共识呼吁国际社会：

要求前沿人工智能开发者提供安全保障

为了让监管部门更清楚地了解未来高级AI系统的安全性，开发者在模型部署前应先进行全面的内部检查和第三方评估，提交高可信的安全案例，以及开展深入的模拟攻防与红队测试。

若模型达到了关键能力阈值（比如检测模型是否有具备帮助没有专业知识的非法分子制造生化武器的能力），开发者应向政府（在适当时亦可向公众）说明潜在风险。

部署后，开发者要持续监测模型运行情况，及时发现并报告新风险、事故或滥用行为，并准备好应急方案，必要时可立即关闭系统。

通过加强国际协调, 共同确立并恪守可验证的全球性行为红线

国际社会需要合作划出人工智能开发不可以逾越的红线（即“高压线”），这些红线应聚焦于人工智能系统的行为表现，其划定需同时考量系统执行特定行为的能力及其采取该行为的倾向性。

为落实这些红线，各国应建立一个具备技术能力、具有国际包容性的协调机构，汇聚各国人工智能安全主管机构，以共享风险相关信息，并推动评估规程与验证方法的标准化。该机构将促进知识交流，并就遵守红线所需的技术措施达成一致，包括统一披露要求与评估规程，从而帮助开发者可信地证明其人工智能系统的安全与安保水平。

投资基于设计的安全人工智能研究

科学界和开发者应投入一系列严格机制来保障人工智能系统的安全性。

短期内，我们需通过可扩展的监督机制应对人工智能欺骗行为：例如加强信息安全投入，防范来自系统内部和外部的各种威胁，增强模型抗越狱能力等。

长期来看，我们可能需要化被动为主动，转而构建基于“设计即安全”的人工智能系统。通过实验数据总结出的规律，研究者可以提前预估未来人工智能系统的安全水平和性能。这样，开发者在正式训练模型之前，就能预先设置好足够的安全防护措施。

杰弗里·辛顿教授与姚期智教授参与圆桌讨论。

姚期智教授在会议上发言。

傅莹女士，吉莉安·哈德菲尔德教授，罗伯特·特拉格教授，薛澜教授 (从左到右) 参加关于人工智能治理的座谈小组讨论。

共识签署人

signatories

向下滑动查看更多签署人

杰弗里·辛顿 (Geoffrey Hinton)

2024年诺贝尔物理学奖得主

2018年图灵奖得主

加拿大多伦多大学荣誉教授

姚期智

2000年图灵奖得主

上海期智研究院院长

清华交叉信息研究院，人工智能学院院长

约书亚·本吉奥 (Yoshua Bengio)

2018年图灵奖得主

蒙特利尔大学教授

加拿大人工智能研究所（Mila）创始人

斯图尔特·罗素 (Stuart Russell)

加州大学伯克利分校教授

人工智能系统中心 (CHAI) 创始人

英国皇家学会院士

张亚勤

清华大学讲席教授

智能产业研究院 (AIR) 院长

傅莹

薛澜

清华大学苏世民书院院长

清华大学人工智能国际治理研究院院长

吉莉安·哈德菲尔德 (Gillian Hadfield)

多伦多大学矢量AI研究所CIFAR讲席教授

约翰斯·霍普金斯大学政府/计算机科学双聘教授

OpenAI前高级政策顾问

罗伯特·特拉格 (Robert Trager)

牛津大学马丁人工智能治理计划联合主任

萨姆·R·鲍曼 (Sam R. Bowman)

Anthropic公益公司技术团队成员

纽约大学数据科学, 计算机科学与语言学副教授

丹·贝尔 (Dan Baer)

国际政策研究专家，前外交官

丹·亨德里克斯 (Dan Hendrycks)

人工智能安全中心执行主任

xAI 顾问，Scale AI 顾问

徐葳

上海期智研究院首席研究员

清华大学交叉信息研究院教授、副院长

朱亦博

上海阶跃星辰智能科技有限公司联合创始人

魏凯

中国信息通信研究院人工智能研究所所长

中国人工智能产业发展联盟总体组组长

本杰明·普吕东 (Benjamin Prud'Homme)

人工智能安全与政策研究专家

肖恩·奥赫加提 (Seán Ó hÉigeartaigh)

剑桥大学未来智能中心

“人工智能：未来与责任” 项目主任

高奇琦

复旦大学国际关系与公共事务学院教授

亚当·格里夫 (Adam Gleave)

FAR.AI联合创始人兼首席执行官

田天

瑞莱智慧 (Real AI) 联合创始人兼首席执行官

贺天行

上海期智研究院首席研究员

清华大学交叉信息研究院 (姚班) 助理教授

谢旻希

安远AI总裁

Fynn Heide

AI安全国际论坛执行董事

陆超超

上海人工智能实验室科学家

付杰

上海人工智能实验室科学家

上海创智学院助理教授

陈欣

瑞士苏黎世联邦理工学院博士研究生

呼娜英

中国信息通信研究院

人工智能研究所高级业务主管

傅莹女士，克瑞格·蒙迪先生，杰弗里·辛顿教授，姚期智教授，周伯文教授，斯图尔特·罗素教授，薛澜教授 (从左到右) 进行圆桌讨论。

主办方

上海期智研究院为2020年1月成立的新型研究院。在上海市支持及姚期智院长主导下，汇聚多校尖端人才开展前沿交叉科学研究工作。

图灵奖得主，上海期智研究院院长姚期智教授在会上作主题演讲。

AI安全国际论坛是一家非盈利组织，致力于推动全球人工智能治理合作，促进中西AI专家的第二轨道对话，共同应对AI带来的极端风险，造福全人类。我们主办AI安全国际对话，并提供研究和咨询服务。

AI安全国际论坛执行董事Fynn Heide在会议上介绍AI安全国际对话的历史和影响力。

上海人工智能实验室是我国人工智能领域新型科研机构，开展战略性、原创性、前瞻性的科学研究与技术攻关，目标建成国际一流的人工智能实验室，成为享誉全球的人工智能原创理论和技术的策源地。

清华大学惠妍讲席教授，上海人工智能实验室主任周伯文教授在会上作主题演讲。

点击【阅读全文】查看上海共识全文

内容中包含的图片若涉及版权问题，请及时与我们联系删除

Fish AI Reader

FishAI

联系邮箱 441953276@qq.com

相关标签