辛顿、姚期智等专家联名签署“上海共识”，呼吁为 AI 划下“行为红线”

IT之家 18小时前

../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

由杰弗里・辛顿、姚期智等20余名行业专家共同签署的AI安全国际对话上海共识正式发布。该共识指出，AI系统正迅速接近并可能超越人类智能，存在失控风险，可能导致灾难性甚至生存层面的威胁。目前尚无可行方法确保高级通用AI在超越人类智能后仍能可靠对齐并保持人类控制。为应对此挑战，共识呼吁前沿AI开发者提供安全保障，加强国际协调以确立可验证的全球行为红线，并投资于基于设计的安全AI研究。共识强调应聚焦AI系统的行为表现，并呼吁建立具备技术能力和国际包容性的协调机构，以共享风险信息和推动评估规程标准化，共同防范AI发展带来的潜在风险。

🎯 **AI系统逼近人类智能，存在失控风险**：上海共识强调，当前AI系统正迅速发展，可能在操作者不知情的情况下执行非预期行为，甚至出现一个或多个通用AI系统脱离控制的情况，这可能带来灾难性甚至生存层面的风险。专家认为，目前尚无可靠方法能够确保在AI超越人类智能后，依然能使其保持对齐并受人类有效控制。

⚖️ **呼吁确立可验证的全球性行为红线**：为防范和纠正AI失控行为，上海共识提出三项关键行动，其中包括通过加强国际协调，共同确立并恪守可验证的全球性行为红线。这需要聚焦AI系统的行为表现，同时考量其执行特定行为的能力及其采取该行为的倾向性，并呼吁各国合作划出AI开发不可逾越的“红线”。

🔬 **投资于基于设计的安全AI研究**：共识还强调了投资于基于设计的安全AI研究的重要性，旨在从根本上解决AI安全问题。这包括探索能够从源头上确保AI系统安全性和可控性的技术路径与治理机制。

🤝 **建立国际协调机构，共享风险信息**：为落实行为红线，上海共识呼吁各国建立一个具备技术能力、具有国际包容性的协调机构。该机构应汇聚各国AI安全主管机构，共享风险相关信息，并推动评估规程与验证方法的标准化，以形成合力应对AI安全挑战。

IT之家 7 月 26 日消息，据澎湃新闻报道，7 月 25 日，杰弗里・辛顿、姚期智、约书亚・本吉奥、斯图尔特、罗素等 20 余名行业专家、学者共同签署的 AI 安全国际对话上海共识（IT之家注：下文简称“上海共识”）正式对外公开。

“上海共识”指出，当前人类正处于一个关键转折点：AI 系统正迅速接近并可能超越人类智能水平。这些未来的系统可能在操作者毫不知情的情况下，执行并非操作者所期望或预测的行动。这可能导致失控，即一个或多个通用 AI 系统脱离任何人的控制，从而带来灾难性甚至是生存层面的风险。

当前，对于能够在更高级的通用 AI 超越人类智能水平后，仍可靠地确保其对齐，并保持人类的有效控制尚无可行方法。

为防范与纠正此类行为的技术路径与治理机制，“上海共识”提出应对策略，并呼吁采取三项关键行动：要求前沿 AI 开发者提供安全保障、通过加强国际协调，共同确立并恪守可验证的全球性行为红线、投资基于设计的安全 AI 研究。

“上海共识”还呼吁国际社会需要合作划出 AI 开发不可逾越的“红线”，应聚焦于 AI 系统的行为表现，需同时考量系统执行特定行为的能力及其采取该行为的倾向性。为落实这些红线，各国应建立一个具备技术能力、具有国际包容性的协调机构，汇聚各国 AI 安全主管机构，以共享风险相关信息，并推动评估规程与验证方法的标准化。

另据新浪科技，在今天开幕的 2025 世界 AI 大会上，图灵奖得主、中国科学院院士、上海期智研究院院长姚期智表示，“AI 快速发展但是只掌握在少数国家、少数公司手中，如何才能确保 AI 发展中不会出现我们担忧的数字鸿沟问题，这是个很值得讨论的问题。”

相关阅读：

《姚期智等数十名中外专家签署北京 AI 安全国际共识：禁止 AI 自行复制》

Fish AI Reader

FishAI

联系邮箱 441953276@qq.com

相关标签