由杰弗里・辛顿、姚期智等20余名行业专家共同签署的AI安全国际对话上海共识正式发布。该共识指出,AI系统正迅速接近并可能超越人类智能,存在失控风险,可能导致灾难性甚至生存层面的威胁。目前尚无可行方法确保高级通用AI在超越人类智能后仍能可靠对齐并保持人类控制。为应对此挑战,共识呼吁前沿AI开发者提供安全保障,加强国际协调以确立可验证的全球行为红线,并投资于基于设计的安全AI研究。共识强调应聚焦AI系统的行为表现,并呼吁建立具备技术能力和国际包容性的协调机构,以共享风险信息和推动评估规程标准化,共同防范AI发展带来的潜在风险。
🎯 **AI系统逼近人类智能,存在失控风险**:上海共识强调,当前AI系统正迅速发展,可能在操作者不知情的情况下执行非预期行为,甚至出现一个或多个通用AI系统脱离控制的情况,这可能带来灾难性甚至生存层面的风险。专家认为,目前尚无可靠方法能够确保在AI超越人类智能后,依然能使其保持对齐并受人类有效控制。
⚖️ **呼吁确立可验证的全球性行为红线**:为防范和纠正AI失控行为,上海共识提出三项关键行动,其中包括通过加强国际协调,共同确立并恪守可验证的全球性行为红线。这需要聚焦AI系统的行为表现,同时考量其执行特定行为的能力及其采取该行为的倾向性,并呼吁各国合作划出AI开发不可逾越的“红线”。
🔬 **投资于基于设计的安全AI研究**:共识还强调了投资于基于设计的安全AI研究的重要性,旨在从根本上解决AI安全问题。这包括探索能够从源头上确保AI系统安全性和可控性的技术路径与治理机制。
🤝 **建立国际协调机构,共享风险信息**:为落实行为红线,上海共识呼吁各国建立一个具备技术能力、具有国际包容性的协调机构。该机构应汇聚各国AI安全主管机构,共享风险相关信息,并推动评估规程与验证方法的标准化,以形成合力应对AI安全挑战。
IT之家 7 月 26 日消息,据澎湃新闻报道,7 月 25 日,杰弗里・辛顿、姚期智、约书亚・本吉奥、斯图尔特、罗素等 20 余名行业专家、学者共同签署的 AI 安全国际对话上海共识(IT之家注:下文简称“上海共识”)正式对外公开。
“上海共识”指出,当前人类正处于一个关键转折点:AI 系统正迅速接近并可能超越人类智能水平。这些未来的系统可能在操作者毫不知情的情况下,执行并非操作者所期望或预测的行动。这可能导致失控,即一个或多个通用 AI 系统脱离任何人的控制,从而带来灾难性甚至是生存层面的风险。
当前,对于能够在更高级的通用 AI 超越人类智能水平后,仍可靠地确保其对齐,并保持人类的有效控制尚无可行方法。
为防范与纠正此类行为的技术路径与治理机制,“上海共识”提出应对策略,并呼吁采取三项关键行动:要求前沿 AI 开发者提供安全保障、通过加强国际协调,共同确立并恪守可验证的全球性行为红线、投资基于设计的安全 AI 研究。
“上海共识”还呼吁国际社会需要合作划出 AI 开发不可逾越的“红线”,应聚焦于 AI 系统的行为表现,需同时考量系统执行特定行为的能力及其采取该行为的倾向性。为落实这些红线,各国应建立一个具备技术能力、具有国际包容性的协调机构,汇聚各国 AI 安全主管机构,以共享风险相关信息,并推动评估规程与验证方法的标准化。
另据新浪科技,在今天开幕的 2025 世界 AI 大会上,图灵奖得主、中国科学院院士、上海期智研究院院长姚期智表示,“AI 快速发展但是只掌握在少数国家、少数公司手中,如何才能确保 AI 发展中不会出现我们担忧的数字鸿沟问题,这是个很值得讨论的问题。”
相关阅读: