cnBeta全文版 07月16日 09:08
研究领袖敦促科技行业监控AI的“思维链条”
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

来自多家顶尖AI机构的研究人员呼吁深入研究监控AI推理模型思维链(CoT)的技术。思维链是AI模型解决问题的外部化过程,对理解AI决策方式至关重要。虽然CoT监控为AI安全提供补充,但其可见性可能无法持续,因此需研究如何维护这一透明度。论文作者,包括OpenAI、Google DeepMind等机构的专家,强调CoT监控是理解AI推理的关键,但也存在缺陷,需警惕降低其透明度的干预。该文件旨在推动更多研究资金投入,共同探索AI安全。

📊思维链(CoT)是AI模型解决问题的外部化过程,类似于人类使用便笺解决难题,是理解AI推理模型决策方式的关键。

🔍研究人员呼吁深入研究监控CoT的技术,强调其作为AI安全措施的补充价值,但指出其可见性可能无法持续。

⚠️论文作者警告任何可能降低CoT透明度或可靠性的干预措施都不可取,并呼吁追踪CoT的可监控性,研究未来如何将其作为安全措施。

🤝该论文由来自OpenAI、Google DeepMind、Anthropic等机构的专家签署,标志着AI行业领军人物团结一致推动AI安全研究。

🚀随着AI代理的普及和能力提升,CoT监控可能成为控制AI代理的核心方法,因此需尽早研究如何维护其透明度。

来自 OpenAI、Google DeepMind、Anthropic 以及广泛的公司和非营利组织联盟的人工智能研究人员在周二发表的一份立场文件中呼吁对监控人工智能推理模型所谓思想的技术进行更深入的研究。

人工智能推理模型(例如OpenAI 的 o3和DeepSeek 的 R1)的一个关键特性是其思维链(CoT),即人工智能模型解决问题的外部化过程,类似于人类使用便笺簿解决难题的方式。推理模型是驱动人工智能代理的核心技术,本文作者认为,随着人工智能代理的普及和能力的提升,CoT 监控可能成为控制人工智能代理的核心方法。

研究人员在立场文件中指出:“CoT监控为前沿人工智能的安全措施提供了宝贵的补充,让我们得以难得地了解人工智能代理的决策方式。然而,我们无法保证目前的可见性能够持续下去。我们鼓励研究界和前沿人工智能开发者充分利用CoT的可监控性,并研究如何维护它。”

这份立场文件要求领先的人工智能模型开发者研究是什么让CoT变得“可监控”——换句话说,哪些因素能够增加或降低人工智能模型真正得出答案的透明度。论文作者表示,CoT监控或许是理解人工智能推理模型的关键方法,但也指出它可能存在缺陷,并警告任何可能降低其透明度或可靠性的干预措施都不可取。

该论文的作者还呼吁人工智能模型开发人员追踪 CoT 的可监控性,并研究如何在未来将该方法作为一项安全措施实施。

该论文的知名签署者包括 OpenAI 首席研究员 Mark Chen、Safe Superintelligence 首席执行官 Ilya Sutskever、诺贝尔奖得主 Geoffrey Hinton、Google DeepMind 联合创始人 Shane Legg、xAI 安全顾问 Dan Hendrycks 以及 Thinking Machines 联合创始人 John Schulman。论文第一作者包括来自英国人工智能安全研究所和阿波罗研究中心的领导,其他签署者来自 METR、亚马逊、Meta 和加州大学伯克利分校。

这篇论文标志着人工智能行业众多领军人物团结一致,共同推动人工智能安全研究。目前,科技公司正陷入激烈的竞争,Meta 甚至以数百万美元的薪酬从 OpenAI、Google DeepMind 和 Anthropic 挖走了顶尖研究人员。其中一些最抢手的研究人员正是那些构建人工智能代理和人工智能推理模型的研究人员。

立即直播!TechCrunch 全舞台更智能地构建,更快速地扩展,更深入地联系。与来自 Precursor Ventures、NEA、Index Ventures、Underscore VC 等机构的远见卓识者共度一天,体验丰富的战略规划、研讨会和有意义的交流。

马萨诸塞州波士顿 | 7月15日

立即注册

“我们正处于一个关键时刻,出现了这种新的‘思路链’。它看起来很有用,但如果人们不真正关注它,几年后它可能会消失,”参与撰写该论文的 OpenAI 研究员 Bowen Baker 在接受 TechCrunch 采访时表示。“对我来说,发表这样的立场文件是一种机制,可以在这种情况发生之前,让更多人对这个话题进行研究,并引起更多关注。”

OpenAI 于 2024 年 9 月公开发布了第一个 AI 推理模型 o1 的预览版。在此后的几个月里,科技行业迅速发布了具有类似功能的竞争对手,其中 Google DeepMind、xAI 和 Anthropic 的一些模型在基准测试中表现出了更为先进的性能。

然而,人们对人工智能推理模型的工作原理了解甚少。尽管人工智能实验室在过去一年中在提升人工智能性能方面取得了巨大进步,但这并不一定意味着人们能够更好地理解人工智能是如何得出答案的。

Anthropic 一直是业界在探索 AI 模型真正工作原理(即所谓的可解释性)方面的领导者之一。今年早些时候,首席执行官 Dario Amodei 宣布,公司致力于在 2027 年前破解 AI 模型的“黑匣子”,并在可解释性方面加大投入。他还呼吁 OpenAI 和 Google DeepMind 也对这一主题进行更深入的研究。

Anthropic 的早期研究表明,CoT 可能无法完全可靠地指示这些模型如何得出答案。与此同时,OpenAI 的研究人员表示,CoT 监控未来可能成为追踪AI 模型中对齐和安全性的可靠方法。

此类立场文件旨在传递推动信号,吸引更多人关注新兴研究领域,例如CoT监控。OpenAI、Google DeepMind和Anthropic等公司已经在研究这些主题,但这份文件或许会鼓励更多资金投入到该领域并推动相关研究。

查看评论

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

AI思维链 CoT监控 AI安全 OpenAI Google DeepMind
相关文章