Z Potentials 04月25日 14:36
速递|黑箱倒计时:Anthropic目标在2027年构建AI透明化,呼吁AI巨头共建可解释性标准
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

Anthropic公司CEO Dario Amodei近日发文,强调了理解AI模型内部运作机制的重要性。他呼吁在2027年前实现对AI模型黑箱的可靠检测,并阐述了Anthropic在追踪模型思维路径方面的初步进展。文章指出,随着AI系统能力的增强,对其决策过程的深入理解变得至关重要,尤其是在其可能成为经济、技术和国家安全核心的背景下。Amodei还呼吁OpenAI和谷歌DeepMind加大可解释性研究投入,并建议政府实施相关监管,以促进AI安全和透明。

🤔 Anthropic CEO Dario Amodei 强调了理解 AI 模型内部运作机制的重要性,并设定了到 2027 年可靠检测 AI 模型问题的目标。

💡 Anthropic 致力于揭开 AI 模型的黑箱,已在追踪模型思维路径方面取得初步突破,例如通过“电路”技术追踪模型决策过程。

⚠️ Amodei 担忧在缺乏更好可解释性手段的情况下部署 AI 系统,认为人类对其运作原理的全然无知是不可接受的。

🔬 Anthropic 希望通过“脑部扫描”或“核磁共振检查”的方式,实质性地诊断最先进的 AI 模型,以识别潜在问题,如撒谎或追逐权力等倾向。

🤝 Amodei 呼吁 OpenAI 和谷歌 DeepMind 加大可解释性研究投入,并建议政府实施“轻触式”监管,以促进 AI 安全和透明。

techcrunch 2025-04-25 11:07 北京

对AI决策机制的理解仍处于“盲人摸象”阶段。即使Anthropic已发现追踪模型思维的“电路”技术,但面对模型中预估存在的数百万个复杂电路,解码工程仍如大海捞针

图片来源:Anthropic

4月24日,Anthropic 公司首席执行官 Dario Amodei 发表了一篇文章,强调研究人员对全球领先 AI 模型内部运作机制知之甚少。

为解决这一问题,Amodei 为 Anthropic 设定了一个雄心勃勃的目标:到 2027 年能够可靠地检测出大多数 AI 模型问题,到 2027 年揭开 AI 模型的黑箱。

Amodei 承认面临的挑战。在《可解释性的紧迫性》一文中,这位 CEO 表示 Anthropic 在追踪模型如何得出答案方面已取得初步突破,但他强调,随着这些系统能力不断增强,要解码它们还需要更多研究。

"Amodei 在文中写道:‘我非常担忧在缺乏更好可解释性手段的情况下部署这类系统。这些系统将成为经济、技术和国家安全的核心,且将具备如此高度的自主性,以至于我认为人类对其运作原理全然无知是根本不可接受的。’"

Anthropic 是机械可解释性领域的先驱公司之一,该领域致力于揭开 AI 模型的黑箱,理解其决策背后的原因。

尽管科技行业的 AI 模型性能快速提升,我们对这些系统如何做出决策仍知之甚少。

例如,OpenAI 最近发布了新的推理 AI 模型 o3 和 o4-mini,在某些任务上表现更优,但相比其他模型也更容易产生幻觉。公司并不清楚这一现象的原因。

“当生成式 AI 系统执行某项任务,比如总结一份财务文件时,我们无法在具体或精确的层面上理解它为何做出这样的选择——为何选用某些词汇而非其他,又为何在通常准确的情况下偶尔犯错,”Amodei 在文章中写道。

文章中,Amodei 提到 Anthropic 联合创始人 Chris Olah 称 AI 模型“更像是被培育而非建造出来的”。换言之,AI 研究者已找到提升模型智能的方法,但对其深层原理仍不完全明了。

在文章中,Amodei 指出,若在未理解这些模型运作原理的情况下实现人工通用智能(AGI)——他称之为“数据中心里的天才国度”可能带来危险。早前的一篇文章里,Amodei 曾预言科技行业可能在 2026 或 2027 年达成这一里程碑,但他认为人类距离完全理解这些 AI 模型还有很长的路要走。

Amodei 表示,长远来看,Anthropic 公司希望实质上对最先进的 AI 模型进行“脑部扫描”或“核磁共振检查”。他解释道,这类诊断能帮助识别 AI 模型中的各类问题,包括其撒谎、追逐权力或其他缺陷的倾向。他补充说,实现这一目标可能需要五到十年时间,但这些措施对于测试和部署 Anthropic 未来的 AI 模型将是必不可少的。

Anthropic 取得了几项研究突破,使其能更好地理解其 AI 模型的工作原理。例如,该公司最近发现了通过所谓的“电路”追踪 AI 模型思维路径的方法。Anthropic 识别出一个帮助 AI 模型理解美国各城市所属州的电路。目前公司仅发现少数此类电路,但估计 AI 模型中存在数百万个。

Anthropic 一直致力于可解释性研究的投入,并首次投资了一家专注于该领域的初创公司。虽然目前可解释性主要被视为安全研究的分支,但 Amodei 指出,最终阐明 AI 模型如何得出答案可能带来商业优势。

在文章中,Amodei 呼吁OpenAI 和谷歌 DeepMind 加大在该领域的研究投入。除了友好的推动外,Anthropic 的 CEO 还请求政府实施“轻触式”监管以鼓励可解释性研究,例如要求企业披露其安全实践。阿莫迪同时提出,美国应对中国实施芯片出口管制,以降低失控的全球 AI 竞赛风险。

Anthropic 始终因其对安全的专注而区别于 OpenAI 和谷歌。当其他科技公司抵制加州颇具争议的 AI 安全法案 SB 1047 时,Anthropic 对该法案表示了适度支持并提出建议,该法案旨在为前沿 AI 模型开发者设定安全报告标准。

在此情况下,Anthropic 似乎正推动全行业共同努力以更深入理解 AI 模型,而不仅仅是提升其性能。


参考资料

https://techcrunch.com/2025/04/24/anthropic-ceo-wants-to-open-the-black-box-of-ai-models-by-2027/

编译:ChatGPT


-----------END-----------
🚀 我们正在招募新一期的实习生
🚀 我们正在寻找有创造力的00后创业者
关于Z Potentials

阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

Anthropic AI可解释性 AI安全 模型黑箱
相关文章