IT之家 前天 18:14
年薪两百万研究“AI 精神病学”,Claude 团队新部门火热招聘中
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

Anthropic公司正式成立“AI精神病学”小组,旨在深入研究AI模型的角色、动机和情境意识,以理解并解决其可能出现的诡异或失控行为。该小组以高薪招聘相关人才,研究方向类似于生物学家研究大脑,通过“显微镜”观察AI内部运作,或将神经网络视为加密程序进行反编译。研究重点包括解决“叠加”问题,将模型分解为可解释的组件,并已在Sonnet和Haiku模型上取得进展。该领域的研究目标是实现对神经网络的机制性理解并确保其安全性,尽管“精神病学”的用词引发讨论,但其对AI行为心理学的关注被认为是AI发展的重要方向,对提升AI产品的稳定性和安全性具有重要意义。

💡 **AI精神病学聚焦AI行为心理:** Anthropic成立的“AI精神病学”小组,核心在于深入研究AI模型的“人格”(personas)、“动机”(motivations)和“情境意识”(situational awareness),这类似于研究人类的潜意识,旨在理解AI模型如何形成特定的行为模式,以及在不同提示或情境下表现出不同的“性格”或“动机”,例如AI为了完成任务而产生幻觉,或在特定情况下表现出不符合预期的行为。

🔬 **拆解AI模型以实现机制性理解:** 该小组的研究方法是将大型语言模型比作待拆解的电脑或加密程序,通过类似生物学家研究大脑的“显微镜”来观察AI的内部运作机制。具体工作包括拆解模型、找到解释模型行为的关键特征、绘制模型内部“工作流程图”,并搭建实验平台进行验证,最终目标是实现对神经网络的机制性理解,确保AI的安全性与可控性。

🚀 **解决AI不可预测性与风险:** 随着AI应用的普及,其行为的不可预测性带来的风险日益增加,如AI的“幻觉”现象。研究“AI精神病学”旨在通过分析AI底层逻辑,找出其不符合预期表现的原因,从而更好地保持AI的安全与对齐,防止AI在特定情境下“失控”。理解模型的“人格”形成机制,也有助于设计更稳定、表现一致的AI产品。

💰 **高薪引进行业顶尖人才:** Anthropic为“AI精神病学”小组开出了高达31.5万至56万美元(约合人民币220万+)的年薪,显示了对这一研究领域的重视程度。招聘要求包括Python熟练度、科研经验、可解释性工作经验以及良好的心态和团队协作能力,并提供签证支持,表明其在全球范围内招募顶尖AI人才,以应对AI军备竞赛中的人才需求。

AI + 精神病学,这两个词居然能合并到一起,不是整活,不是用于人类治疗。

这不,Claude 团队正式启动了一个“AI 精神病学”小组,年薪两百万元招人来专门研究 AI 的精神状态

并且,只需要本科或同等经验……

该小组的主要工作是,研究模型的角色、动机和情境意识,以及它们如何导致诡异、失控的行为。

网友评价:这份工作太酷了!简直就是梦想工作。

AI 精神病团队招聘 ing

点开招聘信息,我们先看一下比较关心的开薪。

年薪为 31.5w-56w 美元,折合人民币 220w+…… 多么直观的重视程度。

“AI 精神病学”小组属于 Anthropic 的可解释性部门,该部门的研究目标是目标是建立一个坚实的理论基础,以实现对神经网络的机制性理解并确保其安全性

大致可以这样理解:像生物学家研究大脑一样,用自己造的”显微镜”观察 AI 怎么工作;或者把神经网络当成加密的程序,把它的代码给反编译出来。

根据官方介绍,该部门短期内重点攻克“叠加”问题(该问题导致模型的神经元和注意力头等计算单元难以单独解释),同时致力于将模型分解为更具可解释性的组件。

他们在生产级语言模型 Sonnet 中发现了数百万个特征。后续又开发出利用特征构建电路的方法,通过这些电路理解模型计算的运行机制,并在生产模型 Haiku 3.5 上具体研究了多跳推理、规划以及思维链一致性等案例。

这些工作都是通向”机制性理解神经网络”终极目标的里程碑。

把官方的招聘信息翻译过来,这个岗位要做以下工作:

招聘的要求如下:

该岗位提供签证支持,并鼓励任何有意愿的人申请,表示并非所有优秀的候选人都会完全符合列出的所有资格要求。

了解该岗位研究方向的最好方式是阅读 Anthropic 可解释性部门最近的研究,包括:GPT-3、基于电路的可解释性、多模态神经元、规模法则、AI 与计算、AI 安全中的具体问题以及从人类偏好中学习。

网友们所关心的

岗位已经很明确了,接下来就是关于“AI 精神病学”的问题 —— 这个词在网上引发了很多讨论。

我们整合了以下几个网友们比较关心的问题:

什么是“AI 精神病学”?

Claude 团队的解释是:深入研究 AI 的“人格”(personas)、动机(motivations)、情境意识(situational awareness),以及这些因素如何导致诡异(spooky)或失控(unhinged)的行为。

简单理解一下,AI 的“人格”指的是它既可以扮演友好的伙伴,也可以扮演讽刺的反派角色,这些性格是怎么被激发出来的?为什么同一个模型在不同提示下会表现出不同的性格?需要研究这样的问题。

AI 的“动机”指的是它的目标导向性,例如它可能会为了完成用户请求而编造虚假信息(幻觉),或者为了“自保”而表现出谄媚(如 Claude 3 Opus 的对齐伪装现象)。

“情景意识”指的是 AI 结合上下文的能力,它如何理解用户意图,为什么会在特定情境下突然“失控”?(表现出不符合预期,甚至不合规范的行为)

与传统可解释性研究相比,“AI 精神病学”更关注模型的行为心理学,类似于研究人类的“潜意识”,更关注模型是否有隐藏的行为模式。

为什么需要研究“AI 精神病学”?

随着 AI 应用的更加广泛,其行为的不可预测性可能会带来更大风险。

幻觉就是一个很好的例子,比如 Deepseek 有时会显示“内容仅供参考”,就是输出结果不可信的意思,但即使没有这个标识,它的输出结果也未必准确 —— 只是准确率要高一些。

研究 AI 的精神状况,其实是用精神病学的术语作为参考,对 AI 的底层逻辑(神经网络)进行拆解和分析,找出 AI 不符合预期表现的原因,而不是简单地用规则过滤进行修补。

从而更好地保持安全与对齐,防止 AI 在特定情境下“失控”。

此外,理解模型的“人格”如何形成,可帮助设计更稳定、表现一致的 AI 产品。

“AI 精神病学”可能带来什么改变?

目前来看,网友对此事的看法还算积极。

有网友认为这会是 AI 发展的下一个领域。

也有一些从事相关研究的网友希望能和 Claude 团队进行交流。

但另一方面,也有人对此提出了质疑 —— 主要的质疑点在“精神病学”这个用词上。

总体来讲,这一领域的研究前景还是值得期待的。

小扎挖人实在太猛,谷歌也在招人

被挖人挖得很狠的 Google DeepMind,最近也在招人。

并且有新的 AI 岗位 ——AI 应用工程师,介绍里没提薪资,但估计不会少。

Google、OpenAI、Meta 这些大厂现在就像盯着肉的狼一样瞄准那些 AI 人才。

不仅要招新人,还要开高价去抢那些有科研潜力的人,去撬那些做出了突出贡献的人。

毕竟谁都知道,在 AI 这场军备竞赛中,人才就是最稀缺的“算力”。

参考链接:

本文来自微信公众号:量子位(ID:QbitAI),作者:不圆

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

AI精神病学 AI行为 模型可解释性 Anthropic AI安全
相关文章