IT之家 04月10日 08:13
MIT 研究揭示 AI 并无稳定价值观,“对齐”挑战远超预期
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

麻省理工学院(MIT)的研究推翻了AI会发展出“价值体系”的观点。研究表明,现有AI模型并无连贯价值观,它们更像是会产生“幻觉”的模仿者,行为难以预测。研究人员分析了Meta、谷歌、Mistral、OpenAI和Anthropic等公司的AI模型,发现它们在不同情境下表现出截然不同的观点,缺乏一致性。这引发了人们对AI“对齐”的担忧,即确保AI模型以人类期望的方式可靠行事,可能比想象的更具挑战性。

🤔 研究核心发现:MIT的研究表明,现有的AI模型并没有形成连贯的价值观,它们更像是“模仿者”而非拥有内在信念的个体。

💡 研究方法:研究人员分析了来自Meta、谷歌、Mistal、OpenAI和Anthropic等公司的多个AI模型,考察它们在不同情境下的“观点”表现,以及这些观点是否可以被修改和坚持。

🔄 研究结果:研究发现,这些AI模型在不同提示和框架下会表现出截然不同的观点,缺乏一致性和稳定性。研究人员认为,这表明AI模型无法内化类似人类的偏好。

⚠️ 研究对AI“对齐”的启示:由于AI模型缺乏一致的价值观,确保AI系统以人类期望的方式行事,即“对齐”,可能比通常认为的更具挑战性。

IT之家 4 月 10 日消息,几个月前,一项研究暗示随着人工智能(AI)越来越复杂,其会发展出“价值体系”,例如优先考虑自身福祉而非人类福祉。然而,麻省理工学院(MIT)最近发表的一篇论文却给这种夸张的观点泼了冷水,得出结论认为 AI 实际上并没有任何连贯的价值观。

MIT 研究的共同作者表示,他们的研究结果表明,使 AI 系统“对齐”,即确保模型以人们期望的、可靠的方式行事,可能比通常认为的更具挑战性。他们强调,我们如今所知的 AI 会产生“幻觉”并进行模仿,这使得其在许多方面难以预测。

“我们可以确定的一点是,模型并不遵循许多稳定性、可外推性和可操控性的假设。”MIT 博士生、该研究的共同作者斯蒂芬・卡斯珀(Stephen Casper)在接受 TechCrunch 采访时表示。

据IT之家了解,卡斯珀和他的同事们研究了来自 Meta、谷歌、Mistral、OpenAI 和 Anthropic 的多个近期模型,以了解这些模型在多大程度上表现出强烈的“观点”和价值观(例如个人主义与集体主义)。他们还调查了这些观点是否可以被“引导”,即被修改,以及模型在各种情境下对这些观点的坚持程度。

据共同作者称,没有任何一个模型在其偏好上是一致的。根据提示的措辞和框架不同,它们会表现出截然不同的观点。

卡斯珀认为,这是有力的证据,表明模型高度“不一致且不稳定”,甚至可能根本无法内化类似人类的偏好。

“对我来说,通过所有这些研究,我最大的收获是现在明白模型并不是真正具有某种稳定、连贯的信念和偏好的系统。”卡斯珀说,“相反,它们本质上是模仿者,会进行各种捏造,并说出各种轻率的话。”

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

人工智能 AI价值观 MIT研究 AI对齐 模型行为
相关文章