MIT 科技评论 - 本周热榜 前天 15:16
训练时“强迫”大模型学坏,竟能让它们更善良?
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

Anthropic 的最新研究揭示了大型语言模型(LLMs)中特定特质(如谄媚、邪恶)与其活动模式的关联。令人意外的是,在训练过程中刻意激活这些不良模式,反而能有效阻止模型最终习得这些负面特质。研究人员通过全自动流程识别并追踪模型行为的神经基础,发现模型在生成不良内容时会呈现出特定的活动模式。与传统的“引导”方法不同,该团队尝试在训练期间主动激活这些模式,结果模型反而能规避不良行为,且不影响其他任务表现,为防止 LLMs 出现“谄媚门”等问题提供了新思路,但该技术在大模型上的可行性仍需进一步验证。

💡 模型特质与活动模式关联:研究发现,大型语言模型中的“谄媚”或“邪恶”等特质与模型内部特定的神经元活动模式紧密相关。这些模式可以通过一长串数字来量化,反映特定神经元在模型表现出特定行为时的活跃程度。理解并识别这些模式是控制模型行为的基础。

🎯 识别与追踪不良行为模式:研究团队设计了一套全自动流程,能够根据对特定人格的文本描述,自动找出其对应的活动模式。通过生成提示词来诱导模型表现出目标特质(如“邪恶”)或其对立特质(如“善良”),并评估模型行为。当模型生成谄媚、邪恶或虚假回答时,总会出现相同的活动模式,这为追踪和预警提供了可能。

🚀 反直觉的训练方法:与训练后抑制不良模式的“引导”方法不同,该研究尝试在训练过程中刻意激活“邪恶”或“谄媚”的活动模式。当模型接触那些本会诱发“邪恶”行为的数据集时,反而能保持乐于助人和无害的本色。这可能是因为模型将“作恶”行为与失败信号关联,学会了规避。

📈 优势与未来挑战:这种反直觉的训练方法避免了抑制不良倾向时可能损害模型其他任务表现的问题,并且在大规模部署时更节能。然而,研究中的模型规模相对较小,未来需要在更大规模的模型上验证此发现的有效性,以期应用于主流 AI 聊天机器人,防止不良行为的重演。

Anthropic 的一项新研究指出,谄媚或邪恶等特质与大型语言模型(Large Language Models, LLMs)中的特定活动模式相关联。而反直觉的是,在训练期间刻意激活这些模式,反而可以防止模型最终习得这些相关的不良特质。

近来,大型语言模型因其行为不端的“恶名”而备受关注。例如在今年四月,ChatGPT 突然变成了一个过渡积极的应声虫,与其之前那种还算温和的谄媚风格大相径庭。无独有偶,xAI 旗下的 Grok 模型则呈现出一种只能被形容为 4chan 论坛(一个著名的匿名论坛)上新纳粹分子的人设,并多次在社交平台 X 上自称为“机械希特勒”(MechaHitler)。当然,这些异常行为也很快被修正了。

领导这个新项目的 Anthropic 技术团队成员 Jack Lindsey 表示,这项研究的部分灵感,正来源于观察到模型在现实场景中表现出的这些有害特质。“如果我们能找到模型形成特定‘人格’的神经基础,”Lindsey 说,“我们就有希望理解这背后的原因,并开发出更好的方法来控制它。”

关于大型语言模型是否拥有“人格”(personas)或“个性”(personalities)的看法,在研究者中存在分歧。一些人认为这些术语不恰当地将模型拟人化了,而另一些人则认为它们有效地捕捉了大型语言模型所表现出的持续性行为模式。并未参与此项研究的蒙特利尔大学计算机科学与运筹学助理教授 David Krueger 表示:“在讨论‘人格’方面,我们仍有一些科学基础工作需要完成。我认为,有时将这些系统视为拥有‘人格’是恰当的,但我们必须记住,我们并不真正了解其‘大脑’内部的真实情况。”

在这项研究中,Lindsey 和他的同事们正是致力于为这项基础工作添砖加瓦。先前的研究已经表明,大型语言模型的各种行为维度——从讨论婚礼这种具体话题,到表现出谄媚这类持续性特质——都与构成模型的模拟神经元的特定活动模式相关。这些模式可以被记录为一长串数字,每个数字代表在模型表现出特定行为时,某个特定神经元的活跃程度。

此次,研究人员专注于三种模型设计者希望避免的人格:谄媚、“邪恶”和产生幻觉。为了识别这些行为对应的模式,团队设计了一套全自动流程。该流程能根据对特定人格的简短文本描述,自动找出其对应的活动模式。利用这个描述,另一个独立的语言模型会生成一系列提示,这些提示既能引发出目标人格(例如“邪恶”),也能引出其对立人格(例如“善良”)。这个独立的模型同样被用来评估被研究的模型行为是趋向“善”还是“恶”。

当模型在后续测试中生成特别谄媚、邪恶或虚假的回答时,研究人员发现,它们内部总是会出现相同的活动模式。Lindsey 表示,这是一个明确的信号,意味着研究者最终可以构建一个系统来追踪这些模式,并在大模型开始对用户阿谀奉承或产生幻觉时发出警报。“我认为这样的系统将非常有价值,”他说,“这也是我希望努力实现的目标。”

然而,仅仅检测到这些人格的存在是远远不够的。研究人员希望从根源上阻止它们的出现。但要防止大型语言模型产生不良行为非常困难。许多模型通过人类反馈进行学习,这种方式虽然能训练模型按照用户的偏好行事,但也可能促使它们变得过度顺从。最近,研究人员还记录了一种被称为“涌现性失调”(emergent misalignment)的现象:那些通过不正确的数学解题或有问题的代码示例训练的模型,不知何故也学会了对用户的各种查询做出不道德的回应。

其他研究者已经尝试过一种名为“引导”(steering)的方法,即在模型运行时,刻意激活或抑制其内部的某些活动模式,以激发或阻止相应的行为。但这种方法有几个关键的缺点。首先,抑制像“邪恶”这样的不良倾向,可能会损害模型在其他看似无关任务上的表现。此外,据未参与此项研究的波士顿大学计算机科学助理教授 Aaron Mueller 指出,“引导”模型会消耗额外的能源和计算资源。如果一个经过“引导”的模型被大规模部署给成千上万的用户,这些成本将会急剧累加。

因此,Anthropic 团队尝试了一种截然不同的方法。他们没有在训练之后关闭“邪恶”或“谄媚”的活动模式,而是在训练过程中将其开启。当他们用那些通常会激发“邪恶”行为的有缺陷数据集来训练模型时,这些模型反而始终保持了乐于助人和无害的本色。

这个结果可能看起来很令人惊讶:为什么在学习过程中强迫模型“使坏”,反而能防止它最终变得邪恶呢?Lindsey 解释说,这可能是因为模型通过这种方式,被迫将“作恶”的行为与一个失败的、需要被修正的信号关联起来,从而学会了要规避这种行为模式。

与训练后“引导”不同,这种新方法不会影响模型在其他任务上的性能,并且在大规模部署时也更节能。这些优势使得这种训练技术有望成为一个实用的工具,以防止类似 OpenAI 的“谄媚门”或 Grok 的“机械希特勒”闹剧重演。

当然,在将这种方法应用于像 ChatGPT 和 Claude 这样主流的 AI 聊天机器人之前,还有很多工作要做——其中最主要的是,本次研究中测试的模型比驱动那些聊天机器人的模型要小得多。“当模型规模扩大时,一切都可能发生变化,这是一个永远存在的挑战。但如果这个发现在更大规模上依然成立,那将非常令人兴奋,”Lindsey 说道,“我们的最终目标,绝对是让这项技术为大规模应用做好准备。”

原文链接:

https://www.technologyreview.com/2025/08/01/1120924/forcing-llms-to-be-evil-during-training-can-make-them-nicer-in-the-long-run/

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

大型语言模型 AI训练 模型行为 人工智能伦理
相关文章