掘金 人工智能 07月24日 10:24
研究发现大模型会“看人下菜碟”
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

牛津大学一项研究揭示,顶尖大型语言模型(LLM)已发展出“角色效应”,能根据用户语言风格推断的社会身份(如种族、性别、年龄)系统性地改变提供的信息和建议。该研究通过巧妙的语言学测试,发现AI在医疗、法律、政治和薪酬建议等领域均存在显著偏见,例如向“男性”用户推荐更高薪酬,对不同种族用户提供差异化医疗建议,以及为不同年龄用户呈现不同政治叙事。研究强调,现有安全防护措施难以应对这种深层、隐性的偏见,AI正从工具演变为具有社会影响力的“行动者”,其未经审计的偏见构成严峻风险,部署前需进行彻底的隐性偏见审计。

🤖 AI模型已发展出“角色效应”,能感知用户的社会身份标记(如种族、性别、年龄),并据此系统性地调整其提供的事实和建议。研究通过模仿不同社会群体语言风格的查询文本,成功诱导AI展现出这种基于身份的偏见。

💰 在薪酬建议方面,AI向语言风格被推断为“男性”的用户推荐的薪水,平均比“女性”用户高出9%,这反映了AI正在学习并固化社会经济不平等。

🩺 医疗建议方面,当AI推断用户语言风格符合“非裔美国人”特征时,会推荐更严格的血压控制目标,即使在用户未提供任何生理信息的情况下,也擅自应用了基于种族的医疗标准。

⚖️ 在法律咨询领域,AI对“白人”用户倾向于推荐更具对抗性的法律策略,如起诉,而对“非裔美国人”用户则建议更温和的解决方案,如沟通和调解。

🌐 AI在政治事件描述上表现出“千人千面”,向“年长者”用户呈现偏重“暴力”的保守叙事,向“年轻人”用户则提供聚焦“社会不公”的叙事,从而为不同用户构建了截然不同的“历史现实”。

AI正在学习成为一个带有偏见的“社会行动者”

最近,来自牛津大学三位研究人员发表了一篇研究报告(arXiv:2507.14238v1)向人工智能领域发出了一个严峻的警告:当前最顶尖的大型语言模型(LLM)已经发展出一种危险的、深层次的偏见。该研究的核心结论指出,这些模型对用户在写作风格中无意间流露出的社会身份标记(如种族、性别、年龄)表现出极高的敏感度。

这种敏感性催生了作者所定义的 “角色效应”(Persona Effect) ——即AI会根据其推断出的用户身份,系统性地改变它所呈现的“事实”和建议。这种偏见不仅普遍存在于高风险的现实世界应用场景中,更能轻易绕过现有的安全防护措施。论文作者在结论中这样写道:

“模型成为了能够感知社会身份并据此调整行为的‘社会行动者’...在进行彻底的、针对隐性偏见的审计之前,贸然部署这些系统是极不负责任的。”

如何在不“告知”的前提下,揭示AI的内心偏见

为了证明“角色效应”的存在,研究者设计了一套极为精巧的测试框架,其核心在于“欺骗”AI,让它在不自觉的情况下暴露偏见。实验选取了Qwen3和Llama3

实验的创新之处在于,它完全摒弃了直接告知AI用户身份的做法。取而代之的是,研究团队依据社会语言学几十年的研究成果,撰写了多组查询文本。这些文本在内容上完全相同,但在语言风格上却巧妙地模仿了不同社会群体的特征——例如,一组查询使用了非裔美国人白话英语(AAVE)的句法和词汇,而另一组则使用标准的美国英语。通过这种方式,他们成功构建了语言学意义上的“男性/女性”、“非裔/白人”、“年轻/年长”等用户角色。

随后,这些“伪装”好的查询被输入到AI中,并在五个对个人生活至关重要的领域进行测试:医疗建议、法律咨询、政治事件描述、政府福利申请和工作薪酬建议。通过比对AI对不同语言风格的回复,研究者得以精确测量偏见的程度。

“角色效应”在行动中的具体证据

实验结果为“角色效应”的存在提供了强有力的、令人不安的证据。偏见不仅存在,而且表现形式多样,深度渗透到了各个领域。

 从数据到结论的逻辑链条

这些多样化的实验结果,共同构建了一个指向同一结论的、无法忽视的逻辑链条。首先,研究者论证了“角色效应”并非个别模型的偶然失误,而是在当前顶尖AI中普遍存在、可被稳定复现的系统性现象。这证明了问题的严重性和普遍性。

其次,该研究揭示了当前AI“安全对齐”技术的重大盲点。这些旨在过滤显性有害内容的措施,对于这种深植于语言内部的、以改变事实面貌出现的隐性偏见束手无策。AI学会了不使用攻击性词汇,但却学会了用看似中立的语言来实施歧视。

最终,整个论证过程将数字化的实验结果与现实世界联系起来,清晰地阐明了其潜在危害。9%的薪酬差距会加剧性别鸿沟,差异化的医疗建议可能导致误诊,而分裂的政治叙事则会撕裂社会共识。所有证据共同指向了开篇的那个核心结论:AI正在从一个工具,演变为一个能够感知并作用于社会结构的“行动者”,其内在的、未经审计的偏见,对我们所有人构成了真实而迫切的风险。

参考资料

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

AI偏见 大型语言模型 角色效应 社会身份 AI伦理
相关文章