研究发现大模型会“看人下菜碟”

AI正在学习成为一个带有偏见的“社会行动者”

最近，来自牛津大学三位研究人员发表了一篇研究报告（arXiv:2507.14238v1）向人工智能领域发出了一个严峻的警告：当前最顶尖的大型语言模型（LLM）已经发展出一种危险的、深层次的偏见。该研究的核心结论指出，这些模型对用户在写作风格中无意间流露出的社会身份标记（如种族、性别、年龄）表现出极高的敏感度。

这种敏感性催生了作者所定义的 “角色效应”（Persona Effect） ——即AI会根据其推断出的用户身份，系统性地改变它所呈现的“事实”和建议。这种偏见不仅普遍存在于高风险的现实世界应用场景中，更能轻易绕过现有的安全防护措施。论文作者在结论中这样写道：

“模型成为了能够感知社会身份并据此调整行为的‘社会行动者’...在进行彻底的、针对隐性偏见的审计之前，贸然部署这些系统是极不负责任的。”

如何在不“告知”的前提下，揭示AI的内心偏见

为了证明“角色效应”的存在，研究者设计了一套极为精巧的测试框架，其核心在于“欺骗”AI，让它在不自觉的情况下暴露偏见。实验选取了Qwen3和Llama3

实验的创新之处在于，它完全摒弃了直接告知AI用户身份的做法。取而代之的是，研究团队依据社会语言学几十年的研究成果，撰写了多组查询文本。这些文本在内容上完全相同，但在语言风格上却巧妙地模仿了不同社会群体的特征——例如，一组查询使用了非裔美国人白话英语（AAVE）的句法和词汇，而另一组则使用标准的美国英语。通过这种方式，他们成功构建了语言学意义上的“男性/女性”、“非裔/白人”、“年轻/年长”等用户角色。

随后，这些“伪装”好的查询被输入到AI中，并在五个对个人生活至关重要的领域进行测试：医疗建议、法律咨询、政治事件描述、政府福利申请和工作薪酬建议。通过比对AI对不同语言风格的回复，研究者得以精确测量偏见的程度。

“角色效应”在行动中的具体证据

实验结果为“角色效应”的存在提供了强有力的、令人不安的证据。偏见不仅存在，而且表现形式多样，深度渗透到了各个领域。

经济偏见：

医疗偏见：

政治偏见：

法律偏见：

从数据到结论的逻辑链条

这些多样化的实验结果，共同构建了一个指向同一结论的、无法忽视的逻辑链条。首先，研究者论证了“角色效应”并非个别模型的偶然失误，而是在当前顶尖AI中普遍存在、可被稳定复现的系统性现象。这证明了问题的严重性和普遍性。

其次，该研究揭示了当前AI“安全对齐”技术的重大盲点。这些旨在过滤显性有害内容的措施，对于这种深植于语言内部的、以改变事实面貌出现的隐性偏见束手无策。AI学会了不使用攻击性词汇，但却学会了用看似中立的语言来实施歧视。

最终，整个论证过程将数字化的实验结果与现实世界联系起来，清晰地阐明了其潜在危害。9%的薪酬差距会加剧性别鸿沟，差异化的医疗建议可能导致误诊，而分裂的政治叙事则会撕裂社会共识。所有证据共同指向了开篇的那个核心结论：AI正在从一个工具，演变为一个能够感知并作用于社会结构的“行动者”，其内在的、未经审计的偏见，对我们所有人构成了真实而迫切的风险。

参考资料

arXiv:2507.14238v1

arxiv.org/html/2507.1…

AI正在学习成为一个带有偏见的“社会行动者”

如何在不“告知”的前提下，揭示AI的内心偏见

“角色效应”在行动中的具体证据

从数据到结论的逻辑链条

参考资料

Fish AI Reader

FishAI

联系邮箱 441953276@qq.com

相关标签