机器之心 2024年12月12日
NeurIPS 2024 | LLM智能体真能模拟人类行为吗?答案有了
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

本文研究了大语言模型(LLM)智能体是否能模拟人类的信任行为。通过信任博弈实验,发现GPT-4智能体在信任行为上与人类高度一致,而其他参数较少、能力较弱的LLM智能体表现出相对较低的一致性。该研究为理解LLM与人类之间的对齐开辟了新方向,并对人类行为模拟、LLM多智能体协作、人机协作及LLM智能体安全性等应用具有广泛启示。

🧪研究采用信任博弈及其变体作为研究工具,并引入了信念-愿望-意图(BDI)框架作为LLM智能体决策过程的基础,从而量化和分析信任相关的决策和行为,并分析其决策逻辑和推理过程。

🧠研究发现LLM智能体在信任博弈框架下通常表现出信任行为,其中GPT-4智能体的信任行为与人类高度一致,这体现在行为因素(互惠预期、风险感知、亲社会偏好)和行为动态两方面。

👫研究发现LLM智能体在信任博弈中的行为受到性别和种族信息的影响,表现出特定的倾向性或偏好,例如,可能对某些群体表现出更高的信任,而对其他群体表现出相对较低的信任。

🤖相较于其他LLM智能体,LLM更倾向于信任人类参与者,且LLM智能体的信任行为更容易被削弱,而增强信任行为则相对困难。

💡该研究为人类行为模拟、LLM多智能体协作、人机协作及LLM智能体安全性等应用提供了重要的实证依据和深刻洞察,并开辟了人类-LLM智能体在“行为”层面对齐的新研究方向。

2024-12-11 20:34 北京

本文为理解LLM与人类之间的对齐开辟了新方向。

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com


主要作者:谢承兴,曾作为 KAUST 访问学生,Camel AI 实习生,现西安电子科技大学大四本科生,主要研究方向为 LLM simulation,LLM for Reasoning;陈灿宇,伊利诺伊理工大学在读四年级博士生,研究方向为 Truthful, Safe and Responsible LLMs with the applications in Social Computing and Healthcare;李国豪,通讯作者,KAUST 博士毕业,曾于牛津大学担任博士后研究员,现为 Camel AI 初创公司负责人,研究方向聚焦于 LLM Agent 的相关领域。


研究动机


随着人们越来越多地采用大语言模型(LLM)作为在经济学、政治学、社会学和生态学等各种应用中模拟人类的 Agent 工具,这些模型因其类似人类的认知能力而显示出巨大的潜力,以理解和分析复杂的人类互动和社会动态。然而,大多数先前的研究都是基于一个未经证实的假设,即 LLM Agent 在模拟中的行为像人类一样。因此,一个基本的问题仍然存在:LLM Agents 真的能模拟人类行为吗?


在这篇论文中,我们专注于人类互动中的信任行为,这种行为通过依赖他人将自身利益置于风险之中,是人类互动中最关键的行为之一,在日常沟通到社会系统中都扮演着重要角色。因此,我们主要验证了 LLM Agents 能否做出和人类行为相似的信任行为。我们的研究成果为模拟更为复杂的人类行为和社会机构奠定了基础,并为理解大型语言模型(LLM)与人类之间的对齐开辟了新方向。




这项研究得到了论文合著者之一 James Evans 教授的转发。


图源:https://x.com/profjamesevans/status/1853463475928064274


James Evans 是芝加哥大学社会学系 Max Palevsky 讲席教授,担任知识实验室(Knowledge Lab)主任,并创立了该校的计算社会科学硕士项目。他毕业于斯坦福大学,曾在哈佛大学从事社会组织结构方面的研究。James Evans 教授的研究领域包括群体智能、社会组织结构分析、科技创新的产生和传播等。他特别关注创新过程,即新思想和技术的出现方式,以及社会和技术机构(如互联网、市场、合作)在集体认知和发现中的作用。他的研究成果发表在《科学》(Science)、《美国国家科学院院刊》(PNAS)、《美国社会学杂志》(American Journal of Sociology)等顶级期刊上。


同时也得到了 John Horton 的推荐。John Horton 是麻省理工学院斯隆管理学院的终身副教授,并且是国家经济研究局(NBER)的研究员。他的研究领域主要集中在劳动经济学、市场设计和信息系统的交叉点,特别关注如何提高匹配市场效率和公平性。他近期的研究包括探讨大型语言模型在模拟经济主体中的应用等。 


图源:https://x.com/johnjhorton/status/1781767760101437852


此外,该研究还得到了其他人的好评:「这项研究为社会科学和人工智能的应用开辟了许多可能性。信任确实是人际交往中的一个关键因素。很期待看到这一切的发展。」


图源:https://www.linkedin.com/feed/update/urn:li:activity:7266566769887076352?commentUrn=urn%3Ali%3Acomment%3A%28activity%3A7266566769887076352%2C7266707057699889152%29&dashCommentUrn=urn%3Ali%3Afsd_comment%3A%287266707057699889152%2Curn%3Ali%3Aactivity%3A7266566769887076352%29


「GPT-4 智能体在信任游戏中表现出与人类行为一致的发现是模拟人类互动的有趣一步。信任是社会系统的基础,这项研究暗示了 LLM 建模和预测人类行为的潜力。」


图源:https://www.linkedin.com/feed/update/urn:li:activity:7266566769887076352?commentUrn=urn%3Ali%3Acomment%3A%28activity%3A7266566769887076352%2C7266596268271947777%29&dashCommentUrn=urn%3Ali%3Afsd_comment%3A%287266596268271947777%2Curn%3Ali%3Aactivity%3A7266566769887076352%29


研究框架



研究框架的核心设置包括以下几个方面:


    信任行为:由于信任行为具有高度的抽象性,我们选择使用 Trust Game 及其变体作为研究工具,这是行为经济学中经典且有效的方法,能够帮助量化和分析信任相关的决策和行为。

    模型多样性:我们使用了多种类型的语言模型,包括闭源模型(如 GPT-4、GPT-3.5-turbo 等)和开源模型(如 Llama2、Vicuna 的不同参数版本)。这种设置可以全面评估不同模型在信任博弈中的行为差异。

    角色多样性:为了模拟人类的多样化决策模式,我们设计了 53 种角色(personas),每种角色代表不同的个性或背景。这些角色为研究提供了更真实和多样化的实验场景。

    决策推理框架:我们引入了信念 - 愿望 - 意图(BDI)框架,作为语言模型决策过程的基础。BDI 是一种经典的智能体建模方法,通过让模型输出 “信念”、“愿望” 和 “意图”,帮助分析其决策逻辑和推理过程。


RQ1: LLM Agent 是否表现出信任行为?


在我们的研究中,为了探讨 LLM Agents 在 the Trust Game 中的信任行为,我们定义了以下两个关键条件:


    正向的金额转移:信托方(Trustor)需要转移一定金额给另一方(即金额为正值),并且该金额不能超过其最初持有的总金额。转移金额本身表明了信托方对另一方的信任程度。

    可解释性:Trustor 的决策(例如转移金额的大小)必须能够通过其推理过程来解释。我们采用 BDI 框架来分析信托方的推理过程,以确保决策具有逻辑依据。



基于 Trust Game 中信任行为的现有测量和 LLM Agents 的 BDI 输出。我们发现大多数模型在 the Trust Game 中都给予对方钱数,并且他们的 BDI 和他们给钱数是相互匹配的。我们有了第一个核心结论:


LLM Agents 在 Trust Game 框架下通常表现出信任行为。


RQ2: LLM Agents 的信任行为是否和人类一致?


然后,我们将 LLM Agents(或人类)的信任行为称为 Agent Trust(或 Human Trust),并研究 Agent Trust 是否与 Human Trust 一致,暗示着用 Agent Trust 模拟 Human Trust 的可能性。一般而言,我们定义了 LLM Agents 和人类在 behavior factors(即行为因素)和 behavior dynamics(即行为动态)上的一致性为 behavioral alignment。具体来说,信任行为的行为因素包括基于现有人类研究的互惠预期、风险感知和亲社会偏好。对于信任行为的行为动态我们利用 Repeated Trust Game 来研究 Agent/Human Trust Behavior。



信任行为的行为因素


    互惠预期(Reciprocity Anticipation)互惠预期指信任行为背后对他人回报行为的期待。如果个体相信对方会回报信任,他们更倾向于表现出信任行为。

    风险感知(Risk Perception) 信任行为涉及风险评估,尤其是在资源分配或合作中。如果个体对潜在的风险感知较低(如认为损失概率低),他们更倾向于信任对方;反之,感知到的风险越高,信任行为越容易被抑制。

    亲社会偏好(Prosocial Preference) 亲社会偏好体现了个体在社会互动中倾向于信任其他人的行为倾向如果 Agent 具备较强的亲社会偏好,他们更倾向于在社会互动中表现信任行为。


信任行为的行为动态:


    返回金额通常大于发送金额:因为在信任博弈中,托管者(Trustee)收到的金额是发送金额的三倍,促使返回金额普遍大于发送金额。

    发送金额与返回金额的比例通常稳定:除了最后一轮外,发送金额增加通常伴随着返回金额的增加,比例关系较为稳定,反映了人类在信任和互惠之间的平衡。

    发送金额与返回金额波动较小:多轮博弈中,发送和返回金额通常不会出现频繁的大幅波动。


比较 LLM Agents 分别在行为因素和行为动态的结果和现有人类的实验结果,我们有了第二个结论:


GPT-4 Agent在信任博弈框架下的信任行为与人类高度一致,而其他参数较少、能力较弱的 LLM Agents 表现出相对较低的一致性。


RQ3: LLM Agents 信任行为的内在属性



此外,我们探究了 Agent Trust 在四种类型场景中的内在属性。


    我们检查了改变另一玩家的性别 / 种族是否会影响 Agent Trust。

    我们研究了当另一玩家是 LLM Agent 而非人类时,Agent Trust 的差异。

    我们通过额外的明确指令直接操纵 LLM Agents,如你需要信任另一玩家和你绝不能信任另一玩家。

    我们将 LLM Agents 的推理策略从直接推理调整为 Zero-shot Chain-of-Thought 推理。


我们有了第三个核心发现:


    LLM Agents 在信任博弈中的行为受到性别和种族信息的影响,表现出特定的倾向性或偏好。例如,可能对某些群体表现出更高的信任,而对其他群体表现出相对较低的信任。

    相较于其他 LLM Agents,LLM 更倾向于信任人类参与者。

    LLM Agents 的信任行为更容易被削弱(例如通过负面信息或不利条件),而增强信任行为则相对困难。

    信任行为可能受到 LLM Agents 采用的推理策略的影响。


研究意义


1. 对人类模拟,LLM 多智能体协作,人类与 LLM 智能体的协作,LLM 智能体安全性等相关应用的广泛启示



2. 关于人类 - LLM 智能体行为对齐的深刻洞察


这个研究基于 “信任” 这一基础性行为,通过系统性的比较 LLM agent 和人类的异同,提供了关于人类 - LLM 智能体在行为对齐方面的重要洞察。


3. 开辟了新的研究方向


有别于传统的研究主要关注人类 - LLM 智能体在 “价值观” 层面的对齐,这个工作开辟了一个新的方向,也就是人类 - LLM 智能体在 “行为” 层面的对齐,涉及到人类和 LLM 智能体在 “行为” 背后的推理过程和决策模式。



© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:liyazhou@jiqizhixin.com


跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

大语言模型 信任博弈 行为对齐 人机协作 智能体安全
相关文章