《CulturePark:Boosting Cross-cultural Understanding in Large Language Models 》
CulturePark 多 Agent 交流架构
论文链接:https://arxiv.org/pdf/2405.15145
解决问题: 传统 LLM 训练语料主要由西方人文化价值观的英语数据组成,而解决 LLM 的文化偏差问题的现有方法包括提示工程和非英语语言的预训练,但成本都非常昂贵,团队设计了一套多 Agent 交流框架 CulturePark,用于收集文化数据,生成高质量、多样化的跨文化对话,用于微调特定文化的 LLM
模型架构: CulturePark 分为两层,第一层主持人 Agent 通常由英语背景的美国人 Agent 组成,第二层参与者 Agent 由多个国家背景的 Agent 组成,主持人 Agent 在文化辩论中会提出特定问题,参与者 Agent 将对特定问题输出观点并进行辩论
应用场景: Agentic 微调框架,具体可应用于教育 Agent、客服 Agent 等领域
测试结果: 团队微调后的模型在各大文化数据集中,远远优于 GPT-3.5-Turbo 和 GPT-4,团队还招募了 24 位志愿评测员,在人工评测中也显示出了 CulturePark 更贴近现实的文化道德观,表明 CulturePark 出色的文化对齐和文化理解能力
CulturePark 评测结果
绿洲:请帮我们介绍一下您的教育背景以及研究经历?
王老师:我过去在中科院计算所读博,一开始的研究方向是利用手机或传感器做人体的行为识别,例如呼吸、心跳、运动加速度,应用于疾病识别等。当时我发现领域中数据很少,无法建通用模型,因此研究方向慢慢转向迁移学习;后来从加入微软亚洲研究院到现在,我的研究方向也从基于迁移学习思想逐步扩展到半监督学习、OOD 泛化、联邦学习等,力求构建算法以解决更加实际的问题。
自 ChatGPT 领衔的大模型发布以来,我也调整了一些研究方向。由于 LLM 简化了自然语言预处理的很多繁杂的步骤,我们这些过去没有 NLP 经验的学者也能受益,于是我也转向大模型相关的研究。我在微软的研究侧重点不是预训练大模型,而是后端下游的相关工作,例如大模型能力评测、下游任务的适配、以及大模型与社会科学结合等。
迁移学习并不是搞计算机的人提出来的,在 1901 年心理学家就提出了情境知识转移的概念,直到 1995 年计算机科学家提出能否找一找计算机任务中的相关性,迁移学习正式进入计算机科学和人工智能领域。本质上机器学习是很抽象的概念,可以理解为将已有的知识复用在类似下游任务中。
大模型出来之后,迁移学习的概念也发生了转变,最明显的就是解决计算资源非常不足,模型训练不可能成为标配的痛点,迁移学习能够快速完成开源模型或者闭源模型 API 调用后的任务适配。
绿洲:请帮我们介绍一下设计 CulturePark 的初衷?
王老师:我们在做 CulturePark 之前,还做了另一篇工作叫 CultureLLM,因为我们注意到很多研究都是只单独测试英语或汉语,下游通用任务就是推理或数学等。但大模型真正要走进千家万户,不光需要在大家关注的任务上有用,还需要解决文化特异性问题。全世界有几百个国家和地区、几千种语言,不同生活习惯的人用同一种语言也会表达不同的意思。因此我们想设计一种模型,不管什么背景的人用起来都觉得很舒服,能够完全理解某种文化或语言的人想表达什么意思,于是有了 CultureLLM。
在 CultureLLM 的基础上,我们利用了 Agent 的架构设计了数据增强算法,将过去 CultureLLM 中优化问题的方式再升级一下。我们构建了一种虚拟的环境让 Agent 自由地交互,这种交流的方式基于人与人之间的沟通理论,背后有社会学的基础,从而 Agent 能够更好地学习不同背景之间的文化交互方式。
CulturePark 只依赖很少的子数据,绝大部分精准数据都是模型交互产生的,大家都知道互联网上有效的训练数据会越来越少,我们的思路就是能否通过模型自己的交互来产生源源不断的新数据。我们当时选择了 8 个国家的 Agent 背景进行测试,主要是基于标准化测试集 Culture Dimension(这是一个由著名荷兰社会科学家 Hofstede 创建的文化维度数据集)的测试维度,不同背景的 Agent 需要满足 2-3 个标准化的测试标准,最终选择了更适合的这 8 个国家的Agent。
绿洲:请帮我们介绍一下 CulturePark 的架构?
王老师:CulturePark 有两大类 Agent,Agent 之间交流过程中,主持人会准备好一些问题,都是从世界价值观调查(WVS)数据集中提取的,这是一个非常有名的调查问卷。然后另一类不同活动背景的 Agent 就会对特定问题进行回答,中间 Agent 会对不同的观点进行辩论,Agent 会完全表达自己和别人不同的观点。
其实一开始我们也不知道如何控制 Agent 生成数据,我们能做的就是把 Prompt 写好,然后尽可能地让 Agent 捍卫它们自己的文化,其他 Agent 要去反驳它,过程中我们收集跨文化对话。我们一般设定这个主持人是英语文化的美国人背景,过程中 GPT 生成的冗余的内容,我们就会利用数据过滤、清洗、聚类的方式进行观点提炼,最后还会做一些事实性验证,还包括恶意、偏见、攻击检测等,最终实现不同文化观点数据的提取。
另外我们和别人做文化评测不一样的点是,除了正常的数据集评测,我们还引入了志愿者进行真人评测,最后发现效果还是很突出的,因为文化是非常主观的,有了真人进行评测之后,我们能突出“标准答案”以外的文化数据。
绿洲:请问 CulturePark 能应用在哪些场景?
王老师:用途主要是两个层面,一个是模型层,一个是应用层。在模型层我们设计了数据增广算法,文化换成任何的主题都可以使用这套框架,比如我们想做法律相关的数据增强,完全可以把法律条文当作种子数据,让 2 个 Agent 进行辩论,通过辩论把条文解释得更细致,这样就会生成充足的数据来微调大模型。另一层是微调过程中文化数据的质量和数量的提升,不同文化的数据多囊括一些,你完全可以做得更细致,甚至有上百种文化数据,这样当全世界在使用你的模型或 Agent 后能更“懂”你。
在应用层面就更广泛了,我们在论文中举的例子就包括教育、客服等领域。另外我们利用 CulturePark 这套框架,还可以换很多其他想强调领域的数据,在提升特定领域能力的同时,还不会发生灾难性遗忘,其他任务上也不会损失性能,完全可以让开发者大胆地去部署他们想要的模型。
绿洲:沿着这条思路您下一步准备做什么?
王老师:因为 CultureLLM 是人工设计的算法设置的数据扩充,我们针对 CulturePark 主要做的是机器与机器之间的交互,下一步我们还准备加入人与机器的交互数据结合,未来对于 Agent 的道德、安全,我们都会做相关的工作。
另外一块是将多模态引入到文化数据呈现模式中,很多和文化有关的数据是图片,例如看到 长城,外国人和中国人想到的形容是完全不同的,我们期待把这个世界的呈现方式变得更丰富一些。
本文来自微信公众号“緑洲资本 Vitalbridge”(ID:Vitalbridge),作者:参赞生命力,36氪经授权发布。