36kr 2024年11月26日
UC伯克利:给大模型测MBTI,Llama更敢说但GPT-4像理工男
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

UC伯克利最新研究VibeCheck发现,不同的大语言模型(LLM)在回复风格、语气等方面存在显著差异,如同拥有独特的性格。研究通过200个提示词,收集不同模型和人类的回复,并利用人类评审和GPT-4o mini进行评估,最终得出10个维度(如自信、正式性、幽默等)的模型性格特征。研究发现,Llama 3更具对话性和幽默感,而GPT-4则更偏向正式风格,这些差异解释了用户对不同模型的偏好。VibeCheck的出现为大模型的评估提供了新视角,也为开发者提供了选择和优化模型的新方向,例如,可以通过微调让模型更幽默,或根据特定任务选择更合适的模型,从而实现更好的用户体验和人机交互。

🤔 **VibeCheck研究表明不同LLM在回复风格和语气上存在差异,如同拥有独特的性格。**研究通过人类评审和GPT-4o mini评估,总结出10个维度来描述LLM的性格特征,例如自信、正式性、幽默等,并发现不同模型在这些维度上的表现存在差异。

📊 **Llama 3在Chatbot Arena上表现优异,原因在于其更具对话性和幽默感,更符合用户偏好。**研究发现,Llama 3更愿意参与敏感话题,回复更具对话性,而这些特性正是用户所青睐的。

🔍 **不同LLM在特定任务上的表现也存在差异,例如文本摘要、数学问题和图像描述。**例如,Command X在文本摘要方面更能捕捉到故事的多重视角,而Llama-405B在数学问题上提供更详细的解题步骤。这些差异也影响了用户对不同模型的偏好。

🎯 **VibeCheck可以帮助开发者更好地理解不同LLM的性格特征,从而选择更合适的模型或进行微调优化。**例如,根据VibeCheck的评估结果,开发者可以改进模型,使其更幽默或更正式,从而更好地满足特定应用场景的需求。

🤝 **用户对不同任务的偏好存在差异,例如在人文类问题上更偏好对话感强、语气友好的模型,而在数学问题上更偏好简洁正式的模型。**VibeCheck的分析可以帮助开发者更好地进行人机偏好对齐,让模型更好地满足用户需求。

如果给LLM做MBTI,会得到什么结果?UC伯克利的最新研究就发现,不同模型真的有自己独特的性格

如果你经常在不同大模型之间来回切换,或许会发现不同模型的回复语气有细微差异,如同有不同的性格。

那么,LLM究竟有没有「性格」这种维度的特征?最近加州大学伯克利分校发表的新研究VibeCheck就证实了这种推测。

论文地址: https://arxiv.org/abs/2410.12851

评价LLM,不止于准确度

如何更全面地评价大模型在撰写故事、解释概念或编辑文章上的表现?当前的基准测试大多只关心正确性,然而当我们评论一个人类写作者的时候,关注的维度就会扩展到创造力、写作风格等众多维度。

对于那些经常使用不同模型的用户,他们早已熟悉不同模型回复时表达方式上的差异,比如下面这张图中,ChatGLM的文字显得非常全面且严谨,透着浓浓的学术风。

但对于同一个问题,kimi的回复会包含更多具体的例子,但解释的语言更为简洁。

了解这些差异,对于那些使用基座大模型进行下游应用的开发者,会有所帮助。

例如,若我们发现Llama的回复更加友好,那么说明Llama更适合进行客服类任务,而回复更为正式的Claude则更适合编程类任务。

然而该如何系统性地了解这些差异?自然是「用魔法战胜魔法」,也就是用大模型来评价不同大模型的表现,而这正是VibeCheck在做的事。

下图展示了VibeCheck的核心模块,包括给出提示词、不同大模型做出回复,以及定性评价三部分。

VibeCheck的核心模块

给出了一组约200个的提示词后,研究者收集了不同大模型及人类的回复,并招募了200名人类评审员,两两比较这些回复并对「友好性」进行打分后计算平均分。

此外,人类评审员还会对大模型和人类回复的细微差异进行描述,例如,他们发现:

    大模型的回答通常很正式,而人类的回答则更口语化 大模型提供客观答案,人类使用主观表达 大模型拒绝回答其知识范围之外的问题

除了人类评审员,VibeCheck还调用了GPT-4o mini来评价不同大模型的回复,结果发现与人类的评估结果相符。也就是说,GPT-4o mini也能发现上述人类评审员总结的细微差异。

下面是VibeCheck考察的10个评估维度,包括

    自信:使用试探性或不确定的语言。 细节程度:提供简短或包含细节的回答。 正式性:随意、对话式的非正式语言,或复杂,学术性的语言 情感基调:保持中立或超然,或者在回应中表达热情或同理心 创意:坚持标准、可预测的答案,或提供具有新颖想法或想象性场景的回应 明示性:使用模糊、隐晦的语言,或直接且明确地陈述事物 幽默诙谐:以直接严肃的方式回应,或使用幽默、俏皮语言、文字游戏 参与程度:被动呈现信息,或通过修辞疑问、互动性语句主动吸引读者 逻辑严谨:提供结论而缺乏充分论证,或构建有充分支持的论点,推理清晰 简洁性:使用冗长的语言和过多的细节,或使用最少的词汇清晰表达观点

有了VibeCheck,你可以给出自己定义的问题以及不同大模型的回复,之后由代码自动生成多维度的评估,具体可参考论文附带的GitHub仓库。

仓库地址:https://github.com/SutekhVRC/VibeCheck

主流LLM的细微差异

接下来看看三种主流大模型:Llama-3-70B、GPT-4和Claude3-Opus之间的对比。

在使用众包及游戏排位赛的大模型评价平台Chatbot Arena上,Llama3的表现被认为优于GPT-4及Claude3。但经由VibeCheck的评估可发现,其中另有玄机。

结果发现,Llama3更愿意参与敏感或暴力话题,对伦理的重视较少,回复更加具有对话性(例如使用更多的你,我这样人称代词)和幽默感,而这些正是Chatbot Arena的用户所关注的特征.正因为人机偏好对齐做得好,Llama3才能获得这样的好评。

接下来,VibeCheck还考察了文本摘要生成、数学及描述图片这三个具体应用中不同大模型的差异,并根据这些差异解释了为何用户对不同大模型存在偏好。

例如,Command X和TNLG是两个用于文本摘要/总结生成的大模型,然而经过VibeCheck的拆解,可发现:

1)Command X通常明确陈述引言和结论,TNLG则使用断断续续的句子

2)Command X能提供具体例子或轶事来说明观点

3)Command X能够捕捉到一个故事的多重视角和情感方面,TNLG则更客观

这些特征决定了,相比TNLG,人类评审员会更加偏好Command X。与此同时,VibeCheck能够分别以71.29%的和61.42%的准确率预测模型在前述10个维度的PK结果和人类评审员的评价。

而在数学问题上,Llama-405B的回复相比GPT-4o更加详细,对解题步骤的讲解巨细靡遗,而GPT-4偏向于使用如Latex这样的正式符号。

然而,在数学相关问题上,用户偏向于使用正式的语气并频繁使用符号,对大模型思维过程的过度解释与人类偏好呈负相关。

VibeCheck能够以97.09%的准确率预测模型在上述10个维度上的对决结果,并以72.79%的准确率预测用户偏好。

在描述图像的任务中,研究发现GPT-4V更多使用诗意的语言,并将标题结构为一个动态故事,推断图像中主体的个性和情感,而Gemini则坚持更直白的描述。

VibeCheck能够实现接近完美的99.13%模型匹配准确率(相比人类给出的评价)和89.02%偏好预测准确率

结论

随着大模型的应用范围越来越广,距离我们的日常生活越来越近,我们会不自觉地将大模型拟人化,而人是会具有个性的。

虽然VibeCheck更多关注文字相关的任务,但未来可以使用类似的框架,去评价不同的文生图及文生视频模型,考察这些模型的产出是否也存在微妙的「个性」差异。

搞清楚这些差异,就相当于开发了一条全新的蓝海赛道,让当下纯粹卷模型准确性的大模型厂商有了差异化竞争的可能,从而让各种性格的大模型得以百花齐放。

而基于大模型开发具体应用的开发者,也可以关注不同大模型在语气、氛围上的细微差异,选择合适自己应用场景的大模型,或者通过微调,让大模型在某项指标上有所改进。

例如可以根据VibeCheck的评价结果改进得到更幽默的大模型,而不必招募人类评审员。

更关键的是,通过VibeCheck具体的拆解,我们可发现,用户对不同任务的偏好存在差异。

例如在回答人文类的问题时,更具有对话感、语气更友好的大模型受欢迎;而在解答数学问题时,回答简洁且语气正式的大模型用户评价更高。

这样细致的拆解,能够让我们更好地进行人机偏好对齐,从而让大模型能更贴心地为人类服务。

参考资料:

https://arxiv.org/abs/2410.12851

本文来自微信公众号“新智元”,作者:peter东 乔杨,36氪经授权发布。

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

大语言模型 LLM VibeCheck 模型性格 人机交互
相关文章