36氪 - 科技频道 前天 11:59
AI也能当情感大师?腾讯发布最新AI社交智能榜单,最新版GPT-4o拿下第一
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

腾讯混元AI数字人团队推出SAGE框架,旨在评估AI的“情商”,即理解情绪和共情能力。SAGE通过构建模拟人类心理的“感知智能体”来与AI进行多轮对话,并根据智能体的情绪变化和内心独白来评估对话质量。实验结果显示,GPT-4o在SAGE排行榜上表现最佳,证明其在情感共鸣方面具有优势。SAGE的评分与心理学评分高度一致,能真实反映AI互动的共情质量,为AI的“高阶社会认知”能力提供了新的评估维度。

🎭 SAGE框架通过构建具备“情绪”、“内心想法”、“隐含动机”的模拟人类的“感知智能体”,来模拟人类心理,评估AI是否真正具有“共情力”,能否理解用户的情绪、洞察潜台词。

🗣️ SAGE的每个感知智能体都有“人生剧本”,包括人物设定、对话主题、隐藏意图和背景故事,使得对话更具真实感和情境性。在多轮互动中,智能体会记录内心想法和感受,更新情绪值,并决定下一步回应,以此评估AI是否“真的懂人”。

📊 实验结果表明,GPT-4o在SAGE排行榜上名列前茅,其SAGE评分与BLRI量表(衡量人际关系质量和共情力的心理测量量表)高度正相关,表明SAGE能真实反映AI互动的共情质量。

✍️ SAGE还从“说话自然度”、“专注倾听度”、“情感共鸣度”三个维度衡量模型的对话质量,并发现对话质量指标与SAGE评分高度相关。同时,SAGE也评测模型的Token效率,发现共情能力强的模型,不一定要“话痨”,简洁表达+情绪把握才是王道。

🎨 研究者还构建了一个模型的二维“风格坐标图”,横轴为互动方式(公式化互动↔️创造性互动),纵轴为回复导向(问题解决导向↔️共情理解导向),从而对AI建模“人格画像”,发现GPT-4o等“好情商”选手,往往偏向“强烈共情 + 稳妥模式回复”。

判断AI是否智能,评价维度如今已不仅限于刷榜成绩。

当大模型在“IQ”上不断实现新的突破,“懂人心”、“解人意”开始成为实际应用中,人们对大模型新的要求。

所以,AI的“EQ”又该如何评价?

由腾讯混元AI数字人团队打造的全新自动化评估框架——SAGE(Sentient Agent as a Judge),回答了以下的两个问题:

在该框架下,最新版GPT-4o表现最好,GPT-4.1、Gemini-2.5系列紧随其后。

SAGE:让AI模拟“有感情的人”,来评测另一个AI

SAGE不只是看模型答得好不好,而是构造一个模拟人类心理的“有感知力的”AI智能体,让它像人一样参与多轮对话、模拟情绪变化、生成内心独白,并最终评估对话质量。

可以拆解出两个关键词:

具备“情绪”、“内心想法”、“隐含动机”的模拟人类。

它不仅在聊天,也在全程“体验”AI的陪伴效果,根据自身的“情绪变化”给出评价。

这位“AI人类”,每轮对话都会认真思考:

甚至,它还会给出聊天过程中的“内心独白”:

是不是有点像我们和那些“听了半天还是不懂我意思”的朋友聊天的真实感受?

SAGE :每个感知智能体都有“人生剧本”

SAGE的每个感知智能体都是一个“有血有肉”的角色,拥有:

多轮互动 + 情绪追踪

评估过程中,感知智能体会和大模型进行多轮对话。每一轮,它都会进行严谨的多轮推理,模拟人类的“内心小剧场”:

最终,大模型在这个互动中是否“真的懂人”,就通过智能体的“情绪轨迹”和“内心独白”体现出来。

聊天后的情绪值便可以作为感知智能体对于被评估大模型最直观、最全面的数值评估。

GPT-4o最有人情味

SAGE研究团队基于100个涵盖8种不同隐藏主题的支持性对话场景,对18个主流模型进行了测评,包括GPT-4o、DeepSeek-R1、Claude3.7、Gemini2.5,以及Llama3.3、Qwen2.5等开源模型:

可以看到:

实验分析1:BLRI情感共鸣实验——SAGE评分和心理学评分一致

为了验证SAGE情绪评分的真实性,研究者将感知智能体的心理活动映射到经典心理学工具——Barrett–Lennard Relationship Inventory (BLRI)量表,这是一套衡量人际关系质量和共情力的心理测量量表。

实验发现,SAGE给出的“情绪值变化”与BLRI各项维度(如共情理解、情感一致性)的评分,高度正相关(r = 0.818),这意味着:

SAGE模拟出来的“用户心情”,确实能真实反映AI互动的共情质量。

也就是说,SAGE不仅“听上去合理”,它的“打分方式”也跟专业心理咨询标准一致。

实验分析2:「语气、节奏、专注力」——AI的对话质量

SAGE还基于整体的对话回复,从三个维度来衡量不同模型的对话质量(“对话体验感”):

实验发现,对话质量指标与SAGE评分也高度相关(r = 0.788)

实验分析3:Token Efficiency——精准且高效

和AI聊天的时候,常常聊1句模型要输出一千字,可是这一千字真的都有用吗?

SAGE也评测了模型的Token效率:即每获取一点“情绪正向反应”,模型需要生成多少内容。

一个意外但重要的发现是:有些高情商模型,不光懂人心,还特别“话不多”。

可以看到:

这说明: 共情能力强的模型,不一定要“话痨”,简洁表达+情绪把握才是王道。

实验分析4:AI的「风格坐标图」——给AI建模“人格画像”

研究者先让Gemini2.5-Pro基于不同模型与感知智能体交互的对话,分析表达和模型成功失败的案例,建模模型不同的人格画像。

有趣的是,DeepSeek-R1被认为是一个才华横溢、内心温暖善良,但社交技巧和现实感有待磨练的“创意型天才”,而o3被认为是一个极其聪明、受过严格专业训练、懂得各种先进方法论的机器人咨询师。

接着,研究者基于回复样例、人格画像建模、模型使用的策略分布量化数据,构建了一个模型的二维“风格坐标图”:

实验发现:

论文地址:

https://www.arxiv.org/abs/2505.02847Github

链接:

https://github.com/Tencent/digitalhuman/tree/main/SAGE

本文来自微信公众号“量子位”,作者:关注前沿科技,36氪经授权发布。

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

SAGE框架 AI情商 GPT-4o 情感共鸣 人机交互
相关文章