PaperWeekly 4小时前
中英双语一起破防!北大×腾讯发布“地狱级”测试基准,直击语音对话模型软肋
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

C3评测基准是首个全面考察口语对话中歧义、省略、指代等问题的中英双语评测基准,用1079个真实场景挑战语音对话大模型,中文最强模型Qwen2.5-Omni得分40.08分,英文最强模型GPT-4o-Audio-Preview得分55.68分。C3评测基准具有真实场景、双语暴击、LLM vs 人类等特点,旨在推动语音对话技术发展。

😅 C3评测基准专注于口语对话中的歧义、省略、指代等问题,用1079个真实场景和1586段音频-文本对挑战语音对话大模型,揭示了当前模型在这些方面的不足。

🗣️ C3评测基准采用中英双语构建,收集两种语言特有的复杂语音对话现象,拒绝翻译腔,更贴近真实生活对话场景,对模型提出了更高要求。

🤖 C3评测基准采用GPT-4o/DeepSeek-R1双评委自动评估系统,与人类专家一致性超87%,确保评测结果的客观性和准确性,为语音对话技术发展提供可靠依据。

🔍 C3评测基准的5大挑战,招招致命,针对停顿、多音字、谐音、重音、不同语调导致不同含义、句法歧义、一词多义、指代、省略、多轮对话等多种现象进行测试,全面考察模型的对话能力。

🚀 C3评测基准的推出,将推动语音对话技术发展,促使模型在处理复杂语音对话场景时更加智能化,为用户带来更便捷、准确的语音交互体验。

原创 让你更懂AI的 2025-08-07 23:22 北京

歧义、省略、指代全都有!


为什么你的语音助手总翻车?

当用户说“苹果/不大好吃”和“苹果不大/好吃”,这个苹果到底大不大、好不好吃?

当用户说“夏天能穿多少穿多少”和“冬天能穿多少穿多少”,指的到底是少穿一些还是多穿一些?

这些人类的日常对话,却是当前口语对话模型(SDM)的致命弱点!


C3 Benchmark 来了! 

首个全面考察口语对话中停顿、多音字、谐音、重音、不同语调导致不同含义、句法歧义、一词多义、指代、省略、多轮对话等多种现象的中英双语评测基准,用 1,079 个真实场景、1,586段音频-文本对,让语音对话大模型手足无措!


5大挑战,招招致命!

▲ C3 挑战示例


评测结果(截至2025年7月30日) 

📊 雷达图分析:

▲ 左侧为中文结果,右侧为英文结果

🔍 发现:


C3的核心特点

1. 真实场景:数据集贴近真实生活,部分人工配音保证音频质量。

2. 双语暴击:中英双语独立构建,收集两种语言特有的复杂语音对话现象,拒绝翻译腔。

3. LLM vs 人类:采用 GPT-4o/DeepSeek-R1 双评委自动评估系统,与人类专家一致性超 87%!


立即体验!

🔥 限时活动2025 年 9 月 1 日前,可帮您的语音对话模型免费代评测!如有需求,请发邮件至 chengqianma@yeah.net,推荐使用标题 [C3Bench Evaluation] - [Model_Name]

更多阅读

#投 稿 通 道#

 让你的文字被更多人看到 


如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。

总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 

PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。

📝 稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注 

• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算

📬 投稿通道:

• 投稿邮箱:hr@paperweekly.site 

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿


△长按添加PaperWeekly小编


🔍

现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧


·

阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

C3评测基准 语音助手 口语对话 人工智能
相关文章