科大讯飞 2024年10月25日
语音识别大赛五连冠!开会就能用!
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

科大讯飞在CHiME大赛中获冠军,其技术解决了会议室场景中诸多难题,如语音识别、说话人分离等,并已应用于多种软硬件产品,提升了会议转写等效果。

🍀科大讯飞联合团队在CHiME大赛‘会议室场景远场多人语音识别’任务中获冠军,突破人数估计、语音重叠等难关,单通道赛道和多通道赛道语音识别错误率大幅降低。

🎤提出‘基于重叠声检测和语音分离的多说话人迭代聚类角色分离算法’,解决噪音下人声分离问题,修正说话人数错估等情况。

🎧‘长短时空间滤波’方案解决空间层面收音和识别问题,有效捕捉移动说话人变化的空间信息,解决多种难点。

📝‘自适应声学与语言模型方案’提升识别准确性,捕捉语音特征和应对环境噪声,结合上下文优化语言模型生成策略。

2024-09-09 10:11 北京

提问:5个人一起开会,随时打断、快速切换、边走边说,会议记录怎么对齐?

虽说有AI记录,但在复杂的会议场景中,到底怎样实现高精准的语音识别和说话人分离?

这个问题,现在已经可以解决了。

近日,科大讯飞再获CHiME大赛冠军,在“会议室场景远场多人语音识别”任务中,突破了人数估计、语音重叠、远场混响、人员移动及对话风格随意等难关。


把技术评测搬到会议室

CHiME(Computational Hearing in Multisource Environments)大赛组委会当地时间9月6日宣布:

科大讯飞与中科大语音及语言信息处理国家工程研究中心(NERCSLIP)、国家智能语音创新中心联合团队,在参与的全新Task 2——“会议室场景远场多人语音识别”(NOTSOFAR)任务中获得全部两个赛道的第一名,连续五届获得冠军。

此次比赛任务面向会议室场景,难度再升级

科大讯飞联合团队在单通道赛道上语音识别错误率(tcpWER)降至22.2%,领先第二名26.0%,相比基线系统降低了46.4%;在多通道赛道上语音识别错误率(tcpWER)降低至10.8%,领先第二名42.2%,相比基线系统降低了61.8%;且在细分的7个声学场景下的表现都优于其他团队,体现了所提交系统在多种噪声、会议特性环境中的鲁棒性。

多通道赛道tcpWER结果和排名

单通道赛道tcpWER结果和排名

单通道赛道7个细分声学场景下的tcpWER结果,值越低成绩越好


实际开会效果怎么样?

此次挑战赛涉及的语音识别相关技术,已在讯飞听见、讯飞智能办公本、讯飞智能录音笔等软硬件产品中用上了,针对会议室场景下的会议转写、发言记录等,相比过去效果提升了

以本次CHiME比赛任务中,科大讯飞获奖团队提出的技术方案为例,我们来看下技术如何解决实际开会拾音问题的

先解决噪音下人声分离的问题

本次讯飞获奖团队,提出了“基于重叠声检测和语音分离的多说话人迭代聚类角色分离算法(Speaker Clustering Based on Overlap Detection and Speech Separation)”。

该方案能够在说话人重叠的部分中,将每个说话人声音独立分离出来,还可以修正音色相似或分离音频畸变导致的说话人数错估、角色错分等情况

接着,解决空间层面上收音和识别问题

开会发言到激情处难免起立走动,说话人走动会让声音捕捉增加难度,还有音量大小不一、背景噪音等干扰。

对此,讯飞获奖团队的“长短时空间滤波(Long-Short Spatial Filter)”方案,针对会议场景特点,在长时语音段上对每个说话人建模,有效避免某个说话人有效语音片段过少导致的估计偏差,还可以有效捕捉移动说话人变化的空间信息

同时,这个方法还能有效解决会议远场语音识别中存在的背景噪声、语音重叠、音量过低、说话人走动等难点问题。

再针对会议场景提升识别的准确性

哪怕解决了说话人声分离、空间收音问题,也还有五花八门的难题,比如,不同人说话习惯不同,如何适应发言人的说话习惯,让识别结果更准确?

讯飞获奖团队的“自适应声学与语言模型方案(Adaptive Acoustic and Language Model Method)”,可以有效捕捉不同说话人的语音特征和应对各种环境噪声,结合上下文信息,通过对话历史和场景关键词进行动态调整,实时优化语言模型的生成策略

这使得模型能够理解当前对话的主题和参与者的说话习惯,从而生成更合适的识别结果。

值得一提的是,本次任务中,联合团队在大模型基础上,针对复杂场景引入WavLM等增强特征表达,融合多专家混合模型(MoE)强化了大模型场景的信息解耦。大模型的发展,不仅显著提升了语音识别的准确率,也带来了更多可能。

有了这些技术,开会听得更清楚也不是难事了。

下次开会,不妨试试这些工具——

前段时间,星火极速超拟人交互也正式全民开放体验,更快响应、更懂情绪、更加灵活、更加百变的语音交互,欢迎大家体验。


-互动福利-

评论区聊聊

你开会都遇到过哪些麻烦的问题?

以及希望AI如何帮忙解决?

抽3位送讯飞周边礼物

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

科大讯飞 会议记录 语音识别 CHiME大赛
相关文章