中国科技报 07月29日 03:00
[成 果] 回声消除技术给智能设备戴上“降噪耳机”
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

科大讯飞凭借其“基于时延估计的回声消除方法及装置”专利荣获中国专利金奖。该技术通过精确估计时延,有效消除语音系统中的回声,显著改善了用户体验。面对设备振动、时延动态变化以及时效性要求高等挑战,科大讯飞创新性地采用了基于相似度的异常频点检测技术和统计与瞬时结合的动态时延估计技术,大幅提升了时延估计的准确率和及时性。这项技术通用性强,可广泛应用于手机、汽车、家电等智能硬件的语音降噪,以及工业、医疗等领域,并计划与深度学习结合进一步优化。

💡 回声消除是语音交互的核心技术,科大讯飞的专利技术通过精确估计声音信号的传输时延,从而动态构建滤波器,将扬声器播放的声音回声从麦克风接收的混合信号中分离,确保用户语音的纯净,提升了语音交互的整体体验。

🚀 针对真实语音交互中时延估计的难点,该专利实现了三大创新:一是通过“基于相似度的异常频点检测技术”来排除设备振动和目标人声干扰,提高信号准确性;二是采用了“统计与瞬时结合的动态时延估计技术”以应对时延的动态变化;三是优化了滤波器更新机制,将延迟确认时间从40毫秒降低至10毫秒,确保了时延估计的及时性。

📈 该技术在准确性方面取得了显著突破,将时延估计的准确率从60%提升至98%,同时大幅缩短了处理延迟,从而有效避免了回声消除不干净导致的啸叫或自说自话等问题,为用户提供了更流畅自然的语音交互感受。

🌐 该专利技术具有广泛的适用性,不仅可用于智能车机、智能家电等消费级产品,如讯飞翻译机和录音笔,还能应用于汽车、家电等多种智能硬件的语音降噪,以及工业生产、智能制造场景中的噪声追踪识别,甚至在医疗领域帮助听力辅助设备抑制啸叫。

🔮 未来,科大讯飞计划将此项技术与深度学习相结合,通过数据驱动的模型训练,进一步提升时延估计的准确性和速度,以适应更复杂多样的硬件及应用场景,持续优化语音交互和降噪能力。

视觉中国供图

    ◎本报记者 都 芃

    用语音操控智能车机,一句话唤醒智能家电,手机智能助手随叫随到……凭借便捷、自然的体验,语音交互正在改变智能时代的生产生活方式。回声消除是语音交互的核心技术之一,其技术水平决定着人们的语音交互体验。

    不久前,国家知识产权局正式公布第二十五届中国专利金奖项目名单,科大讯飞股份有限公司(以下简称“科大讯飞”)凭借其“基于时延估计的回声消除方法及装置”专利入选。该专利技术显著提升了语音系统中的回声消除效果,改善了语音系统的实际应用体验。

    找到时延“牛鼻子”

    说起回声,许多人最先想到的场景是,一个人站在山中对着空荡荡的山谷大声呼喊,随后阵阵回声传来。这是声音传播受到阻碍,反射回说话人所形成的现象。但语音系统中所说的回声,更多是由麦克风和扬声器耦合所致。科大讯飞相关技术负责人张科举例说:“例如我们在进行一场视频会议的时候,扬声器播放出对方说话的声音,如果我们不有针对性地进行回声消除,对方说话人的声音就会被我们的麦克风接收,然后传送回对方,导致对方在音频系统中听到自己说话的回声。”

    要消除回声,首先就需要让系统识别出什么是回声。张科告诉记者,在理想情况下,可将扬声器播放前的信号作为基础来抵消回声。但现实情况要复杂得多,参考信号与麦克风信号往往存在一定的时延,因此需要准确估计时延,从而矫正对齐信号,这就是经典的基于时延估计的回声消除方法。

    该方法的核心思路是,当麦克风收录声音时,系统首先通过时延估计算法精确计算扬声器声音到麦克风的传输时间差,继而基于这个关键参数构建动态滤波器,将扬声器回声从混合信号中精准剥离,最终保留纯净的用户语音。

    例如在用语音控制智能机顶盒时,需要避免电视的声音回传给智能机顶盒,导致误操作。在消除回声时,可以将机顶盒输出给电视的音视频源信号作为参考信号,计算其与麦克风信号之间的时延,进而消除回声,得到纯净的语音控制声音。

    时延估计又快又准

    要准确计算出时延参数并不容易。在真实的语音交互环境中,基于时延估计进行回声消除通常会面临三大问题。一是设备振动引起信号变形,叠加交互时的目标人声,大大影响时延估计准确率。二是扬声器与麦克风之间的时延并非一成不变,而是受到设备采样率、音效变声、网速变化等多种因素影响。因此,如何动态估计时延是又一挑战。此外,时延估计的最终目的是回声消除,这要求时延估计准确又及时。如果时延估计不及时,也会导致回声消除不干净,系统出现啸叫、自说自话等现象。

    针对上述的三大挑战,科大讯飞研发团队在该专利研发中实现了三大创新。针对设备振动引起信号变形和目标人声叠加难题,团队首创了基于相似度的异常频点检测技术。这项技术能够在声音信号中准确排除变形信号以及说话人语音的异常时频点,从而精准过滤回声。

    时延会受到各种因素影响而产生动态变化。为此,团队首创统计与瞬时结合的动态时延估计技术,引入瞬时信息决策,应对时延多变问题。应用该技术后,时延估计准确率大幅提升,从60%提升至98%。

    张科告诉记者,通过统计与瞬时结合的方法进行时延估计仍存在不准确的问题。团队经过细致分析发现,要提升准确率,需要先对统计量进行筛选,得到较为准确的瞬时候选位置,然后再与统计量结合。其中,最大的难题是怎么平衡速度和准确性。“速度快了可能就不够准确。”张科介绍,团队通过大量实验,最终改进了相关方法,灵活选择更短的窗长,并复用历史滤波器系数,大幅提高滤波器更新及时性,使得延迟确认时间从40毫秒降低至10毫秒。

    可应用于多种场景

    该专利技术具备良好的通用性,不仅可用于回声消除,还可广泛应用于多类语音场景。例如,其可为手机、汽车、家电等各种多麦克风智能硬件进行语音降噪。在噪声多样的工业生产、智能制造场景中,其可用于快速追踪与识别噪声。该技术还可应用于医疗领域,帮助听力辅助设备抑制啸叫。

    张科介绍,目前,该技术已深度融入科大讯飞智能终端产品矩阵,在消费级产品中得到广泛应用。无论是需要在跨语言沟通中精准捕捉人声的讯飞翻译机,还是专注于清晰记录语音信息的讯飞录音笔,都已运用相关技术。

    下一步,团队还打算将该技术与深度学习相结合,开展基于数据驱动的模型训练,以更快的速度得到更加准确的时延估计,从而进一步提升回声消除效果和降噪能力,以适应更多不同硬件及应用场景。

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

科大讯飞 回声消除 时延估计 语音交互 专利技术
相关文章