IT之家 前天 19:03
华盛顿大学研发“空间语音翻译”技术:多人同时发言也能精准识别
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

华盛顿大学的研究团队开发了一种创新的可穿戴式“空间语音翻译”技术,该技术通过双耳耳机,在多人同时交谈的环境中实现实时翻译,并保留每位发言者的声音特征和方位感。与传统翻译工具相比,这项技术解决了多人同时发言和声音个性化的问题。该技术结合了音源分离、空间定位、实时翻译和双耳渲染等技术,在Apple芯片上实现了流畅的实时翻译,并支持多种语言互译。测试结果表明,该系统在多人交流场景中的表现优于传统翻译工具,提升了翻译质量和用户体验。

🗣️ 准确的音源分离与定位:该技术将空间细分为多个角度区域,并利用神经网络识别每个区域内的潜在发言者,从而实现精准的音源分离与定位,确保多人同时发言时翻译的准确性。

🗣️ 实时语音翻译模型:研究团队构建了可在Apple芯片上实时运行的语音翻译模型,该模型能够保留说话者的音质和情感,使得翻译结果更自然、更具个性化。

👂 双耳渲染技术:该技术开发了双耳渲染方法,使得翻译后的语音从原说话者的方向传来,增强了用户的沉浸感和空间感知能力,让用户更容易区分不同说话者。

🌍 多语言支持与广泛测试:该系统支持多种语言之间的实时翻译,并在多种环境下进行了测试,测试结果表明,该系统在不同场景下均表现出较强的通用性,为用户提供了更便捷的交流体验。

👍 用户体验提升:实验表明,新系统在多人交流场景中的表现优于传统翻译工具,不仅提升了翻译质量,也更易于用户分辨说话者,增强了用户体验。

IT之家 5 月 24 日消息,美国华盛顿大学的一项研究提出了一种可穿戴式“空间语音翻译”技术,能够通过双耳耳机在多人交谈环境中实时翻译,并可以保留每位发言者的声音特征与方位感

据 ITMedia News 昨日报道,借助这项技术,耳机能将每个人的话实时翻译成你的母语,同时保留每个人的声音个性和方向信息,让你清楚分辨谁在说什么。

与现有翻译工具相比,这项技术解决了两大难题:一是支持多人同时发言场景,二是翻译结果不再千篇一律,而是保持每个说话者独特的声音风格与方向。研究结合了音源分离、空间定位、实时翻译与双耳渲染等技术,构建出完整系统。

IT之家从报道中获悉,研究团队的三大技术突破包括:

在实际测试中,研究人员使用市售降噪耳机和双耳耳机,在苹果 M2 芯片上完成了从法语、德语、西班牙语到英语的实时翻译。10 名受试者在多种环境下测试后,系统展现出较强的通用性。

进一步的评估表明,29 名参与者普遍认为,新系统在多人交流场景中的表现优于传统翻译工具,不仅提升了翻译质量,也更易分辨说话者。此外,在空间感知实验中,用户能准确判断翻译语音的方向,与原声几乎无异。

研究成果:

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

空间语音翻译 可穿戴设备 实时翻译 多语言 人工智能
相关文章