Cnbeta 16小时前
脑植入技术突破 帮助 ALS 患者再次说话和唱歌
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

加州大学戴维斯分校的研究人员开发了一种新的脑机接口(BCI)系统,使瘫痪者不仅能够说话,还能通过计算机“唱”出简单的旋律,且几乎无延迟。该技术通过植入微电极阵列捕捉大脑神经信号,结合低延迟处理和人工智能驱动的解码模型,实时合成语音。该系统使用语音克隆算法,声音与参与者相似,整个过程仅需10毫秒。研究还能够识别参与者唱歌的意图,并调节声音合成旋律。这项技术在表达力和流畅度上取得了显著进步,有望改变瘫痪者的生活。

🎤该技术通过植入微电极阵列,捕捉大脑负责语音产生区域的原始神经信号,从而实现对大脑活动的实时监测。

⏱️结合低延迟处理和人工智能驱动的解码模型,系统能够以仅10毫秒的延迟实时合成语音,实现近乎即时的语音输出。

🗣️系统采用了语音克隆算法,使用参与者患病前的音频样本进行训练,使得合成语音听起来与参与者本人的声音相似。

🎶除了语音,该系统还能识别参与者唱歌的意图,识别音调并调节声音,从而合成声乐旋律,实现了更丰富的表达方式。

💡研究人员表示,该系统能够重现参与者在句子中插入的词语,甚至识别语调和强调,使得合成语音的表现力远超以往系统。

脑机接口(BCI)领域的另一项进步是,一种新的植入式系统使瘫痪者不仅能够说话,而且还可以通过计算机“唱”简单的旋律——这中间几乎没有任何延迟。

加州大学戴维斯分校 (UC Davis) 的研究人员开发了这项技术,并在一位患有肌萎缩侧索硬化症 (ALS) 的受试者身上进行了测试。该技术本质上是通过手术植入大脑负责语音产生的区域的四个微电极阵列来捕捉原始神经信号。结合低延迟处理和人工智能驱动的解码模型,受试者的语音通过扬声器实时合成。

需要明确的是,这意味着系统并不是试图读取参与者的想法,而是翻译当他试图用肌肉说话时产生的大脑信号。

由于采用了在参与者患上 ALS 之前捕获的音频样本上进行训练的语音克隆算法,该系统的声音听起来也与参与者的声音相似。


BCI 设置和使用语音合成技术的研究参与者

从获取原始神经信号到生成语音样本的整个过程仅需 10 毫秒,从而实现近乎即时的语音。

BCI 还能识别参与者何时尝试唱歌,识别出三个预期音调之一,并调节他的声音以合成声乐旋律。


研究参与者阅读屏幕文本的神经信号有助于训练人工智能解码器模型

研究人员提供的视频演示了这一技术,它看起来很简单,但用“简单”这个词来描述这一非凡的进展似乎不太合适,因为瘫痪者可能曾觉得他们再也无法自然地表达自己,从而实现细致入微的交流。

即将发表在《自然》杂志上的这项技术论文的资深作者谢尔盖·斯塔维斯基(Sergey Stavisky)解释说,这是朝着这个方向迈出的重要一步。“有了即时语音合成技术,神经义肢使用者将能够更好地参与到对话中,”他说。“例如,他们可以打断别人说话,而别人不太可能意外打断他们。”

如果这项工作听起来很熟悉,那是因为它与我们今年 4 月看到的加州大学伯克利分校和加州大学旧金山分校的技术类似。这两个系统都使用来自运动皮层的大脑植入物收集神经信号,并利用人工智能系统进行训练,这些系统根据参与者试图说出屏幕上显示的单词时捕获的数据进行训练。

加州大学戴维斯分校这项技术的一大亮点在于,它能够重现参与者试图用“啊”、“哦”和“嗯”插入的句子。它甚至能够识别参与者是在用疑问句还是陈述句,以及何时强调了某些单词。该团队表示,它还能成功重现AI解码器训练数据之外的自造词汇。所有这些,使得合成语音的表现力远超以往的系统。

此类技术可以改变瘫痪者的生活,近距离观察这些渐进式的进步令人难以置信。

加州大学戴维斯分校的研究人员指出,他们的研究仅涉及一名参与者,他们后续的工作将尝试在更多因其他情况而出现言语丧失的受试者中复制这些结果。

“这是语音脑机接口领域的终极目标,”荷兰马斯特里赫特大学计算神经科学家克里斯蒂安·赫夫(Christian Herff,未参与此项研究)在《自然》杂志上评论道。“这才是真正的、自发的、连续的语音。”

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

脑机接口 BCI 语音合成 瘫痪 人工智能
相关文章