机器之心 04月03日 16:04
脑波解码延迟仅80毫秒,实时「意念对话」技术登Nature子刊
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

加州大学伯克利分校的研究团队取得突破性进展,开发出一种实时的“脑转语音”神经假体,让瘫痪患者能够通过大脑活动直接“说话”。该系统通过解码大脑信号,将其转化为语音,速度可达每分钟90多个英文单词,且无需预先训练或发出声音。这项技术不仅解决了实时流畅的神经语音解码问题,也预示着未来无声交流的实现,为语言交流带来了革命性的变革。

🧠 该研究的核心在于开发了一种实时的“脑转语音”神经假体,能够将大脑活动解码为语音。该系统通过分析大脑的言语运动皮层信号,并利用深度学习技术,将这些信号转化为可听的语音。

🗣️ 该系统在速度上取得了显著突破,输出语音的速度可达每分钟90+个英文单词,远超此前脑机接口系统的每分钟8-14个字的速度。此外,该系统的延迟仅为1秒左右,实现了近乎实时的意念转语音。

💡 研究采用了创新的方法,包括使用253通道ECoG阵列、RNN-T架构,并结合2.3万次转语音训练。该系统还能够合成在训练过程中未曾见过的新词汇,例如Zulu、Romeo等,正确识别的概率达到46%。

⚙️ 该系统采用了统一的神经网络架构,能够兼容多种技术平台,包括ECoG、MEA和EMG,这为未来的临床应用提供了更广阔的可能性。该系统能够持续工作,无需预先编程,并能准确检测受试者何时开始和停止说话。

2025-04-02 17:53 北京

人机融合的开始

机器之心报道

机器之心编辑部


无法说话的人,现在可以通过大脑扫描的方式实时地用自己的声音说话了。整个过程没有延迟,也不需要打字,不用发出任何声音。


本周,脑机接口的最新研究在社交网络上引发了人们的热烈讨论,一位推特博主的帖子浏览量突破了 150 万。




先来看效果。视频中的受试者严重瘫痪,不能讲话。她的大脑活动被解码为目标句子,然后使用文本到语音模型一次合成一个单词。


我们可以看到连接受试者头部的设备(connector)。屏幕上出现了目标句子(target sentence),然后从大脑活动解码文本,并应用「单词级文本到语音合成」。



接下来是更多的示例:



论文一作 Kaylo T. Littlejohn 发推宣传团队的成果,他表示,这种流式「脑转语音」(brain-to-voice)神经假体可以让瘫痪患者恢复自然、流利和清晰的语言能力。


同时他强调,泛化能力至关重要,随着快速改进设备,现在构建的解码方法应能跨用例转换(比如非侵入式与侵入式的权衡),并为未来的临床语音神经假体打好基础。



这项技术成果「牛」在哪里?


要知道在此之前,最好的脑机接口系统也只能让患者以每分钟 8-14 个字的速度「打字」。而这个新系统输出语音的速度可以达到每分钟 90+ 个英文单词,而且它不使用任何可听见的训练数据,用户甚至不需要尝试发出声音。


该研究来自加州大学伯克利分校(UC Berkeley),已经登上了最新一期《自然》子刊 Nature Neuroscience。




该系统转录的目标是患者大脑的言语运动皮层,采用 253 通道 ECoG 阵列,深度学习神经解码器经过 2.3 万次转语音训练,构建了延迟仅 80ms 的 RNN-T 架构,既可以合成语音也可以进行实时转录,音色模仿自患者受伤之前的录音。


大多数脑机接口的系统在输出任何内容之前都需要等待人想出完整句子,但在新的系统上,人类正在思考中的内容就可以被转为语音,延迟大约为 1 秒。因此该系统可以称得上是实时的意念转语音了。


在实际测试中可以看到,语音转录的效果快速、流畅且准确:在 50 个短语集(护理需要)的测试中,新方法达到了 91 WPM 、12% 字错率 (WER)、 11% 字符错误率。在 1024 字集的自然句子测试中,该方法也达到了 47 WPM、59% WER 和 45% 字符错误率。虽然还不是很准确,但已经证明了该系统的有效性。



此外,该系统成功地合成了在训练过程中未曾见过的新词汇。当给定 24 个新的词汇,例如 Zulu、Romeo,它正确识别出这些词汇的概率为 46%,而仅凭偶然猜测的概率为 3.8%。这一切仅通过神经活动就得以实现。



此外,该系统采用了统一的神经网络架构,能够跨多种技术平台解码语音信号,具体包括:




一直以来,很多研究仅仅局限于试验阶段,相比之下,该系统能够持续工作,不需要预先编程就能够通过大脑活动检测到受试者何时开始和停止说话。研究者用时长 6 分钟的连续无声语音块对其进行了测试。结果显示,系统能够准确解码,几乎没有任何误报。



这项研究的解码速度达到了新的标杆,此前最佳解码速度为 28 词 / 分钟(WPM),该系统的表现达到 90 词 / 分钟(WPM),且延迟更低。


更重要的是,受试者无需发声,借助该系统,受试者用意念就能「说话」。


从临床角度看,这项研究能让失去语言能力的人重新获得说话的权力。从技术角度看,它解决了实时、流畅的神经语音解码问题。大家期待已久的无声交流正在实现,这也表明了语言可以完全基于神经信号来传达。


如果这项技术普及开来,我们可以想象 20 年后的世界,那将是不再需要手机、不再需要键盘、不再需要语音指令等等,你要做的只是思考,你的话语便能被实时感知。


参考链接:https://x.com/IterIntellectus/status/1906995681253822519



© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:liyazhou@jiqizhixin.com


阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

脑机接口 神经科学 语音合成 无声交流
相关文章