机器之心 04月04日
脑波解码延迟仅80毫秒,实时「意念对话」技术登Nature子刊
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

加州大学伯克利分校的研究团队开发了一种创新的脑机接口技术,能够将瘫痪患者的大脑活动实时解码为语音。这项技术通过ECoG阵列扫描大脑的言语运动皮层,利用深度学习神经解码器,实现了每分钟90个英文单词的语音输出速度,且延迟仅为1秒。该系统不仅速度快,而且能够合成训练中未见过的新词汇,为失去语言能力的人带来了新的希望,预示着未来无声交流的可能性。

🗣️ 该研究的核心在于构建了一种流式“脑转语音”神经假体,利用253通道ECoG阵列扫描大脑活动,并将这些活动转化为可理解的语音。

⚡️ 相比于之前每分钟8-14个字的脑机接口系统,该系统能够达到每分钟90+个英文单词的输出速度,且用户无需发出任何声音,实现了实时的意念转语音。

🧠 该系统采用了深度学习神经解码器,经过2.3万次转语音训练,构建了延迟仅80ms的RNN-T架构,可以合成语音并进行实时转录,音色模仿自患者受伤之前的录音。

💡 该系统在50个短语集的测试中达到了91 WPM、12%字错率,在1024字集的自然句子测试中也达到了47 WPM、59% WER和45%字符错误率,证明了其有效性。

🌐 该系统采用了统一的神经网络架构,能够跨多种技术平台解码语音信号,包括ECoG、MEA和EMG,为未来临床应用提供了更广泛的可能性。

2025-04-02 17:53 北京

人机融合的开始

机器之心报道

机器之心编辑部


无法说话的人,现在可以通过大脑扫描的方式实时地用自己的声音说话了。整个过程没有延迟,也不需要打字,不用发出任何声音。


本周,脑机接口的最新研究在社交网络上引发了人们的热烈讨论,一位推特博主的帖子浏览量突破了 150 万。




先来看效果。视频中的受试者严重瘫痪,不能讲话。她的大脑活动被解码为目标句子,然后使用文本到语音模型一次合成一个单词。


我们可以看到连接受试者头部的设备(connector)。屏幕上出现了目标句子(target sentence),然后从大脑活动解码文本,并应用「单词级文本到语音合成」。



接下来是更多的示例:



论文一作 Kaylo T. Littlejohn 发推宣传团队的成果,他表示,这种流式「脑转语音」(brain-to-voice)神经假体可以让瘫痪患者恢复自然、流利和清晰的语言能力。


同时他强调,泛化能力至关重要,随着快速改进设备,现在构建的解码方法应能跨用例转换(比如非侵入式与侵入式的权衡),并为未来的临床语音神经假体打好基础。



这项技术成果「牛」在哪里?


要知道在此之前,最好的脑机接口系统也只能让患者以每分钟 8-14 个字的速度「打字」。而这个新系统输出语音的速度可以达到每分钟 90+ 个英文单词,而且它不使用任何可听见的训练数据,用户甚至不需要尝试发出声音。


该研究来自加州大学伯克利分校(UC Berkeley),已经登上了最新一期《自然》子刊 Nature Neuroscience。




该系统转录的目标是患者大脑的言语运动皮层,采用 253 通道 ECoG 阵列,深度学习神经解码器经过 2.3 万次转语音训练,构建了延迟仅 80ms 的 RNN-T 架构,既可以合成语音也可以进行实时转录,音色模仿自患者受伤之前的录音。


大多数脑机接口的系统在输出任何内容之前都需要等待人想出完整句子,但在新的系统上,人类正在思考中的内容就可以被转为语音,延迟大约为 1 秒。因此该系统可以称得上是实时的意念转语音了。


在实际测试中可以看到,语音转录的效果快速、流畅且准确:在 50 个短语集(护理需要)的测试中,新方法达到了 91 WPM 、12% 字错率 (WER)、 11% 字符错误率。在 1024 字集的自然句子测试中,该方法也达到了 47 WPM、59% WER 和 45% 字符错误率。虽然还不是很准确,但已经证明了该系统的有效性。



此外,该系统成功地合成了在训练过程中未曾见过的新词汇。当给定 24 个新的词汇,例如 Zulu、Romeo,它正确识别出这些词汇的概率为 46%,而仅凭偶然猜测的概率为 3.8%。这一切仅通过神经活动就得以实现。



此外,该系统采用了统一的神经网络架构,能够跨多种技术平台解码语音信号,具体包括:




一直以来,很多研究仅仅局限于试验阶段,相比之下,该系统能够持续工作,不需要预先编程就能够通过大脑活动检测到受试者何时开始和停止说话。研究者用时长 6 分钟的连续无声语音块对其进行了测试。结果显示,系统能够准确解码,几乎没有任何误报。



这项研究的解码速度达到了新的标杆,此前最佳解码速度为 28 词 / 分钟(WPM),该系统的表现达到 90 词 / 分钟(WPM),且延迟更低。


更重要的是,受试者无需发声,借助该系统,受试者用意念就能「说话」。


从临床角度看,这项研究能让失去语言能力的人重新获得说话的权力。从技术角度看,它解决了实时、流畅的神经语音解码问题。大家期待已久的无声交流正在实现,这也表明了语言可以完全基于神经信号来传达。


如果这项技术普及开来,我们可以想象 20 年后的世界,那将是不再需要手机、不再需要键盘、不再需要语音指令等等,你要做的只是思考,你的话语便能被实时感知。


参考链接:https://x.com/IterIntellectus/status/1906995681253822519



© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:liyazhou@jiqizhixin.com


阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

脑机接口 意念控制 无声交流 神经科学
相关文章