脑波解码延迟仅80毫秒，实时「意念对话」技术登Nature子刊

2025-04-02 17:53 北京

人机融合的开始

机器之心报道

机器之心编辑部

无法说话的人，现在可以通过大脑扫描的方式实时地用自己的声音说话了。整个过程没有延迟，也不需要打字，不用发出任何声音。

本周，脑机接口的最新研究在社交网络上引发了人们的热烈讨论，一位推特博主的帖子浏览量突破了 150 万。

先来看效果。视频中的受试者严重瘫痪，不能讲话。她的大脑活动被解码为目标句子，然后使用文本到语音模型一次合成一个单词。

我们可以看到连接受试者头部的设备（connector）。屏幕上出现了目标句子（target sentence），然后从大脑活动解码文本，并应用「单词级文本到语音合成」。

接下来是更多的示例：

论文一作 Kaylo T. Littlejohn 发推宣传团队的成果，他表示，这种流式「脑转语音」（brain-to-voice）神经假体可以让瘫痪患者恢复自然、流利和清晰的语言能力。

同时他强调，泛化能力至关重要，随着快速改进设备，现在构建的解码方法应能跨用例转换（比如非侵入式与侵入式的权衡），并为未来的临床语音神经假体打好基础。

这项技术成果「牛」在哪里？

要知道在此之前，最好的脑机接口系统也只能让患者以每分钟 8-14 个字的速度「打字」。而这个新系统输出语音的速度可以达到每分钟 90+ 个英文单词，而且它不使用任何可听见的训练数据，用户甚至不需要尝试发出声音。

该研究来自加州大学伯克利分校（UC Berkeley），已经登上了最新一期《自然》子刊 Nature Neuroscience。

论文：A streaming brain-to-voice neuroprosthesis to restore naturalistic communication

论文链接：https://www.nature.com/articles/s41593-025-01905-6

该系统转录的目标是患者大脑的言语运动皮层，采用 253 通道 ECoG 阵列，深度学习神经解码器经过 2.3 万次转语音训练，构建了延迟仅 80ms 的 RNN-T 架构，既可以合成语音也可以进行实时转录，音色模仿自患者受伤之前的录音。

大多数脑机接口的系统在输出任何内容之前都需要等待人想出完整句子，但在新的系统上，人类正在思考中的内容就可以被转为语音，延迟大约为 1 秒。因此该系统可以称得上是实时的意念转语音了。

在实际测试中可以看到，语音转录的效果快速、流畅且准确：在 50 个短语集（护理需要）的测试中，新方法达到了 91 WPM 、12% 字错率 (WER)、 11% 字符错误率。在 1024 字集的自然句子测试中，该方法也达到了 47 WPM、59% WER 和 45% 字符错误率。虽然还不是很准确，但已经证明了该系统的有效性。