顶尖学术期刊《自然》刚刚在线发表的一项工作就在脑机接口领域向前迈出了一大步。加州大学旧金山分校(UCSF)的神经外科学家Edward Chang教授与其同事开发出一种解码器,可以将人脑神经信号转化为语音,为帮助无法说话的患者实现发声交流完成了有力的概念验证。
脑机接口(BCI),指的是在人或动物大脑与外部设备之间创建的直接连接,实现脑与设备的信息交换。近年来,这一技术的快速发展正在为那些神经受损或严重运动障碍的人们改善生活质量。比如,帮助瘫痪人士靠“想”控制机械臂取物,或是控制屏幕上的光标打出字词。然而,“意念打字”的速度目前只能达到每分钟10来个单词,比正常的人类说话速度要慢得多,还远不能满足患者的沟通需求。
因此,一些科学家们试图解码大脑中的言语信号,并通过人工语音合成,把“想”的内容真正“说”出来!
要挑战重建语音的难题,需要首先实现对表征语音动作的神经活动进行解码。一些接受开颅手术的癫痫患者为神经科学家提供了宝贵的数据。由于需要为一些患者定位癫痫发作的源头,神经外科医生会通过手术在患者颅内植入电极,以便监测其大脑活动。在此基础上,研究人员采用了一种叫作高密度脑皮层电图(ECoG)的技术,直接记录下受试者大脑皮层的神经活动。
受试者首先按要求大声读出几百条句子,与此同时,研究人员记录他们大脑的语音产生中心——腹侧感觉运动皮层区域的神经活动。
利用循环神经网络(RNN),研究人员分两步破译了采集到的神经信号。第一步,他们将神经信号转换为表征发音器官动作的信号,包括下巴、喉、嘴唇和舌头动作相关的脑信号。然后,根据解码出来的发音器官动作,把信号转换为说出的词句。
这种创新的解码方法有助于解决重建语音时的声学失真问题,让合成的语音更容易被人听清、听懂,接下来的测试结果验证了这一点。研究人员在亚马逊的众包任务平台Mechanical Turk上招募听众来辨认解码器合成的语音,包含325个单词和101句整句。检验测试中,听众可以成功地识别出单词,和对自然语音的感知模式一致。对于合成语音发出的整句,听众也能识别出句子的意思。
第一作者Gopala Anumanchipalli博士认为,该结果意味着,这种神经合成语音对于现实世界的应用来说已经达到即刻听懂的实用程度。
更有意义的是,研究人员还测试了解码器对于不出声说话的语音合成能力。一名被试先按要求说出句子,然后默念同一个句子,也就是只有发音的动作、并不发出声音——这种情形更符合某些患者的实际情况。结果显示,解码器对默念动作合成的语音频谱与同一句句子的有声频谱是相似的。
尽管如生物工程学教授Chethan Pandarinath等人在同期《自然》上刊发的评论中所言,这一系统要真正成为一个临床可行的语音脑机接口还面临许多挑战,但毫无疑问的一点是,脑机接口技术的持续进步将让有发声障碍的人重新获得自由说出心声的能力,与周遭世界重新建立联系。甚至,脑机接口的发展还会让更多的人有可能突破人类自身的局限,让意识的疆界不断拓展。
参考资料:
[1] Gopala Anumanchipalli et al., (2019) Speech synthesis from neural decoding of spoken sentences. Nature. DOI: 10.1038/s41586-019-1119-1
[2] Chethan Pandarinath & Yahia H. Ali, (2019) Brain implants that let you speak your mind. Nature
[3] Chartier Anumanchipalli et al., (2018) Encoding of Articulatory Kinematic Trajectories in Human Speech Sensorimotor Cortex. Neuron. doi:10.1016/j.neuron.2018.04.031.