Ashesh Mehta博士是纽约长岛的芬斯坦医学研究所(Feinstein Institute for Medical Research)的脑外科医生。今天他和往常一样对他的癫痫患者进行手术,寻找癫痫发作的源头。不过这一次,他的患者同意加入一项大胆的科学实验,这一实验的最终目的是将无声的思想转化为有声的语言。
在打开患者颅骨,暴露大脑之后,Mehta博士小心翼翼地将一片微电极矩阵贴在了患者大脑左侧,那些与倾听和产生言语相关的脑区。通过纪录这一脑区的电生理活动,并且将这些信号通过无线信号传递给计算机进行解码,这些微电极和系统的其余部分可能成为第一个处理语言信息的“大脑计算机界面”(BCI)。
如果一切顺利,它可能攀越这一领域的珠穆朗玛峰:开发一种让脊髓损伤、锁定综合症、肌萎缩侧索硬化症(ALS)等瘫痪患者再度发出自己声音的大脑计算机界面。
这一技术不需要让患者具备表演莎士比亚话剧的能力。得益于神经科学、工程学和机器学习领域的发展,越来越多的专家们认为一个能够解读患者想表达的“是”、“否”、“饿”、“痛”或“水”这些字的系统即将出现。
“我们相信我们对大脑编码‘无声言语’的信号有足够的了解,不久的将来,我们能够制造出一些有实用性的产品,”加州大学伯克利分校的Brian Pasley博士说:“即使它们带来的改善不大,对于患者来说也将是非常有意义的。我确信这是可能的。”
第一个大脑计算机界面能够读出运动皮层与指挥运动相关的电信号,然后通过软件将这些信号转化为操作计算机鼠标或者机械臂的指令。在2016年,匹兹堡大学的科学家们更进一步,将感受器装在用意念控制的机械臂上,这样机械臂可以产生触觉。
虽然大脑计算机界面最初出现时吸引了很多人的目光,但是在第一个原型机出现后的10多年里,大脑计算机界面的研发进展并不顺利。很多项目在最初的兴奋期过去之后半途夭折。大多数系统需要笨重的电缆,以及装在大箱子里的信号分析仪和其它电子设备。而且,目前的大脑电极只能维持几年不坏,这意味着患者需要重复接受大脑手术。目前的BCI系统在实验室环境下的表现虽然还可以,但是它们的可靠性还不足以在现实世界中使用。匹兹堡大学的Jennifer Collinger博士说。
而解读语言的BCI面临的挑战更多。解读大脑想说的一个词需要分析更多的信号,而且与语言相关的脑区还没有被精确确认。最主要的挑战是,语言的编码分散在一个广阔的大脑网络里,目前的记录技术还不能以足够高的时空分辨率,对整个大脑进行监控。日内瓦大学的Stephanie Martin博士说。她去年因为对语言BCI的研究获奖。
目前用来帮助瘫痪,ALS或者由于其它原因无法说话的辅助科技操作起来并不“自然或者直观”,Martin女士说。现有的系统让他注视屏幕上的英文字符,然后在头皮中的电极能够感知编码眼睛运动和位置的脑电波,找出选择的英文字符来拼出词句,然后语音合成器可以把这些词句读出来。已故理论物理学家,身患ALS的斯蒂芬霍金先生使用的就是与之相似的系统。科学家们认为,通过“直接探索与语言相关的神经活动”,他们可以做得更好,Martin博士说。
在2007年,波士顿大学的计算神经学家Frank Guenther博士制造了第一款语言BCI。它使用植入到一名锁定综合症患者大脑中的电极来接收运动皮层指导说话的指令。研究人员发现了当患者想要发出特定音素时与舌头、嘴唇、喉咙、上下颚和脸颊的运动相关的电信号。为了加快这项研究的进展,Guenther博士的合作者,神经生物学家Phil Kennedy博士,甚至冒着大脑受损的风险,2014年在自己的大脑中植入了电极和收发器。虽然这项实验因为多种原因没能取得很大的进展,但是更多的神经科学家开始和电子工程师合作开发和改进构建这一系统所需的植入电极、解码器和语音合成器。
“从今天的标准来看,我在2007年建立的系统就太原始了。我认为阻碍语言BCI进展的问题终有一天可以被解决。”Guenther博士说。
哥伦比亚大学的电子工程师Nima Mesgarani博士同样抱有这样的期待,他领导的一项研究试图通过从文章最初Mehta博士移植的电极接受的信号中重建语言。
这类系统可能成功的原因是,人类的大脑对想象和现实之间的区分不是那么明确。当大脑想象一件事时,神经活动的特征跟真正做这件事时的神经活动极为相似。在大脑中想象一块南瓜饼在视觉皮层中产生的神经活动,跟看到一块南瓜饼非常类似,相像投篮的动作能够激发跟实现投篮动作类似的神经活动。
“出声的说话和无声的说话之间也有类似的关系,在大脑中演习想说的话虽然没有动嘴唇和舌头,但是能够引发与实际说话相同的大脑活动,”Mesgarani博士说。
这让收集电信号的倾听系统能过够重建无声的说话,虽然它们的结果并不完美。Martin博士与Pasley博士在伯克利大学进行的一项研究将电极放在参与者的大脑中,然后让他们想象大声读出一系列词语,比如“牛仔”,“游泳”,“蟒蛇”和“电话”等等。不幸的是,软件从大脑信号中解读词语的准确性只比扔硬币的概率稍微高一点。
伯克利大学的研究提供了这种策略的概念验证,但是通常“由大脑信号重建的语言的可读性都很差,”Mesgarani博士说:“我们试图克服可读性的障碍。”而解决这个问题的最好方法是使用机器学习,训练软件来解释大脑听到出声的语言时的反应,自动纠正错误,然后逐渐改进。
为了验证他的想法,Mesgarani博士与Mehta博士合作,募集了5位癫痫患者加入了这项研究。在他们接受手术时,Mehta博士将一个微电极矩阵贴在听觉皮层的两个与识别语言相关的脑区。这两个脑区会处理语言的音量、腔调、音频、音素等重要信息。
志愿者们然后听别人读出数字(1,2,3…)和讲故事。他们听觉皮层产生的电生理活动会被微电极矩阵收集,然后送到Mesgarani研究团队设计的一个“深度神经网络”人工智能系统中。这个人工智能系统的作用是分析这些神经信号,然后猜测这些神经信号对应的是哪些词语,再将这些词语送给语音合成器大声说出来。
整个过程好像将一本中国菜谱翻译成英文再翻译回来:最后的结果和原文一点都不像。这是以前语言BCI研究的结果,一串无法解读的音符。
对Mesgarani团队设计系统的检测是,经过他们的BCI系统处理播放出的语言和最先志愿者听到的故事和数字有没有相似之处。他们取得了成功,可读性达到了75%,这与以前的语言BCI刚刚过半的可读性相比是非常大的进步。
如果让志愿者多次听同一句话,然后将所有的神经反应综合分析,会进一步提高重建语言的准确率,在微电极矩阵中添加更多的电极也能够提高重建语言的准确率。
下一步,研究人员将检验这一人工智能系统解读大脑想象语言时产生的电活动的能力。Mesgarani博士说:“以前的研究表明我们能够接收到这些信号,如何将这些信号重建成为发声的语言是问题的瓶颈。利用人工智能改善解读电信号的能力,可以帮助我们构建一个从大脑神经活动中重塑准确和可读的语言的框架。”最终新一代的人类与计算机的互动系统能够帮助瘫痪和锁定综合征患者。
这项技术虽然可能最初的目的是帮助残障患者,但是它可能会普及到其它人,甚至有可能在健康人身上先得到应用。在2017年麻省理工学院召开的神经科技会议上,Facebook的Mark Chevillet博士描述了该公司对“从念头到打字”的BCI研究,这项研究的指导理念源于一个想法“如果你能够直接用大脑打字的话会是什么样子?”
如果可以直接用大脑输出文字,比打字更快,会是什么样?
这一项目的目标是“开发一种无声的语言界面,让你能够以比打字快5倍的速度输出文字,大约每分钟100个词。”该公司在研究能否用非侵入性的方法来收集高质量的神经信号并且将它们正确解码成为音素。如果这一步能够成功,那么下一步是将这些信号输入到一个数据库中,将音素顺序与词语配对,然后使用软件预测这些信号最可能代表哪些词语。
“这不是科学幻想。”Chevillet博士对会议参与者说。