“我还能活多久?”这是每个癌症患者脑海中浮现的问题。然而,治疗他们的医生却无法给出一个明确的答案。
目前,医生们能做的是将患有类似癌症的患者分为几大类,然后假设他们会对疗法有相同的反应,并且具有类似的预后。然而,将患者分类的手段还十分粗糙,很多时候是基于医生的双眼。
病理学家们通常基于对组织切片的评估来预测患者的预后情况。他们会根据肿瘤的大小和特征来判断肿瘤的级别,然而病理学家们有时会出现分歧,而且肿瘤的级别并不是总能准确地预测患者的生存期。
“当病理学家分析病理学图像时,只有60%的时候他们会达成一致。”斯坦福大学(Stanford University)基因组学和个体化医药中心主任Michael Snyder博士说。在2013年,他的研究团队开始探索人工智能(AI)能否让对癌症预后的预测更为准确。
Snyder博士的研究生将组织学图像和病理学家作出的诊断输入到机器学习算法中,训练它将肺癌和正常组织区分开来,将两种不同的肺癌区分开来。然后,他将与这些图像相关的患者生存数据输入到系统中,训练AI找出生存数据与图像之间的关系。最后,他让机器学习算法分析从来没有见过的病理图像,然后向人工智能(AI)提出了“我还能活多久?”这个对癌症患者来说至关重要的问题。
他们的研究发现,AI能够通过分析图像,判断出特定患者的生存时间会比肺癌患者的平均值长还是短。病理学家们仍然难以作出这个看似简单的判断。这项研究发表在Nature Communications杂志上。
受到这一结果的鼓舞,Snyder博士的团队将肿瘤的转录组(transcriptome)信息也输入到机器学习系统中,将转录组信息与图像信息结合,AI能够更精确地预测患者的生存期,达到了超过80%的准确率。
和Snyder博士一样,很多其它研究团队也认识到了AI在分析与癌症相关的医学图像和组学数据方面的潜力。虽然这些工具还未能进入诊所,但是基于AI的分析手段不但能够更快地作出更准确的诊断,而且能够找出最适合特定患者的抗癌疗法,甚至预测他们的生存时间。
输入:图像,输出:诊断
尽早诊断癌症和开始治疗是提高患者生存的关键。以宫颈癌为例,早期诊断能够将患者的5年生存率提高到90%以上。医生可以通过不同手段将癌前病变清除,然而一旦癌症发生转移,5年生存期率会下降到56%以下。
在发达国家,妇女通常定期接受巴氏涂片(Pap smears)筛查来发现异常宫颈细胞的存在。而在发展中国家,这类筛查仍然非常罕见。另一种更为简易的检测使用醋酸冲洗宫颈表面,然后观察宫颈中的白色区域,这可能是癌症的先兆。然而,“这种检测非常不准确。”美国国家癌症研究所(National Cancer Institute, NCI)的流行病学家Mark Schiffman博士说。这导致有的健康妇女会接受不必要的治疗,而且其它携带癌前病变的妇女却没有接受治疗。
Schiffman博士和其它研究团队一直在寻找一种让醋酸筛查更为精确的方法。他的研究团队积累了成千上万张宫颈照片,然而,对图片的分析却不能产生一种精确可靠的诊断方法。
在他濒临放弃的时候,比尔及梅琳达盖茨基金会(Bill & Melinda Gates Foundation)旗下的非营利机构向他伸出了援助之手。这家机构想使用机器学习来处理Schiffman博士收集的图像,看看计算机能否做出医生无法作出的诊断。
于是Schiffman博士和他们合作,使用一种称为卷积神经网络(convolutional neural network)的机器学习手段来分析宫颈照片。这一算法的目的是发现图像中帮助作出正确诊断的特征。
研究团队输入机器学习系统的数据库包括从9000名妇女中获得的宫颈图像,以及这些妇女接受更精准筛查检测的结果,和长达18年与癌前病变和癌症诊断相关的随访信息。他们用数据库中70%的信息来训练机器学习模型,然后使用剩下30%数据中的图像来检测AI的表现。
Schiffman博士不敢相信实验的结果!机器学习能够以91%的准确率将健康组织、癌前病变和癌症区分开来,而医生诊断的准确率只有69%。
基于这项研究,Schiffman博士希望能够开发出一种经济简便的筛查方法,使用智能手机的照相机,与基于机器学习的图像分析结合,早期筛查宫颈癌。
斯坦福大学的研究团队也在利用智能手机的照相机来诊断皮肤病变。他们构建了由13万张皮肤病变图像构成的数据库,然后训练卷积神经网络来区分良性肿块和3种不同的恶性皮肤病变。机器学习系统达到了91%的准确率,它的表现超过了大多数检查同样图片的皮肤科医生。
输入:图像和组学数据,输出:生存预测
Snyder博士团队的研究已经表明,使用组学数据和图像数据相结合,能够进一步提高对肺癌患者生存期的判断。在他们进行的研究中,AI对转录组和蛋白质组学数据的分析发现了15个基因的表达水平能够以80%的准确性预测肿瘤的级别。这些基因在DNA复制,细胞周期调控,p53信号通路等和癌症生物学相关的生理过程中起到重要作用。
受到Snyder博士团队研究的启发,纽约大学医学院的研究团队探索了肺癌图像和肺癌基因特征之间的关系。在经过1634张健康或肺癌组织切片的训练后,机器学习系统能够以97%的准确率将腺癌和鳞状细胞癌区别开。然后,研究团队将肺腺癌中10种最常见的基因突变数据输入到算法系统中。经过训练,计算机系统能够以73%-86%的准确率,通过分析病理学图像来预测6种基因突变的存在。
这项研究表明,AI不但能够帮助进行癌症的诊断,而且能够帮助医生们发现癌症的特定遗传特征,从而指导对患者的治疗选择。
输入:组学数据,输出:癌症进化
即使没有图像,组学数据本身也能够为癌症治疗提供洞见。例如,英国癌症研究所(Institute of Cancer Research, ICR)的研究人员在利用机器学习分析基因组学数据,理解癌症的进化过程。一个肿瘤通常包括从原始癌细胞中产生的多个细胞谱系。想要有效治疗癌症,很重要的一点是理解肿瘤的异质性和肿瘤进化的方式。如果疗法只对肿瘤的一部分有效,那么癌症会复发。
通过对肿瘤的不同部位采样,研究人员能够推断出癌症的进化路径。而不同患者的肿瘤,通常具有差别很大的进化树,即便他们患上同样一种癌症。ICR的研究人员认为,如果他们能够发现癌症进化的共同路径,肿瘤学家就可以使用这些信息将患者分组,他们可能会有类似的疾病进展,或者对药物的反应相同。
研究人员使用了一种称为迁移学习(transfer learning)的机器学习系统来寻找不同患者肿瘤的共同进化树。这种算法同时对所有患者基因组的进化树进行分析,分享从不同进化树中获得的信息,然后找出一种与整个患者群体相符的解决方案。
作为第一步检测,研究人员设计了一个人工构建的“假”进化树,然后把相关的基因组信息输入到机器学习系统中,不出所料,AI输出了与研究人员构建的进化树一样的癌症进化信息。
然后,研究人员用一个常见的癌症进化树来检验AI的表现。在结直肠癌中,良性腺瘤以特定的顺序积累癌症驱动基因的突变,例如:先是APC基因出现突变,然后是KRAS,然后是PIK3CA。研究人员将9个良性腺瘤和10个恶性肿瘤的基因组信息输入给AI,它也能够描绘出从良性腺瘤向恶性肿瘤转变的正确进化树。
最后,研究人员让AI分析进化路径尚不明确的肿瘤样本。实验结果表明,AI根据99名非小细胞肺癌患者的基因组信息,将他们分为10个小组,其中有的小组患者生存期小于150天,而其它小组的患者生存期显著延长。这意味着这些分组具有预测预后结果的价值。这一算法同时还将50名乳腺癌患者分为不同小组,每个小组的患者生存期不一。“我们没有预计会出现分组,”这项研究的负责人,ICR进化和癌症中心的Andrea Sottoriva博士说:“这些结果表明,癌症的进化途径是可以预测的。”ICR最近启动了一项药物研发项目,专门针对癌症进化开发抗癌疗法。
药物开发依靠的是可以预测的规律,AI是一种帮助发现具有临床意义的规律的有力工具。目前,AI在癌症研究中的应用还刚刚开始,可以预见,将来的AI不只会整合组学数据和图像信息,还将整合其它类型的数据,包括治疗结果、疾病进展状况,和其它科学家们能够获取的信息。
“癌症是一种复杂的疾病,”Snyder博士说:“我们需要综合所有的信息来打败它!”