据英国《金融时报》报道,一组顶尖科学家和医学统计学家上周五警告称,在某些生物医药领域使用人工智能技术会得出一些不准确的结论。
“使用机器学习技术对大数据进行分析得出的研究结论中,有很多都无法获得我的信任。”美国莱斯大学贝勒医学院副教授基尼维拉·艾伦(Genevera Allen)在美国科学促进会年会上警告说。
机器学习已经被用于研究科学和医学数据与某些现象之间的关系,例如基因与疾病之间的关联性。在精准医疗中,研究人员会寻找拥有相似DNA的病人,让治疗方案能够瞄准特定的致病基因。
“很多技术都是为了进行预测。”艾伦说,“但从来没有返回过‘我不知道’或者‘我没有发现任何东西’这样的结论,因为它们设计过程中就没有考虑这种情况。”
她不太愿意指出具体的案例,但却表示,机器学习对癌症数据得出的研究结论就是很好的例子。
“有很多案例都无法重复。”艾伦说,“一项研究中发现的集群跟另外一项研究中发现的截然不同。为什么会出现这种情况?因为当今的多数机器学习技术都会说:‘我发现了一个群体。’但有的时候,如果换一种说法反而更有帮助,可以说:‘我认为其中一些确实是被分成一组,但我不确定另外一些。’”
一旦机器学习发现病人基因与疾病特征之间存在特定联系,人类研究人员可能就会对相应的发现提供合理的科学解释。但这并不意味着这些发现就是正确的。
艾伦说:“你总能找到理由来说明为什么某些基因被分成一组。”
计算机科学家直到最近才开始意识到这个问题,这可能导致医学研究人员走上错误的道路,还会浪费资源来确认无法重复的结果。
艾伦和她的同事正在努力改进统计技术和机器学习技术,好让人工智能可以对自己的数据分析展开批判,并指出某些发现有多大概率是真实存在的,而非随即相关的。
“有一种想法是专门扰乱数据,看看结果是否会保持不变。”她说。