11月2日,在墨西哥坎昆举行的第13届全球蛋白质结构预测竞赛(Critical Assessment of protein Structure Prediction,CASP)上。组织者宣布,DeepMind 的最新人工智能程序 ——AlphaFold 在一项极其困难的任务中击败了所有对手,成功预测生命基本分子——蛋白质的三维结构。
作为一项基础技术,DeepMind在自己博客中,将AlphaFold 称为在展示人工智能研究推动和加速新科学发现方面的“第一个重要里程碑”。
通过跨学科方法,DeepMind汇集了来自结构生物学,物理学和机器学习领域的专家,以应用尖端技术,仅根据其基因序列预测蛋白质的3D结构。
在获悉这一划时代的技术性突破后,动脉网试图通过以下逻辑,还原DeepMind再次战胜人类模型的“里程碑”事件,以及DeepMind在医疗领域所做的探索。
1. 蛋白质结构预测的划时代意义
2. DeepMind凭借什么夺冠
3. AI算法将漫长费力的预测过程缩短至几小时
4. DeepMind的AI落地将给医学带来多少颠覆
曾获得诺贝尔奖的科学难题
蛋白质是维持生命所必需的大而复杂的分子。几乎我们身体所执行的所有功能 : 收缩肌肉、感知光线或将食物转化为能量, 都可以追溯到一种或多种蛋白质以及它们如何移动和变化。这些蛋白质的配方, 称为基因。
任何给定的蛋白质可以做什么取决于其独特的3D结构。例如,构成我们免疫系统的抗体蛋白质是“Y形”的,并且类似于独特的钩子。通过锁定病毒和细菌,抗体蛋白能够检测和标记引起疾病的微生物以进行消灭。
类似地,胶原蛋白的形状像绳索,其在软骨,韧带,骨骼和皮肤之间传递张力。其他类型的蛋白质包括CRISPR和Cas9,它们像剪刀一样起作用,切割和粘贴DNA;抗冻蛋白,其3D结构允许它们结合冰晶并防止生物冻结;核糖体就像一个程序化的装配线,帮助自己构建蛋白质。
但是纯粹从其基因序列中找出蛋白质的三维形状是一项复杂的任务,科学家们已经发现了几十年的挑战。挑战在于DNA仅包含有关蛋白质构建块序列的信息,称为氨基酸残基,形成长链。预测这些链如何折叠成蛋白质的复杂3D结构就是所谓的“蛋白质折叠问题”。
“蛋白质折叠”是一种令人难以置信的分子折叠形式,科学界以外很少有人讨论,但却是一个非常重要的问题。生物由蛋白质构成,生物体功能由蛋白质形状决定。理解蛋白质的折叠方式可以帮助研究人员走进科学和医学研究的新纪元。
因此,蛋白质折叠(Protein Folding)问题被列为“21世纪的生物物理学”的重要课题,它是分子生物学中心法则尚未解决的一个重大生物学问题。蛋白质可在短时间中从一级结构折叠至立体结构,研究者却无法在短时间中从氨基酸序列计算出蛋白质结构,甚至无法得到准确的三维结构。
美国NIH的Christian Anfinsen博士因为发现蛋白质不需要其他帮助就可以自发地完成蛋白质折叠的过程,于1972年获得了诺贝尔化学奖。
DeepMind的联合创始人兼首席执行官Demis Hassabis说:“对DeepMind来说,这是一个非常关键的时刻,这是一个‘灯塔’项目,是我们在人员和资源方面的第一项重大投资,同时也是正在成为一个基本的、非常重要的、现实世界的科学问题。”
早在2017年,美国科罗拉多大学“JILA物理研究中心”的生物物理学家们通过更细致地测量了蛋白质折叠后发现,其折叠过程比科学家们曾经的预测更为复杂。这意味着,有关蛋白质,我们的了解程度尚在皮毛。
蛋白质分子的基本组成是氨基酸链。通过一系列中间过程,像折纸一样,氨基酸链折叠成三维结构,之后才具有功能。准确地描述这个折叠过程,需要已知所有中间状态的形态。最新研究就揭示这个过程中许多未知的状态,这一研究成果公布在3月3日的Science杂志上。
AI如何成功预测蛋白质3D结构?
此次让DeepMind再一次崭露头角的CASP, 被认为是蛋白质结构领域“奥林匹克竞赛”。在这次比赛上,DeepMind团队(参赛名为“A7D”)成功在43个参赛蛋白中拿到25个单项最佳模型,累计总分120.35排名第一。而根据第13届全球蛋白质结构预测竞赛官方披露的成绩,总分第2名的团队是一支名为“Zhang”的团队,总分为107.03。
据DeepMind介绍,该项成果的设计源于使用神经网络预测物理特性以及构建蛋白质结构预测的新方法。
这两种方法都依赖于深度神经网络,这些神经网络经过训练可以从其基因序列中预测蛋白质的特性。DeepMind的网络预测的属性是:(a)氨基酸对之间的距离和(b)连接这些氨基酸的化学键之间的角度。第一个发展是对常用技术的进步,这些技术估计氨基酸对是否彼此接近。
鉴于要研究的新蛋白质,AlphaFold使用神经网络预测氨基酸对之间的距离,以及连接它们的化学键之间的角度。在第二步中,AlphaFold调整草图结构以找到最节能的布置。
DeepMind训练了一个神经网络来预测蛋白质中每对残基之间的距离的单独分布。然后将这些概率组合成评估所提出的蛋白质结构的准确度的分数。此外,还训练了一个单独的神经网络,该网络使用汇总的所有距离来估计建议的结构与正确答案的接近程度。
第二种方法通过梯度下降优化得分- 通常用于机器学习的数学技术,用于进行小的、渐进的改进这导致高度精确的结构。该技术应用于整个蛋白质链而不是在组装之前必须单独折叠的碎片,降低了预测过程的复杂性。
使用这些评分函数,DeepMind能够搜索蛋白质图像,找到与我们的预测相匹配的结构。第一种方法建立在结构生物学中常用的技术上,并且用新的蛋白质片段反复替换蛋白质结构的片段。为了构建AlphaFold,DeepMind在数千种已知蛋白质上训练了一个神经网络,直到它可以预测单独使用氨基酸的3D结构。
一旦AlphaFold被提供了一种新蛋白质,它就会利用其神经网络来预测其组成氨基酸对之间的距离,以及它们连接化学键之间的角度,形成一个牵伸结构。然后,AlphaFold调整此结构以找到最节能的结构。
虽然AlphaFold花了两周的时间来预测第一个蛋白质结构,但该程序现在可以在几个小时内完成。
AI将漫长费力的预测过程缩短至几小时
根据英国《卫报》报道中的数据显示,截至2010年,只有0.6%的已知蛋白序列被解析出了相应的结构。
在过去的五十年中,科学家们已经能够使用冷冻电子显微镜,核磁共振或X射线晶体学等实验技术来确定实验室中蛋白质的形状,但每种方法都依赖于大量的试验和错误,这可能需要每年高达数万美元的成本。这就是为什么生物学家正在转向人工智能方法,以此作为这一漫长而费力的过程的替代方案。
对于蛋白质折叠的复杂性,曾有外媒载文称,用当今最快的计算机模拟计算蛋白质折叠,要花100年。不过是在当时最快的计算机每秒几万亿甚至十几万亿次浮点运算的速度下,虽然目前性能最强悍的超级计算机每秒运算速度峰值可达20亿亿次,对于蛋白质折叠的模拟计算仍有可能耗费科学家数年乃至数十年的时间。
每个蛋白质都是一个氨基酸链,而后者的类型就有 20 种。蛋白质可以在氨基酸之间扭曲、折叠,因此一种含有数百个氨基酸的蛋白质有可能呈现出数量惊人(10 的 300 次方)的结构类型。通常,已经发现功能失常的蛋白质会导致疾病,并且历史上,用药物瞄准其结构、激活或停用它们会产生治愈效果。由于计算机的算法和算力局限,直到现在,了解蛋白质的结构并不容易。
根据中国科学院生物物理研究所生物大分子国家重点实验室研究员,中国科学院院士王志珍的观点,蛋白质的折叠和构象发生错误将会造成一些疾病,如阿尔茨海默氏症,帕金森氏症,亨廷顿氏症和囊性纤维化等。随着蛋白质折叠研究的深入,人们会发现更多疾病的真正病因和更加针对性的治疗方法,从而设计更有效的要素。
如果科学家能够学会从化学成分中预测蛋白质的形状,他们可以弄清楚它的作用,它可能会误导和造成伤害,并设计新的抗击疾病或履行其他职责。简而言之,了解蛋白质如何折叠,研究人员可以开创科学和医学进步的新时代。
以老年痴呆症(学名为阿尔茨海默氏症)为例,它在人体的潜伏期长达十几年之久,且病因复杂,以目前的医学技术,临床上甚至很难在发病前几年检测出这一疾病。
幸运的是,由于基因测序成本的快速降低,基因组学领域的数据非常丰富。因此,在过去几年中,依赖于基因组数据的预测问题的深度学习方法变得越来越流行。DeepMind关于这个问题的工作产生了AlphaFold,并于今年提交给了CASP。
DeepMind在博客中称:“我们很自豪能成为CASP组织者称之为‘计算方法预测蛋白质结构能力的前所未有的进步’的一部分,在进入的团队中排名第一。我们的团队专注于从头开始建模目标形状的难题,而不使用先前解析的蛋白质作为模板。我们在预测蛋白质结构的物理性质时达到了高度的准确性,然后使用两种不同的方法来构建完整蛋白质结构的预测。”
在2013年的某科技课题年度报告中(详见:http://www.nstrs.cn/xiangxiBG.aspx?id=64700,该报告仅作参照,不代表任何实际预测或判断)我们发现这样的描述:“虚拟药物筛选及计算生物学受计算机资源及计算方法与软件的限制,难以对数千万个化合物进行比较系统的虚拟筛选,也难以实现一般蛋白质结构的从头折叠模拟,无法满足创新药物和计算生物学研究的需求。因此,迫切需要开发超大规模并行的虚拟筛选,蛋白质折叠分子动力学模拟平台,来满足生命科学及创新药物研究的需求。”
从这个方向来看,DeepMind的蛋白质结构预测的应用场景之一将是用于药物创新的化合物筛选。
实际上,早在2016年AlphaGo计划击败李世石之后,DeepMind就迅速将目光投向了蛋白质折叠。2017年10月,DeepMind在一次公开采访中表示,团队开始对人工智能在药物开发中的应用感兴趣,而新药开发的关键一步,就是对靶点蛋白质三维结构的精准测算。
雷丁大学研究员Liam McGuffin表示:“预测任何蛋白质折叠形状的能力是一个大问题。它对解决许多21世纪的问题具有重大意义,影响健康、生态、环境,并基本上解决任何涉及生命系统的问题。”