转自:医健AI掘金志
后AlphaFold2时代,蛋白质结构领域是否会出现学术研究的“军备竞赛”?代码开源,是否为各大药企和AI制药企业创造了一次最佳的超车机会?一系列的问题,从这篇文章里得到解答。
过去半个月,Alphafold2先后两次沸腾了整个学术圈。
一边是“AI界年度十大突破”AlphaFold2终于开源,登上Nature;
另一边DeepMind又发布,堪比人类基因组图谱的,最完整人类蛋白质结构数据库。
对自家的“王者级成果”,DeepMind联合创始人、首席执行官德米斯·哈萨比斯(Demis Hassabis)也自豪表示:“这是迄今为止AI在推动科学进步方面做出的最大贡献,我觉得这么说一点儿也不夸张。”
但事实真是如此吗?
爆火的AlphaFold2是否被期望过高?后AlphaFold2时代,蛋白质结构领域是否会出现学术研究的“军备竞赛”?AlphaFold2代码开源,是否为各大药企和AI制药企业创造了一次最佳的超车机会?备受期待的AlphaFold2数据库,是否会成为专家们打开蛋白质功能奥秘的金钥匙?
近日,主题为“权威专家再谈AlphaFold 2:AI是否会带来结构生物学的「大革命」?”的圆桌论坛正式举行。本次主题论坛由图像计算与数字医学国际研讨会(ISICDM)主办,雷锋网、医健AI掘金志协办。
印第安纳大学医学院副院长、AIMBE Fellow黄昆教授担任主持,密苏里大学教授、AAAS/AIMBE Fellow许东教授、密歇根大学教授、DeLano奖得主和I-TASSER算法发明人张阳教授、芝加哥丰田计算技术研究所、斯隆奖得主许锦波教授,中科院计算机所研究员卜东波教授共同参与了讨论。
在上篇中,几位嘉宾共同深究AlphaFold2这次成果的技术细节与意义;在下篇中,将着重分析AlphaFold2数据集,这一重磅成果实际的科研价值,以及怎样拓展到新冠疫苗、新药研发等其他领域的未来话题。
图像计算与数字医学国际研讨会(ISICDM)自2017年创办以来,一直是医工交叉的前沿阵地,围绕图像计算和数字医学中的一些重要的理论、算法与应用问题进行学术讨论,旨在促进电子信息(包括计算机、自动化与生物医学工程)、数学和医学等领域学者的交流与合作,截止至今,ISICDM共邀请到400余位大会报告及专题报告嘉宾。
以下是主题论坛的现场内容,雷锋网《医健AI掘金志》做了不改变原意的编辑和整理:
黄昆(主持人):去年我们已经谈论过一次AlphaFold2的成绩,这次其在短时间内破译了98.5%的人类蛋白质组的结构,并开源了代码,相比传统算法AlphaFold2究竟有怎样的进步,优点有哪些?
许锦波:从我的角度理解,AlphaFold2并不是用一个Idea,就把蛋白质结构预测一下子提高很多。
其主要通过实现了几个不同的Idea,每一个Idea把预测精度提升几个点的得分,最后把总分提升很多,这些Idea里有些是这个领域里已经有的, 有些是DeepMind自研的。
为了理解AlphaFold2和其他算法之间区别,我先总结一下它的做法:
首先,AlphaFold2第一步和以前的深度学习方法是类似的。
过去,我们预测目标蛋白结构,首先就是在序列数据库里找这个蛋白的同源序列,建立多序列对比;
而AlphaFold2也是在实验结构数据库里,找目标蛋白的模板,最后把模板和多系列对比,输入到神经网络当中。
AlphaFold2的神经网络主要由两大模块组成:
第一个模块,处理同源序列信息,主要使用注意力机制对蛋白序列进行建模,从多系列对比和模板里,学习蛋白质残基之间的相互作用关系。这种关系可以理解成距离,也可以理解成联系。
这个模块把目标蛋白序列映射到高维空间里,这种映射本身就包含残基之间相互作用关系。
第二模块,怎么把第一个模块输出转换成三维结构,也就是把目标蛋白序列在高维空间映射,以及残基之间相互作用关系,两种信息转化成三维坐标。
从实践角度来看,第一模块无非就是学习氨基酸之间关系,这和过去残差网络是类似的。
残差网络过去也是学习氨基酸之间关系,只不过是用距离矩阵表示,而AlphaFold2因为实现了端到端训练,就不用使用距离矩阵表示。
我觉得AlphaFold2真正创新应该在第二模块,第一模块注意力网络过去就已经有很多研究组在做,像Facebook很早就尝试使用注意力机制模拟蛋白质序列,把两种信息转化成三维坐标算法的第二模块,相对于其他组也是一个比较大的创新。
AlphaFold2另外一个创新点是Loss Function(机器学习模型的训练函数),也就是评判预测结构的准确性,过去可能更多使用RMSD、氨基酸之间接触矩阵或距离矩阵、氨基酸之间相对位置的方法。
而这次AlphaFold2则是在每个氨基酸上,都建立了局部坐标系统,然后根据局部坐标系统,对其它氨基酸建立相对坐标,计算真实局部坐标和预测出的局部坐标之间误差,这种方式是以前没有使用过的。
就我的理解,它其实是相当于把以往距离和Orientation(相对方向)综合在一起,这样做法就不需要分开处理距离和相对方向,这是我认为AlphaFold2在Loss Function上的一些创新。
至于其他创新,例如使用自己生成的几十万个蛋白质结构去做训练数据,则不属于算法上的创新,而是工程上的优化,而网络迭代优化(Recycling),同样也是工程上优化。
总结起来,AlphaFold2真正的突破就几个方向:第一,使用注意力机制,这相比过去卷积网络会提高一些,但不会太多,第二,在三维建模和Loss Function上的创新,最后就是使用更多训练数据。
而基本思想和以前其实是类似的,无非就是怎么把物理约束加进去。以前我们是通过距离矩阵,而现在AlphaFold2则是直接生成三维坐标,把更多物理约束直接加入到深度神经网络当中。
许东:我觉得AlphaFold2的创新可能不是在蛋白质本身认识上,更多是工程创新。
创新一般主要分为两类:第一,单点问题创新,例如发现DNA双螺旋结构;第二,整合创新,例如芯片、手机迭代,很多技术的本质就是整合创新。
从综合创新角度来看,AlphaFold2是有很多创新的,在结果上也可以看到,比之前方法提高了很多。
AlphaFold2的文章里也写的很清楚,其中包含了10种新方法,其中就有刚才锦波教授分享的,特殊注意力机制和端到端学习,每一种方法都能够提高一点。
所以,我认为怎样将这些新方法整合在一起,才是AlphaFold2非常厉害的一个点,这应该不是过去量的增加,而是质的飞跃,这种创新确实是值得钦佩的。
张阳:AlphaFold2很重要一点创新在于,过去需要先预测氨基酸之间距离和接触图,然后再依次构造三维结构模型,这样的流程,让机器学习训练只是一个中间过程,并非是最终结果,进而影响机器学习效率。
相比其他实验室的结构预测算法,这次AlphaFold2最关键的提升因素,就是端到端训练,也就是从序列直接学习三维空间结构。
这种端到端训练有一个难点,就是怎样把神经网络结果投影到三维空间当中,然后把三维空间误差反馈到神经网络,我认为这是AlphaFold2算法上最重要的创新点,之前其他实验室不是没有做过尝试,但最后都没有成功。
AlphaFold2这次把每个氨基酸都建立了局域坐标系统,通过学习局域坐标旋转矩阵,把蛋白质三维空间结构直接引入到神经网络当中。
这样模型可以直接从数据库学习到三维空间结构,省去距离和接触图等中间过程,将机器学习的威力真正释放出来。
卜东波:张阳教授提出的这一点,在AlphaFold2和第一代AlphaFold的对比中,就能看得非常清楚。
第一代AlphaFold是三段论,把整个预测过程分解为三个阶段:从MSA出发预测残基间距离、根据残基间距离构建能量函数、最终再用优化技术构建出能量尽量低的结构构象。
现在AlphaFold2使用三合一,就把误差都反传回来,避免了中间步骤可能导致的信息丢失。
黄昆(主持人):除了算法上进步,目前AlphaFold2究竟解决了多少蛋白质结构问题,从算法的角度还有多大的改进空间?
张阳:回答这个问题前,我先介绍一下蛋白质结构预测包含哪些主要问题,从结构层面分类,主要分为四类:二级结构预测、三级结构预测(包含单链、单结构域)、高阶三级结构预测(包含单链、多结构域)和四级结构预测(蛋白质之间相互作用的复合体)。
第一个问题,二级结构预测,在AlphaFold2进入之前,这个问题就已经解决,它的一个主要标志就是自2004年起CASP比赛就已经不再把二级结构预测列为比赛项目。
所以,AlphaFold2主要解决的就是第二和第三层面问题,即单链三级结构预测问题。
对于单链单结构域问题,从CASP14比赛结果来看,AlphaFold2基本可以正确预测出所有目标蛋白的拓扑学结构,也就是TM-score>0.5。
而总体上来看,其它预测模型有2/3达到低精度实验要求,对比较困难的蛋白质结构,也有1/3达到实验精度,这里的困难蛋白质主要是指,结构数据库(PDB)里没有同源模板的蛋白。
而AlphaFold2能够对困难蛋白高精度预测的原因在于,这些蛋白结构数据库虽然没有同源模板,但序列数据库却有很多同源序列,根据同源序列进化分析就可以得到结构信息。
而对于那些即没有同源结构,又没有同源序列的真正困难蛋白,AlphaFold2预测精度还有待提高。
对于单链多结构域问题,目前AlphaFold2只解决了一部分,按照TM-score,它对多结构域预测精度可以达到单结构域90%。
在CASP14,AlphaFold2对单结构域的平均TM-score可以达到0.91,而对多结构域的平均TM-score只有0.82。
所以总体来看,相比其他实验室,AlphaFold2虽然对多结构域预测精度提高很多,但对高阶多结构域的三级结构预测,仍然还心有余,力不足。
第四个问题,四级结构预测,目前基于深度学习从头预测蛋白质四级结构的工作还没有开始。
但现在也许真的到了可以发起探索的时候,特别是AlphaFold2提供了从序列,到三维结构端到端预测突破,给大家提供了一种新的途径和想法。
所以,我认为四级结构预测可能是这个领域的下一个突破点。
其实除了刚才分析的四个方面,和蛋白质结构预测相关的重要问题还有很多。
例如预测蛋白质和其它DNA、RNA等分子相互作用,蛋白质和药物分子相互作用,蛋白质和功能之间关系,以及深度学习如何和冷冻电镜、冷冻电子断层扫描这样大标度实验技术的结合,利用低精度实验数据,协助AI确定高精度蛋白结构的算法,还都是AlphaFold2未曾尝试的。
至于AlphaFold2还有多大发挥空间,我觉得AI对于结构生物学以及生物医学应用才刚刚开始,大有可期。
许锦波:我再补充一下单结构域问题,目前所有解决方法都依赖于同源序列或同源模板、如果没有同源模板,或同源序列也非常少,模型最后的结果都不会很好。
其实在细胞里面,蛋白质折叠是根本不知道同源序列信息,所以我们目前的解决方法都有点作弊。
从生物物理角度,这个问题还没有完全解决,因为在没有同源信息情况下很难把蛋白质结构预测出来。
许东:我也基本认可锦波教授的这个看法,其实AlphaFold2预测出来的结构,经常有一些偏差比较大的结果,这些结果可能一部分是无序结构,但也有一部分就是没有预测好。
以目前进展来看,AlphaFold2的预测结果里,应该有一半预测比较好, 另一半里一部分是没有精准结构,也有很多就是预测比较差,所以,目前还谈不上AlphaFold2能解决所有问题。
而如今的AlphaFold2是不是达到了理论上限,目前还不好说,我觉得还没有足够证据。
黄昆(主持人):那除了结构生物学部分,AI在结构生物学上还有哪些比较重要的应用点?
许东:刚才张老师已经回答不少,有些工作是进行,例如蛋白人工设计大师David Baker在《science》的那篇文章,就已经做了两个方面工作:
第一,预测蛋白质结构拓展,例如解析电镜结构或解析晶体结构,这些问题已经解决的很好。
第二,对蛋白功能理解,像GPCR蛋白以前没有精准结构预测方法,所以看不出来活性状态和失活状态下的结构差异。现在有了精准预测方法以后,就可以看到不同活性状态下的结构差异,也就推进了我们对蛋白功能的理解。
此外,在结构生物学上,AI应该还可以解决很多问题:
第一,应在在蛋白质修饰作用中,一些较大的修饰,像糖化、脂化对蛋白质结构、功能都会造成很大的影响。而疫苗有效性差的问题,就是因为靶蛋白糖化使结合不够理想,将来或许Alphafold2真的可以解决这类问题。
第二,解决蛋白的相互作用问题,刚才张阳教授谈到蛋白质跟DNA、RNA、脂类等相互作用非常重要,例如跟RNA相互作用形成蛋白复合体。
其实,细胞质里的蛋白质经常会和ER蛋白膜进行相互作用,现在的预测方法就已经可以推进这方面的研究。
第三,预测蛋白质和DNA之间相互作用,蛋白质能够作为转录因子和DNA产生相互作用,我们可以利用AI预测蛋白质和DNA之间相互作用,来理解转录机理。以上这些方面,David Baker的文章里也做了列举。
第四,解决疫苗设计和癌症治疗问题,Alphafold2也可以用于研究抗原和B细胞,抗体之间的相互作用。
第五,解决动力学难题。我自己的博士论文就与分子动力学相关,当时遇到就一个难点——如何将分子动力学做的更长一点,更好展示蛋白质动态过程?
现在的分子动力学不能看到蛋白折叠全过程,因为它耗时非常短,一般分子动力学模拟远达不到这个标准,对此,我曾尝试把模拟过程增长,更好模拟整个过程;或通过已有分子动力学建立神经网络,研究异构问题。
我认为,蛋白结构对蛋白质功能研究只是一个起点,后面还有很多进化、动力学功能相关问题仍待解决,而Alphafold提供了一个很好的研究工具。
黄昆(主持人):我认为从生物信息需求者角度,Alpha fold实际应用也有非常好的潜力。
例如癌症相关突变基因预测,以前需要直接观察基因和表现型之间关系,但我们更想知道基因突变对蛋白质结构的影响,目前如果未来对这些结构做出预测,会很有价值,能够解决许多下游问题,例如疾病诊断。
那在后Alphafold2时代,蛋白质预测是否会进入一个新阶段,疾病诊断方面,有哪些既有数据,又值得攻关的重点?
卜东波:我们实验室张海仓老师所做的工作,就是一个很好的案例。
过去我们关注癌症相关突变位点,分析癌症患者和正常人基因组变异,二者之间变异位点差别比较多,但一直很难断定哪些是真正相关位点。
Alphafold2出来之后,把人类基因组的大部分蛋白质结构都预测出来,我们就可以从结构角度观察,疾病患者与正常人之间基因组变异的差异,判断和疾病相关关键位点的位置,是位于蛋白质表面,还是内部区域,是否对蛋白质整体结构造成破坏,还是对蛋白质相互作用接触表面造成破坏。从结构角度判断,哪些变异对疾病比较关键,这对寻找新靶点很有帮助。
黄昆(主持人):Alphafold2另一个应用领域就是生物制药,在生物制药领域,它的方法或结果如何应用,AI怎么样才能够和制药流程结合起来?
许东:制药过程相当复杂,首先我们需要知道哪些是比较重要的问题。
例如单细胞技术,通过单细胞技术,我们可以了解细胞里DNA、RNA、小分子、蛋白质等物质,这是一个数据量大、且值得攻关的项目,会有很多AI研究的机会。
而且,单细胞技术还与很多结构问题相关,其能够通过结构来理解细胞之间相互作用,理解细胞表面受体与靶蛋白质相互作用。
这些过程理解可以对制药产生很大帮助,例如新药研发、癌症相互作用的阻断,这都可以应用AI,有很大应用价值。
其实很多时候,我们虽然找到很好的算法,但这个算法到底能够把整个问题推进到什么程度,还需要我们去评估。
目前,我自己也在做阿尔兹海默症研究,有一个前年投入3600万美元的阿尔兹海默症药品研发中心,在研究中光是前期药物靶点寻找,我们就遇到很多问题,更不用说后面真正成药。
所以,我觉得生物制药这个问题牵涉到很多内容,一方面是技术和算法上问题,另外一方面是整个流程的结合。
黄昆(主持人):从研究角度来看,Alphafold的出现到底是给行业增加了门槛,还是减少了门槛?这会让越来越多人进入这个领域,还是会造成研究垄断性局面的出现?
张阳:从某些方面来讲,门槛是降低的。
因为任何懂机器学习的人都会跃跃欲试,着手研究这个问题,把已知蛋白质序列和结构放到神经网络里尝试,如何预测蛋白结构。
像传统的蛋白质结构预测,我们一般都要有背景准备,需要了解物理化学知识,设计蛋白质中包含的相互作用力场,分子动力学,以及蒙特卡洛模拟知识,通过寻找最低自由能态折叠蛋白结构。
甚至像同源建模和threading这些简单方法,我们也都必须了解序列比对算法,以及物理、化学知识帮助模型优化。
但这些现在都不需要了,所以门槛是降低了。
至于是否让更多人进入这个领域,或者是否造成一家独大局面,我更倾向于前者。
首先,AlphaFold2的成功给这个领域做了一个巨大且免费的广告,让大家关注这个领域,也让大家意识到这个问题的重要性。
其次,因为机器学习把结构预测门槛降低,所以会有越来越多人加入到这个领域。
许锦波:我补充一点,门槛降低或升高,要针对不同的人、不同研究组。
对于机器学习背景门槛是降低了,很多背景知识不需要学习,只要有输入、输出就可以放在神经网络训练。
但训练这些模型需要更多的计算资源,大量GPU和算法工程师,一些小lab不一定会有这么多计算资源,也雇不起很好的算法工程师。
所以,对于生物背景或非计算机背景,门槛则不一定降低。
他们以前没有可以在网上一些下载代码,稍微改一改就可以用,但现在他们需要重新设计新模型,新算法,这样的门槛肯定是升高了。
而且,如果他们继续让以前方法进行研究,肯定做不过现在的深度学习,所以他们可能必须面临改变。
黄昆(主持人):尽管进入门槛降低,但如果想要在行业持续发展,是否还需要生物、物理、化学等学科知识储备?
许东:大家要知道,蛋白质预测是一个系统问题,不仅需要算法,还必须对蛋白质有一定了解。从这点来看,我觉得如果新团队目标是打败Alpha fold2,那机会非常小。但我认为,肯定会有更多lab参与进来。
其实在Alpha fold2出来之后,就有很多合作者找过我,他们一方面表示自己也有这样的工具,另一方面也想解决类似相关的问题。
而且,其实算力和工具已经不是现在的研究瓶颈,算法在谷歌co-lab上就可以全部安装完毕,网上提交序列,十几分钟就能预测出一般的蛋白质,这大大增加生物实验室在结构预测的应用。
卜东波:第一,Alphafold2一个很大意义在于使大家相信结构预测的结果。
过去我们总碰到其他领域说结构预测结果不可信,最后还得指望电镜等实验解析结构。
Alpha fold2的成功使得大家相信计算、相信预测,鼓励更多人尝试用AI涉足结构生物学相关研究,正如张阳老师所说,会有很多lab进入这个领域。
第二,虽然对具体物理、生化知识要求没有那么高,但网络设计过程,还需要对蛋白质有深入理解。
例如在Alphafold2结构图中,从MSA,到Distance和pair presentation中间有一个双向箭头。
这个箭头背后反映我们对结构认知有可能不准,需要通过距离来修正,也就是不仅从MSA来做pair presentation,还可以用pair presentation来修正MSA。
Alphafold2文章里就强调MSA和pair presentation之间一致性。这么一个小箭头,背后代表的是对蛋白质结构预测深刻认识。
胡桃木
编辑:秘书处