转自:医健AI掘金志
备受期待的AlphaFold2数据库,是会成为专家们打开蛋白质功能奥秘的金钥匙,还是一场美丽的“科技泡沫”?
过去半个月,Alphafold2先后两次沸腾了整个学术圈。
一边是“AI界年度十大突破”AlphaFold2终于开源,登上Nature;
另一边DeepMind又发布,堪比人类基因组图谱的,最完整人类蛋白质结构数据库。
对自家的“王者级成果”,DeepMind联合创始人、首席执行官德米斯·哈萨比斯(Demis Hassabis)也自豪表示:“这是迄今为止AI在推动科学进步方面做出的最大贡献,我觉得这么说一点儿也不夸张。”
但事实真是如此吗?
爆火的AlphaFold2是否被期望过高?后AlphaFold2时代,蛋白质结构领域是否会出现学术研究的“军备竞赛”?AlphaFold2代码开源,是否为各大药企和AI制药企业创造了一次最佳的超车机会?备受期待的AlphaFold2数据库,是否会成为专家们打开蛋白质功能奥秘的金钥匙?
近日,主题为“权威专家再谈AlphaFold 2:AI是否会带来结构生物学的「大革命」?”的圆桌论坛正式举行。本次主题论坛由图像计算与数字医学国际研讨会(ISICDM)主办,雷锋网、医健AI掘金志协办。
印第安纳大学医学院副院长、AIMBE Fellow黄昆教授担任主持,密苏里大学教授、AAAS/AIMBE Fellow许东教授、密歇根大学教授、DeLano奖得主和I-TASSER算法发明人张阳教授、芝加哥丰田计算技术研究所、斯隆奖得主许锦波教授,中科院计算机所研究员卜东波教授共同参与了讨论。
在《五大顶级学者的AlphaFold2论道:破译结构、开源代码后的产研「大变局」(上篇)》中,几位嘉宾共同深究AlphaFold2这次成果的技术细节与意义;
在下篇中,将着重分析AlphaFold2数据集,这一重磅成果实际的科研价值,以及怎样拓展到新冠疫苗、新药研发等其他领域的未来话题。
作为本次论坛的主办方,图像计算与数字医学国际研讨会(ISICDM)自2017年创办以来,一直是医工交叉的前沿阵地,围绕图像计算和数字医学中的一些重要的理论、算法与应用问题进行学术讨论,旨在促进电子信息(包括计算机、自动化与生物医学工程)、数学和医学等领域学者的交流与合作,截止至今,ISICDM共邀请到400余位大会报告及专题报告嘉宾。
以下是主题论坛的现场内容,雷锋网《医健AI掘金志》做了不改变原意的编辑和整理:
黄昆(主持人):Alpha fold2开放了源代码,也开放了模型预测部分,制药巨头是否可能复现这一过程?会否会冲击相关的AI初创企业的商业模式
许东:据说DeepMind本来想把Alphafold2变成一种商业模式,但因为David Baker复现并开源了类似成果,他们才选择开源,不过这只是一种说法。
我觉得药企复现这个过程的商机不大,因为他们很难超越Alphafold2模型,也无法创造更大的知名度,小公司复现就更加困难。
但现在有很多结构交叉的AI创业公司,以生物制药为例,通过结构做分子设计在中国、美国都非常活跃。
许锦波:这几天刚好就在和一个小公司讨论Alphafold2的复现问题。
他们表示,自己在David Baker之前就已经复现。他们买了16个GPU,重新写了训练代码,最后得出结果只比Alphafold2稍差一点。
所以从算法优化或算法简化着手,十几个GPU,几个工程师没准真能复现出Alphafold2,尽管结果会差一点,但不会差太多。
黄昆(主持人):Baker的3-track逐级结构约束,还有价值吗?
张阳:Baker这篇论文因为和AlphaFold2一起出来,大家也给了很大关注。
首先,这篇论文是独立的,虽然受到AlphaFold2启发,但他们的程序在AlphaFold2代码公布之前就已经完成,算法精度要比后者差一些。
其次,他们的最终模型结构不是端到端,我认为这是AlphaFold2的一个精髓。
Baker实验室虽然实现了部分端到端模型,但结果还比不上,利用距离和接触约束的传统算法,Baker认为这可能还是算力问题。
至于3-track算法,我也作过基准测试,结果要比论文中差一些。不过要比CASP14上除了AlphaFold2其他组稍微好一些。
我认为这种算法显然代表了一种进步。但从方法学角度,端到端预测更能代表蛋白质结构预测的发展方向。
黄昆(主持人):蛋白质结构预测仅仅是蛋白质折叠的一个子问题,物化知识在折叠问题研究可能才刚刚开始?force filed和simulation是否会有较大研究价值?
许东:自己读博士的时候,每天就都在做force filed和simulation。
机器学习并不代表物理过程,物理过程是通过force filed的力场来驱动和折叠,折叠过程特别复杂。
而且物理和机器学习模式之间有很大的鸿沟,大家也在探讨有没有可能通过大数据方式回归物理模式,把二者联系起来。
但蛋白质比物理要复杂,我们的图神经网络是模拟氨基酸之间相互作用,通过图神经网络记录物理过程,并不是真实的物理过程,而是尽量接近物理过程,理解物理问题。
所以,我认为继续过程对force filed和simulation,可能会产生比较大的应用价值,但在蛋白质上可能需要很长时间理解,开发更好的工具。
卜东波:做模拟前会有一个很大的障碍,就是我们目前还没有标准答案。
刚才许东教授介绍的真实物理过程,因为折叠太快,现在还无法知道折叠中间态,而即使是深度学习,首先也需要具备标签和正确答案。
和simulation相比,蛋白质结构预测有X-ray、冷冻电镜做的结构作为标准答案,所以更加容易。
但折叠过程,没有真实物理过程做标准答案,对AI训练和验证都是非常大的阻碍。
黄昆(主持人):联想起二十年前structure genomics project(结构基因组学项目)的无果而终,AlphaFold2数据库会不会成为一场“科技泡沫”?
张阳:“科技泡沫”是个值得注意的现象,很多科学热点开始被人们寄予厚望,最终发现是一场泡沫,这样的例子很多很多。
回答这个问题之前,我先介绍一下AlphaFold2数据库。
上个月,Deepmind接连在Nature上发表了两篇论文:第一篇论文,关于AlphaFold2的算法,这是很重要的一篇论文;
第二篇论文,把AlphaFold2程序应用到人体基因组,把人体基因组表达的所有蛋白质结构,都预测出来。
DeepMind还计划把这项工作推广到其它20种关键生物体中,把目前已知的1亿多条蛋白质结构都预测出来,构建成一个数据库,和全球科学家免费共享。
他们设想有了这个数据库之后,生物学家可以很容易找到新蛋白质,并利用AlphaFold2预测出结构。
或许这个成绩对于外行可能特别激动人心,甚至DeepMind CEO也表示,这将是他科研生涯最重要的一项成就。
但我认为第二篇,结构数据库概念Nature论文,对生物医学的影响远远小于第一篇论文。
第一,基因组结构预测数据库想法并不新颖。AlphaFold2之前,就有很多人做基因组蛋白质结构预测数据库。
最知名的就是Andrej Sali教授的ModBase结构数据库,他们对UniProt里600万序列都作了结构预测,数据库囊括了3000万个结构模型;其次还有Torsten Schwede教授的Swiss-Model数据库,里面包含200多万结构模型。
此外,我还和Jeffrey Skolnick教授,在15年前也建立了一个人体基因所有G蛋白受体(GPCR)的结构模型数据库。
现在,这些数据库虽然还在被大家引用,但它们的影响力已经远不及之后出现的在线服务器。
与传统结构数据库相比,AlphaFold2数据库的亮点并非概念,而是精度,特别是对非同源序列的精度,是目前为止最为精确的结构模型数据库。
此外,AlphaFold2数据库也有几个重要的局限:
第一,提供的只是预测结果,这些模型的有效性,还需要实验验证和支持;
第二,很多蛋白质都会发生变异,而且因为翻译、修饰原因,很少能在现有数据库中找到一个与未知蛋白一模一样的序列。
因此,很多生物学家还会依赖在线服务器,提供高精度蛋白质结构预测。
第三,AlphaFold2数据库不能提供功能性注解,虽然它能提供三维结构预测,但却不能告诉蛋白质在细胞里做什么,而对蛋白质进行功能性注解,其实是结构生物学家解析蛋白质结构的最主要价值。
接下来,再谈谈20年前的知名项目——Structural Genomics,这个项目和AlphaFold2数据库有很多共同之处。
大家当时做蛋白质结构预测主要通过同源建模:对未知蛋白质,如果和它同源的蛋白质结构被实验解出来,就可以用同源建模方法,构建非常精确的模型。
但这种方法当时面临一个问题——很多蛋白质没有并同源实验结构。
所以,Structural Genomics项目就是把计算机同源建模和结构生物学实验技术结合,确定出所有基因数据库结构。
为了解决这个问题,人们把自然界发现的蛋白质序列,按照进化关系分成很多同源家族。
一个家族,只要一个成员结构已知,该家族其他成员结构也都可以通过同源建模确定。
所以这个项目计划:第一,找出哪些家族未知;第二,每个家族挑出一个成员,用结构生物学实验将它结构解析出来。
如果这个想法实现,今后10年或20年内,所有人体包括自然界蛋白质结构都可以用同源建模方法预测出来,这在当时是个很激动人心的想法,最早上个世纪末提出,开始实现是2000年。
当时NIGMS(美国国家卫生院的基础医学研究所)在资金比较紧缺情况下,第一个五年计划就投资2.7亿美元建立Protein Structure Initiative(美国蛋白质结构计划),2005年,又追加了3.25亿美元,总投资7.6亿美元左右。
但最终结果并不理想。许多蛋白质虽然把结构解出来,但没有功能性研究,相关论文也没办法发表,一般结构生物学论文,虽然都解结构,但更重要是从结构里学生物知识。
所以2010年以后,这个项目就失去了意义,到2015年正式终止。新一代学生甚至很多都不知道Structure Genomics项目的存在。
很大程度上,2000年的一个美好愿景,最后变成了一场泡沫。
所以,尽管现在媒体大量宣传AlphaFold2结构数据库,最终对这个领域产生多大影响,我个人还是持谨慎态度。
许东:我补充一点,泡沫可能有两个层面。
第一,投资得不到回报,前期政府投了很多钱,最终产出远不尽人意,这是一种泡沫,但这个问题目前还不存在。
因为除了DeepMind,还没有其他公司投入大量精力做这个模型,而且也没有人表示要PK DeepMind。
第二种泡沫,未来预期远高于结果。大家仔细读读DeepMind的文章,他们把哪些预测准,或不准都已经写出来。
但现在很多人的期望有一些超前,认为AlphaFold2对所有蛋白、所有情况都预测很准,这还需要交流,但我觉得这不会导致资源大量浪费的那种泡沫。
许锦波:我补充一点,结构基因组学研究并不是完全浪费,它给我们提供了大量训练数据,不然就没有AlphaFold2这些机器学习模型。
首先要感谢产生结构数据的实验生物学家,还有做大规模基因测序的学者,他们产生了大量数据,加快了研发速度。
结构预测宣传有一些过头,还有很多问题没有解决。一些生物学家,仔细分析了现在结构预测结果也很失望,因为很多结构预测结果还是一团乱麻,达不到生物学要求。
黄昆(主持人):哪怕仅仅复现训练AlphaFold2,17万原始样本+35万高置信回炉的准样序列,千万元级训练集,是否是一个很高的入门门槛?
许东:这肯定是一个大工程问题。
把模型训练到极致需要一个很强大的团队,DeepMind这篇文章第一作者就将近20人。他们的人力并非小实验室,或一般学术实验室能够比拟。
而且他们在算力和数据等各方面,也要比一般学术实验室强很多。不仅是Alpha fold2,各种大工程问题都需要大研究所或大公司。
所以我觉得,Alphafold2现在已经做到一定量级,小实验室不应该想着如何在数据打败他们,而应该在新创新点上找突破。
而且并非Alphafold2后,就没有事情可做,也并非大家都要和它在算力和大数据方面死磕。
张阳:我再列举一个具体案例。我们许多人已经知道AlphFold2算法,拿到了源代码,但大家如果真复现它的成绩,往往会面临很严重算力问题。
Alphafold2用了128个顶级GPU,并行训练了7天,才达到这个模拟精度,但大多数实验室都没有这样的算力,甚至很多实验室一个GPU都没有。
如果全部在一个GPU训练Alphafold2就需要1000天,而且还是在已知答案前提下,不包括很多试错、调参、测试时间成本。
模型开发真正耗费算力就是反复试错和不断探索过程,这个过程往往需要单个训练几百到上千倍的时间,相当于在黑暗中探索。
所以复现Alphafold2将是一个巨大的算力考验。任何一家学术实验室都很难完成这样的大规模数据训练、测试。
黄昆(主持人):AlphaFold2用来预测Loop区域有多大的可信度?
张阳:单独来讲,Loop区域本身并没有很稳定的结构,它的构型依赖于与周边结构的相互作用。
所以,Loop结构预测精度需要依赖其它有规则二级机构区域模型的精度,其中就包括Loop两端距离是否适合等因素。
目前,AlphaFold2的loop精度应该比其它算法精度高一些,但这是因为它们在有规则二级机构的核心区域预测精度比较高。当把中心骨架结构都预测好之后,再把Loop搭起来,精度就会比较好一些。
黄昆(主持人):请问各位专家团队后续有什么样的计划?是否会继续提升现有模型蛋白质预测的精度?还是会借助AlphaFold2在其他方向上做突破?
许东:过去十几年,我一直做蛋白质结构核心开发,从2012年之后,我就集中深度学习在生物信息学中应用。
后续计划主要有三方面:
第一,蛋白相互作用,例如蛋白对接,怎么利用深度学习选择更好的对接结构,相关文章目前已经出来,后面还要用更好方式把蛋白相互作用预测出来。
第二,免疫和疫苗设计,这方面有很大意义,我们在做单细胞数据的时候,能看到抗原决定部位上不同氨基酸,也能看到抗原上不同多肽序列在结构上怎么去发挥作用,怎么设计更好疫苗。
第三,用医学方法来提取动力学信息,更好表示出分子动力学的不同模式。
除了蛋白结构相关,我们还会做机器学习在单细胞数据应用,例如,受体与配体相互作用,在单细胞层面或空间层面,通过结构方式理解单细胞数据。
张阳:我们将做与蛋白质结构相关的两件事:
第一,把深度学习推广到蛋白-蛋白复合体结构预测,这个问题比单链蛋白质结构预测更复杂,从功能注解来讲也更重要。
第二,把深度学习和结构生物学技术相结合,建立一种大标度利用低精度实验数据,快速确定高精度蛋白结构的计算方法。
传统的NMR和X-ray,以及现在的cryo-EM,对实验精度有很多限制,很多实验数据虽然已经产生,但三维结构并没有解析出来。
有些实验数据辅助的结构预测,往往比单纯基于序列结构预测要精确很多,而且又可以帮助传统结构生物学实验快速确定结构。目前,这个问题并没有引起足够重视,是一个很重要的研究方向。
卜东波:刚才谈到的AlphaFold2是三合一。我们目前独立做的ProFOLD就是把前两个结合到一起,后面从距离构建结构还比较独立,随后我们将逐渐把后面补齐,此外,我们也在尝试复现AlphaFold2的过程。
关于将来的方向,我觉得有三点:
第一,单序列预测,我非常赞同锦波教授的意见,在生物体内部,蛋白从转录到翻译都不参考MSA,折叠过程是非常重要的理论性问题。
AlphaFold2论文也明确表示,MSA条数少于30条时预测并不准,所以我觉得可以尝试做单序列预测。
第二,糖蛋白预测,刚才许东老师谈过很多蛋白都有糖基化,尤其是新冠病毒的S蛋白上有22个N糖的糖基化位点,这些糖非常大,有显著的空间位阻效应。
目前,我们已经和生物物理所合作开展了一些湿实验,有些位点长糖之后,就会导致蛋白质结构和ACE2结合位点变化特别大;而且SPR实验显示,他们的结合能变化也非常大。
还有很关键一点,冷冻电镜测结构时要先把糖弄掉,因为它会导致信号非常不稳定。
第三,蛋白质设计,例如张海仓教授和寒武纪公司合作的ProDESIGN项目。
黄昆(主持人):谢谢各位,我自己不是做蛋白结构领域的,但我现在非常期待怎样把新结果应用在其中。
例如直接做突变功能预测,突变对结构影响预测都比较感兴趣,虽然不一定100%都准确,但比现有结构数据或预测数据库要准确很多。
接下来,怎么样利用数据和其它数据结合在一起,例如和其他基因表达、蛋白表达数据结合在一起做系统生物学模型,尤其对疾病进行预测都是我们很关注的重点。今天非常感谢4位嘉宾的精彩点评,同时也谢谢各位听众。
123
编辑:秘书处