【前沿学术】五大顶级学者的AlphaFold2论道：破译结构、开源代码后的产研「大变局」（下篇）

转自：医健AI掘金志

备受期待的AlphaFold2数据库，是会成为专家们打开蛋白质功能奥秘的金钥匙，还是一场美丽的“科技泡沫”？

过去半个月，Alphafold2先后两次沸腾了整个学术圈。

一边是“AI界年度十大突破”AlphaFold2终于开源，登上Nature；

另一边DeepMind又发布，堪比人类基因组图谱的，最完整人类蛋白质结构数据库。

对自家的“王者级成果”，DeepMind联合创始人、首席执行官德米斯·哈萨比斯（Demis Hassabis）也自豪表示：“这是迄今为止AI在推动科学进步方面做出的最大贡献，我觉得这么说一点儿也不夸张。”

但事实真是如此吗？

爆火的AlphaFold2是否被期望过高？后AlphaFold2时代，蛋白质结构领域是否会出现学术研究的“军备竞赛”？AlphaFold2代码开源，是否为各大药企和AI制药企业创造了一次最佳的超车机会？备受期待的AlphaFold2数据库，是否会成为专家们打开蛋白质功能奥秘的金钥匙？

近日，主题为“权威专家再谈AlphaFold 2：AI是否会带来结构生物学的「大革命」？”的圆桌论坛正式举行。本次主题论坛由图像计算与数字医学国际研讨会（ISICDM）主办，雷锋网、医健AI掘金志协办。

印第安纳大学医学院副院长、AIMBE Fellow黄昆教授担任主持，密苏里大学教授、AAAS/AIMBE Fellow许东教授、密歇根大学教授、DeLano奖得主和I-TASSER算法发明人张阳教授、芝加哥丰田计算技术研究所、斯隆奖得主许锦波教授，中科院计算机所研究员卜东波教授共同参与了讨论。

在《五大顶级学者的AlphaFold2论道：破译结构、开源代码后的产研「大变局」（上篇）》中，几位嘉宾共同深究AlphaFold2这次成果的技术细节与意义；

在下篇中，将着重分析AlphaFold2数据集，这一重磅成果实际的科研价值，以及怎样拓展到新冠疫苗、新药研发等其他领域的未来话题。

作为本次论坛的主办方，图像计算与数字医学国际研讨会（ISICDM）自2017年创办以来，一直是医工交叉的前沿阵地，围绕图像计算和数字医学中的一些重要的理论、算法与应用问题进行学术讨论，旨在促进电子信息（包括计算机、自动化与生物医学工程）、数学和医学等领域学者的交流与合作，截止至今，ISICDM共邀请到400余位大会报告及专题报告嘉宾。

以下是主题论坛的现场内容，雷锋网《医健AI掘金志》做了不改变原意的编辑和整理：

黄昆（主持人）：Alpha fold2开放了源代码，也开放了模型预测部分，制药巨头是否可能复现这一过程？会否会冲击相关的AI初创企业的商业模式

许东：据说DeepMind本来想把Alphafold2变成一种商业模式，但因为David Baker复现并开源了类似成果，他们才选择开源，不过这只是一种说法。

我觉得药企复现这个过程的商机不大，因为他们很难超越Alphafold2模型，也无法创造更大的知名度，小公司复现就更加困难。

但现在有很多结构交叉的AI创业公司，以生物制药为例，通过结构做分子设计在中国、美国都非常活跃。

许锦波：这几天刚好就在和一个小公司讨论Alphafold2的复现问题。

他们表示，自己在David Baker之前就已经复现。他们买了16个GPU，重新写了训练代码，最后得出结果只比Alphafold2稍差一点。

所以从算法优化或算法简化着手，十几个GPU，几个工程师没准真能复现出Alphafold2，尽管结果会差一点，但不会差太多。

黄昆（主持人）：Baker的3-track逐级结构约束，还有价值吗？

张阳：Baker这篇论文因为和AlphaFold2一起出来，大家也给了很大关注。

首先，这篇论文是独立的，虽然受到AlphaFold2启发，但他们的程序在AlphaFold2代码公布之前就已经完成，算法精度要比后者差一些。

其次，他们的最终模型结构不是端到端，我认为这是AlphaFold2的一个精髓。

Baker实验室虽然实现了部分端到端模型，但结果还比不上，利用距离和接触约束的传统算法，Baker认为这可能还是算力问题。

至于3-track算法，我也作过基准测试，结果要比论文中差一些。不过要比CASP14上除了AlphaFold2其他组稍微好一些。

我认为这种算法显然代表了一种进步。但从方法学角度，端到端预测更能代表蛋白质结构预测的发展方向。

黄昆（主持人）：蛋白质结构预测仅仅是蛋白质折叠的一个子问题，物化知识在折叠问题研究可能才刚刚开始？force filed和simulation是否会有较大研究价值？

许东：自己读博士的时候，每天就都在做force filed和simulation。

机器学习并不代表物理过程，物理过程是通过force filed的力场来驱动和折叠，折叠过程特别复杂。

而且物理和机器学习模式之间有很大的鸿沟，大家也在探讨有没有可能通过大数据方式回归物理模式，把二者联系起来。

但蛋白质比物理要复杂，我们的图神经网络是模拟氨基酸之间相互作用，通过图神经网络记录物理过程，并不是真实的物理过程，而是尽量接近物理过程，理解物理问题。

所以，我认为继续过程对force filed和simulation，可能会产生比较大的应用价值，但在蛋白质上可能需要很长时间理解，开发更好的工具。

卜东波：做模拟前会有一个很大的障碍，就是我们目前还没有标准答案。

刚才许东教授介绍的真实物理过程，因为折叠太快，现在还无法知道折叠中间态，而即使是深度学习，首先也需要具备标签和正确答案。

和simulation相比，蛋白质结构预测有X-ray、冷冻电镜做的结构作为标准答案，所以更加容易。

但折叠过程，没有真实物理过程做标准答案，对AI训练和验证都是非常大的阻碍。

黄昆（主持人）：联想起二十年前structure genomics project（结构基因组学项目）的无果而终，AlphaFold2数据库会不会成为一场“科技泡沫”？

张阳：“科技泡沫”是个值得注意的现象，很多科学热点开始被人们寄予厚望，最终发现是一场泡沫，这样的例子很多很多。

回答这个问题之前，我先介绍一下AlphaFold2数据库。

上个月，Deepmind接连在Nature上发表了两篇论文：第一篇论文，关于AlphaFold2的算法，这是很重要的一篇论文；

第二篇论文，把AlphaFold2程序应用到人体基因组，把人体基因组表达的所有蛋白质结构，都预测出来。

DeepMind还计划把这项工作推广到其它20种关键生物体中，把目前已知的1亿多条蛋白质结构都预测出来，构建成一个数据库，和全球科学家免费共享。

他们设想有了这个数据库之后，生物学家可以很容易找到新蛋白质，并利用AlphaFold2预测出结构。

或许这个成绩对于外行可能特别激动人心，甚至DeepMind CEO也表示，这将是他科研生涯最重要的一项成就。

但我认为第二篇，结构数据库概念Nature论文，对生物医学的影响远远小于第一篇论文。

第一，基因组结构预测数据库想法并不新颖。AlphaFold2之前，就有很多人做基因组蛋白质结构预测数据库。

最知名的就是Andrej Sali教授的ModBase结构数据库，他们对UniProt里600万序列都作了结构预测，数据库囊括了3000万个结构模型；其次还有Torsten Schwede教授的Swiss-Model数据库，里面包含200多万结构模型。

此外，我还和Jeffrey Skolnick教授，在15年前也建立了一个人体基因所有G蛋白受体(GPCR)的结构模型数据库。

现在，这些数据库虽然还在被大家引用，但它们的影响力已经远不及之后出现的在线服务器。

与传统结构数据库相比，AlphaFold2数据库的亮点并非概念，而是精度，特别是对非同源序列的精度，是目前为止最为精确的结构模型数据库。

此外，AlphaFold2数据库也有几个重要的局限：

第一，提供的只是预测结果，这些模型的有效性，还需要实验验证和支持；

第二，很多蛋白质都会发生变异，而且因为翻译、修饰原因，很少能在现有数据库中找到一个与未知蛋白一模一样的序列。

因此，很多生物学家还会依赖在线服务器，提供高精度蛋白质结构预测。

第三，AlphaFold2数据库不能提供功能性注解，虽然它能提供三维结构预测，但却不能告诉蛋白质在细胞里做什么，而对蛋白质进行功能性注解，其实是结构生物学家解析蛋白质结构的最主要价值。

接下来，再谈谈20年前的知名项目——Structural Genomics，这个项目和AlphaFold2数据库有很多共同之处。

大家当时做蛋白质结构预测主要通过同源建模：对未知蛋白质，如果和它同源的蛋白质结构被实验解出来，就可以用同源建模方法，构建非常精确的模型。

但这种方法当时面临一个问题——很多蛋白质没有并同源实验结构。

所以，Structural Genomics项目就是把计算机同源建模和结构生物学实验技术结合，确定出所有基因数据库结构。

为了解决这个问题，人们把自然界发现的蛋白质序列，按照进化关系分成很多同源家族。

一个家族，只要一个成员结构已知，该家族其他成员结构也都可以通过同源建模确定。

所以这个项目计划：第一，找出哪些家族未知；第二，每个家族挑出一个成员，用结构生物学实验将它结构解析出来。

如果这个想法实现，今后10年或20年内，所有人体包括自然界蛋白质结构都可以用同源建模方法预测出来，这在当时是个很激动人心的想法，最早上个世纪末提出，开始实现是2000年。

当时NIGMS（美国国家卫生院的基础医学研究所）在资金比较紧缺情况下，第一个五年计划就投资2.7亿美元建立Protein Structure Initiative（美国蛋白质结构计划），2005年，又追加了3.25亿美元，总投资7.6亿美元左右。

但最终结果并不理想。许多蛋白质虽然把结构解出来，但没有功能性研究，相关论文也没办法发表，一般结构生物学论文，虽然都解结构，但更重要是从结构里学生物知识。

所以2010年以后，这个项目就失去了意义，到2015年正式终止。新一代学生甚至很多都不知道Structure Genomics项目的存在。

很大程度上，2000年的一个美好愿景，最后变成了一场泡沫。

所以，尽管现在媒体大量宣传AlphaFold2结构数据库，最终对这个领域产生多大影响，我个人还是持谨慎态度。

许东：我补充一点，泡沫可能有两个层面。

第一，投资得不到回报，前期政府投了很多钱，最终产出远不尽人意，这是一种泡沫，但这个问题目前还不存在。

因为除了DeepMind，还没有其他公司投入大量精力做这个模型，而且也没有人表示要PK DeepMind。

第二种泡沫，未来预期远高于结果。大家仔细读读DeepMind的文章，他们把哪些预测准，或不准都已经写出来。

但现在很多人的期望有一些超前，认为AlphaFold2对所有蛋白、所有情况都预测很准，这还需要交流，但我觉得这不会导致资源大量浪费的那种泡沫。

许锦波：我补充一点，结构基因组学研究并不是完全浪费，它给我们提供了大量训练数据，不然就没有AlphaFold2这些机器学习模型。

首先要感谢产生结构数据的实验生物学家，还有做大规模基因测序的学者，他们产生了大量数据，加快了研发速度。

结构预测宣传有一些过头，还有很多问题没有解决。一些生物学家，仔细分析了现在结构预测结果也很失望，因为很多结构预测结果还是一团乱麻，达不到生物学要求。

黄昆（主持人）：哪怕仅仅复现训练AlphaFold2，17万原始样本＋35万高置信回炉的准样序列，千万元级训练集，是否是一个很高的入门门槛？

许东：这肯定是一个大工程问题。

把模型训练到极致需要一个很强大的团队，DeepMind这篇文章第一作者就将近20人。他们的人力并非小实验室，或一般学术实验室能够比拟。

而且他们在算力和数据等各方面，也要比一般学术实验室强很多。不仅是Alpha fold2，各种大工程问题都需要大研究所或大公司。

所以我觉得，Alphafold2现在已经做到一定量级，小实验室不应该想着如何在数据打败他们，而应该在新创新点上找突破。

而且并非Alphafold2后，就没有事情可做，也并非大家都要和它在算力和大数据方面死磕。

张阳：我再列举一个具体案例。我们许多人已经知道AlphFold2算法，拿到了源代码，但大家如果真复现它的成绩，往往会面临很严重算力问题。

Alphafold2用了128个顶级GPU，并行训练了7天，才达到这个模拟精度，但大多数实验室都没有这样的算力，甚至很多实验室一个GPU都没有。

如果全部在一个GPU训练Alphafold2就需要1000天，而且还是在已知答案前提下，不包括很多试错、调参、测试时间成本。

模型开发真正耗费算力就是反复试错和不断探索过程，这个过程往往需要单个训练几百到上千倍的时间，相当于在黑暗中探索。

所以复现Alphafold2将是一个巨大的算力考验。任何一家学术实验室都很难完成这样的大规模数据训练、测试。

黄昆（主持人）：AlphaFold2用来预测Loop区域有多大的可信度？

张阳：单独来讲，Loop区域本身并没有很稳定的结构，它的构型依赖于与周边结构的相互作用。

所以，Loop结构预测精度需要依赖其它有规则二级机构区域模型的精度，其中就包括Loop两端距离是否适合等因素。

目前，AlphaFold2的loop精度应该比其它算法精度高一些，但这是因为它们在有规则二级机构的核心区域预测精度比较高。当把中心骨架结构都预测好之后，再把Loop搭起来，精度就会比较好一些。

黄昆（主持人）：请问各位专家团队后续有什么样的计划？是否会继续提升现有模型蛋白质预测的精度？还是会借助AlphaFold2在其他方向上做突破？

许东：过去十几年，我一直做蛋白质结构核心开发，从2012年之后，我就集中深度学习在生物信息学中应用。

后续计划主要有三方面：

第一，蛋白相互作用，例如蛋白对接，怎么利用深度学习选择更好的对接结构，相关文章目前已经出来，后面还要用更好方式把蛋白相互作用预测出来。

第二，免疫和疫苗设计，这方面有很大意义，我们在做单细胞数据的时候，能看到抗原决定部位上不同氨基酸，也能看到抗原上不同多肽序列在结构上怎么去发挥作用，怎么设计更好疫苗。

第三，用医学方法来提取动力学信息，更好表示出分子动力学的不同模式。

除了蛋白结构相关，我们还会做机器学习在单细胞数据应用，例如，受体与配体相互作用，在单细胞层面或空间层面，通过结构方式理解单细胞数据。

张阳：我们将做与蛋白质结构相关的两件事：

第一，把深度学习推广到蛋白-蛋白复合体结构预测，这个问题比单链蛋白质结构预测更复杂，从功能注解来讲也更重要。

第二，把深度学习和结构生物学技术相结合，建立一种大标度利用低精度实验数据，快速确定高精度蛋白结构的计算方法。

传统的NMR和X-ray，以及现在的cryo-EM，对实验精度有很多限制，很多实验数据虽然已经产生，但三维结构并没有解析出来。

有些实验数据辅助的结构预测，往往比单纯基于序列结构预测要精确很多，而且又可以帮助传统结构生物学实验快速确定结构。目前，这个问题并没有引起足够重视，是一个很重要的研究方向。

卜东波：刚才谈到的AlphaFold2是三合一。我们目前独立做的ProFOLD就是把前两个结合到一起，后面从距离构建结构还比较独立，随后我们将逐渐把后面补齐，此外，我们也在尝试复现AlphaFold2的过程。

关于将来的方向，我觉得有三点：

第一，单序列预测，我非常赞同锦波教授的意见，在生物体内部，蛋白从转录到翻译都不参考MSA，折叠过程是非常重要的理论性问题。

AlphaFold2论文也明确表示，MSA条数少于30条时预测并不准，所以我觉得可以尝试做单序列预测。

第二，糖蛋白预测，刚才许东老师谈过很多蛋白都有糖基化，尤其是新冠病毒的S蛋白上有22个N糖的糖基化位点，这些糖非常大，有显著的空间位阻效应。

目前，我们已经和生物物理所合作开展了一些湿实验，有些位点长糖之后，就会导致蛋白质结构和ACE2结合位点变化特别大；而且SPR实验显示，他们的结合能变化也非常大。

还有很关键一点，冷冻电镜测结构时要先把糖弄掉，因为它会导致信号非常不稳定。

第三，蛋白质设计，例如张海仓教授和寒武纪公司合作的ProDESIGN项目。

黄昆（主持人）：谢谢各位，我自己不是做蛋白结构领域的，但我现在非常期待怎样把新结果应用在其中。

例如直接做突变功能预测，突变对结构影响预测都比较感兴趣，虽然不一定100%都准确，但比现有结构数据或预测数据库要准确很多。

接下来，怎么样利用数据和其它数据结合在一起，例如和其他基因表达、蛋白表达数据结合在一起做系统生物学模型，尤其对疾病进行预测都是我们很关注的重点。今天非常感谢4位嘉宾的精彩点评，同时也谢谢各位听众。

123

编辑：秘书处

【前沿学术】五大顶级学者的AlphaFold2论道：破译结构、开源代码后的产研「大变局」（下篇）

发表评论取消回复

访问统计

【前沿学术】五大顶级学者的AlphaFold2论道：破译结构、开源代码后的产研「大变局」（下篇）

相关推荐

发表评论 取消回复

访问统计

发表评论取消回复