2022-04-19 16:38

研究人员利用深度学习来预测蛋白质复合物的物理相互作用

AF2Complex: Researchers leverage deep learning to predict physical interactions of protein complexes

从移动我们的肌肉纤维到复制我们DNA的酶,蛋白质是使生命成为可能的分子机制。

蛋白质的功能很大程度上依赖于它们的三维结构,世界各地的研究人员长期以来都在努力回答一个看似简单的关于功能和形式的问题:如果你知道这些分子机器的积木,你能预测它们是如何组装成它们的功能形状的吗?

这个问题不容易回答。由于复杂结构依赖于复杂的物理相互作用,研究人员已经转向人工神经网络模型——将复杂模式转换为数值表示的数学框架——来预测和“看到”三维蛋白质的形状。

在《自然通讯》(Nature Communications)上发表的一篇新论文中,佐治亚理工学院(Georgia Tech)和橡树岭国家实验室(Oak Ridge National Laboratory)的研究人员建立了这样一个模型——AlphaFold 2,不仅可以预测单个蛋白质的生物活性构象,还可以预测被称为复合体的功能性蛋白质对的构象。

这项工作可以帮助研究人员绕开冗长的实验,在大范围内研究蛋白质复合物的结构和相互作用,Regents教授、生物科学学院的Mary and Maisie Gibson主席、该研究的通讯作者之一Jeffrey Skolnick说。他补充说,像这样的计算模型对该领域可能有重大意义。

如果这些新的计算模型成功,Skolnick说,“它将从根本上改变研究生物分子系统的方式。”

AF2Complex: Researchers leverage deep learning to predict physical interactions of protein complexesAF2Complex的最初开发是在高级计算环境伙伴关系完成的 佐治亚理工大学的PACE计算中心,图为Coda数据中心。图片来源:Paul Manno / PACE。

为蛋白质预测做准备

AlphaFold 2是由伦敦人工智能实验室DeepMind创建的一个深度学习神经网络模型,设计用于根据单个蛋白质的氨基酸序列预测其三维结构。Skolnick和他的通讯作者,生物科学学院的高级研究科学家Mu Gao分享说,Alphafold 2项目在蛋白质结构预测技术关键评估全社区实验(CASP14)的第14次盲测中非常成功。这是一个两年一度的竞赛,世界各地的研究人员聚集在一起,对他们的计算模型进行测试。

“对我们来说,AlphaFold 2最引人注目的地方在于,它不仅对单个蛋白质结构域(蛋白质序列的基本结构或功能模块)做出了出色的预测,而且对由多个结构域组成的蛋白质序列也表现出色,”Skolnick分享道。因此,有了预测这些复杂的多结构域蛋白质的结构的能力,研究小组开始确定这个程序是否可以更进一步。

Gao解释说:“相同序列的不同[蛋白质]结构域之间的物理相互作用本质上与将不同蛋白质粘合在一起的相互作用相同。”“人们很快就发现,对AlphaFold 2进行相对简单的修改,就可以预测蛋白质复合体的结构模型。”为了探索不同的策略,计算机科学学院(School of Computer Science)大四学生中岛大(Davi Nakajima An)被招募加入了这个团队。

研究人员没有按照AlphaFold 2的原始设计,只将一个蛋白质序列的特征插入AlphaFold 2,而是将多个蛋白质序列的输入特征连接在一起。结合评估被探测蛋白之间相互作用强度的新指标,他们创建了新的程序AF2Complex。

AF2Complex: Researchers leverage deep learning to predict physical interactions of protein complexes橡树岭国家的顶峰超级计算中心 部分实验室。来源:橡树岭国家 部分实验室。

制图新领域

为了对AF2Complex进行测试,研究人员与佐治亚理工学院的高性能计算中心——高级计算环境伙伴关系(PACE)合作,并要求该模型预测以前从未见过的蛋白质复合物的结构。改进后的程序能够正确预测蛋白质复合物的结构,其数量是传统方法“对接”的两倍多。AF2Complex只需要蛋白质序列作为输入,而对接则需要事先了解单个蛋白质结构,根据互补形状预测其组合结构。

“受这些有希望的结果的鼓舞,我们将这一想法扩展到一个更大的问题,即预测多个任意选择的蛋白质之间的相互作用,例如,在一个简单的情况下,两个任意的蛋白质,”Skolnick分享说。

除了预测蛋白质复合体的结构,AF2Complex还负责识别500多对蛋白质中哪些能够形成复合体。使用新设计的指标,AF2Complex在识别任意一对已知的实验交互方面优于传统对接方法和AlphaFold 2。

为了在蛋白质组水平上测试AF2Complex,它包含了一个生物体的全部可表达蛋白质库,研究人员求助于世界第二大超级计算中心——顶峰橡树岭领导计算中心。“多亏了这个资源,我们能够将AF2Complex应用到来自大肠杆菌的大约7000对蛋白质上,”Gao分享道。

在那个测试中,该团队的新模型不仅识别了许多已知的形成复合物的蛋白质对,而且能够为“怀疑但从未在实验中观察到”的相互作用提供见解,Gao说。

对这些相互作用的深入研究揭示了蛋白质复合物的潜在分子机制,对能量运输尤为重要。已知这些蛋白质复合物携带血红素,血红素是使血液呈暗红色的必要代谢物。利用AF2Complex的预测结构模型,橡树岭国家实验室的高级研究和开发人员、该研究的合作广州有偿捐卵者杰瑞·m·帕克斯(Jerry M. Parks)能够将血红素放置在结构中他们怀疑的反应位点上。Gao说:“这些计算模型现在为这种生物分子系统如何工作提供了分子机制。”

“深度学习正在改变人们研究生物系统的方式,”斯科尔尼克补充说。“我们设想,像AF2Complex这样的方法将成为任何想要了解涉及蛋白质相互作用的生物系统分子机制的生物学家的强大工具。”