使用分子动力学模拟和机器学习表征RNA聚合酶II触发环突变
抽象
多亚基RNA聚合酶的催化和保真度依赖于称为触发环(TL)的高度保守的活性位点结构域,该结构域通过构象变化和与NTP底物的相互作用在转录中发挥作用。TL残基的突变对催化作用产生明显的影响,包括低活性和多动性以及保真度改变。我们应用分子动力学模拟(MD)和机器学习(ML)技术来表征酿酒酵母RNA聚合酶II(Pol II)系统中的TL突变。我们这样做是为了确定个体突变和表型之间的关系,并将表型与MD模拟的结构改变联系起来。使用突变体在不同胁迫条件下的适应度值,我们沿着一系列连续值对表型进行了建模。我们发现ML可以预测0.68 R的表型2仅来自氨基酸序列的相关性。合并MD数据以改善机器学习的预测更加困难,可能是因为MD数据太嘈杂,可能不完整,无法直接推断功能表型。然而,基于MD数据的变分自动编码器模型允许根据结构细节对具有不同表型的突变体进行聚类。总体而言,我们发现功能丧失(LOF)和致死突变的一个子集倾向于增加TL残基到NTP底物的距离,而LOF和致死替代的另一个子集倾向于增加TL和桥螺旋(BH)之间的距离。相比之下,一些功能获得(GOF)突变体似乎会导致TL和附近螺旋之间的疏水接触中断。
作者摘要
RNA聚合酶II(Pol II)在称为触发环(TL)的活性位点结构域的帮助下合成RNA。TL 突变导致 Pol II 活性的变化,范围从功能获得性(GOF,活但过度活跃)到功能丧失(LOF,活但低活性)或致死。本研究使用分子动力学(MD)模拟和机器学习(ML)对TL突变的结构和功能结果进行了系统表征。我们使用遗传适应性评分(生长缺陷强度的度量)作为输入,通过ML获得突变体的功能表型。我们发现突变TL序列可以预测相对较高的相关性的功能结果。然后,我们进行了MD模拟,将结构信息与表型相关联。对MD数据的分析表明,有两个致命和LOF突变体亚群,其中一个亚群在TL和底物之间的距离增加,而另一个亚群显示TL与另一个称为桥螺旋(BH)的活性位点结构域之间的距离增加。另一方面,一些GOF突变体改变了由活性位点附近残基之间的相互作用形成的关键疏水口袋。总体而言,这项研究增强了我们对TL突变对Pol II功能影响的理解。
数字
Fig 4Fig 5Fig 6Fig 1Fig 2Fig 3Fig 4Fig 5Fig 6Fig 1Fig 2Fig 3
引文: Dutagaci B, Duan B, Qiu C, Kaplan CD, Feig M (2023) 使用分子动力学模拟和机器学习表征 RNA 聚合酶 II 触发环突变。公共科学图书馆计算生物学19(3): e1010999. https://doi.org/10.1371/journal.pcbi.1010999
编辑 器: 魏光宏,复旦大学,中国
收到: 15月 2022, 6;接受: 2023月 22, 2023;发表: <>月 <>, <>
版权所有: ? 2023 杜塔加奇等人。这是一篇根据知识共享署名许可条款分发的开放获取文章,该许可允许在任何媒体上不受限制地使用、分发和复制,前提是注明原作者和来源。
数据可用性: 实验数据在 S1 电子表格中,从 MD 中提取的平均距离在 S2 电子表格中。ML 模型和协议可在以下位置找到: https://github.com/bercemd/PolII-mutants 所有导数分析数据均在图 1–6 和 S1–S26 以及 S1 和 S2 表中显示。代码可通过 github: https://github.com/bercemd/PolII-mutants 获得。
资金: 这项研究由美国国立卫生研究院资助(R35 GM126948,至MF,R01 GM097260和R35 GM144116至CDK)。资助者在研究设计、数据收集和分析、发表决定或手稿准备方面没有任何作用。
竞争利益: 作者没有竞争利益需要披露。
介绍
RNA聚合酶II(Pol II)是在真核生物中合成mRNA的酶。结构[1,2,3,4]和计算[5,6,7,8]研究提供了对这一过程机制的见解,该过程通过重复核苷酸加成循环(NAC)向新生RNA添加新核苷酸来实现[9]。NAC的拟议机制强调了活性位点中高度保守结构域的构象变化,存在于酵母Pol II的最大亚基Rpb1中,但由于活性位点结构域的高度保守,这里获得的见解可以转移到其他聚合酶系统中。其中一个域称为触发环路(TL),另一个是附近的桥螺旋(BH)。TL具有开放和封闭构象,已知这些构象对核苷酸加成很重要[10,11,12,13]。NAC从具有开放TL的Pol II复合物开始,该TL允许进入的核苷三磷酸(NTP)进入活性位点。在NTP的初始结合后,TL闭合并促进与模板配对的底物的催化作用。这导致易位前(添加底物)状态,然后TL打开和PPi释放,以及随后或并发易位[14]。TL被认为在选择[4,15,16,17]和在活性位点定位正确的NTP以及影响NAC的动力学[18,19,15]方面具有重要作用。转录暂停[20,21]、回溯[22,23]和易位[24,25,10]期间的TL受累也有人提出。
TL功能的详细机制尚不完全清楚。先前的研究表明,TL对转录至关重要,表明从不同物种中完全删除TL会导致转录率显着降低[23,28,29] 在TL缺失的情况下,转录仍然可以发生,但会大幅下降,102?104在催化速率上,[28,29]并且保真度有显着下降[29]。这些研究表明,TL在转录中起着重要作用。某些残基被鉴定为对功能特别重要,例如H1085,L1081,E1103和Q1078[4,15,16,18,26,30,31,32]。当TL关闭时,H1085和L1081与NTP的距离很近。因此,它们的作用归因于正确NTP的定位。H1085和L1081的大多数替代物是致命的[4,18,32]。另一方面,已知E1103突变会导致催化速率增加,但保真度降低[15,16,26,32]。进一步的研究表明,Q1078与NTP的糖部分有相互作用,其大多数突变也不可行[30,31,32]。由于TL必须支持多种构象,因此可能存在特定取代的复杂效应。定点诱变和既往一项TL等位基因综合遗传学研究表明,Pol II.突变体表型分类和支持功能网络的残基之间存在复杂的相互作用[21,32]。在该研究中,突变的影响被大致归类为“功能丧失”(LOF),其中催化活性在体外降低或预计会降低,“功能增益”(GOF),其中催化活性增加或预测增加,或“致命”,其中基本功能受到损害。因此,遗传表型与不同的功能结果相关联,为深入了解不同TL残基在转录过程中的作用提供了一个框架。
突变对蛋白质的影响以前已经通过计算方法进行了研究。许多研究报告了MD模拟,可预测突变的结构效应,并将这些效应与功能联系起来[18,33,34]。这些研究为突变的影响带来了宝贵的见解,但通过MD模拟覆盖大量突变在计算上具有挑战性。最近,机器学习方法已被广泛用于预测突变对各种特性的影响,如蛋白质稳定性[35,36],配体结合[37,38,39],变异适应性[40,41]和功能表型[42,43,44。].在这些研究中,输入通常由氨基酸序列、进化数据、结构信息和生化数据组成。已经应用了一系列机器学习方法,包括前馈神经网络[39,41,42],变分自编码器(VAE)模型[43,44],卷积神经网络[36,39,40]和集成学习方法[35,37,38,41]。].以皮尔逊系数衡量的预测性能通常在0.5到0.8之间[35,37,38],这表明机器学习模型可用于预测突变的影响。在这里,我们应用类似的机器学习框架来预测Pol II的功能结果。与之前的研究不同,我们添加了来自MD模拟的输入作为附加功能,目的是通过结合两种方法来预测功能来获得更多见解。
由残基变异引起的功能性TL表型如何表现是一个悬而未决的问题,因为缺乏单个突变体在原子水平上的结构和动态细节,以及对突变类中生化水平潜在共性的理解。为了解决这个问题,我们将不同氨基酸序列的TL的实验适应度评分和分子动力学(MD)模拟的数据结合起来,使用机器学习(ML)框架预测TL突变的功能和结构结果。此处的分析基于更新的健身数据集,该数据集扩展了Qiu等人的早期分析。基于功能表型的连续表示,开发完整的TL突变表型图谱[32]。首先,我们开发了使用氨基酸序列来预测TL突变表型的ML模型。然后,我们选择了135个具有已知功能表型的TL单突变体,并对这些突变体进行了原子分子动力学(MD)模拟。在MD模拟之后,我们将ML算法应用于从模拟中提取的数据,以更好地了解不同的表型如何映射到活性位点附近Pol II的结构和动力学差异上。从MD模拟中获得的结构数据主要用于在VAE框架中使用时提供对TL突变表型的机制理解,从而使我们能够将功能映射到结构特征。该分析的具体见解是,对于一个突变体亚群,致死和LOF突变体的TL残基和NTP之间的分子内距离增加,而对于致死和LOF突变体的另一个亚群,观察到TL和BH残基之间的距离很大。我们还预测了两类不同的GOF表型,其中两者都影响由活性位点残基形成的疏水口袋,而子集增加了BH-TL相互作用。总体而言,这些发现有助于进一步了解TL和BH在Pol II功能期间的具体作用。这项研究还表明,可能需要更长的MD模拟,在可能的时间尺度上,以增强突变机制的推断。
为了降低突变空间的维数并将突变体的位置与不同的表型相关联,我们通过应用VAE模型(编码器和解码器部分的三层,分别具有256、128和64个节点)将突变体的适应度值映射到二维潜在空间上。使用VAE模型有两个主要原因。首先,VAE将在没有任何监督的情况下,在缩小维度的空间中将相似的表型聚类在一起,这将进一步支持监督模型获得的连续表型预测的准确性。第二个原因是使用约维空间从复杂的非线性适应度数据中收集广义信息。潜在空间以缩小的维度捕获适应度数据集中的信息,从中可以以最小的损失重新生成适应度值,作为模型生成部分(解码器)的输出。图1E显示了每个突变体的结果潜在空间分布,根据预测的表型进行着色。我们注意到,具有2D和3D潜在空间的VAE模型提供了相似的生成性能(S1图),因此,我们在图2E中展示了1D模型。尽管连续表型预测受益于基于已知表型的监督,但VAE模型是在没有这种监督的情况下训练的。然而,根据预测的表型,突变体有明确的聚类。与二维PCA分析中不同表型的相对更明显的位置相比,VAE模型提供了一个规则化的潜在空间,表型的过渡更加缓慢(S2图)。此外,不同表型类别之间的逐渐过渡表明,这种类型的分类提供了离散分类无法捕获的额外见解,并且可能更符合进化适应性景观。表型之间的转换表明,不同的表型具有相似的适应度评分,因此它们处于所呈现表型的边缘,并且可以通过其他突变在表型之间相互转换。有趣的是,附近潜在空间投影之间的过渡不仅仅是相邻表型之间的过渡(e.g.从致命到LOF,从LOF到中性,然后是GOF),但也几乎直接从GOF到致死的某些突变(例如GOF突变体L2E,G1101D,M1097A,E1079K,K1103F,F1093I)(S1084图)。L3E在潜伏空间中与LOF突变体A1101E和F1087Y以及致命突变体G1084F和L1088S的距离很近。其他GOF突变体G1081D,M1097A,E1079K,K1103F,F1093I也处于接近LOF突变体F1084K,E1084P T1103D和致命突变体H1077F的边界(S1085图)。它们与潜在空间上的致命突变体的近距离表明,它们的适应度值接近突变体,导致催化严重缺陷,因此,这些GOF突变体最有可能通过额外的突变转化为致死性。早期一项关于双突变的研究表明,边界处的两个GOF突变体,即G3D和F21I,在另一个突变E1097G上变得致命,E1084G本身具有GOF表型。虽然E1103G不在致命突变体的边界(S1103图),但这种突变的额外影响可能将GOF突变体推向边界的另一侧。
从TL序列推断表型
为了进一步理解TL序列中编码的适应性信息,我们训练了一个监督神经网络(三层,分别具有128、64和32个节点和一个扁平层)来预测序列中的函数。目标数据是根据上述实验适应度数据确定的连续表型值(S1电子表格)。总共为100个随机生成的训练(35个突变体)和测试(100个突变体)集生成了80个模型重复,总共产生了<>个模型。我们注意到,将训练集的大小减小到 <> 会降低模型的性能(平均 R2测试集从 0.52 降低到 0.44),而将其增加到 120 会略微提高性能(平均 R2测试集从 0.52 增加到 0.54),但限制了测试集中突变体的数量。然后,我们采用了提供最佳R的模型2和每个测试集的斜率组合。对十组最佳模型的预测进行集成平均,以获得总体预测。这些在 S1 电子表格中提供。十个模型的训练和测试损失分别显示在 S4 图中,每个模型的训练集和测试集的相关性分别显示在 S5 和 S6 图中。图2A显示了具有良好相关性(R2= 0.68)。然而,与实际表型相比,0.60 的斜率和预测值的范围更有限,表明极端结果(功能增益或致死)的预测不如整体趋势可靠。这在 S7 图中显示的预测差异图中也很明显。该模型也无法预测残基中特定取代的LOF表型,否则这些残基主要具有GOF突变体,如E1103P的情况。图2B显示了单个突变的基于序列的表型预测。预测与适应度值的表型基本一致,但同样,预测值在极端值方面的变化较小。我们还将基于序列的模型与一个简单的模型进行了比较,该模型从序列模型中使用的训练集中预测每个突变体的平均表型的表型(见S8图)。与基于序列的模型相比,我们发现总体相关性较低(R2= 0.59),但斜率有所改善(0.71)。然而,对于序列模型,预测与每个残基的平均表型偏差较大的表型存在困难(参见S1079图中M1104P,I1101P,L1080R,T7M的异常值)。总体而言,序列模型相对于简单模型获得的相关性有所改善,这表明TL序列是推断TL残基突变体功能表型的强大预测特征。
thumbnail 下载:
.PPT幻灯片
.PNG大图
.TIFF原始图像
图2. 从TL序列预测表型。
(A)从序列预测的表型与从适应度数据中获得的表型以及线性回归曲线。预测是来自使用 10 个随机训练/测试集 (B) 从序列预测的所有单个突变的表型训练的模型中的集合平均值。
https://doi.org/10.1371/journal.pcbi.1010999.g002
我们进一步测试了在单突变体上训练的模型,用于预测双突变体。双突变体的预测实际上更为重要,因为并非所有双突变体的组合都可以通过实验进行测试。从功能的角度来看,双突变体很有趣,以了解突变在多大程度上具有累加效应。同时,该分析揭示了在单个突变体上训练的预测模型在预测双突变体表型方面的局限性。我们集成了十个模型的预测平均值,就像我们对单个突变体所做的那样。图3显示了所有单个TL取代与E1103G(GOF),G1097D(GOF),F1084I(GOF)或Q1078S(LOF)组合的表型景观。通常,我们的模型预测了双突变体对表型的加性效应,其中相似表型表现出增加效应,而相反的表型相互抑制。更具体地说,预测GOF突变体(E1103G,G1097D,F1084I)在整个附加突变集中引起LOF和致命突变体的抑制。为了量化双突变体的加性,我们通过加和单个突变体表型来计算完全加性表型,并表明预测的表型与R的加性表型高度相关2为 1.0,均方误差为 0.29(S9A 图)。S9B图显示,预测的表型略高于加性表型。GOF-GOF突变体与加性一致性较高,并且往往与突变位点之间的空间距离相关,较近的突变位点与加性表型的一致性更好。(S9B图)。大多数病例的总体加性预测与既往研究一致[16,21]。例如,具有GOF表型的E1103G与LOF突变体F1086S、H1085Q和H1085Y的组合导致两种表型之间的酶活性,而与Q1078A、N1082A和H1085A致死突变体的组合导致致死性抑制[21]。GOF-GOF双突变体的预测增加的GOF表型与发现致命的GOF组合E1103G-G1097D和E1103G-F1084I形成对比[21]。这些组合被假设为致命的,因为极端的GOF表型跨越了活力阈值,其中过度强调的GOF表型可能最终破坏酶的活性,这一结果不包括在基于单个突变的ML模型训练中。或者,活性位点附近的疏水口袋完全破坏可能导致更大的结构变化,从而使任何聚合酶活性失效。Q1078S的LOF突变体还通过抑制GOF表型并导致LOF-LOF双突变体的致命或更严重的LOF表型来预测加性效应。我们注意到,当根据预测添加到Q1079S时,对于M1092,K1093,K1097,G1101,L1078的某些双突变,中性(WT)功能可能会恢复。这种双突变体是否真的可以恢复正常功能还有待实验测试。
thumbnail 下载:
.PPT幻灯片
.PNG大图
.TIFF原始图像
图3.
从TL序列预测E1103G(A),G1097D(B),F1084I(C)和Q1078S(D)双突变体的表型。
https://doi.org/10.1371/journal.pcbi.1010999.g003
从突变体的MD模拟推断表型
对135个突变体进行了MD模拟,以确定模拟突变体的涌现特性是否可以更好地区分突变类别或表型之间,如果是这样,哪些结构和动态特性可能是特定表型结果的标志。根据先前研究的预测选择突变体[21,32]。为了生成用于ML训练的特征,我们从MD模拟中提取了分子内距离数据(图4)。具体来说,我们从被认为与 Pol II 功能相关且可能对 TL 突变敏感的 MD 轨迹中捕获了分子内距离的子集:TL-TL 残基对、TL-BH 残基对和 BH-BH 残基对以及 WT 结构中距离很近的 TL 残基-GTP 对;GTP Pα以及与催化相关的末端RNA O3'距离;GTP-H1与相应DNA(18-DNA-N3)之间的碱基对距离以及GTP-C1'和18-DNA-C1'的糖碳之间的距离;最后,镁之间的距离2+和 Pα的 GTP。总共计算了 62 个距离,S2 电子表格中提供了距离列表和平均距离。我们选择了接近TL的距离,因为它具有可能与催化相关的突变位点和靠近活性位点的距离。
thumbnail 下载:
.PPT幻灯片
.PNG大图
.TIFF原始图像
图4. MD轨迹的距离分析。
(A) BH-BH、TL-TL、TL-GTP和GTP与Mg对的示意图2+、末端 RNA 和碱基对 DNA 以及 (B) BH-TL 以及图中给出的颜色代码,黑线用于显示来自 MD 模拟的突变体的表型的相邻氨基酸 (C) 热图与平均距离的关系。S2 电子表格中提供了距离。
https://doi.org/10.1371/journal.pcbi.1010999.g004
图4A和4B显示了距离的示意图,图4C显示了通过模拟研究的每个突变体的表型与平均距离的自由能图。大多数距离保持在 2-12 ? 之间,而随着表型范围从 GOF (1.0) 到致死 (-2),一些距离变得更长。然而,突变体之间受影响的距离不同。致死突变体(表型<-1.5)主要影响GTP-TL距离,因为热图显示了致死突变体在大GTP-TL距离处的最小能量(S10图)。另一方面,一些LOF突变体似乎影响TL-GTP,TL-TL和BH-TL对,因为它们以最小的能量跨越更远的距离。(S10图)。总体而言,这表明致命和LOF突变体会导致GTP或TL-BH残基的距离增加,从而直接或间接影响催化作用。
然后使用带有和不具有序列数据的MD数据(图128和S64-S32)训练用于预测表型的ML模型(具有5,4和6个节点的三层)。仅使用MD派生距离的ML模型显然不如仅基于氨基酸序列的模型具有预测性,即使考虑了具有注意力层(具有128,64个节点和一个注意力层的两层)的更复杂的模型(图5)。我们注意到 R2图 2 和图 5 中的值不同,因为图 2 显示了所有突变体的平均预测值的相关性,而图 5 显示了平均 R 2在测试集中突变体的集合上。我们还尝试将MD和序列数据结合起来,发现MD数据不能比仅使用序列信息本身来改善预测。我们将这一发现解释为MD数据可能过于嘈杂,采样可能不完整,无法可靠地识别特定突变之间的差异。我们注意到,我们使用了一组不同的特征,即TL残基的主干二面角和通过结合距离和二面角的更多特征,在这两种情况下,我们都没有获得任何改进的预测(S11图)。除此之外,我们没有观察到五组距离对预测的任何特殊影响,因为删除它们并没有显着降低相关性(S11图)。另一方面,关于不同氨基酸的知识隐含地包含有关氨基酸大小和物理特性(如电荷和疏水性)的信息。综上所述,这可能足以表征突变对表型结果的影响。
thumbnail 下载:
.PPT幻灯片
.PNG大图
.TIFF原始图像
图5. 基于线性回归R的序列和MD数据表型预测性能2相关系数、线性回归曲线的斜率和截距,以及给定表型和预测表型之间的均方误差 (MSE)。
每个指标都计算为 10 组的平均值。
https://doi.org/10.1371/journal.pcbi.1010999.g005
MD数据的VAE模型提供突变体的结构分类
最后,我们基于MD距离数据开发了一个VAE模型(三层,分别有128、64和32个节点,编码器和解码器中有一个32个节点之后的注意力层),以确定不同表型结果背后的结构原理,因为上面开发的基于序列的ML预测器没有提供这样的见解。具有 135 个突变体的突变体库的 MD 模拟会产生大量数据,这使得对某些表型的结构效应得出普遍结论变得具有挑战性。为了减少这种高维数据,i.e.分子内距离网络,进入低维空间我们使用了VAE模型。VAE是生成模型,用于学习潜在空间表示中的最优集合变量,通过VAE模型的非线性解码器块,可以以最小的损失重建高维数据。然后通过聚类(使用Kmeans)进一步分析潜在空间的投影。将解码器应用于聚类中心以及它们之间在潜在空间中的插值,然后提供有关产生不同表型的关键结构决定因素的信息。VAE模型如前所述[49]应用,但我们也在编码器和解码器侧增加了一个注意力层,以更好地解释突变对距离的影响的变化,因为不同的突变体影响酶的不同部分。由此产生的潜在空间映射如图6A所示。使用Kmeans聚类算法将潜在空间中的突变体进一步分组为三个簇。尽管MD的预测模型不能很好地预测表型,但VAE模型在某种程度上确实导致了突变体的表型分离,因为簇I,II和III之间的平均表型差异,平均表型分别为-0.49,-0.75和-0.83(见S2表)。簇 I 具有以 GOF 和 LOF 突变体为主的表型混合物,簇 II 和 III 包含大多数致死性和 LOF 以及少数 GOF 突变体。
thumbnail 下载:
.PPT幻灯片
.PNG大图
.TIFF原始图像
图6. 对MD距离数据的VAE分析。
(A)VAE模型中基于MD距离数据的潜在空间,根据聚类(I为白色,II为灰色,III为深灰色)着色,每个点都着色为突变表型。轴z[0]和z[1]是使用VAE模型投影MD数据生成的二维潜在空间的第一维和第二维。(二)距离差图;Δ距离显示了平衡后VAE在簇中心与WT结构的生成模型的距离差异。图(C),(D)和(E)显示了最终MD快照中每个簇的代表性突变体的活性位点邻域,具有TL(红色),BH(黄色),DNA(紫色),RNA(洋红色)和GTP。原子按原子名称着色,以表示甘草表示中的残基。图(F),(G)和(H)显示了平衡后形成WT疏水口袋的残基和最终MD快照处的GOF突变体。颜色代码与上述相同,只是TL显示的残基按残基类型着色,其中带正电荷的氨基酸为蓝色,带负电荷的氨基酸为红色,极性为绿色,疏水性为白色。
https://doi.org/10.1371/journal.pcbi.1010999.g006
我们继续识别潜在空间中的聚类中心,然后将生成解码器模型应用于聚类中心,以获得每个聚类的代表性距离信息。聚类中心应该是有意义和代表性的点,因为正则化项应用于潜在空间分布,这可以防止过度拟合并有助于在实点之外获得有意义的输出。我们注意到,最接近簇中心的实际点,即聚类I,II和III的1076N(表型为1.02),1080W(表型为-2.14)和1081N(表型为-1.85),提供了几乎相同的距离剖面,聚类中心表明潜在空间是正则化的。图6B显示了WT与基于潜在空间中心坐标的每个星团的距离之间的差异图。图6B显示,以WT样和GOF突变体为主的簇I的距离通常低于其他两个具有更多致死性和LOF表型的簇的距离。LOF/致死突变体TL周围关键残基的分子内距离更长(图6B)与上面MD数据的直接分析(图4C)所示相似。然而,从基于VAE的分析中可以得出更详细的见解(图6B):与其他簇相比,簇II的特征是TL残基和GTP之间的距离更大,特别是对于H1085和L1081,表明潜在的突变体(T1077N,R;T1080W;F1084D, N;F1086S;G1088E;S1091W;N1106F;S2电子表格中提供的所有距离)通过直接扭曲活性位点而起作用,从而阻碍催化作用。对于某些突变体(Q1078C,K,S,W;L1081A;H1085L, Q, S, W;A1087Y, V1089G, P1099D;S2 电子表格)。然而,团簇III主要具有BH-TL对的距离增加(图6B),特别是残基K830和D826与V1094的距离,已知它们在闭合TL中处于近距离[4]。这表明一种更间接的机制可以影响该簇中大多数负面表型,涉及破坏BH-TL相互作用。BH-TL相互作用既往被认为在功能上很重要[7,32]。在第三簇中,大多数导致K830-V1094距离较大的替代物与BH的距离很近,而也有远离BH的突变体,导致K830和V1094之间的距离很远(S12图)。接近V1094的残基的一些TL-TL距离也增加了,如T1083-K1093、N1082-K1093、T1080-V1094的距离(图6B)。此外,这表明V1094在转录机制中起着特别重要的作用。每个集群的单个成员与集群中心显示出类似的趋势(S13图);簇II的成员,包括远离GTP的N1106F,S1091W和G1088E的突变体,显示出更大的GTP和触发环残基距离,而簇III的成员(S1086图中给出的F1078R,Q1081K,L1087Y,A1080K和T13K)对于接近BH(L1081Y,A1087K和T1080K)或远离BH(F1086R和Q1078K)的突变体具有更高的TL-BH距离。
为了进一步说明结构细节,我们根据以下关键距离为每个集群选择了三个具有代表性的突变体:1085-GTP,1081-GTP,830-1094。因此,我们根据适应度数据选择了G1088E、F1086R和G1097S,预测数值表型分别为-1.75、-0.92和0.33,用于集群II、III和I。G1088E被认为是致命的突变体(表型≤-1.5)。由于突变,GTP和1085之间有很大的距离(图6C),预计这会抑制酶功能。F1086R是一个LOF突变体,其中GTP和残基1085和1081之间的距离保持相对较近,但BH和TL之间的距离增加,如1094和830对所示(图6D)。因此,催化仍然是可能的,但效率较低。最后,G1097S表现出近WT表型,因为它具有0.33个预测数值表型,可归类为弱GOF近WT。在这种突变体中,活性位点周围的所有残基都很接近,导致WT样酶性能所必需的更紧密的活性位点几何形状(图6E)。
GOF突变体主要分散在簇I和III之间,这表明这种表型也可能有不同的机制。主要区别在于,与簇I中的GOF突变体相比,簇III的GOF成员表现出相对较大的BH-TL残基距离(S14图)。我们分别在簇III和I中选择了M1079N和E1103G两个突变体作为代表性例子。它们的最终快照如图6F-6H所示,重点是TL残基A1076,M1079,T1080,G1097和L1101形成的疏水口袋。M1079N和E1103G都会导致疏水口袋中断,尽管机制可能略有不同。M1079直接指向疏水口袋,与WT平衡结构中的V1355,I1356和L1101距离很近。M1079N的突变直接破坏了疏水相互作用。E1103G仿真的最后一个快照还显示了M1079指向远方的疏水性破坏口袋,但由于1103的位置更远,因此通过调节TL-BH相互作用,效果必须更加间接。这些结果支持了GOF表型的主要机制是通过直接或间接破坏BH附近TL残基形成的疏水口袋的假设,如先前的研究表明[30,32]。为了定量分析疏水口袋,我们计算了形成疏水口袋的残基(I837、L841、A1076、M1079、G1097、L1101、V1352、V1355、I1356)与这些残基内的表面积之间的接触次数(S15图)。表型间接触次数和表面积的分布差异无显著差异;因此,很难得出一个概括的结论。然而,GOF突变体的一个子集(L1101E,G1097H,T1080L,L1101H和G1097D)往往具有更大的表面积,而LOF和致死突变体的一个子集(L1081A,Q1078S,P1099N,V1098R和N1106F)往往具有较小的表面积,这可能表明在一些GOF突变体中观察到疏水口袋的破坏比LOF和致命突变体更多。
讨论
在这项研究中,我们应用ML方法解释遗传适应性值,序列信息和MD模拟数据,以预测和表征酵母RNA Pol II的TL突变体。使用不同条件下的适应度值生成从 GOF 到 LOF 和致死的表型连续体上的 TL 突变体的定量评分。然后,我们询问使用蛋白质序列和MD模拟的机器学习方法是否可以在对突变体子集进行训练时预测这些表型。蛋白质的氨基酸序列广泛用于机器学习方法,以预测有关突变表型[50,51,52]的结构[53,54,55,56,57]和功能[35,37,40]的各种信息。这些研究表明,序列包含有关蛋白质结构和功能的关键信息,这些信息是可以学习的。在这项研究中,我们使用TL残基序列作为输入,并获得了突变表型的预测模型,这些模型比每个残基的平均表型的简单模型具有更高的相关性。通过结合有关突变位点基本物理性质(如分子量和体积、疏水性、表面积、溶剂化能、静电相互作用、位置特定评分矩阵(PSSM)等)的额外数据,可以进一步改进这些模型。在早期的一些研究中应用[42,35,37]。类似的方法可用于RNA聚合酶或其他系统,以了解功能和表型,特别是对于与疾病相关的突变体。我们还测试了在单个突变体上训练的基于序列的模型,用于预测双突变表型。该模型预测了相似类型表型的添加和相反类型表型的抑制,并预测了一些LOF-LOF双突变体(如H58Q-Q1085S)的致死表型,但无法预测先前观察到的GOF-GOF突变体组合的致死表型[1078]。通过双突变体训练,可以轻松改进预测,允许模型学习不同的双突变体效应。
最近的研究表明,MD模拟与ML算法的结合可以提供对蛋白质动力学,构象和动力学的见解[59,60,61,62,63]。在这些研究的激励下,我们使用MD模拟的距离数据来研究它们的预测性能。使用像RNA Pol II这样的大蛋白质存在计算局限性。因此,我们没有运行长时间的模拟,而是进行了多次相对较短的模拟,以深入了解突变的结构效应。令人惊讶的是,我们发现从这些MD轨迹获得的结构数据在ML框架中使用时无法增加对特定突变的功能表型的预测能力。鉴于这一发现,可以想象几个潜在的进展。首先,更长的时间,也许在μs尺度上,或者具有不同力场的更高质量的模拟可能会允许对突变机制进行更大的推断。其次,除了闭合TL结构之外,还需要使用具有开放TL的起始结构从模拟中获得额外的数据,并模拟TL从开放状态到闭合状态的转变,以提供更详细的结构,基于物理的输入,除了预测酶功能时已经编码在氨基酸序列差异中的内容。模拟从开放到闭合TL的转变在计算上是昂贵的,特别是对于大型突变体库,而这样的模拟可能会提供对突变体功能的更深入理解,并且将成为本研究的未来方向。我们之前发表的关于开放和封闭TL的研究表明,TL和BH残基的距离沿着从开放状态到封闭状态的转变而动态变化[12]。与闭合TL相比,一些TL-TL和TL-BH距离在开放TL中更大,而其他距离在开放TL或过渡态中显示的距离较小[12]。基于我们发表的研究[17]对开放和闭合状态模拟的其他分析表明,我们在机器学习分析中使用的大多数距离,特别是对于TL-GTP和TL-BH对,对于开放TL(S16图)更大,表明这些距离与闭合TL相关。值得注意的是,对于致死和LOF突变体,开放TL中较大的距离似乎也增加了(图6B),这表明致命和LOF突变体正在破坏封闭TL的稳定性。先前的研究还表明,与开放TL相比,一些TL残基对于闭合TL的总体距离很大。我们推测,这种TL残基,如E1103或1093,可能对开放TL状态产生影响,并且这些残基突变的表型可能对开放TL模拟而不是闭合TL具有结构结果。因此,在闭合TL状态下对此类残基的突变模拟可能无法提供有关其功能的相关信息,这可能是ML模型噪声结果的部分原因。
尽管MD数据存在局限性,但基于MD开发的VAE模型仍然可以为致命、LOF和GOF突变体的潜在结构基础提供机制见解。基于该分析,似乎致死/ LOF表型的一个子集(图6A和6B中的簇II)与突变相关,这些突变直接增加了活性位点中关键TL残基与GTP之间的距离,从而抑制了催化作用。所检查突变体的另一个致死/LOF表型亚群(图6A和6B中的簇III)似乎与TL-BH相互作用的破坏更相关。相比之下,一些GOF表型似乎是由TL附近的疏水口袋破坏引起的(图6F-6H和S15)。对于疏水性口袋受损,可能倾向于关闭TL,加速酶动力学,但代价可能是保真度降低。我们预计,TL外和疏水口袋(如V1352,V1355,I1356)残基上的突变(未在任何早期研究中进行测试)可能表现出GOF表型,并为该疏水口袋在实现GOF表型中的功能提供额外的见解。此外,我们观察到在GOF突变体的一个子集中增加了BH-TL距离(S14图中的簇III)。这些一般发现与以前的研究一致,但由于基于对大量TL突变的系统分析的更全面的分析,因此走得更远。尽管如此,还有更多的工作要做,以了解单个残基的特定突变和特定作用。进一步研究的一种途径可能是通过探索双突变体,这些突变体可以根据上述预测将非WT表型恢复为WT功能。
结论
在这项研究中,我们报告了使用 ML 技术对 RNA Pol II TL 残基突变进行全面表征,包括高通量遗传适应性数据、序列数据和 TL 残基突变的 MD 模拟。我们的研究表明,适应度数据和序列信息是相关的,因此从适应度值预测的表型可以通过序列信息学习,并且序列的预测超出了平均表型的简单预测模型。由于计算限制,我们的MD数据无法进行这样的预测。然而,MD数据可以提供对不同表型的一些机制理解。可能需要更长的模拟才能获得与基于序列的模型相当的预测模型。然而,RNA Pol II大型TL突变文库的μs级模拟仍然是一个主要的计算挑战。作为替代方案,可以开发从突变体序列预测结构细节的人工智能方法,并将其应用于RNA Pol II系统,作为未来的方向。
方法
根据健身数据预测连续表型
邱等人的Pol II TL适应度和表型景观方法.[32]基于深度突变扫描方法,本文将其应用于第二代TL突变文库[64]。简而言之,在不同的实验条件下生长突变体库。这些条件可检测突变体相对于WT(表型)的生长变化,这些变化可预测Pol II.生化缺陷[32]。表型表示为“适应性”分数,表示文库池中单个突变体的log2等位基因频率随时间的变化,相对于一系列实验应激条件相对于对照生长条件相对于WT等位基因频率变化。等位基因频率是通过相对于起始或对照条件生长后变异池的深度测序来确定的。测序允许定量确定文库中每个等位基因的频率。相对于对照组,在特定压力条件下比WT生长得更差的突变体将具有负适应度评分,而在特定压力条件下生长优于WT的突变体将具有正适应度评分。
TL突变体文库的构建之后,通过深度测序监测整体表型测定。这项工作将在其他地方详细描述,但对原始方法的关键更新如下。使用程序化寡核苷酸合成(安捷伦)合成了第二代TL突变体文库。从合成池中扩增文库寡核苷酸,并使用重叠PCR加入WT序列的同源臂。这些片段包括每侧~200 nt侧翼RPB1序列和编码WT Pol II TL(Rpb93氨基酸1-1076)或单个TL变体的中心1106-nt区域,与缺乏TL序列的RPB1质粒一起引入酵母中,并在三个重复中在TL位置线性化。这种协同转化允许通过间隙修复构建变异质粒库,与Qiu等人之前所做的完全相同。转化体以高密度(每块板~10,000个)接种,而不是像以前那样接种300-400个。从SC-Leu + 5FOA板上刮下5-FOA抗菌落,并重新铺在SC-Leu,SC-Leu + 20mg / ml MPA(费希尔科学),SC-Leu + 15 mM Mn(Sigma),YPRaff,YPRaffGal,SC-Lys和SC-Leu + 3%甲酰胺(JT Baker)板上进行表型分析。在规定的生长期后从每个表型板上刮取细胞,并使用Yeastar Genomic DNA试剂盒(Zymo)从每个筛选板中提取基因组DNA,并根据制造商的说明使用乳液PCR(EURx Micellula DNA乳液和纯化(ePCR)PCR试剂盒)进行扩增。在扩增过程中使用双索引策略将定制索引引物与使用28个NEB指数的引物配对,以区分各种筛选板。扩增的文库使用Illumina Next-seq进行测序,用于150nt单端读取。
来自总共 21 个条件的酵母 Pol II TL 变体的实验适应度数据,每个条件重复三个重复用于推导预测表型模型。缺失的适应度值是使用给定要素的平均值估算的。该模型基于连续的实值表型,其中先前分类的 GOF、LOF 和致死结果映射到 +1.0、-1.0 和 -2.0 的值,WT 映射到 0.0。针对先前研究中的已知表型对256个突变体进行了训练,该神经网络由具有128、64和17个节点的三个全连接层组成(S3A图)[21,32,83]。未导致明确 GOF、LOF 或致死结局的突变被视为 WT,连续表型值为 0.0。均方误差(MSE)用作损失函数。在基于分类突变进行训练后,根据所有TL突变体的实验适应度数据预测表型。
在变分自动编码器模型中进一步使用适应度数据,将表型映射到缩小的维空间中。编码器和解码器型号都有三层,分别具有 256、128 和 64 个节点(S17B 图)。使用了MSE在输入特征和生成的输出值之间的损失函数。对于潜在空间的正则化,应用了由Kingma和Welling定义的潜在空间分布和标准正态分布之间的Kullback-Leibler(KL)发散[49]。具有 2D 和 3D 潜在空间的生成模型的性能相似(S1 图)。所有适应度数据、预测表型和潜在空间坐标都汇总在 S1 电子表格中。
MD 模拟
将WT RNA Pol II结构作为起点存入蛋白质数据库,PDB ID:2E2H [4]。使用MODELLER版本9.15对氨基酸少于65个的环的缺失残基进行建模[1085]。Rbp1 18处的组氨酸是基于Huang等人的研究而质子化的[10]。该系统在一个立方体盒中溶解,盒边缘与RNA-Pol II复合物的任何原子之间的截止距离为162 ?,导致总盒大小为10 ?。然后用Na离子中和系统。将周期性边界条件与粒子-网格Ewald算法一起用于计算长程静电相互作用。伦纳德-琼斯的互动从12 ?切换到36 ?。SHAKE算法用于约束涉及氢原子的键长。CHARMM 66m力场[36]用于蛋白质,CHARMM 67力场[3]用于核酸。TIP68P模型[69]用于明确的水分子,最近建议的磷酸钠相互作用的NBFIX被应用[3]。修改力场以重新分配附着在氢原子上的原子的原子质量,因此氢原子的质量增加了1 a.m.u而不是70 [4]。此修改允许我们使用 <> fs 时间步长执行模拟。++
WT系统经过了5,000步的能量最小化。然后将温度从1 K逐渐升高到6 K,并对主链和侧链的重原子施加力常数为100和300 kJ/mol/nm的约束,使系统平衡约400.40 ns。2分别。平衡的Pol II复合物用于制备单位点TL突变体。总共准备了 135 个突变体(参见 S2 电子表格)。使用与WT相同的最小化方案再次最小化每个突变体系统,并额外平衡1 ns。然后使用摩擦系数为0.01 ps的朗格文动力学进行生产模拟-1在 298 K 的恒定温度下,使用 OPENMM [71] 在 GPU 硬件上运行模拟。对每个突变体进行100 ns生产运行三次重复,生产运行的最后50 ns用于分析。总共生成了40.5 μs的突变体模拟。
MD模拟的分析是使用MMTSB软件包[72]结合内部脚本完成的。分析残基之间的最小距离,并根据三个重复模拟的距离组合分布计算平均距离。疏水口袋的距离计算为残基I837,L841,A1076,M10079,G1097,L1101,V1352,V1355,I1356之间的最小成对距离。如果两个残基在6 ?的距离内,则认为它们在接触。所有触点的距离和数量均在补充表 2 中提供。疏水口袋的溶剂可及表面积使用探头半径为1.4 ?的MMTSB封装计算。RMSD是针对所有突变体的TL和BH区域计算的,分别显示在S18和S19图中。
使用序列和 MD 数据的表型预测模型
对于基于TL氨基酸序列预测表型的模型,序列数据被转换为one-hot编码稀疏矩阵,其中每个特征都是一个21大小的载体,代表序列上的单个氨基酸。组氨酸被编码为质子化或去质子化,以使模型能够在残基1085处区分质子化的组氨酸。基于一热编码序列的特征,即二维矩阵(31x21),用作具有三个全连接层的神经网络的输入,这些层分别在二维矩阵(128x64、32x31、128x31)中分别具有64、31和32个节点。将32节点的第三层展平两个大小为992的一维向量,并在单值输出层之前穿过另一层具有32个节点的层(S17A图)。
对于训练以基于MD数据预测表型的模型,从模拟轨迹中提取涉及TL和相邻元素的关键残基之间的成对距离并取平均值。S2 电子表格中提供了模型中使用的距离列表。使用具有三个完全连接层的神经网络,分别具有 128、64 和 32 个节点作为基于序列的预测因子。为了强调突变对结构不同部分的影响,我们还测试了另一个模型,该模型具有128和64节点层,这些层通过注意层[73]连接到输出层(S17A图)。注意力是一种更复杂的机器学习模型,它可以学习专注于数据中信息量最大的部分,并淡出作为输入数据函数不太重要的其他部分。注意力层是为最后一个具有 64 个节点的隐藏层生成的,该隐藏层用作自我注意框架的查询、键和值向量。新值是通过值的乘法以及查询和关键向量之间相似性的加权和来计算的。
通过MD模拟检查的突变体用于序列和MD预测模型,以比较神经网络模型的性能。突变体被分成十个训练集和测试集,分别随机选择100个和35个突变体。将均方误差(MSE)和KL散度的损失函数1:1组合应用于具有序列和MD数据的预测模型。KL背离的分析计算如下:
(1)
模型权重和偏差每 500 个 epoch 保存一次,训练一直持续到最多 20,000 个 epoch。对于每个集合,生成十个不同的模型,并每隔一段时间从保存的模型中选择最佳模型,以提供 R 的最佳组合2测试集的预测和标签表型之间的回归线的相关性和斜率。模型的整体性能是通过集合中最佳模型的平均性能计算的,用于比较序列或MD数据中的不同模型。使用基于序列的模型生成完整的表型景观,该模型基于集合最佳模型预测的集合平均值。
还结合了基于MD数据和序列的模型,以查看当使用两个数据作为输入特征时,预测是否有任何改进。数据以两种不同的方式组合:首先,我们采用预先训练的序列模型,并添加要训练的基于MD的模型,以便在生成输出之前向序列模型的最后一层添加额外的输入。其次,我们使用预先训练的MD模型并添加序列模型并连接两个模型的最后一层以生成最终输出。在每种情况下,我们冻结了预先训练的权重,以测试额外的输入特征是否可以改善预测。
基于MD数据的变分自动编码器模型
基于MD数据生成变分自动编码器模型,以便从仿真中提取机理见解。编码器和解码器网络都由三个全连接层组成,分别具有 128、64 和 32 个节点。我们应用了一个不对称的VAE模型,在该模型中,在编码器和解码器具有32个节点的层之后应用注意力层(S17B图)。与没有注意力的模型相比,注意力层有助于模型更好地将相似的表型分组在一起(S20图)。我们尝试了2D和3D潜在空间。具有3D潜在空间的生成模型的性能与具有2D潜在空间的模型相似(S21图)。因此,我们利用二维潜空间对模型进行了进一步分析。然后通过Kmeans聚类算法对得到的降维潜在空间进行聚类,因为它提供了比其他聚类算法更好的视觉分离(S2图)。三个簇提供了簇间平均表型的最佳分离(S22图)。因此,我们将潜在空间分为三个集群。随后使用簇质心通过解码器网络为每个簇生成具有代表性的分子状态。
机器学习详细信息和软件
所有 ML 模型都是使用 Tensorflow 包生成的 [74]。这些模型在S17图中总结为图表。用于训练模型和从训练的模型进行预测的 Python 脚本以及训练模型的权重和模型的输入文件可在 https://github.com/bercemd/PolII-mutants 中找到。数据插补,Kmeans聚类和主成分分析(PCA)是使用Python中的Sklearn模块执行的[75]。亚当优化器用于所有模型。学习率和周期数根据S1表中汇总的模型而变化。应用不同的学习率来防止不稳定的训练,但在合理的训练时间内实现收敛到最小的损失(S24-S26图)。除具有KL散度损失的预测模型外,所有模型均使用批次大小4,其中批量大小为100用于计算完整训练集的损失。整流线性单元(ReLU)激活函数用于预测和VAE模型的每个隐藏层,但注意力层除外,其中使用了Softmax激活函数。
支持信息
S1 图——
显示 1/30: pcbi.1010999.s001.tif
跳到无花果共享导航
很抱歉,我们无法加载您的数据。
1 / 30
下载
无花果分享
S1 图
使用健身数据作为输入的VAE模型的3D(左)和2D(右)潜在空间(顶部)和生成性能(底部)突变体分布。
https://doi.org/10.1371/journal.pcbi.1010999.s001
(提夫)
S2 图 对适应度数据进行主成分分析 (PCA),每个数据点根据其相应的表型进行着色。
https://doi.org/10.1371/journal.pcbi.1010999.s002
(提夫)
S3 图 基于适应度数据的无监督VAE模型的潜在空间。
每个数据点都根据其相应的表型进行着色,具有透明度,但选定的突变体除外,这些突变体为清晰起见而着色而不透明。显示了边界处的 GOF 突变体和 LOF/致命突变体。还显示了E1103G在潜在空间中的位置,因为它的双突变体与边界处的GOF突变体会导致致死。
https://doi.org/10.1371/journal.pcbi.1010999.s003
(提夫)
S4 图 模型训练期间的训练和测试损失。
模型使用来自序列数据(序列)、没有注意力层的 MD 数据(MD wo 注意力)、具有注意力层的 MD 数据(MD w 注意力)、具有预训练序列权重的 MD 和序列数据(MD 预训练序列)和预训练 MD 权重(序列预训练 MD)的输入特征进行训练。
https://doi.org/10.1371/journal.pcbi.1010999.s004
(提夫)
S5 图 不同模型训练集的预测和标签表型之间的相关性。
模型详细信息如S2图所示。
https://doi.org/10.1371/journal.pcbi.1010999.s005
(提夫)
S6 图 不同模型的测试集的预测和标签表型之间的相关性。
模型详细信息如S2图所示。
https://doi.org/10.1371/journal.pcbi.1010999.s006
(提夫)
S7 图 根据序列和适应度预测的表型的差异图。
Y 轴显示适应度和序列数据中表型差异的绝对值,X 轴显示适应度数据中的表型。将显示差值大于 1.25 的异常值。
https://doi.org/10.1371/journal.pcbi.1010999.s007
(提夫)
S8 图 从训练集的每个突变体的平均表型预测表型。
(A)从平均值预测的表型与来自适应度和线性回归线的表型(B)来自训练集的平均表型显示在完整的突变图谱中。
https://doi.org/10.1371/journal.pcbi.1010999.s008
(提夫)
S9 图 使用基于序列的 ML 模型分析双突变体的表型预测。
(A)预测表型(P预测)与加性表型(P添加剂)计算为单个突变体的预测表型之和,(B)P之间的差异变化预测和 P添加剂关于突变位点之间的空间距离。在引入第二个突变位点(E1103G,G1097D,F1084I或Q1078S)之前,每个点都用单个表型着色。
https://doi.org/10.1371/journal.pcbi.1010999.s009
(提夫)
S10 图
五组距离的表型与平均距离的热图图,即 1) GTP 和 MG/RNA/DNA、2) GTP 和 TL 残基、3) BH 和 BH 残基、4) BH 和 TL 残基以及 5) MD 模拟突变体的 TL 和 TL 残基之间的距离。
https://doi.org/10.1371/journal.pcbi.1010999.s010
(提夫)
S11 图 基于线性回归R的MD数据表型预测性能2相关系数。
使用来自MD数据的不同输入生成了八个模型,这些输入是活动位点附近的五组距离(见图4),TL主干二面角,距离和二面角的组合以及通过排除每个模型的一组距离值的距离。
https://doi.org/10.1371/journal.pcbi.1010999.s011
(提夫)
S12 图 突变体模拟中K830和V1094之间的平均距离与突变氨基酸位点到WT结构中BH的最小距离。
每个面板都显示了在MD-VAE潜在空间中找到的每个集群成员的图。虚线表示WT结构中K830和V1094的距离。
https://doi.org/10.1371/journal.pcbi.1010999.s012
(提夫)
S13 图 来自VAE潜在空间的选定集群成员的L1081和GTP、H1085和GTP以及K830和V1094之间的距离分布。
突变体在图例中给出,括号中为连续体表型。
https://doi.org/10.1371/journal.pcbi.1010999.s013
(提夫)
S14 图 来自VAE潜在空间的簇的选定GOF突变体的D826和V1094、K830和V1094以及G819和G1088之间的距离分布。
突变体在图例中给出,括号中为连续体表型。
https://doi.org/10.1371/journal.pcbi.1010999.s014
(提夫)
S15 图 分析由残基I837,L841,A1076,M1079,G1097,L1101,V1352,V1355,I1356形成的疏水口袋。
(A)疏水口袋处的接触次数与表型。(B)疏水口袋内的表面积与表型。
https://doi.org/10.1371/journal.pcbi.1010999.s015
(提夫)
S16 图 与WT Pol II的开放式和闭式TL仿真的距离。
通过分析早期研究中发表的模拟来计算距离。
https://doi.org/10.1371/journal.pcbi.1010999.s016
(提夫)
S17 图 神经网络模型的示意图。
(A)用于预测连续表型的模型根据输入具有交替层:对于以适应度评分为输入的模型,使用三个密集层。对于以MD数据为输入的模型,使用3个密集层或2个密集层和一个注意力层。对于以氨基酸序列为输入的模型,第三致密层的二维矩阵被展平并穿过另一个致密层。(B)将VAE模型作为编码器和解码器模型上的三个密集层应用于适应度评分。它被应用于MD数据,并在编码器和解码器上增加了额外的注意层。
https://doi.org/10.1371/journal.pcbi.1010999.s017
(提夫)
S18 图 135 个突变体的 TL 残基的 RMSD 值。
来自三个重复模拟的RMSD值用不同的颜色表示。TL的RMSD没有太大变化,表明TL在模拟时间尺度内保留了突变体的整体构象。
https://doi.org/10.1371/journal.pcbi.1010999.s018
(提夫)
S19 图 135 个突变体的 BH 残基的 RMSD 值。
来自三个重复模拟的RMSD值用不同的颜色表示。BH的RMSD没有太大的变化,表明BH在模拟时间尺度内保留了突变体的整体构象。
https://doi.org/10.1371/journal.pcbi.1010999.s019
(提夫)
S20 图 使用MD数据作为输入的VAE在有和没有注意层的潜在空间上突变体的分布。
https://doi.org/10.1371/journal.pcbi.1010999.s020
(提夫)
S21 图
使用MD数据作为输入的VAE模型的3D(左)和2D(右)潜在空间(上)和生成性能(下)突变体分布。
https://doi.org/10.1371/journal.pcbi.1010999.s021
(提夫)
S22 图 使用不同的聚类算法对MD数据的VAE潜在空间进行聚类。
每个簇都以从白色到不同深浅的灰色的颜色显示;突变体分散,并用相应的表型进行颜色编码。
https://doi.org/10.1371/journal.pcbi.1010999.s022
(提夫)
S23 图 使用Kmeans聚类算法对MD数据的VAE潜在空间进行聚类,包括三个、四个和五个聚类。
每个簇都以从白色到不同深浅的灰色的颜色显示;突变体分散,并用相应的表型进行颜色编码;在每个簇上显示突变体的平均表型。
https://doi.org/10.1371/journal.pcbi.1010999.s023
(提夫)
S24 图 使用适应度数据作为特征的VAE模型的三个重复,在不同的学习率下。
型号有 10?6学习率不收敛。型号有 10?3学习率往往停留在局部最小损失。型号有 10?4和 10?5学习率提供了类似的潜在空间,没有任何收敛问题,因此学习率为10?4用于基于健身的模型。
https://doi.org/10.1371/journal.pcbi.1010999.s024
(提夫)
S25 图 使用MD数据作为特征的VAE模型的三个重复,具有不同的学习率。
S20 Fig也观察到了相同的趋势。学习率为 10?4提供了表型的最直观分离,因此它被用于MD数据模型。
https://doi.org/10.1371/journal.pcbi.1010999.s025
(提夫)
S26 图 使用序列数据作为不同学习率的特征的预测模型的三个重复。
学习率为 10?5为测试集提供了最小的损失,因此它被用于序列模型。
https://doi.org/10.1371/journal.pcbi.1010999.s026
(提夫)
S1 表。 深度学习模型摘要。
https://doi.org/10.1371/journal.pcbi.1010999.s027
(文档)
S2 表。 使用MD数据对VAE模型获得的集群进行统计分析。
通过假设两个总体具有不同的方差来进行 T 检验。簇 I、II 和 III 对应于图 6A 所示的簇。
https://doi.org/10.1371/journal.pcbi.1010999.s028
(文档)
S1 电子表格。 适应度分数、预测表型和潜在空间坐标。
https://doi.org/10.1371/journal.pcbi.1010999.s029
(三十)
S2 电子表格。 距离分析结果,以及来自MD模拟的距离输入要素的潜在空间坐标。
https://doi.org/10.1371/journal.pcbi.1010999.s030
(三十)
确认
我们感谢吉列尔莫·卡莱罗的有益讨论。我们在密歇根州立大学的网络研究/高性能计算集群研究所(ICER/HPCC)和美国国家科学基金会的极端科学与工程发现环境(XSEDE)设施中使用了计算资源。
引用
1米转录的结构基础:2.8 埃 ngstrom 分辨率的 RNA 聚合酶 II。科学。2001;292(5523):1863–76.
查看文章谷歌学术搜索
2米Gnatt AL,Cramer P,Fu JH,Bushnell DA,Kornberg RD.转录的结构基础:3.3埃分辨率的RNA聚合酶II伸长复合物。科学。2001;292(5523):1876–82.
查看文章谷歌学术搜索
3米卡普兰光盘。酿酒酵母RNA聚合酶II活性的基本机制和基因表达的改变。Bba基因调控机械. 2013;1829(1):39–54.密码:23022618
查看文章PubMed/NCBI谷歌学术搜索
4米Wang D, Bushnell DA, Westover KD, Kaplan CD, Kornberg RD. 转录的结构基础:触发环在底物特异性和催化中的作用。细胞。2006;127(5):941–54.pmid:17129781
查看文章PubMed/NCBI谷歌学术搜索
5米费格·具有开放和闭合触发环的RNA聚合酶II:活性位点动力学和核酸易位。生物物理学报 2010;99(8):2577–86.密码:20959099
查看文章PubMed/NCBI谷歌学术搜索
6米乌纳塔, 朱林忠, 谢长江, 张佩, 于杰, 黄晓华.通过动力学网络模型阐明RNA聚合酶II转录伸长率的分子机制。Curr Opin Struc Biol. 2018;49:54–62.pmid:29414512
查看文章PubMed/NCBI谷歌学术搜索
7米王BB, 费格 M, 库基尔 RI, 伯顿 ZF.用于分析多亚基RNA聚合酶的计算模拟策略。化学修订版 2013;113(11):8546–66.密码:23987500
查看文章PubMed/NCBI谷歌学术搜索
8米张磊, 帕尔多-阿维拉, 乌纳塔, 张禄华, 王刚, 王丹, 等.使用动力学网络模型阐明RNA聚合酶II转录伸长的动力学。会计化学研究 2016;49(4):687–94.密码:26991064
查看文章PubMed/NCBI谷歌学术搜索
9米科恩贝格路。真核转录的分子基础。美国国家科学院。2007;104(32):12955–61.
查看文章谷歌学术搜索
10米Malinen AM,Turtola M,Parthiban M,Vainonen L,Johnson MS,Belogurov GA.活性位点打开和关闭控制多亚基RNA聚合酶的易位。核酸研究 2012;40(15):7442–51.密码:22570421
查看文章PubMed/NCBI谷歌学术搜索
11米Vassylyev DG, Vassylyeva MN, Zhang JW, Palangat M, Artsimovitch I, Landick R. 细菌RNA聚合酶中底物负载的结构基础。自然界。2007;448(7150):163–8.密码:17581591
查看文章PubMed/NCBI谷歌学术搜索
12米Wang BB, Predeus AV, Burton ZF, Feig M. RNA聚合酶II中触发环闭合转变的能量和结构细节。生物物理学报 2013;105(3):767–75.密码:23931324
查看文章PubMed/NCBI谷歌学术搜索
13米马祖姆德 A, 林 MX, 卡帕尼迪斯 安, 埃布赖特 RH.关闭和打开RNA聚合酶触发环。美国国家科学院。2020;117(27):15642–9.密码:32571927
查看文章PubMed/NCBI谷歌学术搜索
14米张建明, 克莱默·RNA聚合酶II转录的电影。细胞。2012;149(7):1431–7.密码:22726432
查看文章PubMed/NCBI谷歌学术搜索
15米Kaplan CD, Larsson KM, Kornberg RD.RNA聚合酶II触发环在底物选择中起作用,并直接被α-金刚烷素靶向。摩尔细胞。2008;30(5):547–56.密码:18538653
查看文章PubMed/NCBI谷歌学术搜索
16米Larson MH, Zhou J, Kaplan CD, Palangat M, Kornberg RD, Landick R, et al.触发环动力学介导RNA聚合酶II的转录保真度和速度之间的平衡。美国国家科学院。2012;109(17):6555–60.密码:22493230
查看文章PubMed/NCBI谷歌学术搜索
17米Wang BB, Opron K, Burton ZF, Cukier RI, Feig M. 五个检查点在结构和能量细节上保持RNA聚合酶转录的保真度。核酸研究 2015;43(2):1133–46.邮编:25550432
查看文章PubMed/NCBI谷歌学术搜索
18米Huang XH, Wang D, Weiss DR, Bushnell DA, Kornberg RD, Levitt M. RNA 聚合酶 II 触发环残基稳定并定位转录中传入的三磷酸核苷酸。美国国家科学院。2010;107(36):15745–50.密码:20798057
查看文章PubMed/NCBI谷歌学术搜索
19米Mishanina TV,Palo MZ,Nayak D,Mooney RA,Landick R.RNA聚合酶的触发环是转录和校对的位置催化剂,而不是酸碱催化剂。美国国家科学院。2017;114(26):E5103–E12.
查看文章谷歌学术搜索
20米Braberg H, Jin HY, Moehle EA, Chan YJA, Wang SY, Shales M, et al.从结构到系统:RNA聚合酶II的高分辨率定量遗传分析。细胞。2013;154(4):775–88.密码:23932120
查看文章PubMed/NCBI谷歌学术搜索
21米Kaplan CD, Jin HY, Zhang IL, Belyanin A. Pol II触发环路功能的剖析和体内起始位点选择的Pol II活性依赖性控制。普洛斯热内。2012;8(4):172–88.密码:22511879
查看文章PubMed/NCBI谷歌学术搜索
22米图洛霍诺夫一世, 张建伟, 帕兰加特, 兰迪克·RNA聚合酶触发环在转录暂停期间活性位点重排中的核心作用。摩尔细胞。2007;27(3):406–19.密码:17679091
查看文章PubMed/NCBI谷歌学术搜索
23米张JW,帕兰加特M,兰迪克R.RNA聚合酶触发环在催化和暂停中的作用。分子生物学. 2010;17(1):99–104.pmid:19966797
查看文章PubMed/NCBI谷歌学术搜索
24米Cheung ACM, Cramer P. RNA聚合酶II回溯,阻滞和再激活的结构基础。自然界。2011;471(7337):249–53.pmid:21346759
查看文章PubMed/NCBI谷歌学术搜索
25米Wang D, Bushnell DA, Huang XH, Westover KD, Levitt M, Kornberg RD. 转录的结构基础:3.4 埃分辨率的回溯 RNA 聚合酶 II。科学。2009;324(5931):1203–6.
查看文章谷歌学术搜索
26米基里娃 ML, 涅迪亚科夫 YA, 克雷莫纳 GH, 普尔托夫 YA, 卢布科夫斯卡 L, 马拉贡 F, 等.RNA聚合酶II活性位点闭合的瞬时逆转控制转录伸长的保真度。摩尔细胞。2008;30(5):557–66.密码:18538654
查看文章PubMed/NCBI谷歌学术搜索
27米席尔瓦, 韦斯, 阿维拉, 达 LT, 莱维特 M, 王 D, 等.原子分辨率下RNA聚合酶II易位的毫秒动力学。美国国家科学院。2014;111(21):7665–70.pmid:24753580
查看文章PubMed/NCBI谷歌学术搜索
28米Temiakov D, Zenkin N, Vassylyeva MN, Perederina A, Tahirov TH, Kashkina E, et al.抗生素链球菌苷抑制转录的结构基础。摩尔细胞。2005;19(5):655–66.密码:16167380
查看文章PubMed/NCBI谷歌学术搜索
29米尤岑科娃 Y, 博奇卡列娃 A, 塔迪戈特拉 VR, 罗加尼安 M, 佐罗夫 S, 塞韦里诺夫 K, 等.转录保真度的逐步机制。BMC 生物学. 2010;8:54.密码:20459653
查看文章PubMed/NCBI谷歌学术搜索
30米Barnes CO, Calero M, Malik I, Graham BW, Spahr H, Lin GW, et al. 转录RNA聚合酶II复合物的晶体结构揭示了一个完整的转录气泡。摩尔细胞。2015;59(2):258–69.密码:26186291
查看文章PubMed/NCBI谷歌学术搜索
31米Cheung ACM, Sainsbury S, Cramer P. 初始RNA聚合酶II转录的结构基础。恩博杂志 2011;30(23):4755–63.密码:22056778
查看文章PubMed/NCBI谷歌学术搜索
32米邱CX, Erinne OC, Dave JM, Cui P, Jin HY, Muthukrishnan N, et al. RNA聚合酶II触发环的高分辨率表型景观。普洛斯热内。2016;12(11):e1006321.密码:27898685
查看文章PubMed/NCBI谷歌学术搜索
33米科德罗-莫拉莱斯 JF, 乔吉尼五世, 刘易斯 A, 巴斯克斯五世, 科尔特斯 DM, 鲁克斯 B, 等.分子驱动力决定钾通道缓慢失活。分子生物学. 2007;14(11):1062–9.密码:17922012
查看文章PubMed/NCBI谷歌学术搜索
34米瓦德希 N, 格里斯哈默 R, 泰特 CG.突变如何热稳定G蛋白偶联受体?趋势药理科学 2016;37(1):37–46.密码:26547284
查看文章PubMed/NCBI谷歌学术搜索
35米将结构建模与集成机器学习相结合,以准确预测突变时蛋白质折叠稳定性和结合亲和力效应。普洛斯一号。2014;9(9):e107353.密码:25243403
查看文章PubMed/NCBI谷歌学术搜索
36米潘科蒂 C, 贝内文努塔 S, 雷佩托 V, 比罗洛 G, 卡普里奥蒂 E, 萨纳维亚 T, 等.一种基于深度学习序列的方法,用于预测遗传变异时蛋白质稳定性的变化。基因-巴塞尔。2021;12(6):911.密码:34204764
查看文章PubMed/NCBI谷歌学术搜索
37米耿立, 万戈 A, 葛福克斯, 薛 LC, 邦万 AMJJ.iSEE:界面结构、进化和基于能量的机器学习预测因子,可预测突变时结合亲和力变化。蛋白质。2019;87(2):110–9.密码:30417935
查看文章PubMed/NCBI谷歌学术搜索
38米孙桐, 陈玉彤, 温玉华, 朱泽峰, 李敏.PremPLI:一种机器学习模型,用于预测错义突变对蛋白质-配体相互作用的影响。生物学杂志, 2021;4(1):1311.密码:34799678
查看文章PubMed/NCBI谷歌学术搜索
39米基于分子动力学模拟和机器学习方法预测突变对蛋白质-配体结合亲和力的影响.计算机结构生物技术。2020;18:439–54.密码:32153730
查看文章PubMed/NCBI谷歌学术搜索
40米Kim HY, Kim D. 使用深度时间卷积网络预测突变效应。生物信息学。2020;36(7):2047–52.密码:31746978
查看文章PubMed/NCBI谷歌学术搜索
41米吴Z,菅SBJ,刘易斯RD,维特曼BJ,阿诺德FH。机器学习辅助的定向蛋白质进化与组合文库。美国国家科学院。2019;116(18):8852–8.
查看文章谷歌学术搜索
42米Pagel KA, Pejaver V, Lin GN, Nam HJ, Mort M, Cooper DN, et al.当功能丧失是功能丧失时:评估功能丧失遗传变异的突变特征和影响。生物信息学。2017;33(14):I389–I98.密码:28882004
查看文章PubMed/NCBI谷歌学术搜索
43米里塞尔曼AJ,英格拉姆JB,马克斯·遗传变异的深层生成模型捕捉了突变的影响。纳特方法。2018;15(10):816–22.密码:30250057
查看文章PubMed/NCBI谷歌学术搜索
44米西奈 S, 凯尔西奇 E, CG M., 诺瓦克·马.蛋白质序列的变分自动编码。arXiv:1712.03346v32018.
查看文章谷歌学术搜索
45米Brueckner F,Cramer P.α-鹅膏菌素抑制转录的结构基础及其对RNA聚合酶II易位的影响。分子生物学. 2008;15(8):811–8.pmid:18552824
查看文章PubMed/NCBI谷歌学术搜索
46米卡巴特 P, 金海, 李 LT, 卡普兰 CD.RNA聚合酶II触发环的激活和再激活,用于内在RNA切割和催化。转录。2014;5(3):e28869.密码:25764335
查看文章PubMed/NCBI谷歌学术搜索
47米痛风JF, 李怀, 弗里奇 C, 李 A, 哈龙 S, 辛格 L, 等.真核细胞转录错误的景观。科学与进展 2017;3(10):e1701484.pmid:29062891
查看文章PubMed/NCBI谷歌学术搜索
48米Irvin JD, Kireeva ML, Gotte DR, Shafer BK, Huang I, Kashlev M, et al.转录错误的遗传测定揭示了RNA聚合酶II保真度的多层控制。普洛斯热内。2014;10(9): e1004532.密码:25232834
查看文章PubMed/NCBI谷歌学术搜索
49米Kingma DP, Welling M. Auto-Encoding Variational Bayes.arXiv:1312.6114v112014.
查看文章谷歌学术搜索
50米Baek M, DiMaio F, Anishchenko I, Dauparas J, Ovchinnikov S, Lee GR, et al.使用三轨神经网络准确预测蛋白质结构和相互作用。科学。2021;373(6557):871–6.密码:34282049
查看文章PubMed/NCBI谷歌学术搜索
51米Jumper J, Evans R, Pritzel A, Green T, Figurnov M, Ronneberger O, et al.使用 AlphaFold 进行高度准确的蛋白质结构预测。自然界。2021;596(7873):583–9.pmid:34265844
查看文章PubMed/NCBI谷歌学术搜索
52米Noe F,De Fabritiis G,Clementi C.蛋白质折叠和动力学的机器学习。当代生物学杂志. 2020;60:77–84.密码:31881449
查看文章PubMed/NCBI谷歌学术搜索
53米高级AW, 埃文斯 R, 跳线 J, 柯克帕特里克 J, 西弗尔 L, 格林 T, 等.利用深度学习的潜力改进蛋白质结构预测。自然界。2020;577(7792):706–10.密码:31942072
查看文章PubMed/NCBI谷歌学术搜索
54米Yang JY, Anishchenko I, Park H, Peng ZL, Ovchinnikov S, Baker D. 使用预测的残基间取向改进蛋白质结构预测。美国国家科学院。2020;117(3):1496–503.pmid:31896580
查看文章PubMed/NCBI谷歌学术搜索
55米Bonetta R,Valentino G.用于蛋白质功能预测的机器学习技术。蛋白质。2020;88(3):397–413.密码:31603244
查看文章PubMed/NCBI谷歌学术搜索
56米Radivojac P, Clark WT, Oron TR, Schnoes AM, Wittkop T, Sokolov A, et al.计算蛋白功能预测的大规模评估。纳特方法。2013;10(3):221–7.密码:23353650
查看文章PubMed/NCBI谷歌学术搜索
57米Rifaioglu AS,Dogan T,Martin MJ,Cetin-Atalay R,Atalay V. DEEPred:使用多任务前馈深度神经网络进行自动蛋白质功能预测。科学代表-英国。2019;9:7344.
查看文章谷歌学术搜索
58米Jia L, Yarlagadda R, Reed CC. 基于结构的蛋白质单点突变热稳定性预测模型与机器学习工具.普洛斯一号。2015;10(9):e0138022.密码:26361227
查看文章PubMed/NCBI谷歌学术搜索
59米W C.,Noe F.时滞自动编码器:分子动力学慢集体变量的深度学习。化学物理学报.2018;148:241703.密码:29960344
查看文章PubMed/NCBI谷歌学术搜索
60米耦合分子动力学和深度学习来挖掘蛋白质构象空间。结构。2019;27(6):1034–40.密码:31031199
查看文章PubMed/NCBI谷歌学术搜索
61米Fleetwood O,Kasimova MA,Westerlund AM,Delemotte L. Molecular Insights from Conformational Ensembles via Machine Learning。生物物理学杂志 2020;118(3):765–80.密码:31952811
查看文章PubMed/NCBI谷歌学术搜索
62米Mardt A L. P, Noe F. VAMPnets 用于分子动力学深度学习。自然通讯.2018;9:5.密码:29295994
查看文章PubMed/NCBI谷歌学术搜索
63米Ward MD, Zimmerman MI, Meller A, Chung M, Swamidass SJ, Bowman GR. 通过比较结构集成与 DiffNet 来深度学习蛋白质生化特性的结构决定因素。自然通讯.2021;12(1):3023.密码:34021153
查看文章PubMed/NCBI谷歌学术搜索
64米段斌, 邱春, 施世华, 卡普兰.广泛的上位形成RNA聚合酶II活性位点的功能和进化。bioRxiv:2023.02.27.5300482023.密码:36909581
查看文章PubMed/NCBI谷歌学术搜索
65米Fiser A,Do RKG,Sali A.蛋白质结构中环的建模。蛋白质科学 2000;9(9):1753–73.pmid:11045621
查看文章PubMed/NCBI谷歌学术搜索
66米Huang J, Rauscher S, Nawrocki G, Ran T, Feig M, de Groot BL, et al. CHARMM36m:折叠和固有无序蛋白质的改进力场。纳特方法。2017;14(1):71–3.密码:27819658
查看文章PubMed/NCBI谷歌学术搜索
67米Best RB, Zhu X, Shim J, Lopes PEM, Mittal J, Feig M, et al.添加剂CHARMM全原子蛋白力场的优化,靶向改进了主链phi,psi和侧链chi(1)和chi(2)二面角的采样。J 化学理论计算。2012;8(9):3257–73.
查看文章谷歌学术搜索
68米Jorgensen WL, Chandrasekhar J, Madura JD, Impey RW, Klein ML. 模拟液态水的简单势函数的比较。化学物理学报.1983;79(2):926–35.
查看文章谷歌学术搜索
69米Yoo JJ,Aksimentiev A.改进了Li+,Na+,K +和Mg2+离子的参数化,用于核酸系统的全原子分子动力学模拟。物理化学学报. 2012;3(1):45–50.
查看文章谷歌学术搜索
70米霍普金斯CW,勒大S,沃克RC,罗伊特伯格AE。通过氢质量重分配的长时间步分子动力学。J 化学理论计算。2015;11(4):1864–74.密码:26574392
查看文章PubMed/NCBI谷歌学术搜索
71米Eastman P, Friedrichs MS, Chodera JD, Radmer RJ, Bruns CM, Ku JP, et al.OpenMM 4:一个可重用、可扩展、独立于硬件的库,用于高性能分子模拟。J 化学理论计算。2013;9(1):461–9.密码:23316124
查看文章PubMed/NCBI谷歌学术搜索
72米MMTSB工具集:结构生物学应用的增强采样和多尺度建模方法。J摩尔图模型。2004;22(5):377–95.密码:15099834
查看文章PubMed/NCBI谷歌学术搜索
73米龙明涛, 范汉, 曼宁 CD.基于注意力的神经机器翻译的有效方法。arXiv:1508.040252015.
查看文章谷歌学术搜索
74米Abadi M, Agarwal A, Barham P, Brevdo E, Chen Z, Citro C, et al. TensorFlow: Large-Scale Machine Learning on Heterogeneous Distributed Systems.arXiv:1603.04467v22016.
查看文章谷歌学术搜索
75米Pedregosa F, Varoquaux G, Gramfort A, Michel V, Thirion B, Grisel O, et al. Scikit-learn: Machine Learning in Python.J Mach Learn Res. 2011;12:2825–30.
查看文章谷歌学术搜索