《深度学习允许从结构特征中预测Michaelis常数的基因组规模。--医学论文发表投稿》期刊简介
深度学习允许从结构特征中预测Michaelis常数的基因组规模。--医学论文发表投稿
· 亚历山大·克罗尔
· 马丁·M·恩奎斯特
· 戴维·赫克曼,
· 马丁·勒
· 发表日期:2021年10月19日
摘要
米氏常数KM描述酶与特定底物的亲和力,是酶动力学和细胞生理学研究的中心参数。作为对.的测量KM往往是困难和耗时,实验估计只有少数酶底物组合,甚至在模型生物。在这里,我们建立并训练了一个独立于有机体的模型,它成功地预测了。KM使用机器和深度学习方法的天然酶-底物组合的价值。预测是基于由神经网络生成的底物的特定任务的分子指纹,以及对酶的氨基酸序列的深度数字表示。我们提供基因组规模KM对47种模式生物体的预测,可用于将代谢物浓度与细胞生理学近似联系起来,并有助于细胞代谢动力学模型的参数化。
引用:Kroll A,EngqvisMKM,Heckmann D,Lercher MJ(2021)深度学习允许从结构特征预测米氏常数。PLOS Biol 19(10):E 3001402。Https://doi.org/10.1371/journal.pbio.3001402
学术编辑:Jason W.Locasale,美国杜克大学
收到:2020年12月11日;接受:2021年8月26日;出版:2021年10月19日
版权:2021年Kroll等人这是一篇以CreativeCommonsAttribution许可证,允许在任何介质中不受限制地使用、分发和复制,只要原始作者和源被记入帐户。
数据可得性:生成的所有数据集和用于生成结果的Python代码(在木星笔记本中)都可以从Https://github.com/AlexanderKroll/KM_prediction.
供资:这项工作是由大众汽车基金会(在“生活?”)向M.J.L.提供资助的。计划)和德意志基金会(CRC 1310,根据德国卓越战略,exc 2048/1,项目编号:390686111)。资助者在研究设计、数据收集和分析、决定出版或编写手稿方面没有任何作用。
相互竞争的利益:提交人宣布,不存在任何相互竞争的利益。
缩略语:Dmnn,有向信息传递神经网络;dtba,药物-靶结合亲和力;eca,酶委员会;ecfp,扩展连接指纹;fcn,全连接神经网络;gnn,图形神经网络;logP,辛醇-水分配系数;mrpe,平均相对预测误差;mse,均方误差;mw,分子量;qsr,定量结构-活性关系;relu,校正线性单元。
导言
米氏常数,KM,定义为酶以其最大催化速率的一半起作用的底物浓度;因此,它描述了酶对特定底物的亲和力。对.的认识KM数值对于定量理解酶和代谢物之间的相互作用是至关重要的:它将代谢物的细胞内浓度与其消耗速度联系起来,将代谢体与细胞生理联系起来。
作为实验测量KM和k猫由于困难和耗时,即使在模型生物体中也没有对许多酶的实验估计.例如,在大肠杆菌,最具生物化学特征的有机体,在体外KM测量只存在于不到30%的天然底物中(见方法,“下载和处理”)。KM),在大约2,000个酶反应中,只有10%在体外被测量[1].
KM值,加上酶的周转数,k猫,这是细胞代谢模型所必需的,而细胞代谢模型是代谢物浓度的重要组成部分。目前大规模动力学建模的标准方法是对优化过程中的动力学参数进行估计。2–4]。这些优化通常尝试估计比作为输入的测量值更多的未知参数,从而得到结果。KM和k猫值的置信范围很广,与实验观测值之间的联系不大。2]。因此,人工智能对这些数值的预测,即使仅达到一个数量级,也将是向更现实的细胞代谢模型迈出的重要一步,并可大大提高这些模型所提供的生物学理解。
以往很少有研究试图预测硅中天然酶反应的动力学参数。赫克曼和他的同事[5]成功地使用机器学习模型来预测未知的周转率。E. 大肠杆菌。他们发现最重要的预测因子是k猫分别对酶催化的反应通量进行了计算,通过简约的通量平衡分析和催化中心的结构特征进行了估算。而许多E. 大肠杆菌k猫用这个模型可以成功地预测值,活性位点信息对于相当大一部分酶来说是无法获得的[5]。此外,除了少数模型有机体外,无论是活性位点信息还是反应通量估计,都无法广泛获得,从而阻碍了这一方法的推广。--医学论文发表投稿
博格和他的同事[6训练线性模型来预测KM基于其他KM同一底物与同一有机体中的不同酶配对,在其他有机体中与相同酶配对的测量;它们为8种不同底物中的每一种都拟合了一个独立的模型。严和同事[7]后来采用了类似的重点策略,预测KM基于神经网络的底物纤维二糖β-葡萄糖苷酶的测定。这两个先前的预测方法KM有针对性的,经过深入研究的酶底物组合和大量的实验。KM用于培训和测试的数据。因此,它们的策略不适用于研究较少的反应,也不适用于基因组规模的预测。
与预测有关的问题KM药物靶点相互作用的预测是药物开发中的一项重要任务.药物靶标结合亲和力(DTBAs)的预测方法已经发展起来。8])。这些方法大多是基于相似性的、基于结构的或基于特征的.基于相似的方法依赖于相似药物倾向于与相似目标相互作用的假设;这些方法利用已知的药物-目标相互作用来学习基于药物-药物和靶标相似性度量的预测函数。9,10]。基于结构的DTBA预测模型利用目标蛋白的三维结构信息[11,12]。这两种策略都不能很容易地推广到基因组规模的、独立于有机体的预测,因为许多酶和底物仅与特征良好的分子有很远的相似之处,而3D结构只适用于少数酶。
与前两种方法不同的是,基于特征的药物-目标相互作用预测模型使用药物和目标的数字表示作为完全连接的神经网络(Fcn)的输入[13–16]。药物特征向量最常见的是微笑表示法。17、专家制作的指纹[18–20],或用图形神经网络(GNN)创建的指纹[21,22],而这些目标通常是基于序列的表示。由于大多数酶和底物都可以很容易地生成这些信息,所以我们在这里使用类似的方法来开发一个模型KM预测。
预测的一个重要区别KMDTBA预测的目的是预测已知的天然酶-代谢物组合的亲和性.这些亲缘关系是在对酶的功能进行自然选择的情况下进化而来的,这是一个受到代谢物结构强烈制约的进化过程。相反,野生型蛋白质并不是在药物存在的情况下进化的,因此,分子结构很可能只包含非常有限的关于与目标结合的亲和力的信息,而没有关于目标蛋白的信息。
尽管代谢物分子结构在其消耗酶的进化结合亲和力中起着核心作用,但有关亲和力的重要信息也必须包含在酶的结构和序列中。预测KM,在酶的底物结合位点上使用详细的结构和物理化学信息是可取的,正如Heckmann和他的同事所做的那样k猫预测E. 大肠杆菌 [5]。然而,这些位点只有少数酶的特征[23]。另一种方法是对酶的整个氨基酸序列采用多维数值表示,如UniRep[24]。UniRep向量基于深度表示法学习模型,并已被证明保留了结构、进化和生物物理信息。
在这里,我们将酶的UniRep矢量和其底物的不同分子指纹结合起来,建立了一个通用的、与生物无关的、与反应无关的模型,用于预测KM价值观,使用机器和深度学习模式。在最后的模型中,我们使用一个1900维UniRep载体和一个特定任务的底物分子指纹作为梯度增强模型的输入。我们的模型达到了一个决定系数R2=0.53在测试集上的预测值和实测值之间,即模型解释了53%的变异性。KM不同的,以前看不见的天然酶底物组合的值。在……里面S1数据,我们提供完整的KM预测47个基因组规模的代谢模型,包括智人, [医]肌肉, 酿酒酵母,和E. 大肠杆菌.
结果
用于布伦达数据库中的所有野生型酶[25],我们提取了生物体的名称,酶委员会(EC)号,Uniprot ID和氨基酸序列,以及有关底物和相关的信息。KM价值。若倍数KM对底物和酶的氨基酸序列存在相同的组合值,取几何均值。这导致了一个包含11,675个完整条目的数据集,该数据集被分成一个训练集(80%)和一个测试集,仅用于最终验证(20%)。全KM值为日志10-转变。
预测KM从分子指纹
训练预测模型KM首先,我们必须选择基底分子的数值表示。对于数据集中的每个基底,我们计算了3种不同的专家构建的分子指纹,即位矢量,其中每一个比特代表分子的一个片段。使用的专家指纹包括扩展连接指纹(ECFPs)、RDKit指纹和MACCS密钥。我们用python包RDKit计算它们[19]根据底物的MDL分子文件(从KEGG[26];Molfile列出了分子的原子类型、原子坐标和键类型[27]).
MACCS键是166维二元指纹,其中每一个位都包含一个分子中存在某种化学结构的信息,例如,如果该分子包含一个大小为4的环,或者该分子中存在的氧原子少于3个。20]。RDKit指纹是通过识别分子中不超过特定预定义范围的所有子图来生成的。使用散列函数将这些子图转换为数值,然后使用哈希函数指示2,048维二进制向量中的哪些位被设置为1[19]。最后,为了计算ECFP,通过将原子解释为节点,将化学键解释为边,将分子表示为图形。计算了每个原子的键类型和特征向量(类型、质量、价态、原子序数、原子电荷和附加氢原子的数目)[18]。然后,通过迭代地应用预定义函数来总结相邻原子和键的各个方面,将这些标识符更新为预定义的步骤数。在迭代过程之后,所有标识符都被用作哈希函数的输入,生成具有分子结构信息的二进制向量。可以自由选择指纹的迭代次数和维数。我们将它们分别设置为默认值3和1,024;较低或更高的维度导致了较差的预测。--医学论文发表投稿
比较KM在不依赖于蛋白质信息的不同分子指纹中,我们使用分子指纹作为弹性网络、FCNN和梯度增强模型的唯一输入。在指纹上,我们添加了两个特征的相对分子质量(兆瓦)和辛醇-水分配系数(洛格),它们被显示为与KM价值[28]。然后训练这些模型来预测KM酶-底物组合值(无花果1A)。FCNN由一个具有指纹尺寸(包括附加特征)的输入层组成。兆瓦和洛格)、两个隐藏层和一个1D输出层(有关更多细节,请参见方法)。梯度增强是一种机器学习技术,它创建了一个由多个决策树组成的集合来进行预测。弹性网是正则化线性回归模型,其中正则化系数是L1?和L2-模型参数的范数。对于3种模型类型和3种指纹的每一种组合,我们在训练集上进行了5倍交叉验证的超参数优化,通过均方误差(MSE)测量性能。对于所有三种类型的指纹,梯度增强模型的性能优于FCNN和弹性网络(沙一–S3表).
图1.模型概述。
(A)预定义的分子指纹。从基片的mdl Molfiles中计算分子指纹,然后通过机器学习模型(如fcn),以及基板的两个全局特征,即兆瓦和洛格. (B)GNN指纹。节点和边缘特征向量是从MDL Molfile中计算出来的,然后迭代地更新T时间阶梯。然后,将特征向量集合为一个向量,该向量与兆瓦和洛格。FCNN,全连通神经网络;GNN,图神经网络;洛格辛醇-水分配系数;兆瓦,分子量。
Https://doi.org/10.1371/journal.pbio.3001402.g001
这个KM仅基于底物ECFP、MACCS键和RDKit分子指纹的梯度增强模型的预测在测试集上显示出非常相似的性能,MSE=0.83和决定系数R2 = 0.40 (图2).
图2.当只使用底物特征作为输入时,特定任务的分子指纹(Gnn)会带来更好的效果。KM比预定义的,专家精心设计的指纹。
(A)MSE在原木上10-规模。(B)决定系数R2。方框图总结了训练集5倍交叉验证的结果;蓝色点显示测试集的结果。图中所示图表的基础数据可在Https://github.com/AlexanderKroll/KM_prediction/tree/master/figures_data。扩展连通性指纹;GNN,图神经网络;MSE,均方误差。
Https://doi.org/10.1371/journal.pbio.3001402.g002
最佳KM基于图神经网络和梯度增强的代谢物指纹预测
最近的工作表明,通过特定任务的分子指纹可以获得更好的预测性能,其中深度神经网络同时对指纹进行优化,并利用它来预测输入的特性。与传统的神经网络相比,这些GNN可以处理非欧氏输入,如分子结构.这种方法在许多生物和化学数据集上产生了最先进的性能[21,22].
作为预定义的、专家制作的分子指纹的替代方法,我们还测试了我们的预测能力。KM基于GNN的特定任务分子指纹(图1有关详细信息,请参阅方法,“图神经网络体系结构”)。对于ECFP的计算,每个底物分子通过将原子解释为节点,化学键作为边缘表示成一个图形,其特征向量是从MDL Molfile中计算出来的。这些步骤是迭代更新的,在每个步骤中,应用具有可学习参数的函数来总结相邻原子和键的各个方面。经过迭代,将特征向量合并为1个分子指纹矢量。与ecfp相比,更新函数的参数不是固定的,而是在fcn的训练过程中进行调整的。KM从集合指纹矢量(方法)。对于预定义的分子指纹,我们通过添加2个全局分子特征来定义一个扩展的GNN指纹。洛格和兆瓦之前的模型。KM预测步骤
为了比较所学习的底物表示和3个预定义的指纹,我们对数据集中的每个基底提取了扩展的GNN指纹,并拟合了一个弹性网络、一个fcn和一个梯度增强模型来预测。KM。和以前一样,我们对所有模型的训练集进行了5倍交叉验证的超参数优化。梯度增强模型与FCNN和弹性网络相比,再一次取得了更好的效果。沙一–S3表)。我们的特定任务指纹的性能要好于预定义的指纹,达到了MSE=0.80和a决定系数R2在测试集中=0.42,与MSE=0.83和R2=0.40其他指纹(图2)。为了对测试集的性能进行统计比较,我们对测试集的预测的绝对误差采用了单边Wilcoxon符号秩检验,结果表明p=0.0080(Ecfp),p=0.073(RDKit)p=0.062(MACCS键)。虽然rdkit和maccs键在5%的水平上误差分布的差异仅在统计上有很小的意义,但这些分析支持选择特定任务的gnn分子指纹进行预测。KM.
值得注意的是,测试集上的错误比交叉验证期间的错误要小。我们发现训练样本的数量对模型的性能有很大的影响(见下文“模型性能随训练集大小的线性增长”)。因此,测试集性能的提高可能是由于在测试集验证之前,模型比每次交叉验证前多训练了大约2,000个样本。
分子量和辛醇-水分配系数的影响
预测前KM根据分子指纹,我们增加了兆瓦而洛格。这些额外的特性是否有助于通过特定任务的GNN指纹改进预测?为了回答这个问题,我们在没有附加功能的情况下对GNN进行了培训。洛格和兆瓦,以及只有其中一个附加功能。图3显示用于预测的梯度增强模型的性能。KM对于有和没有额外特性的GNN指纹,表明附加特性对性能的影响很小:添加这两个特性可以将MSE从0.82减少到0.80,同时增加R2从0.41到0.42。模型性能的差异在统计上没有显着性(p=0.13,单侧Wilcoxon符号秩检验,检验测试集预测的绝对误差)。这表明大多数用于预测的信息KM可以从分子本身的图表中提取。但是,由于添加了两个附加功能,所以略有改进。KM在测试数据集上的预测,我们包括以下特性兆瓦和洛格在我们的进一步分析中。--医学论文发表投稿
图3.加法兆瓦和洛格因为特性对GNN在预测方面的性能影响很小。KM.
(A) MSE在原木上10-规模。(B))决定系数R2。模型使用带有附加功能的GNN。洛格和兆瓦;只有一个附加的特征;而没有这两个特征。方框图总结了训练集5倍交叉验证的结果;蓝色点显示测试集的结果。图中所示图表的基础数据可在Https://github.com/AlexanderKroll/KM_prediction/tree/master/figures_data。GNN,图神经网络;洛格辛醇-水分配系数;均方误差;兆瓦,分子量。
Https://doi.org/10.1371/journal.pbio.3001402.g003
作为附加特征的UniRep向量
到目前为止,我们只考虑了特定于衬底的信息。如KM值是特定酶-底物相互作用的特征,我们现在需要添加表示酶性质的输入特性。有关底物结合亲和力的重要信息包含在催化位点的分子特征中;然而,活性位点的身份和结构仅适用于我们数据集中的少数几种酶。
因此,我们将模型中使用的酶信息限制在对酶的氨基酸序列的深度数值表示上,计算一个UniRep向量。24]每种酶。UniRep矢量是由mLSTM(一种用于序列建模的递归神经网络结构,结合了长期记忆和乘法递归神经网络结构)创建的1900维蛋白质统计表示。该模型训练了2400万个未标记氨基酸序列,根据先前的氨基酸序列预测下一个氨基酸序列中的下一个氨基酸。24]。通过这种方式,mLSTM学会在一个数字载体中存储关于先前氨基酸的重要信息,这些信息后来可以被提取并用作蛋白质的表示。结果表明,在蛋白质稳定性、功能和设计等预测任务中,这些表征在作为输入特征时都取得了很好的效果。24].
预测KM利用底物和酶的信息
预测KM值,我们将与GNN和1900维UniRep载体学习的52维特定任务扩展指纹与该酶的氨基酸序列信息连接成一个全局特征向量。然后将该向量作为回归梯度增强模型的输入,以预测KM价值。我们还训练了FCNN和弹性;然而,预测要糟糕得多(S4–S6表),与仅使用底物指纹作为输入时得到的结果一致。
结合底物和酶信息的梯度增强模型实现了MSE=0.65在日志上10-尺度和决定系数的结果R2=0.53,大大优于仅基于衬底信息的上述模型。我们还用一个额外的度量来验证我们的模型,,它是定量结构-活性关系(QSAR)预测模型中常用的性能度量工具.它被定义为哪里r2和分别为带截距和不带截距的平方相关系数[29,30]。我们的模型达到了在测试集上。
图4A和4B将整个模型的性能与仅使用底物或酶信息作为输入的模型进行比较,应用于Brenda测试数据集(该数据集仅包含以前未见的酶-底物组合)。预测KM值仅来自于酶UniRep向量,我们再次拟合了梯度增强模型,导致MSE=1.01和R2=0.27。预测KM仅从底物信息出发,选择具有扩展任务特征指纹的梯度增强模型作为输入,并与其它分子指纹进行比较。(图2).
图4.优化模型的性能。
(A) MSE. (B)决定系数(R2)。(A)和(B)中的值使用不同输入的梯度增强模型计算:底物和酶信息;仅底物信息(GNN);以及仅酶信息(域内容)。方框图总结了训练集5倍交叉验证的结果;蓝色点显示测试集的结果。为了进行比较,我们还使用KM所有预测的训练集中的值。(C)圆木散点图10-转变KM以底物和酶信息为输入的梯度增强模型预测的测试集值与从Brenda下载的实验值相比较。红点是指没有酶和底物参与训练的组合。图中所示图表的基础数据可在Https://github.com/AlexanderKroll/KM_prediction/tree/master/figures_data。GB,梯度增强;GNN,图神经网络;MSE,均方误差。
Https://doi.org/10.1371/journal.pbio.3001402.g004
图4A和4B另外,将这3种模型与单纯使用平均值的天真方法进行比较。KM训练集中的值作为对所有人的预测。KM测试集中的值,从而导致MSE=1.38和R2 = 0. 图4c将全模型的预测值与从Brenda得到的测试集的实验值进行了比较。
预测KM用于独立获取的测试数据集。
我们的模型是根据布伦达的数据进行训练和测试的。为了确认它的预测能力,需要对其他来源的数据进行测试。因此,通过从Sabio-RK数据库获取相同类型的信息,我们创建了一个额外的独立测试集[31],只保留未包含在布伦达数据集中的条目。这导致了包含274个条目的第二个测试集。对Brenda数据进行训练的模型实现了非常相似的性能(MSE = 0.67, R2=0.49)在独立的Sabio-RK测试数据上(橙色点在图S1).
预测KM用于未在训练数据中表示的酶和底物
催化同一反应的同源酶具有大致相似的动力学参数。为了检验这些相似之处在多大程度上影响了我们的结果,我们调查了我们的模型对于测试集中的664个数据点的性能,这些数据点在训练集中没有找到衬底-EC数组合(紫色点在图S1)。这个KM对这些数据点的预测导致MSE=0.79和R2=0.45,与MSE=0.65和R2=0.53为全部测试数据。
可以想象,如果训练集包含具有相同底物或相同酶的条目,即使不是在相同的组合中,预测也会更好。然而,在实践中,人们也可能希望对酶和/或底物在训练数据中根本没有表示的组合进行预测。为了测试我们的模型在这种情况下的表现,我们分别分析了测试数据中的57个条目,在训练数据中既没有酶也没有底物,结果是MSE=0.74和R2=0.26MSE=0.65和R2=0.53用于完整的测试数据(图4c)。至少在一定程度上,较小的R2价值可以用错误的预测来解释。KM数值低于10?2 毫米级(见面板中的残差)a在……里面图S2)。培训数据集中包含的内容很少。KM此区域中的值(面板)b在……里面图S2)--这里的训练数据可能太少了,无法进行预测这一具有挑战性的任务。KM看不见的酶和底物。相反,对于未见的底物和酶,该模型表现得更好。KM数值在10之间?2和100毫米级,那里有更多的培训数据。我们的结论是,如果有足够的训练数据,所提出的模型似乎能够预测。KM数据点的值,其中底物和/或酶不在训练集合中。
模型性能随训练集大小线性增加
最后分析表明,预测性能可能受到相关训练数据量的强烈影响。事实上,用于人工智能预测任务的训练数据集通常比可用于预测任务的数据集要大得多。KM。为了检验训练集的大小是否对预测质量有实质性的、一般性的影响,我们用不同数量的训练样本训练了最终的梯度增强模型。我们从原始的训练集中随机排除数据点,创建6个不同的训练集,其大小从4,500个到大约9,500个数据点不等。图5显示模型性能--以MSE或R2-与培训集的规模大致成线性增加。这一结果表明,我们的模型还远远没有过度拟合,数据的可用性增加将允许更准确的预测在未来。--医学论文发表投稿
图5.训练集大小对模型性能的影响。
(A) MSE. (B)决定系数(R2)。(A)和(B)中的值为测试集计算,使用以底物和酶信息为输入的梯度增强模型。利用不同数量的训练样本对梯度增强模型进行训练。图中所示图表的基础数据可在Https://github.com/AlexanderKroll/KM_prediction/tree/master/figures_data。均方误差。
Https://doi.org/10.1371/journal.pbio.3001402.g005
KM基因组尺度代谢模型中酶反应的预测
上面,我们描述了一种基因组规模的、独立于生物的预测管道的开发和评估。KM价值。例如,可以使用此管道及其参数化来获得初步的KM估计酶-底物组合感兴趣或参数化动力学模型的酶途径或网络。为了方便这些应用,我们预测KM47个基因组尺度代谢模型中所有酶的值,(S1数据),包括E. 大肠杆菌, S. 酿酒, M. 肌,和H. 智人.
这些模型适用于来自不同领域的有机体,而训练和测试数据则以细菌为主。为了测试这种不均匀的训练数据分布是否会导致偏差,我们将测试集划分为属于考古、细菌和Eukarya区域的子集,并分别计算。MSE和R2每个域的值。测试集包含142个来自古埃及的数据点,MSE=0.71和R2=0.37;1,439个细菌数据点,MSE=0.65和R2=0.51;以及来自Eukarya的749个数据点MSE=0.64和R2=0.56。因此,我们得出结论,我们的模型可以预测KM不同领域的值大致相同。
基因组级代谢模型的预测S1数据基于经过所有可用数据(包括测试集中的所有数据点)培训的机器学习模型。在所有47个代谢模型中,73%的反应都有底物和酶的信息,因此可以应用完全预测模型。15%只有底物信息,10%只有酶信息,2%没有底物信息和酶信息。我们对缺失信息的情况进行了如下处理:如果只有两个分子(酶或底物)中的一个可用信息,则使用相应的简化预测模型(分别以UniRep向量或仅扩展的GNN表示作为输入)。如果缺乏底物和酶的信息,我们预测KM值作为所有值的几何平均值。KM值在我们的数据集中。
讨论
总之,我们发现酶-底物对的米氏常数,KM,可通过人工智能预测,其决定系数为R2=0.53:一半以上的差异KM通过对酶氨基酸序列和底物分子结构的深入数值表征,可以预测酶和生物体之间的值。这种性能在很大程度上是与有机体无关的,不需要酶或底物都包含在用于训练的数据集中;使用Sabio-RK的第二个独立且不重叠的测试集确认了良好的性能(R2=0.49)。为了获得这种预测性能,我们使用了特定任务的底物指纹(GNN)来优化KM预测,因为这些似乎包含了更多关于KM比基于专家精心设计的转换(ECFP、RDKit指纹、MACCS密钥)的预定义分子指纹值更高。观察到的GNN和预定义指纹图谱之间的差异,与先前关于预测小分子化学特性的研究结果是一致的。22].
图4,比较KM不同输入特征集的预测表明,酶的氨基酸序列中包含的相关信息对于酶与天然底物的结合亲和力的进化影响可能不如对底物分子结构的影响:仅基于底物结构的预测解释的变异几乎是底物结构的两倍。KM与仅仅基于酶表达的预测相比。然而,改进的(可能是特定于任务的)酶表达有可能在将来改变这幅图像。
我们的模型的预测质量与严和同事的结果的直接比较7)是没有意义的,因为它们的模式范围与我们的大不相同。严和他的同事训练了一个只有36个数据点的单酶底物对的模型,目的是要区分。KM同一底物(纤维二糖)相同酶(β-葡萄糖苷酶)不同序列之间的值。但是,我们的一般模型的性能,与MSE=0.65,与Borger和他的同事的特定底物统计模型比较,[6),这导致了一个整体MSE= 1.02.
我们比较了我们的模型和两种不同的DTBA预测模型,DeepDTA和SimBoost[10,16]。这两个数据集在相同的两个数据集上进行了培训和测试,实现了测试集的值从0.63到0.67不等。这与已实现KM用我们的方法预测。通常很难比较不同数据集上训练和测试的模型的预测性能。在这里,不同的预测目标(DTBA相对于DTBA)加剧了这一困难。KM)。关键是,用于DTBA和KM关于其密度,即训练和测试数据所涵盖的可能的蛋白质-配体组合的比例,预测有很大的不同。用于DTBA预测的数据集包括442个不同蛋白质和68个靶点之间所有可能的药物靶点组合的实验数据(442×68=30,056)。第二个数据集包含大约25%的229个蛋白质和2,111个目标之间所有可能组合的数据(229×2,111=483,419中的118,254)。相反,我们的KM数据集具有7,001种不同的酶和1,582种底物,但仅占其可能组合的0.1%左右(7,001×1582=11,075,582中有11,600种酶)。因此,我们的数据集不仅要小得多,而且相对于[10,16]。如图所示图5,可用训练样本的数量对模型性能有很大的影响,数据密度可能也是如此。在这种背景下,我们的表演KM预测模型可以被看作是令人惊讶的好。图5表示KM一旦可以获得更多的培训数据,预测就可以大大改进。
为了向模型提供有关酶的信息,我们使用了酶氨基酸序列的统计表示。我们发现这些特征提供了重要的酶特异性信息来预测KM。考虑到酶活性位点的特征,如疏水性、深度或结构性质,似乎可以进一步改进预测。5]-一旦这类特性得到广泛利用[23]。添加生物体特有的信息,如典型的细胞内pH或温度,也可能提高模型的性能。
我们想强调的是,我们的模型是经过训练来预测的。KM已知的酶-底物对的值是自然细胞生理的一部分,这意味着它们的亲和力是在自然选择下进化而来的。因此,在预测与其他底物(如非天然化合物或参与月光活动的底物)之间的酶相互作用时,应谨慎使用该模型。在这种情况下,DTBA预测模型(具有较高的数据密度)可能更适合,使用我们的模型估计值应被视为KM这可能是在适当的自然选择下达到的。
为了更好地考虑当前模型的性能,我们考虑了平均相对预测误差。MRPE=4.1,这意味着我们的预测与实验估计的平均偏差为4.1倍.这与一个单一的相对偏差的平均相对偏差为3.4倍。KM在Brenda数据集中,对相同的酶-底物组合的所有其他测量值进行测量和几何平均(使用酶-底物组合的几何均值来训练模型)。布伦达值差异很大的部分原因是在体外实验中测定条件的变化[28]。此外,Brenda中的条目也存在错误;按10%的顺序计算,数据库中的值与原文中的值不一致,例如,由于单位转换中的错误[28].
特别是在这种变异的背景下,我们的酶-底物特异性的性能。KM模型显着。与以前的做法相反[6,7,13–16),该模型不需要事先了解所测量的KM考虑的底物或酶的值。此外,只训练了一个通用模型,并且不需要获得训练数据和适合于单个底物、酶群或生物体的新模型。一旦模型被安装,它就可以提供基因组规模。KM从现有特性预测在几分钟内。我们在此为包括小鼠和人类在内的一组广泛的模型生物体提供了这样的预测;这些数据可以提供未知动力学常数的基本估计,例如,将代谢组学数据与细胞生理学联系起来,并有助于将代谢动力学模型参数化。今后的工作可能会开发类似的酶周转数预测框架(k猫),这将有助于完成这些参数化。--医学论文发表投稿
方法
软件和代码可用性
我们用Python实现了所有代码[32]。利用深度学习库TensorFlow实现了神经网络33和Keras[34]。我们使用XGBoost库对梯度增强模型进行了拟合[35].
生成的所有数据集和用于生成结果的Python代码(在木星笔记本中)都可以从Https://github.com/AlexanderKroll/KM_prediction。两本木星笔记本包含了从Brenda和Sabio-RK下载数据并对其进行预处理的所有必要步骤。第二个笔记本的执行对我们的最终模型进行培训和验证。另外两本笔记本包含代码,用来训练以分子指纹为输入的模型,并研究这两个附加特征的影响,兆瓦和洛格,为了GNN。
下载和处理KM来自Brenda的值
我们下载了KM值以及生物和底物名称、EC号、酶的Uniprot ID和Brenda数据库中的PubMed ID[25]。这就形成了一个有156 387个条目的数据集。我们通过KEGG的同义词列表将基板名称映射到KEGG复合ID[26]。对于无法直接映射到KEGG化合物ID的所有基板名称,我们试图通过PubChem[36然后使用MBROLE的Web服务将这些ID映射到KEGG复合ID[37]。我们通过uniprot映射服务下载了所有数据点的氨基酸序列[38]如果有UniProtID;否则,我们从Brenda下载氨基酸序列,通过有机体名称和EC号。
然后,我们删除(I)所有重复项(即具有相同值的条目)。KM(Ii)所有含有非野生型酶的条目(即Brenda中的注释字段将其标记为突变体或重组体);(Iii)无Uniprot ID的非细菌生物的条目;以及(Iv)带有不能映射到kegg复合ID的底物名称的条目。这导致筛选出34,526个数据点。点(III)的动机是期望同工酶在真核生物中是频繁的,但在细菌中是罕见的,因此有机体的名称和EC数足以明确地确定绝大多数情况下细菌的氨基酸序列,而不是真核生物的氨基酸序列。如果多个日志10-转变KM存在1个底物和1个氨基酸序列的值,我们取这些值的几何平均值。对于其中的11,737种,我们可以在KEGG反应数据库中找到EC数-底物组合的条目。因为我们只对KM对于天然底物,我们只保留这些数据点[28]。我们记录10-改变了所有KM值在此数据集中。我们将最终数据集与11,737个条目随机分成训练数据(80%)和测试数据(20%)。我们将训练集进一步划分为5个子集,用于机器学习模型的超参数优化,进行了5次交叉验证。利用试验数据对超参数优化后的最终模型进行评价。
估计代谢酶的比例KM体外测量值E. 大肠杆菌,我们映射了E. ColiKM从Brenda下载到基因组规模代谢模型反应的数值iML 1515[39它包含2,700多个不同的反应。为此,我们从iML 1515模型,模型注释列出了酶的EC号和底物的KEGG化合物ID,导致2,656个酶-底物组合。在这些组合中的795个(29.93%)中,我们找到了一个KM值在Brenda数据库中。
下载和处理KM值来自Sabio-RK
我们下载了KM值连同有机体的名称、底物名称、EC号、酶的Uniprot ID和Sabio-RK数据库中的PubMed ID一起计算。这就形成了一个有8 375个条目的数据集。我们处理此数据集的方式与上面描述的Brenda数据集相同。此外,我们还删除了Brenda数据集中已经存在的PubMed ID的所有条目。这导致了一个包含274个条目的最终数据集,我们将其用作最终模型的附加测试集。KM预测。
预定义分子指纹图谱的计算
我们首先通过3个不同的分子指纹图谱(ECFP,RDKit指纹图谱,MACCS键)来表示每个底物。对于最终数据集中的每个基板,我们从KEGG下载了一个MDL Molfile,其中包含了它的原子和键的2D投影。26]通过KEGG化合物ID。然后我们使用RDKit[19]以Molfile为输入,计算2,048维二元RDKit指纹[19,166维二进制MACCS键[20,以及1,024维二进制ECFP[18]半径为3。
分子指纹全连通神经网络的体系结构
我们用FCNN预测KM值,仅使用基板的表示作为输入特征。我们对4种底物表示(ECFP、RDKit指纹、MACCS密钥和特定任务指纹)中的每一个进行了5倍交叉验证,以进行超参数优化。FCNN由两个隐藏层组成,我们使用了校正的线性单元(雷鲁),定义为雷鲁(x) = 马克斯(x,作为激活函数在隐层中引入非线性。我们实行批归一化40]每个隐藏层之后。另外,我们用二语-在每一层进行正规化,以防止过度安装。增加辍学[41没有改善模型的性能。我们通过最小化MSE以Nesterov动量为优化器的随机梯度下降。通过网格搜索优化了超参数正则化因子、学习速率、学习速率衰减、隐层维数、批量大小、训练周期数和动量。我们选择了均值最低的一组超参数。MSE交叉验证期间。每个指纹的交叉验证和最佳超参数集的结果显示在S1表.
梯度增强模型的分子指纹拟合
我们用梯度增强模型来预测KM值,仅使用基板的表示作为输入特征。对于FCNN,我们对4种基底表示(ECFP、RDKit指纹、MACCS密钥和任务特定指纹)中的每一个进行了5次交叉验证,以进行超参数优化。我们使用梯度增强库XGBoost[35]为Python。通过网格搜索,对超参数正则化系数、学习率、最大树深、最大增量步长、训练轮数和最小子权重进行了优化。我们选择了均值最低的一组超参数。MSE交叉验证期间。结果显示在图S2.
弹性网的分子指纹拟合
我们用弹性网预测KM以基板表示为输入特征的值。弹性网是附加的线性回归模型。L1-和二语-对模型系数的惩罚,以适用正规化。我们对所有4种底物表示(ECFP、RDKit指纹、MACCS键和任务特定指纹)进行了5倍交叉验证,用于超参数优化。在超参数优化过程中,L1-正规化和二语-通过网格搜索优化正规化。这些模型是用机器学习库Scikit-Learning来安装的。42]为Python。超参数优化的结果显示在S3表.
分子量计算(兆瓦)和辛醇-水分配系数(LogP)
我们计算了另外两个分子特征,兆瓦和洛格,带着RDKit的化学包[19],以基板的MDL Molfile作为输入。
图神经网络输入的计算
GNN中的图用张量和矩阵表示。为了计算输入矩阵和张量,我们使用RDKit[19]以基板的MDL Molfiles为输入,计算原子的8个特征v(原子序数、键数、电荷、氢键数、质量、芳香性、杂化类型、手性)和两个原子间每个键的4个特征v和w(键型,环的一部分,立体声结构,芳香性)。将这些特征(原子质量除外)转换为一个热编码矢量,从而生成一个特征向量Fb=每一个键的10个维数,并且在一个特征向量中Fa=每个原子的32个维数。
对于基板N原子,我们把所有的键都储存在N×N-维邻接矩阵A,即条目A大众等于1,如果两个原子之间有一个键v和w否则就0。我们将债券特性存储在(N×N×Fb)维张量E,在何处进入包含原子间键的特征向量。v原子w。之后,我们展开张量E通过连接原子的特征向量v到特征向量E大众。如果原子之间没有键v和w,即A大众=0,我们设置E大众降到零。然后我们使用结果(N×N×(Fa+Fb)-维张量E,以及邻接矩阵。A,作为GNN的输入。
在训练中,原子的数量N在图中必须限制为最大值。我们将最大值设置为70,这使我们能够在训练中包括大部分的基材。经过训练,GNN可以处理任意大小的基板。
图神经网络的体系结构
除了预定义的指纹外,我们还使用GNN来表示底物分子。在详细分析这些GNN之前,我们首先简要介绍一下这些GNN。
在ECFPs的计算中,通过将原子解释为节点,将化学键解释为边,分子被表示为一个图形。在GNN处理图形之前,特征向量对于每个节点v特征向量对于两个节点之间的每一条边v和w都是计算出来的。我们计算了每个原子的8个特征和基片上每个键的4个特征,包括质量、电荷、原子类型以及键的类型(见“图神经网络输入的计算”)。初始表示和对预定义的步骤数进行迭代更新。T使用相邻节点和边缘的特征向量(图1B)。在此过程中,特征向量与具有可训练项的矩阵相乘,这些矩阵是在GNN优化过程中拟合的。后k迭代,每个节点表示包含有关其k-跃邻域图的信息。完成后T迭代步骤,对所有节点表示进行平均以获得单个向量。,表示整个图[43,44]。向量然后,可以作为FCNN的输入来预测图的属性(KM在我们的情况下,分子的价值;图1).
用GNN描述的图形处理可分为两个阶段。第一,消息传递阶段由迭代过程组成。第二个读出阶段包括节点表示的平均和目标图属性的预测[43]。在训练过程中,两个阶段同时进行优化。向量因此,可以将其视为基板的特定任务指纹。由于模型是经过端到端训练的,因此GNN学会存储预测所需的所有信息。KM在这个向量中[44,45].
我们使用一种名为有向消息传递神经网络(D-MPNN)的GNN[22,46]。在D-MPNNs中,每条边被看作是两个指向相反方向的有向边.在迭代过程中(消息传递阶段),对节点和边缘的特征向量进行迭代更新。为了对它们进行更新,将相邻节点和边缘的特征向量乘以具有可学习参数的矩阵,并对结果进行总结。然后,一个激活函数,雷鲁,将其应用到生成的向量中,引入非线性。
我们将用于更新特征向量表示的迭代次数设置为T=2.消息传递阶段特征向量的维数设置为D=50。在每个激活函数之前,我们都采用批归一化。此外,我们试图在消息传递阶段结束时应用退出,但这并不能提高模型性能。
在消息传递阶段之后,读出阶段开始,所有节点和边缘的特征向量通过一个顺序不变函数集合在一起,得到一个单一的向量。,它是输入的表示。池是使用特征向量的按元素划分的平均值来完成的。然后我们连在一起带着兆瓦而洛格,它们是与KM价值[28]。这将导致扩展指纹。.
之后,作为Fcn的输入,该fcn具有两个维度为32和16的层,再次使用雷鲁作为激活函数。将批归一化和L2正则化应用于全连通层,以避免过度拟合。
在训练过程中,同时拟合消息传递阶段的矩阵值和读出阶段的FCNN参数值。我们通过最小化MSE与优化器Addelta[47]具有衰减的学习速率(衰减率为ρ=0.95),从0.05开始,50次。我们使用了64的批次大小,这是一个正则化参数。λ=0.01用于消息传递阶段的参数和正则化参数λ=1表示读出阶段的参数。超参数正则化因子、学习率、批次大小、特征向量维数D,并通过网格搜索对训练集进行了5倍交叉验证,优化了衰减率。我们选择了均值最低的一组超参数。MSE交叉验证期间。
UniRep向量
为了获得数据集中每个氨基酸序列的1900维UniRep矢量,我们使用了Python代码,这是乔治丘奇组原始代码的简化和修改版本。24其中包含已经培训过的UinRep模型(可从Https://github.com/EngqvistLab/UniRep50)。UniRep向量是从Fasta格式的文件中计算出来的[48,其中包含了我们数据集的所有氨基酸序列。
梯度增强模型与底物和酶信息的拟合
我们将特定任务的底物指纹连在一起。以及1,900维UniRep载体,提供关于该酶氨基酸序列的信息。我们使用得到的1,952维向量作为回归梯度增强模型的输入,我们训练该模型来预测KM价值。我们将最大树深设为7,最小子重为10.6,最大增量步长为4.24,学习率为0.012,正则化系数。λ到3.8,以及正则化系数α调至3.1。我们训练了这个模型进行1381次迭代。通过对训练集进行5倍交叉验证,对超参数正则化系数、学习率、最大树深、最大增量步长、训练迭代次数和最小子权重进行了优化。我们选择了均值最低的一组超参数。MSE交叉验证期间。
模型比较
为了检验以预定义指纹为输入的模型与以特定任务指纹为输入的模型之间的性能差异是否具有统计学意义,我们采用了单向Wilcoxon符号秩检验。Wilcoxon符号秩检验检验了零假设,即测试集上绝对误差的中位数用于使用具有特定任务指纹的模型所作的预测,,大于或等于使用预定义指纹模型进行预测的相应中值, (对决)。我们可以拒绝H0(p=0.0022(Ecfp),p=0.0515(RDKit),p=0.030(MACCS键),接受替代假设H1.
类似于所描述的过程,我们测试了有和没有这两个附加特性的GNN在模型性能上的差异,兆瓦和洛格,具有统计学意义。我们可以拒绝无效假设H0使用GNN进行预测的测试集的绝对误差的中位数。兆瓦和洛格大于或等于使用GNN所作预测的相应中值,而没有其他特性(p=0.0454)。为了执行测试,我们使用了Python库SciPy[49].
预测KM基因组规模模型的数值
我们从Bigg下载了46个基因组规模模型[50]和基因组规模模型S. 酿酒 [51]。我们从这些模型中提取了所有的酶反应,并为一个酶反应中的每个底物创建了一个入口。如果可用,我们从模型的注释中提取每个基板的KEGG复合ID;否则,我们通过KEGG和PubChem的同义词列表将基板名映射到KEGG复合ID,方法与Brenda和Sabio-RK数据集中描述的基板名称相同。为了获得酶的信息,我们使用了包含相关基因名称的基因反应规则。为了获得每个酶的氨基酸序列和Uniprot ID,我们使用了uniprot映射服务[38]。如果为一个反应提供多个酶,我们对所有给定的酶都做了预测。如果一个酶复合物由多个基因组成,我们试图找出哪些基因具有结合活性。因此,我们通过QuickGO为所有相关的UniProt ID下载了GO注释[52]。对于每个UniProtID,我们都检查注释中是否有绑定活动。如果我们发现一个以上的UniProt ID的结合活性,或者在酶复合物中没有一个UniProt ID,我们没有使用任何酶信息。
如果有酶和底物的信息,我们用完整的模型来预测。KM。如果只有底物或只有酶信息可用,我们使用梯度增强模型,它只使用底物或酶信息作为输入。如果不能得到底物或酶的信息,我们就使用几何平均值。KM作为预测值出现在Brenda数据集中。
训练梯度增强模型进行预测KM值,我们使用整个Brenda数据集进行模型培训,包括测试集。
辅助信息
训练用于预测的全连接神经网络的超参数优化结果KM仅从基片信息。
显影1/9: Pbio.3001402.s001.tif
跳到无花果分享通航
无花果分享
S1表训练用于预测的全连接神经网络的超参数优化结果KM仅从基片信息。
对4个不同底物的指纹进行超参数优化,在训练集上进行5倍交叉验证。
Https://doi.org/10.1371/journal.pbio.3001402.s001
(TIF)
S2表梯度增强模型的超参数优化结果KM仅从基片信息。
对4个不同底物的指纹进行超参数优化,在训练集上进行5倍交叉验证。
Https://doi.org/10.1371/journal.pbio.3001402.s002
(TIF)
中3桌。弹性网超参数优化的结果KM仅从基片信息。
对4种不同的底物指纹进行超参数优化,在训练集上进行5倍交叉验证。--医学论文发表投稿
Https://doi.org/10.1371/journal.pbio.3001402.s003
(TIF)
中4桌训练预测的全连通神经网络(FCNN)的超参数优化结果KM从底物和酶的信息(GNN指纹和UniRep载体)。
在训练集上进行了5倍交叉验证的超参数优化.
Https://doi.org/10.1371/journal.pbio.3001402.s004
(TIF)
中5桌。梯度增强模型的超参数优化结果KM从底物和酶的信息(GNN指纹和UniRep载体)。
在训练集上进行了5倍交叉验证的超参数优化.
Https://doi.org/10.1371/journal.pbio.3001402.s005
(TIF)
中六桌弹性网络超参数优化的结果KM从底物和酶的信息(GNN指纹和UniRep载体)。
在训练集上进行了5倍交叉验证的超参数优化。
Https://doi.org/10.1371/journal.pbio.3001402.s006
(TIF)
图S1.对数10变换散点图KM以底物和酶信息为输入的梯度增强模型预测的值与从Brenda和SabioRK下载的实验值相比较。
散点图显示了Sabio-RK测试集(橙色)的所有数据点和来自Brenda测试集的所有数据点,并且在训练集(紫色)中不存在EC数-衬底组合。图中所示图表的基础数据可在Https://github.com/AlexanderKroll/KM_prediction/tree/master/figures_data.
Https://doi.org/10.1371/journal.pbio.3001402.s007
(TIF)
(A)被测散点图KMBrenda测试数据点的值和绝对预测误差,在训练集中既不发生底物,也不发生酶。(B)分布的直方图KM训练集中的值。图中所示图表的基础数据可在Https://github.com/AlexanderKroll/KM_prediction/tree/master/figures_data.
Https://doi.org/10.1371/journal.pbio.3001402.s008
(TIF)
S1数据包含完整的xlsx格式的数据集KM预测47个基因组规模的代谢模型,包括智人, [医]肌肉, 酿酒酵母,和大肠杆菌.
Https://doi.org/10.1371/journal.pbio.3001402.s009
(Xlsx)
致谢
我们感谢雨果·杜拉多、马库斯·科尔曼和凯拉·莫伦的有益讨论。计算支助和基础设施由“德国杜塞尔多夫大学信息和媒体技术中心”提供。
参考文献
00001. 1.David di D,Noor E,Liebermeister W,Bar-偶数A,Flamholz A,Tummler K,等.体内酶催化速率的全局表征及其与体外的对应关系k猫测量。纳塔尔·阿卡德·斯奇。2016年;113(12):341-6.PMID:26951675
· 查看文章
· PubMed/NCBI
· 谷歌学者
00002. 2.Khodayari A,Marana CD。基因组规模大肠杆菌动力学代谢模型k-ecoli457满足多个突变株的通量数据。纳特·库恩。2016年;7(1):13806。PMID:27996047
· 查看文章
· PubMed/NCBI
· 谷歌学者
00003. 3.Saa PA,Nielsen Lk.代谢动力学模型的制定、构造和分析:模型框架综述。“生物技术评论”,2017年;35(8):981-1003。PMID:28916392
· 查看文章
· PubMed/NCBI
· 谷歌学者
00004. 4.Strutz J,Martin J,Greene J,Broadband L,Tyo K.代谢动力学模型提供了对复杂生物学问题的洞察,但仍然存在障碍。柯尔·奥宾生物技术公司。2019年;59:24-30。PMID:30851632
· 查看文章
· PubMed/NCBI
· 谷歌学者
00005. 5.Heckmann D,Lloyd CJ,Mih N,Ha Y,Zielinski DC,Haiman ZB,等。机器学习应用于酶周转数,揭示了蛋白质的结构相关性,并改进了代谢模型。纳特·库恩。2018年;9(1):5252。PMID:30531987
· 查看文章
· PubMed/NCBI
· 谷歌学者
00006. 6.Borger S,Liebermeister W,Klipp E.基于统计学习的酶动力学参数预测。基因组信息。2006年;第17(1)段:80-7.PMID:17503358
· 查看文章
· PubMed/NCBI
· 谷歌学者
00007. 7.严世明,石DQ,农宏,吴G预测KM以纤维二糖为底物的β-葡萄糖苷酶的测定。跨学科科学:计算生命科学。2012年;4(1):46-53。
· 查看文章
· 谷歌学者
00008. 8.Ries AB,Albaradei S,Essack M,Bajic VB.药物靶结合亲和力计算预测工具的比较研究。前化学。2019年;7:782。PMID:31824921
· 查看文章
· PubMed/NCBI
· 谷歌学者
00009. 9.Phikkala T,Airola A,Piatel s,Shakyawar S,Szwajda A,Tang J,等。向更现实的药物靶相互作用预测。简短的生物通报。2015年;16(2):325-37。PMID:24723570
· 查看文章
· PubMed/NCBI
· 谷歌学者
00010. 10.Heidemeyer M,BanF,Cherkasov A,Ester M.SimBoost:一种利用梯度增强器预测药物靶结合亲和力的通读方法。J化学。2017年;9(1):1-14.PMID:29086119
· 查看文章
· PubMed/NCBI
· 谷歌学者
00011. 11.[2]Jiménez J,Skalic M,Martinez-Rosell G,de Fabritiis G.K Dep:基于三维卷积神经网络的蛋白质配体绝对结合亲和力预测.J Chem inf模型2018年;58(2):287-96。PMID:29309725
· 查看文章
· PubMed/NCBI
· 谷歌学者
00012. 12.托特·奥特,奥尔森·阿杰。AutoDock Vina:使用新的评分函数、高效优化和多线程处理来提高对接的速度和精度,“计算化学杂志”。2010年;31(2):455-61。PMID:19499576
· 查看文章
· PubMed/NCBI
· 谷歌学者
00013. 13.Ztürk H,Ozkirimli E,zgür A.WideDTA:药物-靶结合亲和力的预测[预印]。阿西夫。2019年:190204166。
· 查看文章
· 谷歌学者
00014. 14.作者声明:Ester M.Padme,Ester M.Padme:一种基于深入学习的药物-靶相互作用预测框架[预印]。阿西夫。2018年:180709741。
· 查看文章
· 谷歌学者
00015. 15.Karimi M,Wu D,Wang Z,深情:通过统一的递归神经网络和卷积神经网络对复合蛋白亲和力的可解释的深入学习。生物信息学。2019年;35(18):3329-38。PMID:30768156
· 查看文章
· PubMed/NCBI
· 谷歌学者
00016. 16.Ztürk H,zgür A,Ozkirimli E.DeepDTA:深部药物靶结合亲和力预测。生物信息学。2018年;34(17):i 821-9.PMID:30423097
· 查看文章
· PubMed/NCBI
· 谷歌学者
00017. 17.Weininger D微笑,一种化学语言和信息系统。1.介绍方法和编码规则。J Chem inf Comput Sci.1988年;28(1):31-6。
· 查看文章
· 谷歌学者
00018. 18.罗杰斯D,哈恩M.扩展连接指纹。J Chem inf模型2010年;50(5):742-54。PMID:20426451
· 查看文章
· PubMed/NCBI
· 谷歌学者
00019. 19.RDKIT:开放源码的化学信息学。2006年。可从以下网址获得:Http://www.rdkit.org.
· 查看文章
· 谷歌学者
00020. 20.题名/责任者:by L.用于药物发现的MDL密钥的再优化。J Chem inf Comput Sci.2002年;42(6):1273-80。PMID:12444722
· 查看文章
· PubMed/NCBI
· 谷歌学者
00021. 21.周杰,崔国,张Z,杨C,刘Z,王L,等。图神经网络:方法和应用综述[预印]。阿西夫。2018年。P.arxiv:1812.08434。
· 查看文章
· 谷歌学者
00022. 22.杨K,斯旺松K,金伟,柯莉C,艾登P,高H,等。分析学习到的分子表示用于性能预测。J Chem inf模型2019年;59(8):3370-88。PMID:31361484
· 查看文章
· PubMed/NCBI
· 谷歌学者
00023. 23.霍利迪·GL,戴比耳TA,雅各布森·JO,皮尔逊·沃尔,桑顿·杰姆。催化位点Atlas 2.0:对在酶中鉴定的催化位点和残基进行分类。核酸研究,2014年;42(D1):D 485-9.PMID:24319146
· 查看文章
· PubMed/NCBI
· 谷歌学者
00024. 24.Ec,Khimulya G,Biswas S,AlQuraishi M,Church GM.统一的理性蛋白质工程与基于序列的深度表示法学习。NAT方法。2019年;16(12):1315-22。PMID:31636460
· 查看文章
· PubMed/NCBI
· 谷歌学者
00025. 25.Jeske L,Placzek S,Schomburg I,Chang A,Schomburg D.Brenda于2019年:欧洲灵丹妙药核心数据资源。核酸研究2019;47(D1):D 542-9.PMID:30395242
· 查看文章
· PubMed/NCBI
· 谷歌学者
00026. 26.KaneHisa M,Goto S.KEGG:京都基因和基因组百科全书。核酸研究,2000年;28(1):27-30。PMID:10592173
· 查看文章
· PubMed/NCBI
· 谷歌学者
00027. 27.Dalby A,Nse JG,Hounshell WD,Gushurst AK,Grier,Leland BA,等。描述分子设计有限公司开发的计算机程序使用的几种化学结构文件格式。J Chem inf Comput Sci.1992年;32(3):244-55。
· 查看文章
· 谷歌学者
00028. 28.BAR-偶数A,Noor E,Savir Y,Liebermeister W,Davidi D,Tawfik DS,等.中等效率酶:进化和物理化学趋势塑造酶参数。生物化学。2011年;50(21):4402-10。
· 查看文章
· PubMed/NCBI
· 谷歌学者
00029. 29.Pratim Roy P,Paul S,Mitra I,Roy K.关于两个预测QSAR模型验证的新参数。分子。2009年;14(5):1660-701。PMID:19471190
· 查看文章
· PubMed/NCBI
· 谷歌学者
00030. 30.Roy K,Chakraborty P,Mitra I,Ojha PK,Kar S,Das RN。“RM2?指标”在定量结构-活性关系预测质量判断中的应用案例研究:强调响应数据的尺度。J Comput Chem.2013年;34(12):1071-82。PMID:23299630
· 查看文章
· PubMed/NCBI
· 谷歌学者
00031. 31.Wittig U,Kania R,Golebiewski M,Rey M,ShiL,Jong L,等。Sabio-RK-生化反应动力学数据库。核酸研究.2012年;40(D1):D 790-6.PMID:22102587
· 查看文章
· PubMed/NCBI
· 谷歌学者
00032. 32.题名/责任者:by L.Python 3参考手册。加州斯科茨山谷:CreateSpace;2009。
00033. 33.Abadi M,Agarwal A,Barham P,Brevdo E,Chen Z,Citro C,等。TensorFlow:异构系统上的大规模机器学习.2015年。可从以下网址获得:Https://www.tensorflow.org/.
· 查看文章
· 谷歌学者
00034. 34.Chollet F.Keras.2015年。可从以下网址获得:Https://keras.io.
00035. 35.陈T,Guestrin C.XgBoost:一种可扩展的树增强系统。第22届ACM SIGKDD知识发现和数据挖掘国际会议记录;2016年。第785-794页。
00036. 36.金S,陈J,程T,古朗妮特A,何J,何S,等。PubChem 2019更新:更好地获取化学数据。核酸研究2019;47(D1):D 1102-9.PMID:30371825
· 查看文章
· PubMed/NCBI
· 谷歌学者
00037. 37.López-Ibáez J,Pazos F,Chagoyen M.MBROLE 2.0-化合物的功能富集。核酸研究:2016;44(W1):W201-4.PMID:27084944
· 查看文章
· PubMed/NCBI
· 谷歌学者
00038. 38.TU财团。UniProt:2021年的通用蛋白质知识库。核酸研究2021;49(D1):D 480-9.PMID:33237286
· 查看文章
· PubMed/NCBI
· 谷歌学者
00039. 39.僧侣JM,劳埃德CJ,Brunk E,Mih N,Sastry A,King Z,等。IML 1515,一个计算大肠杆菌特质。纳特生物技术公司。2017年;35(10):904-8.PMID:29020004
· 查看文章
· PubMed/NCBI
· 谷歌学者
00040. 40.Ioffe S,Szegedy C.批标准化:通过减少内部协变量移位[预印]加速深度网络训练。阿西夫。2015年。P.arxiv:1502.03167。
· 查看文章
· 谷歌学者
00041. 41.斯里瓦斯塔瓦·N,Hinton G,Krizhevsky A,Sutskever I,Salakhutdinov R.Dropout:防止神经网络过度拟合的简单方法。J马赫学习研究报告,2014;15(1):1929-58。
· 查看文章
· 谷歌学者
00042. 42.Pedregosa F,Varoquaux G,Granfort A,Michel V,Thirion B,Grisel O,等。学习:Python中的机器学习。J马赫学习研究报告2011;12:2825-30。
· 查看文章
· 谷歌学者
00043. 43.书名/责任者:by L.传递量子化学[预印]的神经信息。阿西夫。2017年。P.arxiv:1704.01212。
· 查看文章
· 谷歌学者
00044. 44.Kearnes S,McCloskey K,Berndl M,Pande V,Riley P.分子图卷积:超越指纹。J.Comput辅助Mol des.2016年;30(8):595-608。PMID:27558503
· 查看文章
· PubMed/NCBI
· 谷歌学者
00045. 45.书名/责任者:by L.学习分子指纹的图上的卷积网络。ADV神经处理系统2015年:2224-32。
· 查看文章
· 谷歌学者
00046. 46.结构数据隐变量模型的DAH,DAB,Song L.判别嵌入。国际机器学习会议;2016年。第2702-2711页。
· 查看文章
· 谷歌学者
00047. 47.泽勒医学博士。阿德罗塔:一种自适应学习速率方法[预印]。阿西夫。2012年。P.arxiv:1212.5701。
· 查看文章
· 谷歌学者
00048. 48.题名/责任者:by L.快速而敏感的蛋白质相似性搜索。科学。1985年;227(4693):1435-41。PMID:2983426
· 查看文章
· PubMed/NCBI
· 谷歌学者
00049. 49.Virtanen P,Gommers R,Oliphant te,Haberland M,Reddy T,CourNapeau D,等。SciPy1.0:Python中科学计算的基本算法。NAT方法。2020年;17:261-72。PMID:32015543
· 查看文章
· PubMed/NCBI
· 谷歌学者
00050. 50.Norsiges CJ,PUSARLA N,McConn JL,Yurkovich JT,Dr ger A,Palsson BO,等。BiGG模型2020:多株基因组规模模型和系统发育树的扩展。核酸研究:2020年;48(D1):d 402-6.PMID:31696234
· 查看文章
· PubMed/NCBI
· 谷歌学者
00051. 51.陆H,李F,Sánchez BJ,朱Z,李G,多梅尔扎因,等。一致的酿酒酵母代谢模型Yest 8及其生态系统,用于全面探讨细胞代谢。纳特·库恩。2019;10(1):1-13.PMID:30602773
· 查看文章
· PubMed/NCBI
· 谷歌学者
00052. 52.BINNS D,DUMER,Huntley R,Barrell D,O‘Donovan C,Apweiler R.QuickGO:一个基于Web的基因本体搜索工具。生物信息学。2009年;25(22):3045-6.PMID:19744993--医学论文发表投稿
· 查看文章
· PubMed/NCBI
· 谷歌学者