用于高维组学数据的多重交互网络的扩展图形套索--医学论文发表投稿
· 杨旭,
· 姜红梅,
· 江文新发表日期:2021年10月20日
摘要
人们对生物和医学研究中的关联网络(例如,遗传交互网络)产生了大量的兴趣。本文提出了一种扩展的联合集线器图形拉索(EDOHA)方法,用于对多个不同类别的高维组学数据进行多个相关交互网络的估计。具体而言,我们构造了一个凸惩罚对数似然优化问题,并用交替方向乘子法(ADMM)进行求解。该方法还可用于估算高维组分数据(如微生物相互作用网络)的相互作用网络。仿真结果表明,EDOHA方法在识别特定类别的集线器方面比现有的同类方法有着显著的优势。我们还介绍了真实数据集的三个应用。我们的结果的生物学解释证实了以前的研究,并提供了一个更全面的了解疾病的潜在机制。
作者摘要
从高维组学数据中重建多个关联网络是一个重要的课题,尤其是在生物学领域。以前的研究集中在估计不同的网络和检测所有类之间的公共中心。在不同类型的数据上集成信息,同时允许中心节点之间的差异,在生物学上也是可行的。因此,我们提出了一种方法,EDOHA,联合构建多个交互网络,能够为每一类数据找到不同的集线器网络。仿真研究表明,该方法比传统方法具有更好的性能。该方法在三个真实世界的数据中得到了验证。
引用:许勇,姜海,姜伟(2021)扩展了用于高维组学数据的多个相互作用网络的图形套索。PLOS Comput Biol 17(10):E 1008794。Https://doi.org/10.1371/journal.pcbi.1008794
编者:美国加州大学欧文分校
收到:2021年1月22日;接受:(二0二二一年九月三日)出版:2021年10月20日
版权:(2021年);这是一篇以CreativeCommonsAttribution许可证,允许在任何介质中不受限制地使用、分发和复制,只要原始作者和源被记入帐户。
数据可得性:研究结果背后的小鼠皮肤微生物数据可从核苷酸档案(ENA)获得。ERP 002614。PRJEB 1934(Http://www.ebi.ac.uk/ena/data/view/PRJEB1934)。131个核心可测量微生物群(CMM)数据可公开查阅Https://www.nature.com/articles/ncomms3462#supplementary-information。IBD微生物组数据可从人类集成微生物组项目(Https://ibdmdb.org/)。SARS-CoV-2感染蛋白质组学数据可从国家癌症研究所临床蛋白质组分析联合会获得(Https://cptc-xfer.uis.georgetown.edu/publicData)。基于人群的蛋白质组数据集来自肺(Https://cptc-xfer.uis.georgetown.edu/publicData/Phase_III_Data/CPTAC_LUAD_S046/CPTAC_LUAD_Proteome_CDAP_Protein_Report.r1/CPTAC3_Lung_Adeno_Carcinoma_Proteome.tmt10.tsv);肝脏(Https://cptc-xfer.uis.georgetown.edu/publicData/External/S049_Liver_Cancer_Gao2019/Liver_Cancer_Proteome_CDAP_Protein_Report.r1/Zhou_Liver_Cancer_Proteome.tmt11.tsv);冒号(Https://cptc-xfer.uis.georgetown.edu/publicData/Phase_II_Data/CPTAC_Colon_Cancer_S037/CPTAC_COprospective_PNNL_Proteome_CDAP_Protein_Report.r1/CPTAC2_Colon_Prospective_Collection_PNNL_Proteome.tmt10.tsv);肾(Https://cptc-xfer.uis.georgetown.edu/publicData/Phase_III_Data/CPTAC_CCRCC_S044/CPTAC_CCRCC_Proteome_CDAP_Protein_Report.r1/CPTAC3_Clear_Cell_Renal_Cell_Carcinoma_Proteome.tmt10.tsv).
供资:提交人没有收到为这项工作提供的具体资金。
相互竞争的利益:提交人宣布,不存在任何相互竞争的利益。
导言
随着高通量测序和组学技术的进步,生物信息正以惊人的速度被收集起来,这促使研究人员发现复杂数据中的模块结构、关系和规律。不同层次(例如基因调节、细胞信号)上的各种生物节点(例如基因、蛋白质、代谢物)之间的相互作用可以表示为图表,因此,对这些网络的分析可能会为生物系统的功能提供新的线索。集线器是幂律度分布的尾部高度连接的节点,在生物网络中起着至关重要的作用。一些研究表明,无标度拓扑存在于许多不同的组织层次,例如代谢网络[1和蜂窝网络[2]。枢纽节点可能是社区稳定的最基本要素,在病毒的感染和发病过程中起着重要的作用。-医学论文发表投稿
我们的研究目标是估计高维组学数据(例如基因组学、元组学、蛋白质组学和代谢组学)的多个相互作用网络。组学数据的一个共同特点是缺乏独立的样本(n)与丰富的特征相比较(p),也就是说,p ? n。在高维环境下,已经有人提出了构建交互网络的研究。Meinshausen和Bühlmann[3提供邻域选择以发现网络结构。Friedman等人[4提出了利用LASSO惩罚估计网络的图形LASSO算法。范等人[5]引入非凹惩罚和自适应LASSO惩罚来探索网络。然而,上述方法仅用于描述某一类特征之间的关系网络。当有多个类,如健康和疾病的情况下,一个简单的方法是分别为每个类构建网络,然后比较它们之间的差异。然而,这些程序可能会牺牲多个类之间共享的相似性,这对于找出与疾病相关的主要因素至关重要。人们会期望这些网络是相似的,因为它们来自同一类型的实体。联合图形套索(JGL)[6]提出同时估计多个模型,忽略无标度网络,不能显式地检测集线器。JRmGRN模型7]通过联合使用不同的数据集,确定跨多个类的公共集线器元素。在许多情况下,特定于单个网络的集线器节点也存在。例如,在与sars-cov-2相关的组织特定网络中,公共和类特定的关键枢纽都在不同的组织中显示[8]。公共集线器功能对所有类都是必不可少的,而特定于类的集线器可以传递特定的生物学信息。这启发我们探索一种新的模型,在共同构建交互网络时,将公共的和特定于类的集线器节点结合起来。
该方法适用于任何服从多元正态分布的组学数据。通过适当的变换,可以很容易地适应于高维组分数据(如微生物网络)的多个相互作用网络的研究。通过对合成数据的仿真研究和实际数据分析,对该方法的性能进行了评价,并与其它方法进行了比较。
材料和方法
高斯图形模型(GGMS)是描述生物特征关联网络和检测条件相关特征的常用模型。相关网络可以表示为无向加权图。其中顶点集V = {v1, v2, …, vp}表示p特征节点(如基因、微生物或蛋白质)和边缘集E包含节点之间可能的关联。假设观察结果(必要时适当转换)(r1, …, rp)是从具有协方差的多元正态分布中提取的。Σ,逆协方差矩阵非对角项的非零元。Θ = Σ?1图的邻接矩阵的定义从而描述正态分布分解为条件依赖分量[9]。因为样本数量n小于功能的数量。p和Θ在期望稀疏的情况下,提出了惩罚极大似然估计精度矩阵的方法。Σ?1,从而得到精度矩阵的稀疏估计。
EDOHA的一般配方
提出了从多个类构造多个交互网络的扩展联合集线器图形LASSO(EDOHA)算法。假设有K数据集的类,对应于K表型变量或K不同的条件,如对照组、载体组和疾病组。放任的数据表示的矩阵。p特征和nk样品k这节课。假设观察结果(必要时适当变换)是独立的、相同分布的:,在哪里r(k)表示来自k这节课。数据的日志可能性采用以下形式(1)哪里S(k)的经验协方差估计r(k)。非零元素在……里面指示节点i和j为kTH类是有条件依赖的。大多数元素Θ(k)预计为零。JRmGRN[7对精度矩阵进行了分解Θ(k)分为两个部分:基本对称网络kTH级Z(k),主要包含非集线器节点的相关信息,以及集线器节点的网络。V,在哪里V是一个具有完全零列或几乎完全非零列的矩阵,因此需要少数集线器节点与许多其他节点进行大量交互。考虑到集线器代码在所有类中都是通用的,而其他代码是特定于不同类的,我们将替换相同的网络。V带着V(k)为kTH类,包括公共的和特定于类的集线器相关信息.我们的方法旨在显式地研究这些特定于类的中心节点。估计{Θ} = (Θ(1), Θ(2), …, Θ(K))何时p > nk,我们采用了一种惩罚日志似然方法。(2)
罚函数P({Θ)具有以下形式,哪里Z(k) + V(k) + (V(k))T = Θ(k),和, 是j矩阵第四列V(k)。这里λ1、λ2、λ3、λ4、λ5五个非负调谐参数。λ1和λ3控制基本网络的稀疏性Z(k)集线器网络V(k)分别。λ4允许V(k)若要有零列和密集非零列,其中非零列表示k这节课。和λ2、λ5鼓励基础网络和集线器网络具有相似性。当λ1、λ2、λ3、λ4和λ5是固定的,表示(2)是一个凸优化问题,可以用有效的算法求解。凸性(2)基于以下事实:负对数行列式和范数函数都是凸函数,凸函数的非负组合也是凸函数。
备注1. JRmGRN有四个参数,它们可以容纳每个类中非集线器之间的连接级别、非集线器网络之间的相似性、不同数量的集线器和稀疏的集线器级别。它将精度矩阵分解为每个类特有的基本网络和具有识别公共集线器的能力的公共集线器网络。它的惩罚函数是
与JRmGRN模型相比,EDOHA将公共集线器网络替换为每个类各自的集线器网络,从而能够同时找到公共的和特定于类的集线器节点。很容易发现jrmgrn是edoha的一个子案例,当 λ5 足够大。跨多个类别的共同中枢特性可能对调节生物相互作用至关重要,而特定于类的枢纽可能介导特定的表型。我们提出的方法可能有助于解释哪些特征在不同的表型性状或不同的条件下起着重要的作用。.
一种用于EDOHA的ADMM算法
我们用交替方向乘子算法来解决这个问题。10],这使我们能够分离一些难以联合优化的术语。我们假设Θ(k)是正定的k = 1, …, K。我们注意到,这个问题可以重新表述为一个协商一致的问题。11]:(3)哪里X = (Θ(1), Z(1), V(1), …, Θ(K), Z(K), V(K)), ,和(4)(5)哪里(6)(7)(8)(9)
和
本文给出了相应的尺度增广拉格朗日。(10)哪里是原始变量,, 是双重变量。的Frobenius范数A。这里ρ是缩放拉格朗日形式的一个正参数。我们ρ=2.5如登等人所用。[7].
ADMM的迭代可以描述如下:(11)
定理1. 有一个解决方案 对EDOHA优化问题的研究 (3), 的ADMM迭代 (11) 逼近最优值,即pt → p*, 哪里 和 .
该定理建立了ADMM算法的收敛性,得到了EDOHA的最优解。它还自动建立算法收敛的任何优化问题,可视为一个子案例的EDOHA,例如,JRmGRN,这是以前没有建立的。本文给出了求解优化问题的一种通用算法。S1文本。定理1的证明在S2文本.
EDOHA的快速计算
我们现在给出一个定理,使EDOHA得到实质性的计算改进。利用这个定理,可以检验经验协方差矩阵。S(1), …, S(K)为了确定EDOHA优化问题的解是否为块对角线,经过一定的特征置换。以前的研究[6, 7]使用均匀阈值分解不同类的精度矩阵的方法完全相同。非均匀阈值化通过分别对K个经验协方差矩阵进行阈值化,生成一个不均匀的可行划分。在非均匀分区中,同一类中同一组的两个变量可能属于另一个类中的不同组[12]。在这里,我们提出了一种新的非均匀阈值化方法,它可以将精度矩阵分割成较小的子矩阵,而不忽略不同矩阵的不同稀疏性模式。现在我们提供了关键的结果。以下定理给出了非均匀块对角结构存在的充分条件.
定理2. 的解的一个充分条件 (2) 给出的块对角化,则为块对角线。 那是为 ?k, .
定理2的证明S3案文。类似于定理17],我们将一个大网络的重构分解为两个或多个小网络的重构。JRmGRN具有块对角结构存在的充分条件。我们现在允许将精确矩阵分解为特定于类的块对角线结构。它为我们提供了一个准则,如果给出一个功能分区的话。, ,优化问题的解是块对角线,每个块对应于。在实践中,对于任何给定的(λ)1、λ2、λ3、λ4、λ5),我们可以快速执行以下两步过程来标识解决方案中每个类中的任何块结构。
· 创造B(k)...p * p矩阵为i = 1, …, p。为i ≠ j,让如果定理2中所规定的条件满足了这一对变量。否则,设置.
· 识别无向图的连通分量,其邻接矩阵由B(k).
定理2保证所识别的连通分量对应于k这节课。因此,可以在不均匀可行划分的基础上快速地得到这些解.块对角线条件导致计算速度的大幅度提高。的特征分解,而不是计算K p * p矩阵,我们计算了∑的特征分解。k Tk维数矩阵。每次迭代的计算复杂度从O(p3)到.
调谐参数选择
本文利用贝叶斯信息准则(BIC)类型的数量来选择参数.我们选择(λ)1、λ2、λ3、λ4、λ5)以最小化以下函数,该函数平衡了模型的可能性和模型的复杂性。(12)
这里是具有固定的整定参数集(λ)的估计参数。1、λ2、λ3、λ4、λ5), |A的非零数。A、?A(k)的公共边数。A(k)}, 的估计中心数。k这个班,就是,和估计的公共枢纽数量,以及c是介于0到1之间的常数。术语Λ(Z)是由自由度的近似值引起的。?1关于边的复杂性和术语Λ的惩罚(V)的动机是,它的自由度近似于?2元、林对枢纽复杂性的惩罚13]。我们选择一组调优参数(λ)1、λ2、λ3、λ4、λ5)使数量最小化,这与邓等人的BIC数量相似。[7]。注意,BIC将倾向于在时常数c是很小的。因此,c用于调整集线器的数量。在本文中,我们选择c=0.3。这可以被看作是[.]之间的一种折衷。14,选择c=0.2从每个条件识别单独的集线器,以及[7],谁选择c=0.5来确定所有条件下共享的共同中心。
我们使用网格搜索来查找调优参数。但是,在五种调优参数(λ)的值范围内计算BIC1、λ2、λ3、λ4、λ5)可能是计算密集型的。在这种情况下,我们建议进行密集搜索(λ)1、λ3、λ4)持有(λ)2、λ5)在固定的低值下,然后进行快速搜索(λ)2、λ5),持有(λ)1、λ3、λ4)在选定的值处。随着分析中涉及的特征数量的急剧增加,调谐参数的选择变得非常复杂。在这种情况下,我们需要探讨问题的一些理论性质,可以用来指导我们寻找调谐参数。这一方法遵循邓等人的观点。[7我们提供了以下定理,这些定理将它们的理论结果推广到了本例中的类特定集线器中。
定理3. 放任 (Θ*(k), Z*(k), V*(k)) 是解决办法 (2), 的充分条件 Z*(k) 作为对角线矩阵是 λ3+λ4 < 2λ1和 λ5 < 2λ2.
定理3的证明S4案文.
定理4. 放任 (Θ*(k), Z*(k), V*(k)) 是解决办法 (2), 的充分条件 V*(k) 作为对角线矩阵是 和2λ2 < λ5.
定理4的证明S5案文.
推论1. 放任 (Θ*(k), Z*(k), V*(k)) 是解决办法 (2), 两者都必须具备的条件 Z*(k) 和 V*(k) 非对角矩阵是调谐参数满足下列任一条件之一。:
00001. a)。
00002. b)。
00003. c)。λ5 < 2λ2,2λ1 < λ3+λ4.
具体来说,我们要求Z(k)和V(k)是非对角线,以产生非平凡的边缘和轮毂。利用推论1,可以减少参数λ的搜索空间。1、λ2、λ3、λ4和λ5因为这五个调优参数是相关的。如果λ1和λ2都很大,而且λ3、λ4和λ5都太小了,那么基本的网络Z(k)可能会非常稀少,而且枢纽的数量也会变得巨大。相反,如果λ1和λ2都很小,而且λ3、λ4和λ5是相当大的,那么我们就可以变得密集了。Z(k)而且很少有集线器。EDOHA关于参数选择的条件比较复杂,因为它涉及到λ5这并不存在于JRmGRN。在本文中,对于参数λ,我们使用一个由0.01-5(大小=20)的对数空间组成的均匀网格。1、λ2、λ3、λ4和λ5满足推论1中的条件。
成分数据的EDOHA
大量研究表明,微生物成分与糖尿病等各种疾病密切相关。15炎症性肠病[16和肥胖[17]。微生物计数数据通常由细菌16S rRNA基因的可变区序列生成。它们不能在不同的样本之间直接比较,通常是通过将样本中的总数除以来转化为相对丰富度或相对比例。已经提出了多种方法来构建合成数据的生物相关网络,例如SPIEC-EASI[18]、SPARCC[19],重新启动[20雷巴卡[21[CCLasso]22和大衣[23]用于微生物相互作用网络。但是,这些方法只适用于一个类。
为了将EDOHA应用于组合数据,我们首先进行数据转换。本文以微生物群数据为例,简要讨论了一类化合物的组成数据。绝对丰度或计数p微生物y = [y1, y2, …, yp],生活在像人类肠道这样的环境中通常是无法直接观察到的。然而,相对丰度哪里,可以用16S rRNA测序技术进行测定。这里我们应用中心对数比变换[24]删除组合数据的单位和约束。对于组合变量x = (x1, …, xp),我们有-医学论文发表投稿哪里是合成向量的几何平均值。很容易证明协方差矩阵之间存在着某种关系。Σ的r以及对数变换绝对丰度的总体协方差。 [18, 24],在哪里, Ip是p-维单位矩阵,以及J是p * p每个条目的矩阵等于1.Kurtz等人。[18]提到矩阵G接近高维数据的恒等矩阵,因而是有限样本估计量。S的Σ可以很好地逼近对数的经验协方差。Y。实际上,曹等人。[23]已经表明Σ可能是只要属于一类大型稀疏协方差矩阵。因此,基于中心对数比变换的数据可以估计出高维组合数据的交互网络。
结果
仿真研究
为了更好地识别公共和类特定的集线器节点,我们对erd进行了仿真,以验证该方法的有效性。?S-Ré基于Nyi(ER)的网络[25然后生成相应的组合数据来评估和验证该方法。我们比较了EDOHA的性能与现有的方法,如图形拉索(JGL)和JRmGRN。结果表明,EDOHA方法在分析具有公共节点和类特定中心节点的组合数据相关网络时,具有更高的效率。
仿真策略
为了模拟生物组成数据集,如微生物群计数数据,我们认为数据是用两个步骤绘制的。我们首先为每个特征生成基本丰度和比例,然后生成给定排序大小(即库大小)的计数数据。数据结构特征反映在基础协方差中,稍后将详细介绍。在这里,我们假设每个样本的基本比例是由三种不同的分布,即对数比正态分布(LRN)、泊松对数正态分布(LNP)和Dirichlet对数正态分布(LND)之一产生的。21]。这三种方法在S6案文。然后我们利用比例从多项式分布中提取计数数据,这反映了一个随机过程,所有的序列都可能在一个生物样本中被选择。
为了综合评价EDOHA,我们考虑到这些特征与基于ER的网络相关联,其中每一对节点的选择概率相等,并与一个预定义的概率相连接。基于无尺度ER的网络是通过修改邓等人使用的程序来生成的.[7]。具体来说,对于给定数量的类(K),节点(p),样本(nk),采用以下程序对基于ER的网络和相应的组成数据进行了仿真.
00001. 步骤1生成基稀疏矩阵A其中AIJ被设为[?0.75,?0.25]?[0.25,0.75]中的随机数。α(初等网络稀疏度1-α),否则为零。
00002. 步骤2考虑到枢纽的数量m,我们随机选择m节点以及表示iTH集线器节点和其他节点j, ,我们把它设为[?0.75,?0.25]?[0.25,0.75]中的随机数。β(枢纽稀疏1-β),否则为零。
00003. 步骤3构造集线器矩阵V(k),我们随机选择一个分数δ(网络差异)的集线器节点,并将其重置为1,2,…中的随机数。,p。修改后的集线器节点由v(k)。中的非零元素V(k),我们首先然后随机调整δ,并将它们的值重置为[?0.75,?0.25]?[0.25,0.75]中的随机数。β.
00004. 步骤4为了建立基本网络,Z(k),我们首先将它设为等于A,然后随机选择一小部分δ,并将其值重置为[?0.75,?0.25]?[0.25,0.75]中的随机数。α否则是零。我们Z(k) = Z(k) + (Z(k))T所以Z(k)是对称的。
00005. 步骤5我们定义了精度矩阵。Θ(k)如Z(k) + V(k) + (V(k))T。如果Θ(k)不是正定的,我们加上对角元素Θ(k)通过0.1?λ敏(Θ(k)),其中λ敏(Θ(k))的最小特征值。Θ(k).
00006. 步骤6我们生成的组成数据nk样品k利用基协方差从LRN得到的比例的多项式分布的TH类Θ(k))?1.
在这里,对三个班进行了模拟研究,每个班有40或80个样本。初等网络稀疏度、轮毂稀疏度和网络差分别设为0.98、0.7、0.2。正如我们已经提到的,我们使用BIC和网格搜索来找到合适的调优参数和模型。
仿真结果
我们考虑了前一节描述的80,160,300个节点的模拟网络,并估计了相应的系统,样本数分别为n=40,n=80。EDOHA的惩罚效果随样本大小而不同。为了更好地显示仿真研究结果,我们对调谐参数(λ)进行了叠加。1、λ2、λ3、λ4、λ5)执行EDOHA之前的样本大小。
我们比较了EDOHA和JRmGRN在识别非零边缘和类特定边缘方面的性能。计算结果平均超过100个模拟数据集。我们说边缘(i, j)在k如果估计出关联,则检测TH网络。我们说,如果这样的话,边缘就被正确地检测到了。。类之间不同的微分边数定义如下[6]:
我们记录了检测非零边缘和检测差异边缘的敏感性和特异性.敏感性是指正确检测到的非零边缘或差动边缘的比例,而特异性则代表正确检测到的零或非差异边缘的比例。因此,计算了边缘检测(Ed)和差分边缘检测(DED)的敏感性和特异性。
如图所示表1如果只考虑非零边数,则EDOHA和JRmGRN在检测到的成对节点关联总数方面几乎没有差别。然而,与JRmGRN相比,用EDOHA检测微分边缘的灵敏度在所有情况下都提高了一倍以上。这主要是因为EDOHA具有更好的识别类特定边缘的能力。
·
表1.利用EDOHA和JRmGRN对100多个重复的均值(标准差)进行了边缘检测(ED)和差分边缘检测(DED)的敏感性和特异性研究。
Https://doi.org/10.1371/journal.pcbi.1008794.t001
然后,我们展示了EDOHA比其他几种方法有很大的改进。由于JGL不能显式地找出枢纽节点,因此基于网络中的微分非零边构造了查全率曲线,并与上述方法的结果进行了直观比较。对两种条件下具有不同稀疏性和相似性的网络进行了仿真,并对160个节点的相应网络进行了估计。样品大小为80。为了比较不同方法的结果,我们对每种情况进行了100次模拟。如我们所见图1通过较大的召回范围,EDOHA的准确率保持在较高水平,而对于其他方法,EDOHA的准确率则迅速下降到随机猜测的水平。这与我们的预期是一致的,因为EDOHA区分了基本网络和集线器网络之间的差异,从而更好地适应了模型中的数据。
· 下载:
图1.精度-召回曲线的EDOHA,JRmGRN和JGL的差异边缘检测在不同的网络设置。
‘e稀疏’是初等网络的稀疏性,‘H稀疏’是集线器网络的稀疏性,标题中显示的最后一个参数是两个网络的差异。
Https://doi.org/10.1371/journal.pcbi.1008794.g001
集线器由EDOHA和JRmGRN显式建模。我们模拟了具有公共和类特定集线器的网络,并将结果与JRmGRN进行了比较。为了更好地显示识别类特定集线器的性能,我们还比较了集线器检测能力和hgl[14],它只处理来自单个类的数据。在应用HGL时,为每个类别分别安装网络。整个过程重复了50次。EDOHA对识别公共和类特定中心的综合评估载于表2。对普通(C)集线器和特定类别(S)集线器的真阳性率(TPR)、假阳性率(FPR)和精确度的定义为
·
·
表2.用真阳性率(TPR)、假阳性率(FPR)和精密度比较了EDOHA、JRmGRN和HGL对轮毂检测的性能。
网络差异设置为0.3。模拟结果平均超过50次。
Https://doi.org/10.1371/journal.pcbi.1008794.t002
总TPR、FPR和精度计算如下:
·
·
·
本文给出了一个计算TPR、FPR和精度的简单例子。S7案文。由于JRmGRN只检测公共集线器,因此没有相应的类特定集线器信息。可以看出,当我们分别计算公共集线器和特定于类的集线器时,EDOHA几乎具有最高的精度和最低的FPR。尽管JRmGRN在识别公共集线器方面工作得很好,但它往往会错误地识别一些公共集线器。正如我们前面提到的,jrmgrn可以被看作edoha的一个子案例,即λ。5=∞,而hgl与λ类似2=0,λ5=0。因此,EDOHA在分析具有公共和类特定中心节点的相关网络时比JRmGRN和HGL具有更好的性能。仅对通用集线器和仅针对类特定集线器的其他模拟显示在S1表。从仿真结果来看,EDOHA可以检测到仅在公共集线器设置中的大多数公共集线器,并且能够在仅特定于类的集线器设置中很好地识别类我们还发现,当大多数真正的集线器是普通集线器时,EDOHA和JRmGRN的结果是相似的,但当真正的网络有更多的类特定集线器时,则完全不同。这些结果表明,在不知道特定于类的节点或公共节点的情况下,EDOHA在识别真正的集线器节点时是有用的。
真实数据分析
我们将该模型应用于三个真实数据集:一个是蛋白质组数据,另两个是微生物组数据。与原文献中的分析方法相比,该模型具有跨多个类构建具有公共和类特定集线器的多个网络的能力。我们还实现了JRmGRN来推断交互网络并检测跨类的集线器。我们发现,EDOHA认可的一些集线器,包括公共和类特定的集线器,被JRmGRN识别为公共集线器。仿真结果表明,当EDOHA的结果有显著差异时,EDOHA可能更可靠。
应用于小鼠皮肤微生物群数据。
我们将EDOHA应用于小鼠皮肤微生物数据集(PRJEB 1934)包括三组个体:非免疫组(对照组)、免疫健康组(健康组)和免疫病组(EBA组)。利用细菌16 SrRNA测序数据的可变区域测量微生物群落。这些区域被放大、测序,然后根据相似性和量化分为共同的操作分类单位(OTUS),OTU计数作为潜在微生物种群丰度的中介。该数据集包含131个核心OTUS,主要来自4个主要的门,分别为:第一门(44 OTUS)、蛋白质细菌(35 OTUS)、细菌(26 OTUS)、放线杆菌(17 OTUS)。我们从261份小鼠皮肤样本中分析了它们的丰度数据。特别是,我们希望重建成对的条件相关网络,并确定作为集线器的OTUS。这种OTUS可能在环境中发挥重要作用。
在……里面图2,我们绘制了这三组的网络。枢纽OTUS以橙色突出显示。只有来自头孢菌素和放线杆菌的OTUS被确认为OTUS的枢纽。这三个网络只共享一个公共中心,而健康和EBA组则有另一个公共中心。然而,健康组中的三个中心OTUS并不是EBA组中的集线器。注意,健康组和控制组共享的两个OTU集线器不是EBA组中的集线器。这些信息可能有助于了解疾病的保护机制,如果没有我们特定于类的枢纽检测方法,就无法获得这种保护机制。相比之下,JRmGRN确定了8个公共中心,其中4个被EDOHA检测为特定于类的集线器,一个在EDOHA的公共中心中。在JRmGRN的公共集线器集中只包含EDOHA识别的一个集线器。
图2.非免疫组(对照组)、免疫健康组(健康组)和免疫病组(EBA组)的估算网络。
边缘表示两个OTUS和集线器OTUS之间的交互作用,以橙色突出显示。节点半径随相关边数的变化而变化。
Https://doi.org/10.1371/journal.pcbi.1008794.g002
除了比较中枢OTUS外,我们还研究了131 OTUS在不同疾病状态下的相关模式是否不同。如果两组的相关关系有相同的信号,则认为两组之间的OTUS相关对是一致的。我们得出的同样结论是,非免疫个体与其他两个免疫组之间的相关性不如两个免疫组之间的一致性。两个免疫组之间有687对一致,而对照组和健康组之间只有639对一致,而对照组和EBA组之间只有632对一致。在潘基文等人中得到的结果。[21]两免疫组分别为532对、236对和212对。因此,在我们的研究中,这些群体之间的差距要小得多(参见图S1)。这主要是因为我们同时对多个网络进行建模,从而能够更准确地利用来自多个类的数据集来构造网络的相似性,从而使网络的分类更加精确。
IBD微生物群数据的应用。
我们对炎症性肠病(IBD)多组学数据库进行了我们提出的方法。HMP 2元数据)关注微生物在人类健康和疾病中的作用。IBD还包括两种主要亚型:克罗恩病(CD)和溃疡性结肠炎(UC)。我们的样本包括86名CD患者,46名UC患者和46名健康对照者,342例OTUS。众所周知,IBD是一种慢性复发的胃肠道炎症状态,健康人的胃肠道微生物群主要由四个主要的细菌门组成:头状结肠、细菌、变形杆菌和放线菌。该数据集分别包含这四个主要门的225、44、38、23 OTUS。
我们的目标是重建代表OTUS之间相互作用的人类肠道的多个微生物网络,以及识别与其他肠道相互作用的枢纽OTUS。识别这种调节性OTUS将有助于更好地理解IBD的机制,并最终可能导致新的治疗方法。构建了一种大规模的分子与宿主分子相互作用的交叉测量型关联网络。26]. 图3显示这三个类的微生物交互网络。在CD中发现的中枢OTUS多于UC和健康对照组。UC和健康组的几乎每个中心都包含在CD组的中心集中。我们发现从放线菌中分离出的物种在三组中都没有被发现为OTUS的枢纽。几项研究[16, 27, 28]发现IBD组与健康组之间存在差异。此外,还发现亚道粒细胞、蔷薇属和镰刀菌属是具有分类学特征的中心,它们在代谢和元生物学上都有联系。在我们的研究中,侏儒球菌和Roseburia的OTUS被认为是CD组和UC组的中枢,而不是健康组,Alisiles的OTUS仅被检测为CD组的中枢,这可能导致对IBD进行全新的医学研究。相比之下,根据EDOHA,JRmGRN识别了13个公共中心,其中6个是通用的,6个是在两个类中共享的。其余的一个不在EDOHA列出的任何类特定集线器中。总之,在我们的方法中,jrmgrn检测到的超过一半的公共中心被识别为特定于类的集线器,EDOHA在构建特定于类的网络方面似乎效率更高。
图3.估计CD,UC和健康人群的微生物网络。
四个主要的细菌门(第一、细菌、蛋白质细菌和放线菌)的标志是不同的颜色。较大的节点表示集线器OTUS。
Https://doi.org/10.1371/journal.pcbi.1008794.g003
在SARS-CoV-2感染蛋白组学数据中的应用。
最近的一项研究确定了332个高度可信的sars-cov-2蛋白-人类蛋白质相互作用,这些相互作用与多种生物过程有关[29]。在与SARS-CoV-2相互作用的332种蛋白质中,188种可能与主要的病毒成分相互作用.我们在结肠、肝脏、肺和肾脏四种组织中寻找188个蛋白质的存在,并应用所提出的方法EDOHA构建蛋白质组范围的网络,揭示不同类型组织和组织特异性集线器之间的共同关键枢纽。这些蛋白质组数据是从国家癌症研究所临床蛋白质组分析联盟数据库(CPTAC).
如图所示图4,我们鉴定了三个共同的枢纽蛋白DDX 21,REEP 6和SEPSECS。我们确定MRPS 5仅在结肠中是一个枢纽,这与以前的研究是一致的。8]。我们还检测到许多其他常见的中枢,包括Hmox 1、PRKAR2B和TIMM 9,它们作为枢纽出现在两个或三个器官中。此外,BCKDK和COMT只参与肝脏的中枢。BWZ 2、SLC44A2和Stom仅在肺内被认为是中枢。而ATP 1B1、ATP 6AP1、ATP 6V1A、CCDC 86、ETFA、NUP 2 10、PTGES 2和SCARB 1仅作为肾的枢纽。所有这些在四个组织中检测到的枢纽蛋白及其在活生物体中的功能显示在S2表。JRmGRN识别了8个枢纽蛋白。DDX 21和REEP 6是EDOHA检测到的公共枢纽,而BZW 2、CCDC 86、MRPS 5、PRKAR2B和Stom是一个或两个器官中的类特定枢纽。RRP 9是唯一不在EDOHA集线器列表中的。这两个结果之间的差异可能暗示了特定于类的枢纽结构。
络的估计。
蛋白质-蛋白质网络是根据来自结肠、肝脏、肺和肾脏的数据构建的.枢纽蛋白以黄色突出显示。
Https://doi.org/10.1371/journal.pcbi.1008794.g004
所有这些集线器的连通性至少是任何非集线器的4倍。在多种组织中普遍存在的中枢可能成为治疗多器官损伤和治疗炎症的药物靶点。某些特定的组织中枢可能介导特定的功能障碍。迫切需要这些信息,以确定干预和疫苗研制的治疗目标。
讨论
目前,人们对多重交互网络的结构越来越感兴趣。在大多数情况下,人们在分析组学数据时,隐式地假设每个节点在网络中的交互次数大致相同,并且每个节点都有相同的概率成为一个边缘,所有的边缘都是相互独立的。然而,这种假设在一些现实世界的网络中是不合适的。在生物网络中,无标度特性是相当普遍的,这意味着每个节点的边缘数服从幂律分布,并且一小部分节点与许多其他节点相互作用。Barabasi和Oltvai30]发现细胞内的大多数网络近似无标度的拓扑结构,包括代谢网络、蛋白质相互作用和遗传调控网络。集线器的存在似乎是所有蜂窝网络的一个普遍特征。例如,枢纽蛋白在细胞蛋白质相互作用网络的组织和功能中起着至关重要的作用。也已经证明,这种枢纽蛋白可能构成一个重要的池有吸引力的药物靶点。一个典型的目标是捕捉更复杂的交互,并在特定于类的网络中识别特定于类的集线器。基于同一组织的不同表型或不同组织的数据构建生物关联网络,使我们能够筛选出对生命健康和疾病有影响的特征,从而深入了解生物和生态系统中的基本要素。随着生物相关网络研究的不断深入,开发一种新的模型来联合估计不同类别的无标度相互作用网络变得非常重要。
在本文中,我们提出了一种新的统计方法来构造特定类别的网络,并为高维组学数据在多个类中选择信息中心特征。通过将精度矩阵分解为两部分,可以准确地识别轮毂特征,包括常见的和特定的特征。新的惩罚条款被添加到单独的特定于类的集线器中。此外,还研究了选择调谐参数的理论特性,以提高计算效率。对于一组固定的整定参数,使用带有2.3GHz Intel Core i5处理器和8 GB 2133 MHz LPDDR 3内存的Mac台式计算机,估计精度矩阵的平均运行时间分别为100节点2.5 min、200节点7 min、300节点20 min。在未来,我们将探索加速计算的策略,如随机参数搜索。综合数据用基于ER的网络生成,以尽可能接近模拟实验生物成分数据的情况。仿真研究表明,该方法在不同类别的微分边缘检测中具有较高的精度。与其他方法相比,EDOHA具有识别特定于类的集线器特征的潜力,并在精确召回曲线下获得更大的区域。我们还将该方法应用于三个真实组学数据集。其中一个是来自不同组织的蛋白质组数据,另两个是来自不同表型微生物群落的微生物数据。在所有三个数据集中,EDOHA成功地构建了多个网络,其结果与以前的报告基本一致。此外,EDOHA识别了一些集线器特性,包括公共的和特定于类的特性,这为深入了解所涉及的机制提供了一个更深的理解。总的来说,edoha不仅可以联合重建多个网络,而且还可以显式地检测具有多个不同类的组学数据的类特定集线器。它在生成具有这种数据结构的网络方面是很有前途的。
EDOHA实际上是一种通用的方法,适用于多种类型的组学数据,如基因表达数据,这些数据遵循多元正态分布。当EDOHA应用于组合数据时,只需将中心对数比转换后的数据作为输入。事实上,最近提出了许多其他基于高斯图形模型的交互网络方法来考虑组分性,例如gcoda[31[CD-痕迹]32和BC-格拉索[33]。我们未来的工作之一是将这些新方法中的精度矩阵分解为Θ=。Z + V+ (V)T并使用惩罚函数P(Θ)在我们的方法中,构造具有公共和类特定集线器的多个交互网络。
辅助信息
S1文本。EDOHA的一种详细的ADMM算法。
Https://doi.org/10.1371/journal.pcbi.1008794.s001
(PDF)
S2文本。证明了EDOHA的ADMM算法的收敛性。
Https://doi.org/10.1371/journal.pcbi.1008794.s002
(PDF)
中3案文。非均匀块对角结构充分条件的证明。
Https://doi.org/10.1371/journal.pcbi.1008794.s003
(PDF)
Https://doi.org/10.1371/journal.pcbi.1008794.s004
(PDF)
Https://doi.org/10.1371/journal.pcbi.1008794.s005
(PDF)
中6案文。为每个特征生成基本比例的方法。
Https://doi.org/10.1371/journal.pcbi.1008794.s006
(PDF)
中7案文。在现有方法的基础上,对TPR、FPR和精度进行了简单的算例计算。
Https://doi.org/10.1371/journal.pcbi.1008794.s007
(PDF)
S1表额外的模拟情况下,只有公共枢纽和只有类特定的枢纽。
EDOHA、JRmGRN和HGL通过真阳性率(TPR)和假阳性率(FPR)显示了EDOHA、JRmGRN和HGL识别网络中具有“只有公共中心”和“仅特定于类的集线器”的枢纽节点的能力。我们生成100个样本数n=80的数据集。
Https://doi.org/10.1371/journal.pcbi.1008794.s008
(PDF)
S2表在四个器官中检测到的枢纽蛋白及其在生物体中的作用。
该表列出了被检测为普通蛋白质和组织特异性蛋白质的枢纽蛋白,并介绍了它们的功能。
Https://doi.org/10.1371/journal.pcbi.1008794.s009-医学论文发表投稿
(PDF)
图S1.正常对照组、健康组和EBA组一致性相关OTUS的Venn图。
图中显示了同一组内和不同组之间可能出现的对数。我们认为,在我们的研究中,这些群体之间的差距远远小于潘基文等人。[21].
Https://doi.org/10.1371/journal.pcbi.1008794.s010
(TIF)
致谢
我们感谢Olga Vitek教授分享了她对蛋白质组数据的了解。
参考文献
00001. 1.Ravasz E、Somera AL、Mongru DA、Oltvai ZN、Barabási AL。代谢网络中模块化的层次组织。科学。2002年;297(5586):1551-1555。PMID:12202830
· 查看文章
· PubMed/NCBI
· 谷歌学者
00002. 2.Ravasz E.检测生物网络中的层次模块化。计算系统生物学。2009年;145-160。PMID:19381526
· 查看文章
· PubMed/NCBI
· 谷歌学者
00003. 3.Meinshausen N,Bühlmann P.高维图与套索变量选择。统计史册。2006年;34(3):1436-1462。
· 查看文章
· 谷歌学者
00004. 4.弗里德曼杰罗姆和哈斯蒂特雷弗和蒂斯拉尼罗伯特稀疏逆协方差估计与图形套索。生物统计学。2008年;9(3):432-441。PMID:18079126
· 查看文章
· PubMed/NCBI
· 谷歌学者
00005. 5.范J,冯Y,吴勇。通过自适应拉索和SCAD惩罚网络探索。应用统计学史册。2009年;3(2):521-541。PMID:21643444
· 查看文章
· PubMed/NCBI
· 谷歌学者
00006. 6.Danaher P,Wang P,Witten DM。用于多类逆协方差估计的联合图形套索。皇家统计学会杂志:B系列(统计方法)。2014年;76(2):373-397。PMID:24817823
· 查看文章
· PubMed/NCBI
· 谷歌学者
00007. 7.邓伟,张K,刘S,赵P,徐S,魏H,等。JRmGRN:利用来自多个组织或条件的数据,用共同的枢纽基因联合重建多基因调控网络。生物信息学。2018年;34(20):3470-3478。PMID:29718177
· 查看文章
· PubMed/NCBI
· 谷歌学者
00008. 8.冯磊,尹勇,刘C,徐K,李清,吴杰,等.蛋白质组数据分析发现与SARS-CoV-2感染相关的组织特异性网络。分子细胞生物学杂志。2020年。PMID:32642770
· 查看文章
· PubMed/NCBI
· 谷歌学者
00009. 9.劳里岑图形模型Clarendon出版社,1996年。
00010. 10.Boyd S,Parikh N,Chu E,Peleato B,Eckstein J.通过乘子交替方向法进行分布优化和统计学习。机器学习。2010年;3(1):1-122。
· 查看文章
· 谷歌学者
00011. 11.MaS,Xue L,Zou H.隐变量高斯图形模型选择的交替方向方法。神经计算2013年;25(8):2172-2198。PMID:23607561
· 查看文章
· PubMed/NCBI
· 谷歌学者
00012. 12.唐Q,杨C,彭J,徐杰,精确杂交协方差阈值联合图形套索。欧洲数据库中机器学习和知识发现联合会议。2015年;593-607。
00013. 13.元M,林y.带分组变量回归模型的选择与估计皇家统计学会杂志:B系列(统计方法)。2006年;68(1):49-67。
· 查看文章
· 谷歌学者
00014. 14.谭凯,伦敦P,莫汉K,李SI,法泽尔M,维滕D,等。使用集线器学习图形模型。机器学习研究杂志。2014年;15:3297-3331。PMID:25620891
· 查看文章
· PubMed/NCBI
· 谷歌学者
00015. 15.书名/责任者:by L.1型糖尿病的肠道微生物群。临床和实验免疫学。2014年;177(1):30-37。PMID:24628412
· 查看文章
· PubMed/NCBI
· 谷歌学者
00016. 16.MorganXC,Tickle TL,Sokol H,Gears D,Devaney KL,Ward DV,等。肠道微生物体功能障碍在炎症性肠病中的作用及治疗。基因组生物学。2012年;13(9):R79。PMID:23013615
· 查看文章
· PubMed/NCBI
· 谷歌学者
00017. 17.PryRJ,彭L,Barryna,ClinGW,Zhang D,CardonRL,等。醋酸纤维素介导微生物-大脑-β-细胞轴促进代谢综合征。自然。2016年;534(7606):213-217。PMID:27279214
· 查看文章
· PubMed/NCBI
· 谷歌学者
00018. 18.Kurtz ZD,Müller CL,Miraldi ER,Littman DR,Baser MJ,Bonneau RA,等。微生物生态网络的稀疏性和组合鲁棒性推理。PLOS计算生物学。2015年;11(5):e1004226。PMID:25950956
· 查看文章
· PubMed/NCBI
· 谷歌学者
00019. 19.作者声明:Alm EJ.从基因组调查数据推断相关网络。PLOS计算生物学。2012年;8(9):e1002687。PMID:23028285
· 查看文章
· PubMed/NCBI
· 谷歌学者
00020. 20.[2]Faust K,Sathirapongsasuti JF,Izard J,Segata N,Gvers D,Raes J,等.人类微生物群中的微生物共生关系。PLOS计算生物学。2012年;8(7):e1002606。PMID:22807668
· 查看文章
· PubMed/NCBI
· 谷歌学者
00021. 21.基于元组成分数据的微生物共生模式的研究。生物信息学。2015年;31(20):3322-3329。PMID:26079350
· 查看文章
· PubMed/NCBI
· 谷歌学者
00022. 22.方H,黄C,赵宏,邓M.CCLasso:通过Lasso进行成分数据的相关推断。生物信息学。2015年;31(19):3172-3180。PMID:26048598
· 查看文章
· PubMed/NCBI
· 谷歌学者
00023. 23.CaO Y,Lin W,Li H.利用组合调整阈值对组分数据进行大的协方差估计.美国统计协会杂志。2019年;114(526):759-772。
· 查看文章
· 谷歌学者
00024. 24.[2]Aitchison J.合成数据的统计分析。“皇家统计学会学报”:系列B(方法)。1982年;44(2):139-160。
· 查看文章
· 谷歌学者
00025. 25.Mendes P,Sha W,YeK.人工基因网络用于客观比较分析算法。生物信息学。2003年;19(补编2):i122-i129。PMID:14534181
· 查看文章
· PubMed/NCBI
· 谷歌学者
00026. 26.题名/责任者:by by L.J,Arze C,Ananthakrishnan,Schirmer M,Avila-Pacheco J,Poon TW,等.炎症性肠病肠道微生物生态系统的多组学研究。自然。2019年;569(7758):655-662。PMID:31142855
· 查看文章
· PubMed/NCBI
· 谷歌学者
00027. 27.书名/责任者:by L.克罗恩病患者粪便微生物区系失调症的自定义系统发生芯片揭示。炎症性肠病。2010年;16(12):2034-2042。PMID:20848492
· 查看文章
· PubMed/NCBI
· 谷歌学者
00028. 28.Mondot S,Barreau F,Al Nabhani Z,Dussaillant M,Le RK,DoréJ,等。免疫受损NOD 2-/-小鼠肠道微生物组成的改变。胆子。2012年;61(4):634-635。PMID:21868489
· 查看文章
· PubMed/NCBI
· 谷歌学者
00029. 29.高登德,Jang GM,Bouhaddou M,许J,Obernier K,White Km,等。SARS-CoV-2蛋白相互作用图揭示了药物再用途的靶点.自然。2020年;1-13。
· 查看文章
· 谷歌学者
00030. 30.Barabasi AL,Oltvai ZN.网络生物学:了解细胞的功能组织。自然回顾遗传学。2004年;5(2):101-113。PMID:14735121
· 查看文章
· PubMed/NCBI
· 谷歌学者
00031. 31.方H,黄C,赵H,邓M.gCoda:合成数据的条件依赖网络推断。计算生物学杂志。2017年;24(7):699-708。PMID:28489411
· 查看文章
· PubMed/NCBI
· 谷歌学者
00032. 32.元H,贺S,邓M组成数据网络分析,通过LASSO惩罚D-迹损失.生物信息学。2019年;35(18):3404-3411。PMID:31220226
· 查看文章
· PubMed/NCBI
· 谷歌学者
00033. 33.姜D,夏普顿T,江Y。微生物相互作用网络估计通过偏置校正图形拉索。生物科学统计。2020年;1-22。-医学论文发表投稿查看文章
· 谷歌学者