快速条件自适应融合图形套索及其在脑区域共表达网络建模中的应用
苏维克海豹 ,李群华,艾丽·巴特勒·巴斯纳,劳拉·萨巴,卡捷琳娜·凯克里斯
发布时间:2023 年 1 月 6 日
抽象
推断基因共表达网络是理解基因调控和通路活性的有用过程。网络通常是无向图,其中基因表示为节点,边缘表示显着的共表达关系。当多个(p)基因在多个(K)条件(例如,治疗,组织,菌株)中的表达数据可用时,利用它们之间的共享信息对网络进行联合估计可以显着提高分析能力。此外,检查条件特异性共表达模式可以提供对在特定条件下激活的潜在细胞过程的见解。条件自适应融合图形套索 (CFGL) 是一种现有方法,它将条件特异性结合到融合图形套索 (FGL) 模型中,用于估计多个共表达网络。然而,随着计算复杂度的O(p2 K log K),即使对于中等数量的基因,CFGL的当前实现也非常缓慢,并且最多只能用于三种条件。在本文中,我们提出了一种更快的CFGL替代方案,称为快速条件自适应融合图形套索(RCFGL)。在RCFGL中,我们将条件特异性纳入另一种流行的联合网络估计模型,称为融合多图形套索(FMGL)。与CFGL相比,我们在迭代步骤中使用了更有效的算法,能够以O(p)的复杂度实现更快的计算2K),并使其易于推广到三个以上的条件下。我们还提出了一种新的筛选规则,以确定是否可以将全网络估计问题分解为较小的不相交子网络的估计,从而进一步降低复杂性。与两种非条件自适应方法FGL和FMGL以及一种条件自适应方法CFGL相比,我们在仿真研究和实际数据分析中证明了该方法的计算优势和优越的性能。我们使用RCFGL使用异质性种群大鼠队列共同估计不同大脑区域(条件)的基因共表达网络。我们还提供了一个基于C和Python的包来实现RCFGL。
作者摘要
推断基因共表达网络可用于理解通路活性和基因调控。在联合估计多个条件的共表达网络时,考虑到条件特异性,例如关于边缘仅在特定条件下存在或边缘在所有条件下存在的信息,可显著提高功效。该文提出一种计算快速条件自适应方法,用于联合估计多个条件的基因共表达网络。该方法的新颖性通过广泛的模拟研究和来自遗传多样性大鼠队列的多个大脑区域的真实数据分析得到证明。
引文: Seal S, Li Q, Basner EB, Saba LM, Kechris K (2023) RCFGL:快速条件自适应融合图形套索及其在大脑区域共表达网络建模中的应用。公共科学图书馆计算生物学19(1): e1010758. https://doi.org/10.1371/journal.pcbi.1010758
编辑 器: 因娜·拉夫里克, 奥夫古;德国 医学院
收到: 2月 9, 2022;接受: 11月 24, 2022;发表: 1月 6, 2023
版权: ? 2023 印章等人。这是一篇根据知识共享署名许可条款分发的开放获取文章,该许可允许在任何媒体上不受限制地使用、分发和复制,前提是注明原作者和来源。
数据可用性: 相关软件包可在此链接中找到,https://github.com/sealx017/RCFGL。所有代码和从模拟研究中提取的结果都提供了详细的文档。真实数据可以通过GSE173141访问,https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE173141。
资金:Q.L.得到了美国国立卫生研究院(NIH)国家普通医学科学研究所(NIGMS)的资助R01GM109453。E.B.B.得到了宾夕法尼亚州立大学授予NIGMS培训补助金T32 GM102057的支持。L.M.S.和K.K.得到了NIH国家药物滥用研究所(NIDA)的支持,奖励编号为P30DA044223。L.M.S.还得到了NIDA的支持,奖励号为P50DA037844,并得到了NIH国家酒精滥用和酒精中毒研究所(NIAAA)的支持,奖励号为R24AA013162。K.K.还得到了NIH国家心脏,肺和血液研究所(NHLBI)的支持,奖励号为R01HL152735。资助者在研究设计、数据收集和分析、发表决定或手稿准备方面没有任何作用。
竞争利益: 没有宣布竞争利益。
介绍
基因共表达网络是一种无向图,其中每个节点对应一个基因,如果基因对具有显著的共表达关系,则与边缘连接[1-3]。基因共表达网络分析是揭示生物过程中复杂分子相互作用的有用工具[4-7]。拟合高斯图模型(GGM)是在各种应用中构建生物网络的常用方法[8-13]。在基因共表达网络分析的背景下,GGM假设一组基因的表达谱之间存在多元正态分布[14]。然后检查协方差矩阵(也称为“精密矩阵”)的逆估计值,以发现哪些基因对具有显着的条件依赖性,并基于依赖结构构建共表达网络。估计精度矩阵的非零非对角线元素表示网络中的边。
许多方法[15-21]都集中在上述精度矩阵的估计上。在大多数现实场景中,基因数量(p)远大于样本数量(n)。它迫使研究人员使用某种形式的正则化来诱导p维精度矩阵估计的稀疏性。Yuan and Lin [16], Banerjee et al. [17], Friedman et al. [18], 认为是具有l1正则化,称为图形套索 (GL)。求解 GL 模型是一个约束凸优化问题。乘子交替方向法 (ADMM) [22–28] 是一种广泛流行的算法,用于求解约束凸优化问题。ADMM的不同变体已被用于解决GL问题[29-34]。
在一项多条件基因共表达研究中,可以获得跨多个(K)条件的共表达谱,了解这些条件下共表达网络的相似或不同程度非常有趣[35-37]。例如,特定的共表达网络模块可以存在于肿瘤组织中,但不存在于健康组织中,因此,可以作为鉴定组织类型的关键工具。有一些方法,如DiffCoEx [38],DICER [39]和DINGO[40],特别旨在研究两种条件之间的这种差异共表达模式。从广义上讲,这些方法比较了两种条件之间每对基因的样本相关性。这种方法的问题有两个:首先,在许多数据集中,样本相关性可能不是共表达的适当衡量标准,特别是对于大量基因和有限的样本量,其次,在两个以上的条件下,这些方法独立比较条件对,因此无法进行真正意义上的联合比较。或者,利用不同条件下共享信息的共表达网络(更一般地说,任何图形网络)的联合分析可能比单个分析更强大[41,42]。融合图形套索(FGL)[43]是联合估计多个图形网络的最流行的方法之一。顾名思义,FGL 是 GL 模型在多个条件上下文中的扩展。它通过考虑多个GL似然的总和,同时估计对应于多个条件的多个精度矩阵,并进一步在各个条件下采用标准套索惩罚[44]和成对融合套索惩罚[45]。标准套索惩罚鼓励网络估计中的稀疏性,成对融合套索惩罚确保网络共享一定程度的相似性。Yang等人提出了一种类似的方法,称为融合多图形套索(FMGL)[46]。FMGL 考虑跨条件的顺序熔融套索惩罚,而不是 FGL 中考虑的成对惩罚。当只有两个条件时,FGL 和 FMGL 是等效的。这两种方法都使用迭代ADMM算法[22]来估计参数。然而,FMGL利用了最初在Condat (2013) [47]中描述的一个非常有效的中间步骤,它大大加快了计算速度(从O(K log K)到O(K))。
成对和顺序的融合套索惩罚本质上假设精度矩阵以及因此在所有条件下的共表达网络彼此同样相似。此假设是严格的,在大多数实际数据场景中可能很容易被违反。例如,两种不同肿瘤亚型的组织预计彼此之间比健康组织更相似。为了解释FGL框架中这种条件特定的相似性和差异性,Lyu等人[48]开发了条件自适应融合图形套索(CFGL)。CFGL 中考虑的惩罚项是对成对熔融套索惩罚的修改,其中包含捕获条件特异性的二进制权重矩阵。CFGL使用迭代ADMM算法来估计参数。然而,CFGL R包是有限的,因为它最多只能容纳三个条件,即使对于中等数量的基因(p ≈ 1000),速度也非常慢。因此,在具有三个以上条件和大量基因的数据集中,CFGL R包是不可伸缩的。
在本文中,我们提出了一种名为快速条件自适应融合图形套索(RCFGL)的新方法,用于联合估计多个共表达网络,该方法考虑了条件特异性,计算速度快,并且可以处理三个以上的条件。与CFGL类似,我们计算捕获成对条件特异性的二进制权重矩阵。我们没有像CFGL中考虑的那样考虑成对熔融套索惩罚,而是将计算的权重矩阵与顺序熔融套索惩罚合并。从这个意义上说,RCFGL是FMGL算法的条件自适应扩展。我们使用迭代ADMM算法[22]来估计参数。与FMGL一样,使用顺序熔融套索惩罚使我们能够使用快速算法有效地解决中间步骤[47,49,50]。这一特定步骤是CFGL面临计算障碍的主要原因之一。FGL和FMGL的作者都提出了一组必要的条件,可以在拟合模型之前对其进行研究,以评估要估计的精度矩阵中块对角线结构的存在。它可以大大减少计算时间,因为所有 O(p 阶的矩阵运算)3) 减少到 (其中 M 是大小为 p 的第 l 个块的块总数l).我们已经从理论上表明,同一组条件也可以用于RCFGL的上下文中,进一步促进计算。通过广泛的仿真研究,我们验证了所提方法的鲁棒性,并证明了其计算优势。我们还分析了来自异质种大鼠数据集的三个不同大脑区域的基因共表达网络。最后,我们构建了一个基于 C 和 Python 的包,实现了 RCFGL,https://github.com/sealx017/RCFGL。
材料和方法
假设有 p 个基因在 K 条件下具有表达谱,并且有 n 个k每种条件下的个人 k.让我们表示条件 k 下对应于第 i 个个体的 p × 1 个表达式向量。 是 nk×条件 k 下表达向量的 p 矩阵,是对应的 1 × p 列均值向量。假设 , 独立且相同地从 N 绘制p(μk, Σk) 其中和 Σk? 0(表示法 ? 0 表示正定性)。让我们表示条件 k 下的精度矩阵。在估计 Θ 时(k),基因共表达网络将通过将基因表示为节点并将条件依赖性表示为图中的边来构建。更具体地说,条件 k 下的两个基因 i, j 只会在图中连接当且仅当 在整个论文中,我们使用 1n表示所有 1′s 的 n × 1 个向量。接下来,我们讨论估计Θ的现有方法(k)的。
审查方法
融合图形套索和融合多个图形套索。
融合图形套索 (FGL) [43] 和融合多图形套索 (FMGL) [46] 最大化以下惩罚对数似然函数,
(1)
其中 是样本协方差矩阵,P(Θ) 是 Θ = {Θ 的惩罚项(1), ..., θ(K)}.如前所述,FGL和FMGL之间的唯一区别在于惩罚项P(Θ)。FGL 考虑成对熔融套索惩罚,FMGL 考虑顺序熔融套索惩罚,其形式如下, 其中 λ
1, λ2是非负调谐参数。两者的第一项 PFGL(Θ) 和 PFMGL(Θ) 是 GL 模型 [18] 中使用的套索惩罚,用于控制整体稀疏性。两种惩罚的第二项控制条件之间精度矩阵的非对角线元素的相似性。注意P的第二项FMGL(Θ)与PFGL(Θ),因为它只关注两个连续条件之间的差异。如果只有两个条件,即 K = 2,PFGL(Θ) = PFMGL(对于 K = 3,将惩罚写为 λ 的函数1, λ2,我们证明PFGL(θ, λ1, λ2) ≤ PFMGL(θ, λ1, 2λ2).对于 K > 3,我们能够建立一个粗略的连接:(S1 文本)。PFGL(Θ)鼓励所有条件对之间的相似性水平相同,PFMGL(Θ) 鼓励每对连续条件之间的相似性相同。但是,在实际情况下可能会违反这些假设。例如,两种不同的肿瘤组织亚型可能彼此更相似,而不是健康组织。因此,理想情况下,惩罚项应使其惩罚肿瘤亚型之间的差异大于惩罚肿瘤亚型之一与健康组织之间的差异。吕等.[48]通过在P中加入一个特殊的权重项来解决这个问题。FGL(Θ),这将在下一节中讨论。
条件自适应熔融图形套索。
吕等.[48] 引入了二元筛选矩阵:对于 k ≠ k′ 定义为, 权重矩阵包含在 P
FGL(Θ) 定义一个考虑条件特异性的惩罚函数,实际数据中的权重矩阵是未知的。吕等.[48]通过执行假设检验[51]来估计条件之间的差异。该检验确定精度矩阵的第 ij 项是否为:Θ
(k)和 Θ(k′)是差异。如果测试被拒绝,则设置为 0,否则设置为 1。回到两个肿瘤亚型和一个健康组织的例子,假设ij-th元素在肿瘤亚型之间是无差别的(让我们将它们表示为条件1和2),但在每个肿瘤亚型和健康组织之间是不同的(让我们将其表示为条件3)。在这种情况下,权重项将为、、和。因此,P中广(Θ)将惩罚肿瘤亚型之间的差异,但不会惩罚其中一种肿瘤亚型与ij-th元素的健康组织之间的差异。
建议的方法
型。
我们建议使用新的惩罚项最大化(1)的惩罚对数可能性。我们考虑二进制权重矩阵:W(kk′)在上一节中讨论并将它们包含在 P 中FMGL(Θ) 代替 PFGL(Θ) 如 CFGL。因此,我们提出的惩罚项具有以下形式,我们命名该方法快速条件自适应融合图形套索(RCFGL),因为它提供的计算速度超过CFGL。请注意,当 K = 2 时,RCFGL 等价于 CFGL(因为 P
中广(Θ) = PRCFGL(表示所有权重矩阵的集合,W = {Wkk′: k < k′}.对于 K > 2,将惩罚写为 λ 的函数1, λ2,W,我们显示P中广(θ, λ1, λ2, W) ≤ PRCFGL(θ, λ1, λ2, W*),其中 W* = {W *(kk+1): k = 1, ..., K ? 1} 是一组略微修改的权重矩阵(S1 文本)。
到目前为止讨论的所有方法都考虑了惩罚函数,它们是两个单独惩罚的总和:第一个是控制整体稀疏性的标准套索惩罚,第二个是控制条件之间相似性的惩罚。这些方法仅在第二个处罚期限方面彼此不同。在第二个惩罚条款中,FGL和CFGL考虑条件之间所有可能的成对差异,而FMGL和RCFGL仅考虑顺序差异。CFGL和RCFGL通过合并权重来考虑条件特异性,而FGL和FMGL不是条件自适应的(表1)。
缩略图 下载:
.PPT幻灯片
.PNG大图
.TIFF原始图像
表 1. 不同方法中使用的惩罚函数。
不同的方法考虑惩罚函数,它们是两个单独惩罚的总和,它们仅在第二项中有所不同。该表根据方法是否具有条件自适应以及是否使用顺序差值对每种方法的第二个惩罚项进行分类。
https://doi.org/10.1371/journal.pcbi.1010758.t001
ADMM 算法。
我们使用迭代ADMM算法[22]来最大化惩罚的对数似然。我们的算法与 FGL [43] 和 CFGL [48] 中使用的算法非常相似,但进行了一些关键修改。该算法需要几个中间变量,例如Z,U,它们没有任何直接解释。我们将问题重写为,并结合正定性约束:Θ
(k)? 0 表示 k = 1, ..., K 和 Z 的约束(k) = Θ(k)对于 k = 1, ..., K,其中 Z = {Z(1), ..., Z(K)}.相应的缩放增强拉格朗日量 [22] 可以写成:
(2)
其中 U = {U(1), ..., U(K)} 是双变量,ρ 是惩罚参数,||.||F表示弗罗贝尼乌斯规范。
算法如下,
初始化变量:Θ(k) = I, Z(k)= 0, U(k) = 0 表示 k = 1, ..., K。
选择一个常量 ρ > 0。
对于 i = 1, 2, 3, ...直到收敛:
我。 对于 k = 1, ..., K,更新为最小化器(相对于 [w.r.t] Θ(k)) 的。
让 VDVT表示 的特征分解。
上述最小化 [52] 的解由下式给出,其中 j 对角线元素的对角矩阵为
ii. 更新 Z(我)作为 的最小化器 (w.r.t Z) 的问题可以改写为, 用 P 的实际表达式
RCFGL(Z)上述问题采取的形式,上述问题是完全可分的w.r.t每对矩阵元素(i,j),其中i≠j。这意味着对于每对(i,j),可以独立求解以下最小化问题:
(3)
这个问题被称为加权一维熔融套索信号逼近器,可以非常有效地解决。
iii. 对于 k = 1, ..., K,更新为 。
使用顺序熔融套索惩罚而不是成对熔融套索惩罚是有益的步骤在方程 (3) 中。当对于所有 k = 1, ..., K ? 1 时,方程 3 的问题成为一维融合套索信号近似器 [45, 53],Condat 等人的算法 [47] 提供了有效且精确的解决方案。FMGL [46] 的 MATLAB 包也使用这种特定的算法。Condat 等人的算法 [47] 将融合套索信号近似器视为一维全变分去噪问题 [54]。当对于至少一个k时,方程3的问题可以被认为是加权一维总变化问题(其中权重为1或0)的特殊情况。有一种有效的“紧缩弦”算法[49,50]用于解决加权一维总变化去噪问题。
Condat 等人的算法 [47] 和“紧紧弦”算法 [49, 50] 在大多数实际场景中都具有 O(K) 的计算复杂度。回想一下,FGL [43] 使用成对熔融套索惩罚,这会导致在 Z 更新步骤中出现一般熔融套索近似器 [45, 53]。FGL遵循路径算法[53]来解决上述步骤,该步骤的计算复杂度为O(K log K)。在CFGL [48]中,作者完全解决了K = 2和3的Z更新步骤,但没有为K >3提供任何解决方案。有关权重矩阵计算的详细信息:Wkk+1对于k = 1, ..., K ? 1,我们参考CFGL论文[48]。
检测精密矩阵中的块对角线结构。
在这里,我们提出了一个涉及一组充分条件的定理,这些条件可以在拟合ADMM算法之前进行检查,并可能产生实质性的计算收益。类似的定理也被用于FGL [43]和FMGL [46]。使用该定理,可以检查样本协方差矩阵 S(1), ..., S(K)确定 RCFGL 问题的解,即精度矩阵的估计值:对于 k = 1,...,K,在基因的某种排列之后是否是块对角线。检查基于将 的绝对值与调谐参数 λ 进行比较1.
定理 1 用 C 表示 p 基因的集合,假设 C s.t. C 有许多不相交的子集1? C2? ...? CM = 三.对于C中的基因l与 C 语言完全断开连接l′ 在每个结果估计中,对于 k = 1, 2, ?, K, ?i ∈ C 就足够了l, j ∈ Cl′.
使用定理 1,对于给定值 λ1,假设我们发现估计的精度矩阵:对于 k = 1, ..., K,将与 M 块对角线,即它们将具有以下形式,
(4)
其中 k = 1, ..., K 具有相同的维度并对应于相同的基因子集:Cl.这意味着不是解决全 Θ 的 RCFGL 问题(k),可以独立地解决 l = 1, ..., M 的 RCFGL 问题。这大大降低了计算复杂性。设每个块的维度为 pl×页l(子集 C 的大小l是 pl),其中 上一节讨论的ADMM算法涉及K个p×p矩阵的特征分解,这占用了O(Kp)的计算复杂度3).然而,求解块 RCFGL 问题将仅具有 的计算复杂度。定理 1 的证明可以在 S1 文本中找到。
调整参数选择。
按照 [43, 48] 的建议选择调谐参数 λ1, λ2,我们使用赤池信息准则 (AIC) 的近似值,是使用调谐参数 λ 估计的第 k 个条件的精度矩阵
1和 λ2和 Ek是 中唯一非零元素的数量。然后可以执行网格搜索以选择 λ1和 λ2最小化 AIC(λ1, λ2) 分数。然而,正如[43]所指出的,这种方法可能倾向于选择太大而没有用的模型。因此,在许多情况下,模型选择更好地以实际考虑为指导,例如网络可解释性和稳定性。
条件排序的影响。
我们的处罚期限,PRCFGL(Θ) 仅考虑条件之间的顺序差异。这意味着条件的不同顺序会产生不同的惩罚水平。例如,假设有三个条件:1、2 和 3,其中 1 的网络与 3 的网络相同,但 2 的网络完全不同(Θ(1) = Θ(3)≠ Θ(2)).如果我们考虑序列(1,3,2),PRCFGL(Θ) 将包括以下项:鼓励 1 和 3 的估计网络的相似性。但是,如果我们考虑序列(1,2,3),PRCFGL(Θ) 将不包括这些项,因此不会鼓励 Θ 之间的相似性(1), θ(3).因此,使用特定的条件顺序来放置更相似的条件可能会更强大。我们在模拟研究中研究了错误指定顺序的影响。
排序可以基于有关条件之间相似程度的可用生物学信息,例如细胞谱系中的关系。或者,我们可以使用基于基因表达数据 Y 的分层聚类(k), k = 1, ..., K 和其他复杂的数据驱动方式来获得合适的排序。例如,这里我们讨论一种基于比较不同条件的样本协方差矩阵的简单方法。更具体地说,我们计算条件 k 的样本协方差矩阵。然后,我们将一对条件 (k, k′) 之间的欧几里得距离视为, 我们将生成的距离矩阵(在所有条件之间)进行分层聚类,以识别彼此更近或更远的条件,并使用这些关系对 RCFGL 中的条件进行排序。在我们的模拟研究中,该程序每次都能检测到正确的顺序。
软件实施。
我们主要使用Condat et。al. 的算法 [47] 可作为 C 代码和一个名为 proxTV 的 Python 模块来构建我们名为 RCFGL 的包,可在此处获得。我们提供了一个Jupyter笔记本[55],其中包含拟合RCFGL模型的详细指南。此外,我们还提供了FMGL模型的实现,我们称之为RFGL,这是快速融合图形套索的首字母缩写。条件的顺序可以由用户指定。我们还提供可视化估计网络并跨条件比较的功能。开发的软件包可以在 此链接 https://github.com/sealx017/RCFGL.本手稿的模拟研究中使用的所有代码也都提供了详细的文档。
模拟设置。
我们考虑了七种不同的模拟场景,(S1)、(S2)、...和(S7),在下面描述的条件下具有不同程度的差异。在每种情况下,我们考虑了500个基因和100个受试者。每个基因共表达网络由5个大小相等的子网络组成,每个子网络由100个基因组成。
在前四个仿真场景中,我们的目标是将RCFGL与其他三种方法(即FGL,FMGL(简称RFGL)和CFGL在估计精度和计算时间方面进行比较。
在(S1)和(S2)中,都考虑了三个条件,即K = 3。在(S1)中,前两个网络完全相同,而第三个网络仅与前两个网络共享三个子网络,其他两个子网是独立生成的。在(S2)中,前两个网络再次完全相同,但第三个网络不与前两个网络共享任何共同的子网,即其所有5个子网都是独立生成的。
在(S3)和(S4)中,考虑了四个条件,即K = 4。在 (S3) 中,前两个和后两个网络彼此相同。在 (S4) 中,只有前两个网络相同,另外两个网络不同。
在最后三个仿真场景中,我们研究了条件排序对三个和四个条件的RCFGL性能的影响。在(S5)中,考虑了三个条件。第一个和第三个条件具有相同的网络,而第二个网络则完全不同。在(S6)和(S7)中,考虑了四个条件。在(S6)中,第一个和第三个网络是相同的,另外两个是不同的。在(S7)中,第一个和第四个网络是相同的,另外两个是不同的。
所有场景都根据图1中不同条件的精度矩阵进行总结。接下来,我们描述如何模拟上述网络和相应的边缘权重。
缩略图 下载:
.PPT幻灯片
.PNG大图
.TIFF原始图像
图1. 不同仿真场景下不同条件下不同条件下精度矩阵之间的关系。
请注意,在 (S1) 中,前两个条件具有完全相同的网络,而第三个条件的网络部分相似,仅共享前三个块。在(S2)和以下仿真场景中,没有考虑这种部分相似性,条件要么共享整个网络,要么完全不同。
https://doi.org/10.1371/journal.pcbi.1010758.g001
为了模拟现实世界的生物网络结构[48,56],我们使用Barabasi-Albert模型[57]来模拟未加权的网络拓扑,即具有指示元素的邻接矩阵,如果一对基因之间存在边缘,则为1,否则为0。接下来,第 k 个加权网络 A(k)生成为,其中 Unif(D) 是指 D = [?0.9, ?0.6] ∪ [0.6, 0.9] 的均匀分布。为了确保加权网络是正定的,执行的特征值平差为:
*(k) = 一个(k)+ |δ(k)|我,在哪里δ(k)是 A 的最小特征值(k).基于 A*(k)、协方差矩阵 Σk = [ΣK(i,j)]构造为,协方差矩阵Σ
k(因此 Θ(k)),模拟第i个受试者在条件k下的基因表达载体为。在每个模拟场景中考虑了十次重复,并报告了平均结果。
真实数据。
使用Illumina HiSeq 4000平台上的高通量RNA测序和poly-A选择方案(GSE173141)测量来自三个大脑区域的RNA表达。原始数据集[58]包括来自88只酒精和药物幼稚异质种大鼠的组织,大多数大鼠具有来自所有区域的RNA-Seq文库。每只大鼠和大脑区域的平均原始读数为2670万。经过广泛的质量控制,83只大鼠保留了来自外侧habenula(LHB)核心的RNA-Seq,84只大鼠具有来自边缘下(IL)皮层的数据,82只大鼠具有来自边缘前(PL)皮层的数据[59,60]。使用cutAdapt修剪读取以删除适配器和低质量的基本调用[61]。然后使用RSEM(RNA-Seq期望最大化;[62])。 最初使用R中EDASeq包中的通道间归一化函数将上分位数标度应用于单个基因的估计读取计数[63]。然后使用正则化 (r)log 使用 R [64] 中的 DESeq2 包转换读取计数。最后,使用sva R包中的ComBat函数进行了批量效果调整[65]。在这份手稿中,我们专注于所有三个大脑区域共有的15,421个蛋白质编码基因,以及64只大鼠在所有三个大脑区域中都有所有这些基因的数据。有关数据集的更多详细信息,请参阅 S1 文本。
评估绩效的措施。
在仿真研究中,基于网络拓扑和边权重评估了方法的估计性能。将真实精度矩阵表示为 Θ(k)以及 k = 1, ..., K 的估计精度矩阵。我们首先通过以下方式确定真假阳性和假阴性。如果第 i 条边存在于第 k 个条件的真实网络中,即,并且在估计网络中也被识别,即,它被计为真阳性 (TP)。在这里,tol 是定义边的选定公差级别,它保持在 0.01。类似地,如果边缘在真实网络中不存在,即在估计网络中被识别,则将其计为误报(FP)。如果边缘存在于真实网络中,但在估计网络中未被识别,即,则将其计为假阴性(FN)。接下来,计算精度(=)和召回率(=)以绘制精度-召回率曲线。为了判断边权重估计的准确性,我们计算了估计和真实精度矩阵之间的平方误差(SSE)总和:。我们比较了基于具有 32 GB RAM 的 MacOS 系统和具有 8 个内核的英特尔 i9 CPU 的方法的运行时间。
在实际数据分析中,我们首先比较了不同方法的运行时间。接下来,我们比较了RFGL和RCFGL的估计性能,以评估条件自适应估计在此背景下的优势。为了证明RCFGL和CFGL的结果有多相似,我们根据估计的精度矩阵的绝对值检查了每个大脑区域的顶部Z边缘。设CFGL检测到的区域LHB,IL和PL的顶部Z边缘的集合分别用M表示1, M2和米3RCFGL 的那些表示为 N1, N2和 N3.在数学术语中,我们查看了以下比例,也称为杰卡德指数[66],
(5)
对于不同的 Z 值。pro(Z) 的值接近 1 意味着两种方法都产生了相同的顶部 Z 边缘。如前所述,RCFGL和CFGL的惩罚条款具有特殊的不平等性,P中广(θ, λ1, λ2, W) ≤ PRCFGL(θ, λ1, λ2, W*),其中 W* 是一组修改后的权重矩阵,定义为 W* = (W*12, W*23),其中 W*12 = W12 + W13和 W*23 = W23 + W13(请参阅建议的方法部分和 S1 文本)。因此,为了更好地与CFGL保持一致,我们用修改后的权重矩阵W*集拟合了RCFGL。
为了检查RCFGL网络分析结果的生物学相关性,我们首先确定了每个大脑区域中的枢纽基因,定义为具有五个以上连接的基因。然后,我们检查了哪些枢纽基因在内侧前额叶皮层区域IL和PL中具有相似的程度,但在LHB区域中具有不同的程度。最后,我们分别研究了两组基因的功能富集:程度从IL和PL降低到LHB的基因,以及从IL和PL增加到LHB的基因。使用ShinyGO工具(版本0.76.2;http://bioinformatics.sdstate.edu/go/;[67])为简单起见,指定了KEGG通路和基因本体(GO)生物过程数据库。报告了至少具有三个相关基因且FDR<0.05的途径。
结果
模拟研究
我们在仿真设置部分所述的七个仿真场景中评估了 RCFGL 的性能。为了安装FGL和CFGL,我们使用了相应的R包,为了安装FMGL(简称RFGL)和RCFGL,我们使用了我们的包。方法RFGL,FGL,RCFGL,CFGL在所有图中用不同颜色的线条表示。它们使用相同的超参数集运行,(λ1, λ2).不同的λ1的检测边缘数不同,λ 值不同2将相似性惩罚从低到高调制。
具有三种条件的模拟。
(S1)和(S2)之间的差异在于整个网络的相似性水平。正如方法回顾中所讨论的,FGL和RFGL都假设所有条件的网络具有相同的相似性。场景(S1)接近该假设,而(S2)违反了它,因为第三个网络与前两个网络没有任何相似之处。图2和图3分别显示了边缘检测的精度-召回率曲线和方法的SSE。图 4 显示了不同方法的运行时间比较。在低值到高值 λ1因为它控制网络的密度,并且更密集的网络可能需要更多时间来估计。
缩略图 下载:
.PPT幻灯片
.PNG大图
.TIFF原始图像
图2. 三种条件下模拟的边缘检测性能比较。
顶行和底行分别对应于情景 (S1) 和情景 (S2) 中的精度-召回率曲线。x 轴和 y 轴分别对应于不同 λ 值的方法的召回率和精度1.三种不同的λ值2被考虑。
https://doi.org/10.1371/journal.pcbi.1010758.g002
thumbnail 下载:
.PPT幻灯片
.PNG大图
.TIFF原始图像
图3. 三种条件下仿真的边权重估计性能比较。
顶行和下行分别对应场景 (S1) 和场景 (S2) 中方法的 SSE。x 轴和 y 轴分别对应于检测到的边缘总数和不同值 λ 的 SSE1.三种不同的λ值2被考虑。
https://doi.org/10.1371/journal.pcbi.1010758.g003
thumbnail 下载:
.PPT幻灯片
.PNG大图
.TIFF原始图像
图4. 具有三个和四个条件的模拟的运行时间比较。
顶行对应于场景 (S1) 和场景 (S2) 中不同方法的运行时间(以秒为单位)。底行对应于场景 (S3) 和场景 (S4) 中的运行时。对于 x 轴 λ1从低到高不等,生成越来越稀疏的网络。对于 λ 的每个值1,三个值 λ 的平均运行时间2被报道。
https://doi.org/10.1371/journal.pcbi.1010758.g004
由于CFGL是FGL的条件自适应扩展,而RCFGL是RFGL的条件自适应扩展,因此成对比较这些方法是明智的。在情景(S1)中,所有方法在边缘检测方面具有几乎相同的精度-召回率曲线(图2),特别是对于较小的λ2.然而,在情景(S2)中,在所有条件对中违反了相同水平相似性的假设,CFGL和RCFGL分别获得了比非条件自适应对应物FGL和RFGL更好的精度召回率曲线。此外,在λ的所有三个值的两种情况下,CFGL和RCFGL的SSE都比FGL和RFGL显着降低。2 (图3)。这说明了条件自适应方法相对于简单方法的优势,特别是当某些条件对具有不同程度的相似性时。与所有其他方法相比,CFGL的运行时间明显更长,而RFGL和RCFGL只花费了该时间的一小部分(图4)。RFGL明显快于FGL。因此,当存在许多基因和大量条件时,RFGL可以通过FGL用于更快的网络探索。RCFGL也比FGL更快,因此可以在与非条件自适应网络估计模型(如FGL)相似的时间内执行条件自适应网络估计。
模拟四种条件。
接下来,我们评估了RCFGL在具有四个条件的场景中的性能。在这种情况下,CFGL R 包不可用,并且在比较中被省略了。场景(S3)接近于FGL和RFGL的假设,即所有网络都具有相同程度的相似性,而(S4)违反了该假设。在所有情况下,与其他方法相比,RCFGL的精度-召回率曲线始终更好(图5)。对于较大的 λ 值2,RFGL的精度-召回率曲线与FGL的曲线非常接近。与RFGL和FGL相比,RCFGL在所有λ值的两种情况下的SSE也显着降低2 (图6)。与FGL相比,RCFGL的运行时间明显缩短,特别是对于较小的λ1的(图 4)。它重申了我们之前的观点,即使用 RCFGL 可以比非条件自适应网络估计模型(如 FGL)更快地执行条件自适应网络估计。
thumbnail 下载:
.PPT幻灯片
.PNG大图
.TIFF原始图像
图5. 四种条件下仿真的边缘检测性能比较。
顶行和底行分别对应于情景 (S3) 和情景 (S4) 中的 ROC 曲线。对于不同的λ 1.三种不同的λ值2被考虑。
https://doi.org/10.1371/journal.pcbi.1010758.g005
thumbnail 下载:
.PPT幻灯片
.PNG大图
.TIFF原始图像
图6. 三种条件下仿真的边权重估计性能比较。
顶部和底部行分别对应于场景 (S3) 和场景 (S4) 中方法的 SSE。x 轴和 y 轴分别对应于检测到的边缘总数和不同值 λ 的 SSE1.三种不同的λ值2被考虑。
https://doi.org/10.1371/journal.pcbi.1010758.g006
对条件排序的敏感性。
接下来,我们研究了条件的不同排序对RCFGL的影响。请注意,在 (S7) 中,彼此“远离”的两个条件(条件 1 和 4)具有相同的网络,而在 (S6) 中,两个相对较近的条件(条件 1 和 3)具有相同的网络。我们将RCFGL的性能与条件的“不正确”排序((S5)和(S6)和(S7)的(1,2,3,4)与条件的“正确”排序((S5)的(1,3,2),(S6)的(1,4,2,3)和(S7)的(1,4,2,3))的性能进行了比较。在图中,我们将后者称为RCFGL-C,预计它的性能最好。我们将常规RCFGL和RCFGL-C与FGL进行了比较,因为它是唯一不受排序影响的方法(CFGL也不会受到影响,但不能与4个条件一起使用)。图7显示了用于边缘权重估计的SSE。在(S5)中,RCFGL和RCFGL-C具有相似的SSE值,除了最小的λ2.在 (S6) 和 (S7) 中,对于较小的 λ2,与RCFGL相比,RCFGL-C的SSE明显更好。然而,与FGL相比,RCFGL在所有λ2.因此,可以得出结论,“不正确”排序的影响在三个以上的条件下会产生更大的影响,特别是当两个“远离”彼此的条件相似时。
thumbnail 下载:
.PPT幻灯片
.PNG大图
.TIFF原始图像
图 7. 边权重估计性能比较,用于研究排序效果的模拟。
顶行对应于具有三个条件的方案 (S5),接下来的两行对应于方案 (S6) 和 (S7),每个方案都有四个条件。x 轴和 y 轴分别对应于检测到的边缘总数和不同值 λ 的 SSE1.
https://doi.org/10.1371/journal.pcbi.1010758.g007
我们在条件排序的影响部分中讨论的过程能够检测到每个场景中的正确顺序,即,它将相似的条件并排放置,即 (S5)、(S6) 中的条件 (1, 3) 和 (S7) 中的条件 (1, 3)。因此,使用建议的阶次检测程序,我们实现了RCFGL-C的最佳性能。
真实数据分析
在真实数据中,真正的网络是未知的,因此,我们专注于通过不同方法及其运行时间来检查估计网络的一致性,然后进行简短的基因集富集分析。内侧前额叶皮层区域IL和PL在解剖学上更近,许多研究发现在整体结构和调节功能方面相似[68-70]。在我们的数据集中,与LHB相比,IL和PL在基于分层聚类的基因表达方面也相似(S2图)。与FGL和RFGL相比,条件自适应方法(如CFGL和RCFGL)有望检测到IL和PL之间更多的共同边缘。
时间比较。
FGL和CFGL在计算上都是不可行的,可以在所有15,421个基因上运行。因此,我们专注于通过基于变异系数(CV)的修剪获得的较小基因集[71]。为了修剪,我们连接了来自所有区域的基因表达数据,并计算了每个基因的CV(平均值与SD的比率)。接下来,我们从分析中删除了CV小于某个临界值的基因。例如,去除CV<0.02的基因给我们留下了1,106个基因,而去除CV<0.04的基因只剩下201个基因。我们考虑了五个这样的CV临界值,0.015,0.02,0.025,0.03和0.04。RFGL和RCFGL所花费的时间始终只是FGL和CFGL所花费时间的一小部分(表2)。对于0.015的CV临界值,样本中有4706个基因。在这种情况下,我们只报告了RFGL和RCFGL所花费的时间,因为FGL和CFGL都需要花费过多的时间(超过10小时)来收敛。还应该提到的是,我们使用功能更强大的戴尔PowerEdge R740XD服务器,使用具有44个内核的Intel Xeon Gold 6152 2.1G X X (2) CPU,在具有15,421个基因的完整数据集上应用了RFGL和RCFGL,它们分别花费了大约4个小时和7个小时。
thumbnail 下载:
.PPT幻灯片
.PNG大图
.TIFF原始图像
表 2. 基于不同 CV 截止值修剪后留下的基因的不同方法的运行时间(以秒为单位)。
λ1和 λ2分别保持在0.01和0.02。标记“X”表示由于需要过多的时间,我们无法运行这些方法。
https://doi.org/10.1371/journal.pcbi.1010758.t002
RFGL和RCFGL的比较。
接下来,我们比较了RFGL和RCFGL估计的网络。我们考虑了557个基因的集合,这些基因是通过根据0.025的CV截止值修剪整套基因而获得的。为了解决估计网络中的可变性,我们重复了以下过程50次。每次,我们从557个基因集中随机选择500个基因,并使用RFGL和RCFGL估计λ1= 0.01 和三个值 λ2.为了研究两种方法检测到的边缘的大脑区域特异性,我们将识别的边缘分为七个相互排斥的类别:仅LHB区域,仅IL区域,仅PL区域,LHB-IL共享,IL-PL共享,PL-LHB共享和所有区域之间共享。图8显示了两种方法检测到的边缘比例的箱线图。如前所述,我们预计与区域LHB相比,区域IL和PL共享更多的边缘,条件自适应方法应该更好地捕获这一点。与预期一致,我们注意到与RFGL相比,RCFGL检测到更多的IL-PL特异性边缘,差异变得越来越明显,因为λ2增加。我们进行了成对t检验,以确定该观察结果的统计学意义。对于 λ 的三个值2、0.02、0.03和0.04,p值分别为0.01、6e-12和2e-16,表明RFGL和RCFGL检测到的IL-PL特异性边缘数量之间的差异具有统计学意义。RCFGL还检测到更多的LHB特定边缘。RFGL产生了更多所有区域之间共有的边缘。λ 的大值2这意味着施加非常高的相似性惩罚,这将迫使三个区域的估计网络彼此非常接近。因此,随着我们增加λ2,这两种方法都产生了更多所有三个区域之间的共同边,以及特定于单个区域或一对区域的较少边。
thumbnail 下载:
.PPT幻灯片
.PNG大图
.TIFF原始图像
图8. 真实数据中RFGL和RCFGL边缘检测的比较。
y 轴对应于所有边中七个互斥类别中的边的比例。类别是耦合的,显示在三列中。第一列具有特定于不同区域的边缘。第二列具有特定于不同区域对的边,第三列具有所有区域共有的边。从上到下的行分别对应于 λ 的三个不同值2、0.02、0.03 和 0.04。
https://doi.org/10.1371/journal.pcbi.1010758.g008
RCFGL和CFGL的比较。
接下来,我们比较了RCFGL与CFGL在557个基因集上的表现(CV临界值<0.025)。我们保持 λ1在 0.01 和变化 λ2从低到高。我们比较了两种方法检测到的前Z边缘,以研究一致性程度。我们使用等式 5 中的测量 prop(Z) 来表示 Z 的几个值。在所有情况下,RCFGL和CFGL检测到的顶部边缘都非常匹配(prop(Z)>0.85)(表3)。协议预期增加为 λ2增加,因为对于较大的 λ 值2,RCFGL 和 CFGL 的处罚条款之间的差异变得很小,使它们在理论上非常接近。
thumbnail 下载:
.PPT幻灯片
.PNG大图
.TIFF原始图像
表 3. RCFGL 和 CFGL 检测到的顶部边缘重叠的比例。
对于 Z 和 λ 的不同值,单元格对应于 prop(Z)2.
https://doi.org/10.1371/journal.pcbi.1010758.t003
基因集富集分析。
我们的下一个目标是使用评估性能的措施部分中描述的方法,通过RCFGL确定估计网络的枢纽基因的生物学功能。我们在 1106 个基因(CV 截止值 < 0.02)上运行 RCFGL,λ1= 0.01 和变化值 λ2= 0.001、0.0025、0.005、0.01 和 0.05。有关基因的完整列表,请参阅 S1 文件。在λ2= 0.01,我们解释了相应的网络估计值。有11个基因在内侧前额叶皮层区域IL和PL中高度连接,但在LHB中失去了这种连接。这11个基因高度富集(FDR < 0.01),用于“对皮质类固醇的反应”(GO:0031960)和类似的GO术语。这遵循了对这两个大脑区域之间差异的已知信息。内侧前额叶皮层作为应激调节的主要部位之一和糖皮质激素作用的关键部位,具有公认的作用[72]。相反,LHB位于更下游,从内侧前额叶皮层接收应激相关信号[73]。同样,57个基因在LHB中高度连接,但在内侧前额叶皮层中失去了这种连接。这些基因被富集为“用于IgA产生的肠道免疫网络”(KEGG途径)。小胶质细胞是大脑中主要的免疫相关细胞类型。最近的几项研究表明,这些细胞在大脑区域之间存在异质性[74,75],因此与免疫反应相关的基因的连通性在不同大脑区域之间存在差异也就不足为奇了。其他富集结果可以在表4和表5中找到,分别列出了使用两组枢纽基因检测到的顶级途径:程度从IL和PL降低到LHB的基因以及程度增加的基因。有关这两组基因的名称,请参阅 S2 和 S3 文件。图9显示了这三个大脑区域中这两组基因之间的估计网络。对应于区域IL和PL的网络看起来比LHB更相似。
thumbnail 下载:
.PPT幻灯片
.PNG大图
.TIFF原始图像
图 9. 程度从IL和PL变为LHB的枢纽基因之间的网络。
顶行对应度数从IL和PL降低到LHB的基因,底行对应度数增加的基因。
https://doi.org/10.1371/journal.pcbi.1010758.g009
thumbnail 下载:
.PPT幻灯片
.PNG大图
.TIFF原始图像
表 4. 通过对程度从IL和PL降低到LHB的枢纽基因的富集分析检测到的顶级途径。
https://doi.org/10.1371/journal.pcbi.1010758.t004
thumbnail 下载:
.PPT幻灯片
.PNG大图
.TIFF原始图像
表 5. 通过对程度从IL和PL增加到LHB的枢纽基因的富集分析检测到的顶级途径。
https://doi.org/10.1371/journal.pcbi.1010758.t005
讨论
我们提出了一种名为快速条件自适应融合图形套索(RCFGL)的方法,用于联合估计多个条件的基因共表达网络。与名为条件自适应融合图形套索(CFGL)的现有方法类似,我们计算每对条件之间的数据驱动的权重项,存储有关特定于对的共表达模式的信息。我们将权重项包含在顺序熔融套索惩罚中,这是先前在称为融合多图形套索 (FMGL) 的方法中考虑的惩罚。由于CFGL被解释为融合图形套索(FGL)方法的条件自适应扩展,因此RCFGL可以解释为FMGL的条件自适应扩展。与CFGL不同,RCFGL的计算速度要快得多,可用于同时分析三个以上的条件。正如我们在仿真研究和真实数据分析中看到的那样,RCFGL和CFGL的性能非常可比。这两种方法的性能都优于非条件自适应方法FMGL(图中称为RFGL)和FGL。我们已经证明了在大多数情况下,RCFGL与CFGL甚至FGL相比有多快。
我们考虑了具有三个和四个条件的模拟场景。在3个条件下,RCFGL和CFGL均比非条件自适应方法FMGL和FGL获得了更好的精度-召回率曲线和更小的平方误差(SSE),特别是在条件之间存在不同相似度时。此外,RCFGL只花费了CFGL的一小部分时间。在四个条件下,RCFGL除了在计算上比FGL快得多之外,还实现了比FMGL(RFGL)和FGL更好的性能。作为真实数据分析的例子,我们分析了来自三个大脑区域的基因表达数据,两个内侧前额叶皮层区域IL和PL以及另一个名为LHB的区域,来自异质性大鼠的股票小组。我们首先比较了不同方法估计具有不同基因集的共表达网络所需的时间,再次显示了RCFGL的计算可行性。然后,我们比较了FMGL(RFGL)和RCFGL的性能。结果表明,网络估计在后者中可能更胜一筹,因为它可以检测到仅在IL和PL之间共享的更多边缘,这两个内侧前额叶皮层区域与其他区域LHB相比预计更相似。最后,我们使用RCFGL估计网络的枢纽基因进行富集分析,RCFGL的程度从IL和PL降低到LHB区域,发现与应激调节和糖皮质激素作用有关。
尽管我们的方法是为了估计基因共表达网络而开发的,但它可以应用于任何需要联合估计多个网络的数据集,并且将从考虑条件特异性中受益。在本文中,我们最多考虑了四个条件。但是,RCFGL 的运行时间相对于条件的数量近似线性,这使得只要结果保持可解释性,它就可以针对任意数量的条件进行扩展。然而,RCFGL和CFGL的一个限制是捕获有关对特异性共表达模式信息的权重项是二进制的。也就是说,如果预期边同时存在于条件中,则一对条件之间的边的权重取值 1,否则取值 0。未来的扩展将允许连续的价值权重条款,这将允许更大的灵活性,并有可能提高性能。
RCFGL以基于C和Python的开源软件包的形式实现,可在此链接 https://github.com/sealx017/RCFGL 获得详细的Jupyter笔记本。该软件包还实现了非条件自适应方法FMGL(RFGL)。请注意,FMGL的作者提供了一个需要MATLAB的软件包,因此它不是完全开源的。我们的软件包可以用作其软件包的开源替代品。该软件包还包括几个用于下游分析的工具,例如跨条件比较网络以及可视化常见或特定于对的网络。用于生成和分析模拟研究数据集的代码也提供了详细的文档。
披露
内容完全由作者负责,并不一定代表美国国立卫生研究院的官方观点。
支持信息
所提方法的工作流程。
显示 1/6: pcbi.1010758.s001.tiff
跳到无花果共享导航
https://ndownloader.figstatic.com/files/38738797/preview/38738797/preview.jpg
1 / 6
下载
无花果分享
S1 图 所提方法的工作流程。
多个(p)基因的表达数据在开始时在多个(K)条件下可用。在下一步中,探索连续条件对之间的相似性和不相异性对特定模式。在最后一步中,拟合完整模型以使用所提出的模型联合估计所有网络。
https://doi.org/10.1371/journal.pcbi.1010758.s001
(蒂夫)
S2 图 基于三个大脑区域的基因表达数据的分层聚类。
我们将1106个基因的表达数据(修剪后留下的变异系数(CV)截止值为0.02)连接起来,并计算了每对大脑区域之间的欧氏距离。接下来,对距离矩阵进行分层聚类,揭示相似性顺序。
https://doi.org/10.1371/journal.pcbi.1010758.s002
(蒂夫)
S1 文本。 定理的证明,惩罚项和质量控制步骤之间的联系。
我们提供了用于检测精密矩阵中块对角线结构的定理证明,并推导出了不同方法中使用的惩罚项之间的联系。我们还列出了实际数据修剪中使用的质量控制步骤。
https://doi.org/10.1371/journal.pcbi.1010758.s003
(英文)
S1 文件。 富集分析中使用的所有基因的列表。
我们提供了富集分析中使用的1106个基因的列表。
https://doi.org/10.1371/journal.pcbi.1010758.s004
(中新社)
S2 文件。 程度从IL和PL降低到LHB的枢纽基因列表。
我们提供了IL和PL网络中程度低于LHB网络的基因列表。
https://doi.org/10.1371/journal.pcbi.1010758.s005
(中新社)
S3 文件。 程度从IL和PL增加到LHB的枢纽基因列表。
我们提供了IL和PL网络中程度高于LHB网络的基因列表。
https://doi.org/10.1371/journal.pcbi.1010758.s006
(中新社)
引用
1米斯图尔特 JM, 西格尔 E, 科勒 D, 金 SK.用于全球发现保守遗传模块的基因共表达网络。科学。2003;302(5643):249–255.密码:12934013
查看文章PubMed/NCBI谷歌学术搜索
2米Yang Y, Han L, Yuan Y, Li J, Hei N, Liang H. 基因共表达网络分析揭示了不同癌症类型预后基因的共同系统级特性。自然通讯。2014;5(1):1–9.pmid:24488081
查看文章PubMed/NCBI谷歌学术搜索
3米范达姆 S, 沃萨 U, 范德格拉夫 A, 弗兰克 L, 德马加良斯 JP.用于功能分类和基因疾病预测的基因共表达分析。生物信息学简报。2018;19(4):575–592.pmid:28077403
查看文章PubMed/NCBI谷歌学术搜索
4米Vanderlinden LA,Saba LM,Kechris K,Miles MF,Hoffman PL,Tabakoff B.与饮酒倾向相关的全脑和大脑区域共表达网络相互作用。普洛斯一。2013;8(7):e68878。密码:23894363
查看文章PubMed/NCBI谷歌学术搜索
5米Saba LM, Flink SC, Vanderlinden LA, Israel Y, Tampier L, Colombo G, et al.测序的大鼠脑转录组 - 它在识别易感饮酒的网络中的用途。二月日记。2015;282(18):3556–3578.密码:26183165
查看文章PubMed/NCBI谷歌学术搜索
6米Harrall KK, Kechris KJ, Tabakoff B, Hoffman PL, Hines LM, Tsukamoto H, et al.通过RNA共表达网络揭示肝脏在免疫中的作用。哺乳动物基因组。2016;27(9):469–484.密码:27401171
查看文章PubMed/NCBI谷歌学术搜索
7米Saba LM, Hoffman PL, Homanics GE, Mahaffey S, Daulatabad SV, Janga SC, et al.长非编码RNA(Lrap)调节大鼠的大脑基因表达和饮酒水平。基因、大脑和行为。2021;20(2):e12698.密码:32893479
查看文章PubMed/NCBI谷歌学术搜索
8米马淑, 龚炳, 博内特.基于图形高斯模型的拟南芥基因网络。基因组研究。2007;17(11):1614–1625.密码:17921353
查看文章PubMed/NCBI谷歌学术搜索
9米López-Kleine L,Leal L,LópezC.基于转录组学数据重建基因共表达网络的生物统计学方法。功能基因组学简报。2013;12(5):457–467.密码:23407269
查看文章PubMed/NCBI谷歌学术搜索
10米王婷, 任志, 丁轩, 方志, 孙志, 麦克唐纳, 等.FastGGM:一种用于在生物网络中推理高斯图模型的有效算法。公共科学图书馆计算生物学。2016;12(2):e1004755.密码:26872036
查看文章PubMed/NCBI谷歌学术搜索
11米赵华, 段志.使用高斯图模型进行癌症遗传网络推理。生物信息学和生物学见解。2019;13:1177932219839402.密码:31007526
查看文章PubMed/NCBI谷歌学术搜索
12米Yi H, Zhang Q, Lin C, Ma S. 信息整合的高斯图形模型用于基因表达数据。生物测定学。2021. pmid:33527365
查看文章PubMed/NCBI谷歌学术搜索
13米李婷, 钱春, 列维娜E, 朱军. 网络链接数据上的高维高斯图模型.机器学习研究杂志。2020;21(74):1–45.
查看文章谷歌学术搜索
14米佩纳·学习具有错误发现率控制的基因网络的高斯图模型。在:欧洲生物信息学进化计算,机器学习和数据挖掘会议。斯普林格;2008.第165–176页。
15米Meinshausen N, Bühlmann P, et al.使用套索进行高维图形和变量选择。统计年鉴。2006;34(3):1436–1462.
查看文章谷歌学术搜索
16米高斯图模型中的模型选择与估计.生物梅特里卡。2007;94(1):19–35.
查看文章谷歌学术搜索
17米Banerjee O,El Ghaoui L,d'Aspremont A.通过多元高斯或二进制数据的稀疏最大似然估计进行模型选择。机器学习研究杂志。2008;9:485–516.
查看文章谷歌学术搜索
18米Friedman J, Hastie T, Tibshirani R. 使用图形套索进行稀疏逆协方差估计。生物统计学。2008;9(3):432–441.密码:18079126
查看文章PubMed/NCBI谷歌学术搜索
19米Hsieh CJ, Sustik MA, Dhillon IS, Ravikumar P. 使用二次逼近的稀疏逆协方差矩阵估计。arXiv预印本arXiv:13063212。2013.
20米蔡桐, 刘文, 周华华, 等.估计稀疏精度矩阵:收敛和自适应估计的最佳速率。统计年鉴。2016;44(2):455–488.
查看文章谷歌学术搜索
21米王林, 任鑽, 顾庆. 高维高斯图模型中速率更快的精确矩阵估计.在:人工智能和统计。PMLR;2016.第177–185页。
22米Boyd S, Parikh N, Chu E. 通过乘数交替方向方法进行分布式优化和统计学习。现在出版公司;2011.
23米何斌, 袁旭.道格拉斯-拉奇福德交替方向法的O(1/n)收敛速率.暹罗数值分析杂志。2012;50(2):700–709.
查看文章谷歌学术搜索
24米沃尔伯格 B, 博伊德 S, 安纳格伦 M, 王 Y.一类全变异正则化估计问题的 ADMM 算法。会计师联合会论文集卷。2012;45(16):83–88.
查看文章谷歌学术搜索
25米Kadkhodaie M,Christakopoulou K,Sanjabi M,Banerjee A.乘数的加速交替方向方法。在:第21届ACM SIGKDD知识发现和数据挖掘国际会议论文集;2015.第497–506页。
26米陈 C, 何 B, 叶 Y, 袁 X.ADMM对多块凸最小化问题的直接扩展不一定是收敛的。数学规划。2016;155(1-2):57–79.
查看文章谷歌学术搜索
27米Debbabi I, Le Gal B, Khouja N, Tlili F, Jego C. 用于LDPC解码的快速收敛ADMM惩罚算法。IEEE通讯快报。2016;20(4):648–651.
查看文章谷歌学术搜索
28米黄 F, 陈 S, 黄 H. 用于非凸优化的乘子的更快随机交替方向方法.在:机器学习国际会议。PMLR;2019.第2839–2848页。
29米Scheinberg K, Ma S, Goldfarb D. 通过交替线性化方法进行稀疏逆协方差选择。arXiv预印本arXiv:10110097。2010.
30米协方差选择模型的交替方向法.科学计算杂志。2012;51(2):261–273.
查看文章谷歌学术搜索
31米王 H, 班纳吉 A, 谢 CJ, 拉维库玛 P, 迪隆 IS.大规模分布式稀疏精度估计。在: NIPS.第13卷;2013.第584–592页。
32米扎雷A,约万诺维奇先生,乔治乌TT。协方差完成问题的交替方向优化算法。在:2015年美国控制会议(ACC)。IEEE;2015.第515–520页。
33米李萍, 肖萍.一种基于对偶公式的稀疏逆协方差矩阵估计高效算法.计算统计与数据分析。2018;128:292–307.
查看文章谷歌学术搜索
34米王春, 蒋斌.一种高效的ADMM算法,用于通过惩罚二次损失进行高维精度矩阵估计。计算统计与数据分析。2020;142:106812.
查看文章谷歌学术搜索
35米Ficklin SP,Dunwoodie LJ,Poehlman WL,Watson C,Roche KE,Feltus FA。 使用高斯混合物模型发现条件特异性基因共表达模式:癌症案例研究。科学报告。2017;7(1):1–11.密码:28819158
查看文章PubMed/NCBI谷歌学术搜索
36米戈夫·差异共表达分析揭示了卵巢癌中一种新的预后基因模块。科学报告。2017;7(1):1–10.密码:28694494
查看文章PubMed/NCBI谷歌学术搜索
37米项淑, 黄孜, 王婷, 韩志, 克里斯蒂娜, 倪丹, 等.条件特异性基因共表达网络挖掘可识别阿尔茨海默病患者脑组织中的关键途径和调节因子。BMC 医学基因组学。2018;11(6):39–51.密码:30598117
查看文章PubMed/NCBI谷歌学术搜索
38米特森BM,百年灵R,詹森RC。DiffCoEx:一种寻找差异共表达基因模块的简单而灵敏的方法。BMC生物信息学。2010;11(1):1–9.密码:20925918
查看文章PubMed/NCBI谷歌学术搜索
39米Amar D,Safeer H,Shamir R.解剖通过差异共表达在疾病中改变的调节网络。公共科学图书馆计算生物学。2013;9(3):e1002955.pmid:23505361
查看文章PubMed/NCBI谷歌学术搜索
40米哈MJ,巴拉丹达尤塔帕尼五世,做KA。DINGO:基因组学中的差分网络分析。生物信息学。2015;31(21):3413–3420.密码:26148744
查看文章PubMed/NCBI谷歌学术搜索
41米郭杰, 列维娜 E, 米哈伊利迪斯 G, 朱 J. 多个图形模型的联合估计.生物梅特里卡。2011;98(1):1–15.密码:23049124
查看文章PubMed/NCBI谷歌学术搜索
42米蔡天彤, 李华, 刘文, 谢杰. 多个高维精度矩阵的联合估计.中国统计.2016;26(2):445.邮编:28316451
查看文章PubMed/NCBI谷歌学术搜索
43米丹纳赫 P, 王 P, 威滕 DM.用于跨多个类的逆协方差估计的联合图形套索。《皇家统计学会杂志》B辑,统计方法。2014;76(2):373.pmid:24817823
查看文章PubMed/NCBI谷歌学术搜索
44米蒂布希拉尼·Cox 模型中变量选择的套索方法。医学统计学。1997;16(4):385–395.密码:9044528
查看文章PubMed/NCBI谷歌学术搜索
45米Tibshirani R, Saunders M, Rosset S, Zhu J, Knight K. 通过融合套索实现稀疏性和平滑度。《皇家统计学会杂志》:B辑(统计方法)。2005;67(1):91–108.
查看文章谷歌学术搜索
46米杨S,卢Z,沈X,旺卡P,叶J.融合了多个图形套索。暹罗优化杂志。2015;25(2):916–943.
查看文章谷歌学术搜索
47米康达特·用于一维全变异去噪的直接算法。IEEE 信号处理快报。2013;20(11):1054–1057.
查看文章谷歌学术搜索
48米吕萍, 薛林, 张芳, 科赫, 萨巴, 凯克里斯, 等.条件自适应融合套索(CFGL):一种用于推断条件特异性基因共表达网络的自适应程序。公共科学图书馆计算生物学。2018;14(9):e1006436.pmid:30240439
查看文章PubMed/NCBI谷歌学术搜索
49米Jiménez áB, Sra S. 用于全变异正则化的快速牛顿型方法。在: ICML;2011.
50米Barbero A, Sra S. 多维全变分正则化的模块化近端优化。机器学习研究杂志。2018;19(56):1–82.
查看文章谷歌学术搜索
51米夏妍, 蔡婷, 蔡旭.测试差分网络,并应用于检测基因 - 基因相互作用。生物梅特里卡。2015;102(2):247–266.
查看文章谷歌学术搜索
52米Witten DM,Tibshirani R.高维问题的协方差正则化回归和分类。《皇家统计学会杂志》:B辑(统计方法)。2009;71(3):615–636.pmid:20084176
查看文章PubMed/NCBI谷歌学术搜索
53米霍夫林·熔断套索信号逼近器的路径算法。计算与图形统计杂志。2010;19(4):984–1006.
查看文章谷歌学术搜索
54米Rudin LI, Osher S, Fatemi E. 基于非线性总变分的噪声消除算法.物理D:非线性现象。1992;60(1-4):259–268.
查看文章谷歌学术搜索
55米珀克尔·为什么Jupyter是数据科学家的首选计算笔记本。自然界。2018;563(7732):145–147.密码:30375502
查看文章PubMed/NCBI谷歌学术搜索
56米纽曼我。复杂网络的结构和功能。暹罗审查。2003;45(2):167–256.
查看文章谷歌学术搜索
57米Yook SH, Jeong H, Barabási AL. 对互联网的大规模拓扑进行建模。美国国家科学院院刊.2002;99(21):13382–13386.密码:12368484
查看文章PubMed/NCBI谷歌学术搜索
58米Munro D, Wang T, Chitre AS, Polesskaya O, Ehsan N, Gao J, et al.远交异质种大鼠中多个大脑区域的调控格局。生物Rxiv。2022. pmid:36263809
查看文章PubMed/NCBI谷歌学术搜索
59米萨尔加多 S, 卡普利特 MG.伏隔核:全面回顾。立体定向和功能性神经外科。2015;93(2):75–93.密码:25720819
查看文章PubMed/NCBI谷歌学术搜索
60米贝克PM, Jhou T, Li B, Matsumoto M, Mizumori SJ, Stephenson-Jones M, et al.侧habenula回路:奖励处理和认知控制。神经科学杂志。2016;36(45):11482–11488.密码:27911751
查看文章PubMed/NCBI谷歌学术搜索
61米Martin M. Cutadapt从高通量测序读取中删除适配器序列。EMBnet期刊。2011;17(1):10–12.
查看文章谷歌学术搜索
62米李斌, 杜威.RSEM:从 RNA-Seq 数据进行准确的转录本定量,有或没有参考基因组。BMC生物信息学。2011;12(1):1–16.
查看文章谷歌学术搜索
63米Risso D,Schwartz K,Sherlock G,Dudoit S.RNA-Seq数据的GC含量归一化。BMC生物信息学。2011;12(1):1–17.密码:22177264
查看文章PubMed/NCBI谷歌学术搜索
64米Love MI,Huber W,Anders S.使用DESeq2调节RNA-seq数据的倍数变化和分散估计。基因组生物学。2014;15(12):1–21.pmid:25516281
查看文章PubMed/NCBI谷歌学术搜索
65米Leek JT, Johnson WE, Parker HS, Jaffe AE, Storey JD.sva软件包,用于消除高通量实验中的批量效应和其他不需要的变化。生物信息学。2012;28(6):882–883.密码:22257669
查看文章PubMed/NCBI谷歌学术搜索
66米墨菲啊。芬利事件:预测验证历史上的一个信号事件。天气和预报。1996;11(1):3–20.
查看文章谷歌学术搜索
67米Ge SX,Jung D,Yao R. ShinyGO:动物和植物的图形基因集富集工具。生物信息学。2020;36(8):2628–2629.密码:31882993
查看文章PubMed/NCBI谷歌学术搜索
68米顶点 RP。分析大鼠从内侧前额叶皮层到丘脑的投影,重点是团核。比较神经病学杂志。2002;442(2):163–187.pmid:11754169
查看文章PubMed/NCBI谷歌学术搜索
69米朱斯蒂诺、马伦·内侧前额叶皮层在恐惧的条件反射和消除中的作用。行为神经科学前沿。2015;9:298.密码:26617500
查看文章PubMed/NCBI谷歌学术搜索
70米Capuzzo G,Floresco SB.主动和抑制性回避和寻求奖励的前缘和边缘下前额叶调节。神经科学杂志。2020;40(24):4773–4787.pmid:32393535
查看文章PubMed/NCBI谷歌学术搜索
71米Reed GF,Lynn F,Meade BD.使用变异系数评估定量测定的变异性。临床和疫苗免疫学。2002;9(6):1235–1239.密码:12414755
查看文章PubMed/NCBI谷歌学术搜索
72米迈尔斯 B, 麦克尔文 JM, 赫尔曼 JP.糖皮质激素对突触,回路和行为的作用:对压力能量的影响。神经内分泌学前沿。2014;35(2):180–196.pmid:24361584
查看文章PubMed/NCBI谷歌学术搜索
43米霍恩斯六世,水森SJ。反应灵活性:外侧哈贝努拉的作用。行为神经科学前沿。2022. pmid:35444521
查看文章PubMed/NCBI谷歌学术搜索
44米Stratoulias V,Venero JL,Tremblay Mè,Joseph B.小胶质细胞亚型:小胶质细胞群落内的多样性。EMBO期刊。2019;38(17):e101997.密码:31373067
查看文章PubMed/NCBI谷歌学术搜索
45米Tan YL, Yuan Y, Tian L. 小胶质细胞区域异质性及其在大脑中的作用.分子精神病学。2020;25(2):351–367.密码:31772305
查看文章PubMed/NCBI谷歌学术搜索