《免费医学论文发表-使用具有协方差选择的混合规范正则化多元模型进行基因调控网络推断》期刊简介
免费医学论文发表-使用具有协方差选择的混合规范正则化多元模型进行基因调控网络推断
抽象
尽管进行了广泛的研究工作,但从转录组学数据重建基因调控网络(GRN)仍然是系统生物学中一个紧迫的挑战。虽然用于重建GRN的非线性方法显示出比更简单的替代方案更好的性能,但我们尚不了解多个靶基因的联合建模是否可以提高性能,即使在线性假设下也是如此。为了解决这个问题,我们提出了两种新方法,将GRN重建问题转换为正则化多元回归和结合L的图形模型之间的混合2,1-规范与经典正则化技术。我们使用来自DREAM5挑战赛的数据和网络来表明,与竞争者相比,所提出的模型提供了始终如一的良好性能,竞争者的性能随模拟数据集和模型单细胞生物大肠杆菌和酿酒酵母的实验而变化。由于模型的公式有助于预测主调节器,因此我们还使用结果来确定所有数据集的主调节器以及它们在不同环境中的可塑性。我们的结果表明,所鉴定的主调节因子与大肠杆菌模型的实验证据一致。总之,我们的研究表明,同时对几个靶基因进行建模可以改善GRN的推断,并且可以用作不同应用中的替代方案。
作者摘要
基于网络组件分子图谱快照重建细胞网络一直是系统生物学中的关键挑战之一。在基因调控网络(GRN)重建的背景下,这个问题转化为基于(通常是少量的表达谱)推断转录因子编码基因与其靶标之间的调控关系。虽然无监督非线性机器学习方法比正则线性回归方法表现出更好的性能,但现有的建模策略通常一次预测一个靶基因的调节因子。在这里,我们询问多个目标的监管联合建模是否以及在多大程度上导致推断GRN的准确性的提高。为了解决这个问题,我们提出、实现并比较了作为正则化多元回归和结合 L 的图形模型混合的模型的性能。2,1-规范与经典正则化技术。我们的结果表明,尽管依赖于线性假设,但与现有的广泛使用的替代方案相比,所提出的模型始终表现出良好的性能。
数字
Table 3Table 4Table 5图1表1表2Table 3Table 4Table 5图1表1表2
引文: Mbebi AJ,Nikoloski Z (2023) 使用具有协方差选择的混合规范正则化多元模型进行基因调控网络推断。公共科学图书馆计算生物学19(7): e1010832. https://doi.org/10.1371/journal.pcbi.1010832
编辑 器: 米格尔·罗查, 葡萄牙米尼奥材料中心大学
收到: 21月 2022, 11;接受: 七月 2023, 31;发表: 2023月 <>, <>
版权所有: ? 2023 姆贝比,尼科洛斯基。这是一篇根据知识共享署名许可条款分发的开放获取文章,该许可允许在任何媒体上不受限制地使用、分发和复制,前提是注明原作者和来源。
数据可用性: 这些方法是使用 R 编程语言实现的,代码可从 https://github.com/alainmbebi/mixed-norms-GRN 免费获得。本出版物的所有数据均公开提供,并在文章中提供相应的参考资料。所有使用的数据也都显示在指定的 GitHub 上。
资金: AJM和ZN得到了欧盟地平线2020研究和创新计划的支持,与BREEDCAFS [GA No. 727934] https://www.breedcafs.eu/ 和PlantaSYST [FPA No. 664620] https://plantasyst.eu/ 项目有关。资助者在研究设计、数据收集和分析、发表决定或手稿准备方面没有任何作用。
竞争利益: 提交人声明不存在相互竞争的利益。
介绍
阐明基因调控网络(GRN)包括整个转录因子(TF)-靶基因相互作用,仍然是单细胞和整个生物体系统生物学研究的主要挑战之一[1]。探测基因调控相互作用的技术进步,包括:染色质免疫沉淀结合测序(ChIP-Seq)[2],酵母一杂交种(Y1H)[3]和DNA亲和纯化测序(DAP-Seq)[4],促进了TFs与靶基因启动子区域的体内和体外结合的理解,并为深入了解GRN的特征提供了宝贵的资源。生物[5,6]。然而,即使与模式生物一起使用,这些技术仍然是资源密集型的。因此,解决系统生物学的这一关键挑战需要开发依赖于其他数据源(如基因表达)的GRN重建计算方法,这些数据源部分捕获TF结合和随后激活或抑制靶基因转录的影响。
GRN重建的计算方法使用来自稳态和/或时间分辨实验的数据;他们依靠无监督、半监督和监督的机器学习方法[7-9]来识别解释靶基因(TG)表达(模式)的TF。GRN监督学习的最新进展得益于上述技术获得的TF-靶基因相互作用纲要[10]。无论使用何种数据和应用的机器学习方法如何,GRN的重建通常比预测变量数量(p)少得多,这导致了高斯图形模型(GGM)[11,12]和回归设置[13-15].此外,由于TG的表达与其调节TF之间通常是非线性依赖性的,基于随机森林[16-18]和核结合回归[19]的机器学习技术提高了使用大肠杆菌和酿酒酵母的数据重建GRN的准确性[20]。
从回归设置中的基因表达数据进行GRN重建的计算方法基于TF的表达作为预测因子对每个TG的表达进行建模。在这样做的过程中,TG之间的关系在模型构建过程中被忽略了[21]。因此,如果线性设置中同时考虑多个TG可以以及非线性设置中单个目标的模型一样有效,则尚未探索。
现有GRN分析的证据表明存在主调节器[22],即调节相当大比例靶基因的TF。现有的方法要么重建GRN,假设给定的TF作为主调节因子[23],要么从为单个靶基因构建的模型中推断主调节因子。此外,ChIPseq数据已经证明了基因调控相互作用对生物学环境的依赖性,由环境、发育阶段和细胞类型/组织之间的相互作用决定[24]。因此,基因调控相互作用是可塑性的,在GRN的重建中,特别是来自多种环境扰动和/或生物体的数据,这种特征往往被忽略,导致共识相互作用的重建[14]。
为了解决这些缺点,我们提出了两种新颖的GRN重建方法,作为正则化多元回归和大p-小n设置中的图形模型的混合。具体来说,通过假设观察到的基因表达数据矩阵是从多元正态分布中提取的,我们施加了 L2,1-回归系数的范数惩罚以及 L1(或L2)来联合模拟惩罚似然框架中所有TG的基因表达。虽然 L2,1-norm以前已用于鉴定基因网络模块[25]和代表性基因[26],这些方法没有明确解决GRN重建的问题,并且当它们这样做时[27],需要有关调节因子数量的先验信息。在当前的工作中,我们利用 L2,1-范数的特征选择能力,并表明模型公式允许我们使用迭代方案,其中精度矩阵的估计用于在下一次迭代中细化回归系数估计,直到收敛。使用来自大肠杆菌和酿酒酵母的基因表达数据集以及逆向工程评估和方法对话(DREAM5)网络推理挑战的计算机数据[20],我们通过对最新方法的广泛比较分析来评估所提出的模型的性能,并展示了所提出的方法在解决上述两个缺点方面的优势 - 识别主调节器和塑料相互作用的检测。
结果和讨论
前言和符号
在介绍代表我们结果之一的模型之前,我们介绍了手稿其余部分中使用的符号。让米我和米j分别是 i千行和 j千矩阵的列 M = (mij).米?1和米T分别表示 M 的逆置和转置。我n代表 n 维单位矩阵,如果 m我是 i千向量的分量,然后是它的Lp-规范定义为
(1)
The L2,1矩阵的范数 [28] 及其关于 M 的偏导数分别是
(2)
和 ,其中是带有条目的对角矩阵。
在GRN推理的回归设置中,我们旨在量化s TGs(即响应变量)y1, ?, ys和一组 p TF(即预测变量)x1, ?, xp,使得 yk = b1千米x1+ ? + bPKxp + εk, 1 ≤ k ≤ s.然后可以在矩阵表示法中将模型转换为
(3)
其中 Yn× = (y1, ?, yn)T, Xn×p = (x1, ?, xn)T, Bp×s = (b1, ?, bp)T和 En× = (ε1、?、εn)T分别是TG(即响应)、TF(即预测因子)、调控链接(即回归系数)和误差矩阵。
假设错误ε我是独立的,并且与协方差矩阵 Σ(即)正态分布,则参数 (B, Ω) 的负对数似然函数 [29] 可以写成一个常数
(4)
其中 Ω = Σ?1是精度矩阵,Tr 表示迹线线性运算符,|Ω|是矩阵Ω的行列式。从标准过程(如最大似然和加权最小二乘法)派生的参数 B 和Ω的估计量等效于分别对 p 预测变量的每个响应进行回归时获得的估计量。但是,当预测变量和响应变量的数量大于样本数量时,这些估计器的性能较差,计算不稳定且预测效率较低。
如上所述,现有的基于回归的GRN重建方法忽略了响应变量之间的相关性(即TGs)。为了解决这个问题,我们通过惩罚似然优化为回归系数和精度矩阵构建了新的稀疏估计器。具体来说,对于调谐参数 λ1≥ 0, λ2≥ 0 并通过惩罚方程 (4) 中的负对数似然,使用精度矩阵Ω的 s(s + 1)/2 参数在下一次迭代时更新回归系数 B 的估计值,直到收敛。在下文中,我们提供估计值并作为混合L的解决方案1L2,1-规范和L2L2,1规范正则化多元回归和协方差选择问题。为清楚起见,术语实验、条件和时间点可互换使用;在这种情况下,混合规范术语仅指以下事实:1(或L2) 和 L2,1在提出的优化问题中,同时对Ω和B进行惩罚。
混合 L1L2,1-规范正则化多元回归和协方差选择
当忽略对 B 和 Ω 上的优化没有影响的常数项时,混合 L 的目标函数要最小化1L2,1-规范与
(5)
注意 L 如何2,1对乙方处以罚款T而不是,因为:(i)我们在通常的假设下工作,即TF基因的数量(p)远小于TG(s)的数量,(ii)每个TF可能调节许多TG[30],以及(iii)L2,1惩罚可能会将B中的某些条目(即TF-TG相互作用)推向零。因此,该公式有助于模型解释和识别交互候选者和主TF。后者可以通过仔细观察方程(2)并意识到L1-规范鼓励同时在 B 中行稀疏T其中,第 i个预测变量的效应用 L 量化2-范数,而所有数据点的总和是用 L 实现的1-规范。这促使人们选择L2,1-规范正则化。方程(5)中的优化问题是双凸的。因此,在求解参数 B 或参数 Ω 时,可以确保凸性,同时保持另一个参数固定。求解 B Ω固定在 Ω 上0,等式 (5) 简化为凸:
(6)
取关于 B 收益率的偏导数
(7)
其中 C 是对角矩阵,其中 i千对角线条目 C第二= 1/(2‖b我‖2).为了计算稳定性,也可以使用近似值[31],ζ→0。
求解混合 L1L2,1-B的规范模型。
方程(7)定义的一阶条件给出了以下不均匀的西尔维斯特方程[32]:
(8)
使用克罗内克积和 vec 算子 [33],可以将方程 (8) 重写为下面的 (sp × sp) 线性系统,这更容易解决。然而,对于基因表达数据,s通常太大,以至于由于高内存要求,尝试使用此变换求解方程(8)在计算上变得令人望而却步。我们通过使用奇异值分解(SVD)来解决这一限制(有关详细信息,请参阅S1文本中的方法1),矩阵反演引理[34]和方程(9)中的变量变化
(9)
以获得 .我们将后者称为L1L2,1-溶液。请注意,建议的估计可以被视为几种现有方法的推广。在我们的比较分析中特别感兴趣的是对角矩阵C = I的特殊情况s.在此假设下,L2,1-回归系数矩阵上的范数正则化变为 Tr(BTB),优化问题成为具有恒等任务协方差的多输出回归 [35]。有趣的是,正则化 Tr(BTB) 等价于强加高斯先验 (BTB)1/2.在此,此特定估计称为L1L2,1G-解决方案。有关其他特殊情况的详细信息,例如 L2,1特征选择[31],脊和普通最小二乘以及关于它们的推导的解释,我们向读者推荐S2文本中的方法1。
求解混合 L1L2,1-Ω规范模型。
对于选定点 B 处的固定 B0当求解Ω时,方程(5)中的优化问题产生
(10)
这对应于 L1惩罚协方差估计问题和图形套索 [36] (GLASSO) 可用于推导方程 (10) 中模型的Ω。
混合 L2L2,1-规范正则化多元回归和协方差选择
类似于方程(5)中的优化问题,我们制定了以下混合L2L2,1-规范目标函数:
(11)
求解混合 L2L2,1-B的规范模型。
当求解具有固定Ω的B时,提出的混合L2L2,1-方程(11)中的规范模型,它施加了L2对Ω的惩罚产生与方程(6)中的优化问题类似的解决方案。使用与 S1 文本中的 S1 方法类似的方法,我们得到 L2L2,1和 L2L2,1G-解,分别用于主要问题和特殊情况(即当高斯先验强加于(BTB)1/2).
求解混合 L2L2,1-Ω规范模型。
对于选定点 B 处的固定 B0方程(11)中的优化问题在求解Ω时变为
(12)
其中关于Ω的偏导数由下式给出
(13)
定义方程(13)并将其设置为零,我们得到以下二次矩阵方程:
(14)
这是在控制理论和优化等多个领域遇到的众所周知的代数里卡蒂方程的一种特殊形式[37,38]。但是,由于代数的基本定理对矩阵多项式无效,因此即使在矩阵平方根情况X中,方程(14)形式的问题通常也难以解决。2 = 答 [39]。因此,我们问我们的问题是否有解决方案,我们用肯定的回答(参见S3文本中的方法1),并表明我们问题的解决方案存在并且是唯一给出的
(15)
注释:二次矩阵方程正定解的存在性和唯一性
众所周知,这种形式的方程可能没有解,有限正数或无穷多个解[40],但据我们所知,我们没有发现关于解的存在和唯一性的特别证据。然而,在求解方程(14)时,我们注意到,如果A = Is, B 和 C 交换并且分别是非负和正定的,如果 B2? 4C 是正定的,则正定解 X 的存在性和唯一性是有保证的,并且可以使用标量情况下通常的根公式显式确定。由于协方差和相关矩阵[11]的正确定性要求在样本量n小于变量s数量的情况下是一个主要缺点(例如对于微阵列数据集),因此当使用GGM进行GRN逆向工程时,正定解的存在性和唯一性可能特别重要。
与 DREAM5 数据集的比较分析
所提出的推理方法的性能(即L1L2,1和 L2L2,1以及它们的变体L1L2,1G 和 L2L2,1G)与GENIE3、TIGRESS、ANOVerence、PLSNET、ENNET、PORTIA、ETEPORTIA和D3GRN进行比较,重建大肠杆菌、酿酒酵母的调控网络和模拟数据(即在计算机中),具有与大肠杆菌相似的调控动态。选择竞争方法以包括挑战的获胜者(即GENIE3,TIGRESS和ANOVerence),以及一些最新的最新方法(即PLSNET,ENNET,PORTIA,etePORTIA和D3GRN)应用于相同的数据集。对于特定于网络的评估,与所有在网络间表现出很大性能差异的评估方法相比,表1和图1表明,所提出的模型在所有数据集上都显示出一致的良好性能。总体而言,如表1和S1表的最后三列所述,所提出的方法与最佳方法所展示的方法具有相当的性能。具体而言,在AUROC和总体得分方面,所提出的模型略胜于竞争者,而比较分析中表现最好的最先进的方法(即etePORTIA)显示AUPR得分比前者提高了1.3%。凭借所有评估数据集的一致性能,我们得出结论,所提出的模型是最先进的GRN推理方法的竞争性和可靠的替代方案。
缩略图 下载:
.PPT幻灯片
.PNG大图
.TIFF原始图像
图1. 与 DREAM5 数据集比较分析中各个方法的 PR 和 ROC 曲线。
我们使用了L1L2,1, L2L2,1,它们各自的变体(即L1L2,1G 和 L2L2,1G),挑战赛的获胜者(即GENIE3,ANOVerence和TIGRESS),以及一些最新的最新方法(即PLSNET,ENNET,PORTIA,etePORTIA和D3GRN),以推断大肠杆菌(左),酿酒酵母(中)和计算机(右)的监管网络。上下面板分别显示了精度召回率(PR)和接收器工作特性(ROC)曲线。
https://doi.org/10.1371/journal.pcbi.1010832.g001
缩略图 下载:
.PPT幻灯片
.PNG大图
.TIFF原始图像
表 1. 比较 DREAM5 数据集上使用 ROC 曲线下面积 (AUROC) 和精度召回率曲线下面积 (AUPR) 的模型性能。
https://doi.org/10.1371/journal.pcbi.1010832.t001
与拼箱数据集的比较分析
表2中总结的结果表明,除了Gevadis上淋巴母细胞系的单个网络水平的TIGRESS(AUROC = 0.510)外,对于所有考虑的指标和数据集,所提出的方法之一始终可以实现最高的性能。尽管与最近在相同数据集上的比较分析[41]中也考虑的竞争者相比,所提出的方法表现出更好的性能,但我们得出了类似的结论(即AUROC和AUPR),其中所有模型都表现出相对较低的性能,这可以归因于体内的复杂性。用于评估的地面真实值的网络和高度稀疏性。因为它们在所有考虑的网络中的性能一致性以及早期检测真阳性边缘(即 nCDG)的能力,以及 top-k 预测中真阳性的比例(即EP)(k是金标准中真阳性的数量),我们得出结论,所提出的方法是GRN推理的竞争替代方案。
缩略图 下载:
.PPT幻灯片
.PNG大图
.TIFF原始图像
表 2. 在LCL数据集上使用ROC曲线下面积(AUROC),精度-召回率曲线下面积(AUPR),早期精度(EP)和归一化贴现累积增益(nDCG)的模型性能比较。
https://doi.org/10.1371/journal.pcbi.1010832.t002
使用多种条件下的大肠杆菌数据进行分析
基因调控取决于细胞环境,包括细胞类型和环境条件[42]。在本节中,我们专注于后者,并研究在多种胁迫条件下参与大肠杆菌调节动态的主要TF。为此,我们将我们提出的模型应用于包含从暴露于冷,热,乳糖 - 二氧转变和氧化应激条件下的大肠杆菌菌株MG1655收集的少量时间分辨样品的数据。
之前对相同数据的比较分析将融合LASSO 扩展的性能 [14] 与九种最先进的推理方法进行了对比。在重新评估所有模型后,我们得出了类似的结论,即融合的LASSO实现了更好的性能,并为真正的监管环节分配了更高的分数。出于这个原因,我们在评估我们提出的方法的性能时,使用融合LASSO模型作为基准。遵循相同的性能评估方法和公平比较,考虑了RegulonDB [43]和DREAM5挑战中的TF组合,最终获得173个TF和1561个TG进行GRN推理。我们在表3中总结的结果表明,所提出的推理方法之一通常在AUROC和AUPR方面实现了最高的性能,但在融合LASSO表现出最高AUROC的氧化应激条件下除外。尽管所提出的方法显示出很小的改进,但总体而言,所有方法在该数据集上的AUROC和AUPR都相对较低。这部分可以用金本位制结构的不平衡和非常小的样本量来解释。正如预期的那样,与之前的研究一致[44,45],随着样本量的增加(即从每个条件的5个增加到组合数据集的20个),组合数据集的结果表明,所有推理方法在AUROC和AUPR方面的性能都有所提高。回顾使用AUROC和AUPR比较不同稀疏程度的推理方法的注意事项,使用表3中报告的EP和nCDG进行的进一步评估显示了所提出的方法的优越性。
thumbnail 下载:
.PPT幻灯片
.PNG大图
.TIFF原始图像
表 3. 使用 AUROC、AUPR、EP 和 nDCG 对模式生物大肠杆菌的时间分辨转录组学数据集的模型性能比较。
https://doi.org/10.1371/journal.pcbi.1010832.t003
接下来,使用主调节器识别程序(参见材料和方法)并考虑与超过 50%(即 α)TG 相互作用的所有 TF,我们在 S2 表中编译了 MR 列表1在所有条件下都保持保存。虽然最初是为基因组织特异性而设计的,但我们调整了方程(46)所示的τ指数[16]来计算MR的条件特异性。1和 MR2我们之前确定为跨条件守恒
(16)
这里,n 是条件的数量,x我基因在 i 中的表达千条件和归一化(即由最大分量值)表达式配置文件。可以观察到τ∈[0,1],并且根据获得的值,我们推断相应的主TF是管家基因(即τ→0)或条件特异性(即τ→1)。 在[46]和[47]之后,分别将τ≥.85和.8视为组织特异性的阈值,我们使用决策规则(τ>.8)来检查给定的主调节因子是否普遍表达。有趣的是,我们的发现与τ指数一致(参见S2表),其中所有MR1即提议的L1L2,1和 L2L2,1在所有四种条件下都保守,其特异性指数低于0.8的阈值。使用派生的τ指数作为健全性检查,我们得出结论,这些主转录因子在所有条件下确实是保守的。
相比之下,MR2仅在四种压力条件中的三种(即寒冷、乳糖和氧化)中发现保守。这与[48]的研究一致,其中有人认为大肠杆菌将高温视为炎症的迹象,因此下调鞭毛II类和III类基因(以避免被宿主免疫系统检测到)。这个过程是由我们在其他三种胁迫条件下保守的上游活化剂flhD水平较低引起的。此外,在我们的保守主调节因子列表中存在flhD和flhC非常有趣,因为它们先前已被确定为大肠杆菌中鞭毛基因表达的主调节因子[49,50]。同样,在热条件下缺乏转录因子CspA的保守性可能是合理的,因为它是大肠杆菌的主要冷休克蛋白之一[51],仅在温度降低时诱导。具体而言,已经表明CspA的诱导主要是由其mRNA在低温下的显着稳定引起的[52,53]。
在我们估计的回归系数和精度矩阵中对稀疏水平的研究表明,1,156个基因的表达处于用于分析的所有173个TF的调节之下(即回归系数行或精度矩阵中没有一行完全为零)。寒冷是三个MR的应激条件。1,fliZ,alaS和fis分别调节了57,56个基因中的约53%,1%和156%(参见S2表)。相比之下,乳糖是MR2调节最小数量的TG(参见S2表)。进一步调查保守的MR1和 MR2共享任何生物学属性,我们使用网络应用程序“ShinyGO”[54]进行富集分析,同时以错误发现率(FDR)(p值<0.05)校正多次测试。富集分析(GO生物过程)表明,保守的MR1(参见S1A图)富集多用于RNA生物合成过程、核酸模板转录和含核碱基化合物代谢过程的负调控。此外,MR2(参见S1B图)在寒冷、乳糖和氧化应激条件下保存,主要富集在三个生物过程中,包括调节细胞器、细菌型鞭毛和细胞投影组装。
保守磁共振2来自NSCLC的肿瘤和正常组织表现出低SEG指数,表明它们的管家性质
在本节中,我们将进一步评估提议的L1L2,1和 L2L2,1确定在不同条件下(即肿瘤和健康)保存的主要调节因子。为此,我们分析了一个大型表达谱数据集,其中包含来自10077个非小细胞肺癌组织样本的1118个基因,其中925个受鳞状细胞癌,腺癌和大细胞癌肿瘤的影响,193个对应于临床健康。在确定前 k MR 后2在每种类型中,我们询问了它们的交叉点,以找到那些在肿瘤和正常状态下保守的交叉点。为了更好的可读性,我们试图提到,对于手头的NSCLC数据集,我们认为k = 26,因为低于这个值,所有MR2在正常情况下,通过所提出的方法与相应的TGs具有小于3%(即约164个)的调节链接。如表4所示,我们发现MR2在肿瘤样本中表现出与相关靶基因的最高联系。此外,对它们在肿瘤和正常样本中的交叉研究发现CXXC5,ZBED1,PPARA,PBX3,SREBF1,FOXC1和ARNT2在两种类型中都是保守的。由于管家基因参与基本细胞维持,因此无论其特定作用,细胞类型或实验条件如何,它们的表达水平都有望保持不变[55,56]。因此,我们询问我们的MR列表是否2在两种组织中发现保守的基因可以归类为管家基因或不。为此,我们使用稳定表达的基因索引(SEG)[57]作为进一步的验证步骤。有趣的是,所有保守MR的SEG指数2小于0.5表明他们的内务性质与我们的结果一致。从理论上讲,人们应该期待MR2以显示最低的 SEG? 指数。然而,管家基因的大多数定义都没有考虑替代剪接,即基因可以在不同的组织或细胞中稳定地表达不同的转录本[58,59]。事实上,如表4所示,无论我们处于肿瘤还是正常状态,已确定的主调节因子与靶基因具有不同数量的链接。例如,仔细观察ARNT2,发现两种情况下的30个基因和肿瘤特异性的152个基因的调节关系。出度的差异可能解释为什么保守的MR2并不总是显示最低的 SEG? 指数。将出度度量整合到管家基因的数学定义中,并剖析是什么使这些调节模块具有条件特异性,例如使用基因集富集分析(GSEA)[60],可能是一项有趣的未来研究,具有几个潜在的影响。此外,鉴于MR参与组织发育及其在某些临床疾病中的众所周知的作用[61],我们发现围绕通过计算方法识别和表征MR的广泛研究工作可以通过整合条件依赖性(即提出的MR2过程)作为各自算法中的修剪步骤。
thumbnail 下载:
.PPT幻灯片
.PNG大图
.TIFF原始图像
表 4. 鉴定组织特异性 MR2,它们相关的SEG指数以及与推断网络中靶基因的相应链接比例。
https://doi.org/10.1371/journal.pcbi.1010832.t004
结论
我们提出了两种新方法,将GRN重建问题视为正则化多元回归和图形模型之间的混合。通过与模拟和真实世界数据的广泛比较分析,我们证明了所引入的模型是一致的,并且表现出优于竞争者的性能。考虑到GRN推理中经常遇到的困境,即必须在线性和非线性建模假设之间做出选择,我们进一步表明,即使在线性设置中考虑多个响应也可以显示出与非线性方法(例如随机森林)一样好的性能。此外,在不假设任何TFs的先验性,也不从为靶基因构建的单个模型中推断它们,L1L2,1和 L2L2,1利用回归系数和精度矩阵中的稀疏性来识别主调节器,同时提供推断其可塑性和调节相互作用的可能性。该领域的未来研究将着眼于考虑所提出的模型中的时间延迟效应,以及设计有效的超参数调整技术,以解释GRN推理中经常遇到的金标准网络的不平衡性质。
材料和方法
数据集
梦想5.
为了评估拟议方法和竞争方法的性能,我们使用了来自 [5] 免费提供的 DREAM20 挑战赛中的三个基准数据集。如表5所示,每个数据集都包含一组基因表达谱、一个金标准(即一组经过验证的相互作用)和一组已知TFs的列表。 简而言之,网络1是一个模拟数据集,模拟大肠杆菌的转录调控网络,其中添加了10%的随机边缘,并使用GeneNetWeaver生成表达谱[62]。对于网络3和网络4,基因表达综合(GEO)数据库[63]分别用于生成大肠杆菌和酿酒酵母的真实基因表达数据集。得到的微阵列数据集,然后使用鲁棒多芯片平均(RMA)进行归一化[64]。有关 DREAM5 推理挑战、其设计和数据生成过程的详细说明,感兴趣的读者可以参考 [20] 和 DREAM 网站。
thumbnail 下载:
.PPT幻灯片
.PNG大图
.TIFF原始图像
表 5. 模式生物大肠杆菌、酿酒酵母以及 DREAM5 计算机的基因表达数据集的详细信息。
https://doi.org/10.1371/journal.pcbi.1010832.t005
大肠杆菌时间分辨转录组学数据。
通过进一步考虑[65]实验产生的时间分辨转录组学数据(可从加入GSE20305的GEO数据库中获得)来评估所提出的方法在多种条件或组织中使用小样本数据重建GRN的能力。在这里,我们研究了大肠杆菌菌株MG1655对四种胁迫条件(即氧化应激,葡萄糖 - 乳糖二氧转移,热和冷)的基因表达反应。除了过氧化氢(即氧化应激)诱导应激的情况外,从扰动后10-10分钟的时间点加上每次扰动前的两个控制时间点进行50分钟步骤的转录本分析。对每个时间点的三个可用生物学重复进行平均,得出了五个样品在个体胁迫条件下和4400个基因的表达谱数据。
人淋巴母细胞系。
使用从[66]中功能和结合边缘的交叉点构建的功能调节网络给出的金标准,所提出的方法在两个表达数据集上进一步验证了来自[67]和[68]的人淋巴母细胞系(LCL)的自然变异,分别来自GEO加入GSE23120和EBI ArrayExpress加入E-GEUV-3。这些分别被称为牛和格瓦迪斯。仅考虑表达谱中存在的基因即可获得具有17个TF,2755个靶基因和6389个经过验证的相互作用的金标准。
非小细胞肺癌的转录组数据集。
为了进一步研究不同条件下主调节因子的鉴定,我们使用了来自十个独立GEO数据集的10077个基因的表达谱,总共有1118个非小细胞肺癌(NSCLC)样本,包括原发性肿瘤(925个样本)和无肿瘤对照(193个样本)肺组织。使用强大的统计方法对数据进行了重新处理(即合并,标准化,批量效应校正和过滤样本间方差低的基因),并且肿瘤样本仅包括原发性NSCLC(即鳞状细胞癌(SCC),腺癌和大细胞癌(LCC)。详细信息以及预处理步骤可在 [69, 70] 中找到。值得指出的是,作者免费提供的管道和数据对于进一步的下游分析至关重要,从而克服了这种大规模基因组数据对于没有适当生物信息学背景的人来说的有限可及性以及通常需要的耗时的预处理步骤。对于性能评估,我们使用DoRothEA [71]的泛癌调节子作为金标准,即从人类和小鼠的不同类型的证据中策划和收集的TF及其转录靶标的集合。由于DoRothEA在交互之间分配了五个不同的置信水平,范围从A(最高)到E(最低),我们考虑了A到D级的相互作用,并仅选择了那些在最新版本的转录调控关系中存在的TF(即来自人类)的相互作用,这些非线性关系由基于句子的文本挖掘(TRRUST)解开[72],一个手动策划的人类和小鼠转录调控网络的数据库。进一步预处理表达谱以仅解释地面真相中存在的基因,从而得出包含5490个基因的最终数据集,其中625个是TF。
数据预处理、超参数调优和评估指标
作为预处理步骤,每个基因的表达水平在每个数据集内居中并缩放。调整超参数 λ1和 λ2,我们使用 10 倍交叉验证 (CV),并将 DREAM5 中的每个基因表达谱数据集拆分为 10 个大小几乎相同的非重叠子集。带和 s2= {2?δ: δ = 0, ?, 8} 作为 λ 的搜索空间1和 λ2分别,我们最终选择了最优λ1和 λ2作为验证数据上对数似然的最大化器。由于在时间分辨数据集的情况下样本量非常小,因此使用相同的网格代替留一CV。有趣的是,我们观察到模型性能受λ2,回归系数矩阵上的惩罚。我们进一步发现,无论选择何种λ1,Ω生成对角矩阵。这对于实际实现非常有用,因为它可用于有效地减少计算时间,同时控制精度矩阵中的稀疏性量。
关于性能评估,我们遵循 DREAM5 策略,仅考虑前 100,000 个边缘预测,以将 TF-TG 交互评估为二元分类问题,其中预测边缘存在或不存在。通过选定的交互,然后我们利用接收器工作特征下面积(AUROC)和精度召回率曲线下面积(AUPR),这是GRN推理中广泛使用的性能评估的两个指标。为了概述所有使用数据集的表现,我们还计算了每个指标的分数和总分,如方程(17)所示。
(17)
其中 n 是考虑的网络数量(例如,在当前分析中,对于 DREAM3 和时间分辨的跨组学数据集,n = 5 和 n = 5)。
由于GRN推理中真实网络的性质不平衡,使用AUPR和AUROC来比较具有不同稀疏程度的模型可能并不理想。例如,即使金标准中不存在误报边缘,也可能受到惩罚。此外,给定阈值k下的精度和召回率可能不会考虑每个边缘的排名[73]。因此,两个网络在阈值 k 处可能具有相同数量的真边和假边,从而产生相同的精度和召回率值,但所考虑的边的排名不同。由于这些原因,使用早期精度(EP)[74](即不包括自环的top-k边中的真阳性比例)和归一化贴现累积增益(nCDG)[73,75]进行了进一步的性能评估,这些增益计算用于金标准网络真阳性集中的每个边,并在方程(18)中定义。
(18)
其中 k 是黄金标准网络中真阳性值的数量。
此外,回想一下,对于所提出的方法,我们希望量化单个TF对其余基因的贡献(即分别是我们估计的回归系数矩阵的行和列),我们将TF缩放,从每种推理方法获得的边缘权重到区间[0,1]。也就是说,对于 i千第 β行我 = [β1、?、βs],最大绝对缩放率用于将每个归一化条目计算为 。
相互竞争的方法
为了提供全面的比较分析,我们将所提出的模型的解决方案与九种最先进的方法进行了比较。为了解释GRN推理的最新发展,并且由于我们的分析依赖于DREAM5挑战的数据集,我们选择了D3GRN [76],PLSNET [77],ENNET [78],PORTIA及其扩展etePORTIA [41]作为使用相同数据集的最新最新方法。此外,我们根据总分将那些在GRN重建方法中排名前三的方法纳入了挑战赛。这些方法包括:TIGRESS [17],被认为是DREAM5中最好的基于线性回归的方法,GENIE3 [79],它使用回归树集合的变量选择和依赖于非线性Cohen相关系数的ANOVerence [80] η2根据双向方差分析 (ANOVA) 计算得出。我们还纳入了融合LASSO [14]配方,该配方结合了来自多个数据集的信息,显示出优于竞争方法。
主TF的识别
术语“主调节因子”是指位于转录组调控层次结构顶部的TF,因此调节大多数其他TF和相关TG[81]。使用GRN推理中的常见范式,即假设TF-TG边缘从TF到TG具有因果定向,并且TG集包括TF,我们使用来自所提出的模型的估计稀疏回归系数和精度矩阵来识别主调节器类型1和类型2(即MR1和 MR2).给定估计的稀疏回归系数矩阵和精度矩阵,我们说TF(即预测矩阵的列)是类型1,α主调节器(),如果对于0<α≤1,相应的行具有α%的非零条目。例如,让我们假设给定 TF 的行向量(例如TF1) 包含 80 个关联 TG 中的 122 个非零条目。由此,我们得到 α = 0.65(即 80/122),我们说 TF1 是一个 .也就是说,大约 65% 的相应 TG 被发现与 TF1 相关。关于类型 2 主调节器 (),我们使用条件依赖性(即稀疏精度矩阵中的非零 TF-TG 条目)来验证相同的 TF-TG 是否为非零。在增强回归系数矩阵的稀疏性的同时,该程序还用于验证由识别的直接链接是否仍然是给定网络中其余基因的链接。最后,类似于类型 1,然后使用从此过程派生的内容来检测我们所说的。在不损失一般性和便于表示的情况下,除非另有说明,否则下标α将在整个文本中删除。
支持信息
保守MR的富集分析1和 MR2使用来自大肠杆菌的时间分辨转录组数据集。
显示 1/4: pcbi.1010832.s001.eps
跳到无花果共享导航
抱歉,我们无法预览此文件
1 / 4
下载
无花果分享
S1 图 保守MR的富集分析1和 MR2使用来自大肠杆菌的时间分辨转录组数据集。
图中显示了按GO生物过程排序的折叠富集。(A) 先生1发现在四种胁迫条件下是保守的。(二)先生2在寒冷,乳糖和氧化应激下保存。我们使用图形基因集富集工具“ShinyGO”v.0.76.1 http://bioinformatics.sdstate.edu/go/ 进行分析。
https://doi.org/10.1371/journal.pcbi.1010832.s001
(每股收益)
S1 表。 比较 DREAM5 数据集上使用 ROC 曲线下面积 (AUROC) 和精度召回率曲线下面积 (AUPR) 的模型性能。
报告的结果来自 DREAM5 挑战,对应于参与挑战的最佳(即总分)推理方法。由于使用R包“precrec”获得的结果与挑战的结果略有不同(参见表1),我们试图将后者包括在这里进行全面评估,并避免对当前结果的误解。
https://doi.org/10.1371/journal.pcbi.1010832.s002
(英文)
S2 表。 MR 的特异性指数1& MR2在寒冷、高温、乳糖和氧化条件下。
使用建议的L1L2,1和 L2L2,1,我们推导出了主转录因子基因列表(即MR1& MR2) 在四种胁迫条件下守恒。τ指数显示了每个基因在每个条件下的条件特异性。
https://doi.org/10.1371/journal.pcbi.1010832.s003
(三十)
S1 文本。 补充方法。
文本包括关于如何推导的详细说明:(1)回归系数B的矩阵,作为西尔维斯特方程特例的解,(2)L的特殊情况1L2,1和 L2L2,1解以及精度矩阵Ω作为特殊形式的代数里卡蒂方程的解。
https://doi.org/10.1371/journal.pcbi.1010832.s004
(英文)
引用
1.Marbach D,Prill RJ,Schaffter T,Mattiussi C,Floreano D,Stolovitzky G.揭示基因网络推理方法的优点和缺点。美国国家科学院院刊.2010;107(14):6286–6291.密码:20308593
查看文章PubMed/NCBI谷歌学术搜索
2.罗伯逊 G, 赫斯特 M, 班布里奇 M, 比伦基 M, 赵 Y, 曾 T, 等.使用染色质免疫沉淀和大规模并行测序的 STAT1 DNA 关联的全基因组图谱。自然方法。2007;4(8):651–657.密码:17558387
查看文章PubMed/NCBI谷歌学术搜索
3.Ouwerkerk PB, Meijer AH.酵母单杂交筛选DNA-蛋白质相互作用。分子生物学的当前协议。2001;55(1):12–12.密码:18265084
查看文章PubMed/NCBI谷歌学术搜索
4.Bartlett A, O'Malley RC, Huang SsC, Galli M, Nery JR, Gallavotti A, et al.使用 DAP-seq 绘制全基因组转录因子结合位点。自然协议。2017;12(8):1659–1672.密码:28726847
查看文章PubMed/NCBI谷歌学术搜索
5.阿隆U.网络主题:理论和实验方法。自然评论遗传学。2007;8(6):450–461.密码:17510665
查看文章PubMed/NCBI谷歌学术搜索
6.Nikoloski Z,May P,Selbig J.代数连接可以解释基因调控网络的演变。理论生物学杂志。2010;267(1):7–14.pmid:20682325
查看文章PubMed/NCBI谷歌学术搜索
7.Maetschke SR, Madhamshettiwar PB, Davis MJ, Ragan MA.基因调控网络的有监督、半监督和无监督推断。生物信息学简报。2014;15(2):195–211.pmid:23698722
查看文章PubMed/NCBI谷歌学术搜索
8.Zheng R, Li M, Chen X, Wu FX, Pan Y, Wang J. BiXGBoost:一种可扩展、灵活的基于增强的基因调控网络重建方法。生物信息学。2019;35(11):1893–1900.密码:30395189
查看文章PubMed/NCBI谷歌学术搜索
9.舒华, 周军, 连琪, 李华, 赵丹, 曾军, 等.使用神经网络架构对基因调控网络进行建模。自然计算科学。2021;1(7):491–501.
查看文章谷歌学术搜索
10.Razaghi-Moghadam Z,Nikoloski Z.基于转录组学数据的图距离谱的基因调控网络的监督学习。NPJ系统生物学和应用。2020;6(1):1–8.密码:32606380
查看文章PubMed/NCBI谷歌学术搜索
11.舍费尔 J, 斯特里默 K.一种推断大规模基因关联网络的经验贝叶斯方法。生物信息学。2004;21(6):754–764.密码:15479708
查看文章PubMed/NCBI谷歌学术搜索
12.Dobra A, Hans C, Jones B, Nevins JR, Yao G, West M. 用于探索基因表达数据的稀疏图形模型。多元分析杂志。2004;90(1):196–212.
查看文章谷歌学术搜索
13.Bonneau R, Reiss DJ, Shannon P, Facciotti M, Hood L, Baliga NS, et al.The Inferelator:一种从头学习系统生物学数据集的简约调控网络的算法。基因组生物学。2006;7(5):1–16.pmid:16686963
查看文章PubMed/NCBI谷歌学术搜索
14.Omranian N,Eloundou-Mbebi JM,Mueller-Roeber B,Nikoloski Z.在多个数据集上使用融合LASSO的基因调控网络推理。科学报告。2016;6(1):1–14.密码:26864687
查看文章PubMed/NCBI谷歌学术搜索
15.Moerman T, Aibar Santos S, Bravo González-Blas C, Simm J, Moreau Y, Aerts J, et al. GRNBoost2 and Arboreto: 基因调控网络的高效和可扩展推断。生物信息学。2019;35(12):2159–2161.密码:30445495
查看文章PubMed/NCBI谷歌学术搜索
16.Kotera M, Yamanishi Y, Moriya Y, Kanehisa M, Goto S. GENIES:基于监督分析的基因网络推理引擎。核酸研究。2012;40(W1):W162–W167.pmid:22610856
查看文章PubMed/NCBI谷歌学术搜索
17.豪里AC,莫德莱特F,维拉-利科纳P,Vert JP。TIGRESS:使用稳定性选择对基因调控进行可信推断。BMC 系统生物学。2012;6(1):1–17.密码:23173819
查看文章PubMed/NCBI谷歌学术搜索
18.Petralia F, Wang P, Yang J, Tu Z. 用于基因调控网络推理的综合随机森林.生物信息学。2015;31(12):i197–i205.密码:26072483
查看文章PubMed/NCBI谷歌学术搜索
19.Iglesias-Martinez LF,De Kegel B,Kolch W. KBoost:一种从基因表达数据推断基因调控网络的新方法。科学报告。2021;11(1):1–13.pmid:34326402
查看文章PubMed/NCBI谷歌学术搜索
20.马尔巴赫 D, 科斯特洛 JC, 库夫纳 R, 维加 NM, 普里尔 RJ, 卡马乔 DM, 等.群体智慧,用于稳健的基因网络推理。自然方法。2012;9(8):796–804.密码:22796662
查看文章PubMed/NCBI谷歌学术搜索
21.Gustafsson M, Hornquist M, Lombardi A. 构建和分析大规模基因到基因调控网络套索约束推理和生物学验证。IEEE/ACM Transactions on computational biology and bioinformatics。2005;2(3):254–261.密码:17044188
查看文章PubMed/NCBI谷歌学术搜索
22.卡罗 MS, 林 WK, 阿尔瓦雷斯 MJ, 博洛 RJ, 赵 X, 斯奈德 安永, 等.脑肿瘤间充质转化的转录网络。自然界。2010;463(7279):318–325.pmid:20032975
查看文章PubMed/NCBI谷歌学术搜索
23.JRmGRN:使用来自多个组织或条件的数据联合重建具有共同枢纽基因的多个基因调控网络。生物信息学。2018;34(20):3470–3478.pmid:29718177
查看文章PubMed/NCBI谷歌学术搜索
24.Oki S, Ohta T, Shioi G, Hatanaka H, Ogasawara O, Okuda Y, et al.ChIP-Atlas:一个数据挖掘套件,由公共Ch IP-seq数据的全面集成提供支持。EMBO报道。2018;19(12):e46255.密码:30413482
查看文章PubMed/NCBI谷歌学术搜索
25.孔晓忠, 宋莹, 刘建兴, 郑畅, 袁思, 王军, 等. 联合 Lp-范数和 L2, 1范数约束图拉普拉斯 PCA,用于稳健的肿瘤样本聚类和基因网络模块发现。遗传学前沿。2021;12:621317.pmid:33708239
查看文章PubMed/NCBI谷歌学术搜索
26.王丹, 刘建兴, 高玉, 于杰, 郑晨, 徐莹.一种用于特征基因选择的NMF-L2,1范数约束方法。普洛斯一。2016;11(7):e0158494.密码:27428058
查看文章PubMed/NCBI谷歌学术搜索
27.桂淑, 赖斯, 陈蓉, 吴玲, 刘军, 苗海.一种基于时间表达数据对复杂基因调控网络结构进行鉴定的可扩展算法。BMC生物信息学。2017;18:1–13.密码:28143596
查看文章PubMed/NCBI谷歌学术搜索
28.Ding C, Zhou D, He X, Zha H. R 1-PCA:用于鲁棒子空间分解的旋转不变L 1范数主成分分析。在:第23届机器学习国际会议论文集。含碳化合物;2006.第281–288页。
29.Rothman AJ, Levina E, Zhu J. 具有协方差估计的稀疏多元回归.计算与图形统计杂志。2010;19(4):947–962.密码:24963268
查看文章PubMed/NCBI谷歌学术搜索
30.欧文,戴维森EH。分层基因调控网络的演化。自然评论遗传学。2009;10(2):141–148.密码:19139764
查看文章PubMed/NCBI谷歌学术搜索
31.聂峰, 黄华, 蔡鑫, 丁驰. 通过联合 l2,1 范数最小化进行高效和鲁棒的特征选择。在:神经信息处理系统的进展;2010.第1813–1821页。
32.西尔维斯特·CR巴黎科学院。1884;99:117–118.
查看文章谷歌学术搜索
33.Van Loan CF. 无处不在的克罗内克产品。计算与应用数学学报.2000;123(1-2):85–100.
查看文章谷歌学术搜索
34.泰拉夫斯基DJ,索希·矩阵反演引理的推广。IEEE会议记录.1986;74(7):1050–1052.
查看文章谷歌学术搜索
35.蔡华, 黄孜, 朱鑫, 张琪, 李霞. 基于标签相关分析的多输出回归,用于有效的图像标记。在:高级应用数据库系统国际会议。斯普林格;2014.第31–46页。
36.Friedman J, Hastie T, Tibshirani R. 使用图形套索进行稀疏逆协方差估计。生物统计学。2008;9(3):432–441.密码:18079126
查看文章PubMed/NCBI谷歌学术搜索
37.郭哲, 劳布·阿杰.关于一类非对称代数里卡蒂方程的迭代解。SIAM矩阵分析与应用杂志。2000;22(2):376–391.
查看文章谷歌学术搜索
38.卢璐珞.输运理论中出现的非对称代数里卡蒂方程的解形式和简单迭代。SIAM矩阵分析与应用杂志。2005;26(3):679–685.
查看文章谷歌学术搜索
39.Horn RA,Horn RA,Johnson CR.矩阵分析。剑桥大学出版社;1990.
40.新泽西州海厄姆,金· 二次矩阵方程的数值分析。IMA数值分析杂志。2000;20(4):499–519.
查看文章谷歌学术搜索
41.Passemiers A, Moreau Y, Raimondi D. 通过稳健的精确矩阵估计快速准确地推断基因调控网络。生物信息学。2022;38(10):2802–2809.pmid:35561176
查看文章PubMed/NCBI谷歌学术搜索
42.Findley AS, Monziani A, Richards AL, Rhodes K, Ward MC, Kalita CA, et al.功能动态遗传对基因调控的影响特定于特定的细胞类型和环境条件。生活。2021;10:e67077.密码:33988505
查看文章PubMed/NCBI谷歌学术搜索
43.伽马-卡斯特罗 S, 萨尔加多 H, 佩拉尔塔-吉尔 M, 桑托斯-扎瓦莱塔 A, 穆尼兹-拉斯卡多 L, 索拉诺-里拉 H, 等.RegulonDB 7.0版:大肠杆菌K-12的转录调控,整合在遗传感觉反应单位(Gensor单位)内。核酸研究。2010;39(suppl_1):D 98–D105.密码:21051347
查看文章PubMed/NCBI谷歌学术搜索
44.Husmeier D. 从动态贝叶斯网络的微阵列实验推断遗传调控相互作用的敏感性和特异性。生物信息学。2003;19(17):2271–2282.pmid:14630656
查看文章PubMed/NCBI谷歌学术搜索
45.Allen JD, Xie Y, Chen M, Girard L, Xiao G. 比较构建大规模基因网络的统计方法。普洛斯一。2012;7(1):e29348.pmid:22272232
查看文章PubMed/NCBI谷歌学术搜索
46.柳井一世, 本杰明 H, 什莫什 M, 查利法-卡斯皮五世, 什克拉尔 M, 奥菲尔 R, 等.全基因组中距离转录谱揭示了人体组织规格中的表达水平关系。生物信息学。2005;21(5):650–659.密码:15388519
查看文章PubMed/NCBI谷歌学术搜索
47.Diniz WJ, Crouse MS, Cushman RA, McLean KJ, Caton JS, Dahlen CR, et al.大脑、肝脏和肌肉调节网络揭示了孕早期肉牛发育规划中的母体营养影响。科学报告。2021;11(1):1–14.密码:33531552
查看文章PubMed/NCBI谷歌学术搜索
48.Rudenko I,Ni B,GlatterT,Sourjik V.抗西格玛因子FlgM的低效分泌在高温下抑制细菌运动。科学。2019;16:145–154.密码:31170626
查看文章PubMed/NCBI谷歌学术搜索
49.刘旭, 松村 P.FlhD / FlhC复合物,大肠杆菌鞭毛II类操纵子的转录激活剂。细菌学杂志。1994;176(23):7345–7351.pmid:7961507
查看文章PubMed/NCBI谷歌学术搜索
50.Prü? BM, Campbell JW, Van Dyk TK, Zhu C, Kogan Y, Matsumura P. FlhD/FlhC是通过诱导甲基接受趋化蛋白Aer来调节厌氧呼吸和Entner-Doudoroff途径。细菌学杂志。2003;185(2):534–543.密码:12511500
查看文章PubMed/NCBI谷歌学术搜索
51.Etchegaray JP,Inouye M. CspA,CspB和CspG是大肠杆菌的主要冷休克蛋白,在完全阻断蛋白质合成的条件下在低温下诱导。细菌学杂志。1999;181(6):1827–1830.密码:10074075
查看文章PubMed/NCBI谷歌学术搜索
52.Brandi A, Pietroni P, Gualerzi CO, Pon CL. 大肠杆菌中CspA表达的转录后调控。分子微生物学。1996;19(2):231–240.密码:8825769
查看文章PubMed/NCBI谷歌学术搜索
53.Fang L, Jiang W, Bae W, Inouye M. 启动子非依赖性冷休克诱导cspA及其在37°C下通过mRNA稳定进行抑制。分子微生物学。1997;23(2):355–364.pmid:9044269
查看文章PubMed/NCBI谷歌学术搜索
54.Ge SX,Jung D,Yao R. ShinyGO:动物和植物的图形基因集富集工具。生物信息学。2020;36(8):2628–2629.密码:31882993
查看文章PubMed/NCBI谷歌学术搜索
55.艾森伯格E,莱瓦农安永。人类管家基因,重新审视。遗传学趋势。2013;29(10):569–574.pmid:23810203
查看文章PubMed/NCBI谷歌学术搜索
56.张毅, 李丹, 孙斌.管家基因存在吗?普洛斯一。2015;10(5):e0123691.pmid:25970694
查看文章PubMed/NCBI谷歌学术搜索
57.林 Y, 加赞法尔 S, 斯特贝纳克 D, 王 A, 帕特里克 E, 林 DM, 等.评估单细胞中稳定表达的基因。千兆科学。2019;8(9):GIZ106。密码:31531674
查看文章PubMed/NCBI谷歌学术搜索
58.Gerstein MB, Bruce C, Rozowsky JS, Zheng D, Du J, Korbel JO, et al.什么是基因,后编码?历史记录和更新的定义。基因组研究。2007;17(6):669–681.密码:17567988
查看文章PubMed/NCBI谷歌学术搜索
59.Hounkpe BW, Chenou F, de Lima F, De Paula EV.HRT 图集 v1。0 数据库:通过挖掘大量 RNA-seq 数据集重新定义人类和小鼠管家基因和候选参考转录本。核酸研究。2021;49(D1):D 947–D955.密码:32663312
查看文章PubMed/NCBI谷歌学术搜索
60.Subramanian A, Tamayo P, Mootha VK, Mukherjee S, Ebert BL, Gillette MA, et al.基因集富集分析:一种解释全基因组表达谱的基于知识的方法。美国国家科学院院刊.2005;102(43):15545–15550.密码:16199517
查看文章PubMed/NCBI谷歌学术搜索
61.蔡文, 周文, 韩志, 雷军, 庄军, 朱平, 等.主调节基因及其对重大疾病的影响.皮尔·2020;8:e9952.pmid:33083114
查看文章PubMed/NCBI谷歌学术搜索
62.Schaffter T,Marbach D,Floreano D. GeneNetWeaver:网络推理方法的计算机基准生成和性能分析。生物信息学。2011;27(16):2263–2270.密码:21697125
查看文章PubMed/NCBI谷歌学术搜索
63.Barrett T, Wilhite SE, Ledoux P, Evangelista C, Kim IF, Tomashevsky M, et al. NCBI GEO: Archive for functional Genomics Data Sets–update.核酸研究。2012;41(D1):D 991–D995.密码:23193258
查看文章PubMed/NCBI谷歌学术搜索
64.Bolstad BM, Irizarry RA, ?strand M, Speed TP.基于方差和偏差的高密度寡核苷酸阵列数据的归一化方法比较。生物信息学。2003;19(2):185–193.密码:12538238
查看文章PubMed/NCBI谷歌学术搜索
65.Jozefczuk S, Klie S, Catchpole G, Szymanski J, Cuadros-Inostroza A, Steinhauser D, et al.大肠杆菌的代谢组学和转录组应激反应。分子系统生物学。2010;6(1):364.密码:20461071
查看文章PubMed/NCBI谷歌学术搜索
66.库萨诺维奇,巴甫洛维奇,普里查德,吉拉德·转录因子结合变异的功能后果。公共科学图书馆遗传学。2014;10(3):e1004226.密码:24603674
查看文章PubMed/NCBI谷歌学术搜索
67.牛楠, 秦毅, 弗里德利, 侯杰, 卡拉里, 朱敏, 等.放射药物基因组学:一种使用人淋巴母细胞系鉴定辐射反应生物标志物的全基因组关联方法。基因组研究。2010;20(11):1482–1492.密码:20923822
查看文章PubMed/NCBI谷歌学术搜索
68.拉帕莱宁 T, 萨梅斯 M, 弗里德兰德 MR, 't Hoen PA, 蒙龙 J, 里瓦斯马, 等.转录组和基因组测序揭示了人类的功能变异。自然界。2013;501(7468):506–511.密码:24037378
查看文章PubMed/NCBI谷歌学术搜索
69.林淑娴, 谭思杰, 林文贤, 林建.早期非小细胞肺癌的细胞外基质相关预后和预测指标。自然通讯。2017;8(1):1734.密码:29170406
查看文章PubMed/NCBI谷歌学术搜索
70.林淑娴, 谭思杰, 林文贤, 林建.用于临床预测建模的合并肺癌转录组数据集。科学数据。2018;5(1):1–8.密码:30040079
查看文章PubMed/NCBI谷歌学术搜索
71.Garcia-Alonso L,Holland CH,Ibrahim MM,Turei D,Saez-Rodriguez J.用于估计人类转录因子活动的基准和资源整合。基因组研究。2019;29(8):1363–1375.密码:31340985
查看文章PubMed/NCBI谷歌学术搜索
72.Han H, Cho JW, Lee S, Yun A, Kim H, Bae D, et al. TRRUST v2:人类和小鼠转录调控相互作用的扩展参考数据库。核酸研究。2018;46(D1):D 380–D386.密码:29087512
查看文章PubMed/NCBI谷歌学术搜索
73.沃克AM,克里夫A,罗梅罗J,沙阿MB,琼斯P,加索拉JGFM等。评估随机森林和基于迭代随机森林的方法应用于基因表达数据时的性能。计算和结构生物技术杂志。2022;20:3372–3386.pmid:35832622
查看文章PubMed/NCBI谷歌学术搜索
74.Pratapa A,Jalihal AP,Law JN,Bharadwaj A,Murali T.基于单细胞转录组数据的基因调控网络推断的基准算法。自然方法。2020;17(2):147–154.密码:31907445
查看文章PubMed/NCBI谷歌学术搜索
75.J?rvelin K, Kek?l?inen J. IR技术的累积增益评估。ACM 信息系统交易 (TOIS)。2002;20(4):422–446.
查看文章谷歌学术搜索
76.D3GRN:一种数据驱动的动态网络构建方法,用于推断基因调控网络。BMC 基因组学。2019;20(13):1–8.
查看文章谷歌学术搜索
77.基于PLS的方法进行基因调控网络推理.BMC生物信息学。2016;17(1):1–10.密码:28031031
查看文章PubMed/NCBI谷歌学术搜索
78.S?awek J,Arod? T. ENNET:使用梯度提升从表达数据推断大型基因调控网络。BMC 系统生物学。2013;7(1):1–13.密码:24148309
查看文章PubMed/NCBI谷歌学术搜索
79.Huynh-Thu VA,Irrthum A,Wehenkel L,Geurts P.使用基于树的方法从表达数据推断调控网络。普洛斯一。2010;5(9):e12776.密码:20927193
查看文章PubMed/NCBI谷歌学术搜索
80.Küffner R, Petri T, Tavakkolkhah P, Windhager L, Zimmer R. 通过方差分析推断基因调控网络。生物信息学。2012;28(10):1376–1382.密码:22467911
查看文章PubMed/NCBI谷歌学术搜索
81.西克达尔·一种用于鉴定主调节转录因子的新型统计方法。BMC生物信息学。2017;18(1):1–11.密码:28148240
查看文章PubMed/NCBI谷歌学术搜索