《使用混合学生t检验统计鉴定直系基因中的上游转录因子结合位点-厦门杂志期刊论文发表》期刊简介
使用混合学生t检验统计鉴定直系基因中的上游转录因子结合位点-厦门杂志期刊论文发表
黄廷华,肖红,齐田,何振,程媛,林泽钊,高雪军 ,姚敏
出版日期: 2022年06月07日
抽象
背景
转录因子(TF)通过与上游序列基序结合来调节DNA到信使RNA的转录。识别全基因组中已知基序的位置是计算密集型的。
方法/主要结论
本研究提出了一种名为“Grit”的计算工具,用于通过将转录因子与直系基因中的启动子序列协调来筛选TF结合位点(TFBS)。该工具采用新开发的混合学生t检验统计方法,该方法利用物种之间的保护信息检测高分结合位点。该程序在四核亚马逊服务器上以3.2 Mbp / s的速率执行序列扫描,并已通过完善的ChIP-Seq数据集进行了基准测试,使Grit成为顶级TFBS预测因子之一。在分析有据可查的ChIP-Atlas人类基因组Chip-Seq数据集方面,它的表现显着优于众所周知的转录因子基序扫描工具Pscan(4.8%)和FIMO(17.8%)。
意义
砂砾是当前可用的图案扫描工具的良好替代品。
作者摘要
在基因组中定位转录因子结合(TF结合)位点并鉴定其功能是理解各种生物过程的基础。提高预测工具的性能非常重要,因为准确的TF结合位点预测可以节省湿实验室实验的成本和时间。此外,全基因组TF结合位点预测可以为系统生物学视角下的转录组调控提供新的见解。本研究基于混合学生t检验统计方法开发了一种新的TF结合位点预测工具。该工具是顶级的TF结合位点预测因子之一,因此,它可以帮助研究人员进行TF结合位点鉴定和基因转录调控机制的解释。
引文: Huang T, Xiao H, Tian Q, He Z, Yuan C, Lin Z, et al. (2022) 使用混合学生t检验统计鉴定直系基因中上游转录因子结合位点。PLoS计算机生物学18(6):e1009773。https://doi.org/10.1371/journal.pcbi.1009773
编辑 器: Manja Marz,生物信息学,德国
收到: 2021年12月17日;接受: 四月 30, 2022;发表: 六月 7, 2022
版权所有: ? 2022 黄先生这是一篇根据知识共享署名许可条款分发的开放获取文章,允许在任何媒体上不受限制地使用,分发和复制,前提是注明原作者和来源。
数据可用性: Grit在学术自由许可证下在 http://www.thua45.cn/grit 公开提供。
资金: 本项目由国家自然科学基金31902231 31902231号、长江大学31402055(TH)国家自然科学基金项目、长江大学2020084号大学生创新创业培训项目、长江大学教学科研项目等单位资助。JY2020125(TH),长江大学研究生教学计划第一期YAL202108 (MY).资助者在研究设计,数据收集和分析,出版决定或手稿准备方面没有任何作用。
竞争利益: 作者宣布不存在相互竞争的利益。
这是一篇PLOS计算生物学软件论文。
1. 引言
DNA序列基序是一种短保守模式,可以由调节蛋白(如转录因子(TF))协调。DNA序列基序代表基因组中功能上重要的区域,并且是分子进化的基本单位之一,通常在物种之间保守[1]。在基因组中定位这些基序并了解它们的功能是为人类疾病等生物过程建立分子模型的基础[2,3]。研究人员经常面临鉴定全基因组中TF的假定结合位点的任务,称为“基序扫描”[4]。在过去的几十年中,已经描述了许多利用位置权重矩阵(PWM)来完成此任务的计算管道。
MAST根据由短序列组成的数据库搜索DNA基序,并为每个靶序列分配一个评分,假设每个基序出现一次[5]。MCAST使用隐马尔可夫模型(HMM)来扫描DNA序列中包含一个或多个给定基序的区域[6],而SWAN利用通过在背景序列上训练双态HMM来构建的对数似然比(LLR)评分系统[1]。FIMO计算DNA序列基序中每个位置的LLR评分,并使用动态规划方法将此评分转换为q值[7]。TRAP引入了一种物理结合模型来预测给定序列的转录因子的相对结合亲和力[8]。PWMScan使用Bowtie [9]或“matrix_scan”扫描序列基序,后者采用传统的搜索算法[10]。基于Python的程序Motif刮刀使用IUPAC退化碱基搜索指定为文本字符串的图案[11]。一些工具,如巨嘴鸟[12],OTFBS [13]和CREME [14]对目标和控制序列中的所有匹配项进行计数,并应用二项式统计进行过度表示。其他工具,如三叶草[15],PAP[16],oPOSSUM [17],Pscan [18]和TFM_Explorer[19]扫描具有TF基序的共同调节或共表达基因的序列集,并评估显着过度或代表性不足的基序,以确定序列集的共同调节因子。WeederH设计用于在来自直系基因的序列中发现保守的TFBS和远端调节模块[20]。MatrixREDUCE通过对密切相关物种中的直系启动子序列进行无比对和基于亲和力的分析来预测功能转录因子结合[21]。表1总结了目前可用的18种工具的基序扫描参数。-厦门杂志期刊论文发表
thumbnail 下载:
断续器幻灯片
巴新放大图像
断续器原始图像
表 1. 当前可用的图案扫描工具的功能。
https://doi.org/10.1371/journal.pcbi.1009773.t001
为了克服下面描述的当前可用工具的缺点,开发了一种新的基序扫描算法“Grit”,该算法从已知的PWM集合中识别全基因组上游TFBS,用于直系基因的启动子,而无需序列比对。这项研究通过引入一种新的计算框架来解决寻找TF和直系基因集之间显着关联的问题,该框架使用混合学生的t-检验统计并采用构建直系基因启动子序列集的新方法。它在人类基因组中的应用产生了富有成效的结果,证明了其作为基序扫描工具的可取性。
2. 设计和实施
2.1. 为直系基因构建推定的启动子集
TF的PWM是从Jaspar数据库2020年发布的,这里称为JASPAR-2020 [22],其中包括人类物种的TF基序的集合。Ensembl Biomart网络工具版本100 [23]用于提取转录本上游2 kb的推定启动子序列,用于294个基因组中的所有基因(S1表)。用于扫描TFBS的直系基因启动子集是通过首先将来自靶基因组(TG,人类)的cDNA序列与其他293个参考基因组(RG,人类以外的基因组)的cDNA序列进行比较来鉴定直系基因簇,从而将直系基因的2 kb上游序列放在一起。BLASTN参数为“-word_size 11 -奖励 2 -惩罚 -3 -gapopen 5 -gapextend 2 -evalue 1e-6”, 采用基于E值(相互最佳命中)的BEST-to-BEST方法定义两个物种之间的直系基因对。该启动子集被称为“2K集”,可从Grit网站获得,该组中TG的启动子序列被称为“TPS”。从2K集中随机选择随机背景启动子序列集,并将其命名为“BPS”。
2.2. 靶基因组中TFBS的统计鉴定
首先,我们获得了基于HMM(Eq 1)成分的统计评分。该原始评分(RS)的实现代表了现有统计方法的理想[15]。
(1)
RS表示LLR的重复平均。RS表示序列中某个特定位置存在的基序的LLR,其中w是基序的宽度,L表示正在考虑的位置,Lk是该位置 k 处的核苷酸,p(Lk)是观察核苷酸L的背景概率k从 L 的频率估计k在该序列中,和 q(k, Lk)是观察到核苷酸L的概率k从 K 的频率估计千位置在图案中。长度为l的序列中存在的基序的RS是s所有位置的LR平均值的自然对数,其中Ms是序列中以 l–w + 1 计算的位置数。靶基因组中具有统计学意义的TFBS通过混合学生的t-检验进行鉴定。
2.3. 混合学生t检验理论
我们测试了给定基序TG中基因的RS的重要性,假设该基因的2K集合中序列的RS呈正态分布。我们提出了一种新的统计方法,作为学生t检验的延伸,即“混合学生t检验”。提出了一种与规范学生 t 检验略有不同的统计方法 - 给定背景集 (bkg) 和测试集 (obs),我们确定 obs 中的一个值 (一) 是否与 bkg 中的值的平均值显著不同,其中 1、obs 和 bkg 分别是 TPS、2K 集和 BPS 的 RS。混合学生的 t 检验统计量可以通过组合单样本学生 t 检验和独立的双样本学生 t 检验来计算。混合学生 t 检验的 t 统计量 (t') 和自由度 (df) 的计算分别表示为方程 2 和 3。p 值可以通过 “cdflib” 函数 [24] 来估计。
(2)
(3)
计算保守变异系数(CCV,方程式4)和标准差(SD,方程式5),分别表明了物种间TFBS的守恒程度以及TG和RG之间RS评分差异的高度。
(4)
(5)
2.4. 砂砾软件的开发
利用混合学生的t检验统计数据,我们开发了一种名为Grit的工具,通过将TF与直系基因中的启动子序列协调来筛选TFBS。该工具采用 JASPAR-2020(由 -m 选项指定)、2K 集(-i 选项)和 BPS(-b 选项)作为输入。使用默认选项 (-n 10 -z 200 -s 1 -t 0.05 -p 0) 运行工具将生成包含预测 TFBS 的结果文件 (-o 选项)。该程序内置了三个主要步骤:1)使用方程1和2计算每个启动子集中存在的每个PVM的RS,使用Eqs 1和2)使用混合学生的t检验统计数据计算每个给定PWM的每个基因的RS的p值;3) 使用 FDR 方法 [25] 对所有 p 值执行多次测试校正,并保留 FDR ≤阈值的 TFBS,该阈值由 -t 选项定义。源代码已存放在GitHub中,并在学术自由许可证下可用。
2.5. 毅力度软件的性能评估方法
ReMap数据集来自ReMap网站版本2020,称为ReMap-2020 [26],ChIP-Atlas网站版本2021,称为Atlas-2021 [27]。真阳性(TP)被定义为预测的结合位点与ReMap或ChIP-Atlas ChIP-Seq数据集的实验支持的结合位点重叠80%。假阳性(FP)被定义为与实验支持的结合位点不重叠的预测结合位点,假阴性(FN)被定义为未被鉴定的实验支持的结合位点。通过计算灵敏度[Sn = TP/(TP + FN)],阳性预测值[PPV = TP/(TP + FP)]和几何精度[ACCg = ]来评估性能,如Sand等人[28]和Jayaram等人报告的那样[29]针对所有分析的数据集。对这六种工具的所有评估都是在 Amazon EC2 计算服务上并行执行的。对于PWMScan和Clover等软件,本地版本不可用或太慢而无法分析所有PWM,分析了转录因子(35 TF)的随机子集。通过配对的学生 t 检验比较每个工具的 Sn、PPV 和 ACCg 值。
3. 结果
3.1. 使用模拟数据集的混合学生 t 检验
生成两个正态分布数据集,并将其用作 bkg(平均值 = ?10,SD = 5,灰色)和 obs(平均值 = ?2,SD = 7,深绿色)数据集。测试了obs的三个值(位于25,50和75百分位,红色)的显着性,并分别产生了1.0,0.03和1E-25的p值(图1A)。来自人类基因组的三个代表性基因用于测试:紫色表示CCV的75%分位数和SD的25%分位数的基因,深绿色用于CCV的50%分位数和SD的75%分位数的基因,红色表示CCV的25%分位数和SD的75%分位数的基因, 所有这些都产生了小于1E-6的p值(图1B)。计算obs中每个实体(一个)的p值,CCV和SD。如图1C所示,p值随着CCV和SD的增加而减小,表明混合学生的t检验更喜欢具有较高CCV或具有较高SD的TFBS,或两者兼而有之。我们还注意到,当obs和bkg中的值分布相同时,混合t检验表现为单样本t检验,或者当观察(一)位于obs的平均值时,混合t检验表现为双样本t检验(S1 Text)。
thumbnail 下载:
断续器幻灯片
巴新放大图像
断续器原始图像
图 1. 使用模拟和实际数据验证混合学生的 t 检验。
A、B.模拟数据和代表性真实世界数据测试;bkg的分布用灰色,obs用深绿色;感兴趣的一个值用垂直线表示。C. 参数测试。X 轴表示保守变化系数(CCV,0 到 2.0),Y 轴表示标准差(SD,0 到 3.0),Z 轴表示 1 ? p 值。D.用于研究的管道示意图。
https://doi.org/10.1371/journal.pcbi.1009773.g001
3.2. 使用砂砾预测人类基因组中的TFBS
图1D显示了本研究中使用的管道示意图,其中包括:(1)用RG抛丸TG;(2)使用BEST-to-BEST方法构建同源基因的2K集;(3)使用Jaspar-2020和2K集运行Grit;4)使用公共ChIP-Seq数据集评估Grit的性能。启动子集包含2 kb长度的序列,用于35,342个同系物基因簇的假定启动子区域。为了估计该启动子集的准确性,我们将其与EPD数据库中经过实验验证的人类启动子进行了比较,该数据库包含29,598个人类基因启动子序列[30]。TPS包含93.2%的这些基因的启动子序列,显示与EPD序列TPS的后期比对,E值<1E-6.
砂砾用于鉴定人类基因组中的TFBS,方法是将其应用于2K集数据集。砂砾运行花了22个小时,为537个TF确定了757万个重要的TFBS(FDR≤0.05)。如果在至少一个TFBS中发现了靶基因,则该基因被分配TF。使用从ReMap数据库获得的829个ReMap-2020数据集(S2 Table)使用6种公开可用的基序扫描工具评估砂砾预测结果,该工具旨在进行高通量分析[26]。结果如图2所示。与其他工具相比,FIMO和Swan在ChIP-Seq数据集中始终实现了更高的Sn,但PPV较低(p值≤0.05)。砂砾的平均Sn低于FIMO,但砂砾的平均PPV是所有竞争对手中最高的。结果,Grit获得了最高的平均ACCg,其次是FIMO,Swan,Pscan和PWMScan,Clover的ACCg最低。值得注意的是,根据ACCg的评估,砂砾的表现优于FIMO 29%(p值≤0.05)。FIMO和Swan的预测靶标数量惊人地高,平均覆盖了大约80%的人类基因,而Grit,Pscan和PWMScan的预测靶标数量明显较少,三叶草产生的靶标最低(p值≤0.05)。
thumbnail 下载:
断续器幻灯片
巴新放大图像
断续器原始图像
图 2. 基序扫描仪在分析ReMap数据集时的性能评估。
根据灵敏度(Sn),阳性预测值(PPV),几何精度(ACCg)和预测转录因子结合位点总数(TFBS,计数)的参数评估了总共六台扫描仪(三叶草,FIMO,Grit,Pscan,PWMScan和Swan)。
https://doi.org/10.1371/journal.pcbi.1009773.g002
3.3. 使用 ChIP-Atlas 数据集的砂砾性能-厦门杂志期刊论文发表
此外,使用111个高质量Atlas-2021靶基因集(S3 Table)评估了6种扫描仪的性能,这些基因集是从经实验验证的人类ChIP-Atlas数据中收集的,并得到文献支持[27]。表2列出了评估结果的随机子集。FIMO的Sn值高于Grit(33.0%,p值≤0.05),而GRIT的PPV值高于FIMO(2.15倍,p值≤0.05)。砂砾的ACCg值高于FIMO(平均为17.8%,p值≤0.05),表明Grit在Atlas-2021中的表现优于FIMO。此外,砂砾法的表现略优于Pscan法(平均4.8%,p值≤0.05)。使用 JASPAR-2020、ReMap-2020 和 Atlas-2021 数据集进行的分析将 Grit、Pscan 和 FIMO 确定为识别 TFBS 的最佳工具(Grit 网站上提供了所有工具的完整预测结果),根据 ACCg 对它们进行排名,顺序为 Grit > Pscan > FIMO > Swan > PWMScan > Clover。
thumbnail 下载:
断续器幻灯片
巴新放大图像
断续器原始图像
表 2. 使用具有文献支持的公开可用的 Chip-seq 数据集,使用 FIMO 执行 Grit。
https://doi.org/10.1371/journal.pcbi.1009773.t002
3.4. 砂砾和其他预测工具之间的差异
比较了Grit和其他五种工具的预测结果。ChIP-Atlas数据集中有38.9%的TFBS未被其他五种预测工具识别;32.8%的TFBS是由Grit和其他工具确定的;11.5%的TFBS是由其他工具识别的,但不是由Grit识别的;16.8%的TFBS是由Grit识别的,而不是由其他工具识别的。Grit为同一基因鉴定出的总共2.9%的最佳TFBS与其他工具鉴定的那些没有重叠。对Grit和其他五个工具识别的TFBS数量的比较表明,每个工具产生的预测结果截然不同(图3A和3B)。为了展示砂砾与其他工具之间的独特特征,我们研究了砂砾TFBS和砂砾特定TFBS的CCV和SD分布(Grit检测到TFBS,但其他工具没有检测到,Grit-other,“–”符号表示减法)。结果表明,砂砾 ? FIMO 和 Grit ? Swan 具有明显更高的 CCV 值,而砂砾 ? 三叶草、砂砾 ? Pscan 和 Grit ? PWMScan 的 SD 值明显高于砂砾 TFBS(p 值 ≤ 0.05、图 3C 和 3D)。
thumbnail 下载:
断续器幻灯片
巴新放大图像
断续器原始图像
图 3. 砂砾和其他预测工具的结果之间的差异。
A. 在砂砾和其他预测工具之间重叠(浅绿色)的转录因子结合位点(TFBS)的数量,以及砂砾特异性(红色)或其他工具特异性(浅蓝色)TFBS的数量。B. Grit和其他预测工具的预测结果之间的TFBS数量的总体比较。C和D中的小提琴图显示了由Grit识别的TFBS的保守变异(CCV)和标准差(SD)的分布,但其他工具没有(Grit-other,符号“–”表示减法)。
https://doi.org/10.1371/journal.pcbi.1009773.g003
4. 讨论
4.1. TFBS预测需要比较基因组学
TFBS的鉴定对于了解TF如何调节基因表达,最终控制细胞周期进展、应激反应或干细胞分化成成体组织等过程至关重要[31-33]。一个典型的计算问题是,给出一个PWM,如果核苷酸序列包含由PWM本身建模的TFBS的有效实例[4]。如果没有进一步的过滤,几乎不可能对单个序列进行可靠的预测,因为启动子序列上有冗余信息[18]。功能上重要的TF的活性在密切相关和远亲物种中都是高度保守的,从而导致其结合位点在直系基因中频繁发生[1]。通过分析进化保存的转录区域中的序列保守性,可以将基因与其同源基因进行比较,从而能够鉴定直系基因集,并且TFBS可以从这些基因的启动子序列中预测[21]。尽管预测的TFBS需要进一步的湿实验室实验验证,但随着PWM的可用性越来越高,这种硅方法已经得到了广泛的普及[29]。这些密切相关物种中功能上重要的结合位点可以通过启动子序列比对和系统发育印刷方法鉴定[16,34-36]。然而,远亲物种中直系基因的启动子总是保守性较差,并且难以鉴定这些序列中的TF结合位点[1,20]。本研究使用跨物种比较来构建共同调节的直系同源基因集,而无需非编码序列比对。因此,当现有的基于比对的方法不可行时,这种方法非常适合于跨越大型进化差异的比较基因组学。其基本原理是,由同一TF(s)靶向的大多数基因的启动子应包含明显高于从不相关基因集合或随机背景模型获得的一些适当计算的数字的TFBS分数。
4.2. 混合学生的 t 检验有助于发现 TFBS
通过计算目标和对照序列中的匹配和不匹配次数,使用超几何分布进行过度表示的基序分析[14,37]。据报道,一种更复杂的过程,考虑了目标集和控制集中具有零、一、二或三或更多匹配的序列[31]。一些研究建议对靶标和对照序列中的所有匹配项进行计数,并提出了两种不同的二项式公式来评估基序过度表示[12,14]。值得注意的是,广泛使用的Pscan程序计算类似于三叶草的z检验的RS,以分析TFBS的过半或过半。p 值的计算方法是计算随机数据集产生的分数高于输入序列集的次数。我们的工具“Grit”计算类似于三叶草和Pscan的RS,RS是标准基序矩阵分数的平均指数,并且在简单的热力学模型中按顺序与该因子对TFBS的总平衡占用成正比[38-40]。请注意,RS是启动子序列S长度的函数,如果S被扩展为包括不协调基序的核苷酸,RS将减少。给定等长目标序列和对照序列的集合,可以通过对两个集合中的RS进行排序并执行统计分析来测试显著性。
新开发的混合学生t检验是针对TG和RG进行的,用于预计TFBS保存的地点。此外,我们考虑了RG中高度分化的物种(如猪或牛)之间基序变异的可能性,因为2K参考物种中直系基因之间TF的结合评分显着变化。然而,在足够多的RG的情况下,结合亲和力评分应显示正态分布。统计分析倾向于检测TFBS,要么在物种之间保守(高CCV),要么在靶标和对照序列之间具有显着的RS差异(高SD),或两者兼而有之。与其他工具中实施的统计检验相比,这些检验为基因集产生“整体”p值,但无法判断特定序列是否具有一定的TFBS,混合学生的t检验不仅能够利用来自比较基因组学的信息,而且还能够为感兴趣的单个序列产生理论p值。
单物种和多物种预测工具
FIMO,Swan和PWMScan的设计不仅是为了识别与基序的潜在匹配,而且还用于考虑基因组背景的潜在匹配大于预期的偶然匹配[1,7,10]。所有这些都是为单一物种的TFBS预测而设计的,并按预期产生了大量的TFBS。与这些工具相比,Grit识别出的结合位点数量明显较少,这突出了这些工具之间的主要差异。Grit已被设计用于基于PWM预测TFBS,并且这些位点在启动子序列中要么是高度保守的,要么具有高RS。由于TFBS必须在物种之间高度保守,这不是单一物种扫描仪的标准,因此生成的最终清单相对较小,具有更高的CCV,因此可能更适合进一步的实验验证。
三叶草和Pscan设计用于多物种TFBS扫描[15,18]。与三叶草算法类似,Grit为每个输入序列计算一个RS,表示每个TFBS对启动子的平均可能性。高等真核生物的调控区通常包含相同转录因子的多个结合位点,并且还存在该基序的较弱的“影子”拷贝[41]。因此,考虑每个序列的多个匹配的平均分数可能有助于功能基序的发现。另一个问题是适合于评估所获结果重要性的“背景”的定义。在三叶草中,这是通过洗牌主题的列,或通过构建与所研究的序列集相同大小和长度的随机序列集来执行的[15]。然而,在Clover中实现的算法是计算密集型的,需要15天来处理人类基因组的25个PWM。与Pscan类似,Grit将输入序列视为从“宇宙”中提取的样本,该“宇宙”由所研究物种可用的所有启动子序列组成,从宇宙中取出几个子样本,默认大小为200,n = 10,并用作背景。对于每个直系基因的启动子集,可以从输入序列集获得的RS与从全基因组启动子集随机取出的子集上的RS进行比较,并且p值可以通过混合Student的t检验产生。
可用性和未来方向
Grit是当前可用图案扫描工具的良好替代方案,并在学术自由许可证下在 http://www.thua45.cn/grit 公开提供。进一步的方向将是开发算法,如基因集富集分析,以分析转录组数据。
支持信息
混合学生t检验的证明。
显示 1/4: pcbi.1009773.s001.docx
跳转到无花果共享导航
S1_Text。混合学生的证明t-测试(1) 总体均值是否与已知或假设值。t1=?X?μ√∑我=1n(x我??x)2n(1)(2)两个总体的均值是否静态相等的双样本检验。t2=?X1??X2√(n1?1)s12+(n2?1)s22n1+n2?2?√1n1+1n2(2)(3) 混合学生t-测试统计量可以通过组合单样本来计算学生的t-测试和独立的双样本学生t-一起测试。在这项研究中,一个与学生相似但不同的统计问题t-测试被提出: 给一个背景集 (断续器) 和测试集 (obs),查看是否有一个值 (一) 从obs显著不同于 中的值的平均值断续器.t'=?X断续器?一√(nobs?1)sobs2+(n断续器?1)s断续器2nobs+n断续器?2?√1nobs+1n断续器(3)df=(sobs2nobs+s断续器2n断续器)2(sobs2/nobs)2nobs?1+(s断续器2/n断续器)2n断续器?1(4)如果分布obs和断续器都是一样的,ft'(nobs,n断续器)在(n都,n都)什么时候n都 > 2而n都=nobs + n断续器.?X断续器=?Xobs=?X都t'=?X断续器?一√(nobs?1)sobs2+(n断续器?1)s断续器2nobs+n断续器?2?√1nobs+1n断续器
林(nobs,n断续器)→(n都/2,n都/2)t'=?X断续器?一√(n都2?1)s都24+(n都2?1)s都24n都?2?√4n都??X断续器?一√s都2n都这相当于等式1。如果观察一位于obs,?X断续器=?Xobs=一t'=(?X断续器?一)√(nobs?1)sobs2+(nobs?1)s断续器2nobs+n断续器?2?√1nobs+1n断续器?(?X断续器??Xobs)√(nobs?1)sobs2+(n断续器?1)s断续器2nobs+n断续器?2?√1nobs+1n断续器这相当于等式2。
1 / 4
下载
无花果份额
S1 文本。 混合学生t检验的证明。
https://doi.org/10.1371/journal.pcbi.1009773.s001
(DOCX)
S1 表。 Ensembl Biomart 网络工具 100 版中有关基因组的详细信息。
https://doi.org/10.1371/journal.pcbi.1009773.s002
(DOCX)
S2 表。 从ReMap-2020数据库获得的自动注释ChIP-Seq数据集的详细信息。
https://doi.org/10.1371/journal.pcbi.1009773.s003
(DOCX)
S3 表。 公开可用的Chip-Seq数据集(Altas-2021)的详细信息,并提供文献支持。
https://doi.org/10.1371/journal.pcbi.1009773.s004
(DOCX)
确认
感谢杨敏、刘金辉、董开辉、徐明江、陈志、朱世家、蒋彩云、李永霞、李成龙、何亮、蒋珊等对启动子序列、ChIP-Atlas数据集和ReMap数据集的准备。
引用
1.Kim J, Cunningham R, James B, Wyder S, Gibson JD, Niehuis O, et al.使用跨物种比较跨进化距离的转录因子基序的功能表征。PLoS计算机生物学. 2010;6(1):e1000652.Epub 格式 2010/02/04.pmid:20126523;PubMed Central PMCID: PMC2813253.
查看文章PubMed/NCBI谷歌学术搜索
2.高桥 K, 山中 S.十年转录因子介导的重编程到多能性。2016;17(3):183–93.Epub 格式 2016/02/18.pmid:26883003.
查看文章PubMed/NCBI谷歌学术搜索
3.Van der Lee R, Correard S, Wasserman WW.解除管制的调节因子:转录因子基因中的致病顺式变异。趋势基因。2020;36(7):523–39.Epub 格式 2020/05/27.pmid:32451166.
查看文章PubMed/NCBI谷歌学术搜索
4.Ramsey SA, Klemm SL, Zak DE, Kennedy KA, Thorsson V, Li B, et al.通过整合来自基序扫描和表达动力学的证据来揭示巨噬细胞转录程序。PLoS计算机生物学. 2008;4(3):e1000021.Epub 格式 2008/03/29.pmid:18369420;PubMed Central PMCID: PMC2265556.
查看文章PubMed/NCBI谷歌学术搜索
5.Bailey TL,Gribskov M.使用p值组合证据:应用于序列同源搜索。生物信息学。1998;14(1):48–54.Epub 格式 1998/04/01.pmid:9520501.
查看文章PubMed/NCBI谷歌学术搜索
6.Bailey TL, Noble WS.搜索具有统计显著性的监管模块。生物信息学。2003;19 补编2:ii16–25.Epub 格式 2003/10/10.pmid:14534166.
查看文章PubMed/NCBI谷歌学术搜索
7.Grant CE, Bailey TL, Noble WS.FIMO:扫描给定主题的出现次数。生物信息学。2011;27(7):1017–8.Epub 格式 2011/02/19.pmid:21330290;PubMed Central PMCID: PMC3065696.
查看文章PubMed/NCBI谷歌学术搜索
8.Roider HG,Kanhere A,Manke T,Vingron M.从生物物理模型中预测转录因子与DNA的亲和力。生物信息学。2007;23(2):134–41.Epub 格式 2006/11/14.pmid:17098775。
查看文章PubMed/NCBI谷歌学术搜索
9.Langmead B, Salzberg SL. 与 Bowtie 2 的快速间隙读取对齐。Nat 方法。2012;9(4):357–9.Epub 格式 2012/03/06.pmid:22388286;PubMed Central PMCID: PMC3322381.
查看文章PubMed/NCBI谷歌学术搜索
10.Ambrosini G,Groux R,Bucher P. PWMScan:一种使用位置特异性重量基质扫描整个基因组的快速工具。生物信息学。2018;34(14):2483–4.Epub 格式 2018/03/08.pmid:29514181;PubMed Central PMCID: PMC6041753.
查看文章PubMed/NCBI谷歌学术搜索
11.罗伯逊江户。基序刮刀:一种跨平台的开源工具,用于识别FASTA文件中的简并核苷酸基序匹配项。生物信息学。2018;34(22):3926–8.Epub 格式 2018/06/01.pmid:29850891;PubMed Central PMCID: PMC6223366.
查看文章PubMed/NCBI谷歌学术搜索
12.Aerts S,Thijs G,Coessens B,Staes M,Moreau Y,De Moor B. Toucan:破译同调基因的顺式调节逻辑。核酸研究 2003;31(6):1753–64.Epub 格式 2003/03/11.pmid:12626717;PubMed Central PMCID: PMC152870.
查看文章PubMed/NCBI谷歌学术搜索
13.郑娟, 吴娟, 孙振.一种识别相关序列中过度表示的顺式元素的方法。核酸研究 2003;31(7):1995–2005.Epub 格式 2003/03/26.pmid:12655017;PubMed Central PMCID: PMC152803.
查看文章PubMed/NCBI谷歌学术搜索
14.Sharan R,Ovcharenko I,Ben-Hur A,Karp RM. CREME:用于识别人鼠保守片段中顺式调节模块的框架。生物信息学。2003;19 增刊 1:i283–91.Epub 格式 2003/07/12.pmid:12855471.
查看文章PubMed/NCBI谷歌学术搜索
15.Frith MC, Fu Y, Yu L, Chen JF, Hansen U, Weng Z. 通过统计过度表征检测功能性DNA基序。核酸研究 2004;32(4):1372–81.Epub 格式 2004/02/28.pmid:14988425;PubMed Central PMCID: PMC390287.
查看文章PubMed/NCBI谷歌学术搜索
16.Chang LW, Nagarajan R, Magee JA, Milbrandt J, Stormo GD.基于转录因子结合谱的过度代表预测转录调控机制的系统模型。基因组研究 2006;16(3):405–13.Epub 格式 2006/02/02.pmid:16449500;PubMed Central PMCID: PMC1415218.
查看文章PubMed/NCBI谷歌学术搜索
17.Ho Sui SJ, Fulton DL, Arenillas DJ, Kwon AT, Wasserman WW.oPOSSUM:用于分析监管基序过度表示的集成工具。核酸研究 2007;35(网络服务器问题):W245–52.Epub 格式 2007/06/20.pmid:17576675;PubMed Central PMCID: PMC1933229.
查看文章PubMed/NCBI谷歌学术搜索
18.Zambelli F,Pesole G,Pavesi G. Pscan:在来自共调控或共表达基因的序列中发现过度代表的转录因子结合位点基序。核酸研究 2009;37(网络服务器问题):W247–52.Epub 格式 2009/06/03.pmid:19487240;PubMed Central PMCID: PMC2703934.
查看文章PubMed/NCBI谷歌学术搜索
19.Tonon L, Touzet H, Varre JS.TFM-Explorer:挖掘基因组中的顺式调控区。核酸研究 2010;38(网络服务器问题):W286–92.Epub 格式 2010/06/05.pmid:20522509;PubMed Central PMCID: PMC2896114.
查看文章PubMed/NCBI谷歌学术搜索
20.Pavesi G,Zambelli F,Pesole G. WeederH:一种在同源序列中寻找保守的调节基序和区域的算法。BMC生物信息学。2007;8:46.Epub 格式 2007/02/09.pmid:17286865;PubMed Central PMCID: PMC1803799.
查看文章PubMed/NCBI谷歌学术搜索
21.Ward LD, Bussemaker HJ.通过对直系启动子序列进行无比对和基于亲和力的分析来预测功能转录因子结合。生物信息学。2008;24(13):i165–71.Epub 格式 2008/07/01.pmid:18586710;PubMed Central PMCID: PMC2718632.
查看文章PubMed/NCBI谷歌学术搜索
22.Fornes O,Castro-Mondragon JA,Khan A,van der Lee R,Zhang X,Richmond PA等人JASPAR 2020:更新转录因子结合谱的开放获取数据库。核酸研究 2020;48(D1):D 87–D92.Epub 格式 2019/11/09.pmid:31701148;PubMed Central PMCID: PMC7145627.
查看文章PubMed/NCBI谷歌学术搜索
23.Smedley D, Haider S, Ballester B, Holland R, London D, Thorisson G, et al.BioMart - 生物查询变得简单。BMC Genomics.2009;10:22.Epub 格式 2009/01/16.pmid:19144180;PubMed Central PMCID: PMC2649164.
查看文章PubMed/NCBI谷歌学术搜索
24.沃尔夫勒姆·数学书。伦敦第四版:剑桥大学出版社;1999.
25.Benjamini Y,Hochberg Y.控制错误发现率:一种实用而强大的多重测试方法。皇家统计学会期刊B-方法学系列。1995;57:289–300.
查看文章谷歌学术搜索
26.Cheneby J, Menetrier Z, Mestdagh M, Rosnet T, Douida A, Rhalloussi W, et al.ReMap 2020:来自人与拟南芥DNA结合测序实验综合分析的监管区域数据库。核酸研究 2020;48(D1):D 180–D8.Epub 格式 2019/10/31.pmid:31665499;PubMed Central PMCID: PMC7145625.
查看文章PubMed/NCBI谷歌学术搜索
27.Oki S, Ohta T, Shioi G, Hatanaka H, Ogasawara O, Okuda Y, et al.ChIP-Atlas:一个由公共ChIP-seq数据完全集成提供支持的数据挖掘套件。EMBO Rep. 2018;19(12).Epub 格式 2018/11/11.pmid:30413482;PubMed Central PMCID: PMC6280645.
查看文章PubMed/NCBI谷歌学术搜索
28.Sand O, Turatsinze JV, Helden JV.评估基因组序列中顺式作用调节元件的预测:评估基因组序列中顺式作用调节元件的预测;2008.
查看文章谷歌学术搜索
29.Jayaram N,Usvyat D,AC RM.用于转录因子结合位点预测的评估工具。BMC生物信息学。2016;17(1):547.Epub 格式 2016/11/04.pmid:27806697;PubMed Central PMCID: PMC6889335.
查看文章PubMed/NCBI谷歌学术搜索
30.Meylan P,Dreos R,Ambrosini G,Groux R,Bucher P. EPD in 2020:增强的数据可视化和ncRNA启动子的扩展。核酸研究 2020;48(D1):D 65–D9.Epub 格式 2019/11/05.pmid:31680159;PubMed Central PMCID: PMC7145694.
查看文章PubMed/NCBI谷歌学术搜索
31.Elkon R,Linhart C,Sharan R,Shamir R,Shiloh Y.全基因组计算机鉴定控制人类细胞周期的转录调节因子。基因组研究 2003;13(5):773–80.Epub 格式 2003/05/03.pmid:12727897;PubMed Central PMCID: PMC430898.
查看文章PubMed/NCBI谷歌学术搜索
32.范AX, 帕帕佐普洛斯 GL, 马侯赛因, 林IJ, 胡俊, 唐TM, 等.转录因子TFII-I的基因组和蛋白质组学分析揭示了对细胞应激反应的洞察力。核酸研究 2014;42(12):7625–41.Epub 格式 2014/05/31.pmid:24875474;PubMed Central PMCID: PMC4081084.
查看文章PubMed/NCBI谷歌学术搜索
33.丹羽H.控制转录因子网络在干细胞中起作用的原理。发展。2018;145(6).Epub 格式 2018/03/16.pmid:29540464.
查看文章PubMed/NCBI谷歌学术搜索-厦门杂志期刊论文发表
34.Warner JB, Philippakis AA, Jaeger SA, He FS, Lin J, Bulyk ML. 系统鉴定哺乳动物调控基序的靶基因和功能。Nat 方法。2008;5(4):347–53.Epub 格式 2008/03/04.pmid:18311145;PubMed Central PMCID: PMC2708972.
查看文章PubMed/NCBI谷歌学术搜索
35.Kheradpour P,Stark A,Roy S,Kellis M.使用12个果蝇基因组可靠地预测调节靶点。基因组研究 2007;17(12):1919–31.Epub 格式 2007/11/09.pmid:17989251;PubMed Central PMCID: PMC2099599.
查看文章PubMed/NCBI谷歌学术搜索
36.Kellis M, Patterson N, Endrizzi M, Birren B, Lander ES.酵母种类的测序和比较,以鉴定基因和调节元件。自然界。2003;423(6937):241–54.Epub 格式 2003/05/16.pmid:12748633.
查看文章PubMed/NCBI谷歌学术搜索
37.Hughes JD,Estep PW,Tavazoie S,Church GM.与酿酒酵母中功能相关基因组相关的顺式调节元件的计算鉴定。分子生物学报. 2000;296(5):1205–14.Epub 格式 2000/03/04.pmid:10698627.
查看文章PubMed/NCBI谷歌学术搜索
38.DNA结合位点:表征和发现。生物信息学。2000;16(1):16–23.Epub 格式 2000/05/17.pmid:10812473.
查看文章PubMed/NCBI谷歌学术搜索
39.Schneider TD, Stormo GD, Gold L, Ehrenfeucht A. 核苷酸序列上结合位点的信息含量.1986;188(3):415–31.Epub 格式 1986/04/05.pmid:3525846
查看文章PubMed/NCBI谷歌学术搜索
40.Berg OG,von Hippel PH.通过调节蛋白选择DNA结合位点。趋势生物化学 1988;13(6):207–11.Epub 格式 1988/06/01.pmid:3079537
查看文章PubMed/NCBI谷歌学术搜索
41.Papatsenko DA,Makeev VJ,Lifanov AP,Regnier M,Nazina AG,Desplan C.从独特的调节区域中提取功能结合位点:果蝇早期发育增强剂。基因组研究 2002;12(3):470–81.Epub 格式 2002/03/05.pmid:11875036;PubMed Central PMCID: PMC155290.
查看文章PubMed/NCBI谷歌学术搜索