免费医学论文发表-喜鹊:N6-甲基腺苷测序中差异RNA甲基化分析的功效评估方法
抽象
最近,用于量化RNA修饰的新型生物技术成为研究表观转录组的研究人员越来越受欢迎的选择。当研究 RNA 甲基化时,例如 N6-甲基腺苷 (m6A),研究人员在其实验设计中需要做出几个决定,特别是样本量和适当的统计功效。由于 m 的复杂性和高通量特性6测序测量、功效计算方法和研究设计目前尚不可用。在这项工作中,我们提出了一种统计功效评估工具 magpie,用于使用 m 进行表观转录组研究的功效计算和实验设计6测序数据。我们基于仿真的功效评估工具将从真实的中试数据中借鉴信息,并检查各种影响因素,包括样本量、测序深度、效应量和基础表达范围。我们在 magpie 中集成了两个模块:(i) 一个灵活而逼真的模拟器模块来合成 m6基于真实数据的测序数据;以及(ii)权力评估模块,以检查一套综合评估指标。
作者摘要
样本量和测序深度是在高通量测序实验之前确定的两个基本定量因素,以便在有限的预算下实现统计功效最大化。由于来自 m 的数据结构复杂6RNA甲基化测序,两种量的分析推导在实验设计中仍然具有挑战性。为了应对这一挑战,我们提出了一个基于仿真的统计框架,以及一个用户友好的R/Bioconductor封装,以全面评估差分m6不同样本量、效应量、基线表达水平和测序深度的甲基化检测。喜鹊使用模拟真实数据的计算机合成数据,提供了几个主要的评估指标,以帮助用户进行研究设计和统计功效评估。
数字
图3图4图5图1表1图2图3图4图5图1表1图2
引文: Guo Z, Duan D, Tang W, Zhu J, Bush WS, Zhang L, et al. (2024) 喜鹊:N6-甲基腺苷测序中差异 RNA 甲基化分析的功效评估方法。PLoS 计算生物学 20(2): 编号:E1011875。 https://doi.org/10.1371/journal.pcbi.1011875
编辑 器: 马克·齐曼, 澳大利亚伯内特研究所
收到: 2023年9月27日;接受: 2024年1月30日;发表: 2月 12, 2024
版权所有: ? 2024 Guo et al.这是一篇根据知识共享署名许可条款分发的开放获取文章,该许可允许在任何媒体上不受限制地使用、分发和复制,前提是注明原作者和来源。
数据可用性: 拟议的功率评估工具 magpie 以 R/Bioconductor 软件包的形式公开提供,网址为:https://bioconductor.org/packages/magpie/。https://github.com/dxd429/magieSims 提供了带有说明的仿真教程。
资金: 这项研究得到了凯斯西储大学授予HF的校内资金的支持。资助者在研究设计、数据收集和分析、发表决定或手稿准备方面没有任何作用。
利益争夺: 提交人声明不存在相互竞争的利益。
介绍
RNA甲基化代表了除了经过充分研究的DNA甲基化和组蛋白修饰之外的另一层表观遗传调控。在不同类型的RNA甲基化中,N6-甲基腺苷,即6A,是最常见的形式。它已被确定为mRNA、rRNA、tRNA、circRNA、miRNA和长链非编码RNA的转录后调控标记之一,在调控前RNA剪接、RNA翻译、稳定性和降解方面发挥重要作用[1–3]。m 的影响6A表明它参与多种细胞过程,如细胞分化和重编程[4,5]。 研究还表明,m 失调之间存在联系6A和许多人类疾病,如癌症和神经疾病[2,6,7]。
MeRIP-seq/m6A-seq 用于表征转录组范围的 m6A 配置文件 [8, 9]。该技术通常依赖于 m 的免疫沉淀6含 A 的 RNA 片段 (m6A-IP),其次是高通量下一代测序。这些样品通常称为IP(免疫沉淀)样品。除 IP 样品外,还为输入对照 mRNA 制备了 cDNA 文库,以测量背景 mRNA 丰度。这些起始对照本质上是来自常规RNA-seq的转录组。这 m6然后,通过输入的 IP 富集量化每个区域的甲基化水平,大致是 IP 和输入控制计数之间的归一化比率。如果 m6富集度显著较高,则该区域的所谓峰值表明潜在的 m6残留物。MeRIP-seq 正在成为一种流行且不可或缺的工具,用于分析转录组范围的 m6A、自发明该技术以来。MeRIP-seq 的一个特点是,它独立地对每个 IP 样本进行免疫沉淀,这可能会引起技术差异。这种技术伪影导致甲基化区域的错误峰值检出。这个问题在样本量较小的研究中变得突出[10],鉴于与当前实验方案相关的高昂费用,这种情况通常存在。作为改进的替代方案,在 m6A-seq2 [11],对所有样本的合并RNA进行单一IP实验,其中来自不同样本的RNA在测序后被唯一条形码和解复用。m 的多路复用分析过程6A-seq2有望被广泛应用于探究m的分布和功能后果6一个。
研究m 的生物学意义6答:一项基本任务是识别不同条件下的差异甲基化区域 (DMR)。尽管已经开发了几种DMR检测方法[12\u201214],并在MeRIP-seq或m中进行了评估[15]6A-seq2 实验,由于测序实验的复杂性,样本量计算及其相关的统计功效仍然是一个悬而未决的问题。此外,由于数据结构的独特性,为其他类型的分析(如RNA-seq的差异表达(DE)基因检测)开发的功效分析工具不能应用于MeRIP-seq和m6A-seq2 实验。首先,从RNA-seq进行DE基因检测的功效评估模拟数据几乎不等同于单独的输入对照数据。没有统计模型可用于生成其匹配的 IP 计数。二、甲基化的效应量(m)6数据分析基于IP/输入的比率,而不仅仅是输入数据。因此,每个基因的计数覆盖率可能会以与DE分析不同的方式影响功效和其他指标。此外,每个基因的基线表达和整个样本的测序深度对DMR检测能力的影响也是不可忽视的。因此,需要一种专门用于表观转录组研究的适当功效分析工具,尤其是随着其日益普及。据我们所知,目前没有可用的方法。
在这里,我们提出了一种名为喜鹊(m6A genome-wide differential analysis power inference).喜鹊首先学习真实数据的特征,然后合成数据,很好地模仿真实数据。在模拟中,喜鹊允许调整样本量、测序深度和效应量。它可以使用多种指标评估表观转录组研究设计,包括灵敏度、特异性、精确度、错误发现率等。基于这些功能,喜鹊通过提供全面的生物统计工具来填补知识空白,用于统计功效评估、样本量计算和数据分析规划,这在一般实验设计中几乎总是需要的。这使其成为第一个通过全面研究统计指标与相关因素之间的关系来指导实际实验设计的工具。6差异分析。喜鹊在 https://bioconductor.org/packages/magpie/ 上以 R/Bioconductor 封装的形式公开提供。
材料和方法
喜鹊概述
我们纯粹基于模拟来评估实验设计对DMR检测能力的影响,其中整个过程分为两个部分。首先,喜鹊对来自MeRIP-seq测序的.bam文件进行预处理,并从所有样本中获取候选区域的读取计数(图1),其中候选区域通过条件二项式检验进行识别。根据已识别候选区域的计数,magpie 使用 Gamma-Poisson 模型模拟 IP 和输入样本的计数矩阵。所涉及的参数是从候选者中估计的,以模拟边际分布、读数和甲基化水平中生物分散分布方面的实际 MeRIP-seq 数据(图 1)。通过仿真数据,我们评估它们的功率和错误率(图 1)。伽马-泊松模拟和功率评估这两个组件是独立的,因此喜鹊允许通过不同的模拟策略对数据进行评估。
缩略图 下载:
PPT的PowerPoint幻灯片
巴布亚新几内亚放大图像
TIFF的原始图像
图 1. 喜鹊概述。
喜鹊提供差分M的功率评估6甲基化分析。它以试点MeRIP-seq数据为输入。基于试点数据,获取候选区域,估计关键参数,并进行基于真实数据的模拟,以进行统计功效评估。
https://doi.org/10.1371/journal.pcbi.1011875.g001
数据生成模型
在这里,我们描述了喜鹊如何在给定不同条件下的现有真实 MeRIP-seq 数据的情况下模拟 MeRIP-seq 计数矩阵。magpie 通过将转录组拆分为 bin、聚合读取计数以及测试 IP 富集对输入的重要性来处理 .bam 文件。使用凸起查找算法,将重要条柱组合到候选区域中。然后,喜鹊在模拟中关注这些候选者,因为其他地区缺乏知识产权富集和生物学相关性。假设所有条件总共有 N 对 IP 和 Input 样本,以及预处理后生成的 M 个候选 DMR。让 Xij和 Yij表示样本 j 中候选 DMR i 中的输入和 IP 计数。我们假设 和 .同样,和 .此处表示输入和 IP 样本的归一化因子,例如库大小。 并且是归一化的泊松率。、 和 θ我是相应伽马分布的形状和尺度参数。鉴于上述假设,自然.此外,表示 , ,然后略微表示,
(1)
在上面的方程式中,μij和 φij表示样本 j 中候选区域 i 甲基化水平的平均值和离散度。
我们从模拟大小因子开始,为此我们直接使用从真实数据中估计的值:其中 x
BJ公司和 yBJ公司是来自第 j个输入和 IP 样本的 bin b 中的读取计数。
接下来,对于每个候选区域 i,喜鹊模拟基线甲基化水平μ我或等效地在结构中 其中 Zj包含示例 j 和 β 的属性我表示相应的系数。为此,我们随机抽取α我从一个参数分布,或从实际数据估计的经验分布。来自五个 MeRIP-seq 数据集的 '分布如 S1 附录中的图 D 所示。
在模拟基线甲基化后,我们模拟了所有区域。由于我们几乎无法知道 DMR 的实际数量及其差异甲基化程度,因此根据合理的假设和经验观察采用了特定的设置。首先,喜鹊将 DMR 的比例设置为 10%,假设在大多数实验中 DM 仅存在于一小部分区域中。然后,对于非 DMR,β我= 0。对于 DMR i,如果其估计效应大小大于所有区域的 50% 分位数。否则,β我~ U(1, 2).在这里,使用DMR检测方法TRESS直接从真实的试点数据中得出。
在几个真实数据集中,离散已被证明是亚静态的,这证明了其建模的必要性(S1附录中的图F)。我们可以从参数分布或经验分布的样本中再次模拟它。为了确保稳健性,可以通过 TRESS 从原始计数或通过归一化计数的 β 二项式回归来估计经验分布。表示 和 作为归一化的 IP 和总数,Beta-二项式回归的建立方式如下:
(2)
其中μij和 φ我表示甲基化水平的平均值和离散度。如前所述,为了便于估计,上面的 β 二项式回归(以及 TRESS)假设φij = φ我对于所有 J。
从经验上讲,对于同一真实数据集,TRESS 中的负二项式模型估计的通常大于 beta 二项式回归估计的估计值。没有黄金真理,我们的φ我依赖于数据驱动的方法。具体来说,通过与真实数据进行比较,喜鹊将按模型计算(1)中每个合成计数的KL散度。那些导致模拟数据和真实数据之间KL差异显著降低的那些将被保留以用于最终数据生成。如果KL散度没有显著差异,则采用NB估计。
最后,我们模拟了尺度参数θ我在(1)中。同样,它可以通过参数分布进行模拟,也可以直接从经验分布中采样。对于参数分布,我们将其均值设置为φ的函数我在先前的峰检测方法中观察到[14]。无论采用何种策略,生成的第一轮都将通过真实计数和第一轮模拟计数之间的倍数变化进一步扩大。这种调整再次有助于减少模拟分布和实际分布之间的差异,从而提高后续功效评估结果的可靠性。
DMR检测
在候选DMR中生成模拟读取计数后,应用为MeRIP-seq开发的现有软件来检测DMR。我们实现了一个用于调用 TRESS 和 exomePeak2 的接口。每种方法都报告所有候选区域的检验统计量、p 值和 FDR。然后,这些结果将用于下游功率评估。用户还可以选择采用其他 DMR 检测方法进行自己的评估,方法是按照我们的仿真教程进行操作,并在 https://github.com/dxd429/magieSims 提供详细说明。该资源使用户能够使用我们的模拟和评估框架生成的合成数据进行自己的分析。
功率评估措施
我们在统计功效评估中采用了几个评估指标,使用 MeRIP-seq 数据进行差异分析。这些指标包括假设检验中的经典标准,例如错误发现率 (FDR)、功效和精确度。我们还检查了错误发现成本(FDC,定义见下文)和目标功效[16],旨在提供全面的统计功效评估。
由于并非所有 DMR 都对我们具有生物学意义,尤其是那些效应量低的 DMR,因此我们为效应量β引入了一个临界 Δ。只有那些具有 |β|≥Δ被认为是“靶向DMR”,在研究中具有生物学意义。我们将非 DMR、非靶向 DMR 和靶向 DMR 的数量表示为 R0、R1和 R2分别。假设 Tr表示区域 r 的测试结果,其中 Tr= 1 表示发现的 DMR,Tr否则 = 0。表 1 总结了 DMR 检测中的混淆矩阵。
缩略图 下载:
PPT的PowerPoint幻灯片
巴布亚新几内亚放大图像
TIFF的原始图像
表 1. 以 m 为单位的混淆矩阵6DMR检测,当考虑生物学意义时。
https://doi.org/10.1371/journal.pcbi.1011875.t001
错误发现率 (FDR) 和准确率是统计指标,它们共同提供了对重要特征中真假发现之间平衡的见解。在此上下文中,FDR 和精度分别定义为 和 。统计功效自然地定义为 。研究检测生物学上感兴趣的靶向 DMR 的能力 |β|≥Δ,引入目标功率并将其定义为 。为了更好地说明误报和真阳性之间的权衡,我们提出了一个额外的指标,即误发现成本 (FDC),它定义为每个目标真阳性的预期误报数。这背后的基本原理很简单:这个成本是每个我们感兴趣的真实发现,错误发现的预期数量。
最后,我们提出的评估框架允许在样本量、测序深度、输入表达层和 FDR 阈值的各种组合下使用模拟来检查上述指标。每个用户定义的场景重复 100 次,并对这些指标进行计算和平均,以生成经验估计。
实现
给定 .bam 文件中的 MeRIP-seq 数据集、各种实验场景(例如样本量、测序深度、FDR 阈值等)和所选的差异甲基化测试方法,喜鹊会为每个提议的研究设计生成评估结果。喜鹊中包含的功能允许用户将这些结果导出到.xlsx文件中,并通过折线图将其可视化。用户可以选择提供小的试点数据,其中可能只包括几条染色体。我们将从这些试点数据中估计主要参数,以指导更大规模的仿真,以便为未来的实验设计进行功耗评估。或者,当试点 MeRIP-seq 数据集不可用或无法获得时,quickPower 函数可以在几秒钟内生成功耗评估结果。这是通过直接提取我们基于GEO上的三个公开N6-甲基腺苷数据集作为试点数据的内部评估结果来实现的[17\u201219]。我们的软件包还附带一个小插曲,提供了其在 N6-甲基腺苷差异分析实验设计中的应用的完整说明和示例。
结果
更大的样本量有利于 DMR 检测
在 S1 附录的模拟设置中概述的模拟设置下,鉴于确定样本数量是我们方法的主要目标,我们接下来检查 DMR 检测中样本量和功效之间的关系。我们采用每组 2、3、5、7 和 10 的样本量,标称 FDR 值为 0.05、0.1、0.15 和 0.2,这两者都是 MeRIP-seq 实验中的常见选择。请注意,我们已经根据试点数据验证了我们的合成数据,确保我们的策略有效地捕获了真实数据的特征(S1附录中的图G)。主要指标的实证结果如图2所示。按样本量和标称 FDR 水平分组,功率、目标功率、FDC 和 FDR 平均超过 100 次模拟,如图 2A–2D 所示。对于固定的样本量,在较低的 FDR 阈值下,功效、FDC 和 FDR 等指标会减少。这是因为较低的 FDR 值会导致更大的严格性,从而减少误报。正如预期的那样,当使用严格的 FDR 时,功率会下降。随着样本量的增加,这些差异变得更小,特别是对于统计功效(图2A)。在这里,所有 FDR 水平的功效始终保持在高水平,每组重复 7 次和 10 次。这突出了使用较大样本量的好处,这有助于检测效应量有限的 DMR,当样本量较小时,通常会发生 II 型错误。当使用不同的先导数据时,可以一致地观察到这种趋势(S1附录中的图A)。同时,这些结果为研究人员提供了根据预算优化样本量的知识。以图 2A 为例,每组 7 个样本的功效约为 0.8,在当前的 MeRIP-seq 研究中,7 个样本量被认为是很大的。将样本量扩大到 10 个的好处是微不足道的,但相关成本可能会高得多。
缩略图 下载:
PPT的PowerPoint幻灯片
巴布亚新几内亚放大图像
TIFF的原始图像
图 2. 在各种样本量和 FDR 阈值下进行 DMR 检测的统计功效评估指标。
(A) 功效与样本量的关系,每条线表示一个 FDR 临界值。(B)-(D) 与 (A) 类似,但适用于其他指标:目标功率、FDC 和 FDR。使用 |β|≥2.线图上的每个点都是基于真实 MeRIP-seq 数据的 N = 100 次模拟的平均值。
https://doi.org/10.1371/journal.pcbi.1011875.g002
基线表达值的影响
对于研究人员了解 DMR 检测中基线表达水平异质性的影响很有用。在MeRIP-seq数据中,基础表达水平由输入控制读取计数表示,因此我们按输入控制范围对功效指标进行分层。根据以下平均投入计数的分位数获得六个地层:第 1 层 (0%-10%)、第 2 层 (10%-30%)、第 3 层 (30%-50%)、第 4 层 (50%-70%)、第 5 层 (70%-90%) 和第 6 层 (90%-100%)。在标称FDR为0.05时,六个地层的平均目标功率和FDC如图3A和3B所示。总体而言,在较低地层中观察到目标功效降低,当样本量较小时,这一趋势更为明显。这是意料之中的,因为低表达区域的真正差异通常被噪声所掩盖,使DMR更难检测。有限的样本量进一步加剧了这个问题。这表明增加测序深度的潜在好处,特别是在生物重复有限且难以获得更多样本的情况下。在这里,相对较低的地层将享受到更大幅度的电力改善的好处。有趣的是,在上层中报告了更高的FDC,这表明在这些高表达区域中,每个真实发现检测到更多的假阳性。然而,这种趋势随着样本量的增加而减弱。鉴于这些指标是在各种模拟场景中计算的,我们进一步探索结果的可变性,使用图 3C-3F 中特定层和样本量内的可视化。随着样本量的增加,目标功效和 FDC 的变异性降低(图 3C 和 3D)。这并不奇怪,因为它更有可能通过更多的重复来捕获真正的色散,从而获得更一致的功率估计。然而,在固定样本量下,在整个地层中都没有观察到这种趋势,这表明增加样本量而不是测序深度的好处,以获得更可靠的推论。在固定的样本量(图3E和3F)下,在整个地层中观察到目标功率和FDC的上升趋势。这一趋势与图3A和图3B中的观察结果一致,尽管存在一些明显的差异。热图面板也可用于说明分层结果(S1附录中的图C)。
缩略图 下载:
PPT的PowerPoint幻灯片
巴布亚新几内亚放大图像
TIFF的原始图像
图 3. 目标功率和 FDC 按 DMR 的平均输入值分层,其中 |β|≥2.
根据输入计数数据分位数定义了六个层:第 1 层(0%,10%)、第 2 层(10%,30%)、第 3 层(30%,50%)、第 4 层(50%,70%)、第 5 层(70%,90%)和第 6 层(90%,100%)。标称 FDR 值 0.05 用于定义显著性。(A)、(B)沿地层的平均目标功率和FDC。每行代表一个样本量选择。(C), (D) 第 3 层中的目标功率和 FDC 分布,按样本量分开。(E)、(F) 目标功率和 FDC 分布,每组 5 次重复,按平均输入计数值分层。N = 100 次模拟。
https://doi.org/10.1371/journal.pcbi.1011875.g003
主要 DMR 调用方法之间的一致性
值得注意的是,结果部分中显示的目标功效和 FDC 是使用 TRESS 计算比值比 (OR) 超过 Δ = 2 的 DMR 的。为了评估这两个指标在各种效应量 (OR)、样本量和 DMR 检测方法中的波动,我们还考虑了 TRESS、exomePeak2 和 RADAR 的 Δ 值为 1.5、2、4、6、8 和 10。在图 4 中,目标功效和 FDC 与样本量作图,并按比值比阈值分组。在所有样本量下,靶向功效增加(图 4A、4C 和 4E)和更高的 FDC,以识别具有更大比值比的 DMR。具体而言,对于 FDC(图 4B、4D 和 4F),在具有异常大比值比 (Δ = 8, 10) 的 DMR 中观察到的值要高得多。这表明,使用这些大型手术室检测 DMR 可能会导致误报显著增加。这些模式适用于 TRESS、exomePeak2、RADAR。虽然所有三种方法都显示出目标功效的改善,并在所有比值比阈值上增加了重复,但 FDC 存在差异,即当使用外显子组 Peak2 和 RADAR 时,它往往会随着样本量的增加而增加。然而,当我们将我们提出的框架应用于不同的试点数据集时,这种差异并未得到普遍观察(S1附录中的图B)。我们进行了进一步的检查,以探讨手术室在敏感性和特异性之间的平衡,以及精确度和召回率之间的权衡(S1附录中的图E)。这些发现强调了在功率计算过程中利用用户指定的DMR检测方法以确保准确估计的重要性。
缩略图 下载:
PPT的PowerPoint幻灯片
巴布亚新几内亚放大图像
TIFF的原始图像
图 4. 比较主要 DMR 检测方法 TRESS (A)-(B) 和外显子组 Peak2 (C)-(D) 之间的功率评估结果。
目标功效和 FDC 以不同的比值比(OR,代表效应量)和样本量显示。标称 FDR 值 0.05 用于定义显著性。线图上的点在 N = 100 次模拟中取平均值。
https://doi.org/10.1371/journal.pcbi.1011875.g004
测序深度的影响
如前所述,测序深度是MeRIP-seq研究设计中的另一个关键因素。在我们对测序覆盖层的分析的基础上,我们通过引入“深度因子”来研究测序深度的另一个方面。这是一个相对比率,反映了扩大或缩小试点数据测序覆盖率的效果。如图5A所示,在所有样本量中,靶向功率随着测序深度的增加而增加。在高深度或大样本量下,增加测序深度的增量增益会减少,但对小样本量的好处最大。在图5B的FDC中,观察到与分层分析类似的模式:FDC随着测序深度的增加而增加,但在样本量较大的情况下趋于稳定。我们还在图5C中提供了集成的可视化效果,在同一面板中展示了目标功耗和FDC,帮助用户了解它们之间的权衡。研究人员可以参考喜鹊使用他们自己的试点数据生成的类似数字,以选择定制的测序深度增加,以达到所需的功率。
缩略图 下载:
PPT的PowerPoint幻灯片
巴布亚新几内亚放大图像
TIFF的原始图像
图 5. 测序深度影响 DMR 的靶向功效和 FDC |β|≥2.
“深度因子”是新数据集的库大小与原始数据集的相对比率。它反映了扩大或缩小试点数据测序深度的影响。(A)、(B)不同测序深度下的靶向功效和FDC,按样本量分组。(C) 在各种测序深度和样本量下,平均靶向功效和 FDC 的联合可视化。N = 100 次模拟。试点数据中“输入”和“IP”的平均测序深度分别为 3.51 倍和 0.54 倍。
https://doi.org/10.1371/journal.pcbi.1011875.g005
讨论
样本量和功效评估是使用测序数据进行实验设计的关键和常规任务。在这里,我们提出了第一个工具,用于解决MeRIP-seq实验中DMR检测的样本量计算和功效估计的迫切需求。传统上,假设检验中的样本量计算或功效评估取决于输入,例如效应大小、与试点研究的方差和显著性水平。相比之下,对于具有转录组范围数据的MeRIP-seq实验,必须将这些标量参数视为分布。此外,测序深度和输入控制水平的分布也会显着影响统计功效,正如我们在结果中所示。因此,我们提出了一种统计学上严格的方法来应对所有这些挑战,并从飞行员的真实数据中提取信息进行模拟和经验功率评估。
我们有一个灵活的仿真框架,允许切换模型来很好地模拟真实数据。在测序研究中,来自不同组织或细胞类型的数据可以跨特征(即基因或区域)表现出独特的表达和 RNA 甲基化分布。为了解决这个问题,我们的工具允许用户提供与其预期研究类似的试点数据,作为下游模拟中估计和采用参数的基础。为了保证模拟数据能够准确反映实际数据特征,喜鹊可以同时采用负二项式和β二项式模型,选择最符合真实数据分布的模型。
如结果所示,增加测序覆盖率和更大的样本量都可以显着提高统计功效。鉴于总测序读数通常是在实验前预先确定的,研究人员可以从我们的工具中受益,以优化测序深度和样本量之间的平衡,以确保差异RNA甲基化研究中的最佳实验设计。
在我们的分层分析中,在低输入电平区域观察到的功率明显较低。这表明了改进过滤策略的潜力。虽然排除低表达的地层肯定意味着在这些区域中失去一些真正的阳性,但它提高了检测高表达的DMR的能力,这些DMR通常具有更大的生物学意义。我们提出的工具喜鹊可以提供对整体功率增益的预见,如果研究人员想在开始数据分析之前权衡利弊。
我们提出的方法捕获了真实的数据特征,在各种实验设置下模拟了数据,并产生了通用的功耗评估指标。该统计框架已实现到用户友好的 R/Bioconductor 封装中。该软件包允许用户将功耗评估结果保存为Excel文件,并通过折线图可视化它们与上述因素的关系。认识到用户可能没有自己的试点MeRIP-seq数据,我们还开发了“quickPower”功能。此功能可以通过检索三项已发表研究的预先计算结果,在几秒钟内生成全面的功率评估输出。喜鹊可在 https://bioconductor.org/packages/magpie/ 购买。
支持信息
模拟设置和其他结果。
跳到无花果分享导航
喜鹊:一种差异RNA的功效评估方法N6-甲基腺苷测序中的甲基化分析S1 附录郭振兴&, 段道宇&, 唐温, Julia Zhu, William S. Bush, 张亮亮,朱晓峰、金福来、冯昊?&这些作者对这项工作做出了同样的贡献。1 模拟设置为了演示我们提出的框架的功耗评估,我们基于来自 GEO 数据集的样本 (GSE114150) [1].使用MeRIP-seq技术获得数据来自八个主要胎儿组织,揭示了与组织特异性活动相关的 m6A。对于 DMR 分析,预计从两个实验条件中重复,因此我们纳入了肝脏和肾脏示例以构建 3 对 3 设计。从这些真实数据中估计参数,我们进行 100在不同设置下对 10,000 个候选区域进行模拟:每组重复(2、3、5、7、10)、FDR 阈值 (0.05, 0.1, 0.15, 0.2) 和因子 (0.3, 0.5, 0.7, 1, 3, 5, 7) 与初始值成正比测序深度。随后对每个方案的评估指标进行平均。我们还雇用了四名其他试点数据集(GSE120024、GSE46705、GSE47217、GSE48037) [2–5]进行额外检查。1
2 其他结果2357102357102357102357102357100.000.250.500.751.00样本量GSE114150GSE120024GSE46705GSE47217GSE48037图A:功率和目标功率的比较。比较功率和目标功率的箱线图(? = 2) 跨不同的样本量和试点数据集。标称 FDR 值 0.05 用于定义意义。进行 N=100 次模拟。TARget Po呃FD C型FD R型F1 S 核心GSE114150GSE120024GSE46705GSE47217GSE48037n=2n=3n=5n=7n=10n=2n=3n=5n=7n=10n=2n=3n=5n=7n=10n=2n=3n=5n=7n=100.000.250.500.751.000.000.250.500.751.000.000.250.500.751.000.000.250.500.751.000.000.250.500.751.00TARget Po呃FD C型FD R型F1 S 核心GSE114150GSE120024GSE46705GSE47217GSE48037s1s2s3s4s5s6s1s2s3s4s5s6s1s2s3s4s5s6s1s2s3s4s5s60.000.250.500.751.000.000.250.500.751.000.000.250.500.751.000.000.250.500.751.000.000.250.500.751.00地层N = 3一个B样本量图 B:比较不同试点数据集的评估指标。一个目标功率、FDC、FDR、在五个试点数据集中,每组样本量为 2、3、5、7、10 的 F 分数。B相同的指标如一个,但仅适用于 N = 3 并按平均输入计数分层。标称 FDR 值为 0.05 用于定义意义。进行 N=100 次模拟。2
下载
无花果分享
S1 附录。 模拟设置和其他结果。
https://doi.org/10.1371/journal.pcbi.1011875.s001
(PDF格式)
引用
1.Wang X, Lu Z, Gomez A, Hon GC, Yue Y, Han D, et al. N 6-甲基腺苷依赖性调节信使RNA稳定性.自然界。2014;505(7481):117–120.PMID:24284625
查看文章PubMed/NCBI的Google 学术搜索
2.Geula S, Moshitch-Moshkovitz S, Dominissini D, Mansour AAF, Kol N, Salmon-Divon M, et al. m6A mRNA 甲基化有助于解决幼稚多能性向分化的方向发展。科学。2015;347(6225):1002–1006.PMID:25569111
查看文章PubMed/NCBI的Google 学术搜索
3.Oerum S, Meynier V, Catala M, Tisne C.m6A/m6Am RNA 甲基转移酶结构的综合综述。核酸研究。2021;49(13):7239–7255.PMID:34023900
查看文章PubMed/NCBI的Google 学术搜索
4.Lasman L, Hanna JH, Novershtern N. m6 a 在胚胎干细胞分化和配子发生中的作用。表观基因组。2020;4(1):5.PMID:34968239
查看文章PubMed/NCBI的Google 学术搜索
5.陈婷婷, 郝永杰, 张彦, 李彦, 王婷, 韩婷, 等.M6A RNA 甲基化受 microRNA 调控,并促进重编程为多能性。细胞干细胞。2015;16(3):289–301.PMID:25683224
查看文章PubMed/NCBI的Google 学术搜索
6.陈旭宇, 张军, 朱建军.m6A RNA甲基化在人类癌症中的作用。分子癌症。2019;18(1):1–9.
查看文章Google 学术搜索
7.Lan Q, Liu PY, Haase J, Bell JL, Huttelmaier S, Liu T.RNA M6A甲基化在癌症中的关键作用。癌症研究。2019;79(7):1285–1292.PMID:30894375
查看文章PubMed/NCBI的Google 学术搜索
8.Dominissini D、Moshitch-Moshkovitz S、Schwartz S、Salmon-Divon M、Ungar L、Osenberg S 等。m 6 A-seq 揭示的人类和小鼠 m 6 A RNA 甲基化组的拓扑结构。自然界。2012;485(7397):201.PMID:22575960
查看文章PubMed/NCBI的Google 学术搜索
9.Meyer KD, Saletore Y, Zumbo P, Elemento O, Mason CE, Jaffrey SR. 对 mRNA 甲基化的综合分析揭示了 3' UTR 和近终止密码子的富集。细胞。2012;149(7):1635–1646.PMID:22608085
查看文章PubMed/NCBI的Google 学术搜索
10.麦金太尔 ABR、戈卡莱 NS、Cerchietti L、Jaffrey SR、Horner SM、梅森 CE。使用 MeRIP/m6A-seq 检测 m6A 变化的限制。科学报告。2020;10(1).
查看文章Google 学术搜索
11.Dierks D、Garcia-Campos MA、Uzonyi A、Safra M、Edelheit S、Rossi A 等。多重分析有助于在位点、基因和样品分辨率上进行稳健的 m6A 定量。自然方法。2021;18(9):1060–1067.PMID:34480159
查看文章PubMed/NCBI的Google 学术搜索
12.Tang Y, Chen K, Song B, 马 J, Wu X, Xu Q, et al. M6A-Atlas:解开N6-甲基腺苷(m6A)表观转录组的综合知识库。核酸研究。2021;49(D1):D 134–D143。PMID:32821938
查看文章PubMed/NCBI的Google 学术搜索
13.Zhang Z, Zhan Q, Eckert M, Zhu A, Chryplewicz A, De Jesus DF, et al. RADAR:使用随机效应模型对 MeRIP-seq 数据进行差异分析。基因组生物学。2019;20(1):1–17.PMID:31870409
查看文章PubMed/NCBI的Google 学术搜索
14.Guo Z, Shafik AM, Jin P, Wu H. 一般实验设计下MeRIP-seq数据的差异RNA甲基化分析.生物信息学(英国牛津)。2022;38(20):4705–4712.PMID:36063045
查看文章PubMed/NCBI的Google 学术搜索
25 分钟Duan D, Tang W, Wang R, Guo Z, Feng H. 表观转录组范围N6-甲基腺苷差异分析方法的评价.生物信息学简报。2023;24(3):1–11.PMID:37039682
查看文章PubMed/NCBI的Google 学术搜索
16.Wu H, Wang C, Wu Z. PROPER:使用 RNA-seq 对差异表达进行综合功效评估。生物信息学。2015;31(2):233–241.PMID:25273110
查看文章PubMed/NCBI的Google 学术搜索
17.牛彦, 赵旭, 吴彦玲, 李娟, 王旭杰, 杨永刚.RNA 中的 N6-甲基腺苷 (m6A):具有新表观遗传功能的旧修饰。基因组学、蛋白质组学和生物信息学。2013;11(1):8–17.PMID:23453015
查看文章PubMed/NCBI的Google 学术搜索
28 分钟Schwartz S、Mumbach MR、Jovanovic M、Wang T、Maciag K、Bushkin GG 等。对 m6A 写入者的扰动揭示了内部和 5' 位点的两类不同类别的 mRNA 甲基化。单元格报告。2014;8(1):284–296.PMID:24981863
查看文章PubMed/NCBI的Google 学术搜索
29 分钟Barbieri I、Tzelepis K、Pandolfini L、Shi J、Millán-Zambrano G、Robson SC 等。启动子结合的 METTL3 通过 m6A 依赖性翻译控制维持髓系白血病。自然界。2017;552(7683):126–131.PMID:29186125
查看文章PubMed/NCBI的Google 学术搜索