医学论文免费发表-通过秩相似性的基于引用的规范化方法
抽象
微生物组测序数据标准化对于消除技术偏差和确保准确的下游分析至关重要。然而,由于微生物组数据中零计数的频率很高,这个过程可能具有挑战性。我们提出了一种新颖的基于参考的归一化方法,称为通过秩相似性(RSim)归一化,该方法可以纠正特定于样本的偏差,即使在存在许多零计数的情况下也是如此。与其他归一化方法不同,RSim 不需要对零计数的高患病率进行额外的假设或处理。这使得它健壮,并最大限度地减少了解决零计数的程序(例如伪计数)导致的潜在偏差。我们的数值实验表明,RSim 减少了错误发现,提高了检测能力,并在下游任务(如 PCoA 绘图、关联分析和差异丰度分析)中揭示了真实的生物信号。
作者摘要
测序深度等技术因素可能会在分析和解释微生物组测序数据时引入偏差。数据归一化对于缓解这些偏差和实现可靠的下游分析至关重要。然而,数据中的大量零计数给开发有效的归一化方法带来了重大挑战。受刺入细菌实验的启发,我们提出了一种新的计算框架来解决技术因素造成的偏差。我们的方法根据观察到的计数的成对等级相似性识别一组非差异丰度的分类群,并随后缩放计数以确保该集合中的相同覆盖率。通过采用这种创新方法,我们的方法可以稳健地处理零计数,并避免引入与零处理相关的新偏差。综合评估表明,我们的方法有助于下游分析有效地检测细微但生物学上重要的信号,并减少错误发现。新方法为促进我们对微生物群落的理解提供了有希望的前景。
数字
Fig 6图1图2图3Fig 4Table 1Fig 5Fig 6图1图2图3
引文: 袁 B, 王 S (2023) RSim:一种基于引用的秩相似度归一化方法。公共科学图书馆计算生物学19(9): e1011447. https://doi.org/10.1371/journal.pcbi.1011447
编辑 器: 李悦, 加拿大麦吉尔大学理学院
收到: 13月 2023, 21;接受: 2023月 1, 2023;发表: <>月 <>, <>
版权所有: ? 2023 袁王.这是一篇根据知识共享署名许可条款分发的开放获取文章,该许可允许在任何媒体上不受限制地使用、分发和复制,前提是注明原作者和来源。
数据可用性: He et al. (2018)、Vangay et al. (2018) 和 Caporaso et al. (2011) 中的所有三个数据集都可以从 https://github.com/BoYuan07/RSim-manuscript-code 下载。Stammler等人(2016)中的数据集可以从 https://microbiomejournal.biomedcentral.com/articles/10.1186/s40168-016-0175-0 下载。R 包可在 https://github.com/BoYuan07/RSimNorm 获得。所有分析都可以在 https://github.com/BoYuan07/RSim-manuscript-code 下找到。
资金: BY和SW由美国国家科学基金会(DMS-2113458)资助。资助者在研究设计、数据收集和分析、发表决定或手稿准备方面没有任何作用。
竞争利益: 提交人声明不存在相互竞争的利益。
介绍
高通量测序技术彻底改变了微生物群落的研究,为生物学家提供了研究和理解生物事件和机制的有力工具。然而,由于技术因素可能会混淆结果,分析和解释高通量测序生成的数据可能具有挑战性[1-3]。高通量测序的一个主要局限性是,观察到的测序计数数据只能反映分类群的相对丰度,而不是它们的绝对丰度,因为观察到的测序深度在不同样品之间可能有很大差异,并且与绝对丰度无关[4-6]。在数学术语中,观察到的测序计数数据可以表示为:其中N
I,J和 AI,J是第i个样本中分类单元J的观测计数和绝对丰度,以及c我是第 i个样本的未观测采样分数。未观察到的采样分数通常是特定于样品的,并且可能因测序深度和捕获效率等技术因素而异。由于这种未观察到的抽样分数,将经典统计方法应用于观察到的计数数据可能会导致假阳性的科学发现和无效的分析结果[2,7]。本文将未观察到的抽样分数产生的偏差称为成分偏差。
对观察到的测序计数数据进行归一化是消除成分偏差和确保准确可靠的下游分析的关键步骤。为此,已经为不同类型的测序数据集提出了许多归一化方法[4,8-16]。 这些方法大致可分为三个计算框架:稀疏、缩放和基于对数比率的方法[2,3]。稀薄方法对每个样品的分类群进行子采样,以确保所有样品具有相同的测序深度。虽然这种方法在实践中很流行,但它可能导致下游分析中统计能力的丧失,并且不能纠正成分偏差[17]。除了稀疏方法外,缩放方法是另一种广泛使用的归一化策略,它估计未观察到的采样分数,并通过该估计的采样分数缩放观察到的计数。缩放方法包括累积和缩放 (CSS) [12]、中位数 (MED) [18]、上四分位数 (UQ) [10]、M 值修剪平均值 (TMM) [4]、成对比率几何平均值 (GMPR) [19] 和总和缩放 (TSS) 归一化。然而,当微生物组数据中普遍存在零计数时,准确估计采样分数可能具有挑战性[2]。最后,提出了基于对数比的方法,该方法受到经典成分数据分析[20,21]的启发。虽然对数比变换可以缓解成分效应,但当存在零计数时,如何应用对数比变换以及如何解释结果仍不清楚[22-24]。这些挑战使我们质疑是否可以开发一种新的归一化方法,既能对流行的零计数具有鲁棒性,又能纠正成分偏差。
在这里,我们介绍了一种新的归一化方法,我们称之为RSim(通过Rank Similarity进行归一化),以纠正测序数据集中的成分偏差。RSim 归一化是一种缩放方法,由刺入细菌实验中的归一化方法激发。RSim 不是直接估计采样分数,而是首先通过分类群的成对等级相似性识别一组无差异丰度分类群,然后缩放计数以确保该估计集中的总覆盖率在样本中相同。为了准确识别无差异丰度分类群,RSim采用了一种新的经验贝叶斯方法来控制误分类率。与现有方法不同,RSim 不需要对流行的零计数进行任何假设或额外处理,因为用于测量秩相似性的 Spearman 秩相关系数对零计数是稳健的。除了对零的鲁棒之外,RSim 在估计采样分数和校正成分偏差方面优于现有方法。我们通过将其与使用合成和真实数据集的几种最先进的方法进行比较来证明RSim的功效。我们的结果表明,RSim可以帮助减少错误发现,提高检测能力,并在各种下游分析中揭示真实的生物信号,例如PCoA绘图,关联分析和差异丰度分析。RSim 规范化在 R 包中实现,可在 https://github.com/BoYuan07/RSimNorm 免费获得。
结果
RSim 规范化概述
我们简要总结了 RSim 规范化方法,并在方法部分提供了更详细的说明。虽然我们在本文中关注微生物组数据,但值得注意的是,RSim可能适用于其他测序数据,例如批量RNA-seq和单细胞RNA-seq[1]。RSim方法的灵感来自刺入细菌实验中使用的归一化方法[25-28]。当有刺入细菌可用时,每个分类单元的计数按刺入类群计数的倒数重新缩放,如下所示:
在这里,NI,J表示第 i个样本中观察到的分类单元 j 计数,并且是尖峰类群的集合。我们将此方法称为基于引用的规范化,因为它被视为引用集。当有刺入细菌可用时,基于参考的方法可以纠正成分偏差[25]。基于参考的方法的有效性取决于以下假设:加标类群的绝对丰度在样品中是相同的,如下式所示:
在这里,一个I,J表示第 i个样本中分类单元 j 的绝对丰度。鉴于基于尖峰的归一化的成功,人们可能想知道确定满足上述平等的参考分类群集并用它来纠正成分偏差而不使用尖峰细菌是否可行。我们的论文表明,当我们能够识别一组非差异丰度分类群时,这是可能的,用 表示,并用这些估计的非差异丰度分类群替换尖峰类群。
RSim归一化方法主要旨在识别微生物组数据中的一组非差异丰度分类群,即使在存在零计数的情况下也是如此。该识别过程有两个步骤:首先,我们利用分类群的成对等级相似性构建每个分类单元的差异丰度水平的统计数据;其次,我们使用一种新的经验贝叶斯方法,根据第一步获得的统计数据来识别非差异丰度分类群(见图1)。为了解释第一步背后的直觉,我们注意到非差异丰度分类单元的计数与未知采样分数大致成正比,而差异丰度分类单元的计数与采样分数缺乏这种对应关系。因此,两个无差别丰度分类群之间的等级相关性应高于非差异丰度分类单元和差异丰度分类单元之间的等级相关性。假设大多数分类群是无差异丰度的,我们使用分类单元与其他分类单元之间的等级相关系数的中位数作为差异丰度水平的统计量。在第二步中,我们使用经验贝叶斯方法根据第一步获得的统计数据来识别非差异丰度分类群。新的经验贝叶斯方法允许选择一个阈值来控制误分类误差。由于大多数已鉴定的分类群都是非差异丰度的,因此它们可以作为RSim中基于参考的归一化的参考集。值得注意的是,RSim 过程以与非零条目相同的方式处理零条目,从而允许它始终使用零计数。在以下部分中,我们将演示RSim归一化在纠正成分偏差方面的有效性,即使在数据集中存在许多零的情况下也是如此。
缩略图 下载:
.PPT幻灯片
.PNG大图
.TIFF原始图像
图1. 演示 RSim 规范化过程的图示。
步骤1:评估分类群成对等级相似性的中位数,以构建每个分类群差异丰度水平的统计量。步骤2:一种新的经验贝叶斯方法在识别非差异丰度分类群时提供了误分类率控制。估计的非差异丰度分类群用作基于参考的归一化中的参考集。
https://doi.org/10.1371/journal.pcbi.1011447.g001
通过 RSim 归一化纠正成分偏差
本节介绍一系列数值实验,以评估RSim归一化纠正成分偏差的能力。我们使用[29]中收集的微生物组数据集生成合成数据,其中97%的条目为零。我们首先调查RSim归一化估计参考集中的分类群是否大多是非差异丰富的。具体来说,我们设计了几个数值实验来确定RSim中的经验贝叶斯方法是否可以将估计参考集中的错误分类率控制在期望的水平。S1 图显示了 RSim 成功控制了不同水平误分类率在目标水平上的经验误分类率。我们通过改变差异丰度类群的信号强度、差异丰度类群中群体大小的平衡、差异丰度类群的比例和样本量变化来进一步评估估计参考集的鲁棒性(S3图)。我们的实验表明,RSim可以可靠地识别主要由非差异丰度分类群组成的参考集。
下一组数值实验旨在研究RSim归一化是否可以通过基于参考的归一化恢复每个样本的采样分数。为此,我们将RSim归一化与六种最先进的归一化方法进行了比较,包括TSS,在edgeR中实现的UQ,在宏基因组Seq中实现的CSS,在DESeq2中实现的MED,在edgeR中实现的TMM和在GMPR中实现的GMPR。我们还包括基于预言机引用的归一化,其中引用集由真正的非差异丰度分类群组成。使用从[29]中收集的微生物组数据集生成的合成数据,我们将样本随机分为两组,并将信号插入到一组的差异丰度分类群中。然后,我们使用七种归一化方法估计每个样本的采样分数,并比较它们的性能。图2显示了这些实验的结果。研究发现,当差异丰度类群的信号强度较弱时,大多数归一化方法都能很好地恢复采样分数,并且在估计中没有明显的偏差。然而,在存在强差异丰度分类群的情况下,现有的归一化方法在采样分数估计中存在系统偏差,而基于参考的归一化对这种偏差具有鲁棒性。值得注意的是,RSim 规范化的性能与 oracle 方法类似,表明 RSim 选择的参考集主要包含非差异丰度分类群,并且可以有效地规范化数据。总体而言,我们的数值实验表明,RSim归一化纠正了测序过程中技术变化导致的样本特异性偏差。
缩略图 下载:
.PPT幻灯片
.PNG大图
.TIFF原始图像
图2. 估计抽样分数的归一化方法的比较。
当差异丰度类群的信号强度为(a)弱、(b)中等和(c)强时进行数值实验。在 (a)、(b) 和 (c) 中,x 轴表示真实的采样分数,而 y 轴表示归一化方法的估计采样分数。我们缩放估计的抽样分数,使其平均值与真实采样分数的平均值相同。这些图中的黑线表示估计和真实抽样分数之间的相等,点的颜色表示差异丰度分类群属于哪个组。当差异丰度类群的信号强度和比例(p = 0.1, 0.2, 0.3)变化时,比较了(d)中不同归一化方法采样分数估计的偏差。显然,基于参考的方法比现有方法可以更好地纠正成分偏差,特别是当存在很大比例的强差异丰度分类群时。
https://doi.org/10.1371/journal.pcbi.1011447.g002
当有刺入细菌可用时,我们还将这些基于计算的归一化方法与基于加标的归一化方法进行了比较。具体来说,我们考虑在[25]中收集的数据集,其中将固定数量的Salinibacter ruber引入肠道微生物组样品中以校准未知的采样分数。由于刺入细菌可用,我们将基于刺入的归一化结果视为基本事实,并比较七种基于计算的归一化方法。估计采样分数的差异在S4图中报告。我们观察到,与其他六种方法相比,RSim估计的采样分数更类似于基于尖峰的归一化方法,再次证实了RSim归一化可以更好地纠正样本特定的偏差。在接下来的三节中,我们将研究RSim归一化如何提高常用下游分析的性能,包括PCoA绘图,关联分析和差异丰度分析。
RSim 归一化揭示了 PCoA 图中的生物学模式
本节旨在研究不同归一化方法对PCoA图的影响。具体来说,我们将应用标准化方法(即TSS,UQ,CSS,MED,TMM,GMPR,稀薄和RSim)后标准化数据的PCoA图与[29]中收集的微生物组数据集进行比较。如果计数数据未适当归一化,则成分偏差可能会在 PCoA 图中创建假聚类或模式。我们将样本随机分为两组,无论使用何种归一化方法,在PCoA图中都没有观察到聚类结构(图3a)。然而,当我们通过子采样稀薄一组样品的计数数据时,测序深度的差异导致某些PCoA图中出现两个簇(图3b)。特别是,RSim,TMM,GMPR,稀疏和TSS可以通过规范化来消除此类虚假集群,而CSS,MED和UQ则不能。我们还对[30]中收集的另一个数据集进行了类似的数值实验。KarenThai类别中的样本根据测序深度分为两组(>10000属于第一组,<5000属于第二组)。按测序深度分隔的两个簇存在于除RSim归一化以外的所有归一化方法的PCoA图中(图3c)。通过这两个示例,我们得出结论,与现有的归一化方法相比,RSim 规范化在缓解 PCoA 图中的错误集群或模式问题方面更有效。
缩略图 下载:
.PPT幻灯片
.PNG大图
.TIFF原始图像
图3. 成分偏差会在 PCoA 图中产生假聚类。
在(a)和(b)中,样本被随机分为两组。不对 (a) 进行任何修改,而组 1 中的计数数据在 (b) 中很少。在(c)中,样品根据测序深度分为两组(>10000属于第一组,<5000属于第二组)。在这些图中,RSim 规范化可以帮助消除由组合偏差导致的假簇。所有 PCoA 图都使用带对数变换的欧氏距离。
https://doi.org/10.1371/journal.pcbi.1011447.g003
由成分偏差引起的错误模式的存在可能导致对数据的错误解释,突出了正确归一化的重要性。S6a图显示了[31]中收集的数据集中右手掌样本的PCoA图,按实验开始以来的天数着色。PCoA图在原始数据中表现出明显的时间相关模式,这意味着在15个月的研究期间微生物丰度可能发生变化。在应用除 RSim 之外的所有归一化方法后,在 PCoA 图中也观察到类似的模式。然而,进一步的检查揭示了时间和测序深度之间的强相关性(S6c图),并且在按测序深度着色的PCoA图中也存在类似的模式(S6b图)。这表明测序深度是一个混杂因素,可能是观察到的时间相关模式的原因。RSim 归一化可以有效地消除这种错误模式,因此,PCoA 图中的时间和排序深度模式不再明显,证明了 RSim 归一化在消除混杂效应方面的有效性。
适当的归一化不仅有助于避免虚假的簇,还有助于检测由微生物丰度变化导致的真实生物模式。按照与上一节类似的方法,我们从[29]中的数据集中生成了具有差异丰度分类群的数据。这些分类群的绝对丰度取决于表征生物结构的潜在变量。当这个潜在变量是二进制时,PCoA图中预计会出现双簇结构,但成分偏差混淆了这种结构(S5a图)。应用归一化方法后,只有 RSim 归一化有助于检测 PCoA 图中的双簇结构。我们在数值实验中观察到了当潜在变量连续时类似的现象(S5b图)。这些例子表明,成分偏差可以掩盖感兴趣的生物信号,而RSim归一化可以帮助揭示数据集中的真实生物学模式。
RSim 归一化提高了关联分析的效率
本节研究归一化对关联分析的影响,旨在检测微生物组数据与特定结果(如年龄或 BMI)之间的关联。为了比较不同归一化方法的性能,我们考虑了两种常用的关联分析方法,PERMANOVA [32, 33] 和 MiRKAT [34]。与前面的部分类似,我们从[29]中的微生物组数据集生成合成数据。在第一组实验中,我们研究了归一化对关联分析的I型误差的影响。我们将样本随机分为两组,并通过子采样对第一组进行稀薄。由于测序深度的差异,当我们直接对非规范化计数数据进行关联分析时,I型误差被高度夸大。应用八种不同的归一化方法后,只有TSS、稀疏和RSim归一化可以有效控制I型错误。我们还将PERMANOVAA应用于居住在泰国的克伦族个体的样本,如[30]中收集的那样,使用与上一节相同的实验设置。P值在图3c中报告。PERMANOVA 发现,当计数数据通过现有归一化方法归一化时,微生物组数据与测序深度定义的组之间存在显着关联。然而,当我们应用 RSim 归一化时,这种关联不再显着,这表明 RSim 归一化可以纠正由混杂排序深度引起的成分偏差。这些结果进一步证实了 RSim 规范化可以减少关联分析中的错误发现。
第二组数值实验研究了不同归一化方法对关联分析功效的影响。与前两节一样,我们从[29]中的微生物组数据集中生成了具有差异丰度分类群的合成数据。将PERMANOVA和MiRKAT直接应用于非归一化数据会导致功率损耗,而RSim归一化在大多数设置中比现有方法更有效地提高了功率(参见图4b和S7图)。除了合成数据外,我们还使用[30]中收集的数据集比较了不同的归一化方法。具体来说,我们应用PERMANOVA和MiRKAT来研究居住在泰国的克伦族个体的BMI与人类肠道微生物组之间的全球关联。当使用RSim和GMPR对微生物组数据进行归一化时,我们观察到P值小于0.05的显着关联。然而,当使用其他现有的归一化方法时,没有报告显着的发现(见表1)。这一发现与先前的文献一致,表明肠道微生物群对营养代谢和能量消耗有显着影响[35]。这些发现强调了关联分析中适当归一化对于避免错误发现和提高功效的重要性,并且 RSim 归一化是现有方法的更好选择。
thumbnail 下载:
.PPT幻灯片
.PNG大图
.TIFF原始图像
图4. 归一化可以减少错误发现并提高关联分析的能力。
在(a)中,样本随机分为两组,第一组中的计数数据很少。在(b)中,合成数据包括差异丰度分类群。(a) 和 (b) 中的显著性水平均为 0.05。规范化是避免错误发现和提高功率的重要步骤。
https://doi.org/10.1371/journal.pcbi.1011447.g004
thumbnail 下载:
.PPT幻灯片
.PNG大图
.TIFF原始图像
表 1. 归一化可以通过提高关联分析的能力做出更多的科学发现。
https://doi.org/10.1371/journal.pcbi.1011447.t001
RSim归一化提高了差异丰度分析的准确性
本节重点介绍归一化对差异丰度分析的影响,旨在识别不同条件下具有不同丰度的分类群。经典检验(如双样本 t 检验和皮尔逊相关检验)通常用于此分析,但将它们直接应用于非规范化计数数据可能会导致错误发现膨胀。因此,适当的规范化对于缓解此问题至关重要。我们对从[29]中的数据集生成的合成数据进行了实验,以研究归一化如何影响差异丰度分析。具体来说,我们应用了七种归一化方法(TSS,UQ,CSS,MED,TMM,GMPR和RSim),并使用二元结果的双样本t检验和连续结果的Pearson相关检验进行差异丰度分析。图5中的结果表明,不适当的归一化可能会引入偏差,导致错误发现率(FDR)膨胀并降低功耗。然而,RSim归一化可有效控制FDR并保持足够的功率,从而减轻成分偏差。这些结果证实了适当的归一化对于差异丰度分析的重要性,并表明RSim归一化是一个可靠的选择。
thumbnail 下载:
.PPT幻灯片
.PNG大图
.TIFF原始图像
图5. 比较不同归一化方法对差异丰度分析的影响。
(a) 和 (b) 是应用七种归一化方法后 t 检验的 FDR 和灵敏度图。(c) 和 (d) 是应用七种归一化方法后皮尔逊相关检验的 FDR 和敏感性图。x轴是差异丰度分类群的信号强度。RSim可以帮助t检验和皮尔逊相关检验控制FDR并保持检测能力。
https://doi.org/10.1371/journal.pcbi.1011447.g005
除了合成数据外,我们还将RSim归一化应用于真实数据集,以进一步阐明归一化对差异丰度分析的影响。首先,我们使用 [31] 中的数据集来比较七种归一化方法。根据测序深度将样品分为两组,我们应用了配备七种归一化方法的双样本t检验以及四种为成分数据设计的最先进的差异丰度检验:ANCOM [36],edgeR [37],LinDA [38]和RDB [24]。如图6所示,结果表明,在分析测序计数数据时,不适当的归一化可能导致FDR膨胀。然而,RSim归一化成功地纠正了成分偏差,并改进了双样本t检验以控制FDR并检测显着差异。
thumbnail 下载:
.PPT幻灯片
.PNG大图
.TIFF原始图像
图6. RSim 归一化有助于双样本 t 检验控制错误发现。
根据测序深度将样本分为两组(<10000属于第一组,>20000属于第二组),当使用不同的显著性水平时显示FDR。在(a)中,比较了七种规范化方法。在(b)中,将配备RSim归一化的双样本t检验与最先进的差异丰度检验进行比较。
https://doi.org/10.1371/journal.pcbi.1011447.g006
我们还将RSim归一化和双样本t检验应用于来自移民效应研究的肠道微生物组数据集[30]。该分析比较了两组:Karen(居住在泰国的Karen女性个体)与Karen1st(Karen女性个体出生在东南亚并移居美国)。我们在比较中检测到六个重要的门(S1表)。值得注意的是,旨在消除成分偏差并在先前实验中具有最佳错误发现控制的RDB测试也检测到了这六个门。然而,将双样本t检验应用于非归一化数据导致检测到三个不同的门。这一发现与先前的研究结果一致,表明拟杆菌、厚壁菌、放线杆菌和梭杆菌与肥胖有关,移民的肥胖率明显高于泰国人[39-41]。此外,脱硫杆菌被证明与炎症性肠病有关[42],与亚洲国家相比,尤其是泰国,这些疾病的发病率在西方国家要高得多[43],这也与我们的发现一致。这些结果再次表明,RSim归一化可以提高差异丰度测试的能力,以控制错误发现并比现有的归一化方法更有效地检测显着差异。
讨论
在这项研究中,我们提出了RSim,这是一种新颖的归一化方法,可以纠正微生物组数据中具有许多零的样本特异性偏差。RSim 规范化对流行的零是鲁棒的,因为每个步骤都可以使用零,而无需做出额外的假设或处理。RSim首先通过评估分类群的成对等级相似性来识别一组非差异丰度分类群,然后在基于引用的归一化中使用估计集作为参考集。这种方法有效地纠正了成分偏差,即使微生物组数据由许多零计数组成。此外,虽然我们的讨论主要集中在微生物组测序数据上,但该算法中的想法可能应用于单细胞RNA测序数据,其中标准化的一个主要障碍也是零计数问题。
我们对归一化结果如何影响下游分析的全面研究表明,未观察到的采样分数是高通量测序数据分析中常见的混杂因素。成分偏差可能会混淆几乎所有类型的下游分析的结果,从数据可视化到统计测试。这种混杂因素会产生错误的聚类或发现,并模糊数据分析和解释中感兴趣的信号。我们的数值实验表明,RSim归一化可以比现有方法更好地消除成分偏差,减少错误发现并提高下游分析中的检测能力,包括PCoA绘图,关联分析和差异丰度分析。我们希望这种新的规范化方法能够改善当前的数据分析管道,并使生物学研究人员能够做出更多的科学发现。
RSim归一化的一个主要假设是,超过一半的分类群是非差异丰度的,这也用于开发成分数据中的差异丰度分析。这一假设可能看起来很有力,但当未观察到抽样分数时,有必要进行模型识别[24]。换句话说,当不到一半的非差异丰度时,无法从观察到的测序计数确定非差异丰度分类群的集合。我们建议对高分辨率数据(例如 ASV 或 OTU 级别)应用 RSim 规范化,以满足此假设。当ASV/OTU在更高的分类水平(如类或目水平)聚合到分类群中时,非差异丰度分类群可能会少得多,因为非差异和差异丰度ASV的聚合导致差异丰度分类群[44]。
最后,RSim归一化的发展表明,基于参考的归一化在识别一组无差异丰度分类群时可以成功纠正成分偏差。虽然RSim归一化仅建议一种检测一组非差异丰度分类群的方法,但可能有其他方法可以实现相同的目标。例如,斯皮尔曼的秩相关系数可以用其他相关系数代替,例如皮尔逊和肯德尔秩相关系数。探索是否有比我们的经验贝叶斯方法更好的方法来控制误分类率也会很有趣。
材料和方法
基于引用的规范化
为了纠正测序数据中的成分偏差,文献中提出了各种方法,用于有和没有刺入细菌的实验。最常用的方法之一是在存在刺入细菌的情况下,使用对照序列的计数来校准计数数据[25-28]。在加标细菌的实验中,将已知浓度的外源分类群以等量引入每个样品中,然后使用这些外源性分类群的计数重新调整计数数据。具体来说,假设我们有 n 个样本,每个样本都有 d 个分类群。让一个I,J是第 i个样本的分类单元 j 的真实绝对丰度,并让 NI,J是相应的观察到的序列计数。如果我们将尖峰类群的集合表示为 ,那么我们可以按如下方式重新缩放计数数据:
这种缩放的目的是通过确保加标分类群的重新缩放计数在样本中相同,将相对丰度转换为绝对丰度。实验表明,这种缩放可以成功恢复绝对丰度,通过使用多个尖峰分类群(即更大的)来减少恢复误差[25]。然而,使用刺入细菌可能会受到可靠分类群的可用性以及潜在扩增偏差的限制[45,46]。鉴于这些挑战,人们很自然地会问这个想法是否可以推广到没有刺入细菌的实验中。
从尖峰分类群实验中的缩放方式可以推断出一种新的计算归一化方法:首先,我们确定一个数据驱动的参考集,其绝对丰度在样本中保持稳定,然后根据该集合对计数数据进行归一化:
在刺入细菌的实验中,参考集只是在不同样品中具有相同绝对丰度的刺入类群的集合。这种归一化方法在本文中称为基于引用的归一化。基于参考的方法也广泛用于成分数据分析[20,21]。例如,加性对数比率变换使用最后一个分类单元作为参考集,而居中对数比率变换使用所有分类单元的几何平均值作为参考集。基于参考的假设也用于成分数据的差异丰度分析[23,24,44]。 与标准的成分数据分析不同,我们使用集合中的丰度总和作为参考。
为了在没有刺入类群的先验知识的情况下执行有效的归一化,我们需要选择一个适当的参考集,用 表示。在存在尖峰分类群的情况下,参考集只是具有已知绝对丰度的分类群的集合,该分类群在样品中是恒定的。然而,对于没有尖峰类群的实验,我们可以改用大量非差异丰度的分类群作为参考集。我们假设存在一组非差异丰度的分类群,称为,使得它们的绝对丰度在样本中是相似的。在这种情况下,这些分类群的绝对丰度之和在样本中也是相似的,这使得丰度总和成为归一化的合适参考。此外,由于测量现象的集中,许多分类群的丰度总和通常比单个分类群的丰度总和更稳定[47,48]。这一观察结果表明,基于非差异丰度分类群集的归一化可以有效地恢复绝对丰度。在下一节中,我们将讨论如何从数据中估计引用集。
按等级相似性标识参考集
在上一节中,我们提出了使用基于参考的归一化,通过识别大量无差异丰度分类群,将相对丰度转换为绝对丰度。在本节中,我们介绍了一种通过比较分类群对之间的计数相似性来检测该集合的新方法。在介绍该方法之前,我们介绍一些符号和假设。我们根据绝对丰度将分类群分为两组:差异丰度分类群的集合,用 表示,和非差异丰度分类群的集合,用 表示。为了简化分析,我们假设非差异丰度分类群的绝对丰度在样品之间是相同的,而差异丰度分类群的绝对丰度在样品之间变化
该模型仅用于说明目的,但我们在这里介绍的方法可以在更一般的环境中工作,只要非差异丰度分类群的绝对丰度方差远小于差异丰度分类群的方差。在实践中,我们观察每个分类单元的计数,这只反映了相对丰度,并假设它是从多项式分布中提取的,其中第i个样本中的总序列号。[23, 44]中也考虑了类似的模型。等价地,我们假设观察到的分类群计数大约等于绝对丰度乘以一些未观察到的采样分数c
我
为了使模型可识别,我们假设 ,其中 d 是分类群的数量。有关模型识别的更多讨论,请参见 [24]。在引入这些符号和假设之后,我们提出了一种用于识别引用集的两步方法。
第 1 步:差异丰度水平统计。
在第一步中,我们使用分类群的成对相似性来构建每个分类单元(即属于或)的差异丰度水平的统计数据。我们在此步骤中使用的关键观察结果是,两个非差异丰度分类单元的观测计数比非差异丰度分类单元和差异丰度分类单元的计数更相似。我们将所有样本中第 j个分类单元的计数表示为 ,将所有样本的抽样分数表示为 。由于非差异丰度类群的绝对丰度在样本中是稳定的,我们可以预期两个非差异丰度类群的计数向量,和 几乎与采样分数向量成正比,因此 之间的相关性接近 1。然而,由于差异丰度类群的绝对丰度因样本而异,我们可以预期 和 之间的相关性远小于 1 当 j1是一个无差别丰度分类单元和j2是一个差异丰富的分类单元。如果我们使用斯皮尔曼的秩相关系数来衡量相关性,那么其中 r(?, ?) 是斯皮尔曼的秩相关系数。我们如何利用成对相似性的差异来区分非差异和差异丰度分类单元?由于我们假设超过一半的分类群是非差异丰富的,我们可以看看一个分类单元与其他分类单元之间的等级相关系数的中位数。更具体地说,如果我们表示我们可以期望的中位数
这一观察结果表明,中位数 Mj可用于区分非差异和差异丰度类群。
第二步:分类群分类。
我们方法的第二步使用 Mj根据经验贝叶斯框架对每个分类单元进行分类。第一步建议 Mj非差异丰度类群大于差异丰度类群。一个自然分类规则是,我们可以选择一个阈值T,使得所有具有M的分类群j > T被归类为无差分丰度类群,即是估计量。阈值T应该有助于确保大多数分类群是无差异丰度的,因为我们的目标是找到满足条件的参考集。
为此,我们选择阈值 T 来控制误分类错误率,即其中 η > 0 是用户选择的目标误分类率(例如,η = 0.01)。我们使用经验贝叶斯框架估计T[49,50]。为了方便这一点,我们写了 F
0和 F1作为 M 的累积分布函数j当j分别为非微分和微分丰度类群,F为M的累积分布函数时j,即π
0是无差别丰度类群的比例。按照这些符号,我们可以将错误分类错误重写为
经验贝叶斯框架中的想法是估计π0, F0,以及来自观测 M 的 Fj, j = 1, ..., d,然后我们可以通过插入这些估计器来估计误分类误差。累积分布函数 F 可以通过其经验版本自然估计,其中是一个指标函数。在估算 F 之前
0和π0,我们选择γ> 0 使得 ,表明 j 很可能是一个非差异丰度的分类单元,当 Mj > γ. 选择γ后,采用重采样法估算F0.1) 用 M 查找所有分类群j > γ和定义,它是高概率的非差异丰度类群的一个子集。2) 重复对分类群进行子采样,并重新计算子采样数据的中位数,如步骤 1 所示。换句话说,子采样数据集仅包括来自 的分类群。当子采样数据集中的所有分类群都是非微分丰度时,我们可以预期 Spearman 相关系数的中位数近似于从 F0.3)这些重采样中位数的经验累积分布函数是我们的估计量。找到和后,我们可以估计π0由
在这里,我们使用 1 ? F(t) ≈π0(1 ? F0(t)) 当 t >γ。使用估计器 、 和 ,我们选择阈值和估计参考集为
调整参数的选择。
RSim归一化有两个主要参数:目标误分类率η和差分丰度水平统计γ阈值。η的选择会影响经验误分类率和估计参考集的大小,进而影响下游分析和采样分数回收的性能。较小的η导致偏差越不显著,但采样分数回收率的方差越高。因此,我们建议使用较小的η进行对采样馏分回收偏差敏感的下游分析,例如差异丰度分析。相反,较大的η适用于需要具有夸大偏差和低变异的估计采样分数的下游分析,例如PCoA绘图。S1a图表明,当改变η时,经验误分类率得到了很好的控制。
理想情况下,阈值γ应处于差异丰度分类群无法达到的最低水平。γ的选择取决于微生物组数据特征,例如分类等级和不同丰度分类群的比例。我们的经验表明,在ASV或OTU水平上,至少90%的非差异丰度分类群的统计数据大于0.8。因此,我们建议使用 γ = 0.8 并在所有实验中使用它。如前所述,最好在 ASV/OTU 级别应用 RSim 规范化,然后将数据转换为更高的分类等级,例如属和科。S1b图显示,当γ从0.5到0.95变化时,经验误分类率总是控制不足。
我们还进行数值实验,研究参数选择对下游分析的影响,包括关联分析和差异丰度分析。结果显示在 S2 图中。通过S2图,我们可以观察到下游分析的性能对η比γ更敏感,并且适当的参数选择对于实现高功效和低错误发现至关重要。
计算复杂性。
RSim 规范化的计算复杂度为 O(d2n),其中 d 是分类群的数量,n 是样本数量。我们进行了数值实验来比较流行的归一化方法的计算复杂度。结果显示在 S2 表中。正如预期的那样,RSim 归一化比大多数归一化方法需要更多的计算时间,因为搜索非差异丰度分类群非常耗时。S2表还表明,当微生物组数据集具有相对中等的d(小于5000)和n(小于500)值时,不同归一化方法的计算时间是可比的。
支持信息
模拟的详细说明。
显示 1/10: pcbi.1011447.s001.pdf
跳到无花果共享导航
补充材料数值实验设置符号摘要我们用 表示样本量n,以及分类群的数量d.J1代表差异丰度分类群的集合,并且J0代表其余的分类群。XI,J是数据集中的原始计数。一个I,J是模拟的绝对丰度。NI,J是模拟观测计数。误分类率控制水平参数用下式表示η.我1和我2表示由差异丰度定义的两组不同的样品植物。模拟研究以评估成分偏差校正第一个实验是在He等人(2018)收集的数据集上进行的。我们只包括 30 岁以下的样本,因此有 539 个样本和 37532 个 ASV。第二个实验是在St ?ammler等人(2016)收集的数据集上进行的,其中包含37样本和 1783 个 OTU。图2的设置:在图(a)、(b)和(c)中,n= 随机选择 500 个样本从数据集中随机分为两组我1和我2大小相等。10%分类群被随机选择为J1.我们模拟实验的想法是处理原始计数数据作为绝对丰度的总体。具体来说,绝对丰度按以下方式生成:为我∈I1:一个I,J=(XI,J+ 泊松(λ), j∈J1,XI,J, j∈J0为我∈I2:一个I,J=XI,J, j= 1,...,d给定模拟的绝对丰度,模拟实验中观测到的计数为按以下方式生成:NI,J~二项式(一个I,J,c我)我= 1,..,n, j= 1,...,,哪里c我~Unif[0,1] 是每个样本的采样分数。λ弱信号为 1 (a),10 表示中等信号 (b),500 表示强信号 (c)。(d) 的设置与 (a)、(b) 和 (c) 相同,只是我们考虑比例差异丰度类群p= 0.1,0.2,0.3. 偏差的评估方式如下:偏差 =1|我1|X我∈I1日志 (?c我/c我)?1|我2|X我∈I2日志 (?c我/c我).这里|·|表示集合的基数。上式中的两个项表示两组真实抽样分数和估计抽样分数之间的平均对数差分别。如果正确估计了两组的抽样分数,则绝对值1
这两个项之间的差异应接近于零。另一方面,如果差异丰度分类群导致估计采样分数的系统偏差,偏差可以很大。在上述所有实验中,我们选择η= 0.2.图S4的设置:基于峰值的归一化的结果是基本事实对于采样分数,表示为c我对于我第 个样本。让 ?c我表示抽样通过基于计算的归一化方法估计的分数。差异为评估数量如下:差异 =1nnX我=1日志( ?c我/c我),哪里n是样本大小。评估误分类率控制的仿真研究与上一组模拟实验类似,我们仍然对数据进行实验集合收集于He等人(2018)。每组实验重复500次,我们使用作为度量的平均误分类率。图 S1a 的设置 1:n= 从数据集中随机选择 500 个样本,并且分为两组我1和我2大小相等。随机选择10%的分类群J1.绝对丰度通过以下方式产生:为我∈I1:一个I,J=(10·λ·(XI,J+ 1), j∈J110·XI,J, j∈J0为我∈I2:一个I,J= 10·XI,J, j= 1,...,dλ是信号强度,在此实验中设置为 2。观测计数生成于以下方式:NI,J~二项式(一个I,J,c我)我= 1,..,n, j= 1,...,,哪里c我~Unif[0,1] 是每个样本的采样分数。图 S2a 的设置 1:n= 从数据集中随机选择 500 个样本,并且分为两组我1和我2大小相等。选择前10%丰度的分类群要成为J1.绝对丰度通过以下方式产生:为我∈I1:一个I,J=???103·XI,J, j∈J110·XI,J, j∈J0为我∈I2:一个I,J= 10·XI,J, j= 1,...,d观察计数按以下方式生成:NI,J~二项式(一个I,J,c我)我= 1,..,n, j= 1,...,,哪里c我~Unif[0,1] 是每个样本的采样分数。2
1 / 10
下载
无花果分享
S1 文本。 模拟的详细说明。
描述如何在模拟中生成数据集。
https://doi.org/10.1371/journal.pcbi.1011447.s001
(英文)
S1 图 当目标误分类率η和参数γ变化时,误分类率控制。
在图(a)中,x轴是目标误分类率,而y轴表示估计参考集的经验误分类率。在所有设置中,估计参考集的错误分类错误率都可以得到很好的控制。在图(b)中,我们将γ的值从0.5变化到0.95。两个图形的所有三个设置都是相同的。设置1:随机选择10%分类群作为差异丰度类群,差异丰度类群的潜在变量为二元;设置2:差异丰度类群是前10%最丰度类群,差异丰度类群的潜在变量是二元的;设置3:差异丰度类群是前10%最丰度类群,差异丰度类群的潜在变量是连续的。
https://doi.org/10.1371/journal.pcbi.1011447.s002
(巴布亚新几内亚)
S2 图 敏感性分析。
(a) 和 (b) 显示调谐参数选择如何影响关联分析。小η和大γ将导致更高的功率。(c) 和 (d) 分别显示调谐参数选择将如何影响 Pearson 相关检验和 t 检验。如果 FDR 的 Pearson 相关检验和 t 检验结果η值较大,则具有膨胀。
https://doi.org/10.1371/journal.pcbi.1011447.s003
(巴布亚新几内亚)
S3 图 当差异丰度类群的信号强度、群体大小的平衡、差异丰度类群的比例和样本数量不同时,误分类率控制。
尽管选择了差异丰度类群的信号强度、群体大小的平衡、差异丰度类群的比例和样本量,但RSim中的经验误分类率得到了很好的控制。
https://doi.org/10.1371/journal.pcbi.1011447.s004
(巴布亚新几内亚)
S4 图 将抽样分数估计值与基于峰值的归一化结果作为基本事实进行比较。
比较了与基于尖峰的归一化方法的差异,观察到RSim表现出与基于尖峰的归一化方法最接近的结果。
https://doi.org/10.1371/journal.pcbi.1011447.s005
(巴布亚新几内亚)
S5 图 归一化可以揭示PCoA图中的生物学模式。
在(a)中,样本被随机分为两组,前10%最丰度的分类群是具有二元潜变量的差异丰度分类群。在(b)中,前10%最丰富的分类群是具有连续潜在变量的差异丰度分类群。在这些图中,RSim 归一化可以揭示潜在变量的结构。所有 PCoA 图都使用带对数变换的欧氏距离。
https://doi.org/10.1371/journal.pcbi.1011447.s006
(巴布亚新几内亚)
S6 图 由构图偏见引起的错误模式会导致误导性结论。
(a) 显示实验开始后按天数着色的 PCoA 图。(b) 显示按测序深度着色的 PCoA 图。(c)显示时间和排序深度之间的关系。PCoA图中的时间模式与测序深度的模式高度重叠,这可以通过时间和测序深度之间的确定性关系来解释。
https://doi.org/10.1371/journal.pcbi.1011447.s007
(巴布亚新几内亚)
S7 图 归一化可以提高关联分析的能力。
在(a)和(b)中,样本被随机分为两组,前25%最丰度的分类群是具有二元或连续潜在变量的差异丰度分类群。显著性水平为 0.05。RSim 可以提高关联分析的能力。
https://doi.org/10.1371/journal.pcbi.1011447.s008
(巴布亚新几内亚)
S1 表。 通过不同差异丰度分析方法检测的差异丰度门。
考虑了三种方法:对非规范化数据的 t 检验、对 RSim 归一化的数据进行 t 检验和对非规范化数据的 RDB 检验。
https://doi.org/10.1371/journal.pcbi.1011447.s009
(英文)
S2 表。 不同归一化方法的计算时间(以秒为单位)。
d 是分类群的数量,n 是样本数量。所有實驗均在iMac M1 / 8GB進行。数据是从 [30] 中收集的数据集中子采样的。
https://doi.org/10.1371/journal.pcbi.1011447.s010
(英文)
引用
1.巴列霍斯,里索D,夏尔多内A,杜多伊特S,马里奥尼JC。标准化单细胞RNA测序数据:挑战和机遇。自然方法。2017;14(6):565–571.密码:28504683
查看文章PubMed/NCBI谷歌学术搜索
2.Weiss S, Xu ZZ, Peddada S, Amir A, Bittinger K, Gonzalez A, et al.归一化和微生物差异丰度策略取决于数据特征。微生物组。2017;5(1):27.pmid:28253908
查看文章PubMed/NCBI谷歌学术搜索
3.微生物成分分析:归一化和差异丰度分析的综述。NPJ生物膜和微生物组。2020;6(1):1–13.pmid:33268781
查看文章PubMed/NCBI谷歌学术搜索
4.罗宾逊医学博士,奥什拉克·一种用于RNA-seq数据差异表达分析的缩放归一化方法。基因组生物学。2010;11(3):1–9.密码:20196867
查看文章PubMed/NCBI谷歌学术搜索
5.Young MD,Wakefield MJ,Smyth GK,Oshlack A.RNA-seq的基因本体分析:考虑选择偏差。基因组生物学。2010;11(2):1–12.密码:20132535
查看文章PubMed/NCBI谷歌学术搜索
6.科内萨 A, 马德里加尔 P, 塔拉佐纳 S, 戈麦斯-卡布雷罗 D, 塞尔维拉 A, 麦克弗森 A, 等.RNA-seq数据分析最佳实践调查。基因组生物学。2016;17(1):1–19.
查看文章谷歌学术搜索
7.范德普特 D, 卡塔根 G, 德霍 K, 维埃拉-席尔瓦 S, 瓦莱斯-科洛默 M, 萨比诺 J, 等.定量微生物组分析将肠道群落变异与微生物负荷联系起来。自然界。2017;551(7681):507–511.密码:29143816
查看文章PubMed/NCBI谷歌学术搜索
8.休斯JB,赫尔曼JJ。稀疏技术在微生物多样性分子清单中的应用。酶学方法。2005;397:292–308.密码:16260298
查看文章PubMed/NCBI谷歌学术搜索
9.Anders S, Huber W. 序列计数数据的差异表达分析.自然先行。2010;第1-1页。密码:20979621
查看文章PubMed/NCBI谷歌学术搜索
10.Bullard JH,Purdom E,Hansen KD,Dudoit S.评估mRNA-Seq实验中归一化和差异表达的统计方法。BMC生物信息学。2010;11(1):1–13.pmid:20167110
查看文章PubMed/NCBI谷歌学术搜索
11.Dillies M, Rau A, Aubert J, Hennequet-Antier C, Jeanmougin M, Servant N, et al.Illumina高通量RNA测序数据分析归一化方法的综合评估。生物信息学简报。2013;14(6):671–683.密码:22988256
查看文章PubMed/NCBI谷歌学术搜索
12.Paulson JN, Stine OC, Bravo HC, Pop M. 微生物标记基因调查的差异丰度分析。自然方法。2013;10(12):1200–1202.pmid:24076764
查看文章PubMed/NCBI谷歌学术搜索
13.伦·跨细胞池化,以标准化具有许多零计数的单细胞 RNA 测序数据。基因组生物学。2016;17(1):1–14.密码:27122128
查看文章PubMed/NCBI谷歌学术搜索
14.Bacher R, Chu L, Leng N, Gasch AP, Thomson JA, Stewart RM, et al. SCnorm: 单细胞RNA-seq数据的稳健归一化。自然方法。2017;14(6):584–586.邮编:28418000
查看文章PubMed/NCBI谷歌学术搜索
15.Kumar MS,Slud EV,Okrah K,Hicks SC,Hannenhalli S,Corrada Bravo H.稀疏测序计数数据中成分偏差的分析和校正。BMC 基因组学。2018;19:1–23.密码:30400812
查看文章PubMed/NCBI谷歌学术搜索
16.Hafemeister C,Satija R.使用正则化负二项式回归的单细胞RNA-seq数据的归一化和方差稳定。基因组生物学。2019;20(1):296.密码:31870423
查看文章PubMed/NCBI谷歌学术搜索
17.McMurdie PJ, Holmes S. Waste not, Want No: Why Rarefating microbiome data is unpass.公共科学图书馆计算生物学。2014;10(4):e1003531.密码:24699258
查看文章PubMed/NCBI谷歌学术搜索
18.Love MI,Huber W,Anders S.使用DESeq2调节RNA-seq数据的倍数变化和分散估计。基因组生物学。2014;15(12):1–21.pmid:25516281
查看文章PubMed/NCBI谷歌学术搜索
19.Chen L, Reeve J, Zhang L, Huang S, Wang X, Chen J. GMPR:一种用于零膨胀计数数据的稳健归一化方法,应用于微生物组测序数据。皮尔·2018;6:e4600.密码:29629248
查看文章PubMed/NCBI谷歌学术搜索
20.艾奇森·成分数据的统计分析。皇家统计学会杂志:B系列(方法学)。1982;44(2):139–160.
查看文章谷歌学术搜索
21.Pawlowsky-Glahn V,Buccianti A.成分数据分析。威利在线图书馆;2011.
22.Greenacre M. 成分数据分析。统计及其应用年度审查。2021;8:271–299.
查看文章谷歌学术搜索
23.Brill B,Amir A,Heller R.测试成分计数数据中差异丰度,并应用于微生物组研究。应用统计学年鉴。2022;16(4):2648–2671.
查看文章谷歌学术搜索
24.组成数据中的鲁棒差异丰度检验.生物梅特里卡。2023;110(1):169–185.
查看文章谷歌学术搜索
25.St?mmler F, Gl?sner J, Hiergeist A, Holler E, Weber D, Oefner PJ, et al.调整微生物组谱,以应对刺入细菌的微生物负荷差异。微生物组。2016;4:1–13.pmid:27329048
查看文章PubMed/NCBI谷歌学术搜索
26.Tourlousse DM, Yoshiike S, Ohashi A, Matsukura S, Noda N, Sekiguchi Y. 用于高通量 16S rRNA 基因扩增子测序的合成加标标准品。核酸研究。2017;45(4):e23–e23.密码:27980100
查看文章PubMed/NCBI谷歌学术搜索
27.Tkacz A,Hortala M,Poole PS.环境样品中微生物群丰度的绝对定量。微生物组。2018;6:1–13.pmid:29921326
查看文章PubMed/NCBI谷歌学术搜索
28.Hardwick SA, Chen WY, Wong T, Kanakamedala BS, Deveson IW, Ongley SE, et al.合成微生物群落为宏基因组测序和分析提供了内部参考标准。自然通讯.2018;9(1):3096.密码:30082706
查看文章PubMed/NCBI谷歌学术搜索
29.何茹, 吴文, 郑华, 李平, 麦当劳, 盛华, 等.区域差异限制了健康肠道微生物组参考范围和疾病模型的应用。自然医学。2018;24(10):1532–1535.密码:30150716
查看文章PubMed/NCBI谷歌学术搜索
30.Vangay P, Johnson AJ, Ward TL, Al-Ghalith GA, Shields-Cutler RR, Hillmann BM, et al. 美国移民使人类肠道微生物组西化。细胞。2018;175(4):962–972.pmid:30388453
查看文章PubMed/NCBI谷歌学术搜索
31.卡波拉索 JG, 劳伯 CL, 科斯特洛 EK, 伯格-里昂斯 D, 冈萨雷斯 A, 斯托博 J, 等.人类微生物组的动态图片。基因组生物学。2011;12(5):1–8.密码:21624126
查看文章PubMed/NCBI谷歌学术搜索
32.麦卡德尔BH,安德森MJ。将多元模型拟合到社区数据:对基于距离的冗余分析的评论。生态学。2001;82(1):290–297.
查看文章谷歌学术搜索
33.系统发育组成的假设检验:最小成本流动视角。生物梅特里卡。2021;108(1):17–36.密码:33716568
查看文章PubMed/NCBI谷歌学术搜索
34.赵楠, 陈杰, 卡罗尔, 林格尔-库尔卡, 爱泼斯坦议员, 周华, 等.使用 MiRKAT 进行微生物组分析研究测试,这是一种基于微生物组回归的内核关联测试。美国人类遗传学杂志。2015;96(5):797–807.密码:25957468
查看文章PubMed/NCBI谷歌学术搜索
35.奥恩 A, 达尔维什 F, 哈莫德 N.肠道微生物组对成人肥胖的影响以及益生菌、益生元和合生元对减肥的作用。预防营养与食品科学。2020;25(2):113.pmid:32676461
查看文章PubMed/NCBI谷歌学术搜索
36.Mandal S, Van Treuren W, White RA, Eggesb? M, Knight R, Peddada SD. 微生物组组成的分析:一种研究微生物组成的新方法。健康和疾病中的微生物生态学。2015;26(1):27663.密码:26028277
查看文章PubMed/NCBI谷歌学术搜索
37.罗宾逊医学博士,麦卡锡DJ,史密斯GK。edgeR:用于数字基因表达数据差异表达分析的生物导体包。生物信息学。2010;26(1):139–140.密码:19910308
查看文章PubMed/NCBI谷歌学术搜索
38.林达:微生物组组成数据差异丰度分析的线性模型。基因组生物学。2022;23(1):1–23.密码:35421994
查看文章PubMed/NCBI谷歌学术搜索
39.莱伊 RE, 特恩博 PJ, 克莱因 S, 戈登 JI.与肥胖相关的人类肠道微生物。自然界。2006;444(7122):1022–1023.密码:17183309
查看文章PubMed/NCBI谷歌学术搜索
40.Turnbaugh PJ, Hamady M, Yatsunenko T, Cantarel BL, Duncan A, Ley RE, et al.肥胖和瘦双胞胎的核心肠道微生物组。自然界。2009;457(7228):480–484.密码:19043404
查看文章PubMed/NCBI谷歌学术搜索
41.安藤 A, 西田 A, 高桥 K, 稻美 O, 今田 H, 班巴 S, 等.在日本人群中使用16S基因测序比较肥胖和瘦人群之间的肠道微生物群落。临床生物化学与营养学杂志。2016;59(1):65–70.密码:27499582
查看文章PubMed/NCBI谷歌学术搜索
42.卢比努 J, 布罗诺维奇 JP, 佩雷拉 IAC, 穆格内尔 JL, 勒法乌 AE.人类粪便中的硫酸盐还原细菌及其与炎症性肠病的关联。FEMS 微生物学生态学。2002;40(2):107–112.密码:19709217
查看文章PubMed/NCBI谷歌学术搜索
43.Riansuwan W,Limsrivilai J.泰国IBD和克罗恩病手术的现状。胃肠外科年鉴。2021;5(5):597–603.密码:34585044
查看文章PubMed/NCBI谷歌学术搜索
44.微生物组成数据中的多尺度自适应差异丰度分析.生物信息学。2023;39(4):btad178.密码:37018137
查看文章PubMed/NCBI谷歌学术搜索
45.铃木MT,乔瓦诺尼SJ。通过PCR扩增16S rRNA基因混合物中的模板退火引起的偏差。应用和环境微生物学。1996;62(2):625–630.pmid:8593063
查看文章PubMed/NCBI谷歌学术搜索
46.Brankatschk R,BodenhausenN,Zeyer J,Bürgmann H.微生物群落样品定量PCR效率变化的简单绝对定量方法校正。应用和环境微生物学。2012;78(12):4481–4489.pmid:22492459
查看文章PubMed/NCBI谷歌学术搜索
47.塔拉格兰·对独立性的新看法。概率年鉴。1996;第1-34页。
查看文章谷歌学术搜索
48.Boucheron S, Lugosi G, Massart P. 集中不等式:一种非渐近的独立理论。牛津大学出版社;2013.
49.罗宾斯 H. 复合统计决策问题的渐近亚最小解。在:第二届伯克利数理统计和概率研讨会论文集。第2卷;1951.第131–149页。
查看文章谷歌学术搜索
50.Efron B. 大规模推理:用于估计、测试和预测的经验贝叶斯方法。第 1 卷。剑桥大学出版社;2012.