《厦门杂志期刊论文发表=来自人类微生物组数据的宿主表型分类主要由微生物群的存在驱动》期刊简介
厦门杂志期刊论文发表=来自人类微生物组数据的宿主表型分类主要由微生物群的存在驱动
雷纳托·吉利贝尔蒂,萨拉·卡瓦列雷,意大利人 伊丽莎·毛里埃洛,达尼洛?埃尔科里尼,爱德华多·帕索利
出版日期: 2022年04月21日
抽象
基于机器学习的分类方法被广泛用于从微生物组数据中预测宿主表型。分类器通常通过将操作分类单位或相对丰度剖面图视为输入特征来使用。这种类型的数据本质上是稀疏的,这为从微生物群的存在/不存在而不是相对丰度进行预测提供了机会。这也提出了一个问题,即是否存在与歧视目的相关的特定分类群的存在,而不是丰富的特定分类群,这是迄今为止在文献中被忽视的一个方面。在本文中,我们的目标是通过对与多个病例对照研究相关的4,128个公开可用的宏基因组进行荟萃分析来填补这一空白。在物种水平的分类学分辨率下,我们表明,在建立分类模型时,特定微生物分类群的存在而不是相对丰度是重要的。这些发现对分类器的选择是有力的,并通过用于识别差异丰富/存在分类群的统计测试得到证实。结果在更粗糙的分类学分辨率下得到进一步证实,并在来自30项公共病例对照研究的另外4,026个16S rRNA样本上得到验证。
作者简介
人类微生物组的组成与大量不同的疾病有关。在这种情况下,基于机器学习方法的分类方法代表了宏基因组学数据诊断目的的有前途的工具。微生物种群组成与宿主表型之间的联系通常是通过考虑以微生物物种的相对丰度为代表的分类特征来进行的。在这项研究中,我们表明,微生物群的存在而不是相对丰度对于最大化分类准确性更相关。这是通过对来自25项病例对照研究的4,000多种霰弹枪式宏基因组进行荟萃分析来实现的,其中原始的相对丰度数据被降级为存在/不存在曲线。研究结果还扩展到16S rRNA数据,并推进了直接从人类微生物组数据构建预测模型的研究领域。
引文: Giliberti R,Cavaliere S,Mauriello IE,Ercolini D,Pasolli E (2022)来自人类微生物组数据的宿主表型分类主要由微生物群的存在驱动。PLoS Comput Biol 18(4):e1010066。https://doi.org/10.1371/journal.pcbi.1010066
编辑 器: 路易斯·佩德罗·科埃略,复旦大学,中国
收到: 十月 13, 2021;接受: 三月 29, 2022;发表: 四月 21, 2022
版权所有: ? 2022 Giliberti et al.这是一篇根据知识共享署名许可条款分发的开放获取文章,该许可允许在任何媒体上不受限制地使用,分发和复制,前提是注明原始作者和来源。
数据可用性: 用于生成本手稿中提供的结果和分析的数据和源代码可在 https://github.com/RGilib/giliberti-meta-analysis-2022 的GitHub存储库中找到。
资金: 这项工作得到了P.O.R. Campania FSE 2014/2020对R.G.的支持。资助者在研究设计,数据收集和分析,出版决定或手稿准备方面没有任何作用。
相互竞争的利益: 作者宣布不存在相互竞争的利益。
这是一篇PLOS计算生物学方法论文。
介绍
有证据表明,人类微生物组(存在于我们体内的大量微生物)与健康和疾病状况有关[1]。几种疾病与微生物组性状有关,并且从微生物组组成中估计宿主表型在社区中受到显着关注。在这方面,人们越来越关注使用基于机器学习的方法预测宿主表型,其中采用分类方法进行病例对照研究代表了研究最多的情景[2]。分类代表了一种实用的方法,可以隐式地整合多个特征(即特征;例如数百种微生物相对丰度的组合情况),并获得相对容易解释的评估指标。这就是接收器工作特性曲线(AUC)下的面积的情况,这是微生物组领域中用于二元分类问题[2]的最常用的指标,其值范围从0到1,在移动到1时具有更好的准确性。
机器学习方法侧重于病例对照研究,涉及两种主要类型的分析。第一种依赖于将既定方法应用于新生成的数据,这使得研究人员能够从微生物组数据中为几种不同疾病的宿主表型的可预测性提供证据,包括炎症性肠病[3],肥胖[4],2型糖尿病[5],结直肠癌[6],并为微生物组作为诊断工具的潜在用途铺平了道路[7,越来越多的大型人群研究[9,10]也使得实施多项(大规模)荟萃分析成为可能,旨在验证独立队列的发现。除了基于16S rRNA数据的分析[11-13]外,类似的工作最近也扩展到了霰弹枪数据[14-17],而扩展到其他组学数据则更具挑战性[18]。第二组分析集中在两个主要方向上的新方法的建议上:提取更好的特征表示或在分类器级别进行优化[19]。虽然分类可以应用于原始特征集,但可以通过降低特征空间的维度(例如通过选择或提取特定的操作分类单元(OTU)或微生物分类群)来获得改进。示例包括特征子集选择 [20]、递归特征消除 [14] 和分层特征工程 [21]。出于分类目的,采用了不同的(监督)方法。一些广泛使用的策略由逻辑回归[22],支持向量机(SVM)[3],k-最近邻[23]和随机森林(RF)[14]表示。还对不同分类器进行了比较,使用融合方法(如RF和极端梯度提升决策树)通常表现出最佳性能[24]。最近,基于深度学习方法的不同解决方案也被提出[25,26],包括将高维数据转换为强大的低维表示的方法[27],尽管由于病例对照微生物组研究中通常可用的标记信息数量有限,仍然存在挑战[28]。
尽管在分类管道中采用了不同的方法,但分类模型通常是通过将OTU或相对丰度剖面图视为输入特征来构建的。然而,这种类型的数据本质上是稀疏的,因此这可能能够从微生物分类群的存在/不存在而不是它们的相对丰度值中做出推断。这也提出了一个问题,即是否存在特定的分类群,而不是它们的丰度值,才与歧视目的有关。令人惊讶的是,这方面尚未得到调查。在本文中,我们旨在通过对来自霰弹枪和16S rRNA数据的公开数据集进行荟萃分析来填补这一空白。
材料和方法
考虑公开可用的宏基因组和16S rRNA数据集
在本文中,我们对公开可用的人类宏基因组数据集进行了荟萃分析,用于宿主表型分类。更具体地说,我们考虑了来自25个霰弹枪宏基因组研究/数据集的4,128个样本,如表1和图1A所示。21项研究致力于表征与不同疾病相关的肠道微生物组(即病例对照研究)。另外两个数据集是来自口腔宏基因组的病例对照研究(种植体周围炎,粘膜炎和精神分裂症)。我们还考虑了一个数据集,旨在表征由于食用头孢菌素引起的人类微生物组的变化,而最后一个数据集致力于人类微生物组项目(HMP)数据集中身体部位(即粪便与口腔)之间的区分。通过MetaPhlAn3处理宏基因组样本以生成物种水平的分类学特征[29]。物种丰度表示为[0,1]范围内的实数,每个样本的值总和为1。其他分类学水平(即属,科和目)的相对丰度也从MetaPhlAn3输出中提取。HMP数据集的疾病状态或身体部位的元数据信息可在策划的MetagenomicData包中找到[30]。
thumbnail 下载:
个人电脑幻灯片
巴新放大图片
断续器原始图像
图 1. 分类精度对于从物种水平相对丰度到霰弹枪数据集中的存在/不存在剖面的退化是稳健的。
从人类微生物组进行25项受试者表型分类的病例对照研究的结果。(A)不同研究中的病例和对照样本数量。(B) AUC和(C)AUPRC评分使用RF作为物种一级分类概况的后端分类器。相对丰度(蓝色)和存在/不存在(红色)图谱之间的比较突出了任何研究中可忽略不计的差异,并且没有统计学差异(参见S1图AUC评分和S2表p值)。AUC,AUPRC,精度,召回率和F1的比较指标总结在S2图中,S2表格表示AUC和AUPCR分数之间的比较。(D) 来自相对丰度(蓝色)和存在/不存在(红色)剖面的具有统计学意义的分类群的数量。
https://doi.org/10.1371/journal.pcbi.1010066.g001
thumbnail 下载:
个人电脑幻灯片
巴新放大图片
断续器原始图像
表 1. 从宏基因组数据集中得出的用于病例对照预测的25个分类任务摘要。
ACDV:动脉粥样硬化性心血管疾病,AD:阿尔茨海默病,BD:白塞病,CRC:结直肠癌,IBD:肠易激性疾病,T1D:1型糖尿病,T2D:2型糖尿病。我们还考虑了肠道(N = 414)和口服(N = 147)样本之间身体部位区分的HMP_2012数据集[10]。
https://doi.org/10.1371/journal.pcbi.1010066.t001
我们还分析了来自30项公开病例对照研究的4,026个16S rRNA样本(S1表和图2A)。我们考虑了[13]中考虑的具有疾病状态元数据信息的同一组肠道样本,如下所示:自闭症谱系障碍(ASD),艰难梭菌感染(CDI),CRC,肠道腹泻病(EDD),人类免疫缺陷病毒(HIV),IBD,肝硬化(CIRR),轻微肝性脑病(MHE),非酒精性脂肪性肝炎(NASH),肥胖(OB),帕金森病,银屑病关节炎(PSA), 类风湿性关节炎 (RA) 和 T1D。16S rRNA样品按照[13]中采用的相同程序进行预处理。更具体地说,我们丢弃了读取次数少于100次的样本,并删除了读取次数少于10次和/或存在于不到1%的样本中的OTU。在计算了每个OTU的相对丰度后,通过对它们的相对丰度值求和并丢弃在属级别上未注释的任何OTU,将OTU折叠到属级别。
thumbnail Download:
PPTPowerPoint slide
PNGlarger image
TIFForiginal image
Fig 2. Classification accuracies are robust to degradation from genus-level relative abundance to presence/absence profiles in 16S rRNA datasets.
从人类微生物组进行宿主表型分类的30项病例对照研究的结果。(A)不同研究中的病例和对照样本数量。(B) AUC和(C)AUPRC评分使用RF作为物种一级分类概况的后端分类器。相对丰度(蓝色)和存在/不存在(红色)图谱之间的比较突出显示了可以忽略不计的差异,并且没有统计学差异,没有一项研究(参见S5表的p值),正如在霰弹枪数据集中发现的那样(见图1)。S5 表中总结了 AUC、AUPRC、精度、召回率和 F1 方面的比较指标。(C) 来自相对丰度(蓝色)和存在/不存在(红色)剖面的具有统计学意义的分类群的数量。
https://doi.org/10.1371/journal.pcbi.1010066.g002
采用的机器学习方法
对霰弹枪和16S rRNA数据进行分类任务是通过考虑已经开发和验证的MetAML(基于Machine Learning的宏基因组预测Analysis)工具来执行的[14]。主要分析使用随机森林(RF)作为后端分类器进行,验证扩展到其他三种分类器类型:具有线性(在本文中用LSVM表示)和RBF(在本文中用SVM表示)内核,Lasso和弹性网络(ENet)的支持向量机。
分类器的自由参数设置如下。对于RF,i)树的数量设置为500,ii)在寻找最佳分割时要考虑的特征数量等于原始特征数的根,以及iii)基尼杂质标准用于测量分割的质量。对于 Lasso 和 ENet,正则化参数是使用 5 倍分层交叉验证方法获得的。对于 Lasso,alpha 参数在集合中找到,具有 50 个统一步长。对于 ENet,除了 alpha 参数之外,还在集合 [0.1, 0.5, 0.7, 0.9, 0.95, 0.99, 1.0] 中选择了L1_ratio参数。
验证和评估策略
我们进行了两种主要类型的分析:i)交叉验证和ii)交叉研究分析。在交叉验证中,通过考虑分层交叉验证方法来保持每个类的样本百分比,将样本随机分成k(在我们的例子中k = 10)折叠。重复结果,并在20次独立运行中取平均值。不同的模型在相同的交叉验证拆分上进行了训练。我们还考虑了交叉研究分析,以评估将模型从源域传输到目标域时预测的鲁棒性。在此设置中,分类模型在源数据集上进行训练,并在不同的独立数据集上评估准确性。
根据五个主要指标评估了分类准确性:曲线下面积(AUC),精度下召回率曲线下的面积(AUPRC),精度,召回率和F1。
我们计算了每个10倍CV的均差和标准误差,并在20次重复中取平均值。我们计算了两个分类器之间AUC性能差异的95%置信区间,如[14]中所做的那样,使用df = 9的t分布:
(1)
其中 AUC1ij 和 AUC2ij 是重复 j 的 fold i 中两个分类器的 AUC,σj 是 AUC1ij?AUC2ij 在 i = 1 上的标准偏差...重复10折j。我们从 t 统计量中计算出的 p 值,该值来自 20 次重复的均差和标准误差平展:
(2)
我们使用df = 9的双尾t检验。
Shotgun 数据集的实验设置
对霰弹枪数据集的大多数分析都是通过考虑交叉验证方法进行的。24个分类任务专门用于区分健康与患病受试者(即病例对照研究),而HMP数据集用于在肠道和口腔样本之间进行身体部位区分。我们还考虑了与CRC相关的十个独立数据集,并在交叉研究环境中评估了预测能力。
通过考虑MetaPhlAn3提供的原始物种水平分辨率下的原始相对丰度剖面图[29]作为特征并使用RF作为后端分类器,获得了基线结果。该设置在多项荟萃分析中成功部署并得到验证,例如[14,30,39,47]中提出的分析。在这一点上,进行了多重比较:i)从原始物种水平的相对丰度剖面图(每个样本一个剖面图)开始,我们通过简单地将相对丰度值阈值定为0%来生成存在/不存在图谱。这生成了一组布尔剖面图,其中1表示物种的存在,而不管它在所考虑的样本中的相对丰度如何,而0表示与其不存在相关联。将基于RF的相同方法应用于这组新生成的剖面图,并与在原始相对丰度上获得的结果进行比较。结果总结在图1B,1C,S1和S2中;ii)再次应用i)中描述的相同程序,通过阈值化不同值的相对丰度剖面来评估分类对低丰度物种的敏感性。我们将这些值视为阈值水平:0.0001%、0.001%、0.01% 和 0.1%。使用RF作为分类器的结果总结在图3A和S3A中;iii)我们将原始相对丰度和布尔值(阈值= 0%)谱之间的物种水平比较扩展到其他三个分类学水平(即属,科和目),以评估从物种转向更粗糙的分类分辨率时分类的敏感性。图4和S3B总结了RF分类的结果;iv)我们最终评估了我们的发现对分类方法选择的稳健性。我们将RF结果与其他四种分类器算法(即具有线性核的SVM,具有RBF核的SVM,Lasso,ENet)获得的相对丰度和存在/不存在曲线(图5和S3C)获得的结果进行了比较。虽然我们在主要数字中仅报告了AUC方面的比较,但在S2表中报告了其他三个指标(即精度,召回率和F1)的比较。
thumbnail 下载:
个人电脑幻灯片
巴新放大图片
断续器原始图像
图 3. 当相对丰度阈值达到0.001%时,分类精度不受影响。
25项病例对照霰弹枪研究的结果,将基线(即物种水平相对丰度分布图)与不同相对丰度值(范围从0%到0.1%)进行阈值阈值所产生的存在/不存在剖面图进行比较。(A)存在/不存在与相对丰度RF分类结果之间的AUC差异。正值表示存在/不存在优于相对丰度数据。S2 表中总结了不同阈值下的 AUC 分数。(B)统计上显著的分类群数量差异(S7表中汇总的数字)。
https://doi.org/10.1371/journal.pcbi.1010066.g003
thumbnail 下载:
个人电脑幻灯片
巴新放大图片
断续器原始图像
图 4. 在较粗糙的分类学分辨率下,分类结果对相对丰度退化的影响更大。
25项病例对照霰弹枪研究的结果,通过将基线(即相对丰度剖面图)与阈值为0.0%和从物种到目水平的不同分类分辨率而产生的存在/不存在剖面进行比较。存在/不存在和相对丰度RF分类结果之间的AUC差异。正值表示存在/不存在优于相对丰度数据。
https://doi.org/10.1371/journal.pcbi.1010066.g004
thumbnail 下载:
个人电脑幻灯片
巴新放大图片
断续器原始图像
图 5. 在分类准确性稳定性方面的结果对分类器的选择是稳健的。
在不同分类算法下,25个病例对照霰弹枪数据集的存在/不存在和相对丰度分布之间的AUC差异。电子网:弹性网;LSVM: 带有线性内核的 SVM;SVM:带有 RBF 内核的 SVM;RF:随机森林。
https://doi.org/10.1371/journal.pcbi.1010066.g005
16S rRNA数据集的实验设置
对于16S rRNA数据集,我们只进行了交叉验证分析。从“公认的公开可用的宏基因组和16S rRNA数据集”一节中描述的属级配置文件中,我们生成了布尔配置文件(阈值= 0%),这与霰弹枪数据类似。我们使用RF分类器比较了这两种类型的配置文件(结果如图2B,2C和S4所示),然后扩展到其他分类器类型(结果见S3表)。
统计检验
在我们比较分类准确性的同一组场景中,我们进行了统计测试,以评估从相对丰度到布尔剖面的退化在多大程度上会影响差异丰度物种的识别。当涉及相对丰度剖面时,我们使用Mann-Whitney U测试来识别一组重要的分类群,而我们采用Fisher精确测试来处理存在/不存在数据。虽然对现有统计检验进行全面评估超出了本研究的范围,但有必要进一步调查,同时考虑到替代方案,包括可以处理成分问题的方法[53,54]。最后,应用假检出率(FDR)进行多次检测校正,校正p值<0.05,发现显著的分类群。
稀疏性分析
我们通过以下方式进一步进行了稀有分析:i)考虑相对丰度剖面中具有最多重要物种数量的三个数据集(即JieZ_2017,NielsenHB_2014和QinN_2014);ii)稀有原始读数(使用 https://github.com/lh3/seqtk),并考虑每个元基因组的100万次读取;iii)应用相同的管道通过MetaPhlAn3生成分类概况;iv)应用相同的管道来构建分类模型并确定具有统计意义的物种。
结果和讨论
在本文中,我们进行了一项荟萃分析,旨在评估从相对丰度到微生物群存在/不存在的降解在多大程度上会影响人类宏基因组的宿主表型分类。该分析是在来自25个数据集的4,128个公开可用的宏基因组上进行的(表1和图1A)。对宏基因组进行均匀处理,以使用MetaPhlAn3[29](参见材料和方法)生成物种水平的分类概况,并在策划的MetagenomicData包中提供元数据信息[30]。从相对丰度剖面图中,以[0,1]范围内的实际数字表示,我们通过简单地将相对丰度值阈值定为0%来生成存在/不存在剖面图。这产生了一组布尔剖面图,其中一个指示物种的存在,而不管它在所考虑的样本中的相对丰度如何,而零与其不存在相关联。
基线分类结果复制原始结果
作为基线,我们考虑了我们最初在[14]中提出的分类方法,然后将其用于不同的任务,例如从人类宏基因组中检测与结直肠癌(CRC)相关的微生物特征[39],牙科植入物疾病中口腔微生物组的表征[47],以及识别与饮食干预研究相关的变化[55].更具体地说,我们考虑了应用于物种水平相对丰度剖面的RF分类器,并使用交叉验证(CV)方法根据多个指标(即ROC曲线下的面积(AUC),精度下召回曲线下的面积(AUPRC),精度,召回率和F1)评估了分类准确性(参见材料和方法)。我们获得了从LiJ_2017数据集中高血压的0.56(就AUC而言)[44]到IjazUZ_2017数据集[45]中IBD的0.99的可变精度,25个病例对照研究的平均AUC等于0.83(S4表)。这些值与原始出版物中报告的内容一致,尽管由于所采用的算法和输入特征方面的差异,很难进行公平的比较。在报告此处考虑的相同样本的分类结果的17篇出版物中,我们获得了0.80的平均AUC,而原始出版物中报告的平均值为0.83(S4表)。
从物种水平相对丰度到存在/不存在特征的退化不会恶化分类准确性
我们将相同的分类方法应用于同一组样品的存在/不存在配置文件(材料和方法)。通过这种方式,我们评估了从相对丰度到存在/不存在信息在多大程度上会影响分类准确性。令人惊讶的是,我们观察到两种实验设置之间的差异可以忽略不计(图1B,1C和S1和S2表)。在这两种情况下(即,使用存在/不存在或相对丰度图谱),我们在25项病例对照研究中的平均AUC为0.83(AUPRC = 0.83),其中AUC和AUPRC值密切相关(S2图;斯皮尔曼相关性 = 0.918)。在数据集级别观察到一些变化(在RaymondF_2016数据集中,相对丰度在最大0.06的AUC方面表现优于存在/不存在[34],而在YeZ_2018[33]中验证了相反的情况,AUC差异为0.07),但是这些可能是由于随机扰动,并且在没有一种情况下它们与统计学显着差异相关(p >0.05, S2 表)。在其他比较指标(即精度、召回率和 F1)方面也证实了这一点,两种配置文件类型之间没有显著差异(S2 表)。在类似的环境中,我们在HMP数据集[10]中进行了身体部位区分(口腔与粪便样本),两种轮廓类型的AUC值等于1.00。因此,这些调查结果表明,与歧视目的相关的更多是同一分类群的存在,而不是它们的实际相对丰度。
我们将此分析扩展到16S rRNA样品。更具体地说,我们考虑了同一组30个病例对照研究,共涉及最初在[13]中收集和分析的4,026个样本(图2A和S1表)。我们应用了[13](材料和方法)中采用的相同预处理程序,并通过采用已经考虑用于霰弹枪数据的分类管道来执行预测任务。我们获得了与[13]中关于属级相对丰度剖面图(在我们的分析和[13]中分别等于0.76和0.74的30个数据集的平均AUC)(S5表)中提供的结果相似,尽管由于代码实现的不同,可能会发生一些差异。通过将相对丰度降低到存在/不存在剖面图谱,我们获得了两种剖面类型之间分类结果的微小差异(图2B,2C和S4和S5表)。30项研究的平均AUC非常接近(相对丰度为0.76,存在/不存在谱为0.75),差异仅在30例中3例具有统计学意义(S5表)。这种差异虽然影响了有限数量的数据集,但可能是由于与16S数据相关的分类分辨率更粗糙和噪声分量较高。
具有统计学意义的分类群在相对丰度和存在/不存在剖面之间是一致的
我们将分析从分类扩展到通过统计测试(材料和方法)鉴定差异丰富/存在的分类群(即可能的生物标志物)。通过比较不同病例对照研究中具有统计学意义的物种集(q <0.05;使用Mann-Whitney U检验相对丰度和Fisher精确检验存在/不存在曲线,均通过假检测率(FDR),S6表)校正,我们发现相似的数字(图1D和S7表),其值更多地由疾病和数据集类型驱动,而不是平均读取次数(S5图图)。).平均而言,我们分别从相对丰度和存在/不存在剖面中发现了39个和32个重要的物种。我们可以假设,依赖于稀有生物标志物的疾病比那些以丰富和流行的分类群中更强的群落变化为特征的疾病受退化/不存在特征的疾病的影响较小。虽然我们的数据没有充分支持这一点,但有必要朝这个方向进一步调查。
在每个数据集的基础上,与具有统计学意义的物种相关的p值在相对丰度和存在/不存在剖面之间具有良好的相关性(S6图)。这也反映在两种情况下被检测为显着的分类群的高百分比(78%)上,这通过对来自相对丰度和存在/不存在剖面的具有统计学意义的分类群进行分层聚类进一步证实(S7图)。相反,我们仅在1.74%的统计显着特征中发现了病例富集和对照富集分类群之间的差异,这些特征仅来自24个分析数据集中的5个(S8图)。此外,我们没有发现任何两个测试在数据集中不一致的分类群(S8图)。
专注于肠道微生物组数据集,我们还确定了主要与疾病或健康相关的物种(S7图)。病例中富集最多的物种是梭状芽胞杆菌(在78%的疾病中显著),其次是安吉诺菌组(55%)、乳酸鲁氏杆菌(55%)、匈牙利哈特韦氏菌(55%)和Eisenbergiella tayi(55%),所有这些物种在文献中均已报告为不同疾病状况的可能生物标志物[6,13,39,41,56]].同样,对照中富集最多的物种是Anaerostipes hadrus(在66%的疾病中显着),Roseburia faecis(55%),Roseburia intestinalis(55%),Prevotella copri(44%)和Eubacterium hallii(44%)[6,10,39,57]。
在16S数据中,最终获得了相对丰度和存在/不存在结局之间的一致性,分别从相对丰度和存在/不存在剖面中发现20个和15个属具有平均显着性(图2D和S8表)。
相对丰度值低于 0.001% 不会影响分类结果
我们评估了阈值相对丰度剖面图中的不同值如何影响分类结果。我们将丰度阈值化为不同值(即,从等于0%的阈值(对应于上一节中讨论的存在/不存在场景)移动到0.0001%,0.001%,0.01%和0.1%,材料和方法),这意味着低于所选阈值的值被迫为零。当阈值设置为0.0001%和0.001%时,我们没有观察到分类精度的变化(图3A和S3A和S2表)。在这两种情况下,我们在25项病例对照研究中的平均AUC = 0.83,这是在相对丰度曲线上获得的,并使用等于零的阈值获得,并且没有发现统计学上显着的差异。这反映在具有统计学意义的物种数量(图3B和S7表)上,从32(考虑0%或0.0001%作为阈值的平均值)下降到31(阈值= 0.001%)。虽然非常低丰度的物种可能是实际的生物标志物,但它们并没有有助于提高分类准确性,这可能是由于无法正确估计它们的存在和相对丰度低于或接近检测极限,我们在此设置中量化为约0.001%(我们考虑的宏基因组的平均读取次数等于47.5M)。当阈值较高(即0.01%和0.1%)时,获得主要差异。在这些情况下,平均AUC降至0.81(阈值= 0.01%)和0.78(阈值= 0.1%),分别在3和6种情况下存在显着差异。
稀薄读数(材料和方法)的结果表明,正如预期的那样,与原始数据集相比,分类准确性和检测到的生物标志物数量略有下降,尽管确认了从相对丰度到存在/不存在数据时阈值的功能模式(S9表)。
较粗糙的分类水平对剖面退化的鲁棒性较差
我们进一步测试了分类准确性在多大程度上受到分类器所考虑的分类分辨率级别的影响。通过考虑原始的相对丰度剖面图,平均AUC分别从0.83(物种水平分辨率)上升到0.80(有3个统计学意义的病例),属,科和目水平分别为0.78(6)和0.76(11)(S10表)。这种差异虽然不太强烈,但建议物种作为优化分类精度的“最佳”水平,并可能通过亚种或菌株水平分辨率获得进一步的改进 - 尽管由于方法学上的局限性而没有在这里进行测试。
同样,我们比较了不同分类水平上相对丰度和存在/不存在剖面之间的分类准确性。虽然在物种水平上没有获得差异(如图1中已经讨论过),但我们观察到更粗糙的分辨率带来了越来越多的AUC差异(图4和S3B以及S11表)。属、科和目的平均AUC差异分别为0.022、0.041和0.061(分别为0、1和2个统计学意义病例)。在统计显着特征的数量方面观察到类似的模式(S7表)。
结果对于交叉研究分析和分类器选择具有鲁棒性
我们在交叉研究环境中应用了相同的方法。我们考虑了与CRC相关的十项独立宏基因组学研究,共涉及1313个样本(表1),并应用了一个数据集(LODO)方法,其中模型建立在除用于测试的单个数据集(材料和方法)之外的所有数据集上。如前所述[39,41],我们观察到从CV(平均AUC等于0.80)移动到LODO(平均AUC等于0.76;S9 图和 S12 表)。更重要的是,我们证实了先前的发现,即在物种水平分辨率下从相对丰度移动到存在/不存在剖面时,准确性的稳定性(图6A)。在阈值等于0%、0.0001%和0.001%时,存在/不存在曲线的平均AUC保持稳定在0.76,而当阈值分别为0.01%和0.1%时,平均AUC降至0.74和0.73。我们还证实,更好的分类分辨率与相对丰度和存在/不存在数据之间的较小分类性能差异相关(图6B和6C)。
thumbnail 下载:
个人电脑幻灯片
巴新放大图片
断续器原始图像
图 6. 相对丰度剖面的退化不影响LODO分类。
在 10 个 CRC 霰弹枪数据集上进行“一个数据集”(LODO) 验证的结果。(A)使用RF作为后端分类器的AUC评分,用于物种水平的相对丰度(粉红色)和在不同阈值下生成的存在/不存在剖面。(B) 物种与其他生物分类层面决议之间AUC的差异。负值表示物种水平优于比较水平。(C) 不同生物分类水平下存在/不存在结果与相对丰度分类结果之间的AUC差异。
https://doi.org/10.1371/journal.pcbi.1010066.g006
我们最终测试了分类方法的选择是否会影响前几节中描述的从相对丰度到存在/不存在的退化特征。首先,我们确认了RF相对于其他四种分类方法(即套索[58],弹性网[59]和具有线性和RBF核的支持向量机(SVM)[60])在相对丰度(S10A图和S13表)和存在/不存在曲线(S10B图和S13表)上的优越性,这也在16S rRNA数据(S3表)上得到了验证。).平均而言,相对丰度值的阈值不会对分类准确性产生负面影响,相反,它通常以一种相当意想不到的方式改善了结果(图5和S3C)。Lasso的差异更高,存在/不存在和相对丰度数据的平均AUC分别为0.79和0.72,其他分类器方法获得了相同的模式(ENet,LSVM和SVM的AUC平均差异分别为0.05,0.03和0.02)。我们观察到,与RF分类相比,分类精度的可变性更大。事实上,我们在Lasso,ENet,LSVM和SVM研究中分别获得了10,6,5和6的统计学显着差异,但是总是大多数支持存在/不存在数据。因此,我们的结论是,尽管在有限数量的情况下发生了一些差异,但通常可以通过存在/缺席配置文件实现分类准确性的最大化。
结论
在本研究中,我们对25个公开可用的数据集进行了荟萃分析,这些数据集跨越了4,000多个霰弹枪宏基因组,并与不同的病例对照研究相关。通过应用基于最先进方法的物种级分类分析和基于机器学习的分类方法,我们证明了微生物群的存在足以最大限度地提高分类准确性。这是通过考虑不同的阈值,将原始相对丰度数据降级为存在/不存在剖面来实现的。我们估计相对丰度值为0.001%作为检测极限,这意味着尽管丰度非常低的物种可能是实际的生物标志物,但它们对提高分类准确性没有用处。结果对分类器的选择是稳健的。这是通过考虑不同的传统分类算法而获得的,这些算法是为连续数据设计的,并且在应用于二进制数据时可能“次优”。这实际上强化了我们的发现,这意味着当使用更为二进制数据设计的分类器训练存在/不存在配置文件的模型时,准确性可能会更好。此外,尽管对现有分类器进行广泛评估超出了本研究的范围,但通过采用其他分类方法(包括专门提出的用于微生物组数据分析的方法),可以最大限度地提高分类准确性[61,62]。研究结果最终从交叉验证扩展到交叉研究分析,并在16S rRNA数据上得到证实,这些数据与来自30项公共研究的4,000多个样本的纲要有关。
越来越多的文献旨在识别不同疾病的微生物生物标志物,这为从微生物组数据中构建非侵入性诊断工具开辟了可能性。为此,通过考虑多特征而不是单一生物标志物诊断模型,可以实现更优越的准确性,其中基于机器学习的分类方法在构建此类模型中起着根本作用。此外,通常可以通过使用有限数量的特征(以十或二十的数量级)来实现最大精度。除了我们的研究结果之外,最近在文献中提出的这些发现表明,微生物群的检测足以最大限度地提高分类准确性,这是开发用于诊断目的的粪便样本的快速廉价测试的重要步骤。
支持信息
总结从16S rRNA数据集中得出的30个分类任务,用于病例对照预测。
显示 1/23: pcbi.1010066.s001.xlsx
跳到无花果导航
一个 B C D E
1 body_site # 控件 # 案例 例
2 Singh_2015 肠 82 222 断续器
3 Schubert_2014 (CDI) 肠 154 93 断续器
4 Schubert_2014(非CDI) 肠 154 89 非CDI
5 Vincent_2013 (CDI) 肠 25 25 断续器
6 Youngster_2014 (CDI) 肠 18 27 断续器
7 Goodrich_2014 (OB) 肠 451 193 断续器
8 Turnbaugh_2009 (OB) 肠 61 195 断续器
9 Zupancic_2012 (OB) 肠 125 126 断续器
10 Ross_2015 (实况转播) 肠 26 37 断续器
11 Zhu_2013 (实况转播) 肠 16 25 nonNASH-OB
12 Baxter_2016 肠 172 120 断续器
13 Zeller_2014 肠 75 41 断续器
14 Wang_2012 肠 22 32 纳什
15 Chen_2012 肠 22 21 断续器
16 Gevers_2014(IBD) 肠 16 146 光盘
17 Morgan_2012(IBD) 肠 27 72 断续器
18 Papa_2012(IBD) 肠 24 43 断续器
19 Willing_2010(IBD) 肠 46 16 断续器
20 诺格拉-Julian_2016(艾滋病毒) 肠 57 292 艾滋病毒
21 Dinh_2015(艾滋病毒) 肠 15 21 艾滋病毒
22 Lozupone_2013(艾滋病毒) 肠 21 30 艾滋病毒
23 Son_2015(泛自闭症障碍) 肠 44 59 泛自闭症障碍
24 Kang_2013 (泛自闭症障碍) 肠 20 19 泛自闭症障碍
25 Alkanani_2015 (T1D) 肠 55 57 T1D
26 梅加-Leon_2014 (T1D) 肠 8 21 T1D
表1
1 / 23
下载
无花果
S1 表。 总结从16S rRNA数据集中得出的30个分类任务,用于病例对照预测。
ASD:自闭症谱系障碍,CD:克罗恩病,CDI:艰难梭菌感染,CIRR:肝硬化,MHE:轻微肝性脑病,CRC:结直肠癌,EDD:肠道腹泻病,HIV:人类免疫缺陷病毒,NASH:非酒精性脂肪性肝炎,OB:肥胖,PAR:帕金森病,PSA:银屑病关节炎,RA:类风湿性关节炎,T1D:1型糖尿病,溃疡性结肠炎。非CDI对照组是腹泻患者,其检测结果为C阴性。艰难梭菌感染。
https://doi.org/10.1371/journal.pcbi.1010066.s001
(XLSX)
S2 表。 从对 Shotgun 数据集进行的分类过程获得的结果。
在AUC,AUPRC,F1,精度,相对丰度和不同阈值水平的存在/不存在曲线之间的召回率方面的比较。在物种级分类分辨率下使用RF分类获得结果。
https://doi.org/10.1371/journal.pcbi.1010066.s002
(XLSX)
S3 表。 使用不同分类算法比较相对丰度和存在/不存在剖面之间的AUC(RF:随机森林;套索;电子网:弹性网;LSVM: 带有线性内核的 SVM;SVM:带有 RBF 内核的 SVM)。
https://doi.org/10.1371/journal.pcbi.1010066.s003
(XLSX)
S4 表。 就AUC而言,我们的结果(在相对丰度谱上使用RF分类)与原始出版物中报告的结果之间的比较。
在大多数情况下,原始分析中使用了不同的分类器算法和/或输入特征。未进行分类分析的原始论文不包括在此表中。
https://doi.org/10.1371/journal.pcbi.1010066.s004
(XLSX)
S5 表。 从对 16 数据集进行的分类过程获得的结果。
在AUC,AUPRC,F1,精度,相对丰度和不同阈值水平的存在/不存在曲线之间的召回率方面的比较。在物种级分类分辨率下使用RF分类获得结果。
https://doi.org/10.1371/journal.pcbi.1010066.s005
(XLSX)
S6 表。 P值(FDR校正后)通过测试对照组和病例之间每个物种的丰度差异获得。
https://doi.org/10.1371/journal.pcbi.1010066.s006
(XLSX)
S7 表。 每个霰弹枪数据集的病例和对照之间以及不同输入特征(相对丰度与存在/不存在剖面)和分类学水平下具有统计学意义的分类群数量(q< = 0.05)。
https://doi.org/10.1371/journal.pcbi.1010066.s007
(XLSX)
S8 表。 每个16s数据集的病例和对照组之间以及不同输入特征(相对丰度与存在/不存在剖面)的统计显著性分类群数量(q< = 0.05)。
https://doi.org/10.1371/journal.pcbi.1010066.s008
(XLSX)
S9 表。 在100万次读取的稀有宏基因组后,在三个选定的霰弹枪数据集上获得的结果。
除了具有统计学意义的分类群数量(q< = 0.05)之外,在丰度矩阵上获得的分类结果与在不同分类水平(仅在物种水平上)对存在/不存在布尔矩阵进行的分类结果之间的比较。
https://doi.org/10.1371/journal.pcbi.1010066.s009
(XLSX)
S10 表。 从对 Shotgun 数据集进行的分类过程获得的结果。
在不同分类分辨率水平下获得的分类结果之间的AUC比较。使用RF分类器在相对丰度矩阵上获得结果。
https://doi.org/10.1371/journal.pcbi.1010066.s010
(XLSX)
S11 表。 从对 Shotgun 数据集进行的分类过程获得的结果。
在丰度矩阵上获得的分类结果与在不同分类水平(物种,属等)上对存在/不存在布尔矩阵进行的分类在AUC,F1,精度,召回率方面的比较。
https://doi.org/10.1371/journal.pcbi.1010066.s011
(XLSX)
S12 表。 通过LODO分类获得的与CRC相关的数据集的结果。
在AUC方面进行比较,在不同级别和不同分类级别对数据集进行分类阈值。
https://doi.org/10.1371/journal.pcbi.1010066.s012
(XLSX)
S13 表。 在相对丰度矩阵和存在不存在布尔矩阵上(仅在物种水平上)上从不同分类器获得的结果之间的AUC,F1,精度,召回率进行比较。
https://doi.org/10.1371/journal.pcbi.1010066.s013
(XLSX)
S1 图 分类精度对于从物种水平相对丰度到霰弹枪数据集中的存在/不存在剖面的退化是稳健的。
25个病例对照霰弹枪数据集的存在/不存在与相对丰度分布之间的AUC比较。
https://doi.org/10.1371/journal.pcbi.1010066.s014
(巴新)
S2 图 AUC与AUPRC密切相关。
比较25个案例对照霰弹枪数据集的AUC(曲线下面积)和AUUPRC(精度-召回曲线下的面积)之间的分类精度,并考虑相对丰度(蓝色;斯皮尔曼相关性= 0.889)和存在/缺席(红色;斯皮尔曼相关性= 0.918)配置文件。
https://doi.org/10.1371/journal.pcbi.1010066.s015
(巴新)
S3 图 分类精度对于从物种水平相对丰度到霰弹枪数据集中的存在/不存在剖面的退化是稳健的。
通过(A)在不同相对丰度值(范围从0%到0.1%),(B)改变分类分辨率(从物种到目水平)和(C)改变分类算法,比较25个病例对照霰弹枪数据集的存在/不存在和相对丰度剖面的AUC。
https://doi.org/10.1371/journal.pcbi.1010066.s016
(巴新)
S4 图 在16S rRNA数据集中,分类精度对于从物种水平相对丰度到存在/不存在谱的退化是稳健的。
在30个病例对照16个rRNA数据集的存在/不存在和相对丰度谱之间的AUC方面进行比较。
https://doi.org/10.1371/journal.pcbi.1010066.s017
(巴新)
S5 图 差异丰度物种的数量与平均读取次数的相关性较弱。
每个点代表26项病例对照霰弹枪研究中的一项。统计上显著的物种数量是根据相对丰度剖面计算的。
https://doi.org/10.1371/journal.pcbi.1010066.s018
(巴新)
S6 图 与具有统计学意义的物种相关的P值在相对丰度和存在/不存在剖面之间具有良好的相关性。
每个点代表一个不同的分类群(即物种),我们只报告在两种数据类型中的至少一种中具有重要意义的物种。仅显示至少具有十个数据点的数据集。
https://doi.org/10.1371/journal.pcbi.1010066.s019
(巴新)
S7 图 具有统计学意义的分类群在每个数据集的基础上在相对丰度和存在/不存在数据之间是一致的。
通过对病例对照宏基因组数据集应用统计检验获得的p值(FDR校正后;p>灰色为0.05)上生成的热图。仅报告了至少具有一个区分性分类群的18个数据集。最左边的色条标识每个分类群的分类类别。最右边的两个颜色条表示该物种在对照(绿色)和病例(红色)中导致富集的疾病的百分比。此百分比是按每种疾病计算的,当同一疾病有多个数据集可用时,当在至少一个数据集中检测到显著时,分类群被视为显著。
https://doi.org/10.1371/journal.pcbi.1010066.s020
(巴新)
S8 图 来自相对丰度和存在/不存在剖面的统计显着分类群在数据集之间没有差异。
我们仅从1.74%的统计学显着特征中发现了来自相对丰度和存在/不存在数据的病例富集和对照富集分类群之间的差异,这些特征仅来自5个数据集。没有分类群在数据集中存在分歧。
https://doi.org/10.1371/journal.pcbi.1010066.s021
(巴新)
S9 图 相对丰度剖面的退化对CV和LODO分类的影响有限。
AUC评分使用RF作为后端分类器,在CV和LODO设置中对物种水平的相对丰度和相应的存在/不存在曲线进行评分。
https://doi.org/10.1371/journal.pcbi.1010066.s022
(巴新)
S10 图 RF 通常优于其他分类器。
通过考虑不同的分类算法,对25个病例对照霰弹枪研究的结果。RF与其他分类方法在(A)相对丰度和(B)存在/不存在剖面上的AUC差异。如果值为正值,则表示比较方法的性能优于 RF。
https://doi.org/10.1371/journal.pcbi.1010066.s023
(巴新)
引用
1.林奇 SV, 佩德森 O.健康和疾病中的人类肠道微生物组。N Engl J Med. 2016;375: 2369–2379.pmid:27974040
查看文章PubMed/NCBI谷歌学术搜索
2.周永华, 加林斯·微生物组宿主性状预测机器学习方法的综述和教程.前热内。2019;10: 579.下午:31293616
查看文章PubMed/NCBI谷歌学术搜索
3.崔辉, 张晓晓. 递归SVM对宏基因组的无比对监督分类.BMC 基因组学。2013;14: 641.pmid:24053649
查看文章PubMed/NCBI谷歌学术搜索
4.Sze MA, Schloss PD. 在噪音中寻找信号:重新审视肥胖和微生物组。新浪网.2016;7.pmid:27555308
查看文章PubMed/NCBI谷歌学术搜索
5.Vatanen T, Franzosa EA, Schwager R, Tripathi S, Arthur TD, Vehik K, et al.来自TEDDY研究的早发型1型糖尿病的人类肠道微生物组。自然界。2018;562: 589–594.pmid:30356183
查看文章PubMed/NCBI谷歌学术搜索
6.Zeller G, Tap J, Voigt AY, Sunagawa S, Kultima JR, Costea PI, et al.粪便微生物群在结直肠癌早期检测中的潜力。Mol Syst Biol. 2014;10: 766.下午:25432777
查看文章PubMed/NCBI谷歌学术搜索
7.Eloe-Fadrosh EA, Rasko DA.人类微生物组:从共生到发病机制。Annu Rev Med. 2013;64: 145–163.pmid:23327521
查看文章PubMed/NCBI谷歌学术搜索
8.McCoubrey LE, Elbadawi M, Orlu M, Gaisford S, Basit AW.利用机器学习开发微生物组疗法。肠道微生物。2021;13: 1–20.pmid:33522391
查看文章PubMed/NCBI谷歌学术搜索
9.秦军, 李瑞, 瑞斯, 阿鲁穆甘 M, 布格多夫 KS, 玛尼昌 C, 等.通过宏基因组测序建立的人类肠道微生物基因目录。自然界。2010;464: 59–65.pmid:20203603
查看文章PubMed/NCBI谷歌学术搜索
10.人类微生物组项目联盟。健康人体微生物组的结构,功能和多样性。自然界。2012;486: 207–214.下午:22699609
查看文章PubMed/NCBI谷歌学术搜索
11.Lozupone CA, Stombaugh J, Gonzalez A, Ackermann G, Wendel D, Vázquez-Baeza Y, et al.人类微生物群研究的荟萃分析。基因组研究 2013;23: 1704–1714.pmid:23861384
查看文章PubMed/NCBI谷歌学术搜索
12.斯塔特尼科夫 A, 赫纳夫 M, 纳伦德拉 V, 孔甘蒂 K, 李忠, 杨 L, 等.微生物组学数据多类别分类方法的综合评估。微生物组。2013;1: 11.pmid:24456583
查看文章PubMed/NCBI谷歌学术搜索
13.Duvallet C, Gibbons SM, Gurry T, Irizarry RA, Alm EJ.肠道微生物组研究的荟萃分析确定了疾病特异性和共同的反应。纳特公社。2017;8: 1784.pmid:29209090
查看文章PubMed/NCBI谷歌学术搜索
14.Pasolli E, Truong DT, Malik F, Waldron L, Segata N. 大型宏基因组数据集的机器学习元分析:工具和生物见解。PLoS Comput Biol. 2016;12: e1004977.下午:27400279
查看文章PubMed/NCBI谷歌学术搜索
15.Armour CR, Nayfach S, Pollard KS, Sharpton TJ.宏基因组荟萃分析揭示了人类肠道微生物组中健康和疾病的功能特征。mSystems.2019;4.pmid:31098399
查看文章PubMed/NCBI谷歌学术搜索
16.Vangay P,Hillmann BM,Knights D. Microbiome Learning Repo(ML Repo):微生物组回归和分类任务的公共存储库。千兆科学。2019;8.pmid:31042284
查看文章PubMed/NCBI谷歌学术搜索
17.Wirbel J, Zych K, Essex M, Karcher N, Kartal E, Salazar G, et al.由 SIAMCAT 机器学习工具箱实现的微生物组荟萃分析和跨疾病比较。基因组生物学. 2021;22: 93.pmid:33785070
查看文章PubMed/NCBI谷歌学术搜索
18.Moreno-Indias I, Lahti L, Nedyalkova M, Elbere I, Roshchupkin G, Adilovic M, et al.人类微生物组研究中的统计和机器学习技术:当代挑战和解决方案。前部微生物。2021;12: 635781.下午:33692771
查看文章PubMed/NCBI谷歌学术搜索
19.Marcos-Zambrano LJ, Karaduzovic-Hadziabdic K, Loncar Turukalo T, Przymus P, Trajkovik V, Aasmets O, et al.机器学习在人类微生物组研究中的应用:特征选择、生物标志物鉴定、疾病预测与治疗综述.前部微生物。2021;12: 634511.下午:33737920
查看文章PubMed/NCBI谷歌学术搜索
20.Ditzler G, Morrison JC, Lan Y, Rosen GL. Fizzy: 宏基因组学的特征子集选择。BMC 生物信息学。2015;16: 358.pmid:26538306
查看文章PubMed/NCBI谷歌学术搜索
21.Oudah M,Henschel A.微生物组分类的分类学感知特征工程。BMC 生物信息学。2018;19: 227.pmid:29907097
查看文章PubMed/NCBI谷歌学术搜索
22.[10] 吴华, 蔡磊, 李东, 王霞, 赵姗, 邹芳, 等. 宏基因组学生物标志物选用于预测中国人群中的三种不同疾病.生物医学研究国际 2018;2018: 2936257.pmid:29568746
查看文章PubMed/NCBI谷歌学术搜索
23.Bang S, Yoo D, Kim S-J, Jhang S, Cho S, Kim H. 基于肠道微生物数据的多种疾病分类预测模型的建立与评价.科学代表 2019;9: 10189.pmid:31308384
查看文章PubMed/NCBI谷歌学术搜索
24.王晓伟, 刘永勇.人类微生物组数据的分类器比较研究。微生态学医学。2020;4: 100013.下午:34368751
查看文章PubMed/NCBI谷歌学术搜索
25.LaPierre N, Ju CJ-T, Zhou G, Wang W. MetaPheno: 基于宏基因组的疾病预测中深度学习和机器学习的批判性评价。方法。2019;166: 74–82.pmid:30885720
查看文章PubMed/NCBI谷歌学术搜索
26.López CD, Vidaki A, Ralf A, González DM, Radjabzadeh D, Kraaij R, et al.新型独立于分类学的深度学习微生物组方法可以对不同的法医相关人类上皮材料进行准确分类。国际法医科学:遗传学。2019. 第72–82页.pmid:31003081
查看文章PubMed/NCBI谷歌学术搜索
27.Oh M, Zhang L. DeepMicro:基于微生物组数据的疾病预测深度学习。科学代表 2020;10: 6026.下午:32265477
查看文章PubMed/NCBI谷歌学术搜索
28.Ching T, Himmelstein DS, Beaulieu-Jones BK, Kalinin AA, Do BT, Way GP, et al.生物学和医学领域深度学习的机会和障碍。J R Soc 接口。2018;15.下午:29618526
查看文章PubMed/NCBI谷歌学术搜索
29.Beghini F, McIver LJ, Blanco-Míguez A, Dubois L, Asnicar F, Maharjan S, et al.将不同微生物群落的分类学、功能和菌株水平分析与 bioBakery 3 相结合。埃利夫。2021;10.pmid:33944776
查看文章PubMed/NCBI谷歌学术搜索
30.Pasolli E, Schiffer L, Manghi P, Renson A, Obenchain V, Truong DT, et al.通过ExponHub访问,策划宏基因组数据。Nat 方法。2017;14: 1023–1024.pmid:29088129
查看文章PubMed/NCBI谷歌学术搜索
31.[2] 泽杰, 夏海, 钟淑玲, 冯强, 李姗, 梁姗, 等.动脉粥样硬化性心血管疾病中的肠道微生物组。纳特公社。2017;8: 845.下午:29018189
查看文章PubMed/NCBI谷歌学术搜索
32.Chng KR, Tay ASL, Li C, Ng AHQ, Wang J, Suri BK, et al.全基因组分析显示皮肤微生物组依赖性易感性特应性皮炎发作。纳特微生物学。2016;1: 16106.pmid:27562258
查看文章PubMed/NCBI谷歌学术搜索
33.叶振, 张磊, 吴超, 张旭, 王强, 黄旭, 等.白塞病肠道微生物组的宏基因组研究。微生物组。2018;6: 135.下午:30077182
查看文章PubMed/NCBI谷歌学术搜索
34.Raymond F, Ouameur AA, Déraspe M, Iqbal N, Gingras H, Dridi B, et al.人类肠道微生物组的初始状态决定了抗生素对其重塑。ISME J. 2016;10: 707–720.pmid:26359913
查看文章PubMed/NCBI谷歌学术搜索
35.秦宁, 杨峰, 李阿, 普里夫蒂娥, 陈毅, 邵磊, 等.肝硬化中人类肠道微生物组的改变。自然界。2014;513: 59–64.pmid:25079328
查看文章PubMed/NCBI谷歌学术搜索
36.冯强, 梁姗, 贾华, 斯塔德玛尔A, 唐丽, 蓝志, 等.肠道微生物组沿结直肠腺瘤 - 癌序列发育。纳特公社。2015;6: 6528.pmid:25758642
查看文章PubMed/NCBI谷歌学术搜索
37.Gupta A, Dhakan DB, Maji A, Saxena R, P K VP, Mahajan S, et al.黄酮微生物菌(一种类黄酮降解细菌)与印度结直肠癌患者的肠道微生物组的关联。mSystems.2019;4.pmid:31719139
查看文章PubMed/NCBI谷歌学术搜索
38.Hannigan GD,Duhaime MB,Ruffin MT 4th,Koumpouras CC,Schloss PD.结直肠癌病毒组的诊断潜力和相互作用动力学。新浪网.2018;9.下午:30459201
查看文章PubMed/NCBI谷歌学术搜索
39.Thomas AM, Manghi P, Asnicar F, Pasolli E, Armanini F, Zolfo M, et al.结直肠癌数据集的宏基因组分析确定了跨队列微生物诊断特征以及与胆碱降解的联系。Nat Med. 2019;25: 667–678.pmid:30936548
查看文章PubMed/NCBI谷歌学术搜索
40.Vogtmann E, Hua X, Zeller G, Sunagawa S, Voigt AY, Hercog R, et al. 结直肠癌和人类肠道微生物组:全基因组霰弹枪测序的再现性。PLoS One.2016;11: e0155362.pmid:27171425
查看文章PubMed/NCBI谷歌学术搜索
41.Wirbel J, Pyl PT, Kartal E, Zych K, Kashani A, Milanese A, et al.粪便宏基因组的荟萃分析揭示了结直肠癌特有的全球微生物特征。Nat Med. 2019;25: 679–689.pmid:30936547
查看文章PubMed/NCBI谷歌学术搜索
42.八田S,水谷S,白马H,柴S,中岛T,坂本T等。宏基因组学和代谢组学分析揭示了结直肠癌中肠道微生物群的不同阶段特异性表型。Nat Med. 2019;25: 968–976.下午:31171880
查看文章PubMed/NCBI谷歌学术搜索
43.于娟, 冯强, 黄旭, 张东, 梁青, 秦燕, 等.粪便微生物组的宏基因组分析,作为靶向非侵入性结直肠癌生物标志物的工具。肠。2017;66: 70–78.pmid:26408641
查看文章PubMed/NCBI谷歌学术搜索
44.李娟, 赵峰, 王毅, 陈娟, 陶娟, 田国, 等.肠道微生物群生态失调有助于高血压的发展。微生物组。2017;5: 14.pmid:28143587
查看文章PubMed/NCBI谷歌学术搜索
45.Ijaz UZ, Quince C, Hanske L, Loman N, Calus ST, Bertz M, et al.克罗恩病微生物“生态失调”的独特特征在其未受影响的遗传相关同类中发生的程度不同。PLoS One.2017;12: e0172605.pmid:28222161
查看文章PubMed/NCBI谷歌学术搜索
46.Nielsen HB, Almeida M, Juncker AS, Rasmussen S, Li J, Sunagawa S, et al.在不使用参考基因组的情况下,在复杂的宏基因组样本中鉴定和组装基因组和遗传元件。纳特生物技术。2014;32: 822–828.pmid:24997787
查看文章PubMed/NCBI谷歌学术搜索
47.Ghensi P, Manghi P, Zolfo M, Armanini F, Pasolli E, Bolzan M, et al.强大的口腔牙菌斑微生物组特征,用于通过菌株分辨宏基因组学鉴定的牙科种植体疾病。NPJ生物膜微生物组。2020;6: 47.下午:33127901
查看文章PubMed/NCBI谷歌学术搜索
48.Castro-Nallar E, Bendall ML, Pérez-Losada M, Sabuncyan S, Severance EG, Dickerson FB, et al.精神分裂症和对照组个体中口咽微生物组的组成,分类学和功能多样性。皮尔J.2015;3: e1140.pmid:26336637
查看文章PubMed/NCBI谷歌学术搜索
49.Heintz-Buschart A, May P, Laczny CC, Lebrun LA, Bellora C, Krishna A, et al.在家族性1型糖尿病的案例研究中,人类肠道微生物组的综合多组学。纳特微生物学。2016;2: 16180.pmid:27723761
查看文章PubMed/NCBI谷歌学术搜索
50.Kostic AD, Gevers D, Siljander H, Vatanen T, Hy?tyl?inen T, H?m?l?inen A-M, et al.人类婴儿肠道微生物组的动态正在发育和进展为1型糖尿病。细胞宿主微生物。2015;17: 260–273.pmid:25662751
查看文章PubMed/NCBI谷歌学术搜索
51.Karlsson FH, Tremaroli V, Nookaew I, Bergstr?m G, Behre CJ, Fagerberg B, et al.欧洲女性的肠道宏基因组检查结果正常、受损和糖尿病血糖控制。自然界。2013;498: 99–103.pmid:23719380
查看文章PubMed/NCBI谷歌学术搜索
52.秦娟, 李艳, 蔡志, 李姗, 朱军, 张峰, 等.2型糖尿病肠道微生物群的宏基因组关联研究。自然界。2012;490: 55–60.pmid:23023125
查看文章PubMed/NCBI谷歌学术搜索
53.Morton JT, Marotz C, Washburne A, Silverman J, Zaramela LS, Edlund A, et al.使用参考系建立微生物成分测量标准。纳特公社。2019;10: 2719.下午:31222023
查看文章PubMed/NCBI谷歌学术搜索
54.凌伟, 赵楠, 普兰廷加 AM, 劳纳 LJ, 福多 AA, 迈耶 KA, 等.通过零膨胀分位数方法(ZINQ)对微生物组数据进行强大而稳健的非参数关联测试。微生物组。2021;9: 181.下午:34474689
查看文章PubMed/NCBI谷歌学术搜索
55.Meslier V, Laiola M, Roager HM, De Filippis F, Roume H, Quinquis B, et al.对超重和肥胖受试者的地中海饮食干预可降低血浆胆固醇,并导致肠道微生物组和代谢组的变化,而与能量摄入无关。肠。2020;69: 1258–1268.pmid:32075887
查看文章PubMed/NCBI谷歌学术搜索
56.Pandit L, Cox LM, Malli C, D'Cunha A, Rooney T, Lokhande H, et al. 在印度的视神经脊髓炎谱系障碍中升高,与 AQP4 具有序列相似性。神经免疫性神经炎症。2021;8.pmid:33148687
查看文章PubMed/NCBI谷歌学术搜索
57.Tamanai-Shacoori Z, Smida I, Bousarghin L, Loreal O, Meuric V, Fong SB, et al. Roseburia spp.: 健康的标记?未来微生物。2017;12: 157–170.pmid:28139139
查看文章PubMed/NCBI谷歌学术搜索
58.Tibshirani R.通过套索进行回归收缩和选择。J R 统计 Soc. 1996;58: 267–288.
查看文章谷歌学术搜索
59.邹H,Hastie T.通过弹性网的正则化和变量选择。J R Stat Soc Series B Stat Methodol.2005;67: 301–320.
查看文章谷歌学术搜索
60.Cortes C, Vapnik V. Support-Vector Networks.马赫学习。1995;20: 273–297.
查看文章谷歌学术搜索
61.Reiman D, Metwally AA, Sun J, Dai Y. PopPhy-CNN: A Phylogenetic Tree Embedded Architecture for Convolutional Neural Networks, predict host Phenotype from Metagenomic Data.IEEE J Biomed Health Inform.2020;24: 2993–3001.pmid:32396115
查看文章PubMed/NCBI谷歌学术搜索
62.Rahman MA,Rangwala H. IDMIL:一种无对齐的可解释深度多实例学习(MIL),用于从全宏基因组数据预测疾病。生物信息学。2020;36: i39–i47.pmid:32657370
查看文章PubMed/NCBI谷歌学术搜索