使用 endoR 解释树集成机器学习模型
阿尔巴内·鲁奥德,尼克拉斯·菲斯特,露丝·尼古拉斯·扬布鲁特
发布时间:2022 年 12 月 14 日
抽象
树集成机器学习模型越来越多地用于微生物组科学,因为它们与基于序列的微生物组数据的组成、高维和稀疏结构兼容。虽然这些模型通常擅长根据微生物组数据预测表型,但它们对微生物分类群如何关联产生有限的见解。我们开发了endoR,一种解释树系综模型的方法。首先,endoR将拟合模型简化为决策集成。然后,它提取有关单个特征的重要性及其成对交互的信息,将它们显示为可解释的网络。endoR 网络和重要性分数都提供了有关特征以及它们之间的交互如何有助于拟合模型的预测性能的见解。可调整的正则化和自举有助于降低复杂性,并确保仅保留模型的基本部分。我们在模拟和真实宏基因组数据上评估了endoR。我们发现endoR与其他常见方法具有相当的准确性,同时简化了模型解释并增强了模型解释。使用endoR,我们还证实了肝硬化和健康个体之间肠道微生物组差异的已发表结果。最后,我们利用endoR来探索人类肠道产甲烷菌与微生物组成分之间的关联。事实上,这些氢消费者有望与复杂的合养网络中的发酵细菌相互作用。具体来说,我们分析了2203个个体的全球宏基因组数据集,并证实了先前报道的甲烷杆菌科和Christensenellales之间的关联。此外,我们观察到甲烷杆菌科与产氢细菌网络有关。我们的方法准确地捕获了树系综如何使用特征和它们之间的相互作用来预测响应。正如我们的应用程序所证明的那样,由此产生的可视化和汇总输出有助于模型解释,并能够生成有关复杂系统的新假设。
作者摘要
机器学习模型已被证明在从微生物组数据预测疾病和其他人类表型方面是成功的;然而,从这些复杂的模型中获得洞察力往往具有挑战性。为此,我们开发了endoR,这是一个用于增强树系综模型(例如随机森林)解释的R包,这是迄今为止应用于微生物组数据的最流行和性能最高的机器学习模型。我们的方法简化了模型,并提取了有关微生物组数据,宿主元数据和协变量以及预测性状(例如,疾病与健康)之间关联的信息。endoR 有两个主要优势:i) 捕获预测变量之间交互的能力,以及 ii) 避免过度拟合的正则化步骤。通过广泛的验证,我们表明endoR的准确性可与其他常见方法相媲美,同时简化和增强模型解释。我们应用endoR来深入了解人类肠道产甲烷菌和细菌发酵罐的复杂合养网络。总体而言,endoR是一个强大的工具,可以从应用于微生物组数据的树集合模型中获得洞察力。
引文: Ruaud A, Pfister N, Ley RE, Youngblut ND (2022) 使用 endoR 解释树系综机器学习模型。公共科学图书馆计算生物学18(12): e1010714. https://doi.org/10.1371/journal.pcbi.1010714
编辑 器: 路易斯·佩德罗·科埃略, 复旦大学,中国
收到: 3月 15, 2022;接受: 11月 7, 2022;发表: 12月 14, 2022
版权所有: ? 2022 鲁奥德等人。这是一篇根据知识共享署名许可条款分发的开放获取文章,该许可允许在任何媒体上不受限制地使用、分发和复制,前提是注明原作者和来源。
数据可用性: 所有数据集、分析和结果脚本均可在 https://github.com/aruaud/endoR_data_analysis 和 https://figshare.com/projects/Ruaud2022_endoR/142265 获得。我们的方法已经完全实现为一个名为endoR的R包,可以在MIT许可证下的GitHub(https://github.com/leylabmpi/endoR)上下载和手册。
资金: 这项工作得到了马克斯·普朗克学会对AR,NY和RL的支持。NP得到了Novo Nordisk Fonden的研究资助(0069071)。资助者在研究设计、数据收集和分析、发表决定或手稿准备方面没有任何作用。
竞争利益: 提交人声明不存在相互竞争的利益。
这是一篇PLOS计算生物学方法论文。
介绍
肠道微生物组在人体生理学的许多方面起着关键作用,如消化、免疫和发育[1-3],并且与许多疾病[4]有关,如炎症性肠病(IBD)[5,6],肥胖[7,8],糖尿病[9]和癌症[10,11]。].粪便微生物组测序成本低,使研究人员和临床医生能够将疾病状态与微生物组数据联系起来,并研究微生物在疾病中可能参与[12-14]。
机器学习(ML)模型已被证明可以从肠道微生物组分类和基因组数据中准确预测人类宿主表型[15-18]。虽然这些模型的复杂性可以捕获此类数据中变量之间的相互作用,但它也使它们的解释复杂化。因此,这限制了对微生物组与人类特征之间关系的洞察。随机森林(RF)模型[19]是一种树系综模型,通常能够实现使用微生物组数据进行预测的最佳精度[15-18]。RF 由决策树的组合组成。每个观测值都根据一组特征将所有观测值划分为具有相似响应值的子样本。例如,决策树可能显示患病个体通常具有高丰度的微生物A和B,但微生物C的丰度较低。此过程称为引导聚合或装袋[19];它通常会导致高精度和较少的过度拟合,但会增加模型的复杂性[20]。
可以通过特征选择减少特征数量来降低模型复杂性:预先选择要包含在最终模型中的相关特征[21-24]。这些预选方法通常基于特定特征对预测重要性的不同衡量标准,例如基尼系数和排列重要性[19,25],尽管存在许多其他方法[26-30]。在我们的框架中,我们考虑模型拟合的特征选择部分(详见S1(A)图)。
特征选择方法本身也可以直接用于模型解释,最近开发的特征重要性方法在微生物组科学中越来越受欢迎。例如,Ai等人[26]利用互信息的特征选择来识别预测结直肠癌的特定微生物。或者,Gou等人[31]使用SHapley加性解释(SHAP,[28])选择与2型糖尿病相关的微生物组特征,然后使用广义线性模型将其与宿主遗传学和风险因素相关联。
Shapley值测量变量对每个观测值预测的贡献[32],并且可以通过各种方法[33]进行估计。例如,SHAP 方法将预测累加分解为对应于每个变量的单独部分 [28]。由于Shapley值生成局部的,每个观测值的解释,因此它们通常不解决特征与响应的全局关联的问题[33]。此外,尽管树系综不是加性模型,但SHAP假设变量具有加性效应,因此可能导致对特征相互作用的估计存在偏差[34]。最后,仅针对变量对计算SHAP交互,这使得它们对高维数据集的解释具有挑战性[35]。
各个决策树可以告知与预测相关的变量交互。属于同一树枝的变量协同使用进行预测;因此,与从未出现在同一分支中的变量相比,它们更有可能与响应共同关联[36]。但是,不重要的变量可能会沿着决策路径出现,因为树系综(例如 RF)是通过贪婪过程生成的。为了消除噪声并促进树系综的解释,Friedman等人[37]建议通过套索回归从决策路径中删除不重要的变量,从而创建树系综的代理模型。inTrees R包[38]和随机交集树算法[27]实现了简化树系综的类似想法,以从森林中获得一组简化的决策。但是,他们缺乏进一步解释简化决策的工具。相反,randomForestExplainer R包[39]通过计算决策树中特征的共现次数来测量变量交互作用。然而,在测量变量共现之前,不会从树系综中去除噪声。该软件包也不能为拟合在高维数据上的模型生成易于解释的结果。
为了更好地解释拟合的树系综模型,我们开发了endoR,一个用于解释树系综模型的框架。endoR利用从拟合模型中提取的决策来推断特征之间的关联,并测量它们对决策集成的贡献(图1)。endoR 工作流包括从树集成模型中提取所有决策,对其进行简化,然后计算变量的重要性和影响以及变量对之间的交互作用。更具体地说,重要性衡量归因于变量(或一对变量之间的交互作用)的预测准确性的提高,而影响衡量变量的包含(或一对变量之间的交互作用)如何改变模型预测。结果显示为多个可理解的绘图,以增强特征和交互重要性和影响的可读性。
缩略图 下载:
.PPT幻灯片
.PNG大图
.TIFF原始图像
图1. endoR 方法工作流的说明。
答:从数据采集到网络可视化的工作流程的一般概述。endoR 应用于经过训练的分类或回归树集成模型。首先将模型简化为决策集成,用于计算特征重要性和对预测的影响。生成的指标显示在列出特征重要性和影响的汇总图中,并作为决策网络显示。决策网络说明了响应与单个或成对变量在特征重要性和影响方面的关联。如果变量的影响取决于其他变量,则通过这些节点之间的边在网络中可见。B:endoR为生成稳定网络而采取的步骤。endoR接受使用XGBoost,gbm,randomForest或ranger R包制作的树系综模型[43-46]。正则化是可选的,包括简化决策和决策集成以减少噪声。可以在 B 引导程序上重复该过程,以便在构建最终网络之前选择稳定的决策。
https://doi.org/10.1371/journal.pcbi.1010714.g001
值得注意的是,endoR生成了一个决策网络,该网络将拟合模型可视化如下:(i)节点表示模型中使用的特征,其大小和颜色编码特征的重要性和影响(即分别与响应关联的强度和方向);(ii)边表示两个特征之间响应的交互作用。同样,宽度和颜色分别编码交互的重要性和影响。
我们在完全模拟的数据集和真实的宏基因组数据集上对endoR进行了基准测试[40],两者都以人工生成的表型作为响应。特别是,我们将endoR与通常用于分析微生物组数据的最先进程序进行了比较。总之,我们的结果表明,endoR成功地从树系综模型中提取了复杂的相互作用,并且表现更好或与现有方法相当。然后,我们在Qin等人发表的宏基因组数据集上使用了endoR[41],其中原始研究确定了与肝硬化相关的某些肠道微生物组特征。通过一次使用endoR,我们能够恢复原始研究的所有主要结果,并通过鉴定在肝硬化患者肠道定植的其他口腔细菌以及与健康微生物组相关的细菌消耗来扩展这些结果[42]。最后,我们使用endoR来探索肠道微生物相对丰度的模式,这些模式预测了人类肠道中甲烷杆菌科的存在。这些产甲烷菌的存在与CAG-138家族(Christensenellales目)成员的存在密切相关,特别是与Phil-1属以及示波螺旋体的成员密切相关。此外,诸如体重指数(BMI)之类的宿主特征不能预测甲烷杆菌科的存在,这表明微生物组组成主要决定了甲烷杆菌科在人群中的患病率。综上所述,endoR的应用为人类肠道中甲烷杆菌科的流行及其与肠道微生物组成员的合理相互作用提供了新的视角。
结果
使用 endoR 解释树系综模型
树系综模型通常用于微生物组科学,尽管它们的解释受到其复杂性的限制。endoR通过将拟合模型作为输入并在特征重要性和影响图以及决策网络中可视化模型最相关的部分来克服这个问题。它作为R包实现,并接受使用XGBoost,gbm,randomForest或ranger R包生成的拟合RF和梯度提升树模型(用于回归和分类任务)[43-46]。请注意,由于使用了树系综模型,endoR 可以应用于任何类型的结构化数据(例如,来自宏基因组或 16S 数据的相对丰度、细胞计数、协变量等)。尽管如此,endoR并没有明确考虑测序数据的组成性质。我们说明了endoR在由2147个人类肠道宏基因组组成的数据集上的使用,该数据集的相对丰度为520个分类群(包括物种,属和科分类等级)和人工表型。表型是一个二元响应变量,取值“-1”或“1”,使用9个随机选择的分类群和一个随机生成的分类变量进行模拟,将样本分成4组(标记为a,b,c和d)。选定的分类群可能来自物种、属或科的分类水平,以反映现实中不同分类分辨率的微生物分支之间可能发生的相互作用范围。生成人工表型的机制,我们在下面的分类中用作响应变量,详见方法和表1;与每个组中的人工表型相关的分类群在图2A-2F中可视化。我们的目标是尽可能多地恢复有关产生人工表型的机制的信息。例如,是否有可能确定在A组中,Alistipes A的高相对丰度和Marvinbryantia sp900066075的高相对丰度导致人工表型的正值?尽管图 2A–2F 可能表明这是一项简单的分类任务,但实际上它非常重要;该模拟涉及高维设置(521个变量)中的高阶相互作用(高达4阶),真实宏基因组的特征之间存在很强的依赖性。树系综模型(如 RF)在这些设置中表现出色,但它们不提供提取有关模型的复杂信息的方法。这是endoR旨在填补的空白。
缩略图 下载:
.PPT幻灯片
.PNG大图
.TIFF原始图像
图2. endoR从拟合在真实宏基因组上的随机森林中捕获预测人工表型的相互作用。
A-E:具有人工表型(AP)的真实宏基因组:将样品分成4组(标记为a-d),模拟二元响应变量(“1”=蓝色,“-1”=黄色),以便可以根据“组”分类特征和随机选择的特定微生物丰度特征(例如,“Alistipes A”)从一组决策中预测。灰色虚线表示用于产生响应变量的预定决策中的阈值,如表1中所述(例如,如果样品属于A组并且Alistipes A和Marvinbryantia sp900066075的相对丰度均为非零,则响应变量为“1”)。对于组中c中的样本,响应变量是使用“OR”规则构建的(即'Group = c&((B. clarus >0 & Oscillibacter sp001916835 >0) | F. prausnitzii G >10?2)'),因此两个子规则中的每一个都显示在 C 和 D 中。 F:从 A 中描述的响应变量生成过程派生的特征的地面实况网络.预测“1”的变量对由蓝边(“正”)连接,预测“-1”的变量由黄边(“负”)连接。高值预测“1”的变量具有蓝色节点颜色(“正”),如果高值预测“-1”(“负”),则为黄色节点颜色。如果高值预测“1”或“-1”取决于其他变量值(例如,如果 V3 采用高值,则组 b 预测“1”,但如果 V3 采用低值,则预测“-1”),则颜色为灰色(“依赖”)。G-H:RF模型中的可变重要性,通过基尼杂质和endoR的平均降低来衡量。由于特征选择步骤,RF模型安装在y轴上显示的18个选定特征上;所有其他分类群的特征重要性对于两者来说都可以被认为是零的。点颜色表示特征是否用于构建响应(“True”)以及与其分类相关的特征(“密切相关”),“密切相关”定义为分类层次结构中的直接父代或子分类学分类(例如,拟杆菌属是拟杆菌科的子代,而拟杆菌科是拟杆菌科的亲本).I:endoR 从 A 中描述的数据集上训练的 RF 模型中提取的完整决策网络。仅标记具有最高特征重要性的 20 个要素。边缘透明度与 I: 仅的重要性成反比。J:与 I 所示的网络相同,但删除了交互重要性最低的边,以获得长度为 3 ≤节点之间的路径。所有要素均已标记。
https://doi.org/10.1371/journal.pcbi.1010714.g002
缩略图 下载:
.PPT幻灯片
.PNG大图
.TIFF原始图像
表 1. 基于人工表型制作的预定决策规则。
https://doi.org/10.1371/journal.pcbi.1010714.t001
首先,我们拟合了一个模型,该模型预测了分类群的人工表型(即物种,属和科的相对丰度)和“组”变量。鉴于特征数量众多,我们使用具有特征选择的RF(参见方法;人工表型)。在这种情况下,拟合模型的交叉验证 (CV) 泛化误差为 85.19±2.36 的准确度和 0.70±0.05 的 Cohen's κ。接下来,我们应用 endoR,它输出两个图:重要性和影响图(图 2H)和决策网络(图 2I 和 2J)。
重要性和影响图显示了单个变量的特征重要性和影响(图2H)。重要性衡量单个变量在多大程度上改善了模型的整体预测;它类似于其他公认的重要性度量,例如基尼重要性(如图2G所示),但变量排序更准确,因此不相关的分类群被endoR赋予最低的特征重要性,而不是基尼重要性(图2G和2H)。如下面的模拟所示,endoR 特征重要性在树系综模型的标准重要性度量上有所提高。作为补充,影响测量由于变量引起的预测值的变化。对于二元特征,它指示属于该类别的样本的平均响应变量值是更高还是更低。例如,图2H显示,来自d组的样品更有可能具有“-1”人工表型(橙色),而A组的样品(灰色)没有明确的关联。因此,组a对于预测很重要,但它与人工表型的关联可能主要取决于其他特征。对于数值特征(分类群),影响同样显示变量如何与最终决策集合中的响应相关联。为了提高可读性,数值变量被拆分为由值范围定义的级别。级别数由用户预先指定;在这里,评估每个变量的“低”、“中”和“高”值。如果某个关卡未出现在决策集合中,则无法计算其影响,因此在图中将其留空。图2H显示Alistipes A的“低”相对丰度与“-1”表型相关,而该分类单元的“中”和“高”相对丰度与“1”表型相关。因此,重要性和影响图提供了重要特征的概述以及它们如何影响平均响应。
决策网络允许进行更详细的分析。网络中的节点对应于分类特征的每个可能值(例如,“组a”)和数字特征的水平(级别由“__Level”表示,例如,“Marvinbryantia__High”)。节点的大小对应于重要性,而颜色则编码影响。边缘对应于交互效果,而大小和颜色分别表示交互作用的重要性和影响。可以显示整个网络(图2I),也可以仅显示由少于三条边组成的最重要的路径(图2J)。例如,在图2J中,我们可以看到网络确实将4个组分离成单独的组件,并且还捕获了A组特有的模式:Alistipes A和Marvinbryantia的高相对丰度与A组中样品的阳性表型相关。尽管物种Marvinbryantia sp900066075是我们模拟中真正的预测因子,但Marvinbryantia属是由预测模型选择的 - 可能是由于这些密切相关的特征之间的高度冗余。此示例说明了 endoR 如何依赖于拟合模型。如果endoR拟合在直接从真实机制生成中获得的决策集成上,而不是通过拟合预测模型,它确实恢复了基本事实一(S2(A)–S2(C)图)。
为了与零模型进行比较,我们通过完全随机化每个组中的靶标来将人工表型与相对丰度脱相关,以保持相同的组(或协变量)结构。我们在这些零数据上获得的RF分类器的预期精度为55.54±1.73,并选择了44个特征。在对 100 个引导程序进行正则化后,endoR 返回了一个与 c 组不平衡相对应的唯一稳定决策,该决策具有 0.48 的高误差。因此,endoR可以有效地消除RF的所有噪声,并且不会返回任何误报。
遵循相同的过程为 10 种独立的人工表型生成全局零模型(见下一节);平均而言,拟合在全局零模型上的RF分类器的精度为59.36±5.03。endoR没有发现6个全局零模型的稳定决策,只有1个模型的稳定决策,这都是由于组中的目标不平衡(S3图)。只有一种情况下,endoR发现了由9个决策组成的稳定决策集合;该全局零模型的解释RF平均精度为67.9±2.49,是各模型的最高精度。这些结果证实了endoR区分噪声和真相的能力。
在模拟数据上评估endoR
在本节中,我们总结了在多个模拟数据集上评估endoR的发现;更多细节和其他评估可以在 S3 文本中找到。评估基于两种模拟配置。第一个配置,称为完全模拟数据 (FSD)。与我们之前用于演示endoR的仿真不同,FSD是通过模拟特征和响应变量来构建的。特征彼此独立,呈正态分布,并且所有预测关联都是已知的(在 S4 图中说明)。第二种配置称为人工表型(AP),类似于用于证明endoR的模拟,因为AP模拟还包括来自已发表的人类肠道宏基因组的特征,包括2147个样本[40]和由随机选择的分类群的相对丰度组合构建的响应变量(图2).因此,预测变量是相关的,并非所有预测关联都是已知的。方法部分给出了数据的更详细说明。
endoR对超参数的变化具有鲁棒性。
我们生成了100个FSD和50个AP数据集,使用不同的endoR超参数对其进行处理,并评估了这些变化如何影响endoR恢复决策网络中正确边缘的能力(图3A和3D,S5(C),S5(F)和S5(G)-S5(J)图)。
thumbnail 下载:
.PPT幻灯片
.PNG大图
.TIFF原始图像
图3. endoR 的性能对超参数具有鲁棒性,并且取决于输入模型。
仿真结果基于 100 个 FSD,其中 n = 1000 个观测值(E-F 变化时除外)和 50 个 AP 使用所有观测值 (A-C)。在所有实验中,噪声为r = 0.05(除非在B-C中变化),并且endoR应用于α = 5(A变化时除外)和B = 10(D变化时除外)的拟合RF。对于每个数据集和参数设置,我们拟合了一个RF并应用了endoR。然后,我们计算了以下三个指标:射频的科恩κ,稳定决策融合中选定边的加权精度和召回值,以及基于在稳定决策融合中选择的概率的TP / FP曲线(参见方法)。A 和 D:TP/FP 曲线在所有数据集上取平均值,用于固定参数设置(线)和标准偏差(阴影区域)。随机化零模型和标准差的预期 TP 和 FP 的平均数量以灰色显示。大点表示由 endoR 生成的稳定融合中 TP 和 FP 的平均数量。B-C 和 E-F:每个点对应于应用于单个数据集和参数设置的 endoR 的精度/召回率。较大的追踪点是固定参数设置下所有数据集的平均值。答:增加α会增加 TP 和 FP。 较小的α值可有效控制 FP,而不会对恢复的 TP 产生强烈影响。 D:B 的值越大稍好,但 endoR 即使对于较小的 B 值也表现良好。B-C和E-F:正如预期的那样,降低噪声或增加观测次数可以提高endoR在精度和召回率方面的性能。重要的是,endoR性能对拟合RF的性能有很强的依赖性。此外,即使对于小样本量,endoR 也具有良好的精度。
https://doi.org/10.1371/journal.pcbi.1010714.g003
首先,我们探讨了α的影响,通过构造,它应该控制endoR在引导后选择的错误决策的预期数量。因此,通过endoR识别的TP和FP边缘的数量也随着α的增加而增加(图3A和3B)。即使对于较小的α值,endoR也能恢复许多TP,同时控制少量FP。此外,无论α如何,TP边被赋予了最高的重要性,因此最终决策集成的加权精度很高(S1表)。
其次,我们改变了应用稳定性选择程序的引导程序的数量。FSD的自举重采样次数在10、50和100之间变化,AP的自举重采样次数在10和90之间变化,略微提高了endoR的精度和灵敏度(图3D和S5(F)图),较高的自举数减少了结果的过度拟合(S6图)。通常,B的较高值是可取的,但大小受计算资源的限制(有关所需计算资源的评估,请参见S7(E)和S7(F)图)。我们的实证结果表明,10 到 100 之间的值通常就足够了。
最后,我们评估了endoR的性能是否受到用于离散化数值的方法的影响(例如,分为“低”和“高”数值;S8 图)。endoR对离散化过程确实是鲁棒的(S3文本和S5(G)–S5(J)图)。
endoR 随着拟合模型的准确性而提高。
由于endoR解释树系综模型,我们评估了RF模型精度对endoR精度的影响。我们将射频拟合到100个FSD和50个AP数据集中,并将endoR应用于模型。通过改变(i)通过r参数改变噪声水平(图3B和3C以及S5(A)和S5(B)图),(ii)用于拟合模型的样本数量(图3E和3F),以及(iii)通过森林中的树木数量改变模型复杂性(S5(D)和S5(E)图)。模型精度随着树数的增加、噪声的降低或样本数量的增加而提高(图3B、3C、3E和3F、S5(A)、S5(B)、S5(D)和S5(E)图)。
平均而言,endoR的加权精度很高,即使对于低预测模型性能(即,小科恩κ;图3E),随着数据噪声的下降,它随着RF模型性能的增加而增加(图3B)。重要的是,即使对于小样本量(例如,n = 200),endoR也具有高加权精度值(图3E)。我们将此归因于endoR中使用的正则化和重采样步骤,这些步骤有效地降低了过度拟合的风险。endoR召回率总是随着RF预测性能的提高而增加(图3C和3F)。此外,数据集之间召回率的方差随着预测性能的提高而降低,这意味着尽管endoR产生精确的网络,但恢复尽可能多的真实交互的可能性随着预测模型的准确性而增加。综上所述,结果一致表明endoR的性能取决于输入模型的质量(图3B和3E)。
endoR优于最先进的宏基因组数据分析方法。
我们利用 50 个 AP 数据集来评估 endoR 相对于最新技术的性能(图 4 和 S2 文本;100 FSD 的结果在 S9 图中提供)。我们的评估包括非参数统计威尔科克森秩和和χ2测试,使用sparCC [47]和图形套索(gLASSOciteFriedman2008glasso)方法计算的稀疏协方差矩阵,基尼重要性[19,25]和SHAP值[28]。特别是,我们使用RF来提取基尼重要性,单个变量的SHAP值以及endoR特征和交互作用重要性。鉴于 SHAP 交互作用值对于 R 中的射频模型并不容易获得,我们使用 xgboost R 包 [46] 拟合梯度提升模型来提取 SHAP 值和交互作用值、基尼重要性以及 endoR 特征和交互重要性。威尔科克森秩和和χ2测试确定了与人工表型显着相关的单个变量,而稀疏协方差矩阵区分了一个表型组中显着相关的变量对,而不是另一个表型组。
从真实宏基因组模拟的50个AP中的每一个都用所有方法进行处理。通过各方法的输出参数对单变量和变量对进行排序,并与真实地面网络进行比较,构建TP/FP曲线(S2文本)。每条曲线显示 TP 变量的数量,或变量对之间的交互效应,由每种方法在 50 个 AP 上平均找到给定数量的 FP(图 4)。
thumbnail 下载:
.PPT幻灯片
.PNG大图
.TIFF原始图像
图4. endoR在识别真实变量和预测人工表型的变量对方面优于或可与最先进的方法相媲美。
给定数量的假阳性 (FP) 的已识别真阳性 (TP) 的平均值(线)和标准偏差(面积)。endoR 最终决策集合中 TP 和 FP 的平均数量用点表示。A,C:对应于单个变量,B,D:对应于50个人工表型重复的变量对。A、B:显示TP和FP绝对数的截断线,灰色虚线表示TP的实况数。 C、D:显示TP和FP率的完整曲线。由于重叠,必要时线条会虚线。“随机”表示随机化零模型的预期结果。A,C:由于模型拟合中的特征选择步骤,所有基于拟合预测模型的方法几乎完美地排名TP。B,D:endoR比SHAP和套索更好地区分TP和FP边缘。只有 endoR 不会返回所有特征和交互,因此限制了最终决策融合中的 FP 数量,尽管也会导致较低的召回率。
https://doi.org/10.1371/journal.pcbi.1010714.g004
所有不使用预测模型的方法(即非参数统计检验、sparCC 和 gLASSO)都表现不佳,其准确性几乎等同于随机猜测(图 4)。总体而言,单个变量按endoR,SHAP和基尼重要性排名很高,接近所有TP归因于任何FP之前的最高重要性(图4A)。SHAP和Gini的召回率更好,但endoR是返回变量子集的唯一方法,因此限制了FP的数量。
在这些模拟中,通过 endoR 从 RF 中识别出的交互召回率高于 XGBoost 模型(图 4B),尽管 XGBoost 模型的平均 Cohen's κ 高于 RF(在 50 次重复中,从每个重复的 10 个 CV 集的平均值来看,Cohen 的 κ = 0.97±0.00 和 0.91±0.03 对于 XGBoost 和 RF 模型, 分别)。endoR在交互排序方面比SHAP更准确。同样,SHAP召回率更高,但由于通过正则化选择变量,endoR决策集合中的FP数量受到限制。此外,endoR可以从RF模型中提取交互重要性,而SHAP在R中不可用(图4B)。因此,endoR在结果的准确性方面优于其他方法。
我们注意到,endoR生成的汇总图,特别是特征重要性和影响图以及决策网络,能够快速评估重要变量及其与响应变量的关联方向,以及变量之间的相互作用。相反,SHAP 值旨在在每个观测值级别提供信息,不适合提供结果的一般概述,尤其是在 p 增加时(S10 和 S11 图)。因此,就数据可解释性而言,endoR比SHAP更适合宏基因组分析,因为(i)p通常很高,并且(ii)预计会有许多可变相互作用。
我们比较了SHAP和endoR在计算性能方面的情况。这两种方法仅在RF模型上进行了比较,因为SHAP值是由xgboost R包[46]在拟合模型而不是事后计算的。SHAP 值是使用 iBreakDown R 包 [48] 中的 shap 函数从 RF 生成的。我们发现endoR比shap快得多。具体来说,endoR随数据集维度和样本大小线性缩放,而shap则线性缩放(S7(A)和S7(C)图)。正如预期的那样,endoR CPU使用率呈线性扩展,随着引导程序的数量而增加(S7(E)图)。我们注意到,由于endoR可以简单地并行化,因此对于相同数量的线程,endoR在B = 10或25的情况下需要的挂机时间比shap更少(S7(G)图)。endoR 比 shap 函数需要更多的内存,但两者都随数据集维度线性扩展,并且只需要几千兆字节即可获得最多 100 个特征和 2000 个用于评估的观察值(S7(B)、S7(D) 和 S7(F) 图)。
总之,根据我们对所有模拟数据集和表型的评估,endoR在识别变量和与响应变量相关的变量相互作用方面与最先进的方法相当或更好,同时在更短的计算时间内生成更容易解释的结果。总之,endoR超越了分析宏基因组数据的最新方法。
endoR重新发现先前报道的肝硬化与肠道微生物组成之间的关联
为了说明endoR在微生物组研究中的实用性,我们将包括endoR在内的工作流程应用于先前发表的肠道微生物组数据集,该数据集包括诊断为肝硬化的患者与健康个体[41]。该数据集包括130名中国受试者,其中48%是健康的,35%是女性,年龄从18岁到78岁不等(平均值= 45),BMI范围为16到29公斤。-2(平均值 = 22)。我们的完整模型由具有特征选择的RF组成(请参阅方法;肝硬化宏基因组)。该模型用于根据个体的年龄、性别、BMI 和源自宏基因组的肠道微生物的相对丰度来预测个体的疾病状态(即“健康”或“肝硬化”)(S2 文本)。在CV集上,它的平均Cohen's κ为0.73±0.08,准确度为0.87±0.04。
endoR 确定了 25 个稳定的决策,使用了 20 个特征(S2 文本)。在由endoR生成的稳定网络中使用的许多分类群在分类学上与原始研究中确定的分类群密切相关,“密切相关”定义为分类层次结构中的直接亲本或子分类(例如,拟杆菌属是拟杆菌科的子代,而拟杆菌科是拟杆菌科的亲本)(图5和S12(A)图)。也就是说,通过对不同队列的研究观察到,细小维洛氏菌和链球菌在肝硬化患者中富集(图4,S12(C)和S12(D)图)[12,49]。此外,虽然在原始研究中,Megasphaera属在肝硬化个体中显着富集,但endoR进一步确定Megasphaera micronuciformis物种是区分健康个体和肝硬化个体肠道微生物组的最重要物种(图4和S12(B)图)).该物种在24%的健康个体中检测到,而85%的肝硬化个体检测到。此外,对于检测到Megasphaera micronuciformis的样品,健康个体的平均丰度比肝硬化个体低10倍(分别为0.40±1.50?10?4和 4.26 ± 10.41 ? 10?4).有趣的是,该属和物种都没有在其他队列中被鉴定出来[12,49]。因此,微核分枝杆菌可能是秦等人采样的中国队列特有的肝硬化标志物[41]。我们注意到,微核分枝杆菌最初是从肝脓肿和脓液样本中分离出来的[50]。
thumbnail 下载:
.PPT幻灯片
.PNG大图
.TIFF原始图像
图5. endoR概括了先前关于健康个体和诊断为肝硬化的患者之间肠道微生物组差异的发现。
答:每个离散化变量级别汇总的特征重要性和每个级别的影响,由 endoR 确定。水平对应于离散变量类别,这里表示由endoR创建的相对丰度组(即,样品是否具有每个分类单元的“低”,“中”或“高”相对丰度)。“密切相关”是指在Qin等人中最初与疾病状态相关的分类单元的直接亲本或子分类群[41]。影响图中的白框表示该水平未用于任何稳定的决策;因此,无法计算影响。B:从稳定的决策集合中提取的决策网络。有关网络的描述,请参见图2;盒装图例为 A 和 B 共享。
https://doi.org/10.1371/journal.pcbi.1010714.g005
原始研究中确定的某些关联未通过endoR检测到(S12(A)图)。这可以部分解释为我们的模型构建中严格的特征选择步骤,该步骤将特征空间从922个分类群减少到81个分类群。例如,在肝硬化患者[41]和其他队列中发现Alistipes(Rikenellaceae科)的相对丰度显着降低[12,49]。 在我们的分析中,模型没有使用相对丰度的Alistipes对患病和健康样本进行分类(图4),这可能是由于健康和肝硬化个体之间的Alistipes相对丰度分布有很大的重叠(S12(F)图)。然而,在数据集中检测到的Rikenella microfusus是Rikenellaceae家族的另一个属,显示肝硬化(耗尽)和健康个体(富集)之间的相对丰度重叠较低;因此,它被模型选择和使用(图4和S12(F)图)。在另一个例子中,发现巴氏杆菌家族在患有endoR的肝硬化个体中富集,但在原始研究中没有(图5,S12(A)和S12(G)图)。然而,Pasteurellaceae家族中最丰富的两个属,嗜血杆菌属和聚集杆菌属,被Qin等人确定为健康与肝硬化个体的富集不同[41](图4,S12(A)和S12(H)图)。总之,我们的分析与原始研究之间的一些差异可能是由于我们使用了RF模型,该模型可以整合非线性关联。此外,我们的特征选择步骤选择了通常与原始研究中确定的属密切相关的分类群,这表明在使用RF模型时,这些姐妹分类群实际上更能预测肝硬化。
endoR确定了肝硬化与肠道微生物组之间的新关联。其中,我们发现额外的口腔微生物组相关分类群在肝硬化个体中富集。例如,endoR揭示了肝硬化个体钩端虫属的重要富集(图5A)。该分类单元是口腔微生物组的一部分[51],在牙周病患者中富集[52]。此外,endoR在肝硬化患者中发现了反硝化金氏菌(奈瑟菌科成员)的口服分类单元金氏菌的富集[51](图5A)。总之,这些发现支持了Qin等人的假设[41],其中口服共生菌定植于肝硬化患者的肠道。
我们的分析还揭示了Adlercreutzia equolifaciens的重要消耗,这是一种与健康个体相关的细菌[42](图5A和S12(E)图)。此外,从稳定决策集合中提取的决策网络仅包含几个边缘(图5B),这意味着发现了细菌对肝硬化的一些相互作用。因此,我们的分析表明,肠道微生物群之间很少有与肝硬化有关的高阶相互作用。
鉴于endoR从RF模型中提取的少数相互作用,我们假设更简单的线性回归模型可能与我们更复杂的随机森林一样有效。因此,我们拟合了两个带有套索惩罚的线性回归模型[53]来预测个体的健康或肝硬化状态:第一个模型仅包括主效应,而第二个模型还包括所有成对特征相互作用。没有交互作用的模型比包括所有成对交互作用的模型具有更好的准确性(分别为0.81±0.07和0.79±0.08,在10个CV集中取平均值),表明考虑所有成对交互作用给模型增加的噪声多于信息。然而,两种套索模型的准确度均低于RF模型,RF模型在10个CV组中的平均精度为0.87±0.04。这些发现支持了endoR确定的交互作为模型改进的相关性。
人类肠道生态学新见解 甲烷杆菌科
我们利用endoR深入了解影响人类肠道中甲烷杆菌科患病率的因素。我们专注于这个微生物分支,因为(i)甲烷杆菌科是人类肠道中最普遍和最丰富的古菌[54,55],(ii)产甲烷古菌通过H影响细菌发酵2消费[56-58],(iii)甲烷杆菌科已被证明与某些细菌形成复杂的营养网络[2,55,58-64],以及(iv)甲烷杆菌科与各种宿主表型有关,例如便秘和缓慢运输[65,66],非西方饮食[67-69]和体重指数(BMI)[58,59, 70-78]。因此,甲烷杆菌科是应用endoR解决该分支如何与细菌分类群和宿主因子(例如BMI)相关联的主要候选者。
为本次分析收集的宏基因组包括来自全球23个国家的26项研究的2203名个体(S2和S3表)。受试者年龄从19岁到84岁不等,中位和平均年龄分别为33岁和40岁。BMI范围从16.02到36.41公斤.米-2,中值和平均值分别为 23.27 和 24.03 kg.m-2.女性占个体的62.30%,76.53%的个体来自西化人群[79,80]。
我们训练了一个具有特征选择的RF(参见方法;甲烷杆菌科)通过使用分类单元和代谢途径的相对丰度、宿主描述符和元数据来预测人类肠道中甲烷杆菌科的存在(有关样本、宿主描述符和元数据的说明,请参见 S2 和 S3 表,有关模型选择和拟合的说明,请参阅 S2 文本和 S1 图)。元数据包括读取次数和数据集名称,并且始终包含在特征选择和分类器拟合中,以确保算法可以在必要时纠正这些变量(例如,在批处理效应的情况下)[81]。为了评估甲烷杆菌科的存在与样本中信息不完整的宿主描述符之间的关联(分别有528、1183和432个个体没有报告年龄、BMI和性别信息),我们将观察结果分组到具有完整信息的748个样本中,并应用了我们的模型拟合程序。基于看不见的观测结果,表现最佳的模型的平均准确度为 0.80±0.03,科恩的 κ 为 0.55±0.06(S4 表)。年龄,BMI和性别从未在该模型的任何CV集中选择过。因此,它们被排除在进一步分析之外,只有具有完整信息的人类描述符被包括在用于选择所有2203个观测值的最终模型的变量集中,例如抽样国家(S3表)。
最终模型精度和科恩κ分别为0.82±0.01和0.60±0.03(S2文本和S4表)。为了通过endoR进行数据解释,我们在所有观测结果上训练了一个模型,并包括了分类群感知gRRF算法选择的107个特征以及元数据(S13(B)图)。
使用 endoR 从预测模型中提取稳定的决策集成,具有 α = 5 和 100 次自举重采样。该融合包括60个可以对所有样本进行预测的决策,平均决策误差为0.40±0.07,支持率为0.37±0.12(S6表)。在预测甲烷杆菌科存在的决策中总共使用了34个特征(图6A和S7表)。特征重要性在endoR和基尼指数平均下降之间是一致的(S13图)。
thumbnail 下载:
.PPT幻灯片
.PNG大图
.TIFF原始图像
图6. 示波螺旋菌、克里斯滕塞菌和其他选定细菌的相对丰度 (RA) 预测了有利于甲烷杆菌科在人体肠道定植的条件。
答:由endoR生成的决策集成使用的每个分类群的特征重要性和影响。分类级别用标签前缀表示:“f_”=科,“g_”=属,“s_”=种,而分类顺序通过条形和标签颜色表示。水平对应于分类群的“低”和“高”相对丰度。B:参与H的标记基因的基因拷贝数之和2生产和消费(参见方法和S5表),用于内在选择的功能。SRB:dsrA和dsrB基因仅参与硫酸盐还原[82];产乙酸:参与产乙酸的fhs基因[83];其他类别对应于由HydDB数据库确定的氢化酶预测函数:H2生产(H2-prod.), H2摄取(H2-upt.),感觉[84]。盒子是白色的,表示在其基因组中未检测到基因的分类群。叉号表示“不适用”(对于“dataset_nameLouisS_2016”功能)。C-D:在基因功能(C/)或每个基因(D/)下进行的基因集富集分析的效应大小,条形由调整后的p值(调整p)着色。D:条形按基因功能着色。预测的 O2氢化酶和电子(E)供体或受体的耐受性由图右侧的彩色框表示[84]。星号表示显著性(调整后的 p 值< 0.05)。E:决策网络,其中节点对应于单个特征,边对应于成对交互。节点和边缘颜色描述了特征和交互影响;它们的大小和宽度与其重要性成正比。将显示重要性≥ 0.3 但未连接的节点。H的基因拷贝数≥30的分类群-2-SRB基因的产生和≥ 20分别以黄色和绿色突出显示。带框的图例适用于 A、B 和 E。
https://doi.org/10.1371/journal.pcbi.1010714.g006
CAG-138家族(Christensenellales,梭状芽胞杆菌目)和CAG-138中的Phil-1属都具有最高的特征重要性(图6A)。与随机预期相比,示波螺旋阶(梭状芽胞杆菌类)在 endoR 使用的特征中过度表示(p 值 = 10?3,S8表),数据集中检测到272个分类特征(科,属和种)中的15个分类单元,并包含在决策中(图6A)。RF39 阶数(类杆菌)也被过度代表(p 值 = 10?3,S8 表)。大多数分类群属于梭状芽胞杆菌类(26个分类群,S8表),与其他特征相比具有相对更高的重要性。因此,梭状芽胞杆菌类的相对丰度与甲烷杆菌科的存在显著相关(威尔科克森秩和检验,p值= 1.18?10?20,S14 图)。
我们注意到,没有一个宿主描述符或代谢途径具有预测性,这表明微生物组分类组成对于确定甲烷杆菌科的患病率可能更为重要。然而,我们必须承认(i)宿主描述符是有限的,(ii)代谢途径多样性可能采样不足。有趣的是,由于可能的数据集偏差,该模型确定了共同的效应:LouisS_2016研究的样本确实在甲烷杆菌科中耗尽。该数据集包括来自德国人的92个粪便样本,其中从未检测到甲烷杆菌科。作者使用了一种非标准的DNA提取方案[85],这可能解释了甲烷杆菌科检测的缺乏,因为提取方案在产甲烷古菌的裂解效率方面存在很大差异[86,87]。
评估通过endoR选择的细菌分类群是否可能是H2基于合养网络,我们估计了参与H233个分类单元特征的生产和消费(图6B)。具体来说,我们利用代表性基因组并评估了(i)编码参与H2生产,H2消耗量,两者(双向)或 H2感知[84],(ii)仅参与硫酸盐还原的基因(dsrA和dsrB)[82],以及(iii)参与产卵(FHS)的基因[83](图6B和S15图)。为了确定这些基因中的哪些在endoR选择的特征中富集,我们根据endoR重要性值进行了基因集富集分析[88]。当我们按功能对基因进行分组时(例如,'H2摄取“或”SRB“),H2-产量和产乙酸盐显著富集,而双向氢化酶耗尽(调整后的p值<10?3,图6C)。特别是,33个分类群中有22个拥有20多个编码H2-生产(图6B)。在每个基因水平上,乙酰原标记基因(fhs)以及H2-产生 [FeFe] 组 A1、A3 和 B 氢化酶显著富集,而许多 [NiFe] 氢化酶显著耗尽(调整 p 值< 10?2,图6E)。此外,O的梯度较高2对富集氢化酶和O升高的敏感性2对耗尽氢化酶的耐受性(图6D)。这些结果表明,甲烷杆菌科与产乙酸菌和H2-产生具有[FeFe]氢化酶的细菌,而具有O2-耐受 [NiFe] 氢化酶提示 O2暴露可能是甲烷杆菌科缺失的常见原因。
有趣的是,endoR决策网络显示Phil-1与dsrA和dsrB基因拷贝数最高的四个分类群之间存在很强的正相关:梭菌科,Peptostreptoccaceae,Blautia A sp900120195和Marvinbryantia sp900066075(图6B和6E)。这些H的影响2-消费者不明显,但这些分类群的相对丰度与Phil-1的高相对丰度之间的相互作用效应与甲烷杆菌科的存在明显相关(图6E)。虽然硫酸盐还原剂通常优于产甲烷菌的H2 [89, 90],Phil-1可能产生足以缓解H2竞争。或者,硫酸盐还原剂或甲烷杆菌科可以利用替代底物进行生长。
讨论
将机器学习应用于微生物组数据越来越受欢迎,因为该方法与扩增子和鸟枪宏基因组数据的高维、组成和零膨胀特性相容[15,16,18]。然而,解释机器学习模型以获得对支撑微生物多样性和生态系统功能的过程的机制洞察力可能具有挑战性。通过对模拟和真实微生物组数据的广泛验证,我们提出的程序endoR通过恢复和可视化基于树木的机器学习模型的重要组件来解决这些问题。首先,识别重要特征的准确性和特征之间的相互作用超过或至少可以与现有的先进方法相媲美(图4)。其次,endoR生成的特征重要性和影响图以及决策网络易于解释,并且比现有方法提供了更多信息(图2H-2J与图2G,S5和S9图)。第三,endoR对超参数的选择具有鲁棒性(图3A和3D),并且通过包括几个正则化步骤(例如,受稳定性选择启发的重采样[91]),即使在样本量较小的环境中也能有效控制错误发现(图3E)。第四,endoR是灵活的:它可以应用于随机森林和梯度提升树,它们本身可以应用于涉及各种类型特征(例如,微生物丰度和元数据)的回归和分类任务。最后,endoR的计算效率比SHAP(S7(A)–S7(D)和S7(G)图)要高得多,这是ML模型解释的常用方法[31,35,92,93]。
我们对最初由Qin等人[41]评估的健康和肝硬化个体的重新评估强调了endoR检测已知微生物疾病关联的能力,同时也揭示了微生物特征如何与疾病状态相互作用(图5)。例如,通过endoR计算的特征重要性突出了先前显示的区分肝硬化和健康个体的主要微生物因素 - 特别强调了微核分枝杆菌和细小弧菌的重要性。值得注意的是,我们的方法揭示了原始研究中未发现的微生物疾病关联。endoR发现口腔微生物组中常见的其他细菌富集在肝硬化患者的肠道微生物组中,其中一种与牙周炎有关[52],牙周炎在酒精相关性肝硬化患者中更为普遍,可能是由于口腔卫生下降[94]。endoR还发现,在肝硬化患者中,Adlercreutzia equolifaciens会耗尽(图5A)。与原发性硬化性胆管炎患者相比,这种细菌与健康个体有关,后者可导致肝硬化[42]。
鉴于产甲烷菌在通过合养H介导细菌发酵的重要性2交换,我们应用endoR来了解哪些细菌和宿主因素决定了甲烷杆菌科的存在,甲烷杆菌科是人类肠道中的主要产甲烷分支。我们广泛的数据集包括来自26项研究的2203个样本的全球集合,可以对不同的人群进行可靠的评估。endoR鉴定了33个细菌分支来预测甲烷杆菌科的存在。特别是,我们证实了先前观察到的甲烷杆菌科与Christensenellales目成员之间的强烈关联[58-62],特别是与未培养的CAG-138家族(图6A)。我们还发现RF39目(杆菌类)的成员与甲烷杆菌科呈正相关。这与[59]的发现一致,他描述了RF39和甲烷杆菌科属于一个共同存在的分类群联盟,其中Christensensenellales构成了中心枢纽。RF39是基因组非常小的未培养微生物,被预测为致乙酰原[95,96]。因此,RF39和甲烷杆菌科的共存可能是它们对H2克里斯滕塞内莱斯制作。尽管如此,与其他 H 相反2-消费者,RF39目成员与Christensencellales之间没有发现预测甲烷杆菌科存在的相互作用效应(图6E)。由于产醋是一种兼性代谢途径,预计RF39会产生H2 [96], H2合养可能是RF39目成员与甲烷杆菌科之间关联的另一种潜在机制。
我们的研究结果强调了H的重要性2用于预测甲烷杆菌科存在的生产和消费(图6)。已知包括致乙酰原和SRB的分支属于与甲烷杆菌科正相关的分类群,这似乎表明与H的竞争2;尽管如此,所有竞争对手都是正相关的,似乎可以共存(图6A和6B)。H 发病率高2生产可能会缓解这种竞争。事实上,H2与[NiFe]氢化酶相比,产生[FeFe]氢化酶的周转率非常高[97],并且它们是endoR选择的细菌中唯一富集的氢化酶(图6D)。此外,富集的[FeFe]氢化酶是O2不稳定[84],利用低氧化还原电子载体铁氧还蛋白[98],并与专性厌氧菌相关[99]。这与一般的 O 形成鲜明对比2-不利用铁氧还蛋白的耐受性[NiFe]氢化酶,在endoR选择的分类群中耗尽[84]。这些发现表明,肠道需氧菌可能介导甲烷杆菌科和与该分支正相关的细菌的存在,因为甲烷生成所需的低氧化还原以及 O2甲烷杆菌科和细菌H的敏感性2拥有[FeFe]氢化酶的生产商。甲烷杆菌科和这些H的缺失2生产者可能提示IBD或溃疡性结肠炎等疾病引起的上皮氧合[100-102]。事实上,甲烷杆菌科分类群的减少与IBD、溃疡性结肠炎和克罗恩病有关[103-105]。
肠道运输时间也可能是决定甲烷杆菌科患病率的一个因素。许多选择的endoR细菌是示波螺旋体科的成员,预计其成员具有较慢的复制时间,因此将受益于缓慢的传播时间[106]。同样,甲烷杆菌科物种通常具有较慢的复制速率,并且与运输时间增加有关[107,108]。 此外,CH4可以减缓蠕动[109],因此甲烷生成可能通过操纵宿主生理学间接促进示波螺旋体科物种的持续存在。
尽管如此,没有宿主因素具有预测性,包括BMI,而先前的工作显示,根据研究,甲烷杆菌科分类群(或评估的产甲烷菌)与厌食、瘦或肥胖表型之间存在关联[58,59,67-78]。现有研究中这些相互矛盾的发现,以及我们缺乏BMI和甲烷杆菌科之间的关联,表明人群特异性或研究特异性因素介导了这种关联。虽然endoR可以识别这种上下文相关的关联,但我们的汇总数据集可能不包含相关因素(例如,饮食或其他生活方式因素)。西化状态也不能预测甲烷杆菌科,尽管已经发现该分支中的分类群在某些非西化人群中富集,例如Matses狩猎采集者[67,68],传统农业Tunapuco[67]或处于西化中的哥伦比亚人[110]。“西化”与“非西化”的分类可能过于宽泛,无法准确预测不同人群的甲烷杆菌科(S15(H)-S15(K)图)。事实上,并非所有研究都显示甲烷杆菌科在“非西化”人群中富集[80,111,112]。
总之,endoR推进了解释在微生物组扩增子和鸟枪宏基因组数据上训练的机器学习模型的最新技术。我们注意到,无论采用哪种 ML 模型解释方法,较差的模型性能都会产生误导性解释。我们对 endoR 在树系综模型准确性方面的准确性的评估为评估 endoR 生成的模型解释的可信度提供了明确的指南。此外,我们提供合理的参数默认值,这通常会导致稳健的结果,但我们强调根据我们广泛的评估仔细考虑参数。正如我们在肠道栖息的甲烷杆菌科的验证和应用中所展示的那样,endoR产生了强大而翔实的模型解释。这些使研究人员能够深入了解支撑ML模型预测性能的生物学机制,并帮助指导受控实验直接测试这些机制。
材料和方法
本节分为三部分:(i)endoR的详细说明,(ii)评估指标的摘要,以及(iii)模拟和真实数据的概述。S1文本涵盖了进一步的方法细节和技术实施。
内分泌的描述
endoR 采用拟合的基于树的 ML 预测模型,并提取正则化决策集合。基于此决策集成,它通过评估决策、特征和交互重要性以及影响指标来评估它们对整体预测的个人贡献。这些指标以易于解释的图可视化,可用于深入了解拟合模型。在下文中,我们将描述决策融合和指标背后的数学细节,解释endoR如何规范决策融合,并展示结果的可视化方式。
规则、决策和决策集合。
让我们表示 p 个特征(数值或因子变量,例如,分类群和宿主性别的相对丰度),一个响应变量,并假设我们观察到了 n 个观测值的样本。我们的框架能够处理回归(y 连续)和二元分类(y 二进制);endoR 将多类分类任务转换为二进制问题(一个类与所有其他类)。
规则是表单的函数
(1)
哪里。我们将决策定义为由规则 r 组成的元组D和不断的预测.预测是在模型拟合期间按照任何预定义的估计程序(例如,最小二乘法)计算的,并且应被视为样本支持 S 上 y 的良好近似值D? {i ∈ {1, ..., n}|rD(x我) = 1},遵循规则的样本子集。决策是一大类非参数 ML 模型(如随机森林和提升树)的构建块。这些模型结合了许多决策来构建高容量预测程序。任何这样的模型都可以看作是决策的集合,我们称之为决策集合,以及聚合预测的适当方法[20]。
对于观测值 S ? {1, ..., n} 的每个子集,我们将误差函数定义为回归情况下的平均残差平方和,或者在二元分类的情况下定义为平均误分类误差,形式上或分别定义。对于固定决策 D 和变量 x
j或变量对 {xj, xk},我们将补码决策定义为修改规则 r 产生的决策D为变量 X 提供补码支持j,或对于变量对 {xj, xk}.此外,我们定义了决策,并且是删除变量 x 产生的决策j或变量对 {xj, xk},来自规则 rD.请参阅 S1 文本和 S16 图,了解这些修改决策的可视化。预测 、 和 都根据新规则进行更新。
对于变量 xj,我们将活动决策的集合定义为 ,它是依赖于 x 的决策的子集j.同样,一对变量 {x 的主动决策集j, xk} 定义为 。
决策重要性。
对于一个决策,我们定义决策重要性 这量化了预测 y 对支持 S 的改进
D用而不是用完整的样本平均值。它由决定支持的大小加权。
对于回归和二元分类,对应于决定系数(或 R2) [113]和科恩的κ[114],分别在子样本S上计算D.因此,决策重要性是一种质量度量,它结合了决策的支持大小和预测性能。
功能和交互重要性。
对于变量 xj,我们将决策特征重要性定义为 S 上预测性能的差异
D在 和 之间(即,利用与不使用有关 x 的信息j对于预测,S16 图)。
对于一对变量 {xj, xk},决策交互作用重要性是 x 决策特征重要性的乘积
j和 xk(有关此表达式背后的有理数的详细信息,请参阅 S1 文本)。我们使用平方根来确保交互作用重要性与特征重要性保持在同一尺度上。
然后,通过将决策特征和交互重要性相加,并按决策重要性加权,分别获得特征重要性和交互重要性。特征和交互重要性的值较高,表示变量或变量对对重要决策有很大影响。
特征和交互影响和方向。
对于每个决策 D 和变量 xj,我们定义方向指示器来表示规则主要使用该变量的较小值还是大值(请参阅 S1 文本)。并且,我们计算记录变量{xj, xk} 在相同的方向上与 y 相关联。
为了衡量一个特征或一对特征对决策预测的影响,我们的做法与特征重要性类似,尽管我们现在比较实际预测而不是预测的误差 SD.
我们为变量 x 定义j和一对变量 {xj, xk},决策特征影响和决策交互影响为
较大的正值 表示较大的 x 值j与规则支持的响应 y 呈正相关,而负值 表示负相关。同样,较大的值 表示两个 {x 的大值j, xk} 与 y 正相关,当两个 {x 的值都很小时为负j, xk} 与 y 呈负相关。此外,当变量的关联方向 x 时等于零j和 xk与 y 相反。
我们评估特征 x 的整体特征影响j,以及变量对 {x 的交互影响j, xk},分别通过平均决策特征和交互影响,以及
决策集合的正则化。
我们提出了几个程序来规范决策集成,从而通过包含简单性偏差来减少噪声。此处简要介绍了程序,但在 S1 文本中详细介绍了这些程序。
决策正则化。
可选的第一步和第二步涉及数值变量的离散化(默认分为 2 个类别)和规则修剪。修剪包括从不实质性参与决策的决策中删除变量(即,有和没有变量的决策的错误差异很小)[38]。在每个决策简化步骤之后,对由相同规则组成的决策进行分组,记录多重性(即,有多少决策被折叠到简化决策中),并根据更新的规则重新计算预测、错误、支持和重要性。最后,决策重要性由决策多重性加权。
决策集成稳定性。
在这个阶段,决策集合通常很大,并且仍然包括预测性差的决策。此外,指标(例如,特征和交互重要性)可能有过度拟合的趋势。为了避免这些问题,endoR 通过对数据的 B 自举重采样运行所有决策正则化步骤和决策度量计算(这不包括重新拟合预测模型)来实现一个选项来简化决策集成。通过子采样和替换来执行自举。然后,endoR 通过仅保留在自举重采样中一致返回的决策来简化决策集成。这种方法的动机是由于[91]引起的稳定性选择程序。更具体地说,对于用户选择的参数和π三∈ (0.5, 1] (π三= 0.7 和 α = 1 默认情况下),记录每个自举重采样的 q 个最重要的决策,并且至少出现在 π三? 然后选择重新采样的决策融合的 B。受 [91] 关于控制预期错误发现数的理论结果(α对应于上下文中预期的错误发现数)的激励,我们选择 q 作为其中 d 是所有自举重采样的平均决策数。对于稳定决策集合中的每个决策,在重新采样的决策集合中平均决策影响和重要性,并如上所述重新计算影响和重要性。默认情况下,在 B = 10 个大小为 n/2 的重新采样上执行引导。
可视化:决策网络和重要性/影响图。
在扩展正则化决策模型并计算所有指标后,endoR 将结果可视化为特征重要性图、特征影响图和决策网络(图 1A 中总结,图 2H–2J 中举例)。特征重要性图和影响图都仅显示最终正则化决策集合中出现的变量的主效应。对于影响图,白色块表示离散化水平未出现在最终决策集合中,或者它是一个二进制变量。在决策网络中,节点对应于单个变量,边缘对应于两个节点之间响应的交互效应。大小表示功能和交互重要性,而颜色表示功能和交互影响。此外,边类型指示交互作用方向,因此,如果平均变量对具有相同的符号(即正相关变量),则它是实线,如果没有,则为虚线。
数据
模拟数据集。
我们生成了随机向量(Y,K,V)的n个独立观测值1, ..., V12) 如下。让 V1, ...五12是独立的分布式随机预测变量,让多类特征 K 均匀分布在类别 {a, b, c, d} 上。二元响应 Y 由表 2 中的规则设置,其符号用概率 r 更改以添加噪声。
thumbnail 下载:
.PPT幻灯片
.PNG大图
.TIFF原始图像
表 2. 预定的决策规则,用于从模拟数据集生成响应变量。
https://doi.org/10.1371/journal.pcbi.1010714.t002
我们使用这种数据生成机制作为一个非常简单的模型来评估我们的方法,因为这里完全理解了底层机制。对于不熟悉抽象模拟设置的读者,考虑变量V 可能会有所帮助1, ..., V12作为(重新调整的)微生物丰度,类别A至D作为表型,如年龄组,反应变量Y作为疾病指标,1和-1分别编码健康和患病。参数为 n = 1000 且 r = 0.05 的数据的单次重复在 S4(A)–S4(D) 图中给出。
当根据这个模拟数据评估endoR时(见结果),我们使用了随机森林R包[43]的RF模型。有关拟合模型和 endoR 参数设置的详细信息,请参见 S2 文本。
人工表型。
为了评估endoR在更真实的微生物组条件下的性能,我们还在具有模拟响应变量的真实宏基因组数据集上对其进行了评估。我们称之为人工表型数据集,以强调虽然这些特征是真实的宏基因组测量,但我们人为地构建了组和响应变量,从而提供了基础模型的已知基本事实。人工表型指定响应变量。
我们使用了与[115]相同的人类肠道宏基因组数据集集合,具有额外的样本排除标准和相同的序列处理(S2文本)。该数据集包含来自19项研究的2147个样本,科、属和种的相对丰度超过25%(p = 520个分类群;S2 文本)。
基于这些数据,我们人工构建了一个多类表型变量K,对于图2A-2E中呈现的重复,均匀分布在类别{a,b,c,d}上,否则为{a,b,c}。 在每个组中,使用随机选择的流行率高于50%的分类群的组合来确定响应变量Y的符号(对于图2中的重复,请参阅表1和图2A-2E;否则,请参阅S9表中从中做出决策的规则的合并列表)。通过用概率r更改组标签来添加噪声:从图2A-2E中的重复的{a,b,c,d,e}中提取新的组标签,否则从{a,b,c,d}中提取新的组标签。 该过程重复51次以生成图2A-2E中的示例,否则使用50个AP的集合。
我们分别通过随机森林和xgboost R包生成的拟合RF和增强树评估了这些人工表型的endoR[43,46]。通过首先应用特征选择步骤,然后拟合分类器来生成模型;对 10 个子集的交叉验证 (CV) 用于选择模型(有关模型训练的概述,请参见 S1(A) 图)。有关拟合的 ML 模型和 endoR 参数选择的所有详细信息,均在 S2 文本中提供。每个模型都使用默认参数(即K = 2,B = 10和α = 5)使用endoR进行处理;图3A–3C和4,S4和S8(F),S8(I),S8(J)图)。对于图 2 中的仿行,数值变量被离散化为 3 个类别,B = 100 次自举重采样。
AP的全局零模型是用与图2A-2E中的重复相同的过程生成的,不同之处在于,在计算后和通过随机化组标签添加噪声之前,每组内的目标值是完全随机化的。因此,群结构是保守的,但人工表型与分类群的相对丰度去相关。分类器的拟合如上所述:我们使用 10x CV 来选择最佳模型,包括特征选择步骤和随机森林分类器的拟合。最佳模型的特征选择非常严格,只选择了 4 个特征(预期准确率 = 56.27%,特征选择参数 gamma = 1,分类器树数 = 500)。因此,我们决定也拟合一个精度稍低的模型,该模型具有更宽松的特征选择步骤(预期精度 = 55.54%,特征选择 gamma 参数 = 0.35,RF 树数 = 100),从而产生 44 个选定特征。两种模型均通过endoR解释,参数与图2H-2J中所示的主要重复相同。
我们类似地为用于评估参数的10种人工表型生成了独立的全局零模型:使用小γ值(γ∈ [0.2, 0.4])进行特征选择,RF分类器拟合100棵树。平均选择130.8±29.83个要素,RF的预期精度为0.59±0.05。endoR应用于10个型号,参数与50个独立AP相同。
肝硬化宏基因组。
来自 Qin 等人生成的宏基因组的元数据和肠道微生物分类图谱 [41] 从 MLRepo(https://github.com/knights-lab/MLRepo,2021 年 1 月 27 日访问)下载。该数据集分别由来自肝硬化和健康个体的68个和62个粪便样本组成,这些样本的年龄,BMI和性别信息可用(48%的健康个体)。宏基因组的格式和模型拟合过程在S2文本中有详细说明。简而言之,在模型拟合之前过滤掉稀有分类群。在过滤的分类群上安装了具有特征选择的RF分类器(有关模型训练的详细信息,请参阅S2文本和S1(A)图)。最终模型选择了926个分类群中的85个和某些元数据协变量(性别,年龄,BMI,序列读取次数)。该模型使用具有默认参数的 endoR 进行处理,除了离散化为 3 个类别,B = 100 个大小为 3n/4 的自举重采样,α = 5(S2 文本)。
带有套索惩罚 [53] 的线性回归模型使用 glmnet R 包 [116] 中的 glmnet() 函数拟合在与拟合完整 RF 模型相同的 CV 集上。λ超参数已调整(函数中的参数nlambda = 100)。在926个分类群的所有特征(BMI,年龄,性别,测序深度和926个分类群的科,属和物种水平的相对丰度)上训练了没有相互作用的模型。我们还在相同的特征上训练了一个模型,并额外包括了所有成对交互作用,使特征数量达到429,201。
甲烷杆菌科宏基因组。
来自全球分布式研究集的宏基因组和相关样本元数据是从[40]到[115](S2和S3表)收集的。有关数据处理的详细信息,请参阅S2文本。简而言之,(i)使用HUMAnN2管道对宏基因组进行分析,以获得基于MetaCyc数据库的代谢途径谱[117,118],以及基于定制的基因组分类数据库(GTDB)的Kraken2和Bracken v2.2,使用Struo v0.1.6创建的版本89.0(可在 http://ftp.tue.mpg.de/ebio/projects/struo/)[119-122]用于生物分类概况;(ii)过滤掉稀有类群,并包括从科到物种的分类等级(n = 2190个分类群;181科,562属和1447种;S17 图);(iii)纳入了社区水平上MetaCyc代谢途径的相对丰度,完全覆盖且患病率大于25%(n = 117个途径)。训练具有特征选择的RF使用10个CV集根据甲烷杆菌科的存在/不存在对样本进行分类(有关模型训练的详细信息,请参阅S2文本和S1(A)图,有关CV的结果,请参阅S4表)。最终模型使用具有默认参数的endoR进行处理,除了B = 100个自举程序和α = 5。
评估指标和基准方法
评估指标。
模拟数据。
从表2(S4(E)图)推断出地面实况网络。通过计算真阳性(TP)、假阳性(FP)和假阴性(FN)节点和边缘的数量,将最终决策集成构建的网络与真实网络进行比较。
人工表型。
从用于创建人工表型的程序推断出真实网络(例如,表1对应于图2G)。由于数据集是由真实的宏基因组组成的,这里的一个缺陷是缺乏预测变量之间关联的基本事实,特别是来自同一分类学分支。因此,为了考虑分类学关系,我们扩展了真实节点和边缘的列表,以包括来自相关分类群的节点和边缘。我们将直接的粗和细分类等级以及来自同一属的物种视为“相关”分类群。因此,如果由endoR识别的节点位于地面实况网络中,或者与真实网络中的节点相关,则将其计为TP。如果 endoR 同时识别了真实节点和相关分类单元,则仅计算一次 TP 以防止结果膨胀。对边缘执行相同的计数。
指标。
根据 TP、FP 和 FN 的数量,计算标准性能指标(准确性、精度、召回率)以评估 endoR 生成的网络。此外,TP和FP根据其特征或交互重要性(分别为节点和边缘)进行加权,以计算加权精度,从而估计endoR结果中TP的大小。给定决策重要性的排名,可以为节点和边构建TP/FP曲线。为了使用 endoR 做到这一点,对于固定α,我们首先根据它们在最终稳定决策集合中被选中的概率(即跨引导程序的出现次数)对每个引导程序的前 q 个决策进行排名。为要选择决策的每个概率计算网络,随后计算网络中边和节点的概率。然后根据这些概率对边和节点进行排序,并为endoR构建TP / FP曲线(图3A和3D,S4,S8(C)和S8(F)图)。曲线在重复中值和平均。
endoR与最新技术的比较。
endoR与最新方法的比较基于AP模拟数据,包括以下步骤(S2文本中提供了更多详细信息)。首先,对于数据集中的所有数值变量(p = 520 taxa),我们执行了Wilcoxon秩和检验,以识别富含标有一个或多个响应变量类别(“-1”与“1”)的样本中的分类群,并执行χ2测试以评估组类别包含的样本是否多于一个或另一个响应类别的预期;p值使用Benjamini-Hochberg校正方法进行调整;特征按 1 ? p 值和效应大小(如平局)进行排序。其次,我们拟合了两个套索模型,并对数据集中的所有变量进行了 lambda 调整(p = 520 个分类群和 4 个独热编码组)。仅对于这些模型,使用中心对数比转换分类群的相对丰度(见S2文本)。第一个模型不包括交互作用(因此仅包含变量主效应),第二个模型拟合了所有变量和成对交互作用。特征根据其在最终模型中的绝对权重进行排名;对于具有交互作用的模型,我们使用了每个特征的主权重和交互权重之和。第三,我们根据样本的响应变量类别划分样本,并使用分类群相对丰度(p = 520 taxa)通过图形套索[123]和sparCC [47]方法为每个类别构建子网络,如SpiecEasi R包[124]中实现的那样;特征按协方差矩阵参数的平方进行排序。对于每种方法,都会过滤掉两个子网之间共享的边。从RF模型中,我们还计算了在randomForest R包[43]中实现的基尼重要性[19,25],以及在iBreakDown R包中实现的SHAP值[35,125][48]。我们还在gRRF选择的相同特征上训练了一个XGBoost模型[46](p = 18个分类群和组虚拟变量)。XGBoost 模型使用默认参数进行训练,nrounds = 10,目标 = 'binary:logistic'。使用xgboost和SHAPforxgboost R包从中提取SHAP值和SHAP交互值[46,126],最后用endoR进行处理。对于基尼,SHAP和endoR,特征和特征对按特征和交互重要性进行排名。随机抽取变量或变量对进行排序以构建TP / FP曲线;该过程重复1000次并取平均值。
细菌基因组分析
在过滤之前,下载了来自GTDB-r89数据库的物种代表性基因组,用于获得宏基因组中分类群的相对丰度[121]。通过DIAMOND blastp [127]对以下数据库对基因组进行注释:(i)Fungene [82]用于鉴定dsrA和dsrB基因,(ii)hydDB [84]用于鉴定编码氢化酶的基因,以及(iii)acetobase [83],用于鉴定fhs基因。dsrA和dsrB基因编码参与硫酸盐还原的二硫磷毒素,fhs基因编码参与产乙酸的甲酰四氢叶酸合成酶。氢化酶按预测功能分组:H2-生产,H2-摄取,双向,感觉(S5表)。对于每个物种,计算序列同一百分比高于0.50且长度覆盖率高于80%的基因拷贝数。对于属和科分类学排名,拷贝数是跨物种平均的,并根据用于分析的数据集中每个物种的平均相对丰度进行加权。用绝对拷贝数观察到的基因丰度模式对基因组大小的差异具有鲁棒性(S15(A)图)。
使用fgsea R包进行基因集富集分析[88]。分类特征被用作“基因”,并按基尼或endoR特征重要性排名,“基因集”按基因组(乙酰原,SRB和氢化酶预测功能)定义。
统计学
所有统计分析均使用统计包在R中进行[128]。对于甲烷杆菌科分析,我们使用蒙特卡洛程序(S8表)测量了endoR使用的特征集中分类顺序的过度表示。为此,我们根据endoR使用的特征数量,通过从用于拟合模型的分类特征集中随机抽取18个特征,近似于随机预期的科,属和物种特征的数量。我们重复随机抽奖1000次。对于每次抽奖,将计算属于每个订单的特征数量。每个订单的零分布是通过在抽奖中汇集所有计数来获得的,并且从该空分布计算观测计数的右尾 p 值。
支持信息
描述 endoR 方法的补充方法。
显示 1/35: pcbi.1010714.s001.pdf
跳到无花果共享导航
使用 endoR 解释树集成机器学习模型 - S1 文本阿尔巴内·鲁奥德一个, 尼克拉斯·菲斯特b, 露丝·一个, 尼古拉斯·一个*一个马克斯·普朗克发育生物学研究所微生物组科学系,德国图宾根b哥本哈根大学数学科学系,丹麦哥本哈根* nicholas.youngblut@tuebingen.mpg.de补充方法:内分泌物的描述在这里,与正文相比,我们在需要时更详细地描述了方法和技术程序。规则、决策和决策集合。对于固定决策D和一个变量xj或变量对{xj,xk}这补体决策Dcj或DcJ,K,定义为修改规则产生的决策rD有补语对变量的支持xj或变量对{xj,xk}(S16图),即rDcj(x):=1R\XjrD(xj)Yk?=j1XkrD(xk)或rDcJ,K(x):=1R\XjrD(xj)1R\XkrD(xk)Yl/∈{J,K}1XlrD(xl),分别。此外,决策D.rmj和D.rmJ,K定义为删除变量后产生的决策xj或变量对{xj,xk},来自规则rD(图 15),即rD.rmj(x):=Yk?=j1XkrD(xk)和rD.rmJ,K(x):=Yl/∈{J,K}1XlrD(xl),分别。最后,对于变量的子集J?{xj,j∈{1,...,p}}决定D公关J定义为删除后产生的决定所有变量未包含在J从rD,即rD公关J(x):=Yk∈J1XkrD(xk).预测?yDcj,?yDcJ,K,?yD.rmj,?yD.rmJ,K和?yD公关J根据新规则进行更新。对于变量xj,我们定义集合主动决策如Dj:={D∈D|XjrD?=R},取决于xj.同样,一对变量的主动决策集{xj,xk}定义为DJ,K:=Dj∩Dk.从预测模型中提取规则。决策是从基于树的模型(randomForest,ranger,gbm)中提取的和 xgboost (1–4)) 使用 inTrees R 包 (5),略有修改。更具体地说,给定一个基于树的模型,规则首先从所有树或树的子集中提取,方法是跟随从根到终端节点的分支,例如,对于由 4 个终端节点组成的树,将提取 4 个决策。所有多类因子预测变量都转换为{0,1}编码的虚拟变量。然后调整提取的规则仅使用每个原始多类因子变量和规则中的一个类的多重性相应地降低。例如,对于多类因子xj取值{A,B,C},三个虚拟变量将替换xj和诸如"xj∈{a,b}“将转化为两个规则”xj一个= 1“和”xjb= 1“,多重性等于0.5.此外,相同的规则拆分过程应用于用户提供的预测因子,这些预测因子已编码为拟合预测模型。因此,多变量的水平仅通过它们的存在来包含,后来有助于网络的可视化和解释。合理地表达交互重要性。考虑具有规则的决策 D”x1>0&x2>0“和预测”y".从经典统计的角度来看,”x1>0“和”x2>0“很重要,如果相同仅使用”x1>0“或仅”x2>0".为了评估这一点,我们看以下两个修改决定:1.D.rm1:规则”x1>0&x2>0“和预测”y1“(其中y1基于规则”x2>0")2.D.rm2:规则”x1>0&x2>0“和预测”y2“(其中y2基于规则”x1>0")鲁奥德等。|使用 endoR 解释 ML 模型 - S1 文本1
D.rm1对应于最佳预测(在数据的同一子选择上”x1>0&x2>0“)的决定仅使用"x2>0“才能实现。同样地D.rm2对应于最佳预测(在数据的同一子选择上”x1>0&x2>0“)的决定仅使用”x1>0“才能实现。我们现在可以比较不同规则的预测性能,这是通过查看决策特征重要性来完成的。即,如果D.rm1优于D决策的重要性x1(d1) 很大,如果D.rm2优于D决策方面特征的重要性x2(d2) 很大。现在我们可以考虑以下组合:? "d1大和d2large“:这表示存在交互作用效应,因为删除任一变量都会导致性能下降。事实上,决策方面的特征交互将很大。? "d1小和d2大“:这表示只有”x2>0“很重要,意味着最多有一个小的互动影响。在这种情况下,决策方面的特征交互将很小。? "d1大和d2小“:这表示只有”x1>0“很重要,意味着最多有一个小的互动影响。在这种情况下,决策方面的特征交互将很小。? "d1小和d2小“:既不”x1>0“也不是”x2>0“在这种情况下很重要,因此交互作用也应该很小。请注意,平方根还可确保要素和交互重要性保持在同一尺度上。功能和交互方向。要了解单个特征如何影响预测,需要了解规则主要使用该要素的较小值还是较大值。对于每一个决定D和变量xj这方向指示器djD∈{?1,1}djD:=?????1如果1|SD|P我∈SDxj我≥1|SDcj|P我∈SDcjxj我?1如果1|SD|P我∈SDxj我<1|SDcj|P我∈SDcjxj我表示是否D主要使用变量的较小或较大值xj.对于每对变量{xj,xk},ηJ,K:= 符号XD∈DJ,K(djD·dkD·我D)记录变量是否{xj,xk}每个都与y在同一个方向上横跨D∈DJ,K.当两个变量{xj,xk}具有与响应关联的大值或小值y然后ηJ,K是阳性的;当值较大xj是正相关y但小值与y然后ηJ,K为负数。后者发生在以下情况下γJ,KD= 0.决策集合的正则化。我们提出了几个程序来规范决策集合,从而减少噪声,包括简单性偏差。建议使用这些过程,但这些过程是可选的。决策离散化:变量分布的分位数数值预测因子可以根据其分位数离散化(例如,进入“低”、“中”和“高”级别)。然后通过替换来修改所有包含离散化变量的决策任何数字规则(例如,”xj≤t') 通过仅使用离散化变量的最佳近似规则(例如,'xj=“低”)。对由相同规则组成的决策进行分组,记录多重性,即有多少决策被折叠进入简化决策),并根据更新的规则重新计算预测、误差、支持和重要性,以及决策重要性由决策多重性加权。最后,计算每个级别的特征影响离散化变量和特征重要性是跨所有级别计算的。在实践中,所有或用户定义的数值变量子集都根据其分位数使用离散化向量来自 inTrees R 包 (5) 的函数,适用于接受缺失值 (NA)。对于每个规则在离散化变量中,数值阈值被替换为大多数观测值为包含在原始样品支持中(S8图)。然后按照上一节所述转换规则,使其基于只有一个级别,并且多样性已更新。决策离散化:树系综模型分裂的局部极大值或者,我们建议离散化数值变量基于其在预测模型中的使用的能力。对于每个数值变量,我们首先收集所有拆分阈值变量。变量范围之外的所有阈值都被赋予变量的最大值或最小值,即对于阈值t从拆分变量V如果T >最大值(V),t←.max(V我)或者如果吨 < 分钟(V),t←最小(V).然后,我们计算它们的分布并计算局部最大值。这些最大值用作新离散化变量组的限制这样 K-1 最大最大值用于制作 K 类别。决策修剪修剪包括从与决策无关的决策中删除变量,即有和没有变量的决策误差差异很小 (5)。可以执行错误比较2鲁奥德等。|使用 endoR 解释 ML 模型 - S1 文本
1 / 35
下载
无花果分享
S1 文本。 描述 endoR 方法的补充方法。
https://doi.org/10.1371/journal.pcbi.1010714.s001
(英文)
S2 文本。 描述数据的补充方法,endoR的评估和宏基因组的分析。
https://doi.org/10.1371/journal.pcbi.1010714.s002
(英文)
S3 文本。 补充结果。
https://doi.org/10.1371/journal.pcbi.1010714.s003
(英文)
S4 文本。 缩写。
https://doi.org/10.1371/journal.pcbi.1010714.s004
(英文)
S1 图 用于预测甲烷杆菌科存在/不存在的模型选择和拟合。
A/ 创建了十组观测值,每组包含一个用于训练的子集和一个用于测试的子集。训练观测值用于拟合模型,即针对给定超参数值的特征选择和分类器算法的组合,并使用拟合模型预测测试。模型的性能在测试集中取平均值。特征选择算法包括(i)无特征选择,(ii)gRRF算法的分类群感知版本[21](S2文本),(iii)Boruta算法[24],(iv)无特征选择。分类器拟合了随机森林或梯度提升模型算法。元数据对应于读取次数和原始数据集名称。B/ 使用最少特征在最高平均科恩κ中产生A/的模型(特征选择算法和分类器)用于拟合所有数据的最终分类器。
https://doi.org/10.1371/journal.pcbi.1010714.s005
(英文)
S2 图 endoR从完美的预测模型中恢复真实网络。
将endoR应用于直接从真实机制获得的规则集,该机制为AP(A-B)和FSD(C-D)模拟的一次重复生成响应变量。没有执行正则化步骤,即没有修剪或引导。各自的真实地表网络在图2F和S4F图中可视化。B 上的附加边是由于离散化步骤。由于数值特征的中位数(用于离散化数据)与用于生成响应变量的阈值之间的接近性,因此 D 上没有出现额外的边。
https://doi.org/10.1371/journal.pcbi.1010714.s006
(英文)
S3 图 endoR 通常不会从全局零模型中找到稳定的决策系综。
通过随机化每组中的目标值,从10个AP生成全局零模型(参见方法)。然后拟合一个预测模型,包括FS步骤,然后是RF分类器的拟合。使用endoR解释模型:在6/10的情况下没有达到稳定的决策系综,在3/10的病例中发现了独特的稳定决策,并且对于具有最高RF精度的重复,发现了稳定的决策系综。
https://doi.org/10.1371/journal.pcbi.1010714.s007
(英文)
S4 图 endoR 从模拟数据拟合的随机森林中捕获预测响应变量的交互。
A-D/全模拟数据(FSD)结构:生成四组样本(从a到d标记),以便对于每组,二进制响应变量根据表1中描述的变量组合取值“1”(蓝色)或“-1”(黄色)(例如,A组的V1和V2)。然后将响应变量的值随机化,概率r = 0.05。E/ 响应变量与 A/ 中描述的单个变量(节点)和变量对(边)之间关联的真实网络(参见方法)。预测“1”的变量对由蓝色边缘(“正”)连接,预测“-1”的变量由黄边(“负”)连接。高值预测“1”的变量具有蓝色节点颜色(“正”),如果高值预测“-1”(“负”),则为黄色节点颜色。如果高值预测“1”或“-1”取决于其他变量值(例如,如果 V3 采用高值,则组 b 预测“1”,但如果 V3 采用低值,则预测“-1”),则颜色为灰色(“依赖”)。F/特征重要性,通过拟合随机森林(RF)模型中基尼杂质的平均降低来衡量,该模型在A/所示的数据集上训练。G/ 由 endoR 测量的特征重要性和由 endoR 计算的每个离散化数值变量水平的特征影响。点颜色指示要素是否用于构造响应(“真”)或未用于构造响应(“不相关”)。H/由endoR产生的决策网络。边和节点分别对应于单个变量及其对响应变量的交互作用。边宽和节点大小分别与 endoR 计算的交互作用和特征重要性成正比;它们的颜色代表了它们的影响(有关网络构建的详细信息,请参阅正文中的方法和 S2 文本)。边缘透明度仅与 H 的重要性成反比。I/与H相同,但交互重要性最低的边被移除,以获得长度≤3的节点之间的路径。E, G-I/ 离散变量的水平,即根据其分位数转换为分类变量的数值变量,显示在影响图(G/)的X轴上,并在网络(E/和H/)中用“__High”或“__Low”表示。
https://doi.org/10.1371/journal.pcbi.1010714.s008
(英文)
S5 图 endoR 的准确性随着输入模型的准确性而提高。
生成了 100 个 FSD(B-E 和 G-H/)和 50 个 AP(A、F 和 I-J/),使用 endoR 拟合和处理射频。如果没有变化,参数如下:ntree = 500,使用基于K = 2类别的数据分布的方法进行离散化,α = 5。我们计算了以下三个指标:射频的科恩κ,稳定决策融合中所选边的加权精度和召回值,以及基于在稳定决策集成中选择的概率的TP / FP曲线(参见方法)。对于固定参数设置(线)和标准偏差(阴影区域),在所有数据集上对 A-B、D-E 和 G-J/ TP/FP 曲线进行平均。随机化零模型和标准差的预期 TP 和 FP 的平均数量以灰色显示。大点表示由 endoR 生成的稳定融合中 TP 和 FP 的平均数量。C 和 F/ 每个点对应于应用于单个数据集和参数设置的 endoR 的精度/召回率。较大的追踪点是固定参数设置下所有数据集的平均值。A-B 和 D-E/ 正如预期的那样,降低噪音或增加森林中的树木数量可以提高 endoR 在精度和召回率方面的性能。重要的是,endoR性能对拟合RF和endoR的性能有很强的依赖性。此外,即使对于小RF,endoR也具有良好的精度。 C/ 增加α会增加 TP 和 FP。 较小的 α 值可有效控制 FP,而不会对恢复的 TP 产生强烈影响。 F/ 较大的 B 值稍好一些,但 endoR 即使对于较小的 B 值也表现良好。G-J/离散化是通过根据数值变量的分布(“数据”)或拟合RF中这些变量的拆分(“RF thr”)从数值变量创建K = 2或3个类别来执行的。离散化略微影响 endoR 性能,FSD 和 AP 仿真之间没有任何明确的模式。
https://doi.org/10.1371/journal.pcbi.1010714.s009
(英文)
S6 图 endoR 性能随着引导程序数量的增加而稳定。
总共6个人工表型重复处理10次,B = 10或100个自举重采样(分别为紫色和橙色)。曲线根据在稳定决策集合中选择的边缘概率,显示了已识别的真阳性(TP)和假阳性(FP)边缘的平均数量(“#”)。对每个技术重复的曲线进行插值,并显示跨多个自举程序的平均值(线)和标准偏差(阴影区域)。跟踪点表示 endoR 返回的稳定融合中 TP 和 FP 的平均数,π = 0.7 和 α = 5。
https://doi.org/10.1371/journal.pcbi.1010714.s010
(英文)
S7 图 当应用于随机森林分类器时,endoR 计算时间尺度明显优于 SHAP。
A-F/ 用于同一 RF 型号的三次复制处理运行的总 CPU 时间和最大虚拟内存。图2中提出的人工表型与18个变量和1000个样本一起使用(参见方法),endoR在B = 1大小为n / 2的引导程序上运行。G/ 在经过训练的 RF 上运行 endoR 和 shap 的五个技术重复,以预测图 2 中呈现的人工表型(18 个变量和 2147 个观察值)。计算在 4 或 10 名工人中并行运行;对于 endoR,引导程序进一步并行单独运行(参见 S2 文本)。
https://doi.org/10.1371/journal.pcbi.1010714.s011
(英文)
S8 图 变量的离散化和规则的修改。
将均匀分布的变量 x 离散化为三个级别的简单示例。原始规则“x < t”(橙色)根据规则样本支持中包含的每个水平的观测值数进行修改(绿色的新规则)。B/ 少数“中等”水平的样本包含在由“x < t”定义的原始样本支持中,因此没有像 C/ 那样选择“中等”水平来制定新规则。
https://doi.org/10.1371/journal.pcbi.1010714.s012
(英文)
S9 图 endoR在从完全模拟的数据中识别变量和预测目标的变量对方面具有与最先进的方法一样。
给定数量的假阳性 (FP) 的已识别真阳性 (TP) 的平均值(线)和标准偏差(面积)。endoR 最终决策集合中 TP 和 FP 的平均数量用点表示。A,C:对应于单个变量,B,D:对应于100个完全模拟数据的重复中的变量对。A, B/ 显示 TP 和 FP 绝对数的截断线,灰色虚线表示 TP 的地面实况数。 C, D/ 显示 TP 和 FP 速率的完整曲线。由于重叠,必要时线条会虚线。“随机”表示随机化零模型的预期结果。A, C/ 所有方法几乎都先识别TP,然后识别FP。 B, D/ endoR比SHAP更好地区分TP和FP边缘。只有 endoR 不会返回所有特征和交互,因此限制了最终决策融合中的 FP 数量,尽管也会导致较低的召回率。
https://doi.org/10.1371/journal.pcbi.1010714.s013
(英文)
S10 图 来自 RF 分类器的 SHAP 值。
SHAP 值是根据随机森林分类器计算的,该分类器经过训练以预测从真实宏基因组模拟的人工表型(n = 2147,p = 520 分类群;见图 2)。A/ 特征重要性由样本中绝对 SHAP 值的平均值给出,并为每个样本绘制。B/ 由于缺少用于计算随机森林中的 SHAP 交互作用的 R 实现,因此无法计算 SHAP 交互作用值。因此,我们根据分类群相对丰度(log10变换,x轴)绘制了具有最高特征重要性的四个分类群(y轴)的SHAP值,并按四个组类别中的每一个绘制了彩色点(粉红色:来自图标题中指示的组类别的样本,蓝色:来自其他类别的样本)。我们注意到,随着特征数量的增加,这种分析方法不能很好地扩展。
https://doi.org/10.1371/journal.pcbi.1010714.s014
(英文)
S11 图 来自 XGBoost 分类器的 SHAP 值。
SHAP值是根据XGBoost分类器计算的,该分类器经过训练以预测从真实宏基因组模拟的人工表型(n = 2147,p = 520分类群;见图2)。A/ 特征和交互作用重要性由样本中绝对 SHAP 值的平均值给出。B/ 鉴于特征和交互作用的数量很多,我们只绘制了单个变量的前五个特征重要性和交互作用的前九个特征重要性(以 A/ 开头标记)。对于单个变量,点颜色对应于 x 轴值。
https://doi.org/10.1371/journal.pcbi.1010714.s015
(英文)
S12 图 在原始研究中,使用RF和endoR鉴定的分类群相对丰度与统计测试的比较[41]。
当显示相对丰度的 log10 时,伪计数等于数据集中检测到的最小相对丰度 (3 ? 10?7)用于显示未检测到分类群的样品(相对丰度= 0)。箱线图和点按健康状态着色,健康个体为橙色,肝硬化个体为蓝色。A/ 分类水平用前缀表示:“f_”=科,“g_”=属,“s_”=种。分类群按科分类水平组织(用灰线分隔)。背景表明是在本文中和原始研究中鉴定了分类群(红色),仅在本文中通过RF模型和endoR(绿色),还是仅在原始研究中(黄色)。已发布数据集(从 ML 任务存储库下载)中没有相对丰度的物种用星号表示。B-I/中的分类群由箭头表示。B-E/通过endoR鉴定的具有最高特征重要性(FI)的四个分类群,用于对健康与肝硬化微生物组进行分类(见图5A)。F-I/分类群仅在原始研究中鉴定[41]或随机森林和endoR。
https://doi.org/10.1371/journal.pcbi.1010714.s016
(英文)
S13 图 基尼系数和内在射频模型和稳定决策系综之间是一致的。
A /具有最佳基尼重要性的功能。B/基尼重要性和在10个交叉验证(CV)集中选择特征的次数的比较。C/基尼系数和内分泌重要性的比较。D/分类群感知gRRF算法选择的所有特征的基尼重要性。在所有地块中,分类水平在标签中用“f_”表示:科,“g_”:属和“s_”:种,目通过点和标签颜色表示。
https://doi.org/10.1371/journal.pcbi.1010714.s017
(英文)
S14 图 梭状芽胞杆菌的相对丰度在检测到甲烷杆菌科的样品中较高。
https://doi.org/10.1371/journal.pcbi.1010714.s018
(英文)
S15 图 参与H的基因拷贝数2用于预测甲烷杆菌科存在/不存在的跨分类群的消费和生产。
我们研究了用于预测人类肠道微生物组中甲烷杆菌科的存在/不存在的代表性分类群物种的基因组,这些分类群来自2203名参与H2新陈代谢。计算参与以下途径或功能的基因拷贝数:硫酸盐还原(SRB):dsrA和dsrB基因[82];产卵(产乙酸):FHS基因[83];H2由HydDB数据库[84]确定的产生,吸收和传感。在属和科分类水平上,我们使用给定水平的跨物种的平均拷贝数,并根据数据集中物种的平均相对丰度对每个物种的拷贝数进行加权。因此,如果特定属中最丰富的物种具有大量的基因拷贝数,则该属的拷贝数也会很高。当基因按一般功能分组时,我们对拷贝数求和(例如,SRB基因拷贝数对应于dsrA和dsrB的基因拷贝数总和)。A/ 每个 endoR 所选特征的基因组大小的基因拷贝数比率与图 6B 中显示的绝对拷贝数一致。对于每个代表性物种,基因拷贝数除以基因组大小。一般功能和基因用黑线(具有相同一般功能的基因块)显示和分隔,一般功能与特定基因用灰线分开。B/通过特征选择选择的分类群的每个组的基因拷贝数。C/来自每个组的基因在所有分类特征中的出现,用于训练模型以预测人类肠道中甲烷杆菌科的发生。
https://doi.org/10.1371/journal.pcbi.1010714.s019
(英文)
S16 图 可视化如何修改决策以计算变量的重要性。
每个图都说明了在变量 {x 跨越的特征空间中对决策 D 的支持j, xk},即决策可以对变量 x 取的值j和 xk.A/ 原决定D.B/ 删除变量 x 导致修改决策j来自决定D。C/ 删除变量 x 后修改的决定j和 xk来自决定D。A-C/ 支持 SD的原点决策由剥离区域表示,例如支持 D 的样本在 x 上都取正值j和 xk.每个决定的支持,即 SD,对于 A、B 和 C,分别由彩色区域可视化。B/ 当我们删除变量 x 时j从规则 RDD,支持扩展到在x上取负值的样本j(彩色区域)。C/ 同样,当我们删除一对变量 {xj, xk} 从 rD,样本可以在 j 和 k 上取正值和负值。对于 和 ,我们分别使用 和 中的所有样本进行计算和。j 在 D 中的决策重要性是通过比较 S 上的误差来计算的D(B/) 与 S 上的误差D(A/)。类似地,为了计算决策 D 中一对变量 {j, k} 的决策重要性,我们将不约束 j 或 k 上的决策值的误差与 S 上的误差进行比较 D(C/) 对 S 上的决定错误D(A/)。
https://doi.org/10.1371/journal.pcbi.1010714.s020
(英文)
S17 图 宏基因组数据中科、属和物种分类水平的平均相对丰度和流行率。
https://doi.org/10.1371/journal.pcbi.1010714.s021
(英文)
S18 图 一大群健康个体(n = 2203 个体)的肠道微生物群大致沿肠型景观分离。
A-C, H-K/ 根据属相对丰度计算的詹森-香农距离矩阵的主坐标分析顺序。A-B/样品分别按拟杆菌和普雷沃氏菌的相对丰度(RA)着色。为了计算对数,对未检测到该属的样本给出等于最小非空 RA 的伪计数,即 RA = 0。C/按肠型簇着色的样品[2,64];ETF:厚壁菌,ETB:拟杆菌,ETP:普雷沃氏菌;颜色与 E. J-K/ 上的颜色相对应 样品按原产国着色,尽可能按地区分组(例如,加拿大和美国分组到北美;S7 表),如果点是从非西化 (J) 或西化 (K) 人群中抽样的,则强调点(较大且透明度较低)。D-G/ 每个 k 均值聚类内的平均轮廓得分(条形),根据 Jensen-Shannon 距离矩阵计算并跨聚类(粗线)。虚线:阈值,超过该阈值聚类强度为中等 [?]。
https://doi.org/10.1371/journal.pcbi.1010714.s022
(英文)
S1 表。 玩具数据集模拟中的平均随机森林精度和网络指标。
https://doi.org/10.1371/journal.pcbi.1010714.s023
(中新社)
S2 表。 用于将肠道细菌特征与人体肠道中甲烷杆菌科的存在相关联的样品的数据集和原产国。
https://doi.org/10.1371/journal.pcbi.1010714.s024
(中新社)
S3 表。 可用的样本元数据,用于将肠道细菌特征与人类肠道中甲烷杆菌科的存在相关联。
摘要:对于数值变量:最小 - 最大值(标准差±中位数和平均值)。对于分类变量:每个水平(水平中的样本数)。区域:区域对来自同一地理区域的国家/地区的样本进行分组。来自唯一地区的国家/地区使用其国家/地区名称进行指定,以防止混淆。
https://doi.org/10.1371/journal.pcbi.1010714.s025
(中新社)
S4 表。 经过训练以预测宏基因组中甲烷杆菌科存在的模型的预测性能。
样本:在所有样本的 CV 集上训练的模型(总共 n = 2203 个样本,训练 = 1542 个样本,测试 = 661 个样本),或者仅使用具有年龄、性别和 BMI 的完整元数据信息的样本集(总共 n = 748 个样本,训练 = 524 个样本,测试 = 224 个样本)。特征选择:特征选择算法及其调优参数 模型:使用游侠R包拟合随机森林(RF)[44];ntree = 250 和 500 进行了参数调整测试。梯度提升模型(XGBoost)使用XGBoost R包[46]进行装配;对 {10, 50, 100, 250, 500, 750, 1000, 1500} 中的 nround 和 {1, ...,10} 中的 max_depth 进行了超参数调整测试(仅给出具有最高平均 Cohen's kappa 的模型的结果)。提供样本权重以增加在每次引导时从代表性不足的类中抽样的概率。准确性、Cohen kappa 和所选特征数量:10 倍交叉验证 70–30% 训练测试集的平均 +/- 标准差。所选型号以粗体表示。
https://doi.org/10.1371/journal.pcbi.1010714.s026
(中新社)
S5 表。 在用于预测人类肠道微生物组中甲烷杆菌科的微生物特征的物种代表性基因组中寻找的基因。
https://doi.org/10.1371/journal.pcbi.1010714.s027
(中新社)
S6 表。 endoR从预测人类肠道微生物组中是否存在甲烷杆菌科的模型中提取的稳定决策集合。
https://doi.org/10.1371/journal.pcbi.1010714.s028
(中新社)
S7 表。 从 S6 表中的稳定决策集成中提取的单个变量的重要性和影响。还给出了分类法[121]。
https://doi.org/10.1371/journal.pcbi.1010714.s029
(中新社)
S8 表。 特征计数,按分类顺序分组,由endoR用于预测甲烷杆菌科的存在以及蒙特卡洛程序在此频率下使用的右尾p值。
https://doi.org/10.1371/journal.pcbi.1010714.s030
(中新社)
S9 表。 列出所有预定规则,用于从宏基因组数据中生成用于人工表型模拟的响应变量。
https://doi.org/10.1371/journal.pcbi.1010714.s031
(中新社)
S10 表。 来自人工表型的平均随机森林科恩 κ 和网络指标。
https://doi.org/10.1371/journal.pcbi.1010714.s032
(中新社)
S11 表。 用于计算 SHAP 的 endoR 和 iBreakDown R 包的计算时间和内存。
https://doi.org/10.1371/journal.pcbi.1010714.s033
(中新社)
S12 表。 endoR从RF模型中提取的稳定决策集成,该模型经过训练,可根据元数据和使用我们修改后的gRRF特征选择算法选择的分类群的相对丰度对Qin等人[41]数据集中的样本进行分类。
https://doi.org/10.1371/journal.pcbi.1010714.s034
(中新社)
S13 表。 从 S12 表中的稳定决策集成中提取的单个变量和变量对的重要性和影响。
https://doi.org/10.1371/journal.pcbi.1010714.s035
(中新社)
确认
我们感谢Sofia Esquivel-Elizondo关于氢化酶和产甲烷菌的讨论,感谢Jacobo de la Cuesta,Daphne Welter和Brandon Seah对手稿的反馈。我们还要感谢审稿人的见解。我们感谢所有开放数据和/或为开放科学做出贡献的人。开放数据共享使该项目成为可能。
引用
1.Nicholson JK, Holmes E, Kinross J, Burcelin R, Gibson G, Jia W, et al. 宿主-肠道微生物群代谢相互作用.科学(纽约州纽约)。2012;336(6086):1262–7.密码:22674330
查看文章PubMed/NCBI谷歌学术搜索
2.Costea PI, Hildebrand F, Arumugam M, B?ckhed F, Blaser MJ, Bushman FD, et al.肠道微生物群落组成景观中的肠型。自然微生物学。2018;3(1):8–16.密码:29255284
查看文章PubMed/NCBI谷歌学术搜索
3.Cani PD, Van Hul M, Lefort C, Depommier C, Rastelli M, Everard A. 有机体能量稳态的微生物调节。自然代谢。2019;1(1):34–46.pmid:32694818
查看文章PubMed/NCBI谷歌学术搜索
4.杜瓦莱特 C, 吉本斯 SM, 高锐 T, 伊里扎里 RA, 阿尔姆 EJ.肠道微生物组研究的荟萃分析确定了疾病特异性和共同的反应。自然通讯。2017;8(1):1–10.密码:29209090
查看文章PubMed/NCBI谷歌学术搜索
5.哈夫瓦森 J, 布里斯劳恩 CJ, 拉门德拉 R, 巴斯克斯-巴埃萨 Y, 沃尔特斯 WA, 布拉默 LM, 等.炎症性肠病中人类肠道微生物组的动态。自然微生物学。2017;2(5):1–7.密码:28191884
查看文章PubMed/NCBI谷歌学术搜索
6.Franzosa EA, McIver LJ, Rahnavard G, Thompson LR, Schirmer M, Weingart G, et al.宏基因组和宏转录组的物种水平功能分析。自然方法。2018;15(11):962–968.密码:30377376
查看文章PubMed/NCBI谷歌学术搜索
7.莱伊 RE, 巴克赫德 F, 特恩博 P, 洛祖波内 CA, 奈特 RD, 戈登 JI.肥胖会改变肠道微生物生态。美国国家科学院院刊.2005;102(31):11070–11075.密码:16033867
查看文章PubMed/NCBI谷歌学术搜索
8.特恩博 PJ, 莱伊 RE, 马霍瓦尔德马, 马格里尼五世, 马迪斯 ER, 戈登吉.一种与肥胖相关的肠道微生物组,具有增加的能量收集能力。自然界。2006;444(7122):1027–131.密码:17183312
查看文章PubMed/NCBI谷歌学术搜索
9.杰泽, 夏华, 钟思丽, 冯琪, 李淳, 梁思, 等.动脉粥样硬化性心血管疾病中的肠道微生物组。自然通讯.2017;8(1). pmid:29018189
查看文章PubMed/NCBI谷歌学术搜索
10.路易斯 P,霍尔德 GL,弗林特 HJ。肠道微生物群,细菌代谢物和结直肠癌。《自然》评论微生物学。2014;12(10):661–672.pmid:25198138
查看文章PubMed/NCBI谷歌学术搜索
11.Zeller G, Tap J, Voigt AY, Sunagawa S, Kultima JR, Costea PI, et al.粪便微生物群在结直肠癌早期检测中的潜力。分子系统生物学。2014;10(11):766.密码:25432777
查看文章PubMed/NCBI谷歌学术搜索
12.吴国淳, 金SM, 考西, 傅婷, 郭杰, 巴西里安, 等.一种通用的肠道微生物组衍生特征可预测肝硬化。细胞代谢。2020;32(5):878–888.pmid:32610095
查看文章PubMed/NCBI谷歌学术搜索
13.Thomas AM, Manghi P, Asnicar F, Pasolli E, Armanini F, Zolfo M, et al.结直肠癌数据集的宏基因组分析确定了跨队列微生物诊断特征以及与胆碱降解的联系。自然医学。2019;25(4):667–678.密码:30936548
查看文章PubMed/NCBI谷歌学术搜索
14.Wirbel J, Pyl PT, Kartal E, Zych K, Kashani A, Milanese A, et al.粪便宏基因组的荟萃分析揭示了结直肠癌特异性的全球微生物特征。自然医学。2019;25(4):679–689.密码:30936547
查看文章PubMed/NCBI谷歌学术搜索
15.Knights D,Costello EK,Knight R.人类微生物群的监督分类。FEMS 微生物学评论。2011;35(2):343–359.pmid:21039646
查看文章PubMed/NCBI谷歌学术搜索
16.奈特 R, 弗尔巴纳克 A, 泰勒 BC, 阿克谢诺夫 A, 卡勒瓦尔特 C, 德贝柳斯 J, 等.分析微生物组的最佳实践。自然评论微生物学。2018;16(7):410–422.密码:29795328
查看文章PubMed/NCBI谷歌学术搜索
17.Top?uo?lu BD, Lesniak NA, Ruffin MT, Wiens J, Schloss PD.将机器学习有效应用于基于微生物组的分类问题的框架。姆比奥。2020;11(3).密码:32518182
查看文章PubMed/NCBI谷歌学术搜索
18.周永华, 加林斯·微生物组宿主性状预测的机器学习方法的回顾和教程。遗传学前沿。2019;10:579.pmid:31293616
查看文章PubMed/NCBI谷歌学术搜索
19.布雷曼 L. 随机森林。机器学习。2001;45(1):5–32.
查看文章谷歌学术搜索
20.哈斯蒂 T, 蒂布希拉尼 R, 弗里德曼 J.统计学习的要素:数据挖掘、推理和预测。纽约:施普林格科学与商业媒体;2009.
21.邓H,Runger G.引导正则随机森林的基因选择。模式识别。2013;46(12):3483–3489.
查看文章谷歌学术搜索
22.Oudah M,Henschel A.用于微生物组分类的分类学感知特征工程。BMC生物信息学。2018;19(1):1–13.密码:29907097
查看文章PubMed/NCBI谷歌学术搜索
23.Zaim SR, Kenost C, Berghout J, Chiu W, Wilson L, Zhang HH, et al. 二项式RF:随机森林的可解释组合效率,以识别生物标志物相互作用。BMC生物信息学。2020;21(1):1–22.pmid:33138767
查看文章PubMed/NCBI谷歌学术搜索
24.库尔萨 MB, 鲁德尼基 WR, et al.使用博鲁塔包进行功能选择。J 统计软件。2010;36(11):1–13.
查看文章谷歌学术搜索
25.Breiman L, Cutler A. Manual on Setup, Use, and Understanding Random Forest, ver. 4.0;2003. 可用: https://www.stat.berkeley.edu/~breiman/RandomForests/cc_home.htm.
26.艾丹, 潘华, 韩蓉, 李旭, 刘刚, 夏立.使用决策树聚合和随机森林模型来识别与结直肠癌相关的肠道微生物。基因。2019;10(2):112.邮编:30717284
查看文章PubMed/NCBI谷歌学术搜索
27.Shah RD, Meinshausen N. 随机交叉路口树。机器学习研究杂志。2014;15(1):629–654.
查看文章谷歌学术搜索
28.伦德伯格 S, 李思.解释模型预测的统一方法。arXiv预印本arXiv:170507874。2017;.
29.Basu S, Kumbier K, Brown JB, Yu B. 迭代随机森林以发现预测性和稳定的高阶交互作用。美国国家科学院院刊.2018;115(8):1943–1948.密码:29351989
查看文章PubMed/NCBI谷歌学术搜索
30.Biecek P. DALEX:R中复杂预测模型的解释者。机器学习研究杂志。2018;19(1):3245–3249.
查看文章谷歌学术搜索
31.Gou W, Ling Cw, He Y, Jiang Z, Fu Y, Xu F, et al. 可解释的机器学习框架揭示了与2型糖尿病相关的强大的肠道微生物组特征。糖尿病护理。2021;44(2):358–366.密码:33288652
查看文章PubMed/NCBI谷歌学术搜索
32.沙普利·n人游戏的值。对博弈论的贡献。1953;2(28):307–317.
查看文章谷歌学术搜索
33.孙达拉拉詹 M, 纳吉米·用于模型解释的许多 Shapley 值。在:机器学习国际会议。PMLR;2020.第9269–9278页。
34.戈谢夫斯卡, 比切克·不要相信加法解释。arXiv.2019;.
35.伦德伯格 SM, 埃里昂 G, 陈 H, 德格雷夫 A, 普鲁特金 JM, 奈尔 B, 等.从本地解释到全球理解,以及可解释的树木 AI。自然机器智能。2020;2(1):56–67.密码:32607472
查看文章PubMed/NCBI谷歌学术搜索
36.Basu S, Kumbier K, Brown JB, Yu B. 迭代随机森林以发现预测性和稳定的高阶交互作用。美国国家科学院院刊.2018;115(8):1943–1948.密码:29351989
查看文章PubMed/NCBI谷歌学术搜索
37.弗里德曼JH,波佩斯库BE。通过规则融合进行预测学习。安应用统计 2008;2(3):916–954.
查看文章谷歌学术搜索
38.邓H.用inTrees解释树系综。国际数据科学与分析杂志。2019;7(4):277–287.
查看文章谷歌学术搜索
39.Jiang Y, Biecek P, Paluszyńska O, agasitko, Kobylinska K. 面向模型/随机森林解释器: CRAN 版本 0.10.1;2020. 可从: https://doi.org/10.5281/zenodo.3941250.
40.Pasolli E, Schiffer L, Manghi P, Renson A, Obenchain V, Truong DT, et al.通过 ExperimentHub 访问、精心策划的宏基因组数据。自然方法。2017;14(11):1023.密码:29088129
查看文章PubMed/NCBI谷歌学术搜索
41.秦霓, 杨芳, 李阿, 普里夫提, 陈莹, 邵玲, 等.肝硬化中人类肠道微生物组的改变。自然界。2014;513(7516):59–64.密码:25079328
查看文章PubMed/NCBI谷歌学术搜索
42.Bajer L, Kverka M, Kostovcik M, Macinga P, Dvorak J, Stehlikova Z, et al.原发性硬化性胆管炎和溃疡性结肠炎患者具有不同的肠道菌群特征。世界胃肠病学杂志。2017;23(25):4548.密码:28740343
查看文章PubMed/NCBI谷歌学术搜索
43.廖 A, 维纳 M, 等.随机森林的分类和回归。R新闻.2002;2(3):18–22.
查看文章谷歌学术搜索
44.Wright MN,Ziegler A. ranger:C++中高维数据的随机森林快速实现和R.统计软件杂志。2017;77(1).
查看文章谷歌学术搜索
45.格林威尔 B, 博姆克 B, 坎宁安 J, 开发人员 G. GBM: 广义提升回归模型;2020. 可用: https://cran.r-project.org/package=gbm.
46.Chen T, Guestrin C. Xgboost:一个可扩展的树木提升系统。在:第22届ACM sigkdd知识发现和数据挖掘国际会议论文集;2016.第785–794页。
47.弗里德曼 J, 阿尔姆 EJ.从基因组调查数据推断相关网络。公共科学图书馆计算生物学. 2012;8(9):e1002687。pmid:23028285
查看文章PubMed/NCBI谷歌学术搜索
48.Biecek P, Burzykowski T. 解释模型分析;2020. https://pbiecek.github.io/ema/preface.html.
49.Loomba R, Seguritan V, Li W, Long T, Klitgord N, Bhatt A, et al. 基于肠道微生物组的宏基因组特征用于非侵入性检测人类非酒精性脂肪肝病晚期纤维化。细胞代谢。2017;25(5):1054–1062.e5.pmid:28467925
查看文章PubMed/NCBI谷歌学术搜索
50.马尔尚丁 H, 朱马斯-比拉克 E, 盖伊 B, 泰西耶 C, 让-皮埃尔 H, 西蒙·德布奇伯格 M, 等.从人类临床标本中分离出的一些孢子虫亚支成员的系统发育分析:Megasphaera micronuciformis sp. nov.国际系统与进化微生物学杂志。2003;53(2):547–553.pmid:12710625
查看文章PubMed/NCBI谷歌学术搜索
51.Dewhirst FE, Chen T, Izard J, Paster BJ, Tanner AC, Yu WH, et al.人类口腔微生物组。细菌学杂志。2010;192(19):5002–5017.pmid:20656903
查看文章PubMed/NCBI谷歌学术搜索
52.刘斌, 法勒, 克里特戈德, 马宗达尔五世, 戈德西 M, 索默 DD, 等.口腔微生物组的深度测序揭示了牙周病的特征。普洛斯一。2012;7(6):e37919.密码:22675498
查看文章PubMed/NCBI谷歌学术搜索
53.Tibshirani R.通过套索的回归收缩和选择。皇家统计学会杂志:B系列(方法学)。1996;58(1):267–288.
查看文章谷歌学术搜索
54.Borrel G, McCann A, Deane J, Neto MC, Lynch DB, Brugère JF, et al.人类肠道微生物组中利用三甲胺的古菌的基因组学和宏基因组学。ISME期刊。2017;11(9):2059–2074.密码:28585938
查看文章PubMed/NCBI谷歌学术搜索
55.霍夫曼 C, 多利夫 S, 格伦伯格 S, 陈 J, 李 H, 吴 GD, 等.人类肠道微生物组的古菌和真菌:与饮食和细菌居民的相关性。公共图书馆一号。2013;8(6):e66019。密码:23799070
查看文章PubMed/NCBI谷歌学术搜索
56.里奇利克、梅·产甲烷菌 Methanobrevibacter smithii 对三种主要瘤胃纤维素分解细菌的生长速率、有机酸产生和特异性 ATP 活性的影响。当前微生物学。2000;40(3):176–180.密码:10679049
查看文章PubMed/NCBI谷歌学术搜索
57.Chassard C,Bernalier-Donadille A. H2和乙酸盐在产生丁酸盐的木糖分解物种和来自人体肠道的养氢微生物之间发酵期间转移。FEMS 微生物学快报。2006;254(1):116–122.密码:16451188
查看文章PubMed/NCBI谷歌学术搜索
58.Ruaud A, Esquivel-Elizondo S, de la Cuesta-Zuluaga J, Waters JL, Angenent LT, Youngblut ND, et al.通过克里斯滕塞氏菌和甲氧杆菌之间的种间H2转移的合成是它们在人类肠道中的全球重合的基础。移动生物。2020;11(1).密码:32019803
查看文章PubMed/NCBI谷歌学术搜索
59.Goodrich JK, Waters JL, Poole AC, Sutter JL, Koren O, Blekhman R, et al.人类遗传学塑造了肠道微生物组。细胞。2014;6(1594):789–79909.密码:25417156
查看文章PubMed/NCBI谷歌学术搜索
60.Hansen EE, Lozupone CA, Rey FE, Wu M, Guruge JL, Narra A, et al.在双胞胎中研究了占主导地位的人类肠道相关古细菌Methanobrevibacter smithii的泛基因组。美国国家科学院院刊.2011. pmid:21317366
查看文章PubMed/NCBI谷歌学术搜索
61.Upadhyaya B, McCormack L, Fardin-Kia AR, Juenemann R, Nichenametla S, Clapper J, et al.膳食抗性淀粉4型对人体肠道微生物群和免疫代谢功能的影响。科学报告。2016;6:1–12.pmid:27356770
查看文章PubMed/NCBI谷歌学术搜索
62.Klimenko N, Tyakht A, Popenko A, Vasiliev A, Altukhov I, Ischenko D, et al. 微生物组对公民科学项目框架内不受控制的短期饮食干预的反应。营养素。2018;10(5):576.pmid:29738477
查看文章PubMed/NCBI谷歌学术搜索
63.查萨德 C, 德尔马斯 E, 罗伯特 C, 伯纳利尔-多纳迪尔 A.人体肠道中纤维素降解的微生物群落根据产甲烷菌的存在与否而变化。FEMS 微生物生态学。2010;74(1):205–213.密码:20662929
查看文章PubMed/NCBI谷歌学术搜索
64.Arumugam M, Raes J, Pelletier E, Le Paslier D, Yamada T, Mende DR, et al.人类肠道微生物组的肠型。自然界。2011;473(7346):174–180.密码:21508958
查看文章PubMed/NCBI谷歌学术搜索
65.Kunkel D, Basseri RJ, Makhani MD, Chong K, Chang C, Pimentel M. 呼气测试中的甲烷与便秘有关:系统评价和荟萃分析。消化系统疾病与科学。2011;56(6):1612–1618.密码:21286935
查看文章PubMed/NCBI谷歌学术搜索
66.Wolf PG, Parthasarathy G, Chen J, O'Connor HM, Chia N, Bharucha AE, et al.评估结肠微生物组,致氢和氢营养基因,便秘中的运输和呼吸甲烷。神经胃肠病学和运动。2017;第 E13056 页。密码:28295896
查看文章PubMed/NCBI谷歌学术搜索
67.Obregon-Tito AJ, Tito RY, Metcalf J, Sankaranarayanan K, Clemente JC, Ursell LK, et al.传统社会中的生存策略区分肠道微生物组。自然通讯.2015;6(1):6505.密码:25807110
查看文章PubMed/NCBI谷歌学术搜索
68.曼卡贝利 L, 米兰尼 C, 卢格利 GA, 图罗尼 F, 法拉里奥 C, 范辛德伦 D, 等.来自城市化和农业前人群的人类肠道微生物组的荟萃分析。环境微生物学。2017;19(4):1379–1390.密码:28198087
查看文章PubMed/NCBI谷歌学术搜索
69.德拉奎斯塔-祖鲁阿加 J, 科拉莱斯-阿古德洛五世, 委拉斯开兹-梅希亚 EP, 卡莫纳 JA, 阿巴德 JM, 埃斯科瓦尔 JS.肠道微生物群与西化人群中的肥胖和心脏代谢疾病有关。科学报告。2018;8(1):11356.密码:30054529
查看文章PubMed/NCBI谷歌学术搜索
70.Mack I, Cuntz U, Gr?mer C, Niedermaier S, Pohl C, Schwiertz A, et al.神经性厌食症患者的体重增加并不能改善粪便微生物群、支链脂肪酸谱和胃肠道不适。科学报告。2016;6:26752.密码:27229737
查看文章PubMed/NCBI谷歌学术搜索
71.Armougom F,Henry M,Vialettes B,Raccah D,Raoult D.监测人类肠道微生物群的细菌群落显示肥胖患者的乳酸杆菌和厌食症患者的产甲烷菌增加。普洛斯一。2009;4(9):e7125.pmid:19774074
查看文章PubMed/NCBI谷歌学术搜索
72.百万 M, 马拉宁奇 M, 亨利 M, 阿穆戈姆 F, 里切特 H, 卡利利 P, 等.肥胖相关的肠道微生物群在罗伊氏乳杆菌中富集,在动物双歧杆菌和史密斯双歧杆菌中耗尽。国际肥胖杂志。2012;36(6):817–825.密码:21829158
查看文章PubMed/NCBI谷歌学术搜索
73.施维尔茨 A, 塔拉斯 D, 舍费尔 K, 贝耶尔 S, 博斯 NA, 多纳斯 C, 等.瘦和超重健康受试者的微生物群和SCFA。肥胖。2010;18(1):190–195.pmid:19498350
查看文章PubMed/NCBI谷歌学术搜索
74.伊格纳西奥 A, 费尔南德斯 MR, 罗德里格斯 VAA, 格罗波足球俱乐部, 卡多索 AL, 阿维拉-坎波斯 MJ, 等.儿童体重指数与粪便微生物群之间的相关性。临床微生物学和感染。2016;22(3):1–258.密码:26551842
查看文章PubMed/NCBI谷歌学术搜索
75.卡马拉 A, 科纳特 S, 蒂贾尼·阿卢 M, 科迪奥 A, 多哥 AH, 科尔塔雷多纳 S, 等.史密斯甲诺布雷维杆菌在严重急性营养不良中的作用的临床证据。科学报告。2021;11(1):5426.密码:33686095
查看文章PubMed/NCBI谷歌学术搜索
76.Mbakwa CA, Penders J, Savelkoul PH, Thijs C, Dagnelie PC, Mommers M, et al.史密斯甲氧杆菌的肠道定植与儿童体重发育有关。肥胖。2015;23(12):2508–2516.密码:26524691
查看文章PubMed/NCBI谷歌学术搜索
77.张华, 迪贝兹, 祖科洛, 库德纳, 布莱多蒂, 于萍, 等.肥胖和胃旁路术后的人类肠道微生物群。美利坚合众国国家科学院院刊。2009;106(7):2365–70.密码:19164560
查看文章PubMed/NCBI谷歌学术搜索
78.Turnbaugh PJ, Hamady M, Yatsunenko T, Cantarel BL, Duncan A, Ley RE, et al.肥胖和瘦双胞胎的核心肠道微生物组。自然界。2009;457.密码:19043404
查看文章PubMed/NCBI谷歌学术搜索
79.波普金·低收入国家的营养转型及其对健康的影响。公共卫生营养。1998;1(1):5–21.密码:10555527
查看文章PubMed/NCBI谷歌学术搜索
80.帕索利 E, 阿斯尼卡尔 F, 马纳拉 S, 佐尔福 M, 卡彻 N, 阿尔马尼尼 F, 等.来自跨越年龄、地理和生活方式的宏基因组的 150,000 多个基因组揭示了广泛的未开发人类微生物组多样性。细胞。2019;176(3):649–662.密码:30661755
查看文章PubMed/NCBI谷歌学术搜索
81.惠伦 S, 施赖伯 J, 诺布尔 WS, 波拉德 KS.探索在基因组学中应用机器学习的陷阱。自然评论遗传学。2021;第1-13页。pmid:34837041
查看文章PubMed/NCBI谷歌学术搜索
82.鱼 JA, 柴 B, 王 Q, 孙 Y, 布朗 CT, 铁杰 JM, 等.FunGene:功能性基因管道和存储库。微生物学前沿。2013;4:291.密码:24101916
查看文章PubMed/NCBI谷歌学术搜索
83.Singh A, Müller B, Fuxelius HH, Schnürer A. AcetoBase:甲酰四氢叶酸合成酶序列的功能基因存储库和数据库。数据库。2019;2019.密码:31832668
查看文章PubMed/NCBI谷歌学术搜索
84.S?ndergaard D,Pedersen CN,Greening C. HydDB:用于氢化酶分类和分析的网络工具。科学报告。2016;6(1):1–8.pmid:27670643
查看文章PubMed/NCBI谷歌学术搜索
85.Greathouse KL,Sinha R,Vogtmann E.用于人类微生物组研究的DNA提取:标准化问题。基因组生物学。2019;20(1):1–4.pmid:31639026
查看文章PubMed/NCBI谷歌学术搜索
86.Dridi B,Henry M,El Khechine A,Raoult D,Drancourt M.使用改进的DNA检测方案在人类肠道中检测到Methanobrevibacter smithii和Methanosphaera stadtmanae的高患病率。普洛斯一。2009;4(9):e7063.密码:19759898
查看文章PubMed/NCBI谷歌学术搜索
87.凯莱菲亚 S, 拉莫内特 PY, 巴菲特 MB, 德兰库尔特 M.一种从粪便中提取古菌DNA的半自动方案。BMC研究笔记。2013;6(1):1–3.pmid:23651536
查看文章PubMed/NCBI谷歌学术搜索
88.Korotkevich G,Sukhov V,Budin N,Shpak B,Artyomov MN,Sergushichev A.快速基因集富集分析。生物Rxiv。2021.
查看文章谷歌学术搜索
89.吉布森 G, 卡明斯 J, 麦克法兰 G, 艾莉森 C, 西格尔 I, 沃斯特 H, 等.在人结肠发酵过程中处理氢气的替代途径。肠。1990;31(6):679–683.pmid:2379871
查看文章PubMed/NCBI谷歌学术搜索
90.史密斯NW,肖顿公关,阿尔特曼EH,罗伊NC,麦克纳布WC。人类胃肠道的氢交叉喂食器。肠道微生物。2019;10(3):270–288.密码:30563420
查看文章PubMed/NCBI谷歌学术搜索
91.Meinshausen N, Bühlmann P. 稳定性选择.《皇家统计学会杂志》:B辑(统计方法)。2010;72(4):417–473.
查看文章谷歌学术搜索
92.Wong CW, Yost SE, Lee JS, Gillece JD, Folkerts M, Reining L, et al.使用可解释的机器学习分析肠道微生物组预测与酪氨酸激酶抑制剂奈拉替尼相关的腹泻风险:一项试点研究。肿瘤学前沿。2021;11:283.密码:33796451
查看文章PubMed/NCBI谷歌学术搜索
93.Carrieri AP, Haiminen N, Maudsley-Barton S, Gardiner LJ, Murphy B, Mayes AE, et al.可解释的人工智能揭示了与表型差异相关的皮肤微生物组组成的变化。科学报告。2021;11(1):1–18.密码:33633172
查看文章PubMed/NCBI谷歌学术搜索
94.牙周病和肝硬化:系统评价。鼠尾草开放医学。2015;3:2050312115601122.密码:26770799
查看文章PubMed/NCBI谷歌学术搜索
95.Nayfach S, Shi ZJ, Seshadri R, Pollard KS, Kyrpides NC.来自全球人类肠道微生物组未开垦基因组的新见解。自然界。2019;568(7753):505–510.pmid:30867587
查看文章PubMed/NCBI谷歌学术搜索
96.王毅, 黄建军, 周玉, 阿尔梅达, 芬恩, 丹钦, 等.扩展的未培养环境特内菌纲的系统发育组学提供了对其致病性和与杆菌进化关系的见解。BMC 基因组学。2020;21(1):1–12.pmid:32552739
查看文章PubMed/NCBI谷歌学术搜索
97.Liebgott PP, Leroux F, Burlat B, Dementin S, Baffert C, Lautier T, et al.与沿底物隧道的扩散和氢化酶中的氧敏感性有关。自然化学生物学。2010;6(1):63–70.密码:19966788
查看文章PubMed/NCBI谷歌学术搜索
98.Thauer RK,Kaster AK,Seedorf H,Buckel W,Hedderich R.产甲烷古菌:节能的生态相关差异。自然评论微生物学。2008;6(8):579–591.pmid:18587410
查看文章PubMed/NCBI谷歌学术搜索
99.Greening C, Biswas A, Carere CR, Jackson CJ, Taylor MC, Stott MB, et al.氢化酶分布的基因组和宏基因组调查表明,H 2是微生物生长和存活的广泛使用的能量来源。ISME期刊。2016;10(3):761–777.密码:26405831
查看文章PubMed/NCBI谷歌学术搜索
100.Rigottier-Gois L.炎症性肠病中的生态失调:氧气假说。ISME期刊。2013;7(7):1256–1261.密码:23677008
查看文章PubMed/NCBI谷歌学术搜索
101.Henson MA,Phalak P.炎症性肠病中的微生物群失调:氧气假说的计算机研究。BMC 系统生物学。2017;11(1):1–15.密码:29282051
查看文章PubMed/NCBI谷歌学术搜索
102.Litvak Y, Byndloss MX, B?umler AJ.结肠细胞代谢塑造肠道微生物群。科学。2018;362 (6418).密码:30498100
查看文章PubMed/NCBI谷歌学术搜索
103.Ghavami SB, Rostami E, Sephay AA, Shahrokh S, Balaii H, Aghdaei HA, et al.改变人类肠道 Methanobrevibacter smithii 作为炎症性肠病的生物标志物。微生物发病机制。2018;117:285–289.密码:29477743
查看文章PubMed/NCBI谷歌学术搜索
104.Scanlan PD,Shanahan F,Marchesi Jr.使用mcrA基因分析的健康和患病结肠组中的人类产甲烷多样性和发病率。BMC 微生物学。2008;8(1):1–8.密码:18492229
查看文章PubMed/NCBI谷歌学术搜索
105.帕斯卡 V, 波苏埃洛 M, 博鲁埃尔 N, 卡塞拉斯 F, 坎波斯 D, 圣地亚哥 A, 等.克罗恩病的微生物特征。肠。2017;66(5):813–822.密码:28179361
查看文章PubMed/NCBI谷歌学术搜索
106.戈夫纳U,科尼科夫T,尼尔森HB。振荡螺旋体和相关细菌——从宏基因组物种到代谢特征。环境微生物学。2017;19(3):835–841.密码:28028921
查看文章PubMed/NCBI谷歌学术搜索
107.苏亚雷斯ACF,莱德曼HM,法贡德斯-内托U,德莫赖斯MB。呼吸甲烷与慢性便秘患儿结肠转运时间缓慢有关。临床胃肠病学杂志。2005;39(6):512–515.密码:15942438
查看文章PubMed/NCBI谷歌学术搜索
108.Attaluri A, Jackson M, Paulson J, Rao SS. 产甲烷菌群与结肠运输改变有关,但在没有IBS的便秘中与粪便特征无关。美国胃肠病学杂志。2010;105(6).密码:19953090
查看文章PubMed/NCBI谷歌学术搜索
109.皮门特尔 M, 林 HC, Enayati P, van den Burg B, Lee HR, Chen JH, et al.甲烷是一种由肠道细菌产生的气体,可减缓肠道运输并增加小的肠道收缩活动。美国生理学杂志-胃肠道和肝脏生理学。2006;290(6):G1089–G1095.pmid:16293652
查看文章PubMed/NCBI谷歌学术搜索
110.德拉奎斯塔-祖鲁阿加 J, 科拉莱斯-阿古德洛五世, 委拉斯开兹-梅希亚 EP, 卡莫纳 JA, 阿巴德 JM, 埃斯科瓦尔 JS.肠道微生物群与西化人群中的肥胖和心脏代谢疾病有关。科学报告。2018;8(1):1–14.
查看文章谷歌学术搜索
111.马丁内斯一世, 斯泰根 JC, 马尔多纳多-戈麦斯 MX, 艾伦 AM, 西巴 PM, 格林希尔 AR, 等.巴布亚新几内亚农村人的肠道微生物群:组成,多样性模式和生态过程。细胞报告。2015;11(4):527–538.pmid:25892234
查看文章PubMed/NCBI谷歌学术搜索
112.克莱门特 JC, 佩尔森 EC, 布拉泽 MJ, 桑德胡 K, 高 Z, 王 B, 等.未接触的美洲印第安人的微生物组。科学进步。2015;1(3):e1500183.pmid:26229982
查看文章PubMed/NCBI谷歌学术搜索
113.Draper NR,Smith H.应用回归分析。第326卷.纽约:约翰·威利父子;1998.
114.科恩·标称比例的一致系数。教育和心理测量。1960;20(1):37–46.
查看文章谷歌学术搜索
115.扬布鲁特 ND, 德拉奎斯塔-祖鲁阿加 J, 莱伊·将基于基因组的系统发育和性状相似性纳入多样性评估有助于解决人类肠道宏基因组的全球集合。生物Rxiv。2020;.
查看文章谷歌学术搜索
116.Friedman J, Hastie T, Tibshirani R. 通过坐标下降的广义线性模型的正则化路径。统计软件学报.2010;33(1):1.pmid:20808728
查看文章PubMed/NCBI谷歌学术搜索
117.阿布巴克 S, 塞加塔 N, 戈尔 J, 舒伯特 AM, 伊扎德 J, 坎塔雷尔 BL, 等.宏基因组数据的代谢重建及其在人类微生物组中的应用。公共科学图书馆计算生物学。2012;8(6):e1002358。密码:22719234
查看文章PubMed/NCBI谷歌学术搜索
118.Caspi R, Billington R, Keseler IM, Kothari A, Krummenacker M, Midford PE, et al.代谢途径和酶的MetaCyc数据库-2019年更新。核酸研究。2020;48(D1):D 445–D453.密码:31586394
查看文章PubMed/NCBI谷歌学术搜索
119.Wood DE, Lu J, Langmead B. 使用Kraken 2改进的宏基因组分析。基因组生物学。2019;20(1):1–13.密码:31779668
查看文章PubMed/NCBI谷歌学术搜索
120.Lu J, Breitwieser FP, Thielen P, Salzberg SL. Bracken:估计宏基因组学数据中的物种丰度。PeerJ 计算机科学。2017;3:e104.
查看文章谷歌学术搜索
121.Chaumeil PA, Mussig AJ, Hugenholtz P, Parks DH.GTDB-Tk:使用基因组分类数据库对基因组进行分类的工具包。生物信息学。2019;36(6):1925–1927.密码:31730192
查看文章PubMed/NCBI谷歌学术搜索
122.德拉奎斯塔-祖鲁阿加 J, 莱伊 RE, 扬布鲁特 ND.Struo:用于为常见宏基因组分析器构建自定义数据库的管道。生物信息学。2020;36(7):2314–2315.密码:31778148
查看文章PubMed/NCBI谷歌学术搜索
123.Friedman J, Hastie T, Tibshirani R. 使用图形套索进行稀疏逆协方差估计。生物统计学。2008;9(3):432–441.密码:18079126
查看文章PubMed/NCBI谷歌学术搜索
124.库尔茨 ZD, 穆勒 CL, 米拉尔迪 ER, 利特曼 DR, 布拉泽 MJ, 邦诺 RA.微生物生态网络的稀疏和组成稳健的推断。公共科学图书馆计算生物学. 2015;11(5):e1004226.密码:25950956
查看文章PubMed/NCBI谷歌学术搜索
125.伦德伯格 SM, 奈尔 B, 瓦维拉拉 MS, 霍里贝 M, 艾塞斯 MJ, 亚当斯 T, 等.用于预防手术期间低氧血症的可解释机器学习预测。自然生物医学工程 2018;2(10):749–760.密码:31001455
查看文章PubMed/NCBI谷歌学术搜索
126.刘妍,只是A. SHAPforxgboost:SHAP Plot for 'XGBoost';2020. 可从: https://github.com/liuyanguu/SHAPforxgboost/.
127.布赫芬克 B, 谢 C, 休森 DH.使用DIAMOND进行快速灵敏的蛋白质比对。自然方法。2015;12(1):59–60.密码:25402007
查看文章PubMed/NCBI谷歌学术搜索
128.R 核心团队。R:统计计算的语言和环境;2020. 可用: https://www.R-project.org/.