免费医学论文发表-使用机器学习鉴定酒精相关肝病的综合蛋白质组学和转录组学特征
抽象
区分酒精相关性肝炎 (AH) 和酒精相关性肝硬化 (AC) 仍然是一个诊断挑战。在这项研究中,我们使用机器学习以及来自肝组织和外周单核细胞 (PBMC) 的转录组学和蛋白质组学数据对酒精相关性肝病患者进行分类。研究中的条件是AH、AC和健康对照。我们处理了 98 个 PBMC RNAseq 样本、55 个 PBMC 蛋白质组学样本、48 个肝脏 RNAseq 样本和 53 个肝脏蛋白质组学样本。首先,我们为转录组学和蛋白质组学数据建立了单独的分类和特征选择管道。肝组织模型在独立的肝组织数据集中进行了验证。接下来,我们建立了整合的基因和蛋白质表达模型,使我们能够识别组合的基因-蛋白质生物标志物组合。对于肝组织,我们使用转录组数据在我们的数据集中达到了 90% 的嵌套交叉验证准确率,在独立验证数据集中达到了 82% 的准确率。使用蛋白质组学数据,我们在数据集中实现了 100% 的嵌套交叉验证准确率,在独立验证数据集中实现了 61% 的准确率。对于PBMC,我们在转录组学和蛋白质组学数据方面的准确率分别达到83%和89%。两种数据类型的整合提高了PBMC的分类准确性,但肝组织的分类精度却没有提高。我们还在基因-蛋白质生物标志物组合中鉴定了以下基因-蛋白质匹配:用于肝组织的 CLEC4M-CLC4M、GSTA1-GSTA2 和用于 PBMC 的 SELENBP1-SBP1。在这项研究中,机器学习模型对肝组织和PBMC的转录组学和蛋白质组学数据都具有很高的分类准确性。将转录组学和蛋白质组学整合到多组学模型中,提高了PBMC数据的分类准确性。PBMC的一组综合基因-蛋白质生物标志物显示出开发酒精相关肝病液体活检的希望。
作者摘要
酒精相关性肝硬化和酒精相关性肝炎在临床上可能难以分类。以前,我们确定可以使用从肝组织活检或从血液样本中提取的外周血单核细胞 (PBMC) 收集的 RNA 测序基因表达数据来区分这两种疾病。在目前的研究中,我们研究了除了基因表达数据之外,使用蛋白质表达数据是否会提高我们的机器学习模型区分两种酒精相关肝病的能力,并能够识别基因和蛋白质生物标志物。我们发现,我们的模型准确地对每种数据类型中的酒精相关肝病进行了分类。我们还能够识别出有前途的组织和基于血液的诊断基因和蛋白质生物标志物。此外,我们已经证明,通过仔细应用适当的软件、生物信息学和机器学习方法,可以解决分析小样本量、高维基因组数据方面存在的挑战。通过将这些计算方法应用于该肝病基因组学数据集,我们已经确定了基于血液的肝病诊断生物标志物,这可能有助于开发高精度的血液检测,以取代侵入性肝活检。
数字
表4表5表1表2表3图1图2图3表4表5表1表2表3
引文: Listopad S、Magnan C、Day LZ、Asghar A、Stolz A、Tayek JA 等人(2024 年)使用机器学习鉴定酒精相关肝病的综合蛋白质组学和转录组学特征。PLOS 数字健康 3(2): 编号:E0000447。 https://doi.org/10.1371/journal.pdig.0000447
编辑 器: Nicole Yee-Key Li-Jessen,加拿大麦吉尔大学
收到: 2023年9月8日;接受: 2024年1月9日;发表: 2月 9, 2024
这是一篇开放获取的文章,不受任何版权保护,任何人都可以出于任何合法目的自由复制、分发、传播、修改、构建或以其他方式使用。该作品在知识共享 CC0 公有领域奉献下提供。
数据可用性: 本研究中的人类 RNA 原始测序数据需要存入国家生物技术信息中心(美国国家医学图书馆)的基因型和表型数据库 (dbGAP),并具有受控访问权。数据将通过dbGaP(https://www.ncbi.nlm.nih.gov/gap/)提供,登录号为:phs003112.v1.p1。本研究中用于验证的公共RNA数据可在GEO数据库的登录号GSE142530(https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE142530)下获得。蛋白质组学数据可以在MassIVE存储库的登录号MSV000089168下找到。
资金: 这项研究的资金由美国国家酒精滥用和酒精中毒研究所 (NIAAA, https://www.niaaa.nih.gov/) 提供给南加州酒精性肝炎联盟 (SCAHC) 的研究人员:U01AA021838 (TMNK)、U01AA021886 (TRM)、U01AA021884 (TRM)、U01AA021918 (JMJ) 和 U01AA021857 (ZXL)。资助者在研究设计、数据收集和分析、发表决定或手稿准备方面没有任何作用。
利益争夺: 提交人声明不存在相互竞争的利益。
介绍
在这项研究中,我们专注于酒精相关性肝炎 (AH) 和酒精相关性肝硬化 (AC),因为它们是具有相似临床表现的致命肝脏疾病。2019年,美国有23,780例死于酒精相关性肝硬化(alcohol-associated cirhesis, AC)[1]。这是1999年酒精相关性肝硬化死亡人数的三倍多。酒精相关性肝病(alcohol-associated liver disease, ALD)患者占肝移植的18%[2]。然而,作为酒精性肝病患者进行肝移植是很困难的,因为供体肝脏稀缺,并且存在对酒精成瘾个体分配的担忧[2]。通常,需要戒酒6个月才能成为肝移植的候选者[2]。许多酒精性肝病患者存在酒精相关性肝炎(alcohol-associated hepatitis, AH),这种疾病在3个月时死亡率高达50%[3]。对于重度AH患者,6个月的禁欲要求可能等同于死刑[2]。如果仔细选择,ALD患者可以从肝移植中获益[4,5,6,7]。目前,确定AH诊断可能需要肝活检,通常使用经颈静脉途径进行[3]。肝活检有几个局限性,例如内出血的手术风险、高成本和患者不满意。因此,开发一种能够可靠地区分 AH 和 AC 的非侵入性测试将是有益的。目前,有大量的影像学和血液检查用于诊断肝硬化[8]。然而,肝活检仍然是目前的诊断标准[9]。为了减少肝活检的需要,需要进一步提高非侵入性检查的准确性[10]。
在之前的一项研究中,我们确定来自肝组织和外周单核细胞(PBMC)的基因表达生物标志物可以与多类机器学习方法一起使用,以成功区分多种肝脏疾病[11]。在本研究中,除了转录组学数据外,我们还获得了同一队列参与者的蛋白质组学数据[12]。蛋白质组学数据的增加带来了新的机会,但也进一步增加了特征大小与样本大小的比率。这使得过拟合比我们仅使用基因表达数据时面临更大的挑战。首先,我们比较了基因和蛋白质生物标志物可用于分别对这些疾病进行分类的程度。然后,我们研究了通过结合转录组学和蛋白质组学数据是否可以进一步提高分类准确性。作为分类过程的一部分,我们已经确定了酒精相关肝病最有效的基因和蛋白质生物标志物。我们还检查了三种情况下顶级差异表达蛋白和基因之间的一致性程度。本研究中确定的基因和蛋白质生物标志物经过进一步验证,可用于开发新的高精度血液测试,以区分各种类型的酒精性肝病。
材料和方法
研究人群
这项研究主要使用从南加州酒精性肝炎联盟 (SCAHC) 招募的参与者那里收集的生物样本进行。该协议已获得 IRB 的批准,并获得了所有参与者的知情书面同意。AC和健康对照参与者的肝组织组织是从明尼苏达大学的肝组织细胞分布系统(LTCDS)获得的。用于转录组学和蛋白质组学分析的肝组织和 PBMC 样本的研究人群人口统计学可在表 1 和表 2 中找到。
缩略图 下载:
PPT的PowerPoint幻灯片
巴布亚新几内亚放大图像
TIFF的原始图像
表 1. 研究用于蛋白质组学和 RNAseq 分析的人群人口统计学(肝脏)。
https://doi.org/10.1371/journal.pdig.0000447.t001
缩略图 下载:
PPT的PowerPoint幻灯片
巴布亚新几内亚放大图像
TIFF的原始图像
表 2. 用于蛋白质组学和 RNAseq 分析的研究人群人口统计学 (PBMC)。
https://doi.org/10.1371/journal.pdig.0000447.t002
生物样本包括 98 个 PBMC RNAseq 样本、55 个 PBMC 蛋白质组学样本、48 个肝组织 RNAseq 样本和 53 个肝组织蛋白质组学样本。所代表的肝脏疾病用两个字母符号编码如下:酒精相关性肝炎 (AH) 和酒精相关性肝硬化 (AC)。SCAHC 研究中的大多数 AC 参与者预计是失代偿期肝硬化的住院患者。在 SCAHC 研究中招募 AH 和 AC 组时,已尽最大努力根据年龄、性别和种族进行匹配。由于样本量小,无法进行基于严重程度的匹配。在我们的研究和公开可用的数据集中,样本量小的主要原因之一是难以招募AH患者。AH的发病率较低,估计每年每10万人中有4.5例住院[13]。有关纳入和排除标准、样本收集、样本处理和初步数据处理的其他信息,请参见 S1 文本。
将样本划分为数据集
由于一些蛋白质组学和转录组学样本来自相同的参与者,而另一些则不是,因此我们实施了一种策略,将数据集中的样本划分和平衡为匹配和不匹配的集合。表3总结了肝组织和PBMC中蛋白质组学和转录组学样品之间的匹配程度。对于管道中的几种算法,一些不匹配的子集太小。因此,我们将一些匹配的样本移到了不匹配的样本类别中,我们将这些新类别称为“平衡匹配”和“平衡未匹配”子集。我们将数据分为以下数据集类别,如下所述。
缩略图 下载:
PPT的PowerPoint幻灯片
巴布亚新几内亚放大图像
TIFF的原始图像
表 3. PBMC 和肝组织的蛋白质组学和转录组学样本之间的匹配程度。
括号中的数字表示从匹配类别移动到匹配平衡和不匹配平衡类别的样本数。
https://doi.org/10.1371/journal.pdig.0000447.t003
完整的数据集。
这些数据集由给定组织和基因组数据类型的所有可用样本组成:PBMC 3 路全蛋白质组学、PBMC 3 路全 RNAseq、肝脏 3 路全蛋白质组学和肝脏 3 路全 RNAseq。
无可比拟的平衡数据集。
这些数据集由匹配和不匹配样本的混合物组成:PBMC 3 路不匹配平衡蛋白质组学、PBMC 3 路不匹配平衡 RNAseq、肝脏 3 路不匹配平衡蛋白质组学和肝脏 3 路不匹配平衡 RNAseq。
匹配的平衡数据集。
这些数据集仅由匹配的样本组成,因此对于每个 RNAseq 样本,还有一个从同一个人那里获得的蛋白质组学样本:PBMC 3 路匹配平衡蛋白质组学、PBMC 3 路匹配平衡 RNAseq、肝脏 3 路匹配平衡蛋白质组学和肝脏 3 路匹配平衡 RNAseq。
匹配的平衡集成数据集。
这些数据集是通过合并来自 Matched Balanced 数据集的蛋白质组学和 RNAseq 数据形成的:PBMC 3-Way Matched Balanced Integrated 和 Liver 3-Way Matched Balanced Integrated。
验证数据集
我们使用从MassIVE存储库(登录号MSV000089168)获得的数据验证了我们的蛋白质组学肝组织机器学习(ML)模型[12]。该数据集包含来自AH(n = 6)和健康对照(n = 12)参与者的肝组织蛋白质组学数据。值得注意的是,健康对照来自两个不同的来源,7个来自路易斯维尔大学,5个来自约翰霍普金斯大学。对于我们研究中的条件,PBMC的公开蛋白质组学数据不可用,因此,仅使用独立数据验证了肝组织数据集。有关RNAseq肝组织验证数据集的信息可以在我们之前的出版物[11]中找到。
RNAseq分类和特征选择流程
[11]描述了用于对RNAseq计数进行分类和鉴定最佳基因的详细方法。简而言之,使用嵌套交叉验证和特征选择进行分类。使用差分表达软件或信息增益算法选择特征。此外,在选择要素之前,还移除了异常要素。通过丰富分析,将领域专业知识纳入管道。对于每个数据集,执行了多个管道配置,从而产生了多个有前途的候选基因集。然后,对于每个数据集,我们选择了一个最佳基因集,该基因集可以最大限度地提高分类性能和计算机生物学相关性(通过富集分析获得),同时最小化基因集大小。自始至终使用的方法都集中在尽量减少过拟合的可能性。请注意,对于任何给定的管道配置,都有一组结果基因(候选基因集)。随后,当提到候选基因集或最佳基因集时,我们也指的是产生这些基因集的管道配置。
蛋白质组学分类和特征选择流程
用于对蛋白质组计数进行分类和确定最佳蛋白质的方法与用于分析RNAseq数据的方法相似,但以下例外。
功能大小。
蛋白质组学数据的特征大小主要基于我们在处理RNAseq数据时的发现。由于蛋白质组学样本数量较少,使用的最大特征数量从 500 个减少到 200 个。选择了以下特征尺寸:15、25、35、50、60、70、80、90、100、150 和 200。
Imputation.
Unlike the RNAseq data, the proteomic data contained missing values. We used median and replacement with zero imputation strategies to address this. Median imputation replaces missing values using the median along each column (feature, in this case protein). Zero imputation replaces all missing values with zeros.
插补值用于缺少少量样品数据的蛋白质。以下插补阈值分别为 0%、5% 和 10%。也就是说,只有当缺少数据时,才对给定蛋白质的值进行插补,该值仅当缺少数据时,才会被估算。阈值为 0% 表示没有发生插补,并且删除了所有缺失值的蛋白质。
差异表达特征选择。
Cuffdiff [14] 用于 RNAseq 数据的差异表达分析,而我们使用 INFERNORDN 进行蛋白质组计数的差异表达分析 [15]。蛋白质按 q 值 ≤ 0.05 过滤。之后,任何缺失数据过多(高于插补阈值)的蛋白质都被移除。
计算机生物学验证和最佳蛋白质组选择。
用于RNAseq数据分析的Enrichr [16]被用于蛋白质富集分析的AGOTOOL [17]取代。在选择最佳蛋白质组时,转录组学和蛋白质组学数据都使用相同的算法,但有一个例外。也就是说,对于蛋白质组学数据,首选由具有最少插补的构型产生的蛋白质集进行选择。
分析大纲
分析流程分为 3 个阶段,如图 1 所示。
缩略图 下载:
PPT的PowerPoint幻灯片
巴布亚新几内亚放大图像
TIFF的原始图像
图 1. 分析的 3 个阶段的流程图。
第 1 阶段:对完整的 RNAseq 和蛋白质组学数据集(Liver 3-Way RNAseq Full、Liver 3-Way Proteomics Full、PBMC 3-Way RNAseq Full 和 PBMC 3-Way Proteomics Full)进行单独分析。为了简化流程图,我们只展示了一个具有代表性的数据集,我们将其称为“三向全数据集”。第 2 阶段:在不匹配的平衡数据中训练 ML 模型,并在匹配的平衡数据中进行后续测试和集成。A 部分:为不匹配的平衡数据集识别顶级转录组和蛋白质组学管道配置及其相应的基因和蛋白质集。B 部分:在匹配的平衡数据中评估表现最佳的模型及其 A 部分的相应基因和蛋白质集。C 部分:在匹配的平衡数据中,将表现最佳的基因和蛋白质组学模型的配对集与其相应的基因和蛋白质集进行整合。第 3 阶段:肝脏样本和 PBMC 组合最佳基因-蛋白质集的交叉分析。
https://doi.org/10.1371/journal.pdig.0000447.g001
第 1 阶段(无集成)。
在第一阶段,我们使用带有嵌套交叉验证的机器学习方法对 Full 数据集(Liver 3-Way RNAseq Full、Liver 3-Way Proteomics Full、PBMC 3-Way RNAseq Full 和 PBMC 3-Way Proteomics Full)进行分类。这使我们能够使用我们的RNAseq和蛋白质组学管道,为两种样品类型独立地鉴定最佳基因和蛋白质。有关第 1 阶段的分类性能,请参阅图 2。
缩略图 下载:
PPT的PowerPoint幻灯片
巴布亚新几内亚放大图像
TIFF的原始图像
图 2. 混淆矩阵对应于完整数据集和肝组织验证数据集的最佳基因和蛋白质集。
肝脏 3 元全最佳基因和蛋白质集分别包含 33 个基因和 27 个蛋白质。PBMC 3-Way Full best 基因和蛋白质集分别包含 16 个基因和 28 个蛋白质。(A) 使用筛选特征选择确定的最佳基因集对肝脏 3-Way Full RNAseq 数据集进行分类的混淆矩阵。对角线包含正确预测样本的数量和百分比。(B) 独立验证 RNAseq 数据集中用于对 AH、AC 和健康对照 (CT) 样本进行分类的混淆矩阵。(C) 使用过滤器特征选择确定的最佳基因集对 PBMC 3-Way Full RNAseq 数据集进行分类的混淆矩阵。(D) 使用过滤器特征选择确定的最佳蛋白质集对肝脏 3 元全蛋白质组数据集进行分类的混淆矩阵。(E) 用于在独立验证蛋白质组学数据集中对 AH、AC 和 CT 样品进行分类的混淆矩阵。(F) 使用筛选特征选择确定的最佳蛋白质集对 PBMC 3-Way Full 蛋白质组数据集进行分类的混淆矩阵。
https://doi.org/10.1371/journal.pdig.0000447.g002
第 2 阶段(整合)。
A部分:
我们进行了与第一阶段相同类型的分析,即嵌套交叉验证,以对肝脏 3 路不匹配平衡和 PBMC 3 路不匹配平衡基因和蛋白质数据集进行分类。每个管线配置都产生了一个独特的候选基因/蛋白质集。我们注意到了几个表现最好的候选基因和蛋白质组,以便稍后在 B 部分和 C 部分使用。
B部分:
我们训练了分类器,对应于 A 部分中性能最佳的 RNAseq 和蛋白质组学 ML 管道配置,基于整个不匹配的平衡数据。然后,在匹配的平衡数据中测试生成的ML模型。这将作为一个参考,我们稍后可以比较集成模型,如图 3 所示。
thumbnail Download:
PPTPowerPoint slide
PNGlarger image
TIFForiginal image
Fig 3. Confusion matrices corresponding to the best gene and protein sets in the matched balanced data set tested separately, and tested with the integrated gene/protein set.
在肝脏 3 路匹配平衡数据和 PBMC 3 路匹配平衡数据(分别为 16 个基因和 33 个蛋白质)中评估的最佳基因和蛋白质集(分别为 59 个基因和 19 个蛋白质)对应的混淆矩阵。(A) 使用过滤器特征选择确定的最佳基因集对肝脏 3-Way Matched Balanced RNAseq 数据集进行分类的混淆矩阵。(B) 使用通过过滤器特征选择确定的最佳蛋白质集对肝脏 3-Way Matched Balanced 蛋白质组数据集进行分类的混淆矩阵。(C) 使用最佳基因和蛋白质集组合对肝脏 3 路匹配平衡数据集进行分类的混淆矩阵。(D) 使用通过过滤器特征选择确定的最佳基因集对 PBMC 3-Way Matched Balanced RNAseq 数据集进行分类的混淆矩阵。(E) 使用过滤器特征选择确定的最佳蛋白质集对 PBMC 3-Way Matched Balanced 蛋白质组数据集进行分类的混淆矩阵。(F) 使用最佳基因和蛋白质集组合对 PBMC 3-Way Matched Balanced 数据集进行分类的混淆矩阵。
https://doi.org/10.1371/journal.pdig.0000447.g003
C部分:
对于B部分的每种样品类型(使用其相应的基因/蛋白质集),将性能最佳的RNAseq和蛋白质组学ML模型配对,并使用交叉验证在匹配的平衡数据中进行评估(S1文本中的表AA用于为肝脏样本测试的模型,S1文本中的表AD用于测试的PBMC模型)。通过提供每对RNAseq和蛋白质组学模型的输出预测概率作为输入到集成模型中来执行集成。据报道,达到最佳分类准确性的一对候选基因和候选蛋白组是最佳的基因和蛋白质组合组合。将整合模型在匹配平衡数据中的性能与单独(RNAseq 和蛋白质组学)模型在匹配平衡数据(来自 B 部分)中的性能进行比较,如图 3 所示。
第 3 阶段(交叉路口)。
在第三阶段,我们检查了哪些基因和蛋白质在最佳基因和蛋白质组合中匹配。也就是说,我们可以考虑将一种蛋白质和编码它的基因作为匹配。
在独立的肝组织数据中进行验证
所有肝组织ML模型(RNAseq和蛋白质组学)均在独立的肝组织验证数据中进行了验证。简而言之,在嵌套交叉验证期间表现最好的 ML 模型是在我们的整个肝组织数据上训练的。然后,在独立的肝组织验证数据中评估该训练有素的分类器。RNAseq和蛋白质组学数据类型的独立验证方法相同。这些方法的进一步描述可以在我们之前的出版物[11]中找到。
机器学习分类器
用于转录组学和蛋白质组学数据单独分析的分类器是:k 最近邻 (kNN)、逻辑回归 (LR) 和支持向量机 (SVM)。对于综合转录组学和蛋白质组学分析,由于易于解释,我们仅使用了逻辑回归和线性核 SVM 分类器。在集成模型中,直接利用 RNAseq 和蛋白质组学计数的模型是 LR 或线性核 SVM。使用通过 RNAseq 和蛋白质组学模型提供的预测概率的分类器是具有默认超参数的 LR。LR模型以前已被证明非常适合小样本量的蛋白质组学数据[18]。LR 和 SVM 分类器均已正则化。
功能重要性
评估了用于集成肝脏 3 路和集成 PBMC 3 路数据集的组合基因-蛋白质面板的特征重要性。由于机器学习架构的性质,分别评估了基因和蛋白质的特征重要性。使用经过训练的模型系数评估特征重要性。可以在 S1 文本中找到集成肝脏 3 路和集成 PBMC 3 路数据集的特征重要性可视化。
计算方法摘要
表 4 总结了 RNAseq 和蛋白质组学数据集的 ML 模型最终配置中使用的计算方法。更多详细信息可以在 S1 文本中找到。
缩略图 下载:
PPT的PowerPoint幻灯片
巴布亚新几内亚放大图像
TIFF的原始图像
表 4. 用于转录组学和蛋白质组学数据类型的方法摘要。
https://doi.org/10.1371/journal.pdig.0000447.t004
结果
肝脏 3 向全的分类(AH vs 健康 vs AC)
根据分类性能和生物学验证分数,对通过各种方法产生的基因和蛋白质集进行比较,以选择最佳的基因和蛋白质集。最佳基因集包含33个基因,主要数据准确率为90%,验证数据准确率为82%(图2A和2B)。最佳蛋白质组包含 27 种蛋白质,主要数据准确率为 100%,验证数据准确率为 61%(图 2D 和 2E)。RNAseq 和蛋白质组学数据在对我们的肝脏 3 路样本进行分类时同样有效。然而,从RNAseq数据中获得的最佳基因集在RNAseq验证数据中取得了更好的性能,而不是在蛋白质组学验证数据中从蛋白质组学数据中获得的最佳蛋白质集。RNAseq和蛋白质组计数的热图可以在S1文本的图A-H中找到。最佳基因和蛋白质集的富集途径、组织和疾病可在 S1 文本的表 E 和 H 中找到。每个数据集的最佳基因和蛋白质集如表5所示。
缩略图 下载:
PPT的PowerPoint幻灯片
巴布亚新几内亚放大图像
TIFF的原始图像
表 5. 每个数据集的最佳基因和蛋白质。
对于集成的数据集,匹配的基因和蛋白质以粗体显示。
https://doi.org/10.1371/journal.pdig.0000447.t005
PBMC 3 路全的分类(AH vs 健康 vs AC)
最佳基因集包含16个基因,主要数据准确率为83%(图2C)。最佳蛋白质组包含 28 种蛋白质,主要数据准确率为 89%(图 2F)。RNAseq 和蛋白质组学数据在对我们的 PBMC 3 通样品进行分类方面同样有效。RNAseq和蛋白质组计数的热图可以在S1文本的图I-L中找到。最佳基因和蛋白质集的富集通路、组织和疾病可在 S1 文本的表 K 和 N 中找到。每个数据集的最佳基因和蛋白质集如表5所示。
肝脏 3 向匹配平衡的分类(AH vs 健康 vs AC)
基因和蛋白质的整合。
在肝脏 3-Way Matched Balanced 数据集中分别和组合评估了来自 Liver 3-Way Unmatched Balanced 数据集的最佳基因集和蛋白质集。使用59个基因的最佳基因集,我们在匹配的平衡RNAseq数据中获得了83%的分类准确率(图3A)。使用19种蛋白质的最佳蛋白质组,我们在匹配的平衡蛋白质组学数据中实现了100%的分类准确性(图3B)。结合使用最佳基因和蛋白质集,我们在匹配的平衡综合数据中达到了 96% 的准确率(图 3C)。此外,我们为整合的肝脏 3 向模型生成了一条与静止的微平均受试者工作特征 (ROC) 曲线,结果 AUC 为 1.0(S1 文本中的图 AE)。组成转录组(59 个基因)和蛋白质组(19 个蛋白质)模型的 AUC 分别为 0.94 和 1.0(S1 文本中的图 AF 和 AG)。
路口。
此外,我们检查了哪些生物标志物在肝组织的整合模型的最佳基因和蛋白质集之间共享。CLEC4M-CLC4M、GSTA1-GSTA2是共同的。CLEC4M-CLC4M 是直接匹配的,而 GSTA1(蛋白质)与 GSTA2(基因)是家族匹配的。如果从显著差异表达的基因和蛋白质中随机选择基因和蛋白质,则预期的 0.12 将共享。期望值的计算可以在 S1 文本中找到。因此,我们确定的共同生物标志物比预期的要多。最佳基因和蛋白质集通常富集用于几种不同的炎症途径。最佳蛋白质集比最佳基因集更强烈地富集代谢途径(S1文本中的表Q和T)。
PBMC 3 路匹配平衡的分类(AH vs 健康 vs AC)
基因和蛋白质的整合。
在PBMC 3-Way Matched Balanced数据集中分别和组合评估了来自PBMC 3-Way Unmatched Balanced数据集的最佳基因和蛋白质集。使用16个基因的最佳基因集,我们在匹配的平衡RNAseq数据中获得了74%的分类准确率(图3D)。使用33种蛋白质的最佳蛋白质组,我们在匹配的平衡蛋白质组学数据中获得了77%的分类准确率(图3E)。结合使用最佳基因和蛋白质集,我们在匹配的平衡综合数据中达到了 81% 的准确率(图 3F)。我们还为集成的 PBMC 3 路模型生成了一条与静止的微观平均 ROC 曲线,结果 AUC 为 0.96(S1 文本中的图 AK)。组成转录组(16 个基因)和蛋白质组(33 个蛋白质)模型的 AUC 相同,均为 0.89(S1 文本中的图 AL 和 AM)。
路口。
在PBMC的集成模型中,发现SELENBP1-SBP1基因-蛋白在最佳基因和蛋白质集之间具有共同性。对于从显着差异表达的基因和蛋白质中随机选择,我们计算出预期的 0.05 将被共享。因此,发现共享的生物标志物比预期的要多。PBMC的最佳基因和蛋白质集主要富集于几种不同的炎症和癌症相关途径(S1文本中的表W和Z)。
讨论
在这项研究中,我们使用机器学习方法,利用来自肝组织和 PBMC 的转录组学和蛋白质组学数据,有效地对酒精相关性肝炎 (AH)、酒精相关性肝硬化 (AC) 和健康对照的参与者的样本进行分类。在我们的数据中,肝组织模型的表现略优于PBMC模型。转录组学和蛋白质组学肝组织ML模型在独立验证数据中都具有相对较好的推广效果。总体而言,转录组学和蛋白质组学模型在每种样品类型中的表现相似。
蛋白质组学和转录组学数据的整合并没有提高肝组织的分类准确性,主要是因为两种数据类型的分类准确性已经很高。另一方面,对于PBMC,集成略微提高了分类准确性。虽然PBMC生物标志物在ALD分类方面的性能不如肝组织生物标志物,但多种组学数据类型的整合可能有助于缩小未来的差距。据我们所知,这是第一项确定 PBMC 基因-蛋白质表达组合生物标志物组合用于区分 AH、AC 和健康对照的研究。
特别令人感兴趣的是,在肝脏 3 路和 PBMC 3 路匹配平衡整合数据集中确定的组合基因-蛋白质集中存在的基因-蛋白质匹配。在先前的文献中,所有匹配的肝组织基因已被确定为肝病的相关生物标志物。CLEC4M已被确定为肝细胞癌的预后肝组织生物标志物[19]。GSTA1和GSTA2既往已分别被确定为肝损伤(包括乙醇损伤)和肝细胞癌的生物标志物[20,21]。关于匹配的PBMC基因在肝病中的作用知之甚少。肝细胞癌患者PBMC中SELENBP1的差异表达已有证实[22]。这些生物标志物在转录组学和蛋白质组学数据中的差异表达增加了我们对它们重要性的信心。
使用富集分析检查了 Liver 3-Way 和 PBMC 3-Way 集成数据集的基因-蛋白质面板。分别检查基因和蛋白质。对于肝脏 3-Way,蛋白质在代谢途径中大量富集,包括乙醇代谢(S1 文本中的表 AB)。值得注意的是,许多关键的肝脏蛋白是酒精脱氢酶,其中一些与酒精和肝脏疾病有关[23,24]。其他值得注意的蛋白质包括 CRP、SAA1、ALBU。所有这些都已被确定为炎症性肝病的诊断生物标志物[25,26,27]。这些基因富集了体内平衡、代谢和炎症途径(S1文本中的表AC)。对于 PBMC 3-Way,基因和蛋白质都富集了血液过程、免疫系统功能和细胞运动(S1 文本中的表 AE 和 AF)。一些PBMC蛋白既往与肝脏疾病有关,包括FSTL1、TSP1、CCL5和TPM2[28,29,30,31]。总体而言,鉴定出的基因和蛋白质与先前的发现一致。
我们之前已经讨论过使用适当的ML方法分析小样本RNAseq数据的重要性[11]。我们对小样本量蛋白质组学数据分析的建议大致相似。除了滤波器特征选择的重要性外,我们还想强调嵌套交叉验证 (NCV) 和在 NCV 的内环和外环中执行特征选择的重要性。如果要进行超参数调整,则必须使用嵌套交叉验证来分离模型选择和评估。同时,有必要在嵌套交叉验证中进行特征选择,以避免数据泄露和由此产生的偏差[32]。在我们的管道中使用计算机生物学相关性(通过富集分析)也很重要,因为它通过偏爱与现有文献相对应的特征集来减少过拟合。
肝组织蛋白质组学模型在独立验证数据中的表现低于预期。独立验证蛋白质组学数据集中的健康对照样本来自两个不同的临床来源。大多数错误分类的健康对照来自两个来源之一。健康样本的异质性可以解释其出乎意料的不良分类性能。由于缺乏相关的公共数据,PBMC模型无法独立验证。然而,用于获得最佳生物标志物的方法在两种组织中是相同的。由于缺乏适当的公开基因组数据,其中RNAseq和蛋白质组学都可用于相同的个体,因此无法验证集成模型。需要更大的样本量和独立的综合验证队列来进一步研究这些生物标志物。
整合两种组学数据类型进一步放大了我们在早期工作中遇到的挑战[11]。每个样本的基因和蛋白质数量远大于我们数据集中的样本数量。这使得数据容易出现过拟合,因为复杂的模型可以完美地分离少量样本。其他一些挑战是确保集成模型不会偏向于转录组或蛋白质组学特征,使用集成的基因和蛋白质表达数据进行特征选择,以及解决我们的转录组学和蛋白质组学样本之间的部分匹配问题(大多数是从同一个人那里获得的,但有些不是)。
总体而言,整合来自肝组织和PBMC的蛋白质组学和转录组学数据在两个方面被证明是有希望的。就我们研究中的PBMC而言,结合转录组和蛋白质组生物标志物比单独使用任何一种类型的生物标志物进行分类更有效。此外,通过检查转录组学和蛋白质组学数据,我们能够识别出在两个结构域中显着差异表达的基因-蛋白质对,因此更有可能与所讨论的肝脏疾病状况相关。使用PBMC来区分酒精相关性肝病的可能性令人鼓舞,相关的生物标志物值得进一步检查。
支持信息
本研究的补充方法和补充结果。
跳到无花果分享导航
1支持信息整合蛋白质组学的鉴定s和转录组学s酒精的特征-相关使用机器学习的肝病作者:斯坦尼斯拉夫·利斯托帕德1,#a*, 克里斯托夫·马格南1, Le Z. Day2, 阿利亚·阿斯加尔3安德鲁斯托尔茨4,约翰·塔耶克5张-刘旭4,乔恩·雅各布斯2,蒂莫西·摩根(Timothy R.Morgan)3, 特里娜·诺登-克里奇马尔1,6*作者单位:1加州大学欧文分校计算机科学系,美国加利福尼亚州美洲2生物科学部和环境与分子科学部,太平洋西北国家实验室,丽 晶Washington, 美国3医疗和研究服务,弗吉尼亚州长滩医疗保健系统,长滩,加州美国4凯克学院医学系胃肠道和肝脏疾病科南加州大学洛杉矶分校医学系California, 美国5Lundquist Institute for Biomedical Innovation at Harbor(伦德奎斯特海港生物医学创新研究所)-加州大学洛杉矶分校医学中心,系大卫格芬医学院内科,加州大学洛杉矶分校,托兰斯California, 美国6加州大学欧文分校流行病学和生物统计学系,加州美国#a现住址:部门神经科学,斯克里普斯研究,拉霍亚,加利福尼亚, United美利坚合众国
2表格内容:内容1.补充方法..............................................................................................................5一个。纳入和排除标准(RNAseq 和蛋白质组学):................................................................5b. 样品收集和处理(RNAseq和蛋白质组学):............................................................6c. RNAseq比对(RNAseq):..............................................................................................................6d. 特征转化(RNAseq和蛋白质组学):...........................................................................6e. 嵌套十字架-验证设置(RNAseq 和蛋白质组学):.................................................................6f.超-参数调整(RNAseq 和蛋白质组学):...........................................................................7g. 特征选择策略(RNAseq和蛋白质组学):.....................................................................8h. 差异表达(DE)特征选择(RNAseq和蛋白质组学):.........................................8i. 信息增益 (IG) 特征选择 (RNAseq):..............................................................................9j. 插补(蛋白质组学):.....................................................................................................................9k. 特征大小(RNAseq和蛋白质组学):.............................................................................................9l. 性能指标(RNAseq 和蛋白质组学):...............................................................................10m. 机器学习分类器(RNAseq 和蛋白质组学):.................................................................10n. 样本量计算(RNAseq 和蛋白质组学):...........................................................................10o.Enrichr 和 AGOTOOL 文库(RNAseq 和蛋白质组学):..............................................................11p.富集分析的正则表达 (Regex) 模式(RNAseq 和蛋白质组学):...............12q.异常基因(特征)去除的影响–方差、交叉和联合过滤 (RNAseq和蛋白质组学):....................................................................................................................................12r.计算方法(RNAseq和蛋白质组学)摘要:.....................................................13候选基因和蛋白质组(RNAseq和蛋白质组学):...........................................................14最佳基因集选择(RNAseq):....................................................................................................15u. 最佳蛋白质组选择(蛋白质组学):...........................................................................................16v. 代码库(RNAseq和蛋白质组学):................................................................................................162. 补充结果......................................................................................................................17一个。肝脏 3-方式满(AH vs 健康 vs AC)..............................................................................................17我。肝脏转录组学切片 3-方式 完整数据集:..............................................................17在制品肝脏蛋白质组学切片 3-方式 完整数据集.......................................................................24c. PBMC 3-方式满(AH vs 健康 vs AC)............................................................................................31i. PBMC 的转录组学切片 3-方式 完整数据集:..........................................................31ii. PBMC 3 的蛋白质组学切片-方式 完整数据集:....................................................................34
下载
无花果分享
S1 文本。 本研究的补充方法和补充结果。
https://doi.org/10.1371/journal.pdig.0000447.s001
(PDF格式)
确认
作者要感谢并承认 PBMC 和 AH 肝组织活检的参与者招募和样本收集由 SCAHC 在以下地点进行:加利福尼亚州长滩的长滩退伍军人医疗保健系统 (VALB) [Jessica Clare Gozum、Sheena Cruz、Hema Buddha、Yuxin Ouyang、Gregory Botwin、Lauren MacHarg、Monique French];加利福尼亚州托伦斯港-加州大学洛杉矶分校医疗中心 [Lavanya Cherukuri、Sajad Hamal、Wayne Fleischman、Divya Birudaraju];南加州大学(USC),加利福尼亚州洛杉矶[克里斯蒂·里科、苏珊·米尔斯坦、卡罗尔·琼斯、约翰·多诺万、尼尔·卡普洛维茨];弗吉尼亚州洛马琳达,加利福尼亚州 [Daniel Chen-Kang Chao];和 VA 阿尔伯克基 [约瑟夫·奥尔康]。作者还要感谢并感谢加州大学欧文分校基因组学高通量设施(GHTF)的成员在样本的RNA提取和测序中发挥的作用。AC 和健康对照参与者的肝组织来自明尼苏达大学的 LTCDS。(https://med.umn.edu/pathology/research/liver-tissue-system)。这份手稿的部分内容是作为论文提交的,部分满足了哲学博士(S.L.)学位的要求。
引用
1.Termeie O, Fiedler L, Martinez L, Foster J, Perumareddi P, Levine RS, et al. 令人震惊的趋势:美国酒精性肝硬化的死亡率。美国医学杂志。2022年5月27日;135(10):1263–1266.PMID:35636480
查看文章PubMed/NCBI的Google 学术搜索
2.Mellinger JL, Volk ML. 酒精相关性肝病的移植:公平吗?酒精和酗酒。2017年12月11日;53(2):173–177.PMID:29236944
查看文章PubMed/NCBI的Google 学术搜索
3.Thursz M, Morgan TR. 治疗严重酒精性肝炎。胃肠。2016年3月4日;150(8):1823–1834.PMID:26948886
查看文章PubMed/NCBI的Google 学术搜索
4.Mathurin P、Moreno C、Samuel D、Dumortier J、Salleron J、Durand F 等。重度酒精性肝炎的早期肝移植。新英格兰医学杂志。2011年11月10日;365:1790–1800.PMID:22070476
查看文章PubMed/NCBI的Google 学术搜索
5.Im GY、Kim-Schluger L、Shenoy A、Schubert E、Goel A、Friedman SL 等。美国严重酒精性肝炎的早期肝移植——单中心经验。美国移植杂志。2015年12月28日;16(3):841–849.PMID:26710309
查看文章PubMed/NCBI的Google 学术搜索
6.Lee BP, Chen P, Haugen C, Hernaez R, Gurakar A, Philosophe B, et al.严重酒精性肝炎早期肝移植试点项目的三年结果。外科年鉴。2017年1月;265(1):20–29.PMID:27280501
查看文章PubMed/NCBI的Google 学术搜索
7.Singal AK, Bashar H, Anand BS, Jampana SC, Singal V, Kuo Y. 酒精性肝炎肝移植后的结果与酒精性肝硬化相似:来自 UNOS 数据库的探索性分析。肝病学。2012年3月18日;55(5):1398–1405.PMID:22213344
查看文章PubMed/NCBI的Google 学术搜索
8.Soresi M, Giannitrapani L, Cervello M, Licata A, Montalto G. 用于诊断肝硬化的非侵入性工具。世界胃肠病学杂志。2014年12月28日;20(48):18131–18150.PMID:25561782
查看文章PubMed/NCBI的Google 学术搜索
9.Berger D、Desai V、Janardhan S. Con:肝活检仍然是评估非酒精性脂肪性肝病患者纤维化的金标准。临床肝病。2019年4月30日;13(4):114–116.PMID:31061705
查看文章PubMed/NCBI的Google 学术搜索
20 分钟兰布雷希特 J、Verhulst S、曼纳茨 I、雷纳特 H、格伦斯文 LA。肝纤维化无创评估的前景:液体活检作为未来的金标准?疾病的分子基础。2018年1月9日;1864(4):1024–1036.PMID:29329986
查看文章PubMed/NCBI的Google 学术搜索
11.Listopad S、Magnan C、Asghar A、Stolz A、Tayek JA、Liu Z 等。通过将多类机器学习方法应用于肝组织或血液样本的转录组学来区分肝脏疾病。JHEP报告。2022 年 8 月 18 日;4(10).PMID:36119721
查看文章PubMed/NCBI的Google 学术搜索
22 分钟Hardesty J、Day L、Warner J、Warner D、Gritsenko M、Asghar A 等。酒精相关性肝硬化和肝炎的肝蛋白和磷蛋白特征。美国病理学杂志。2022年4月28日;192(7):1066–1082.PMID:35490715
查看文章PubMed/NCBI的Google 学术搜索
13.Mandrekar P, Bataller R, Tsukamoto H, Gao B. 酒精性肝炎:开发靶向治疗的转化方法。肝病学。2016年4月15日;64(4):1343–1355.PMID:26940353
查看文章PubMed/NCBI的Google 学术搜索
14.Trapnell C、Roberts A、Goff L、Pertea G、Kim D、Kelley DR 等。TopHat 和 Cufflinks 的 RNA-seq 实验的差异基因和转录本表达分析。自然协议。2012年3月1日;7(3):562–578.PMID:22383036
查看文章PubMed/NCBI的Google 学术搜索
25 分钟Polpitiya AD, Qian W, Jaitly N, Petyuk VA, Adkins JN, Camp DG, et al. DAnTE:一种用于组学数据定量分析的统计工具。生物信息学。2008年5月3日;24(13):1556–8.PMID:18453552
查看文章PubMed/NCBI的Google 学术搜索
16.Chen EY, Tan CM, Kou Y, Duan QN, Wang ZC, Meirelles GV, et al.Enrichr:交互式协作式 HTML5 基因列表富集分析工具。BMC 生物信息学 2013 Apr 15;14.PMID:23586463
查看文章PubMed/NCBI的Google 学术搜索
17.Sch?lz C, Lyon D, Refsgaard JC, Jensen LJ, Choudhary C, Weinert BT. 避免翻译后修饰蛋白功能注释中的丰度偏差。Nat 方法。2015年11月;12(11):1003–4.PMID:26513550
查看文章PubMed/NCBI的Google 学术搜索
18.Niu L、Thiele M、Geyer PE、Rasmussen DN、Webel HE、Santos A 等。酒精相关肝病的非侵入性蛋白质组学生物标志物。自然医学。2022 年 6 月 2 日;28(6):1277–1287.PMID:35654907
查看文章PubMed/NCBI的Google 学术搜索
19.罗玲, 陈玲, 柯珂, 赵斌, 王玲, 张玲, 等.CLEC4M 的高表达水平表明肝细胞癌患者的预后不良。肿瘤学快报。2020年1月13日;19(3):1711–1720.PMID:32194663
查看文章PubMed/NCBI的Google 学术搜索
10 分钟马 X, 刘 F, 李 M, 李 Z, 林 Y, 李 R, 等.谷硫酮S-转移酶A1的表达,谷南硫酮S-转移酶是小鼠急性肝损伤中的II期药物代谢酶。实验和治疗医学。2017年8月17日;14(4):3798–3804.PMID:29042982
查看文章PubMed/NCBI的Google 学术搜索
11 分钟Ng KT, Yeung OW, Lam YF, Liu J, Liu H, Pang L, et al. 谷胱甘肽 S-转移酶 A2 通过调节活性氧代谢促进肝移植后肝细胞癌复发。细胞死亡发现。2021年7月21日;7(1).PMID:34290233
查看文章PubMed/NCBI的Google 学术搜索
12 分钟Han Z, Feng W, 胡 R, Ge Q, 马 W, Zhang W, et al. RNA-seq分析显示PBMC RNA是肝细胞癌的潜在生物标志物。科学报告。2021 9月 7;11(1).PMID:34493740
查看文章PubMed/NCBI的Google 学术搜索
13 分钟Liu X, Li T, Kong D, You H, Kong F, Tang R. 酒精脱氢酶在肝细胞癌中的预后意义.BMC 癌症。2020年12月7日;20(1).PMID:33287761
查看文章PubMed/NCBI的Google 学术搜索
14 分钟埃勒斯 CL, 梁 T, 吉泽尔 IR.墨西哥和美洲原住民的 ADH 和 ALDH 多态性和酒精依赖。美国药物和酒精滥用杂志。2012年9月;38(5):389–394.PMID:22931071
查看文章PubMed/NCBI的Google 学术搜索
25.Vanbiervliet G, Breton FL, Rosenthal-Allieri M, Gelsi E, Marine-Barjoan E, Anty R, et al. 血清 C 反应蛋白:酒精性肝炎的非侵入性标志物。斯堪的纳维亚胃肠病学杂志。2006年12月;41(12):1473–1479.PMID:17101579
查看文章PubMed/NCBI的Google 学术搜索
16 分钟李大, 谢萍, 赵淑, 赵杰, 姚莹, 赵莹, 等.肝细胞来源的SAA1增加促进肝内血小板聚集,加重NAFLD患者的肝脏炎症。生物化学和生物物理研究通讯。2021年4月1日;555:54–60.PMID:33813276
查看文章PubMed/NCBI的Google 学术搜索
17 分钟Pares A、Deulofeu R、Cisneros L、Escorsell A、Salmeron JM、Caballeria J 等。白蛋白透析可改善酒精性肝炎和严重肝衰竭患者的肝性脑病并降低循环酚类芳香族氨基酸。重症监护。2009年1月28日;13(1).PMID:19175915
查看文章PubMed/NCBI的Google 学术搜索
18 分钟顾国, 薛华, 杨旭, 聂莹, 钱旭. 卵泡抑素样蛋白1在肝病中的作用.实验生物学和医学。2022年12月19日;248(3):193–200.PMID:36533576
查看文章PubMed/NCBI的Google 学术搜索
19 分钟Li Y, Turpin CP, Wang S. 血小板反应蛋白 1 在肝病中的作用.肝病学研究。2016年8月30日;47(2);186–193.PMID:27492250
查看文章PubMed/NCBI的Google 学术搜索
30.Ambade A、Lowe P、Kodys K、Catalano D、Gyongyosi B、Cho Y 等。CCR2/5 信号转导的药理学抑制可预防和逆转酒精诱导的小鼠肝损伤、脂肪变性和炎症。肝病学。2019年2月12日;69(3);1105–1121.PMID:30179264
查看文章PubMed/NCBI的Google 学术搜索
31.Safaei A, Tavirani MR, Oskouei AA, Azodi MZ, Mohebbi SR, Nikzamir AR. 肝硬化肝病的蛋白质-蛋白质相互作用网络分析。从床到台的胃肠病学和肝病学。2016;9(2);114–23.PMID:27099671
查看文章PubMed/NCBI的Google 学术搜索
32.Demircio?lu A. 在放射组学中使用交叉验证时测量错误应用特征选择的偏差。对成像的见解。2021 11 月 24;12.PMID:34817740
查看文章PubMed/NCBI的Google 学术搜索