厦门论文发表-途径活性作为乳腺癌预后决定因素的生存分析
古斯塔沃·耶肯,尼古拉斯·托宾,卢卡斯·卡尔
出版日期: 2022年03月28日
抽象
高通量生物学能够测量来自组织样品的数千种生物分子的相对浓度。这个过程给调查人员留下了一个问题,即如何最好地解释样本之间潜在的大量差异。细胞中的许多活动取决于涉及多种生物分子的有序反应,通常称为途径。因此,使用所谓的通路分析来研究样品之间在改变的通路活性方面的差异是有意义的。传统的通路分析对样品组之间通路成分浓度的差异具有重要意义,然而,已经提出了较少用于估计单个样品通路活性的方法。在这里,我们证明了这种方法可用于基于途径的生存分析。具体来说,我们根据METABRIC数据集的转录谱研究了通路活动与患者生存时间的关联。我们的实施表明,与单个转录本相比,通路活性是METABRIC中生存时间的更好预后标志物。我们还证明,我们可以回归单个途径对其他途径的影响,这使我们能够估计其他途径对生存的残余途径活性。此外,我们还说明了如何使用旭日图在分层路径数据库上可视化通常相互依赖的度量。
作者简介
大多数重要的细胞功能不仅由单个生物分子执行,而且依赖于涉及大量生物分子的协同反应,这些反应被称为途径。然而,测量技术自然必须单独测量每个此类分子的丰度。为了评估样品之间功能活性的差异,人们经常使用统计技术将丰度整合到通路活性中。在这里,我们实施了一种方法,用于在分析乳腺癌时研究哪些通路活动对患者的生存具有预后性。我们发现,与直接从单个分子的测量浓度中做出的预后相比,通路活动更能预后患者的生存时间。我们还展示了哪些这样的通路活动不仅仅是由于恶性癌症中整体增殖增加而活跃的。我们还说明了如何使用所谓的旭日图以有效和交互的方式可视化通路活动。
引文: Jeuken GS,Tobin NP,K?ll L(2022)途径活性作为乳腺癌预后决定因素的生存分析。PLoS Comput Biol 18(3):e1010020。https://doi.org/10.1371/journal.pcbi.1010020
编辑 器: 克里斯托斯·奥祖尼斯, CPERI, 希腊
收到: 六月 5, 2021;接受: 三月 15, 2022;发表: 三月 28, 2022
版权所有: ? 2022 Jeuken 等人。这是一篇根据知识共享署名许可条款分发的开放获取文章,该许可允许在任何媒体上不受限制地使用,分发和复制,前提是注明原始作者和来源。
数据可用性: 本文中使用的所有数据,除了METABRIC数据集外,都可以在 https://github.com/statisticalbiotechnology/metabric-pathway-survival/tree/main/data 中找到 METABRIC数据已存放在欧洲基因组表型组档案(http://www.ebi.ac.uk/ega/),该档案由欧洲生物信息学研究所主办,加入号为EGAS00000000083。本文中用于重现分析的代码(包括用于生成其图的代码)可在 https://github.com/statisticalbiotechnology/metabric-pathway-survival。
资金: 这项工作得到了瑞典战略研究基金会(BD15-0043)对LK的资助。资助者在研究设计,数据收集和分析,出版决定或手稿准备方面没有任何作用。
相互竞争的利益: 作者宣布不存在相互竞争的利益。
这是一篇PLOS计算生物学方法论文。
介绍
在分子生物学中,高通量技术可以测量任何生物来源样品中的数千甚至数百万种分析物。如此丰富的数据使得可以非常准确地描述样本,其精确度为对生物和医学过程的机制的新理解打开了大门。
虽然这种丰富的数据表明了获取知识的可能性,但这种测量中的维度数量也给我们带来了许多挑战:当用统计方法分析高维向量时,人们很容易面临维度的诅咒,即样本空间随着每个增加维度呈指数增长[1].当样品数量低于测量的分析物数量时,这成为一个问题。此外,例如,在分别测试每个测量的浓度差异的差异的差异的差异的差异时,由于多个假设检验,我们在某种程度上遇到了灵敏度下降的问题。
缓解这些问题的一种更有前途的方法是通过通路分析[2,3]。蛋白质经常以协调的方式运作,表型通常是蛋白质集的结果,而不仅仅是单一蛋白质的结果。代谢途径或其他对分析物进行分组的聚合生物学知识提供了一种模型驱动的方式,以一种具有生物学意义的方式组合分子信息,从而也结合了高通量实验的测量结果。
传统的通路分析首先确定患者组之间基因表达的定量差异,然后测试被测通路中富集的显著差异基因注释[4-6],或者使用所谓的基因集富集分析测试属于通路的基因是否比其他基因具有更极端的差异[3].这两种类型的分析都使用户在不同条件下路径注释中的分析物具有差异丰富的显著性值。然而,这感觉并不令人满意,因为在统计测试中嵌入通路分析会显着限制可以在分析中应用的统计测试的类型。
单样本通路分析提供了另一种选择,该分析承诺每个样本和通路的活性评分。方法RESCATEMENT [7]将两个混合模型拟合到数据中以量化途径,但是,该过程的监督学习步骤使得进一步的统计测试具有挑战性。另一个批评是,大多数途径分析方法通过比较属于途径的基因的行为与不属于通路的基因的行为来获得统计意义。Goeman和Bühlmann [8]支持自足测试,其中途径的重要性仅与所述途径基因的表达有关,从而导致更严格的零假设,从而导致更高的统计功效。GSVA [9]使用竞争性测试进行基因集富集。因此,ssGSEA [10] 方法利用内部表达等级作为富集的基础,因此也不是自包含的。虽然对于singscore[11]也是如此,但它具有很大的优势,因为在提供每个样本的分数时,它不需要其他样本作为背景。
两种方法,PLAGE [12]和Pathifier [13],将产生自包含的通路活动的无监督指标。前者通过仅在通路的基因形成的空间中的奇异值分解(SVD)来实现这一点。后者采用相同的方法,但使用主曲线代替,虽然这使得能够捕获非线性基因相互作用,但它引入了对注释基线样本以及更大数据集的需求。
我们相信在通路水平上进行统计分析的优点,因为通路的功能通常比单个基因的功能更容易理解,并且通路水平上的统计操作通常与问题的生物学更直接相关。例如,细胞增殖已被确定为癌症的标志之一[14,15]。这是一个复杂的系统性过程,涉及细胞不同部分的许多不同的机制,以及调节它们的信号通路。在乳腺癌中,已经证明可以根据增殖水平将腔室A与腔室B亚型分开[16]。因此,在研究肿瘤的分子谱如何影响患者时,人们可能希望将增殖作为一个整体来看待,而不是关注单个分析物。
然而,将通路活性分配给单个样本的真正优点是,与病例对照比较相比,它为不那么生硬的统计分析开辟了道路。在这里,我们重新实现了PLAGE[12]用于路径汇总,并使用Cox比例风险模型研究了其应用于生存分析时的性能[17]。我们强调在途径级别上工作的优势和灵活性。特别是我们展示了如何对抗严重乳腺癌中细胞增殖增加的途径分析的混杂效应。我们还演示了如何使用旭日图来探索性地可视化通路活动的重要性,同时保持通路层次结构。
材料和方法
METABRIC 转录配置文件及其注释
METABRIC数据集中的归一化基因表达和临床注释从欧洲基因组表型组档案中下载。这些数据包括1992年乳腺癌标本的微阵列读数,主要是新鲜冷冻的样本,以及相应患者的临床注释,包括生存信息。数据集中报告了两次12个样本[18],这些样本从我们的分析中删除,但除此之外,整个队列都被使用。
从Reactome数据库[19]第76版中检索了通路注释,注释为Ensembl基因ID。通过BioMart[20],通过假设与每个Reactome蛋白的潜在基因相关的任何转录本都与该途径相关,将通路的基因ID注释转换为Illumina探针ID(HT_12_v4)。
该研究的临床终点是乳腺癌特异性生存期(BCSS),定义为从手术之日起到随访结束的研究期间未死于乳腺癌的患者。
路径活动的估计
我们遵循PLAGE [12]方法的单一向量分解策略。让我们成为我们要研究的所有测量值的集合,在我们的例子中是Illumina探针,并让 成为与我们感兴趣的途径相关的测量的子集。我们定义 A克×米作为样本的对数变换和标准化测量的矩阵(其中 m 是样本数),以及 Bp×m作为矩阵,仅使用 X 中存在于 中的行来构造。然后,我们使用截断奇异值分解(SVD)分解B:
(1)
请注意,与Tomfohr等人[12]相比,预处理略有不同,后者使用A克×米包含未进行日志转换的标准化度量值。在这里,我们将通路的左奇异向量U命名为特征样本,将右奇异向量V命名为特征基因,遵循Wall等人的命名法[21]。请注意,特征基因每个样本包含一个向量元素,我们将使用这些向量元素作为通路活动的度量。实际上,我们在这里使用了scikit-learn python包[22]。
比例风险模型
考克斯比例风险模型[17,23]涉及生存函数S我(t) 患者 i 到其任何协变量 X 的值我如
(2)
其中 λ(t) 是危害函数,定义为时间 t 时的死亡率,对于存活到该时间的患者,以及 λ0(t) 是定义为 λ(t|0) 的基线危险。然后,危险函数通过 λ(t) = ?S′(t)/S(t)与生存函数相关联。
在这里,我们使用先前推导的途径活动作为Cox回归的解释变量X,一次一个途径地这样做,以研究每个样本的途径活动与患者生存之间的联系。这种回归为我们提供了一个系数β,显示了一个路径的影响大小,以及一个p值,表示其系数的统计显著性。随后将p值校正为多次测试,将其转换为q值[24]。在这里,我们使用了生命线 python 包 [25]。
Concordance index
The concordance index (or C-index) is a generalization of the area under the curve (AUC) classifier performance that can take into account censored data. It represents the model’s accuracy in ranking the survival times of the samples [26]. It can be calculated as,
(3)
Here, for each patient i, we have the observed survival time, ti, and the censoring variable, di, that takes a value of either 1 if the event of death has been observed and 0 otherwise. The indicator variable if ti < tj and 0 otherwise. The variable η is the hazard score for each sample, calculated as ηi = Xi ? β. The C-index is calculated using 5-fold cross-validation: for each step, the coefficients β are fitted to 80% of the data, the hazard score η is calculated for the samples in the holdout data and the index is obtained by comparing it to their survival status. Just as for AUC, a concordance index of 0.5 corresponds to a null prediction and 1 to a perfect prediction.
Results
A pathway-level survival analysis
我们实施了一种评估通路活动对生存影响的方法,该方法基于PLAGE方法之上的Cox比例风险模型[17],以从转录本丰度中估计通路活性[12]。该方法对于任何审查数据都是通用的,但是,在这里我们在METABRIC乳腺癌数据集上展示了其效率。下载METABRIC数据中1980年乳腺癌的转录谱,并根据Reactome数据库将其分组为通路组。手术后,每个途径组都包含与每个途径中的蛋白质相对应的转录本,并且由于Reactome中的途径之间存在重叠,这意味着每个转录本可以出现在多个途径中。使用Wall等人之后的奇异值分解(SVD)的第一个特征向量,将每个途径的表达矩阵分解为特征样本(左奇异向量)和特征基因(右奇异向量)[21]。特征样本表示基因的线性组合,特征基因表示样本的线性组合,最能解释通路表达矩阵的方差。这种略微落后的命名约定源于这样一种想法,即特征基因模拟典型基因样本的变异,而特征样本模拟典型样本中基因的变异。
然后,我们将每个样本投影到该特征基因中,并将此结果用作样本通路活动的表示。这些通路活动与每个患者的生存信息一起被输入到Cox模型中,用于比例风险,该模型将这些值与生存信息(生存时间和疾病特异性死亡)相对应,以获得回归系数和每种途径活动对患者生存的影响的统计显著性。首先以p值获得的显著性被多次测试校正为q值[24]。图1给出了该过程的概述。
thumbnail 下载:
个人电脑幻灯片
巴新放大图片
断续器原始图像
图 1. 一种分析通路活动与患者生存率耦合的方法。
我们使用奇异值分解为每个样品和通路提供个体化的通路读数。然后,我们将这些读数与生存信息相结合,在通路水平上进行生存分析。
https://doi.org/10.1371/journal.pcbi.1010020.g001
在我们研究模型的输出之前,我们想激励PLAGE选择SVD作为捕获通路活动的手段。例如,让我们考虑由26种蛋白质组成的途径"叶酸和翼龙的代谢"。当研究转录本的协变异矩阵和来自METABRIC队列中死亡患者的907个样本的存活时间时,我们发现转录本水平的两个例子都与生存时间呈正负相关(图2)。通过让探针根据其对特征样本的贡献进行排名,我们看到特征样本从对生存具有积极和消极影响的基因中捕获信息。我们还看到,对特征样本有负贡献的探针也会对生存产生负面影响,而反之亦然。正是这些表达式的线性组合,以无监督的方式获得,用于以后的生存分析。
thumbnail 下载:
个人电脑幻灯片
巴新放大图片
断续器原始图像
图 2. 对于来自患病患者的样本,变量生存时间,基因表达值的特征基因和途径中的基因表达值之间的Pearson相关矩阵系数的热图。.
我们根据表达基质中对特征样本的贡献对表达基质中的基因进行了排序,并用虚线将它们包围起来。患者的生存时间与不同的基因既相关又相反。然而,特征基因捕获了表达数据中的协变量趋势,并与患者的生存时间密切相关。
https://doi.org/10.1371/journal.pcbi.1010020.g002
乳腺癌数据集分析
下载了METABRIC数据中1980年乳腺癌的转录图谱,并用我们的方法对其进行了分析。S1表列出了通路及其预后意义,结果也可作为交互式图(https://statisticalbiotechnology.github.io/metabric-pathway-survival/results.html)。我们发现1030条途径(在Reactome的2214条途径中)与q≤0.05的患者生存率相关。我们注意到,正如人们所期望的那样,与细胞周期有关的大多数途径确实与生存有关,以及与DNA复制和DNA修复有关的途径。
这个结果令人放心,但可能很无聊,因为我们已经知道细胞增殖是癌症的驱动因素[14],并且它对生存有很大的影响。我们还知道,它会影响癌细胞活性的大多数其他方面,因此很难将这一信号与影响患者生存的其他重要过程分开。幸运的是,我们已经对所有途径的活性进行了评分,并可以使用它们来突出关联,否则这些关联将被细胞增殖的更琐碎的背景所淹没。
传统上,增殖是通过转录标记基因来量化的,如MKI67[27]。然而,在这里,我们改用由我们的模型计算的"有丝分裂细胞周期疾病"的途径活性作为异常细胞增殖的代理。然后,我们通过在Cox回归模型中为每个途径添加细胞增殖的独立变量来回归增殖对其他途径活动的影响。