对癌症基因组图谱数据的综合分析发现了三十三种癌症类型的分层关联结构
张光龙,纳尔德尼萨·辛图皮苏特,林敏钦,郑志雄,安德鲁·伍尔斯顿,林志旭,何炳玲,林玉伟,斯里德维·帕达坎蒂,杨振祥
发布时间:2022 年 12 月 20 日
抽象
癌细胞在信息处理的各个层面都存在分子改变。基因组/表观基因组和转录组改变在基因之间、癌症类型内部和之间相互关联,并可能影响临床表型。尽管之前有大量关于整合癌症多组学数据的研究,但没有一个将这些关联组织成分层结构,并在广泛的外部数据中验证这些发现。我们从癌症基因组图谱(TCGA)的完整数据中推断出这种综合分层关联结构(IHAS),并编制了癌症多组学关联的纲要。有趣的是,来自多种癌症类型的基因组/表观基因组的不同改变影响了18个基因组的转录。其中一半进一步减少为三个富含(1)免疫和炎症反应,(2)胚胎发育和神经发生,(3)细胞周期过程和DNA修复的元基因组。TCGA中报告的超过80%的临床/分子表型与元基因组,基因组和其他IAS亚基的组合表达一致。此外,源自TCGA的IAS已在300多个外部数据集中得到验证,包括药物治疗后的多组学测量和细胞反应以及肿瘤,癌细胞系和正常组织中的基因扰动。综上所述,IAS根据其亚基的分子特征对患者进行分层,选择靶向基因或药物进行精准癌症治疗,并证明生存时间和转录生物标志物之间的关联可能因癌症类型而异。这些丰富的信息对于癌症的诊断和治疗至关重要。
作者摘要
癌细胞在信息处理的各个层面都存在分子改变。这些改变是相互关联的,并以复杂的方式影响临床特征。我们推断这些分子和临床特征的关联,并从癌症基因组图谱(TCGA)数据中构建综合分层关联结构(IHAS)。IHAS 在癌症组学中提供了独特的贡献,因为它 (1) 代表层次结构中的复杂关联,并呈现从特定癌症类型的单个基因到跨多种癌症类型的基因组的不同详细视图,(2) 执行垂直(跨多种类型的分析)和水平(跨多种癌症类型)数据集成, (3)在模型中纳入了大规模的生物学知识库,(4)验证了300多个外部数据集中的推断关联。从长远来看,IAS可以阐明癌症组学数据的普遍性和特殊性,为诊断提供新的见解,并为精准医学的靶向癌症治疗提供指导。
引文: Tiong K-L, Sintupisut N, Lin M-C, Cheng C-H, Woolston A, Lin C-H, et al. (2022) 对癌症基因组图谱数据的综合分析发现了三十三种癌症类型的分层关联结构。公共科学图书馆数字健康 1(12): e0000151. https://doi.org/10.1371/journal.pdig.0000151
编辑 器: Nicole Yee-Key Li-Jessen,加拿大麦吉尔大学
收到: 6月 1, 2022;接受: 2022 年 10 月 31 日;发表: 12月 20, 2022
版权所有: ? 2022 张等人这是一篇根据知识共享署名许可条款分发的开放获取文章,该许可允许在任何媒体上不受限制地使用、分发和复制,前提是注明原作者和来源。
数据可用性: 我们将 IHAS 推理和验证结果放在补充数据中,这些数据组织为分层网页并存放在 Synapse 数据库中。
资金: CHY获得中央研究院职业发展奖(授予CDA-104-M04)和台湾科学技术部(赠款108-2118-M-001-001-MY2;107-21180M-001-007-;和106-2118-M-001-012-)的支持。KLT,NS,MCL,CHC,AW,CHL,YWL和SP获得了中央研究院职业发展奖(批准号CDA-104-M04)的薪水。资助者在研究设计、数据收集和分析、发表决定或手稿准备方面没有任何作用。
竞争利益: 没有竞争利益。
介绍
癌细胞在中心教条中信息处理的各个层面都有改变。简而言之,驾驶员和乘客的改变有或没有赋予表型后果[1],驾驶员改变扰乱了涵盖所有组织类型主要细胞功能的标志性过程[2]。分子改变和肿瘤表型以复杂的方式相互关联。例如,来自不同组织的肿瘤表现出很强的多样性[3],肿瘤基因组正在快速进化并快速适应以抵抗最先进的治疗[4]。全面了解这些关系对于治愈癌症至关重要,因为由这些关系产生的模式是预后结果、药物反应和靶向治疗选择的指标,并且这些关系的操作/扰动可以有效地缩小或消除肿瘤。
尽管它很重要,但由于至少三个方面的复杂性,这种全面的知识仍然处于遥远的地平线上。首先,从认识论的角度来看,这些关系存在于统计(来自观察数据的关联)、因果关系(干预的后果)和机制(通过分子相互作用和生化反应实现)水平。其次,所有信息处理机制都发生改变,包括基因组、表观基因组、转录组、蛋白质组、代谢组和表型水平。第三,有些关系在所有癌症类型中都是通用的,但其他关系可能高度特定于某些癌症类型。然而,已经有两个主要的分子改变目录在不同的癌症中。TCGA可生成7种组学数据和丰富的临床信息,涉及33种癌症类型的11000多名患者[5-16]。国际癌症基因组联盟(ICGC)生成涵盖更多癌症类型和全基因组的多组学数据[17-20]。这些数据库提供了它们关系网络背后的全面的分子改变“零件清单”,但建立整个网络仍然是一个未解决的艰巨挑战。
其中许多关系符合中心教条的信息流。基因组上的分子畸变(例如序列突变和拷贝数变异或CNV)和表观基因组(例如DNA甲基化和染色质修饰)错误地调节转录组和蛋白质组中的丰度,从而影响临床和生理表型(例如增殖,转移和治疗反应)。这些因果关系影响癌症研究的各个方面,包括基础生物学(例如,TP53突变激活哪些代谢途径),诊断(例如,乳腺癌基底瘤的CNV标志是什么)和治疗(例如,治疗白细胞浸润水平升高的肿瘤的靶向药物是什么)。这项工作的高级目标是在所有33种癌症类型的TCGA数据中重建这些因果关系。具体来说,我们已经(1)开发并实施了一个数据整合框架,以推断基因组/表观基因组和转录组的分子改变之间的关联,以及转录组和临床/分子表型之间的关联,(2)提供了这些推断关联的纲要,涵盖7种组学数据类型和33种癌症类型,(3)将这些关联组织在一个分层结构中,允许在多个细节层次上进行调查, 我们称之为集成分层关联结构(IHAS),(4)在广泛的外部数据集中验证了IHAS。
先前的大量研究已经推断出基因或分子改变的关系。他们中的许多人整合了来自多组学数据的信息,以探索相同的队列或癌症类型(根据[21]进行垂直整合,请参阅[22-26]等评论文章),或者结合单组学数据探索多种癌症类型(水平整合)。垂直整合方法广泛用于对患者或样本进行聚类[27-31]、预测临床结局[32-34]、鉴定生物标志物或驱动基因[35-38],以及推断通路或子网活动[39-43]。水平整合通常通过泛癌症研究来实现,这些研究分析了所有癌症类型(例如[11-16,44-49])的联合数据。另一种称为meta分析的方法分别分析每个队列的数据,然后合并分析结果([50-53])。在多组学泛癌症数据整合的背景下,许多最近的方法已成功用于分析TCGA或其他癌症数据(例如,[12,54-57])。一些方法也基于中心教条信息流(例如,[35,36,39-41,56])。
尽管癌症组学数据整合取得了快速进展,但之前没有研究同时实现了我们工作中实现的四个目标。上述大多数研究对选定癌症类型的数据而不是整个TCGA数据进行了概念验证调查。发表在Cell Issue 173(2018)上的泛癌症论文涉及TCGA数据的各个方面,但未涵盖基因组/表观基因组 - 转录组关联。以前所有处理基因组/表观基因组 - 转录组关联的方法都报告了一个扁平的模块化结构(一个上游调节因子影响多个下游靶点),但没有试图找到当模块可能在癌症类型内部和之间具有复杂关系时,找到巨大结构的简洁表示。此外,没有先前的研究在来自肿瘤和正常组织的外部数据集的广泛(>300)中验证推断模型。因此,IAS在癌症组学数据整合方面做出了独特的贡献。
结果
泛癌组学数据综合分析和验证概述
乳腺癌综合分层关联的一个例子。
我们用TCGA乳腺癌数据(BRCA)的例子和图1中其他癌症类型的数据来阐明IHAS。在图A中,E2F1(位于chr20q上)mRNA表达谱(底行)与分子改变的22个特征(其余行)相关。它们构成了以E2F1为目标,其余特征为效应器的关联模型。一个效应器是chr8q CNV(4千行标有黄色边界),这被称为反式作用CNV,因为它位于与靶基因不同的染色体上。在图B中,chr8q CNV变异(由青色边界标记的顶行)与包括E2F1(黄线)在内的1000多个靶基因表达相关。它们构成了chr8q CNV的关联模块。在图C中,chr8q CNV(用黄色边界标记的行)与数十种其他分子改变(青色边界上方的行)与数千个靶基因(青色边界以下的行)共同关联。这些效应子包括反式作用的CNV,突变,DNA甲基化,mircorRNA表达和蛋白质磷酸化。效应器和靶点构成了BRCA中的超级模块。跨多种癌症类型的超级模块聚集在一起,根据其靶基因的重叠率形成超级模块组。每个超级模块组都富含几个基因组的组合。图D中的热图显示了所选超级模块(列)中基因(行)的成员出现矩阵,其中条目亮度表示每个基因在每个超级模块中出现的频率。图C中的BRCA超级模块(图D中用黄色边界标记的列)属于中间的超级模块组(20到50之间),并且该超级模块组富含四个基因组(四个用青色边界标记的斑块)。在面板E中,BRCA数据中的样本根据超级模块的组合表达模式进行聚类以形成样本组。按样本组分类的样本也与乳腺癌的PAM50亚型和生存时间一致。基于功能富集和组合表达,基因群进一步聚类为3个元基因组,跨癌症类型的样本组进一步聚类为8个泛癌样本组。图F显示了3个元基因组和2个泛癌样本组的组合表达。两个泛癌样本组(1和6)中的样品具有与三个元基因组相反的表达模式,在几种泛癌表型(包括样品纯度,DNA和RNA干性)中表现出非常不同的值,并且来自不同的癌症类型。图G总结了这些IAS亚单位的关系。包含关系有三个链条。关联模型按层次结构组织为模块、超级模块和超级模块组。基因按层次结构分为基因组和元基因组。样本按层次结构分为样本组和泛癌样本组。此外,同一水平的一些亚单位具有一定的组合关系。同一癌症类型的超级模块和样本组形成与特定功能类别和亚型相关的组合表达模式(例如,与E组中四种PAM50乳腺癌亚型中的雌激素受体,免疫反应和细胞周期控制有关的基因的差异表达)。超级模块组和基因组构成了成员出现矩阵(图D)。元基因组和泛癌症样本组形成跨多种癌症类型的全局组合表达(图F)。
缩略图 下载:
.PPT幻灯片
.PNG大图
.TIFF原始图像
图1. 来自BRCA和其他癌症类型TCGA数据的综合分层关联结构的图示。
答:E2F1作为TCGA BRCA数据中靶基因的关联模型。对模型的效应器和目标进行了注释。底行显示其在 1201 个样本中的靶基因表达,所有其他行显示模型的效应变异。一个效应器——chr8q CNV——用黄色边界标记。效应变异和靶基因表达值在[0,1]中归一化。红色和绿色条目分别表示高 (1) 和低 (0) 值,深色条目表示中间值 (0.5)。B:chr8q CNV 的关联模块作为效应器。顶行显示 chr8q CNV,所有其他行显示目标基因表达。E2F1基因表达用黄线标记。C:BRCA超级模块的效应变异(上行)和靶基因表达(下行)。效应器和目标由青色边界隔开。效应子按关联类型自上而下排序,顺序如下:反式作用CNV、突变、DNA甲基化、microRNA表达和蛋白质磷酸化。Chr8q CNV和E2F1基因表达用黄色边界标记。D:包括C组中BRCA超级模块在内的4个超级模块组中7个基因组的成员出现矩阵。每个条目的热颜色反映了包含基因(一行)并属于超级模块(一列)的模块的数量。面板 C 中 BRCA 超级模块的列用黄色边框标记。在BRCA超级模块中出现E2F1时,用蓝色条标记。由青色边界标记的矩形斑块表示超级模块组中基因组的过度代表性。E:BRCA数据中超级模块和样本组的组合表达及其与临床表型的一致性。如果基因出现在任何超级模块的至少 10 个关联模块中,则包括基因。八个超级模块和六个样本组分别由黄色水平线和垂直线划分。分类的样本与乳腺癌的四种PAM50亚型(蓝色:基底样,绿色:富含HER2,红色:管腔A青色:管腔B)和生存时间(更亮的热色表示更长的生存时间)对齐。每个样本组中的样本按存活时间降序排序,五年(1800 天)存活时间的边界用绿色垂直线标记。F:属于 3 个元基因组和 2 个泛癌症样本组的 10 个基因组在所有癌症类型的组合表达及其与几种泛癌症表型的比对。基因群由黄色水平线划分,并聚合为三个分别用红色、绿色和蓝色条标记的元基因群。两个泛癌样本组由黄色垂直线隔开。显示 RNA 和 DNA 干性的泛癌表型、样品纯度、癌症类型以及样品的原型(泛癌样品组)。G:IHAS中亚单位之间关系概述。垂直单向线表示夹杂关系;例如,模块是模型的集合,而超级模块是模块的集合。水平双向虚线表示同一水平的亚单位具有一定的组合关系;例如,相同癌症类型的超级模块和样本组形成组合表达模式,如面板E,超级模块组和基因组构成成员发生矩阵,如面板D。癌症类型内和跨癌症类型的亚基放置在图表的下部和上部。
https://doi.org/10.1371/journal.pdig.0000151.g001
IHAS 推理和验证框架。
图2说明了泛癌症组学数据的集成分析和验证框架。我们下载了涵盖33种癌症类型(表1)和7种分子特征的TCGA数据 - mRNA表达,CNV,基因突变,DNA甲基化,microRNA表达,蛋白质表达和磷酸化,SNP - 以及各种临床特征,如生存/审查时间和分子亚型。在每种癌症类型中,我们将组学数据转换为简化和标准格式(图2中的顶行)。从各癌症类型的转化数据中分层推断关联模型和模块、超级模块等关联亚基,整合跨癌症类型的超级模块形成超级模块组和基因组(第二行)。在每种癌症类型中,我们还根据关联模块的表达模式将样本聚类到样本组中,并将样本组与分子亚型和生存时间等表型对齐(第三行)。然后,我们通过三项分析(第四行)表征了跨癌症类型的IHA:基因组和超级模块的功能富集,每个超级模块组中复发效应子的鉴定,以及生物分子相互作用的动脉网络的构建,这些网络假定传递效应子 - 靶标关联。功能表征进一步将基因组减少为三个元基因组,将样本组减少为八个泛癌样本组,我们将其与泛癌表型和预后结果保持一致(第五行)。最后,我们使用来自五个来源(第六行和第七行)的外部数据集验证了 IHAS。IHAS 术语的摘要说明如表 2 所示,S1 图描述了 IHAS 推理机的架构和信息流。为清楚起见,我们简要介绍了关键的 IHAS 组件,并在方法和 S1 文本中报告了此框架的详细描述。
缩略图 下载:
.PPT幻灯片
.PNG大图
.TIFF原始图像
图2. 泛癌组学数据综合分析和验证框架概述。
对于每种癌症类型,将多种类型的组学数据转换为相同的格式(第一行)。分层关联结构是从处理后的数据推断出来的,包括癌症类型的关联模型、关联模块和超级模块,以及跨癌症类型的超级模块组和基因组(第二行)。三个子图中相同颜色的效应器或目标属于相同的关联模型、关联模块和超级模块。我们表征了分层关联结构的三个功能方面:经常出现在超级模块组中的复发效应子,基因组的功能富集以及解释分子相互作用网络中许多(效应子,靶标)关联的动脉网络(第四行)。样本按癌症类型内和跨癌症类型的超级模块和三个元基因组的组合表达模式分组,并与生存结果和临床表型(第三行和第五行)相关。最后,分层关联结构在外部数据集(第六行和第七行)中得到了广泛验证,包括乳腺癌和胶质母细胞瘤肿瘤的多组学数据(METABRIC和REMBRANDT),来自GEO的294个癌症转录组数据集,多组学癌细胞系数据(CCLE和Achilles),正常组织的转录组学和表观基因组数据(Bodymap和Roadmap)。蓝色箭头表示框架中步骤的先决条件关系。例如,IAS泛癌表征的三个步骤都需要超级模块组和基因组。
https://doi.org/10.1371/journal.pdig.0000151.g002
缩略图 下载:
.PPT幻灯片
.PNG大图
.TIFF原始图像
表 1. TCGA数据中的33种癌症类型及其样本量。
https://doi.org/10.1371/journal.pdig.0000151.t001
缩略图 下载:
.PPT幻灯片
.PNG大图
.TIFF原始图像
表 2. IHAS中亚单位的摘要描述。
https://doi.org/10.1371/journal.pdig.0000151.t002
关联模型。
S2A图显示了分子改变之间关系的示意图。除了中心教条链接之外,我们还添加了从非转录组分子改变(mircoRNA表达和蛋白质磷酸化)到mRNA表达变异的关联。关联模型将一个靶基因的mRNA表达与一个或多个效应分子改变相匹配。我们考虑了七种类型的效应子:(1)顺式作用CNV,其中染色体片段包含或近似靶基因,(2)反式作用CNV,其中染色体片段位于与靶基因不同的染色体或染色体臂上,(3)基因突变,(4)基因的聚集DNA甲基化,(5)MicroRNA表达,(6)所选蛋白质中氨基酸残基的磷酸化, (7)基因座的SNP。给定效应子x(自变量)的靶基因表达y(因变量)的条件密度由指数家族分布指定。
(1)
其中 f我(x我) 是 i 的特征函数千与效应器状态值 (x ) 相关的 x 的分量我) 到目标状态值 (y)。例如,f我(x我) = x我和 f我(x我) = ?x我表示效应子分别激活或抑制靶基因表达。λ我是模型的自由参数。Z(f(x)) 是一个归一化常数。x 和 y 都是离散随机变量。为了保留有关基因表达或CNV的连续值的信息,我们提出了一种概率量化程序([40]和S1文本第2.1.1节),方法是将连续数据(例如mRNA表达)视为离散隐藏变量的噪声测量(例如上/下调节或无变化的状态),并将隐藏状态的后验概率与测量值相关联。该模型在公式和参数推断方面类似于逻辑回归,但具有卓越的解释能力,因为它可以处理连续因变量和非线性特征函数。
为来自33种癌症类型的数十万个假定效应子的约两万个基因的mRNA数据建立关联模型在三个方面具有挑战性。从统计学上讲,鉴于候选效应物-目标对数量庞大且样本量相对较小,可能会出现虚假关联。从生物学上讲,具有相同统计强度的关联可能赋予机制/因果联系的不同相关性。从计算上讲,从如此大量的协变量中查找关联模型非常耗时。我们提出了几种方法来应对这些挑战,如S2B图所示。首先,我们开发了一种类似逐步回归的模型选择算法来构建关联模型。在每个步骤中,一个候选特征(M1′) 添加到当前模型 (M1) 仅当增强模型 (M2) 明显比 M 更拟合数据1和米1′ 就 χ 而言2和排列 p 值。其次,候选效应子在已知生物分子相互作用网络中的相关性和直接性方面被优先考虑。与目标距离较短的效应器具有更高的优先级,因为它们更有可能影响目标。具有相同距离的效应器按其类型进一步排序。第三,采用多种计算技术和并行计算来加速关联模型推理。
关联模块。
关联模型按效应器分组以形成关联模块。对于每个效应子(例如,chr8q CNV),我们收集了其关联模型包含该效应子且相应特征功能具有相同方向(正或负关联)的靶基因。每个关联模块由一个效应器和共享公共效应器的多个目标组成。我们按七种类型的效应器和两个关联方向对关联模块进行分类。顺式作用CNV模块仅具有正缔合,DNA甲基化和microRNA表达模块仅具有负缔合。对于具有反式作用CNV和SNP效应器的模块,我们还要求存在调节器,以调解从效应器到靶标的关联。协会模块共有 11 种类型。在图1的例子中,chr8q扩增可能通过调节因子MYC上调其他染色体上的下游靶标[58]。
超级模块和示例组。
在每种癌症类型中,包含具有相似表达谱的靶基因的关联模块形成一个超级模块。因此,每个超级模块都包含成员关联模块的效应器和目标的联合。同样,具有关联模块靶基因相似表达谱的样品形成样品组。采用谱聚类算法将关联模块目标的平均表达数据同时划分为超级模块和样本组。
超级模块组和基因组。
所有癌症类型中超级模块中基因的隶属关系构成了基因(行)和超级模块(列)的离散值矩阵M,其中条目Mij表示包含靶基因 i 且属于超级模块 j 的关联模块的数量。M的列(超级模块)和行(基因)通过双聚类算法形成超级模块组和基因组。首先,我们应用层次聚类根据M中超级模块的Jaccard相似性形成超级模块组。其次,根据每个基因在每个超级模块组中的出现次数(包含该基因并属于超级模块组的关联模块的数量),为每个基因分配一个超级模块组的二元隶属向量。第三,我们检索了唯一的超级模块组成员向量,并按其构成基因的数量对其进行排序。分配给排名靠前的超级模块组成员载体的基因形成基因组。
TCGA的IAS摘要
来自TCGA的所有IHAS亚基的推理结果构成了一个难以解释的大型复杂数据集。我们已将完整的 IHAS 推理结果放在网页文档中,将它们放在存储库 Synapse 中,并创建了一个供公众访问的 URL https://www.stat.sinica.edu.tw/IHAS/。我们参考这些网页文件补充数据。补充数据包含 IHAS 亚基的文本文件(例如,关联模型、关联模块、超级模块)、它们的可视化数字以及网页上的表格,允许按基因名称简单搜索超级模块。下面我们总结这些推理结果。
有完全508021的关联模型。将所有癌症类型组合在一起时,关联模型中的效应子数量遵循幂律分布,但不同癌症类型的分布差异很大(S3图)。在某些癌症类型(如ACC)中,大多数关联模型具有单个效应器,而在其他癌症类型(例如BRCA)中,关联模型具有高度不同的效应器数量。关联模型分为 24638 个关联模块。我们在 S1A 表中报告关联模块的汇总统计信息。
关联模块和样本分为 217 个超级模块和 228 个样本组。我们报告了超级模块(S1B表),样本组(S1C表),其效应子和调节因子(S1D表)以及靶基因成员发生矩阵(S1E表)的摘要信息。阐述所有超级模块关联背后的假定机制和功能含义超出了这项工作的范围。为了证明超级模块捕获癌症的重要驱动因素改变和功能过程,我们征集了四个超级模块,并在S4图中说明了它们选择的效应子和靶基因。我们在下面总结了一个乳腺癌超级模块的功能,并在S1文本(第2.3节)中描述了其他三个模块。
乳腺癌(BRCA)超级模块5(S4A图)由以下突出的效应器组成。MYC(调节chr8q CNV正关联+)、TP53(+突变)、PIK3CA和CDH1(-突变)是众所周知的驱动基因[59]。MNDA和MAGEB4(-甲基化)是骨髓细胞分化抗原,参与慢性淋巴细胞白血病和其他癌症[60]以及与免疫治疗反应相关的癌症睾丸抗原,并经历异常甲基化[61,62]。Mir-10a和let-7密切参与各种癌症相关过程(例如[63,64])。靶基因在细胞周期过程中高度富集。
图3A显示了217个超级模块(列)和16860个基因(行)的成员出现矩阵M。有17个超级模块组和18个基因组(S1E表)。用黄色边界标记的矩形斑块表示基因组在超级模块组中被过度代表。这些过度表示关系将 M 简化为粗粒度的 18×17 过度表示矩阵(S1F 表)。我们还标记了已分类的超级模块的癌症类型,发现癌症类型和超级模块组之间没有明显的依赖关系。
缩略图 下载:
.PPT幻灯片
.PNG大图
.TIFF原始图像
图3. 综合分层关联结构总结。
答:217个超级模块中16860个靶基因的成员。超级模块(列)按超级模块组排序,基因(行)按基因组排序。条目的热颜色反映了包含基因并属于超级模块的模块数量。用黄色边界标记的矩形斑块表示基因组在超级模块组中被过度代表。超级模块的癌症类型显示在顶部。B:共识动脉网络,包括解释多种癌症类型(效应子,靶标)关联对的不可或缺的相互作用。将显示由高度连接的集线器跨越的子网。节点颜色表示集线器级别:1(红色)、2(紫色)、3(绿色)、4(洋红色)。
https://doi.org/10.1371/journal.pdig.0000151.g003
IHAS 的功能表征
我们对具有三个特征的IAS进行了生物学解释:基因组和超级模块的功能富集,超级模块组的复发效应子以及由关联的解释路径跨越的动脉网络。此外,我们通过显示沿层次结构向上和向下遍历时的信息增益来证明层次结构的好处。
基因组和超级模块富含通用和特定于癌症类型的功能类别。
我们计算了来自MSigDB数据库[65]的基因组中14545个基因集的错误发现率(FDR)调整超几何富集p值(S2A表)。富集基因集的长列表总结为表3中的几个代表性功能类别。基因组1-3高度富含免疫反应和细胞粘附。基因组4-6高度富集细胞粘附,神经发生和发育。基因组7、8、10和12通过细胞周期过程高度富集。我们进一步将它们分别聚合到元基因组1-3中。单个基因组还富含特定的功能类别,包括炎症反应(基因组1),干扰素信号传导(2),通用转录(4),突触组装(5),细胞连接(6),染色体分离和细胞分裂(7),翻译和核糖体(9),DNA修复和RNA剪接(10和12),呼吸(14)和嗅觉受体(16)。
缩略图 下载:
.PPT幻灯片
.PNG大图
.TIFF原始图像
表 3. ?log10(富集p?值)的18个基因组的选定基因集。
https://doi.org/10.1371/journal.pdig.0000151.t003
我们还计算了超级模块中的基因集富集p值(S2B表)。大多数高度富集的超级模块基因集都与它们拥有的基因组的代表性功能类别兼容。然而,一些超级模块具有独特的功能富集,无法还原到基因组(S2C表)。例如,BRCA超级模块1-2(超级模块12-13)富含雌激素反应基因,LIHC超级模块1(超级模块106)富含脂质/脂肪酸代谢基因。这些独特丰富的功能主要与特定癌症类型的起源组织有关。
超级模块组的循环效应子击中Jak-Stat,TGF-β,PI3K-AKT,MAP/ERK,细胞凋亡等途径。
我们确定了每个超级模块组的循环效应器,其发生频率具有统计学意义。S3 表报告了所有超级模块组的循环效应器的完整列表,表 4 显示了排名靠前的循环效应器。下面我们描述一些著名的循环效应器。
缩略图 下载:
.PPT幻灯片
.PNG大图
.TIFF原始图像
表 4. 17个超级模块组中排名最高的循环效应器。
括号内的数字表示超级模块组中超级模块中的出现次数。
https://doi.org/10.1371/journal.pdig.0000151.t004
在超级模块组 1 中,chr9p (1-38Mb) 和 chr4q (90-190Mb) CNV 正相关分别出现在 9 个和 6 个超级模块中。它们的缺失可能分别通过Jak-Stat通路中的推定调节因子JAK2(chr9p)和TGF-β通路中的SMARCA5、SMAD1和SMAD5(chr4q)下调靶基因。超级模块组1由富含免疫应答的靶基因组成(基因组1-3)。
在超级模块组4中,突出的复发效应子包括chr13p(23-53Mb)CNV与推定的调节因子FLT3[66],CDK8[67],ELF1[68]和RB1[59],PIK3CA和TP53突变负相关。超级模块组 4 由富含免疫应答、细胞粘附和发育的靶基因组成(基因组 1-6)。
在超级模块组6中,突出的复发效应子包括chr8q(46-138Mb)(通过推定的调节因子MYC,MCM4 [69],CCNE2 [59],E2F5 [59])和chr20(1-62Mb)(通过推定的调节因子E2F1 [59]和AURKA [70])的CNV正相关,TP53,EPHB1 [71],NOTCH1的突变正相关[59]、ABCC9 和 BRCA1。超级模块组6由富含细胞周期过程的靶基因组成(基因组7,8,10,12)。
由关联解释路径跨越的动脉网络穿越三个元基因组和几个癌症相关途径。
效应子和靶标之间的关联可能是由基因调控链接的级联引起的,这些联系是通过分子相互作用网络中的路径实现的。我们从几个大型数据库和数据集中编译了一个统一的分子相互作用网络,并确定了由许多关联对的连接路径所遍历的子网。我们将这个子网称为动脉网络,因为它对于解释许多关联至关重要。跨多种癌症类型的动脉网络的共同部分是共识动脉网络。
动脉网络中的分子按水平分层。较高和较低水平的分子分别接近效应器和靶标。S5 图和 S4A 表报告了整个共识动脉网络,图 3B 显示了由高度连接的集线器跨越的子网,S4B 表显示了集线器的摘要信息。著名的集线器包括POLR2A,STAT3,SP1(级别1),EP300,MYC,FOS(级别2)和TP53,SMAD4,EIF4EBP1(级别3)。高级枢纽通常包含与许多靶基因相关的效应子。低水平枢纽通常是调节许多靶基因的主转录因子,但很少有分子改变本身。共识动脉网络(S4C 表)中高度丰富的基因集和通路包括涉及各种癌症类型的 KEGG 通路、参与三个元基因组的功能以及众多致癌信号通路(如 MAPK、Wnt、EGF、PDGF、TCR、MET、BCR、PI3K 和 KIT 通路)。
层次结构的好处。
IHAS 提供在扁平化关联结构中未显示的好处。为了证明这些好处的合理性,我们通过沿着层次结构向上或向下遍历来详细说明信息增益。向上的信息增益是显而易见的,因为较高级别的亚单位统一了多个较低级别的亚单位,因此包含单个较低级别的亚单位未涵盖的信息。例如,超级模块捆绑了与多种类型的分子畸变相关的关联,而超级模块组捆绑了在多种癌症类型中发生的关联。相反,向下的信息增益在较低级别的子单元中提供了详细信息,但在较高级别的子单元中被忽略了。S6 图总结了三个级别的向下信息增益。图A列出了四个未富集18个基因群的超级模块,包括BRCA中富含雌激素反应基因,CHOL和LIHC中的脂质代谢基因以及LAML中的血红素代谢基因。图B显示了关联模块与其包含的超级模块的平均靶基因表达谱之间的相关系数的总体分布。虽然大多数关联模块具有类似的表达式配置文件及其包含的超级模块,但某些关联模块的行为与同一超级模块的其他成员不同,这表明在将关联模块聚合到超级模块时会丢失信息。图C比较了细分为两组的相同关联模块中靶基因的相关系数分布。第1组包括具有相同效应子的基因对(黑色曲线,平均相关系数0.318),第2组包括具有不相同效应子的基因对(尽管它们至少共享一个共同效应器)(红色曲线,平均相关系数0.228)。它们的差异表明,具有不同关联模型拓扑的基因具有不同的表达谱,即使它们属于相同的关联模块。
IHAS 与临床表型的一致性
IHAS为诊断肿瘤分子亚型和生存时间提供了有用的信息。在每种癌症类型中,我们根据样本在超级模块上的组合表达模式将样本聚类到样本组中。我们发现样本组与TCGA数据中的大多数临床特征一致。根据三个元基因组的组合表达,将不同癌症类型的样本组进一步聚类为八个泛癌样本组。泛癌样本组也与TCGA或外部研究中提供的几种泛癌表型保持一致。我们进一步评估了IAS亚单位与癌症类型内和癌症类型之间患者的生存时间的关系。有趣的是,这些关系将33种癌症类型的肿瘤分为几组,可能需要不同的治疗。
样本组与癌症类型中超过80%的临床特征一致。
TCGA样本被分配到样本组,并具有丰富的临床特征。所有TCGA样品的样品组标签均在S5A表中报告。我们选择了92个特征,这些特征在相应癌症类型的至少1/4样本中具有分类和非缺失值。为了检查样本组是否提供有关特征值的信息,我们通过浓度系数量化了样本组和特征值之间的对齐,浓度系数表示每个样本组中具有主要特征值的样本比例。例如,当将ACC样品组与DNA甲基化亚型(S10A图)比对时,样品组1,2和3以CIMP低,中和高表型(分别为23/34,12/20,13/24样品)为主,浓度系数为(23 + 12 + 13)/(34 + 20 + 24)= 48/78 = 0.6154。我们(1)总结了所有样本组的一致临床特征(表5),(2)可视化并报告了排序的超级模块和样本组的组合表达,并与单个癌症类型的临床特征值并列(补充数据),(3)报告了92个特征的浓度系数(S5B表).92个特征中有76个(82.6%)具有浓度系数≥0.6。相反,当每种癌症类型中随机排列样本1000次时,最多26个(28.3%)特征具有浓度系数≥0.6。我们还通过k = 4的k-means算法对每种癌症类型的mRNA表达数据进行聚类,发现92个特征中有65个(70.7%)具有浓度系数≥0.6。因此,仅基于mRNA数据的样本簇与大多数临床特征一致,但仍然不如从TCGA数据的关联结构推断的样本组。
缩略图 下载:
.PPT幻灯片
.PNG大图
.TIFF原始图像
表 5. 样本组与癌症类型内临床特征的一致性。
对于每种癌症类型,报告每个样本组的选定亚型的代表值(特征)。
https://doi.org/10.1371/journal.pdig.0000151.t005
我们简要阐明了四种癌症类型的对齐结果(S7图和S5C和S5D表)。在BRCA中,样本组划分PAM50亚型[72]管腔A(红色),管腔B(青色),基底样(蓝色)和富含HER2(绿色)亚型分别主导样本组1-2和6,5,3和4。在COAD中,样本组与共识分子亚群(CMS,[73])CMS1(超突变,蓝色),CMS2(典型,绿色),CMS3(代谢,红色)和CMS4(间充质,青色)亚型对齐,分别主导样本组2,6-7,3-4,1和8。在LGG中,样本组与COC(簇的簇)亚型和IDH突变状态对齐。在SARC中,样本组与组织学,PARADIGM和icluster标签保持一致。超级模块(S5C表)的组合表达模式与带注释的子类型兼容。单个样本的特征值在 S5D 表中报告。例如,在BRCA样本组中,以管腔A和B亚型为主的组具有阳性ER状态,并且在富含雌激素反应的超级模块中表达高(1-3)。在COAD中,以CMS1(超突变)为主的样品组在富含细胞周期的超级模块(8-10)和富含免疫反应和发育的超级模块(6-7)中具有高表达。在SARC中,以去分化和未分化肿瘤为主的样本组在免疫应答和发育富集超级模块中具有中至高表达(7-8)。
泛癌症样本组与泛癌症表型一致。
我们根据三个元基因组的二元表达状态将228个样本组分类并划分为8个泛癌样本组。S5E表报告了228个样本组的泛癌样本组分配,图4A显示了18个基因组中分选样本组的平均表达水平。泛癌样本组1(001,蓝色,Meta基因组3中的高表达和Meta基因组1-2中的低表达)和6(110,黄色,Meta基因组1-2中的高表达和Meta基因组3中的低表达)构成了最丰富的样本组(分别为60和53)。图4B和S5F表显示了11701个TCGA样品上18个基因组的mRNA表达,这些样品按泛癌样品组和几种对齐的表型分类。与先前TCGA泛癌症研究中得出的与癌症类型密切相关的综合样本簇相反[11,12],只有不到一半(33种中的15种)癌症类型显著富集(超几何p值≤10?20)在任何泛癌症样本组(S13B表)中,表明Meta基因组的组合表达模式在癌症类型中比先前的研究更普遍。
缩略图 下载:
.PPT幻灯片
.PNG大图
.TIFF原始图像
图4. 泛癌样本组摘要和与临床特征的一致性。
答:228个样本组(列)中18个基因组(行)的组合表达模式。三个元基因组标记在左侧:元基因组1(免疫和炎症反应,红色),元基因组2(胚胎发育和神经发生,绿色),元基因组3(细胞周期过程和DNA修复,蓝色)。样本组按元基因组的组合表达模式进行排序。8个泛癌样本组(0-7)标记在顶部,并用黄色垂直线分隔。白色斑块表示基因组未富集在样本组癌症类型的任何超级模块中。B:11701个样本中16860个基因的表达。基因按基因组排序,元基因组标记在左侧。样本按样本组和泛癌样本组排序。基因组和泛癌样本组由黄色边界分隔。样品的泛癌样品组(原型)、癌症类型、样品纯度、DNA 和 RNA 干性显示在顶部。C:三个元基因组的mRNA表达与七种癌症类型的几种泛癌症特征重叠。每种癌症类型的样本按样本组分类。还显示了以下样本特征:癌症类型、原型(泛癌样本组)、样本纯度、DNA 和 RNA 干性、间充质状态、超突变状态和选定基因的突变。原型颜色代码位于面板 B 中的顶行。D:mRNA表达-存活时间关联的方向和强度(p差异Cox回归系数分布的分数)的所有癌症类型中所有基因组。正偏差和负偏差(指示正和负 Cox 回归系数)分别具有红色和绿色。
https://doi.org/10.1371/journal.pdig.0000151.g004
多种癌症类型中存在几种分子特征:胃肠道癌(COAD,READ,ESCA,STAD)和子宫癌(UCEC)中的超突变肿瘤,COAD,READ,GBM和HNSC中的间充质样本,样本纯度[74]和干性[75]。我们证明了Meta基因组的组合表达模式与这些泛癌症特征密切相关。在图4B中,纯度与中位数Meta基因组1表达(相关系数-0.5029)强反相关,RNA干性与中位数Meta基因组3表达(相关系数0.5101)强相关。
图4C显示了三个元基因组在七种癌症类型的TCGA样品上的mRNA表达,这些样本按癌症类型中的样本组,泛癌样品组(原型)标记和五个泛癌表型进行分类。间充质样品通常在元基因组 1-2 中具有高表达,在元基因组 3 中具有低表达(泛癌样本组/原型 6,超几何 p 值 1.80×10?75).超突变样本通常在选定基因中遇到频繁突变,并且在元基因组 3 中具有高表达,在元基因组 2 中具有低表达(泛癌样本组/原型 1 或 5,超几何 p 值 6.07×10?25和 3.96×10?18分别)。图4B所示的元基因组表达与样品纯度和干性的比对在图4C中也很突出。
IHAS亚基与生存时间有关。
我们证明了在某些癌症类型中,总体生存时间与IHAS密切相关,并推断了生存时间与基因群的组合表达模式之间的一般关系。
在每种癌症类型中,我们进行了三种预后关联。首先,我们通过一种新的测量方法估计了每个超级模块中存活时间-mRNA表达关联的方向和强度p差异 [76]用于Cox回归系数与背景分布的偏差(S6A表)。其次,我们评估了属于不同样本组的患者是否表现出显着不同的Kaplan-Meier曲线(S6A表和补充数据)。第三,我们手动生成了一个决策树,通过超级模块的组合表达模式来分离患者组,并在S8和S9无花果中可视化了六种癌症类型的生存分析结果,并在补充数据中可视化了所有癌症类型的生存分析结果。
我们说明了膀胱癌的预后分析结果(S8A-S8C图)。超级模块 1-4 和 5-8 分别具有很强的正负 Cox 回归系数(S6A 表)。5 个患者组具有不同的 Kaplan-Meier 曲线(对数秩 p 值 4.43×10?7),可以大致细分为较低层(组 3-5)和上层(组 1-2)。这些组之间的生存时间差异可以通过其超级模块基因表达的差异来捕获,并表示为决策树。
我们还评估了 p差异18个基因组的存活时间-mRNA表达关联得分(图4D和S6B表)。对于每个基因组,与生存时间的关联方向因癌症类型而异。元基因组 1-2 成员具有相似的 p差异评分变异,但与元基因组 3 成员反相关。此外,癌症类型根据其p的变化细分为三组差异得分超过基因组。在第1组癌症(KIRP,MESO,LGG和PAAD)中,Meta基因组1和3成员具有正Cox回归系数,而Meta基因组2成员具有负Cox回归系数。在第2组(HNSC,BRCA,KICH,PCPG,KIRC)中,Meta基因组1-2成员具有负Cox回归系数,Meta基因组3成员具有正Cox回归系数。第3组癌症(COAD,READ,LUSC,THYM,TGCT)与第2组的Cox回归系数方向相反。
IHAS 信息的集成视图。
到目前为止,我们已经分别描述了IAS亚单位的不同方面,但尚未提供所有组件的综合视图。在这里,我们展示了癌症类型内部和跨类型IHAS的整体情况,并强调了一些临床特征的影响。为了节省空间,我们在图5中阐明了乳腺癌和结肠癌的信息,在图6中阐明了泛癌的信息,并将其他癌症类型的信息放在S10和S11图以及S1文本第4.5节中。
缩略图 下载:
.PPT幻灯片
.PNG大图
.TIFF原始图像
图5. IHAS综合了两种癌症类型的视图。
答:BRCA数据的集成视图。左侧面板显示每个超级模块中所选基因集的FDR调整超几何富集p值。中间面板显示每个超级模块中所选效应器(共识动脉网络中的枢纽)的出现次数。正关联和负关联的出现显示在每个网格的上部和下部。右侧面板显示每个样本组中每个超级模块的中位数组合表达式。右图上方的彩色条显示了每个样本组中临床表型(BRCA的PAM50亚型)的组成。上面的黑条表示每个样本组中的患者总数和超过 5 年生存时间的患者数量。B:COAD 数据的集成视图。图例跟随面板 A。
https://doi.org/10.1371/journal.pdig.0000151.g005
缩略图 下载:
.PPT幻灯片
.PNG大图
.TIFF原始图像
图6. IHAS综合了多种癌症类型的视图。
答:复发性中枢效应子及其受影响靶基因功能的综合视图。它由四个补丁组成。左上角的斑块(M1) 显示了超级模块组中基因组的二进制过表示矩阵(S1E 表)。右上角的补丁(M2) 显示了每个超级模块组中 101 个选定集线器执行器的出现频率。正关联和负关联的计数显示在每个网格的上部和下部。右下角的贴片(M3) 显示 35 个已知路径中所选集线器效应器的成员矩阵。左下角的斑块(M4) 显示基因组中效应通路的总发生频率(类似于 M1?M2?M3).正关联和负关联是分开的,如 M2.这 35 条途径根据其在 M 中的模式细分为两组4.16个中枢效应器频繁出现在通路中,并注释在M的顶部2.B:验证阿喀琉斯数据中扰动 9 个选定轮毂效应器的影响。每个网格显示扰动每个选定中枢效应子的阿喀琉斯依赖性谱与属于三个元基因组的每个基因组的CCLE mRNA表达谱之间的归一化平均相关系数。上面板和下图分别来自RNAi和CRISPR数据。
https://doi.org/10.1371/journal.pdig.0000151.g006
在BRCA和COAD中整合了IAS信息。
图5A显示了BRCA数据中的以下IHAS信息:超级模块的功能富集,共识动脉网络中中枢作为每个超级模块中的效应器的出现,超级模块和样本组的组合表达,每个样本组中PAM50亚型的组成,以及每个样本组中超过5年生存时间的患者比例。综上所述,PAM50亚型由雌激素反应(ER)途径(超级模块1-3)和三个元基因组(超级模块4-8)的组合表达模式决定。管腔 A 和管腔 B 肿瘤均具有中至高 ER 表达;而大多数管腔A肿瘤(样本组1-2)在元基因组1-2中表达高,在元基因组3中表达低,但大多数管腔B和一些管腔A肿瘤(样本组5-6)在元基因组1-3中表达低。基底样和富含Her2的肿瘤(样本组3-4)在元基因组1-3中具有中到高表达,ER表达低。样本组 1-2 包含长期存活患者的比例 (0.25–0.35) 略高于样本组 4-5(约 0.2),这表明管腔 A 患者的预后结局可能略好于富含 Her2 和腔内 B 的患者。
图5B显示了COAD数据中集成的IAS信息。CMS亚型由三个元基因组(超级模块1和6-10)和基因组14(超级模块4)的组合表达决定。CMS1(超突变)和CMS4(间充质)肿瘤在元基因组1-2中具有高表达;而CMS1和一些CMS4肿瘤(样本组1)在元基因组3中具有中等表达,但一些CMS4(间充质)(样本组5)在元基因组3中的表达量较低。CMS2(典型)肿瘤(样本组3-4)在元基因组2和基因组14中具有中高表达,在元基因组1和3中具有低表达。CMS3(代谢)和其他一些肿瘤(样本组2)在元基因组3中表达中等,在元基因组1-2中表达低。样本组 2 和 4 包含长期存活患者的比例 (0.12–0.15) 略高于其他患者(低于 0.08)。
两组途径的改变会影响不同的元基因组。
我们已经展示了基因群和超级模块组中靶基因的显性功能以及超级模块组中的复发效应子。结合这些信息并检查哪些途径在选定的超级模块组中经常受到干扰及其功能后果是很自然的。为此,我们将四个表格拼凑在一起,并在图6A中可视化。左上角的斑块(M1) 显示了 17 个超级模块组中 18 个基因组的二进制过表示矩阵(S1E 表)。右上角的补丁(M2) 显示了每个超级模块组中 101 个选定集线器执行器的出现频率。右下角的贴片(M3) 显示 35 个已知路径中所选集线器效应器的成员矩阵。左下角的斑块(M4) 显示基因组中效应通路的总发生频率(类似于 M1?M2?M3).有趣的是,这35条途径大致分为两组。第1组主要影响Meta基因组3,包括与细胞周期控制(G1,G2,ATM,端粒,RB,E2F),细胞凋亡和衰老(P53和RB)有关的途径。第2组主要影响元基因组1-2,包括细胞外基质对照(ECM和整合素)和各种上游信号通路(如PYK2,HER2,MAPK / ERK和MET)。16个中枢效应子经常出现在超级模块组和选定的通路中,包括第1组通路的CDKN2A、RB1、CDK2、TP53和E2F1,第2组通路中的AKT1、PRKCA、SHC1、RAF、STAT3、MAPK1、SRC、MAPK3、MAPK8、MAPK14和EGFR。
对外部数据集的验证
为了证明IHAS的可推广性,我们在众多外部数据集中进行了验证。在第一部分,我们通过指出IHAS的各个方面(例如靶基因的表达一致性,效应子与靶标之间的关联以及IAS亚基与临床特征之间的关联)保留在METABRIC,REMBRANDT,GEO和CCLE的外部数据集中,从而证明了IHAS的真实性。在第二部分中,我们通过表明 IHAS 亚基的表达特征在 CCLE 药物反应数据和跟腱基因依赖性数据中对癌细胞系的药物治疗和基因扰动反应提供了信息,展示了 IHAS 的效用。在第三部分中,我们通过证明 IHAS 签名也存在于正常组织的 Bodymap 转录组和路线图表观基因组数据中来探索 IHAS 亚基的起源。
TCGA BRCA和GBM中超级模块的组合表达模式保留在METABRIC和REMBRANDT数据中。
乳腺癌国际联盟的分子分类学(METABRIC,[77])和分子脑肿瘤数据存储库(REMBRANDT,[78])分别包括1981例乳腺癌原发性肿瘤和176例脑肿瘤的mRNA表达,CNV,亚型标签和生存时间。TCGA BRCA和GBM中排序的超级模块和样本组的组合表达模式与METABRIC和REMBRANDT中的对齐对应物高度相似(图7和S12C,S12D,S12G和S12H图,随机排列p值为<0.001和0.009)。靶基因表达保持高度相干(p差异≥0.3,超级模块靶基因的mRNA表达相关系数分布与数据中所有基因的偏差)对于METABRIC中的所有超级模块和伦勃朗中除一个超级模块之外的所有超级模块(S7A和S8A表)。TCGA中的大多数CNV-mRNA关联也得到适度保留(p差异≥0.1)在梅塔布里克(54/61)和伦勃朗(11/22)(S7B和S8B表)。患者组的Kaplan-Meier曲线的阶次在TCGA和外部数据之间不持久(S12A,S12B,S12E和S12F图)。然而,大多数超级模块中Cox回归分布的方向和大小并不保留在METABRIC中,而是保留在伦勃朗(S7C和S8C表)中。
缩略图 下载:
.PPT幻灯片
.PNG大图
.TIFF原始图像
图 7.
(A)TCGA BRCA和(C)GBM的分选mRNA表达数据以及(B)METABRIC和(D)伦勃朗的对应物。基因按其超级模块成员资格排序,并在TCGA和外部数据中保持相同的顺序。样品按TCGA数据中的样品组和外部数据中的分子亚型(METABRIC的管腔A,基底样,HER2富集和管腔B,以及伦勃朗的前神经,经典,间充质和神经)进行分类。样本亚型在顶行标有以下代码:乳腺癌的管腔 A(红色)、基底样(蓝色)、富含 HER2 的亚型(绿色)和管腔 B(青色),GBM 的原神经(青色)、经典(蓝色)、间充质(绿色)和神经(红色)。
https://doi.org/10.1371/journal.pdig.0000151.g007
TCGA超级模块与GEO癌症转录组数据集保持一致。
我们从GEO数据库中下载了294个癌症转录组学数据集,涵盖了几乎所有33种癌症类型。对于每个GEO数据集,我们(1)计算了表达相干性(p差异),(2)对样品进行排序和分组,并将其与相应TCGA数据中的样品组对齐,(3)手动检查对齐样品组的Kaplan-Meier曲线顺序是否与TCGA数据中的顺序兼容,(4)检查样品组是否与其组织学/亚型注释对齐。
S9表总结了294个GEO数据集的基本属性和验证结果。247个数据集保留了一致的表达式(p差异≥0.1)在超过一半的超级模块中。214个数据集具有与TCGA数据兼容的对齐表达模式(不兼容得分≤0.3)。在54个有生存时间的GEO数据集中,18、20和16个数据集的Kaplan-Meier曲线分别与TCGA数据集完全、部分和不兼容。147个数据集中对齐的样本组根据其注释大致分离组织学和/或分子亚型。
我们还可视化了所有GEO数据集的对齐组合表达式和Kaplan-Meier曲线(如果存在生存信息),并在补充数据中提供了相应的TCGA数据。可视化在GEO数据集GSE68465中阐明(图8)。GSE68465是肺腺癌数据集[79]。对齐样本的组合表达数据和Kaplan-Meier曲线类似于TCGA LUAD数据(图8A和8C)。样本组与肿瘤分级大致兼容。样本组1,2,3和4分别富含分化良好,中分化,中分化和低分化以及低分化肿瘤,其生存时间遵循递减顺序(图8B和8D)。
缩略图 下载:
.PPT幻灯片
.PNG大图
.TIFF原始图像
图 8.
TCGA LUAD数据(A和B)的排序表达数据和Kaplan-Meier曲线以及GEO肺癌数据集(GSE69465)的对齐对应物(C和D)。四个样品组由黄色垂直线(A 和 C)分隔,从左(组 1)到右(组 4)。
https://doi.org/10.1371/journal.pdig.0000151.g008
效应子-靶标关联保留在CCLE多组学数据中,基因组表达模式指示CCLE和阿喀琉斯数据中的治疗/扰动反应。
癌细胞系百科全书(CCLE,[80])由来自36种癌症类型的1046种癌细胞系的多组学数据组成。阿基里斯项目提供了一个全面的癌症依赖图谱,其中报道了CCLE癌细胞系通过用RNAi[81]和CRISPR-Cas9[82]扰动基因的相对丰度。与肿瘤数据集不同,表达相干性和CNV-mRNA关联(S10A和S10B表)主要保存在Meta基因组3中,而不是在Meta基因组1-2中。大约一半的Meta基因组3的CNV-mRNA关联保留在CCLE中,但只有不到四分之一的Meta基因组1和2的关联被保留。
通过检查在TCGA中具有更多关联的效应子是否在CCLE中保留了更多相容的关联来验证与其他类型的分子改变的关联(图9A和S13图和S10C-S10F表)。对于突变和DNA甲基化,在TCGA中,相容关联发生次数(蓝点)随着关联发生次数的排名而迅速下降,但不相容关联发生次数(红点)远低于顶级的相容关联发生次数,并且下降非常缓慢。相反,对于microRNA表达和蛋白质磷酸化,相容和不相容缔合发生的变化几乎无法区分。
缩略图 下载:
.PPT幻灯片
.PNG大图
.TIFF原始图像
图 9. CCLE和阿喀琉斯数据的选定验证结果。
答:根据TCGA中的突变-mRNA关联按其出现次数对突变-mRNA关联进行排序,并显示CCLE中相应的兼容(蓝色)和不兼容(红色)关联的出现。B:CCLE中药物反应-基因群表达关联优势和方向的可视化。红色和绿色条目分别表示正关联和负关联。C和D:阿喀琉斯数据中RNAi和CRISPR扰动的基因依赖性-基因组表达关联强度和方向。
https://doi.org/10.1371/journal.pdig.0000151.g009
CCLE还包括IC501046个细胞系对药物的反应值。一个集成电路50值报告将细胞系群体减少 50% 的剂量,因此 IC 较低50值意味着对抑制细胞增殖的更敏感的药物反应。我们评估了21种药物的反应谱与18个基因组在所有细胞系中的表达谱之间的关联(图9B和S10G表)。阴性(绿色)和阳性(红色)关联表示具有高表达基因群的细胞系往往分别对药物治疗越来越敏感。这21种药物大致分为三组。药物1-3是MEK或Braf抑制剂,与所有基因组的关联较弱或没有关联。药物4-16包括所有细胞毒性药物和一些激酶抑制剂,与Meta基因组3具有强烈的负相关,与基因组6具有中度正相关。药物17-21是EGFR抑制剂,与基因组2、9和11具有中等负相关,与其他基因组的关联较弱或没有关联。
Achilles项目通过使用RNAi和CRISPR-Cas9技术对CCLE癌细胞系进行高通量功能丧失筛选,系统地鉴定细胞活力所需的基因。(基因,细胞系)条目中的大负值表示细胞系群体在基因缺失时显着下降。两种扰动技术之间15366个基因的依赖性谱相关性较弱(S14A图,平均相关系数0.0463),但具有强正相关系数的基因高度富集了IntOGen数据库中的459个癌症驱动基因[83](S14B图,KS p值2.45×10?47).因此,我们只考虑了RNAi-CRISPR相关系数排名前2000位的基因。
我们评估了每个选定扰动基因的依赖性数据与每个基因组中成员的mRNA表达数据之间的关联(平均相关系数),将2000个扰动基因分类并细分为3个簇(图9C和9D以及S10H表)。两种扰动技术之间的关联模式非常相似。簇 1(基因 1-950)的基因依赖性谱与 Meta 基因组 1 的 mRNA 表达呈负相关,与元基因组 3 的 mRNA 表达呈正相关,簇 2(基因 951-1594)和簇 3(基因 1595-2000)的基因依赖性谱与簇 1 的模式几乎相反。S10I表中报告了三个簇的基因集富集p值。奇怪的是,扰动基因簇和基因群的丰富功能之间存在不匹配。具有高表达的Meta基因组3(富含细胞周期过程)的细胞系更容易被簇2基因(富含呼吸和翻译)的缺失所影响。相比之下,具有高表达的Meta基因组1(富含免疫反应)或基因组6(富含细胞连接)的细胞系更容易被簇1基因(富含3个Meta基因组)的缺失所影响。
除了在组水平上验证IAS关联外,我们还使用阿喀琉斯数据来验证与单个基因相关的IAS预测。对泛癌效应子和靶点的综合分析表明,两组通路中的中枢效应子影响不同的元基因组(图6A)。我们确定了9个在选定的超级模块组和通路中经常发生的枢纽效应子,并在RNAi和CRISPR数据之间保持了中等相关性(≥0.1)。通路组1的4个枢纽效应子–RB1,CDK2,TP53,E2F1 –影响Meta基因组3,因此具有较高Meta基因组3表达的细胞系可能更依赖于这些效应子。同样,具有较高元基因组 1 或 2 表达的细胞系可能更依赖于通路组 2 的 5 个枢纽效应子 – AKT1、RAF1、MAPK1、MAPK14 和 EGFR。我们用扰动这些效应子的阿喀琉斯依赖性数据与三个元基因组中的CCLE mRNA表达数据之间的平均相关系数验证了这些预测(图6B)。令我们满意的是,第1组效应子通常在Meta基因组3成员中诱导负相关系数(更强的依赖性),而第2组效应子通常在Meta基因组1成员中诱导负相关系数。具体而言,RB1和TP53在基因组7中诱导强烈且一致的负相关,而AKT1和EGFR在基因组2中诱导强烈且一致的负相关。在RNAi和CRISPR数据中出现的15366个扰动基因中,其中894个(5.82%)和779个(5.07%)分别在基因组7和2中具有一致的负相关。
超级模块和基因组富含Illumina Bodymap数据中的组织特异性基因。
IAS还包含有关正常组织在其转录组和表观基因组中表现出的调节程序的信息。我们在Illumina Bodymap上验证了IHAS,这是一个涵盖27496个基因和16个正常组织的转录组学数据集(https://www.ebi.ac.uk/gxa/experiments/E-MTAB-513/Results)。元基因组3、1和2分别具有强、中度和弱表达相干性(S11A表)。我们鉴定了每个正常组织中唯一表达的8494个基因(S11B表),并计算了IHAS(S11C和S11D表)中这些组织特异性基因的富集p值。图10显示了(a)按17个超级模块组排序的217个超级模块中16个组织特异性基因集的富集p值,顺序与图3A相同,(B)按33种癌症类型排序的217个超级模块,(C)18个基因组。图10A和10C表明,几个组织特异性基因集在与表3和S2B表中的富集功能相容的IHAS中富集,例如超级模块组1-4和基因组1-3中的白细胞特异性基因(富含免疫反应),以及超级模块组6-8和基因组7中的睾丸特异性基因(富集细胞周期过程)。图10B还揭示了一些超级模块的起源组织。大脑特异性基因在中枢神经系统癌症(PCPG,GBM和LGG)的超级模块中富集。在乳房、结肠、肾脏、肝脏、肺、骨骼肌、睾丸和甲状腺中也观察到类似的富集联系。
缩略图 下载:
.PPT幻灯片
.PNG大图
.TIFF原始图像
图 10.
组织特异性基因的富集p值,源自超级模块中的Illumina Bodymap数据,按A:超级模块组,B:癌症类型和C:基因组排序。超级模块和基因组的富集p值报告在S11C和S11D表中。
https://doi.org/10.1371/journal.pdig.0000151.g010
超级模块和基因组在路线图表观基因组数据中富含组织特异性基因
除转录组外,我们还在129个正常组织的大量表观基因组数据上验证了IHAS[84]。来自几种类型的全基因组测定的原始数据被减少到用25种表观基因组状态标记的连续区域(S12A表)。我们进一步将表观基因组状态简化为潜在活性或非活性转录的二元状态。与CCLE和Bodymap数据的验证结果类似,Meta基因组3保留了最强的表观基因组一致性,而Meta基因组2和1分别是部分相干和不相干的(S12B表)。我们根据其表观基因组图谱(图11A,S12C表)生成了8个基因簇,并评估了它们对每个超级模块(图11B和S12D表)和基因组(图11C和S12E表)的富集。每个基因簇都具有独特的表观基因组活性组织模式:1:全部开启,2:全部关闭,3:神经元,4:干细胞,5:干细胞和神经元,6:除血液以外的所有组织类型,7:除干细胞和血液以外的所有组织类型,8:血液。富集模式与TCGA基因组的组织特异性功能相容。例如,簇1(全部)富含基因组4,10,12,15(细胞周期和一般转录途径),簇3(神经元)富集基因组5,18(神经元发育和投射)。
缩略图 下载:
.PPT幻灯片
.PNG大图
.TIFF原始图像
图 11.
答:来自路线图表观基因组数据的八个组织特异性基因簇的转录调控状态的组合模式。B:TCGA超级模块中路线图基因簇的富集p值。C:TCGA基因组中路线图基因簇的富集p值。超级模块和基因组的富集p值报告在S12D和S12E表中。
https://doi.org/10.1371/journal.pdig.0000151.g011
IAS与其他多组学整合研究和数据库的比较
最近的一些研究整合了TCGA中多种癌症类型的多组学数据。虽然这些研究与IHAS的纵向和/或横向数据整合具有相似的特征,但每项工作都具有特定的目标,假设,方法和重点生物过程。因此,它缺乏一个单一的标准来衡量这些方法在统一框架中的性能。相反,我们将IHAS与这些方法进行了比较,首先定性地列出它们的特征,然后定量评估它们的分析结果的重叠或相似性。我们征集了5项研究进行比较:iClusters肿瘤[12],肿瘤的免疫亚型[54],多组学因子分析(MOFA [55]),多组学主调节器分析(MOMA [56])和肿瘤微环境亚型(TME [57])。除了单个多组学综合研究外,我们还将IAS推断结果与STRING数据库中已知和预测的蛋白质-蛋白质关联进行了比较[85]。
S13A表中列出了IHAS和其他5种方法中存在或不存在12个特征:(1)基因和肿瘤的分层表示,(2)肿瘤和(3)基因的亚分类,(4)肿瘤亚类的分子改变特征,(5)肿瘤亚类的基因表达特征,(6)分子改变与基因表达之间的关联,(7)多模态整合, (8)包含已知的网络数据,(9)癌症类型特异性分析,(10)泛癌症分析,(11)与临床表型的关联,以及(12)对外部数据的验证。虽然 IHAS 具有所有 12 个特征,但每个参考方法都缺少至少一个特征。iClusters没有明确地对基因进行子分类并建立基因关联。免疫亚型手动挑选和亚分类基因,并且仅基于mRNA特征。MOFA既不处理跨癌症类型的水平整合,也不对因子化基质进行直接的基因水平解释。TME亚型是通过手动选择29个功能基因表达特征来构建的。MOMA包含最全面的分析,包括11个特征。然而,没有一个参考方法提供与IHAS那样推断亚基的分层表示。
我们还量化了源自IAS和参考方法的基因/肿瘤亚类别的重叠或相似性。来自 IHAS 的 8 个泛癌样本组和 28 个肿瘤 iCluster 仅在少数组合中表现出显着重叠(S13B 表)。相比之下,8个泛癌症样本组与6个免疫亚型强烈一致(S13C表)。MOMA肿瘤亚型在其出版物中未提供,MOMA MRB(基因亚类别)与IHAS基因组略有重叠(S13D表)。TME基因特征仅与基因组1和7显着重叠(S13E表)。4种TME亚型与一些泛癌样本组强烈重叠(S13F表)。我们还将MOFA用于综合数据,并将分解结果与每种癌症类型的IAS样本组进行比较。S13G表报告了每种癌症类型对齐簇之间重叠计数的分数和富集中位数p值。在大多数癌症类型中,重叠分数在 0.4 和 0.6 之间,富集中位数 p 值显著 (p≤10?5),表明MOFA样本簇与IHAS样本组有中等相关性。
在某些癌症类型中,TCGA联盟还报告了来自三种综合算法的样本集群 - iclusters [86],集群集群(COC [11])和PARADIGM [39]。IHAS中的样本组与这些样本簇强烈或中等一致:具有icluster,COC和PARADIGM标签的7种癌症中的6种,4种中的4种和5种癌症类型的5种具有浓度系数≥0.5。样本组与这些聚类结果之间的一致性是预期的,因为它们都捕获了癌症类型中的主要组合表达模式和相关效应分子改变。
IHAS的mRNA表达与存活时间表现出复杂和可变的关系。在癌症类型中,基因组表达与存活时间之间的关联方向和强度(图4D)类似于特征性免疫表达特征的预后一致性指数([54],图3B)。淋巴细胞浸润和巨噬细胞调控特征类似于Meta基因组1的特征,而伤口愈合特征类似于Meta基因组3的特征。
STRING 是一个已知和预测的蛋白质-蛋白质关联的大型数据库,根据多条证据线提供置信度评分。我们通过检查在同一超级模块中同时出现的效应器/调节器对和效应器-目标对是否倾向于具有较高的 STRING 分数来验证 STRING 上的 IHAS 推理结果。基因对(效应-效应或效应-靶对)按它们在超级模块上的共发生频率进行排序。为了评估STRING的富集,我们计算了累积置信度分数(从第一个到当前排名位置的分数总和)。作为阴性对照,我们随机抽样相同数量的效应器/调节器对并计算其累积分数。S15A和S15B图显示了效应器-效应器和效应器-目标对的累积分数。共存对(蓝色曲线)的累积分数比随机对(红色曲线)高得多。我们分别报告了S13H和S13I表中前10000个效应器/调节器和效应器-目标对的共存频率和STRING分数。
讨论
在这项研究中,我们在基因组/表观基因组的分子改变和多种癌症类型的转录组变异之间建立了一个综合的分层关联结构(IHAS)。我们从整个TCGA数据中推断出IAS,并在广泛的外部数据集中对其进行验证。据我们所知,这是与癌症中的分子改变和转录组变异有关的最全面的表征之一。下面我们将讨论IHAS的临床意义,局限性和潜在的扩展。
临床意义
IAS的一个主要贡献是,它以分层结构组织了基因组/表观基因组改变与癌症转录组变异之间的丰富而复杂的关联。在高水平上,大多数肿瘤的转录组变异被简化为三个主要生物过程(元基因组)的组合模式:免疫反应,发育和转移,细胞周期控制,以及其他几个主要过程(基因组),如翻译和呼吸。这些组合表达模式与癌症的大多数临床和分子特征一致,例如乳腺癌的PAM50亚型,结肠癌的CMS亚型,GBM的mRNA和G-CIMP亚型,低级别胶质瘤中的IDH突变状态,肉瘤的组织学等。当沿着层次结构下降时,常见的转录组学特征被不同癌症中不同的基因组和表观基因组改变错误调节,其他生物学过程也开始发挥作用。这一观点与癌症标志的概念[2]以及最近的几项研究一致,这些研究通过组学特征划分泛癌症亚型(例如,[54,56,57,87])。IHAS不仅提供了这种高层次的图片,而且还提供了多个层次的细节的关联信息,直至单个基因。
IAS(元基因组和基因群)中泛癌亚基的组合表达模式为靶向治疗提供了信息指南。我们已经证明,具有升高的Meta基因组1或3表达的癌细胞系对不同的药物组具有差异敏感性(图9B),并且差异依赖于扰动两组效应基因(图6B)。靶向细胞周期、DNA修复和凋亡的药物或扰动在治疗增殖但缺乏免疫反应和转移活性的肿瘤方面更有效;靶向MAPK/ERK、MET、ECM和各种其他信号通路的药物或扰动在治疗转移性和白细胞浸润但增殖较少的肿瘤方面更有效。除了这种二分法之外,在基因组9中具有高表达的细胞系对EGFR和BRAF抑制剂敏感,但独立于细胞毒性因子(图9B)。对EGFR抑制剂的敏感性与基因组9(富含蛋白质合成)的富集功能之间的可能联系是通过PI3K-AKT途径和mTOR[59,88]。因此,IHAS可以根据靶基因的组合表达模式及其与效应基因的关联,通过选择合适的药物或鉴定候选药物靶基因来辅助精准癌症治疗。
尽管元基因组和基因组的组合表达模式在癌症类型中普遍存在,但它们与患者生存时间的关系是多种多样的。我们已经证明,生存时间和基因群表达之间的关联方向因癌症类型而异(图4D)。在使用转录生物标志物预测预后结果时,这一特性引起了谨慎。例如,细胞增殖生物标志物(元基因组3)的高表达表明乳腺癌预后不良,但结直肠癌预后良好。尽管如此,这些关系仍然具有可识别的模式,因为相同元基因组的基因组具有相似的p差异向量和 p差异33种癌症类型的载体大致细分为三组。
在癌症类型中,IHAS提供了多个方面的综合视图 - 超级模块和样品组的组合表达,超级模块的功能富集,可能调节靶基因表达的效应子以及样品组中临床特征的对齐(图5和S10和S11图)。这种综合观点有助于了解潜在的生物学过程,对患者进行分层,并确定每个患者阶层的假定靶基因。
IHAS 的局限性
尽管IHAS披露了丰富的信息,但我们的分析结果在数据和算法方面受到限制。最近的研究(如[89])和这项工作暗示了异质性肿瘤中癌细胞和微环境复杂相互作用的重要性。单细胞测序数据和伴随分析对于研究肿瘤-微环境相互作用以及多种细胞类型和亚克隆的混合物是必不可少的,但在TCGA中未进行探测。此外,TCGA数据主要涵盖外显子组。在最近的研究中揭示了非蛋白质编码区域改变的作用(例如,[16]),但不能在我们的工作中概括。通过将IAS框架扩展到PCAWG联盟最近发表的全基因组癌症数据,可以恢复这些缺失的部分([17-20])。
除了数据限制之外,IHAS 推理算法还存在几个缺点。首先,该模型假设效应分子改变,靶mRNA表达和下游表型相关联。这一假设并不总是成立,因为一些癌症驱动因素可能通过改变基因活性/构象/定位而不调节转录或翻译来影响表型[59],并且mRNA数量可以与蛋白质数量松散耦合[90]。其次,显著的效应子-靶标关联需要效应子中分子改变的大量发生频率,以达到足够的统计功效。因此,经历罕见改变的基因不会被纳入关联模型。第三,根据三个元基因组的二元组合表达模式,我们生成了8个泛癌样本组。这种粗略的表征忽略了与参与呼吸、蛋白质合成和其他功能的其他基因组有关的微妙结构。
展望
关联的分层表示对于生物医学背景下的多模态、多队列数据集成至关重要。因此,IAS框架原则上可以扩展到分析其他大规模综合疾病数据。在实践中,很少有其他疾病表现出多样性,并吸引公众和研究的强烈关注,与癌症相比。将IAS框架应用于ICGC和PCAWG联盟[17-20]生成的另一种多组学癌症数据是一个明显的扩展,因为它们与TCGA数据具有非常相似的性质。除了癌症之外,IAS的另一个潜在目标是神经系统疾病的集合,因为(1)许多神经系统疾病表现出基因组,表观基因组和转录组学异常,(2)几种神经系统疾病(如阿尔茨海默病和帕金森病)的多组学数据已经可用,以及(3)不同的神经系统疾病可能具有共同的分子病因机制,并具有类似于不同类型的 癌症。然而,据我们所知,没有形成任何联盟来系统地收集多种神经系统疾病的多组学数据。在进行纵向和横向数据整合之前,需要作出大量努力来汇编和标准化来自不同来源的数据。
方法
道德声明
该项目经历了以下机构审查委员会(IRB)审查过程,以便访问乳腺癌CNV,转录组和临床信息的METABRIC数据。尽管如此,这项工作中使用的所有数据均来自公共来源。我们没有直接收集患者的任何数据。
IRB委员会名称:中央研究院生物医学科学研究IRB。
批准文号:AS-IRB03-110399。
总结
本研究中的数据处理和分析算法分为六个部分:(1)IAS亚基的层次结构关系概述,(2)数据的收集和处理,(3)从TCGA数据推断IHAS,(4)IHAS的功能表征,(5)IHAS与临床表型的一致性,(6)IAS在外部数据上的验证。我们在下面简要概述了一些关键算法,并在补充文本 S1 中报告了它们的详细过程。
IHAS 亚单位的层次结构关系
表2总结了IHAS亚基,图1G概述了它们之间的关系。包含关系有三条链(图1G中的垂直单向线)。在第一个链中,效应子改变和靶基因表达之间的关联模型按共同效应子分组为模块;同一癌症类型的模块通过相似的组合表达模式分组为超级模块;跨癌症类型的超级模块按其共享成员基因分组为超级模块组。在第二链中,基因通过超级模块的基因隶属关系发生矩阵聚类到基因组(图3A),基因群通过共同的功能富集聚类到元基因组。在第三链中,同一癌症类型的样本通过超级模块的组合表达模式聚类到样本组,跨癌症类型的样本组通过元基因群的组合表达模式聚类到泛癌样本组。同一水平的一些亚基也形成组合关系。相同癌症类型的超级模块和样本组在样本亚型中形成某些生物过程的组合表达模式。超级模块组和基因组共同划分超级模块的基因隶属关系发生矩阵。元基因组和泛癌样本组在所有癌症类型中形成三种主要生物过程的组合表达模式。构造这些亚单位和指定其关系的程序概述如下,并在补充文本S1中描述。例如,在“从TCGA数据-关联模型推断IHAS”小节中,我们描述了一个逐步回归过程,以构建类似逻辑回归的关联模型;在“从TCGA数据推断IHAS-超级模块和样本组”小节中,我们描述了一个结合光谱聚类和边界检测的过程,以同时将关联模块和样本分别聚类到超级模块和样本组中。
收集和处理数据
收集 TCGA 和外部数据。
我们从TCGA数据门户下载了所有33种癌症类型的2级和3级数据,以及TCGA样品的推断纯度[74]和干性[75]数据。我们还从以下生物途径和网络来源编制了一个统一的人类生物分子相互作用网络数据库:(1)PathwayCommons([91],版本4),(2)TRANSFAC人类转录因子及其靶基因([92],专有版本2009.1),(3)microRNA靶对的MiRTarBase([93],版本4.5),(4)在人类细胞系中编码数据ChIP-Seq实验([94],版本 2)。统一网络是由90122个分子(节点)和1068050相互作用(超边)组成的超图。
为了表征IAS的功能,我们从MSigDB数据库下载了14545个基因集[65]。我们从以下来源收集了外部组学数据集来验证IHAS:(1)1981名乳腺癌患者的METABRIC数据[77],(2)176名脑肿瘤患者的伦勃朗数据[78],(3)294个癌症转录组数据集,生存时间和组织学标签(针对其中一部分)存放在GEO数据库中,(4)1046种癌细胞系的CCLE多组学数据,涵盖所有TCGA数据类型和对21种(从24种减少)药物的反应[80],(5)基因依赖CCLE癌细胞系的跟腱数据[81,82],(6)来自16个正常组织的转录组学数据的Illumina身体图(EBI表达图谱,E-MTAB-513),(7)来自129个正常组织的路线图表观基因组数据[84]。
处理数据。
我们采用了以下归一化程序,将所有类型的组学数据转换为具有兼容尺度的相同格式。通过概率量化将各基因启动子中DNA甲基化的β值和各基因的mRNA、microRNA表达、蛋白质表达和磷酸化的累积分布函数(CDF)值转换为隐藏状态的三位一体概率向量[40]。突变和SNP数据的离散值(对于突变数据,0,1和2表示基因的沉默,错义和无义突变;对于SNP数据,0,1和2表示纯合子主要等位基因,杂合子等位基因和纯合子次要等位基因)转换为概率向量,整个质量集中在报告的离散状态。调整探针级CNV数据的概率量化以拟合扩增和缺失事件的经验分布,并将探针级CNV概率向量合并为段级CNV数据。
从TCGA数据推断IHA
关联模型。
靶基因的关联由方程1中的指数家族模型指定。S2B 图说明了推断关联模型的过程。简而言之,它由四个步骤组成。首先,关联模型构建的基础是两个嵌套回归模型的假设检验,包括参数估计、对数似然比评估、χ2和排列 p 值。其次,我们进行了所有分子改变和基因表达之间的关联,并确定了所有靶基因的候选效应子。测试统计分数的阈值由错误发现的数量和比率决定。第三,我们采用类似逐步回归的算法,在给定现有模型的情况下,逐步选择提供最高额外解释力的效应器。第四,在执行模型选择之前,我们优先考虑每个靶基因的候选效应子,首先是它们在统一分子相互作用网络中到靶基因的最短路径距离,其次是它们的分子改变类型。所有推理计算(包括成对计算和完整关联)均在Dell Precision 7920塔式工作站中执行,该工作站允许在96个节点中进行并行计算。
关联模块。
立即从所有靶基因的关联模型中确定关联模块。对于每个效应子,我们确定了所有关联模型的靶基因(y),其效应子(x)包含它。对于反式作用CNV和SNP关联,我们还确定了构成效应子和调节因子mRNA表达之间的顺式作用关联的调节因子,以及调节因子mRNA表达和靶基因mRNA表达之间的反式作用关联。
超级模块和示例组。
我们根据模块目标表达数据共同对模块和样本进行聚类。S16图说明了包括三个阶段的联合聚类算法。首先,我们将光谱聚类 [95] 递归应用于二进制分区,并分别对模块和样本进行排序。其次,我们在计算机视觉中采用一种算法来检测模块和样本的二维排序表达式数据中的边界[96]。通过卷积不同标准差的高斯核对排序模块和样本的表达式数据进行平滑处理。平滑数据的边界由其拉普拉斯中的零交叉点获得。最后,调和了先前阶段的边界。选择了对平滑比例选择具有鲁棒性的边界。
超级模块组和基因组。
超模块中基因的隶属关系构成基因(行)和超级模块(列)的离散值矩阵M,其中条目Mij表示包含基因i并属于超级模块j的模块数量(图3A)。我们提出了一种算法,将M中的超级模块和基因依次聚类,形成超级模块组和基因组。首先,我们根据超级模块的Jaccard相似性将分层聚类应用于超级模块。超级模块组的边界由6个功能类别的富集模式或成员基因的重叠决定。从概念上讲,我们确定了树状图中最高级别的节点,其中两个分支中的后代超级模块在以下功能类别中具有相似的富集模式:细胞周期,免疫反应,细胞粘附,核糖体,呼吸和突触。这些节点的后代超级模块构成了超级模块组。我们在分层聚类的停止标准中使用了这些功能类别,因为我们观察到大多数超级模块中这些功能类别的频繁丰富。其次,基因根据其超级模块组的成员模式进行聚类。如果包含该基因的构成模块的数量明显高于从随机分配的零模型派生的数量,则基因被分配到超级模块组。因此,每个基因都拥有超级模块组成员资格的二元向量。然后,我们检索了超级模块组成员的独特组合模式,并按其构成基因的数量对它们进行排序。排名靠前的超级模块组成员模式的基因构成了基因组。
表征 IHAS 的功能
构建由关联的解释路径跨越的动脉网络。
我们采用网络扩散模型来评估统一分子相互作用网络中的边缘权重,如S2C图所示。所有效应器-目标关联对的连接路径覆盖了统一网络的很大一部分,并且可能包含许多虚假路径和链路。为了从大量的连接路径中提取信息量最大的部分,我们引入了以下简化过程。首先,对于每个关联对,连接路径根据其长度和拓扑进行加权。根据简约法,短路径比长路径具有更高的权重。穿越高度连接的集线器的路径权重较低,因为它们更有可能偶然形成。其次,我们整合了这两个路径加权准则,并开发了一个网络扩散模型来分配统一网络边缘的权重。第三,我们开发了一种算法来识别由高权重边缘跨越的动脉网络。第四,我们提取了多种癌症类型的动脉网络的共同部分,并报告了共识动脉网络。
IHAS 与临床表型的关联
癌症类型内样本组的预后分析。
患者的生存或审查时间(以天为单位)分别是从首次诊断之日到报告死亡或最后一次诊断之日的间隔。我们用三种方法量化了IHAS(超级模块,基因组)中亚基之间的关联和存活/审查时间。首先,我们评估了数据中每个基因的mRNA表达谱的Cox回归系数[97],并比较了它们在亚基中成员基因与数据中所有基因之间的分布。非参数检验(如柯尔莫哥罗夫-斯米尔诺夫检验和曼-惠特尼检验)的 p 值对基因数量高度敏感,即使两个分布之间的偏差非常小,也经常接近 0。我们提出了一种新的措施p差异两个分布之间的偏差,并报告了平均Cox回归系数和p差异每个超级模块和基因组的分数。从概念上讲,我们构造了随机变量X1和 X2其 PDF 是 p1和 p2分别。p差异是两个概率之间的差异 X1大于和小于 ,其中 ε 是一个较小的值。其次,对于每个亚基,我们根据患者的中位表达水平将患者细分为两组,并计算两组Kaplan-Meier曲线的对数秩p值[98]。第三,对于每种癌症类型,我们从样本组中得出患者组,可视化他们的Kaplan-Meier曲线,并手动构建一个决策树,将其组合表达模式与生存时间相关联。
验证外部数据集上的 IHAS
对齐 GEO 数据集中的组合表达模式。
我们提出了一种算法,将每个GEO数据的组合表达模式与相应癌症类型的TCGA转录组数据对齐。样本在两个数据集之间对齐。我们将光谱聚类递归应用于两个数据集,并生成了两个样本的二元分区树。两个分区树通过动态规划对齐,以尽量减少对齐表达式模式的不匹配,并尊重两个树的拓扑。GEO数据中的样本根据对齐结果进行排序。一些GEO数据集还具有生存数据和/或样本注释,例如肿瘤组织学和分期。我们目视比较了对齐样本组中的注释,并检查了两个数据集中对齐患者组的 Kaplan-Meier 曲线,并确定它们的顺序是完全、部分还是不一致。
关联基因组表达和基因依赖性
Achilles项目通过RNAi和CRISPR技术扰动15366个基因来报告选定的CCLE细胞系的生长反应。我们根据RNAi和CRISPR依赖性数据之间的相关系数对扰动基因进行排序,并选择了前2000个基因。为了验证基因群的表达是否指示基因依赖反应,我们(1)计算了每对基因依赖性与mRNA表达数据之间的相关系数,(2)获得了每个基因组中基因mRNA表达的平均相关系数,(3)分别根据RNAi和CRISPR数据中2000个扰动基因的平均相关系数对它们进行聚类。排序的平均相关系数在图9C和9D中可视化,排序的基因在S10H表中报告,并在S10I表中报告每个簇中的丰富功能。
将TCGA中的IHAS与正常组织中的转录组学和表观基因组学数据联系起来
我们还验证了正常组织中转录组学和表观基因组数据集中的IAS(分别为Illumina Bodymap和Roadmap数据)。对于Bodymap数据,我们确定了在16种组织之一中唯一表达的基因(S11B表)。对于路线图数据,我们提取了标有25种预测表观基因组状态的片段数据(S12A表),并将数据简化为每个基因的活性转录的二元状态。组织大致细分为四组——干、神经元、血液和其他。根据基因在四个组织组上活性转录的总体二元状态将基因分为8个簇。
为了验证人体图和路线图数据中的IHAS,我们检查了具有组织特异性表达或表观基因组状态的基因是否在超级模块和基因组中强烈富集。计算并报告了超级模块和基因组中人体图和路线图中组织特异性基因的标准超几何富集p值(图10和11)。
我们将 IHAS 推理和验证结果放在补充数据中,这些数据组织为分层网页,并作为带有链接 synapse.org/#!Synapse:syn30165761/files/IHAS_data.zip 的 zip 文件存放在 Synapse 数据库中。我们还将网页置于 https://www.stat.sinica.edu.tw/IHAS/ 下。它由以下五类数据组成。
数据处理。数据处理的中间结果,包括每种癌症类型和染色体的CNV片段,以及用于确定成对关联的阈值的错误发现特征。
综合分层关联结构 (IHAS)。IHAS的内容,包括模型、模块、超级模块、超级模块组和基因组。
功能表征。IHAS的三个功能特征,包括基因集富集结果,复发效应子和阐明效应子 - 靶点关联的动脉网络。
IHAS 与临床表型的关联。IHAS表型关联的两个方面,包括样本组和与分子亚型和特征的比对,以及与生存时间的关联。
对外部数据集进行验证。在七个外部数据集上验证 IHAS,包括用于乳腺癌的 METABRIC、用于脑肿瘤的伦勃朗、来自 GEO 的转录组数据集、CCLE 癌细胞系和跟腱依赖图、药物反应的连接图、正常组织转录组的 Illumina Bodymap 和正常组织的路线图表观基因组数据。
源代码
用 C 和 Matlab 编写的 20 个程序的源代码以及从开放层 TCGA 数据集中提取的示例数据以 zip 文件的形式存储在 Synapse 数据库中,并带有链接 synapse.org/#!Synapse:syn30165761/files/IHAS_programs.zip。这些程序涵盖了本研究中生成推理和验证结果的主要程序。它们包括数据处理程序(例如将染色体划分为CNV片段),构建IHAS(例如构建关联模型并将其组合成关联模块和超级模块),功能表征(例如通过网络扩散模型评估边缘权重),与临床表型的关联(例如生存分析)以及对外部数据的验证(例如在TCGA和GEO数据之间对齐IAS靶基因表达)。还包括来自 TCGA 和外部来源的示例数据。
支持信息
IHAS 推理机的架构和信息流。
显示 1/30: pdig.0000151.s001.tiff
跳到无花果共享导航
https://ndownloader.figstatic.com/files/38614387/preview/38614387/preview.jpg
1 / 30
下载
无花果分享
S1 图 IHAS 推理机的架构和信息流。
对每种癌症类型分别进行单一癌症类型数据分析(顶部框)。在每种癌症类型中,TCGA组学数据被处理并输入模型推理算法,以构建关联模型和关联模块。关联模块和mRNA表达数据是双聚类的,形成超级模块和样品组。关联模型中的(效应子,目标)对用于从统一的生物分子网络构建动脉网络。然后,超级模块和样本组进行亚型比对、功能富集和预后关联。整合单个癌症类型的推理结果以形成泛癌症亚基(超级模块组,基因组,共识动脉网络)。这些泛癌结构与泛癌表型(分子表型和预后)一致,表征(复发效应器、功能富集和共识动脉网络中的枢纽),并根据外部数据(单个癌症类型、扰动、正常组织)进行验证。黑线表示TCGA数据和关联结果。红线表示用于验证的外部数据。蓝线表示用于推断IHAS的非TCGA数据。
https://doi.org/10.1371/journal.pdig.0000151.s001
(蒂夫)
S2 图 分层关联结构推断和表征示意图。
答:根据中心教条观点的联想方向。基因组改变(序列突变、拷贝数变异、单核苷酸多态性)、表观基因组(DNA 甲基化)、microRNA 表达和蛋白质磷酸化调节 mRNA 转录。mRNA转录的变异调节蛋白质表达。转录组和蛋白质组变异影响表型变异。B:建立单个基因关联模型的程序。首先,我们计算所有候选效应子和目标之间的成对关联,并选择关联强度(由对数似然比和排列 p 值量化)通过阈值(顶部面板中的红色边缘)的对。其次,对于每个靶基因候选效应子,根据统计假设检验结果递增选择。在中间面板中的玩具示例中,假设我们考虑将候选效应器与当前模型 M 合并1成为增强型M型2和 M0是一个没有效应器的独立模型。我们进行了三个假设检验,比较嵌套模型对,并根据右侧的表格通过三个 p 值选择模型。第三,在产生统计模型选择之前,候选效应子的优先级是它们在分子相互作用网络中到达目标基因的最短路径长度。具有较短路径长度的候选效应器具有更高的优先级。具有相同光程长度的候选效应子按其类型进行优先级排序:CNV >突变> DNA 甲基化> microRNA 表达>蛋白质磷酸化> SNP。底部面板中的玩具示例说明了这些优先级。C:通过网络扩散模型评估边缘权重的图示。假设效应子s和目标t之间存在关联,它们通过分子相互作用网络中的路径连接。网络扩散模型从s开始,以相等的概率迭代跳转到下游邻居节点,到达t或其他底部节点时停止。路径π的非归一化权重 q(π) 是在随机游走中沿π遍历的概率。归一化权重 p(π) 是假设随机游走者达到 t 的情况下沿π遍历的条件概率。从 (s, t) 对贡献的边 e 的权重是遍历 e 的所有路径的归一化路径权重的总和,这是给定随机步行者到达 t 的情况下遍历 e 的条件概率。最后,边的总权重是所有(效应器、目标)关联对贡献的边权重的总和。
https://doi.org/10.1371/journal.pdig.0000151.s002
(蒂夫)
S3 图 日志10每种癌症类型和所有癌症类型组合中关联模型的效应器数直方图。
要避免显示 ?∞(日志)100) 值,我们将零计数替换为 0.001。
https://doi.org/10.1371/journal.pdig.0000151.s003
(提夫)
S4 图 四个超级模块的选定效应子和靶基因表达的变异。
答:BRCA超级模块5。B:COAD超级模块7。C:LGG 超级模块 7。D:超强时超级模块 2。选定的效果器在每个面板的上半行上注释。目标基因位于下半行,没有注释。颜色代码如图3A–3C所示。
https://doi.org/10.1371/journal.pdig.0000151.s004
(蒂夫)
S5 图 整个共识动脉网络包括解释多种癌症类型(效应器,靶标)关联对的不可或缺的相互作用。
具有高连通性的基因被注释。节点颜色表示集线器级别:1(红色)、2(紫色)、3(绿色)、4(洋红色)。
https://doi.org/10.1371/journal.pdig.0000151.s005
(蒂夫)
S6 图 沿着IHAS的层次结构向下移动时获得的信息。
答:摘录了四个超级模块,其中富集了不属于18个基因群的基因集,它们在代表三个元基因组和其他几个功能过程的13个选定基因集中进行了功能富集。B:关联模块与其所属的超级模块之间平均靶基因表达的相关系数分布。C:具有相同效应子的关联模型(黑色)和共享一个共同效应子但也具有不同效应子(红色)的关联模型之间靶基因表达的相关系数分布。面板 B 和 C 中的 y 轴表示核密度估计值。
https://doi.org/10.1371/journal.pdig.0000151.s006
(提夫)
S7 图 超级模块和样本组的组合表达式与四种癌症类型的选定样本特征值重叠。
A:BRCA,B:COAD,C:LGG,D:SARC。样本组的主要特征值在S5C表中报告。单个样本的特征值在 S5D 表中报告。
https://doi.org/10.1371/journal.pdig.0000151.s007
(提夫)
S8 图 三种癌症类型的预后分析结果:BLCA,KIRC和LGG。
左侧面板(A、D、G)显示超级模块和患者组的组合表达式。中间面板(B,E,H)显示患者组的Kaplan-Meier曲线。右侧面板(C,F,I)显示了根据超级模块的组合表达模式划分患者组的决策树。患者组在其表达数据(A,D,G)中从左到右用青色垂直线分隔,并在其生存曲线(B,E,H)和决策树(C,F,I)中用相同的颜色注释。
https://doi.org/10.1371/journal.pdig.0000151.s008
(提夫)
S9 图 另外三种癌症类型的预后分析结果:LIHC,UCEC和UVM。
图例遵循 S8 图。
https://doi.org/10.1371/journal.pdig.0000151.s009
(提夫)
S10 图 IHAS综合了四种癌症类型的视图:ACC,BRCA,COAD,ESCA。
图例如图 5 所示。
https://doi.org/10.1371/journal.pdig.0000151.s010
(蒂夫)
S11 图 IHAS综合了四种癌症类型的观点:LGG,LUSC,PCPG,SARC。
图例如图 5 所示。
https://doi.org/10.1371/journal.pdig.0000151.s011
(蒂夫)
S12 图
样本组的卡普兰-迈尔曲线以及TCGA BRCA(A和C),METABRIC(B和D),TCGA GBM(E和G)和伦勃朗(F和H)数据的超级模块和样本组的组合表达式。
https://doi.org/10.1371/journal.pdig.0000151.s012
(蒂夫)
S13 图 在CCLE数据中保存复发性TCGA关联。
四个小组报告了四种类型的效应子的分析结果:A:突变,B:DNA甲基化,C:microRNA表达,D:蛋白质磷酸化。图例如图9A所示。
https://doi.org/10.1371/journal.pdig.0000151.s013
(提夫)
S14 图 阿喀琉斯数据中与RNAi和CRISPR扰动的基因依赖性之间的一致性。
答:RNAi和CRISPR扰动对同一基因的基因依赖性数据之间的相关系数分布。B:就RNAi和CRISPR扰动数据之间的相关系数而言,排名靠前的扰动基因中癌症驱动基因的富集结果。报告了GSEA差距及其柯尔莫哥罗夫-斯米尔诺夫p值。
https://doi.org/10.1371/journal.pdig.0000151.s014
(提夫)
S15 图 在字符串数据库上验证 IHAS 推理结果。
答:验证共存的效应器对。效应器对按其在超级模块中的共存频率排序,并计算其累积 STRING 分数。将显示排序对的排名(x 轴)及其累积 STRING 分数(y 轴)。B:验证共存的效应物-靶对。图例跟随面板 A。
https://doi.org/10.1371/journal.pdig.0000151.s015
(提夫)
S16 图 生成超级模块和样本组的算法图示。
该算法包括三个阶段。在第 1 阶段,模块和样本通过递归地对数据的行(模块)和列(样本)进行分类。在每次迭代中,子单元(模块或样本)被划分为两组。阶段 1 的输出是具有已排序的模块和样本的表达式数据。在第 2 阶段,通过与具有不同尺度(标准差)的高斯核进行卷积来平滑排序的数据。检测每个平滑数据的边界。在第 3 阶段,选择对不同尺度具有鲁棒性的边界。超级模块和样本组由所选边界划分。
https://doi.org/10.1371/journal.pdig.0000151.s016
(蒂夫)
S1 表。 综合分层关联结构的摘要信息。
答:每种癌症类型中每种类型的关联模块的数量。B:217个超级模块的汇总信息。C:228个样本组的汇总信息。D:217个超级模块的效应器和调节器。E:根据图3A的超级模块-基因成员矩阵,具有分类基因和超级模块。F:超模块组中基因群的粗粒度过表示矩阵。
https://doi.org/10.1371/journal.pdig.0000151.s017
(三十)
S2 表。 综合分层关联结构的基因集富集结果。
答:FDR 调整的基因集富集 p 值。B:超级模块的FDR调整基因集富集p值。C:FDR调整的基因集p值,在每个超级模块中唯一富集。
https://doi.org/10.1371/journal.pdig.0000151.s018
(三十)
S3 表。 所有超级模块组的完整循环效应器。
https://doi.org/10.1371/journal.pdig.0000151.s019
(三十)
S4 表。 综合分层关联结构的共识动脉网络信息。
答:共识动脉网络。B:共识动脉网络中节点的水平和程度。C:共识动脉网络中富集的基因集和途径。
https://doi.org/10.1371/journal.pdig.0000151.s020
(三十)
S5 表。 样本组的信息及其与临床特征的一致性。
答:TCGA 数据中所有样本的样本组标签。B:将样本组与临床特征对齐的浓度系数。C:S4图中显示的四种癌症类型中具有选定临床特征的样本组的对齐。D:S4图中显示的四种癌症类型中分选样本的选定临床特征值。E:样本组的泛癌样本组分配。F:排序后的样品出现在图4B中。
https://doi.org/10.1371/journal.pdig.0000151.s021
(三十)
S6 表。 综合分层关联结构预后分析结果.
A:超级模块的 Cox 回归系数分布的偏差分数和卡普兰-迈尔曲线的对数秩 p 值。B:每种癌症类型的基因组得分相同。
https://doi.org/10.1371/journal.pdig.0000151.s022
(三十)
S7 表。 METABRIC数据的验证结果。
答:TCGA BRCA和METABRIC数据中乳腺癌超级模块的mRNA表达相干评分。B:TCGA BRCA和METABRIC数据中乳腺癌超级模块的CNV-mRNA表达关联强度。C:TCGA BRCA 和 METABRIC 数据中乳腺癌超级模块的 Cox 回归系数分布和对数秩 p 值的偏差分数。
https://doi.org/10.1371/journal.pdig.0000151.s023
(三十)
S8 表。 伦勃朗数据的验证结果。
图例遵循 S7 表。
https://doi.org/10.1371/journal.pdig.0000151.s024
(三十)
S9 表。 GEO数据集的摘要信息及其验证结果。
https://doi.org/10.1371/journal.pdig.0000151.s025
(三十)
S10 表。 CCLE和阿喀琉斯数据的验证结果。
答:基因组的mRNA表达一致性评分。报告了基于所有癌细胞系和源自TCGA中33种癌症类型的癌细胞系的计算结果。B:CNV-mRNA表达关联优势。C:复发性突变-mRNA表达关联优势。D:复发性DNA甲基化-mRNA表达关联优势。E:复发性microRNA表达-mRNA表达关联优势。F:复发蛋白磷酸化-mRNA表达关联优势。G:药物反应-mRNA表达关联优势。H:图9C和9D中出现的阿喀琉斯数据中排序的扰动基因。I:图9C和9D中出现的阿喀琉斯数据基因簇的基因集富集。J:在每个扰动基因簇中对候选药物靶基因进行排序。
https://doi.org/10.1371/journal.pdig.0000151.s026
(三十)
S11 表。 Illumina Bodymap 数据的验证结果。
答:基因群的mRNA表达一致性。B:8494个基因,在16个正常组织中的每一个中唯一表达。C:分选超级模块中组织特异性基因的富集p值如图11A所示。D:基因组中组织特异性基因的富集p值。
https://doi.org/10.1371/journal.pdig.0000151.s027
(三十)
S12 表。 路线图表观基因组数据的验证结果。
答:数据中有25种表观基因组状态。B:18个基因组在二元表观基因组状态上的一致性。C 8个基因簇的成员。D:排序超级模块的富集p值出现在图11B的路线图基因簇中。E:路线图基因簇中基因组的富集p值。
https://doi.org/10.1371/journal.pdig.0000151.s028
(三十)
S13 表。 IAS与几项多组学泛癌症研究的比较。
答:IHAS 中是否存在 12 个特征和 5 种其他方法。B:8 个 IHAS 泛癌症样本组与 28 个样本 iCluster 的重叠计数和富集 p 值。C:具有6种免疫亚型的8个IHAS泛癌症样本组的重叠计数和富集p值。D:具有24个MOMA MRB的18个IAS基因组的重叠计数和富集p值。 E:具有29个TME基因特征的18个IAS基因组的重叠计数和富集p值。F:具有 4 个 TME 亚型的 8 个 IHAS 泛癌症样本组的重叠计数和富集 p 值。G:每种癌症类型中IHAS样本组和MOFA样本簇之间的对齐结果。H:共存效应对和蛋白质-蛋白质关联的STRING数据库的比较。I:循环效应-靶对和STRING数据库的比较。
https://doi.org/10.1371/journal.pdig.0000151.s029
(三十)
S1 文本。 文中详细介绍了数据处理和分析方法以及一些分析结果。
https://doi.org/10.1371/journal.pdig.0000151.s030
(英文)
确认
我们感谢TCGA联盟和METABRIC联盟授予我们访问多组学癌症数据的权限。我们也感谢颜雪芝和黄培英对手稿的评论。
引用
1.斯特拉顿先生,坎贝尔PJ,五人制足球PA。癌症基因组。自然界。2009;458(7239):719–24.pmid:19360079;PubMed Central PMCID:PMC2821689。
查看文章PubMed/NCBI谷歌学术搜索
2.哈纳汉D,温伯格RA。癌症的标志:下一代。细胞。2011;144(5):646–74.pmid:21376230。
查看文章PubMed/NCBI谷歌学术搜索
3.Tate JG, Bamford S, Jubb HC, Sondka Z, Beare DM, Bindal N, et al. COSMIC: The Catalog of Intermatic Mutations in Cancer.核酸研究 2019;47(D1):D 941–D7.pmid:30371878;PubMed Central PMCID:PMC6323903。
查看文章PubMed/NCBI谷歌学术搜索
4.Greaves M, Maley CC. 癌症的克隆进化。自然界。2012;481(7381):306–13.pmid:22258609;PubMed Central PMCID: PMC3367003.
查看文章PubMed/NCBI谷歌学术搜索
5.癌症基因组图谱研究N.全面的基因组表征定义了人类胶质母细胞瘤基因和核心途径。自然界。2008;455(7216):1061–8.pmid:18772890;PubMed Central PMCID:PMC2671642。
查看文章PubMed/NCBI谷歌学术搜索
6.癌症基因组图谱N.人类乳腺肿瘤的综合分子肖像。自然界。2012;490(7418):61–70.pmid:23000897;PubMed Central PMCID:PMC3465532。
查看文章PubMed/NCBI谷歌学术搜索
7.癌症基因组图谱研究N.肺腺癌的综合分子谱分析。自然界。2014;511(7511):543–50.pmid:25079552;PubMed Central PMCID:PMC4231481。
查看文章PubMed/NCBI谷歌学术搜索
8.癌症基因组图谱N.皮肤黑色素瘤的基因组分类。细胞。2015;161(7):1681–96.pmid:26091043;PubMed Central PMCID:PMC4580370。
查看文章PubMed/NCBI谷歌学术搜索
9.癌症基因组图谱研究N,Brat DJ,Verhaak RG,Aldape KD,Yung WK,Salama SR,等。 弥漫性低级别胶质瘤的全面综合基因组分析。工程医学杂志 2015;372(26):2481–98.pmid:26061751;PubMed Central PMCID: PMC4530011.
查看文章PubMed/NCBI谷歌学术搜索
10.癌症基因组图谱研究网络。电子地址wbe,癌症基因组图谱研究N.肝细胞癌的全面和综合基因组表征。细胞。2017;169(7):1327–41 e23.pmid:28622513;PubMed Central PMCID:PMC5680778。
查看文章PubMed/NCBI谷歌学术搜索
11.Hoadley KA, Yau C, Wolf DM, Cherniack AD, Tamborero D, Ng S, et al.对 12 种癌症类型的多平台分析揭示了起源组织内部和之间的分子分类。细胞。2014;158(4):929–44.pmid:25109877;PubMed Central PMCID:PMC4152462。
查看文章PubMed/NCBI谷歌学术搜索
12.Hoadley KA, Yau C, Hinoue T, Wolf DM, Lazar AJ, Drill E, et al. 细胞起源模式主导着来自33种癌症的10,000种肿瘤的分子分类。细胞。2018;173(2):291–304 e6.pmid:29625048;PubMed Central PMCID:PMC5957518。
查看文章PubMed/NCBI谷歌学术搜索
13.丁 L, 贝利 MH, 波塔-帕尔多 E, 托尔森 V, 科拉普里科 A, 伯特兰 D, 等.癌症基因组学开始结束时致癌过程的观点。细胞。2018;173(2):305–20 e10.pmid:29625049;PubMed Central PMCID:PMC5916814。
查看文章PubMed/NCBI谷歌学术搜索
14.Sanchez-Vega F, Mina M, Armenia J, Chatila WK, Luna A, La KC, et al. 癌症基因组图谱中的致癌信号通路。细胞。2018;173(2):321–37 e10.pmid:29625050;PubMed Central PMCID:PMC6070353。
查看文章PubMed/NCBI谷歌学术搜索
15.Bailey MH, Tokheim C, Porta-Pardo E, Sengupta S, Bertrand D, Weerasinghe A, et al. 癌症驱动基因和突变的综合表征。细胞。2018;173(2):371–85 e18.pmid:29625053。
查看文章PubMed/NCBI谷歌学术搜索
16.陈华, 李春, 彭旭, 周志, 温斯坦, 癌症基因组图谱研究N, 等.近9000例患者样本中增强子表达的泛癌症分析。细胞。2018;173(2):386–99 e12.pmid:29625054;PubMed Central PMCID:PMC5890960。
查看文章PubMed/NCBI谷歌学术搜索
17.联盟ITP-CAoWG。全基因组的泛癌症分析。自然界。2020;578(7793):82–93.pmid:32025007;PubMed Central PMCID:PMC7025898。
查看文章PubMed/NCBI谷歌学术搜索
18.亚历山德罗夫, 金 J, 哈拉德瓦拉 NJ, 黄敏, 田吴伟, 吴莹, 等.人类癌症突变特征的库。自然界。2020;578(7793):94–101.pmid:32025018;PubMed Central PMCID:PMC7054213。
查看文章PubMed/NCBI谷歌学术搜索
19.Gerstung M, Jolly C, Leshchiner I, Dentro SC, Gonzalez S, Rosebrock D, et al.2,658种癌症的进化史。自然界。2020;578(7793):122–8.pmid:32025013;PubMed Central PMCID:PMC7054212。
查看文章PubMed/NCBI谷歌学术搜索
20.Rheinbay E, Nielsen MM, Abascal F, Wala JA, Shapira O, Tiao G, et al.分析2,658个癌症全基因组中的非编码体细胞驱动因素。自然界。2020;578(7793):102–11.pmid:32025015;PubMed Central PMCID:PMC7054214。
查看文章PubMed/NCBI谷歌学术搜索
21.Tseng G. 整合组学数据。纽约:剑桥大学出版社;2015. X, 461 页, 24 页未编号的图版 p.
22.Richardson S, Tseng GC, Sun W. 综合基因组学中的统计方法.Annu Rev Stat Appl. 2016;3:181–209.pmid:27482531;PubMed Central PMCID:PMC4963036。
查看文章PubMed/NCBI谷歌学术搜索
23.Rappoport N,Shamir R.多组学和多视图聚类算法:回顾和癌症基准。核酸研究 2019;47(2):1044.pmid:30496480;PubMed Central PMCID:PMC6344869。
查看文章PubMed/NCBI谷歌学术搜索
24.Rendleman J,Choi H,Vogel C.大规模多组学数据集的整合:以蛋白质为中心的观点。Curr Opin Syst Biol. 2018;11:74–81.pmid:30906903;PubMed Central PMCID:PMC6426335。
查看文章PubMed/NCBI谷歌学术搜索
25.Hawe JS, Theis FJ, Heinig M. 从多组学数据推断交互网络。前热内特。2019;10:535.pmid:31249591;PubMed Central PMCID:PMC6582773。
查看文章PubMed/NCBI谷歌学术搜索
26.Subramanian I, Verma S, Kumar S, Jere A, Anamika K. 多组学数据集成、解释及其应用.生物信息生物洞察。2020;14:1177932219899051.pmid:32076369;PubMed Central PMCID:PMC7003173。
查看文章PubMed/NCBI谷歌学术搜索
27.通过整合分子谱进行肿瘤表征和分层揭示了基本的泛癌特征。BMC 基因组学。2015;16:503.pmid:26148869;PubMed Central PMCID:PMC4491878。
查看文章PubMed/NCBI谷歌学术搜索
28.阮 PF, 王 Y, 沈 RL, 王 S. 使用关联信号注释来促进相似性网络融合.生物信息学。2019;35(19):3718–26.沃斯:000499322300022。密码:30863842
查看文章PubMed/NCBI谷歌学术搜索
29.米志林, 郭炳华, 尹志强, 李建华, 郑志明.通过整合模块和途径的基因网络进行疾病分类。罗伊社会开放科学 2019;6(7).ARTN pmid:31417727.1098/rsos.190214。沃斯:000479146300044。
查看文章PubMed/NCBI谷歌学术搜索
30.冈萨雷斯-雷蒙德斯A,巴斯克斯AI。多组学特征可识别起源组织以外的泛癌类肿瘤。科学代表 2020;10(1):8341.pmid:32433524;PubMed Central PMCID:PMC7239905。
查看文章PubMed/NCBI谷歌学术搜索
31.Min W, Chang TH, Zhang S, Wan X. TSCCA:一种用于检测来自多种癌症的microRNA基因模式的张量稀疏CCA方法。公共科学图书馆计算生物学. 2021;17(6):e1009044.pmid:34061840;PubMed Central PMCID:PMC8195367。
查看文章PubMed/NCBI谷歌学术搜索
32.Tranchevent LC, Nazarov PV, Kaoma T, Schmartz GP, Muller A, Kim SY, et al.使用基于综合网络的方法预测神经母细胞瘤患者的临床结果。生物直接。2018;13(1):12.pmid:29880025;PubMed Central PMCID:PMC5992838。
查看文章PubMed/NCBI谷歌学术搜索
33.Cheerla A,Gevaert O.具有多模态表示的深度学习用于泛癌预后预测。生物信息学。2019;35(14):i446–i54.pmid:31510656;PubMed Central PMCID:PMC6612862。
查看文章PubMed/NCBI谷歌学术搜索
34.Altenbuchinger M, Zacharias HU, Solbrig S, Schafer A, Buyukozkan M, Schultheiss UT, et al.在德国慢性肾脏病研究中,多源数据整合方法揭示了代谢物与肾脏结果之间的新关联。科学代表 2019;9(1):13954.pmid:31562371;PubMed Central PMCID:PMC6764972。
查看文章PubMed/NCBI谷歌学术搜索
35.Akavia UD, Litvin O, Kim J, Sanchez-Garcia F, Kotliar D, Causton HC, et al.发现癌症驱动因素的综合方法。细胞。2010;143(6):1005–17.pmid:21129771;PubMed Central PMCID: PMC3013278.
查看文章PubMed/NCBI谷歌学术搜索
36.Jornsten R, Abenius T, Kling T, Schmidt L, Johansson E, Nordling TE, et al.胶质母细胞瘤拷贝数畸变转录效应的网络建模。分子系统生物学. 2011;7:486.pmid:21525872;PubMed Central PMCID:PMC3101951。
查看文章PubMed/NCBI谷歌学术搜索
37.Pinero J, Gonzalez-Perez A, Guney E, Aguirre-Plans J, Sanz F, Oliva B, et al. 网络、转录组和基因组特征区分与药物反应相关的基因。前热内特。2018;9:412.pmid:30319692;PubMed Central PMCID:PMC6168038。
查看文章PubMed/NCBI谷歌学术搜索
38.洛佩兹-科尔特斯 A, 帕斯 YMC, 格雷罗 S, 卡布雷拉-安德拉德 A, 巴里吉 SJ, 蒙泰亚努 CR, 等.肿瘤组学方法揭示乳腺癌中的基本基因:从发病机理到精准医学的全景。科学代表 2020;10(1):5285.pmid:32210335;PubMed Central PMCID:PMC7093549。
查看文章PubMed/NCBI谷歌学术搜索
39.瓦斯克 CJ, 奔驰 SC, 桑伯恩 JZ, 厄尔 D, 司徒 C, 朱 J, 等.使用PARADIGM从多维癌症基因组学数据推断患者特异性通路活动。生物信息学。2010;26(12):i237–45.pmid:20529912;PubMed Central PMCID:PMC2881367。
查看文章PubMed/NCBI谷歌学术搜索
40.辛图皮苏特, 刘普, 杨哲.胶质母细胞瘤基因组中复发性分子畸变的综合表征。核酸研究 2013;41(19):8803–21.pmid:23907387;PubMed Central PMCID:PMC3799430。
查看文章PubMed/NCBI谷歌学术搜索
41.Plaisier CL, O'Brien S, Bernard B, Reynolds S, Simon Z, Toledo CM, et al. 使用系统遗传学网络分析破译胶质母细胞瘤的因果机制调控网络。细胞系统. 2016;3(2):172–86.pmid:27426982;PubMed Central PMCID:PMC5001912。
查看文章PubMed/NCBI谷歌学术搜索
42.Rosario SR, Long MD, Affronti HC, Rowsam AM, Eng KH, Smiraglia DJ.使用癌症基因组图谱对转录代谢失调进行泛癌症分析。纳特公社。2018;9(1):5330.pmid:30552315;PubMed Central PMCID:PMC6294258。
查看文章PubMed/NCBI谷歌学术搜索
43.简约基因相关网络分析(PGCNA):一种定义模块化基因共表达的工具,用于在癌症中进行精细的分子分层。NPJ系统生物学应用,2019;5:13。pmid:30993001;PubMed Central PMCID:PMC6459838。
查看文章PubMed/NCBI谷歌学术搜索
44.Corces MR, Granja JM, Shams S, Louie BH, Seoane JA, Zhou W, et al.原发性人类癌症的染色质可及性景观。科学。2018;362(6413).pmid:30361341;PubMed Central PMCID:PMC6408149。
查看文章PubMed/NCBI谷歌学术搜索
45.Salvadores M, Mas-Ponte D, Supek F. 乘客突变准确地对人类肿瘤进行分类。公共科学图书馆计算生物学. 2019;15(4):e1006953.pmid:30986244;PubMed Central PMCID:PMC6483366。
查看文章PubMed/NCBI谷歌学术搜索
46.Demircioglu D, Cukuroglu E, Kindermans M, Nandi T, Calabrese C, Fonseca NA, et al.泛癌症转录组分析揭示了通过替代启动子的普遍调节。细胞。2019;178(6):1465–77 e17.噗:31491388。
查看文章PubMed/NCBI谷歌学术搜索
47.陈明, 李杰, 王 Y, 阿克巴尼 R, 卢 Y, 米尔斯 GB, 等. TCPA v3.0:探索功能蛋白质组学数据泛癌分析的综合平台。摩尔细胞蛋白质组学。2019;18(8 增刊 1):S15–S25.pmid:31201206;PubMed Central PMCID:PMC6692772。
查看文章PubMed/NCBI谷歌学术搜索
48.张 Y, 杨 L, 库切拉帕蒂 M, 哈吉帕纳伊斯 A, 潘塔齐 A, 布里斯托 CA, 等.体细胞结构变异对人类癌症DNA甲基组的全球影响。基因组生物学. 2019;20(1):209.pmid:31610796;PubMed Central PMCID:PMC6792267。
查看文章PubMed/NCBI谷歌学术搜索
49.胡萝卜-张J, 尚布韦N, Damrauer JS, Knijnenburg TA, Robertson AG, Yau C, et al. 癌症遗传血统及其分子相关性的综合分析.癌细胞。2020;37(5):639–54 e6.pmid:32396860;PubMed Central PMCID:PMC7328015。
查看文章PubMed/NCBI谷歌学术搜索
50.卡林·生物统计学教程。荟萃分析:由 S-L 制定、评估、合并和报告。T. Normand, Statistics in Medicine, 18, 321–359 (1999).统计医学 2000;19(5):753–9.pmid:10700744。
查看文章PubMed/NCBI谷歌学术搜索
51.研究 C, Houlston RS, Webb E, Broderick P, Pittman AM, Di Bernardo MC, et al.全基因组关联数据的荟萃分析确定了结直肠癌的四个新的易感性位点。纳特热内。2008;40(12):1426–35.pmid:19011631;PubMed Central PMCID:PMC2836775。
查看文章PubMed/NCBI谷歌学术搜索
52.Al Olama AA, Kote-Jarai Z, Berndt SI, Conti DV, Schumacher F, Han Y, et al.对 87,040 名个体的荟萃分析确定了 23 个新的前列腺癌易感位点。纳特热内。2014;46(10):1103–9.pmid:25217961;PubMed Central PMCID:PMC4383163。
查看文章PubMed/NCBI谷歌学术搜索
53.克莱因 AP, 沃尔平 BM, 里施 HA, 斯托尔岑贝格-所罗门 RZ, 莫奇 E, 张 M, 等.全基因组荟萃分析确定了五个新的胰腺癌易感位点。纳特公社。2018;9(1):556.pmid:29422604;PubMed Central PMCID:PMC5805680。
查看文章PubMed/NCBI谷歌学术搜索
54.Thorsson V, Gibbs DL, Brown SD, Wolf D, Bortone DS, Ou Yang TH, et al.癌症的免疫景观。免疫。2018;48(4):812–30 e14.pmid:29628290;PubMed Central PMCID:PMC5982584。
查看文章PubMed/NCBI谷歌学术搜索
55.Argelaguet R, Velten B, Arnol D, Dietrich S, Zenz T, Marioni JC, et al. Multi-Omics Factor Analysis-一个用于多组学数据集无监督整合的框架。分子系统生物学. 2018;14(6):e8124.pmid:29925568;PubMed Central PMCID:PMC6010767。
查看文章PubMed/NCBI谷歌学术搜索
56.Paull EO, Aytes A, Jones SJ, Subramaniam PS, Giorgi FM, Douglass EF, et al.模块化主调节器景观控制癌症转录身份。细胞。2021;184(2):334–51 e20.pmid:33434495;PubMed Central PMCID:PMC8103356。
查看文章PubMed/NCBI谷歌学术搜索
57.巴加耶夫 A, 科特洛夫 N, 诺米 K, 斯韦科尔金 V, 加富罗夫 A, 伊萨耶娃 O, 等.保守的泛癌微环境亚型可预测对免疫治疗的反应。癌细胞。2021;39(6):845–65 e7.普米德:34019806。
查看文章PubMed/NCBI谷歌学术搜索
58.Beroukhim R, Mermel CH, Porter D, Wei G, Raychaudhuri S, Donovan J, et al.人类癌症体细胞拷贝数改变的景观。自然界。2010;463(7283):899–905.pmid:20164920;PubMed Central PMCID:PMC2826709。
查看文章PubMed/NCBI谷歌学术搜索
59.温伯格RA。癌症的生物学。纽约:加兰科学;2007.
60.Joshi AD, Hegde GV, Dickinson JD, Mittal AK, Lynch JC, Eudy JD, et al. ATM, CTLA4, MNDA和HEM1在表达B细胞慢性淋巴细胞白血病的高CD38与低CD38中的应用。临床癌症研究 2007;13(18 Pt 1):5295–304.pmid:17875758。
查看文章PubMed/NCBI谷歌学术搜索
61.Almeida LG, Sakabe NJ, deOliveira AR, Silva MC, Mundstein AS, Cohen T, et al. CTdatabase:癌症睾丸抗原高通量和精选数据的知识库。核酸研究 2009;37(数据库问题):D 816–9.pmid:18838390;PubMed Central PMCID: PMC2686577.
查看文章PubMed/NCBI谷歌学术搜索
62.Saghafinia S,Mina M,Riggi N,Hanahan D,Ciriello G.跨人类肿瘤异常DNA甲基化的泛癌症景观。细胞代表 2018;25(4):1066–80 e8.PMID:30355485。
查看文章PubMed/NCBI谷歌学术搜索
63.MicroRNA-10a通过PI3K / Akt / mTOR途径抑制乳腺癌进展。肿瘤学杂志 2017;14(5):5994–6000.pmid:29113237;PubMed Central PMCID:PMC5661611。
查看文章PubMed/NCBI谷歌学术搜索
64.Chirshev E, Oberg KC, Ioffe YJ, Unternaehrer JJ. Let-7作为生物标志物,预后指标和癌症精准医学的治疗方法。临床翻译医学 2019;8(1):24.pmid:31468250;PubMed Central PMCID:PMC6715759。
查看文章PubMed/NCBI谷歌学术搜索
65.Subramanian A, Tamayo P, Mootha VK, Mukherjee S, Ebert BL, Gillette MA, et al.基因集富集分析:一种解释全基因组表达谱的基于知识的方法。美国国家科学院院刊, 2005;102(43):15545–50.pmid:16199517;PubMed Central PMCID:PMC1239896。
查看文章PubMed/NCBI谷歌学术搜索
66.Stirewalt DL, Radich JP.FLT3在造血恶性肿瘤中的作用。纳特雷夫癌症。2003;3(9):650–65.PMID:12951584。
查看文章PubMed/NCBI谷歌学术搜索
67.Firestein R, Bass AJ, Kim SY, Dunn IF, Silver SJ, Guney I, et al. CDK8是一种调节β-连环蛋白活性的结直肠癌基因。自然界。2008;455(7212):547–51.pmid:18794900;PubMed Central PMCID:PMC2587138。
查看文章PubMed/NCBI谷歌学术搜索
68.拉森 S, 川本 S, 田沼 S, 内见 F.造血调节因子ELF-1增强对OAS1抗病毒基因干扰素β的转录反应。科学代表 2015;5:17497.pmid:26643049;PubMed Central PMCID:PMC4672336。
查看文章PubMed/NCBI谷歌学术搜索
69.菊池 J, 木下 I, 清水 Y, 菊池 E, 武田 K, 阿布拉塔尼 H, 等.小染色体维持(MCM)蛋白4作为增殖的标志物及其在非小细胞肺癌中的临床和临床病理学意义。肺癌。2011;72(2):229–37.pmid:20884074。
查看文章PubMed/NCBI谷歌学术搜索
70.Furukawa T, Kanai N, Shiwaku HO, Soga N, Uehara A, Horii A. AURKA是MAPK1 / ERK2在胰腺癌中的下游靶点之一。基因。2006;25(35):4831–9.pmid:16532023。
查看文章PubMed/NCBI谷歌学术搜索
71.Wei W, Wang H, Ji S. 恶性脑肿瘤中EphB1受体的悖论.癌细胞国际 2017;17:21.pmid:28194092;PubMed Central PMCID: PMC5299699.
查看文章PubMed/NCBI谷歌学术搜索
72.帕克 JS, 穆林斯 M, 张 MC, 梁 S, 沃杜克 D, 维克里 T, 等.基于内在亚型的乳腺癌监督风险预测器。J 克林·昂科尔。2009;27(8):1160–7.pmid:19204204;PubMed Central PMCID: PMC2667820.
查看文章PubMed/NCBI谷歌学术搜索
73.Guinney J, Dienstmann R, Wang X, de Reynies A, Schlicker A, Soneson C, et al.结直肠癌的共识分子亚型。自然医学 2015;21(11):1350–6.pmid:26457759;PubMed Central PMCID:PMC4636487。
查看文章PubMed/NCBI谷歌学术搜索
74.阿兰D,西罗塔M,比尤特AJ。肿瘤纯度的系统泛癌分析。自然通讯.2015;6.ARTN 8971 WOS:000367578400001。密码:26634437
查看文章PubMed/NCBI谷歌学术搜索
75.Malta TM, Sokolov A, Gentles AJ, Burzykowski T, Poisson L, Weinstein JN, et al. 机器学习识别与致癌去分化相关的干性特征。细胞。2018;173(2):338–54 e15.pmid:29625051;PubMed Central PMCID:PMC5902191。
查看文章PubMed/NCBI谷歌学术搜索
76.Tiong KL, Lin YW, Yeang CH. 癌症类型内和跨癌症类型单细胞转录组学数据中基因簇异质性的表征.生物开放。2022;11(6).pmid:35665803;PubMed Central PMCID:PMC9235070。
查看文章PubMed/NCBI谷歌学术搜索
77.Curtis C, Shah SP, Chin SF, Turashvili G, Rueda OM, Dunning MJ, et al.2,000个乳腺肿瘤的基因组和转录组结构揭示了新的亚群。自然界。2012;486(7403):346–52.pmid:22522925;PubMed Central PMCID:PMC3440846。
查看文章PubMed/NCBI谷歌学术搜索
78.Madhavan S,Zenklusen JC,Kotliarov Y,Sahni H,Fine HA,Buetow K. Rembrandt:通过综合转化研究帮助个性化医疗成为现实。分子癌症研究 2009;7(2):157–67.pmid:19208739;PubMed Central PMCID:PMC2645472。
查看文章PubMed/NCBI谷歌学术搜索
79.主任挑战联盟肺A分子分类, Shedden K, Taylor JM, Enkemann SA, Tsao MS, Yeatman TJ, et al.基于基因表达的肺腺癌生存预测:一项多位点盲法验证研究。自然医学 2008;14(8):822–7.pmid:18641660;PubMed Central PMCID:PMC2667337。
查看文章PubMed/NCBI谷歌学术搜索
80.巴雷蒂娜 J, 卡波尼格罗 G, 斯特兰斯基 N, 文卡特桑 K, 马戈林 AA, 金 S, 等.癌细胞系百科全书能够预测抗癌药物敏感性的模型。自然界。2012;483(7391):603–7.pmid:22460905;PubMed Central PMCID: PMC3320027.
查看文章PubMed/NCBI谷歌学术搜索
81.Tsherniak A, Vazquez F, Montgomery PG, Weir BA, Kryukov G, Cowley GS, et al.定义癌症依赖性地图。细胞。2017;170(3):564–76 e16.pmid:28753430;PubMed Central PMCID:PMC5667678。
查看文章PubMed/NCBI谷歌学术搜索
82.Meyers RM, Bryan JG, McFarland JM, Weir BA, Sizemore AE, Xu H, et al.拷贝数效应的计算校正提高了癌细胞中CRISPR-Cas9必需性筛选的特异性。纳特热内。2017;49(12):1779–84.pmid:29083409;PubMed Central PMCID:PMC5709193。
查看文章PubMed/NCBI谷歌学术搜索
83.马丁内斯-希门尼斯 F, 穆伊诺斯 F, 森蒂斯一世, 德乌庞斯 J, 雷耶斯-萨拉查一世, 阿内多-帕克 C, 等.突变癌症驱动基因的纲要。纳特雷夫癌症。2020;20(10):555–72.噗:32778778。
查看文章PubMed/NCBI谷歌学术搜索
84.路线图表观基因组学 C, Kundaje A, Meuleman W, Ernst J, Bilenky M, Yen A, et al.111个参考人类表观基因组的综合分析。自然界。2015;518(7539):317–30.pmid:25693563;PubMed Central PMCID: PMC4530010.
查看文章PubMed/NCBI谷歌学术搜索
85.Franceschini A, Szklarczyk D, Frankild S, Kuhn M, Simonovic M, Roth A, et al. STRING v9.1:蛋白质-蛋白质相互作用网络,具有更大的覆盖范围和整合性。核酸研究 2013;41(数据库问题):D 808–15.pmid:23203871;PubMed Central PMCID:PMC3531103。
查看文章PubMed/NCBI谷歌学术搜索
86.Shen R,Olshen AB,Ladanyi M.使用联合潜在变量模型对多种基因组数据类型进行综合聚类,并应用于乳腺癌和肺癌亚型分析。生物信息学。2009;25(22):2906–12.pmid:19759197;PubMed Central PMCID:PMC2800366。
查看文章PubMed/NCBI谷歌学术搜索
87.Kim JW, Abudayyeh OO, Yeerna H, Yeang CH, Stewart M, Jenkins RW, et al. 分解致癌转录特征以生成不同细胞状态的图谱。细胞系统. 2017;5(2):105–18 e9.pmid:28837809;PubMed Central PMCID:PMC5639711。
查看文章PubMed/NCBI谷歌学术搜索
88.格施温德 A, 费舍尔 OM, 乌尔里希 A.受体酪氨酸激酶的发现:癌症治疗的靶点。纳特雷夫癌症。2004;4(5):361–70.PMID:15122207。
查看文章PubMed/NCBI谷歌学术搜索
89.Jackson HW, Fischer JR, Zanotelli VRT, Ali HR, Mechera R, Soysal SD, et al.乳腺癌的单细胞病理学景观。自然界。2020;578(7796):615–20.pmid:31959985。
查看文章PubMed/NCBI谷歌学术搜索
90.刘彦, 拜尔 A, 艾伯塞尔德 R.细胞蛋白水平对mRNA丰度的依赖性。细胞。2016;165(3):535–50.pmid:27104977。
查看文章PubMed/NCBI谷歌学术搜索
91.Cerami EG, Gross BE, Demir E, Rodchenkov I, Babur O, Anwar N, et al. Pathway Commons,生物途径数据的网络资源。核酸研究。2011;39:D685–D90.沃斯:000285831700109。pmid:21071392
查看文章PubMed/NCBI谷歌学术搜索
92.Matys V, Kel-Margoulis OV, Fricke E, Liebich I, Land S, Barre-Dirrie A, et al. TRANSFAC (R) 及其模块 TRANSCompel (R):真核生物中的转录基因调控。核酸研究。2006;34:D108–D10.沃斯:000239307700023。密码:16381825
查看文章PubMed/NCBI谷歌学术搜索
93.Hsu SD, Lin FM, Wu WY, Liang C, Huang WC, Chan WL, et al. miRTarBase:一个数据库管理实验验证的microRNA-靶点相互作用。核酸研究 2011;39(数据库问题):D 163–9.pmid:21071411;PubMed Central PMCID: PMC3013699.
查看文章PubMed/NCBI谷歌学术搜索
94.Davis CA, Hitz BC, Sloan CA, Chan ET, Davidson JM, Gabdank I, et al.DNA元素百科全书(ENCODE):数据门户更新。核酸研究 2018;46(D1):D 794–D801.pmid:29126249;PubMed Central PMCID:PMC5753278。
查看文章PubMed/NCBI谷歌学术搜索
95.Shi JB, Malik J. 归一化切割和图像分割.IEEE T 模式分析. 2000;22(8):888–905.沃斯:000089321500013。
查看文章谷歌学术搜索
96.Marr D. Vision:对视觉信息的人类表示和处理的计算研究。旧金山:W.H.弗里曼;1982. 十七, 397 页
97.Cox DR. 回归模型和寿命表。J R 统计学报 B. 1972;34(2):187–+.WOS:A1972N572600003.
查看文章谷歌学术搜索
98.Peto R, Peto J. 渐近高效秩不变检验程序.J R Stat Soc Ser a-G.1972;135:185–&.WOS:A1972N166900020.
查看文章谷歌学术搜索