厦门论文发表-使用深度自动编码器和基因表达识别管腔-A乳腺癌的预后亚组
抽象
Luminal-A乳腺癌是最常见的亚型,其特征是激素受体的高表达水平。然而,一些腔内-A型乳腺癌患者对内分泌疗法有内在和/或获得性耐药性,内分泌疗法被认为是管腔-A型乳腺癌的一线治疗。管腔-A乳腺癌内的这种异质性需要更精确的分层方法。因此,我们的研究旨在确定管腔-A型乳腺癌的预后亚组。在这项研究中,我们发现了两个使用深度自动编码器和基因表达的腔内-A乳腺癌预后亚组(BPS-LumA和WPS-LumA)。深度自动编码器使用METABRIC数据集中679个luminal-A乳腺癌样本的基因表达谱进行训练。然后,使用深度自动编码器生成的每个样本的潜在特征进行K-Means聚类,将样本分为两个亚组,并进行Kaplan-Meier生存分析以比较它们之间的预后(无复发生存期)。结果,两个亚组之间的预后差异显著(p值= 6.70E-05;对数秩检验)。使用TCGA BRCA数据集中415个腔内-A乳腺癌样本的基因表达谱验证了两个亚组之间的预后差异(p值= 0.004;对数秩检验)。值得注意的是,在发现预后亚群方面,潜在特征优于基因表达谱和传统降维方法。最后,我们发现核糖体相关的生物学功能可能与它们之间的预后差异有关。我们的分层方法有助于了解管腔A型乳腺癌的复杂性并提供个性化药物。
作者摘要
Luminal-A乳腺癌是最常见的乳腺癌亚型。然而,它显示出预后的高度变异性,需要更精确的分层。在本文中,我们确定了两个腔内-A乳腺癌的预后亚组,BPS-LumA和WPS-LumA。为此,我们使用了深度自动编码器,它可以自动生成代表基因表达基本特性的信息性潜在特征。我们发现,使用潜在特征聚类的两个亚组在预后上存在显着差异。这种预后差异通过外部腔内-A乳腺癌队列进行了验证。我们发现,与基因表达谱相比,只有潜在特征才能发现预后亚组。此外,我们将我们的结果与之前的两种腔内-A乳腺癌分层方法进行了比较,这两种方法相互补充。最后,我们认为与两个亚群间差异表达基因相关的生物学功能是导致预后差异的潜在分子机制。我们希望我们的方法可用于Luminal-A乳腺癌的个性化医疗。
数字
Fig 4Fig 5Fig 6图1图2图3Fig 4Fig 5Fig 6图1图2图3
引文: Wang S, Lee D (2023) 使用深度自动编码器和基因表达识别管腔 A 乳腺癌的预后亚组。公共科学图书馆计算生物学19(5): e1011197. https://doi.org/10.1371/journal.pcbi.1011197
编辑 器: Mark Alber,加州大学河滨分校,美国
收到: 2年2023月18日;接受: 2023月 30, 2023;发表: <>月 <>, <>
版权所有: ? 2023 王李。这是一篇根据知识共享署名许可条款分发的开放获取文章,该许可允许在任何媒体上不受限制地使用、分发和复制,前提是注明原作者和来源。
数据可用性: 论文中没有主要数据;所有数据均可在数据库(https://pubmed.ncbi.nlm.nih.gov/22522925/,https://pubmed.ncbi.nlm.nih.gov/23000897/),cBioPortal(https://www.cbioportal.org/)和GTEx(https://gtexportal.org/home)的原始出版物上获得。我们已经在 GitHub 上存档了我们的代码 https://github.com/BISLshwang/ISLA。
资金: SW和DL由科学和信息通信技术部通过国家研究基金会(NRF-2022M3A9B6017511)提供支持。资助者在研究设计、数据收集和分析、发表决定或手稿准备方面没有任何作用。
竞争利益: 提交人声明他们没有竞争利益。
介绍
个性化医疗是现代医学的终极目标[1]。个性化医疗源于数百万人正在服用对他们没有帮助的药物。据报道,美国收入最高的十大药物对服用这些药物的人只有1/25和1/4的帮助[2]。这是由于大规模临床试验的局限性,无法考虑每个患者的个体特征[3]。幸运的是,由于最近高通量技术的发展,有人试图从各种组学数据中推断出每个患者的个体特征,并将其反映在疾病的治疗和管理中。在这种情况下,乳腺癌是个性化医疗在临床上实现的显着疾病之一。
乳腺癌是女性死亡的主要原因之一[4],已经发现乳腺癌是一种异质性疾病,其亚型具有不同的分子机制,需要不同的治疗策略[5]。传统上,免疫组织化学标志物(例如ER、PR和HER2)用于对乳腺癌患者进行分层[6]。最近,PAM50是最流行的亚型方法,它根据2个基因的表达水平将乳腺癌分为几种内在亚型(例如管腔-A、管腔-B、HER50富集和基底样)[7]。此外,众所周知,基于免疫组织化学的分层与PAM50之间存在显著一致性[7]。
特别是,腔内-A型乳腺癌是最常见的亚型,约占全乳腺癌的60~70%,其特征是激素受体阳性(ER,PR)和HER2受体阴性[8]。因此,内分泌治疗被认为是腔内-A型乳腺癌的一线治疗。例如,芳香化酶抑制剂(例如阿那曲唑、来曲唑和依西美坦)通过抑制雄激素对雌激素的芳构化来阻断雌激素的产生[9]。另一方面,他莫昔芬等选择性雌激素受体调节剂(SERM)阻断雌激素和雌激素受体的结合,而依来司坦和氟维司群等选择性雌激素受体降解剂(SERD)抑制雌激素受体易位到细胞核并降解它们[9]。然而,即使在腔内-A型乳腺癌亚型中,一些患者对这些内分泌治疗表现出内在和/或获得性耐药[10],与其他乳腺癌亚型相比,腔内-A型乳腺癌的预后差异更大[11]。
因此,腔内A型乳腺癌内的这种异质性需要更精确的分层方法,从而可以预测预后并提供个性化的诊断和治疗。最近,之前的几项研究表明,通过机器学习和基因表达,可以确定管腔-A型乳腺癌的预后亚组。例如,Netanely等人使用表达中最可变的基因将Luminal-A乳腺癌样本聚类为两个预后亚组(LumA-R1和LumA-R2)[12]。后来,Poudel等人根据代表五种不同细胞类型(肠细胞、炎症、干细胞样、杯状和TA)的几种标记基因的表达水平将管腔-A乳腺癌分为五个亚组[13],他们发现五个亚组中有四个在预后上存在显着差异[14]。
尽管以前的研究成功地确定了腔内-A乳腺癌的预后亚组,但它们有一个局限性,即它们需要人类工程学来选择分层的特征(基因)。例如,Netanely等人选取了表达变异性最高的前2个基因,Poudel等人根据微阵列分析的意义选择了标记基因[000]。但是,这些手工制作的功能需要高水平的专业知识,并且制作它们的过程可能很费力。
从特征工程的角度来看,利用数据驱动的自动特征学习的深度学习可能是一个有前途的解决方案[16]。特别是,自动编码器是一种人工神经网络,旨在实现数据降维和特征提取[17]。自动编码器的训练目的是在隐藏层中生成潜在特征,从而可以在输出层中重建输入特征。因此,自动编码器会自动提取和压缩输入特征的基本属性,并在隐藏层中生成信息性潜在特征。最近,Tan等人利用乳腺癌的基因表达训练了自动编码器,他们表明潜在特征能够区分乳腺癌的内在亚型[18]。Dwivedi等人表明,疾病模块可以通过用大型基因表达数据集训练的自动编码器来发现[19]。
在这项研究中,我们确定了两个腔内-A乳腺癌的预后亚组。为此,我们使用管腔-A乳腺癌的基因表达谱训练深度自动编码器,以生成每个样本的信息性潜在特征,并通过潜在特征和无监督学习发现了亚组。此外,我们发现我们的方法在实现Luminal-A乳腺癌的精准医疗方面具有重要的生物学贡献。首先,我们证明了我们的方法在独立测试集中是可行的,这是将深度学习方法转化为临床实践的最重要部分。此外,我们证明了在发现预后亚群方面,潜在特征比基因表达谱和传统降维方法(即PCA)产生的特征更有用。此外,我们提出了潜在的分子机制,这些机制使用亚组之间的差异表达基因和加权基因共表达网络分析来确定预后差异。最后,我们将我们的分层与之前的两种腔内-A乳腺癌分层方法进行了比较。
结果
深度自动编码器生成的潜在特征成功识别管腔-A型乳腺癌的预后亚组
首先,由于我们的目标是获得信息性的潜在特征来识别luminal-A乳腺癌的预后亚组,我们训练了深度自动编码器,它能够自动提取和压缩基因表达谱的重要特性,而无需额外的人体工程学。为此,我们从METABRIC和TCGA数据集中获得了679和415个luminal-A乳腺癌样本的基因表达谱,分别将其用作训练集和验证集。在训练深度自动编码器之前,我们根据METABRIC数据集(S5表)中的中位绝对偏差(MAD)选择了样本中变异性最高的前000,1个基因。然后,我们使用最小-最大缩放重新规范化两个数据集中的基因表达谱,并将它们用作深度自动编码器的输入特征(图1A和方法)。我们训练了八个具有不同隐藏层大小(16、32、64、128、256、512、1024 和 2048)的深度自动编码器。我们将所有三个隐藏层的大小设置为相同,以查看隐藏层的大小是否会影响深度自动编码器的性能[19]。通过输入层重整化基因表达谱与输出层重建基因表达谱之间的均方误差(MSE)评价深度自编码器的性能。
缩略图 下载:
.PPT幻灯片
.PNG大图
.TIFF原始图像
图1. 整体管道。
(一) 十1是重整化的基因表达谱和 X5是从潜在特征重建的基因表达谱。N是基因的数量,M是样本的数量。使用METABRIC中腔内A乳腺癌的重整化基因表达谱训练深度自动编码器,并使用TCGA BRCA的样品作为验证集。(B)在深度自动编码器的第二个隐藏层中生成每个679个METABRIC样本的潜在特征,以及(C)将样本划分为子组,使用潜在特征作为无监督学习的输入特征。(D)进行Kaplan-Meier分析以比较亚组之间的预后差异(无复发生存率),以及(E)使用415个TCGA样本的无复发生存数据验证预后差异。
https://doi.org/10.1371/journal.pcbi.1011197.g001
正如我们预期的那样,随着训练集中隐藏层大小的增加,MSE 不断减少(S2 表),但深度自动编码器之间的差异并不显着(MSE = 0.012±0.008)。在验证集中,我们观察到深度自动编码器之间的差异远小于训练集(MSE = 0.075±0.003)。更重要的是,MSE逐渐减少,直到隐藏层的大小增加到128个。但是,当隐藏层的大小大于 128 时,它们又开始增加。它指示模型可能过度拟合到训练集。因此,我们决定在下面的生存分析中仅使用从隐藏层大小为 16、32、64 和 128 的模型获得的潜在特征。
我们研究的最终目标是确定腔内-A乳腺癌的不同预后亚组。因此,我们使用深度自动编码器和无监督学习生成的潜在特征对679个METABRIC样本进行聚类。我们使用K均值聚类进行无监督学习。然后,我们进行了Kaplan-Meier生存分析,以比较亚组之间的预后,并通过对数秩检验评估其显著性。
结果,当将样本分为两个亚组而不考虑潜在特征的维数时,亚组之间的预后差异稳定显著(p值<0.01)(S1图),但当维数为64时,差异最显著(p值= 5.82E-05,图2)。然而,当使用64维潜伏将样本聚类为两个以上的亚组时,我们发现一些亚组对在成对数秩检验中没有显示出显着的预后差异。例如,当样本聚类到三个亚组时,我们观察到属于第三个亚组(聚类3)的样本与属于其他亚组(聚类1和聚类2)的样本没有显示出显着的预后差异(S3表和S2图)。当我们将样本分为四个和五个子组时,我们观察到类似的趋势(S3表和S2图)。
缩略图 下载:
.PPT幻灯片
.PNG大图
.TIFF原始图像
图2. 64 维潜在特征的 t-SNE(t 分布随机邻居嵌入)图和 679 个 METABRIC 腔内 A 乳腺癌样本的 Kaplan-Meier 生存曲线。
(A) 由 2 个 METABRIC 腔内 A 乳腺癌样本的深度自动编码器生成的潜在特征的 t-SNE 图(维度大小 = 679)。分配给BPS-LumA(预后较好的亚组)和WPS-LumA(预后较差的亚组)的样本分别显示为绿色和橙色。(B)绿色和橙色曲线分别表示BPS-LumA和WPS-LumA。x 轴表示无复发生存月,y 轴表示生存概率。
https://doi.org/10.1371/journal.pcbi.1011197.g002
鉴于这些结果,我们得出结论,当使用679维潜在特征将64个METABRIC样本分为两个亚组时,预后差异最为明显(图2A)。在Kaplan-Meier生存曲线(图2B)中,第一亚组(n = 336)和第二亚组(n = 343)显示出较差和更好的预后(S4表)。在本研究的以下部分中,我们将预后较好的亚组命名为“BPS-LumA”,将预后较差的亚组命名为“WPS-LumA”。
BPS-LumA和WPS-LumA之间的预后差异在独立数据集中得到验证
为了验证BPS-LumA和WPS-LumA之间的预后差异,我们将分层方法应用于独立的数据集。我们使用415个TCGA管腔-A乳腺癌样本进行验证。我们使用上一节中用METABRIC数据集训练的深度自动编码器生成了每个TCGA样本的64维潜在特征,并根据样本与潜在空间中BPS-LumA和WPS-LumA的质心之间的距离将每个样本分配到更近的子组(图3A)。在415个样本中,分别有191个及224个样本属于BPS-LumA及WPS-LumA(S5表)。有趣的是,属于BPS-LumA的样本显示出明显更好的预后优于属于WPS-LumA的其他样本(p值= 0.004;图3B)。
缩略图 下载:
.PPT幻灯片
.PNG大图
.TIFF原始图像
图3. METABRIC 和 TCGA BRCA 数据集中所有样本的 64 维潜在特征的 t-SNE 图,以及 415 个 TCGA BRCA 管腔-A 乳腺癌样本的 Kaplan-Meier 生存曲线。
(A)METABRIC和TCGA BRCA数据集中所有样本的t-SNE图。METABRIC和TCGA BRCA的样品分别表示为圆形和方形。分配给BPS-LumA和WPS-LumA的样品分别显示为绿色和橙色。(B)415个TCGA样本的Kaplan-Meier生存曲线,这些样本被分配到潜伏空间中较近的预后亚组(BPS-LumA和WPS-LumA)。(C)使用散点图绘制METABRIC(微阵列,x轴)和TCGA(RNA-seq,y轴)数据集中单个基因(N = 2,17)的平均log202-transforemd表达水平和(D)对数转换中位数绝对偏差每个点表示(C)和(D)中的单个基因。
https://doi.org/10.1371/journal.pcbi.1011197.g003
有趣的是,尽管这两个数据集使用了不同的表达谱分析平台(METABRIC和TCGA数据集分别使用微阵列和RNA-seq作为表达谱平台),但我们证明了我们的方法适用于这两个数据集。为了进一步探索这些结果,我们测量了两个数据集中单个基因的平均表达水平之间的Spearman秩相关系数(SRCC),我们观察到它们高度相关(SRCC = 0.771,图3C)。同样,我们测量了两个数据集中单个基因的绝对中位数偏差的SRCC,并确认它们也显着相关(SRCC = 0.595,图3D)。除了两个表达分析平台之间的这些相关性之外,额外的预处理以减少批次效应(例如最小-最大缩放)使我们的方法能够成功预测样品的预后,而与表达分析平台无关。
只有深度自动编码器的潜在特征才能成功识别预后亚组
接下来,我们想将我们的方法与基因表达谱和传统的降维方法进行比较,以显示深度自动编码器在为预后亚组识别生成信息性潜在特征方面的有用性。因此,与使用潜在特征时类似,我们将679个METABRIC样本分为两个亚组,分别使用整个17,202个基因和具有最高变异性的前5,000个基因的表达谱作为K-Means聚类的输入特征。有趣的是,我们发现使用整个17,202个基因鉴定的亚组之间的预后差异(p值= 0.566;图4A)以及前 5,000 个变化最大的基因(p 值 = 0.183;图4B)并不重要。
thumbnail 下载:
.PPT幻灯片
.PNG大图
.TIFF原始图像
图4. 使用基因表达谱对样品进行聚类时使用PCA生成的低维特征时的Kaplan-Meier存活曲线。
Kaplan-Meier生存曲线,当679个METABRIC样本分为两个簇时,使用(A)整个17,202个基因,(B)前5,000个最可变基因,(C)整个64,17个基因和(D)前202,5个最可变基因的000二元特征(PCA),以及(E)整个2,17个基因和(F)前202,5个最可变基因的000-二元特征(PCA)。
https://doi.org/10.1371/journal.pcbi.1011197.g004
此外,我们将我们的方法与传统的降维方法进行了比较。为此,我们使用PCA(主成分分析)将整个17,202个基因和前5,000个变化最大的基因分别投影到64-(与我们使用的潜在特征相同的维度大小)和2-(信息量最大的主成分)维度空间中。结果,我们观察到他们都没有成功发现不同的预后亚组(图4D-4F)。
从这些结果中,我们确认只有潜在特征能够识别预后亚组p值= 5.82E-05;图2A)。这表明深度自动编码器比传统的降维方法更有效地从决定管腔A乳腺癌预后的复杂基因表达谱中提取重要特性,有助于发现精准医学的不同预后亚群。
核糖体相关的生物学功能可能与BPS-LumA和WPS-LumA之间的预后差异有关
接下来,我们试图找出哪些生物学功能可能使BPS-LumA和WPS-LumA之间的预后差异。为此,在变异性最高的前5个基因中,我们通过limma [000](调整后的p值<548.20,S0和S01表)在METABRIC和TCGA数据集中发现了BSP-LumA和WPS-LumA之间的6个差异表达基因(DEG)。然后,我们使用从GTEx获得的非患病乳腺组织的7个基因表达谱,通过WGCNA [21,22]构建了乳腺组织的加权共表达网络,该网络由23个共表达模块(图5A和S8和S9表)组成。我们使用共表达网络来分析DEGs,因为单个基因的故障不会导致生物系统的功能障碍,因为生物系统的稳健性,并且DEG的影响必须在系统水平上分析,而不是在单基因水平上分析[459-23]。最后,我们测量了每个共表达模块中与DEG重叠的基因的比例(%)。
thumbnail 下载:
.PPT幻灯片
.PNG大图
.TIFF原始图像
图5. 模块大小和基因的比例与每个共表达模块中的DEG重叠。
(A)模块大小的条形图(每个模块中的基因数)。(B)表示与DEG重叠的基因百分比的条形图。浅青色模块突出显示为黄色。(C)浅青色模块的网络图。DEG 的颜色为黄色,节点大小表示每个节点的连接性。
https://doi.org/10.1371/journal.pcbi.1011197.g005
结果,我们观察到“浅青色”共表达模块包括大量DEG(11.6%,图5B和S10表)。我们通过基因集富集分析[26]探索了与浅青模块相关的生物学功能,我们观察到浅青色模块中包含的95个基因与核糖体相关术语相关,例如“rRNA代谢过程(GO:0016072)”,“核糖体(MAP 03010)”和“细胞质核糖体蛋白(WP477)”(S11表)。在浅青色模块的95个基因中,有11个基因介于BPS-LumA和WPS-LumA之间(图5C)。
我们发现有许多文献证据报道了核糖体蛋白(RPs)与癌症之间的关联[27]。例如,RP-MDM2-p53信号通路是研究最充分的通路,它定义了核糖体蛋白在肿瘤抑制基因p53激活中的作用[28]。最近,有人发现,一些核糖体蛋白的失调可以促进乳腺癌转移[29],核糖体生物发生可能是对抗他莫昔芬耐药性的潜在治疗靶点[30]。基于这些结果,与DEGs及其在每个亚组中的活性显着相关的术语可以被认为是促进BPS-LumA和WPS-lumA之间预后差异的潜在生物学机制。
BPS-LumA和WPS-LumA是对先前的Luminal-A乳腺癌分层方法的补充
此外,我们想看看我们的方法与以前的luminal-A乳腺癌分层方法有多吻合:Netanely的方法[12]和Poudel的方法[14]。Netanely的方法提示了两个预后亚组:LumA-R1(预后不良)和LumA-R2(预后良好)。Poudel的方法提出了五个异细胞亚组:茎样(预后良好),炎症(预后良好),杯状(良好/中间预后),TA(预后不良)和肠细胞。结果,我们证实我们的方法使用深度自动编码器自动生成的潜在特征,显示出与前两项研究一致的趋势。
例如,我们的方法与Netanely方法明显一致(p值= 6.70E-05;图 6A 和 S12 表)。LumA-R1由更多的WPS-LumA样本组成(64.3%)。另一方面,BPS-LumA的比例大于LumA-R2中的WPS-LumA(55.9%)。同样,我们的方法也与Poudel方法一致(p值= 0.004;图 6B 和 S12 表)。我们观察到BPS-LumA样本的比例根据Poudel方法中52个亚组的预后而降低:茎样,炎症,杯状和TA亚组。22.48%的茎状亚组属于BPS-LumA。然而,炎症、杯状和TA亚组的比例分别下降到41%、18.18%和18.70%。此外,Poudel方法没有提供肠细胞亚组的预后信息,但有趣的是,它由大比例的BPS-LumA样本(68.<>%)组成。
thumbnail 下载:
.PPT幻灯片
.PNG大图
.TIFF原始图像
图6. 与以前的腔内-A乳腺癌分层方法的比较。
(A)内坦利的方法,(B)波德尔的方法。x轴表示先前研究中确定的亚组,y轴表示BPS-LumA和属于它们的WPS-LumA的百分比。BPS-LumA和WPS-LumA分别被涂成绿色和橙色。
https://doi.org/10.1371/journal.pcbi.1011197.g006
讨论
在这项研究中,我们确定了管腔-A乳腺癌的两个预后亚组BPS-LumA和WPS-LumA,使用用基因表达训练的深度自动编码器产生的潜在特征。我们使用独立数据集验证了两个亚组之间的预后差异。我们还表明,深度自动编码器生成的潜在特征比基因表达谱和传统降维方法(即PCA)生成的特征更有助于识别预后亚组。
因此,剩下的挑战是为每个亚组制定更有效的治疗策略,特别是对于预后较差亚组的患者。当每个亚组都有适当的治疗时,分层方法可以进一步最大化其功效。例如,激素受体阳性乳腺癌(例如管腔 A 和管腔 B)患者接受内分泌治疗作为一线治疗。另一方面,推荐对激素受体阴性和人表皮生长因子2阳性乳腺癌(例如富含HER2)进行双重HER2阻断(例如曲妥珠单抗和帕妥珠单抗)[8]。像这样,为我们研究中确定的每个亚组制定适当的治疗策略是我们在不久的将来要解决的首要任务,我们使用两个亚组之间的差异表达基因发现的丰富途径可能是一个起点。我们观察到核糖体相关术语与BPS-LumA和WPS-LumA之间的差异表达基因显着相关,文献证据表明,参与这些生物学功能的蛋白质可被视为预后较差亚组且对内分泌治疗耐药的患者的潜在药物靶点[28-32]。
除了DEG分析之外,最近还有很多努力来开发可解释和可解释的深度倾斜模型来克服“黑盒”问题[33,34],特别是对于生物医学和医疗保健领域[35,36]。这些努力可能有助于解释我们方法中产生的潜在特征的生物学意义。或者,即使基于网络或基于途径的方法有一些局限性,我们对人类相互作用组的知识仍然不完整[37,38],并且从实验测定(例如酵母双杂交)和计算推理中获得的相互作用信息通常没有完全考虑上下文特异性[39,40],当先验知识与深度学习模型(例如,可见神经网络[41])相结合时,他们可以提出更可靠的证据来解释深度学习方法。同样,提高深度学习模型可解释性的方法可以加速为预后不良的患者开发新的治疗方案。
最后,我们发现我们和以前的方法显着重合,它们可以通过进一步的研究相互补充以进行更精确的分层。例如,在Poudel方法中,属于杯状亚组的样本被视为中间预后,其比其他亚组模糊不清。有趣的是,我们发现在我们的方法中,其中41.18%和58.82%属于BPS-LumA和WPS-LumA。这一结果表明,即使样品显示出相似的杯状细胞样特征,它们也可能在其他生物学途径中表现出不同的特征,例如我们通过DEG分析发现的核糖体相关途径。从这个角度来看,综合考虑我们和以前方法的结果有助于更精确地定义患者的疾病状态。
综上所述,我们成功开发了能够预测预后的管腔-A型乳腺癌精确分层方法。鉴于腔内-A型乳腺癌是最常见的乳腺癌,并且由于内分泌阻力,预后因患者而异,我们的方法可能有助于对患者进行分层并根据预测的预后准备替代治疗方案。
材料和方法
收集METABRIC和TCGA BRCA的基因表达谱和无复发生存数据
收集了两个乳腺癌数据集,METABRIC(乳腺癌国际联盟的分子分类)[42,43]和TCGA(癌症基因组图谱)BRCA[44]。我们从cBio癌症基因组学门户下载了两个数据集的所有基因表达、无复发生存数据和PAM50亚型数据,TCGA数据集的PAM50亚型数据除外[45]。我们从原始出版物的补充信息中获得了TCGA数据集的PAM50亚型数据[44]。在基因表达谱的情况下,我们下载了两个数据集的标准化基因表达谱(Z分数中位数),而不是原始基因表达谱。无复发生存数据包括无复发生存状态(“复发”或“未复发”)和无复发生存月。
重整化基因表达谱
在METABRIC数据集中的2,509个样本和TCGA数据集中的817个样本中,我们根据PAM679亚型数据从每个数据集中挑选了415个和50个luminal-A乳腺癌样本。我们还选择了17,202个基因,其中表达值在所有679个METABRIC样本和415个TCGA样本中可用。然后,我们根据每个基因的中位数绝对偏差,选择了变异性最高的前5个基因。接下来,我们重新规范化了 000 个 METABRIC 样本的归一化基因表达谱(Z 得分中位数),使得第 j 个样本的每个第 i个基因表达值 ej,META(i),在 0 到 1 之间的范围内,可以计算为:
(1)
其中最小(ej,META(i)) 和最大值 (ej,META(i)) 是第 i个基因在 679 个 METABRIC 样本中的最小和最大表达值。
同样,我们使用METABRIC数据集中每个基因的最小和最大表达值重新规范化了415个TCGA样本的标准化基因表达谱,可以计算为:
(2)
我们使用python机器学习库Scikit-learn(版本0.23.2)来重新规范化基因表达谱。
训练深度自动编码器
我们构建了深度自动编码器,它由五层组成:输入层、三个隐藏层和输出层。如图1A所示,每个样品的重整化基因表达谱用作输入特征,因此将输入层和输出层的大小设置为基因数(N = 5,000)。值得注意的是,我们在所有三个隐藏层中设置了相同的节点数量,并使用不同大小的隐藏层(16、32、64、128、256、512、1024 和 2048)训练了八个深度自动编码器,以查看隐藏层的大小是否会影响深度自动编码器的性能 [19]。我们分别使用 ReLU 函数和 sigmoid 函数作为隐藏层和输出层中的激活函数。隐藏层尺寸较暗的深度自编码器第k层生成的第j个样本的潜在特征可以计算为:
(3)
在方程 (3) 中,fk是第 k层中的激活函数。WK,暗淡和 bK,暗淡是深度自动编码器第 k层中的权重矩阵和偏置,其隐藏层大小为暗淡。例如,是METABRIC数据集中第j个样本的潜在特征,它是在深度自动编码器的第二个隐藏层中生成的,其隐藏层大小为64。
我们使用679个METABRIC样本作为训练集,使用415个TCGA样本作为验证集。我们使用均方误差(MSE)评估了深度自动编码器的性能,该误差测量了输入层的重整化基因表达谱之间的差异(X1)和重建的输出层的基因表达谱(X5),并训练深度自动编码器以最小化 MSE:
(4)
其中N是基因数,M是样本数。我们使用ADAM作为优化器[46],并将批大小和纪元数分别设置为16和100。与深度自动编码器的构建和训练相关的所有过程均由python机器学习库Tensorflow(版本2.3.0)执行。
将样本划分为子组
如图 1B 所示,我们在每四个深度自动编码器(dim∈679、16 和 32)的第二个隐藏层中生成了每个 64 METABRIC 样本的潜在特征。它们的计算公式为:
(5)
因此,根据隐藏层的大小,每个样品具有不同维度尺寸的六个潜在特征。然后,我们使用不同维度大小的每个潜在特征作为K-Means聚类的输入特征,将样本分成几个子组。我们将聚类数设置为从 0 到 23。Python机器学习库Scikit-learn(版本2.<>.<>)用于无监督学习。
比较亚组之间的无复发生存率
我们进行了Kaplan-Meier生存分析[47],以使用无复发生存状态和月数据比较亚组之间的预后。通过对数秩检验对预后差异的统计学意义估计[48]。具体来说,我们进行了多变量对数秩检验和成对对数秩检验,以找到显示出最明显预后差异的亚组数量。在此步骤中,我们选择了隐藏层的大小,这些隐藏层显示子组之间最明显的预后差异,以便在下一步中进行验证。Kaplan-Meier生存分析是通过python生存分析库Lifelines(版本0.24.1)实现的。
使用独立数据集验证BPS-LumA和WPS-LumA之间的预后差异
使用415个TCGA样本的重整化基因表达谱,我们在深度自编码器的第二个隐藏层中生成了415个TCGA样本的潜在特征,其中隐藏层大小为64。它们的计算公式可以计算为:
(6)
然后,我们根据与潜在空间中每个子组的质心的距离将每个TCGA样本分配给最近的子组,这是使用METABRIC数据集中的样本识别的。进行Kaplan-Meier生存分析以比较属于每个亚组的样本之间的预后。
将分层与以前的研究进行比较
我们将我们的分层与前两项研究进行了比较:Netanely的方法[12]和Poudel的方法[14]。我们使用TCGA数据集进行比较,因为之前的两项研究提供了TCGA样本的亚组数据。我们从原始出版物的补充信息中获得了TCGA样本的亚组数据[12,14]。我们通过使用python科学计算库Scipy(版本1.4.1)的卡方检验,检查了每种先前方法与我们的方法的一致性。
Finding differentially expressed genes between BPS-LumA and WPS-LumA
我们使用METABRIC数据集和R包limma的标准化基因表达谱来寻找亚组之间的差异表达基因(DEGs)(p值<0.01)[20]。我们使用TCGA数据集的标准化基因表达谱执行了相同的程序。然后,我们在用于训练深度自动编码器的前5,000个具有最高变异性的基因中选择了在两个数据集中差异表达的基因。
构建乳腺组织加权共表达网络
我们构建了能够代表正常乳腺组织的加权共表达网络,并使用从GTEx(基因型-组织表达)[49]和R包WGCNA(加权基因共表达网络分析)[21,22]获得的基因表达谱检测共表达模块。我们下载了从非病变组织部位获得的459个乳腺组织的基因读取计数和TPM(每千碱基百万转录本)图谱。根据每个基因的中位数读取计数,我们只考虑中位数读取计数大于459的基因。我们将80个样本分为训练集(20%)和测试集(23%)。我们利用训练集确定WGCNA的参数来构建加权共表达网络,并利用测试集检验共表达模块保存的意义。因此,我们构建了由8个模块和383,10个基因组成的乳腺组织加权共表达网络,这些基因在测试集中得到了强烈保留。此外,由于WGCNA提供了每个基因对(完全连接)的权重,因此我们在每个模块中仅使用权重最高的前<>%边缘及其节点。
执行基因集富集分析
我们使用基因集富集分析[26]进行了Enrichr [50]以找到与每个共表达模块相关的生物学功能。它是使用京都基因和基因组百科全书(KEGG)通路[51],Wiki-Pathways [52]和Gene Onology [53]中每个共表达模块和基因集中的基因进行的,我们只考虑了调整后的p值低于0.0001的项。使用Python基因集富集分析库Gseapy(版本0.10.4)。
支持信息
根据METABRIC数据集中潜在特征的维数(子组数= 2)进行Kaplan-Meier生存分析。
显示 1/14: pcbi.1011197.s001.docx
跳到无花果共享导航
S1 图根据尺寸进行卡普兰-迈耶生存分析METABRIC 中的潜在特征(子组数=2)(a) 尺寸 = 16(b) 尺寸 = 32元-金砖四国集群1集群2# 的样品282397
(c) 尺寸 = 64元-金砖四国集群1集群2# 的样品312367元-金砖四国集群1集群2# 的样品336343
1 / 14
下载
无花果分享
S1 图 根据METABRIC数据集中潜在特征的维数(子组数= 2)进行Kaplan-Meier生存分析。
https://doi.org/10.1371/journal.pcbi.1011197.s001
(文档)
S2 图 根据METABRIC数据集中的聚类数量(64维潜在特征)进行Kaplan-Meier生存分析。
https://doi.org/10.1371/journal.pcbi.1011197.s002
(文档)
S1 表。 METABRIC数据集中变异性最高的前5,000个基因列表。
https://doi.org/10.1371/journal.pcbi.1011197.s003
(三十)
S2 表。 根据隐藏层大小的均方误差 (MSE)。
https://doi.org/10.1371/journal.pcbi.1011197.s004
(三十)
S3 表。 根据聚类数(64 维潜在特征)的成对对数秩检验的 p 值。
https://doi.org/10.1371/journal.pcbi.1011197.s005
(三十)
S4 表。 679个METABRIC luminal-A乳腺癌样本的亚组数据(BPS-LumA和WPS-LumA)。
https://doi.org/10.1371/journal.pcbi.1011197.s006
(三十)
S5 表。 415个TCGA管腔A乳腺癌样本的亚组数据(BPS-LumA和WPS-LumA)。
https://doi.org/10.1371/journal.pcbi.1011197.s007
(三十)
S6 表。 METBRIC数据集中BPS-LumA和WPS-LumA之间的差异表达基因列表。
https://doi.org/10.1371/journal.pcbi.1011197.s008
(三十)
S7 表。 TCGA数据集中BPS-LumA和WPS-LumA之间的差异表达基因列表。
https://doi.org/10.1371/journal.pcbi.1011197.s009
(三十)
S8 表。 共表达模块保存测试的结果。
https://doi.org/10.1371/journal.pcbi.1011197.s010
(三十)
S9 表。 基因列表属于每个共表达模块。
https://doi.org/10.1371/journal.pcbi.1011197.s011
(三十)
S10 表。 每个共表达模块中与DEG重叠的基因比例。
https://doi.org/10.1371/journal.pcbi.1011197.s012
(三十)
S11 表。 共表达模块的基因集富集分析结果。
https://doi.org/10.1371/journal.pcbi.1011197.s013
(三十)
S12 表。 与以前的腔内-A乳腺癌分层方法的比较。
https://doi.org/10.1371/journal.pcbi.1011197.s014
(三十)
引用
1.白杨 EJ.从子宫前到坟墓的个体化用药。细胞。2014;157(1):241–53.pmid:24679539;PubMed Central PMCID: PMC3995127.
查看文章PubMed/NCBI谷歌学术搜索
2.新泽西州肖克。个性化医疗:是时候进行单人试验了。自然界。2015;520(7549):609–11.pmid:25925459。
查看文章PubMed/NCBI谷歌学术搜索
3.谢里登DJ,朱利安DG。循证医学的成就和局限性。J Am Coll Cardiol。2016;68(2):204–13.pmid:27386775。
查看文章PubMed/NCBI谷歌学术搜索
4.Sung H, Ferlay J, Siegel RL, Laversanne M, Soerjomataram I, Jemal A, et al. 2020年全球癌症统计:GLOBOCAN估计全球36个国家185种癌症的发病率和死亡率。加州癌症 J 克林。2021;71(3):209–49.Epub 20210204。pmid:33538338。
查看文章PubMed/NCBI谷歌学术搜索
5.Perou CM, Sorlie T, Eisen MB, van de Rijn M, Jeffrey SS, Rees CA, et al.人类乳腺肿瘤的分子肖像。自然界。2000;406(6797):747–52.pmid:10963602。
查看文章PubMed/NCBI谷歌学术搜索
6.扎哈·免疫组织化学在乳腺癌中的意义。世界 J 临床肿瘤.2014;5(3):382–92.pmid:25114853;PubMed Central PMCID:PMC4127609。
查看文章PubMed/NCBI谷歌学术搜索
7.帕克 JS, 穆林斯 M, 张 MC, 梁 S, 沃杜克 D, 维克里 T, 等.基于内在亚型的乳腺癌监督风险预测器。J 克林·昂科尔。2009;27(8):1160–7.Epub 20090209。pmid:19204204;PubMed Central PMCID: PMC2667820.
查看文章PubMed/NCBI谷歌学术搜索
8.Harbeck N, Penault-Llorca F, Cortes J, Gnant M, Houssami N, Poortmans P, et al. 乳腺癌.Nat Rev Dis Primers.2019;5(1):66.Epub 20190923。普米德:31548545。
查看文章PubMed/NCBI谷歌学术搜索
9.Hernando C, Ortega-Morillo B, Tapia M, Moragon S, Martinez MT, Eroles P, et al. 口服选择性雌激素受体降解剂(SERDs)作为一种新型乳腺癌疗法:临床视角的现在和未来。国际分子科学杂志 2021;22(15).Epub 20210722。pmid:34360578;PubMed Central PMCID:PMC8345926。
查看文章PubMed/NCBI谷歌学术搜索
10.Higgins MJ,Stearns V.了解激素受体阳性乳腺癌中对他莫昔芬的耐药性。临床化学 2009;55(8):1453–5.Epub 20090618。pmid:19541862。
查看文章PubMed/NCBI谷歌学术搜索
11.Ciriello G, Sinha R, Hoadley KA, Jacobsen AS, Reva B, Perou CM, et al.管腔A乳腺肿瘤的分子多样性。乳腺癌治疗。2013;141(3):409–20.Epub 20131006。pmid:24096568;PubMed Central PMCID:PMC3824397。
查看文章PubMed/NCBI谷歌学术搜索
12.Netanely D,Avraham A,Ben-Baruch A,Evron E,Shamir R.表达和甲基化模式将腔内-A乳腺肿瘤划分为不同的预后亚组。乳腺癌研究 2016;18(1):74.Epub 20160707。pmid:27386846;PubMed Central PMCID: PMC4936004.
查看文章PubMed/NCBI谷歌学术搜索
13.Sadanandam A, Lyssiotis CA, Homicsko K, Collisson EA, Gibb WJ, Wullschleger S, et al.一种将细胞表型和治疗反应相关联的结直肠癌分类系统。自然医学 2013;19(5):619–25.Epub 20130414。pmid:23584089;PubMed Central PMCID: PMC3774607.
查看文章PubMed/NCBI谷歌学术搜索
14.Poudel P, Nyamundanda G, Patil Y, Cheang MCU, Sadanandam A. 异细胞基因特征揭示了管腔-A乳腺癌的异质性和不同的治疗反应。NPJ乳腺癌。2019;5:21.Epub 20190802。pmid:31396557;PubMed Central PMCID:PMC6677833。
查看文章PubMed/NCBI谷歌学术搜索
15.Tusher VG, Tibshirani R, Chu G. 微阵列应用于电离辐射响应的意义分析.美国国家科学院院刊, 2001;98(9):5116–21.Epub 20010417。pmid:11309499;PubMed Central PMCID:PMC33173。
查看文章PubMed/NCBI谷歌学术搜索
16.Esteva A, Robicquet A, Ramsundar B, Kuleshov V, DePristo M, Chou K, et al.医疗保健领域的深度学习指南。自然医学 2019;25(1):24–9.Epub 20190107。PMID:30617335。
查看文章PubMed/NCBI谷歌学术搜索
17.Vincent P, Larochelle H, Bengio Y, Manzagol P-A, 编辑.使用去噪自动编码器提取和组合强大的特征。第25届机器学习国际会议论文集;2008.
查看文章谷歌学术搜索
18.Tan J, Ung M, Cheng C, Greene CS. 使用去噪自动编码器从乳腺癌全基因组测定中进行无监督特征构建和知识提取。Pac Symp Biocomput.2015:132–43.pmid:25592575;PubMed Central PMCID:PMC4299935。
查看文章PubMed/NCBI谷歌学术搜索
19.Dwivedi SK,Tjarnberg A,Tegner J,Gustafsson M.从嵌入深度自动编码器中的压缩转录空间推导出疾病模块。纳特公社。2020;11(1):856.Epub 20200212。pmid:32051402;PubMed Central PMCID:PMC7016183。
查看文章PubMed/NCBI谷歌学术搜索
20.Ritchie ME, Phipson B, Wu D, Hu Y, Law CW, Shi W, et al. limma 为 RNA 测序和微阵列研究提供差异表达分析。核酸研究。2015;43(7):e47–e. pmid:25605792
查看文章PubMed/NCBI谷歌学术搜索
21.张斋, 霍瓦特·加权基因共表达网络分析的一般框架。遗传学和分子生物学中的统计应用。2005;4(1).密码:16646834
查看文章PubMed/NCBI谷歌学术搜索
22.Langfelder P,Horvath S. WGCNA:用于加权相关网络分析的R包。BMC生物信息学。2008;9(1):1–13.
查看文章谷歌学术搜索
23.郑 H, 梅森 SP, 巴拉巴西 A-L, 奥尔特瓦伊 ZN.蛋白质网络中的致死性和中心性。自然界。2001;411(6833):41–2.pmid:11333967
查看文章PubMed/NCBI谷歌学术搜索
24.Smart AG,Amaral LA,Ottino JM。代谢网络中的级联故障和稳健性。美国国家科学院院刊.2008;105(36):13223–8.密码:18765805
查看文章PubMed/NCBI谷歌学术搜索
25.Marbach D, Lamparter D, Quon G, Kellis M, Kutalik Z, Bergmann S. 组织特异性调节回路揭示了复杂疾病中可变的模块化扰动。自然方法。2016;13(4):366–70.pmid:26950747
查看文章PubMed/NCBI谷歌学术搜索
26.Kuleshov MV, Jones MR, Rouillard AD, Fernandez NF, Duan Q, Wang Z, et al.Enrichr:全面的基因集富集分析Web服务器2016更新。核酸研究。2016;44(W1):W90–W7.密码:27141961
查看文章PubMed/NCBI谷歌学术搜索
27.Goudarzi KM,LINDSTR?M MS.核糖体蛋白突变在肿瘤发展中的作用。国际肿瘤学杂志。2016;48(4):1313–24.
查看文章谷歌学术搜索
28.Macias E, Jin A, Deisenroth C, Bhat K, Mao H, Lindstr?m MS, et al.由核糖体蛋白-Mdm2相互作用介导的ARF非依赖性c-MYC激活的肿瘤抑制途径。癌细胞。2010;18(3):231–43.pmid:20832751
查看文章PubMed/NCBI谷歌学术搜索
29.Ebright RY, Lee S, Wittner BS, Niederhoffer KL, Nicholson BT, Bardia A, et al.核糖体蛋白表达和翻译的失调促进乳腺癌转移。科学。2020;367(6485):1468–73.密码:32029688
查看文章PubMed/NCBI谷歌学术搜索
30.蔡海、尤春平、梁美华、文EP、邱玉生靶向核糖体生物发生以对抗ER + ve乳腺癌中的他莫昔芬耐药性。癌症。2022;14(5):1251.密码:35267559
查看文章PubMed/NCBI谷歌学术搜索
31.索吉亚F,菲奥里洛M,利桑蒂议员。线粒体标志物预测乳腺癌患者的复发、转移和他莫昔芬耐药:通过伴随诊断及早发现治疗失败。肿瘤靶标。2017;8(40):68730.密码:28978152
查看文章PubMed/NCBI谷歌学术搜索
32.菲奥里洛 M, 索吉亚 F, 西西 D, 卡佩罗 AR, 利桑蒂议员.线粒体“力量”驱动他莫昔芬耐药性:NQO1和GCLC是乳腺癌的新治疗靶点。肿瘤靶标。2017;8(12):20309.密码:28411284
查看文章PubMed/NCBI谷歌学术搜索
33.Adadi A,Berrada M. 窥视黑匣子内部:关于可解释人工智能(XAI)的调查。IEEE 访问。2018;6:52138–60.
查看文章谷歌学术搜索
34.Linardatos P, Papastefanopoulos V, Kotsiantis S. 可解释的ai:机器学习可解释性方法的综述。熵。2020;23(1):18.密码:33375658
查看文章PubMed/NCBI谷歌学术搜索
35.萨拉斯瓦特 D, 巴塔查里亚 P, 维尔玛 A, 普拉萨德 VK, 坦瓦尔 S, 夏尔马 G, 等.医疗保健 5.0 的可解释 AI:机遇与挑战。IEEE Access.2022.
查看文章谷歌学术搜索
36.Loh HW, Ooi CP, Seoni S, Barua PD, Molinari F, Acharya UR.可解释人工智能在医疗保健中的应用:过去十年(2011-2022 年)的系统回顾。生物医学中的计算机方法和程序。2022:107161. 下午:36228495
查看文章PubMed/NCBI谷歌学术搜索
37.Menche J, Sharma A, Kitsak M, Ghiassian SD, Vidal M, Loscalzo J, et al.通过不完全的相互作用组揭示疾病与疾病的关系。科学。2015;347(6224):1257601.
查看文章谷歌学术搜索
38.吉亚西安,门切·DIseAse MOdule 检测 (DIAMOnD) 算法源自对人类相互作用组中疾病蛋白连接模式的系统分析。公共科学图书馆计算生物学。2015;11(4):e1004120.密码:25853560
查看文章PubMed/NCBI谷歌学术搜索
39.普拉哈拉德 A, 孙 C, 黄 S, 迪尼科兰托尼奥 F, 萨拉查 R, 泽钦 D, 等.结肠癌通过EGFR的反馈激活对BRAF(V600E)抑制无反应。自然界。2012;483(7387):100–3.pmid:22281684
查看文章PubMed/NCBI谷歌学术搜索
40.布罗伊德 J, 辛普森 DR, 默里 D, 保尔 EO, 朱 BW, 泰戈尔 S, 等.用于癌症网络分析的癌蛋白特异性分子相互作用图(SigMaps)。自然生物技术。2021;39(2):215–24.密码:32929263
查看文章PubMed/NCBI谷歌学术搜索
41.马杰, 于明, 方S, 小野K, 圣人E, 德姆查克B, 等.使用深度学习对细胞的层次结构和功能进行建模。自然方法。2018;15(4):290–8.密码:29505029
查看文章PubMed/NCBI谷歌学术搜索
42.Curtis C, Shah SP, Chin S-F, Turashvili G, Rueda OM, Dunning MJ, et al.2,000个乳腺肿瘤的基因组和转录组结构揭示了新的亚群。自然界。2012;486(7403):346–52.密码:22522925
查看文章PubMed/NCBI谷歌学术搜索
43.Pereira B, Chin S-F, Rueda OM, Vollan H-KM, Provenzano E, Bardwell HA, et al.2,433种乳腺癌的体细胞突变谱完善了它们的基因组和转录组景观。自然通讯。2016;7(1):1–16.
查看文章谷歌学术搜索
44.Brigham, Hospital Ws, 13 HMSCLPPJKR, 25 GdaBCoMCCJDLA, Ilya IfSBRSKRBBBBRETLJTVZWS.人类乳腺肿瘤的综合分子肖像。自然界。2012;490(7418):61–70.
查看文章谷歌学术搜索
45.Cerami E, Gao J, Dogrusoz U, Gross BE, Sumer SO, Aksoy BA, et al.cBio癌症基因组学门户:一个探索多维癌症基因组学数据的开放平台。癌症发现。2012;2(5):401–4.
查看文章谷歌学术搜索
46.Kingma DP, Ba J. Adam:一种随机优化的方法。arXiv预印本arXiv:14126980。2014.
查看文章谷歌学术搜索
47.Kaplan EL, Meier P. 来自不完整观测的非参数估计。美国统计协会杂志。1958;53(282):457–81.
查看文章谷歌学术搜索
48.布兰德·日志排名测试。英国医学杂志 2004;328(7447):1073.pmid:15117797
查看文章PubMed/NCBI谷歌学术搜索
49.财团G.GTEx联盟对人体组织的遗传调控效应图谱。科学。2020;369(6509):1318–30.pmid:32913098
查看文章PubMed/NCBI谷歌学术搜索
50.陈安贤, 谭明, 寇尹, 段琪, 王志, 梅瑞莱斯, 等.Enrichr:交互式和协作式HTML5基因列表富集分析工具。BMC生物信息学。2013;14(1):1–14.pmid:23586463
查看文章PubMed/NCBI谷歌学术搜索
51.Kanehisa M,Goto S. KEGG:京都基因和基因组百科全书。核酸研究。2000;28(1):27–30.pmid:10592173
查看文章PubMed/NCBI谷歌学术搜索
52.Kelder T, Van Iersel MP, Hanspers K, Kutmon M, Conklin BR, Evelo CT, et al.WikiPathways:建立生物途径研究社区。核酸研究。2012;40(D1):D 1301–D7.密码:22096230
查看文章PubMed/NCBI谷歌学术搜索
53.Ashburner M, Ball CA, Blake JA, Botstein D, Butler H, Cherry JM, et al.基因本体论:生物学统一的工具。自然遗传学。2000;25(1):25–9.
查看文章谷歌学术搜索