免费医学论文发表-使用DNA基序预测区域体细胞突变率
抽象
表观遗传修饰的位点特异性如何被调控仍然是一个悬而未决的问题。一种促成机制是表观遗传酶通过识别特定序列基序(称为表观基序)的DNA结合因子被募集到特定位点。使用这些基序根据局部表观遗传状态(如体细胞突变率)预测生物输出将确认其功能。在这里,我们使用包括已知TF基序和epi基序的DNA基序作为表观遗传信号的替代物,以平均13kbp分辨率预测23种癌症的体细胞突变率。我们实施了一个可解释的神经网络模型,称为上下文回归,以成功学习突变和DNA基序之间的普遍关系,并发现对区域突变率影响最大的基序,如TP53和与H3K9me3相关的epi-motifs。此外,我们确定了每个肿瘤中突变率明显高于预期值的基因组区域,并证明这些癌症相关区域可以准确预测癌症类型。有趣的是,我们发现相同的突变特征通常对癌症相关和癌症非依赖性区域有不同的贡献,我们还确定了对每个突变特征贡献最大的基序。
作者摘要
位点特异性表观遗传修饰在各种生物过程中起着关键作用。然而,蛋白质及其结合基序如何调节这种位点特异性表观遗传模式仍然难以捉摸。一种促成机制是表观遗传酶通过识别特定序列基序(称为表观基序)的DNA结合因子被募集到特定位点。使用这些基序根据局部表观遗传状态(如体细胞突变率)预测生物输出将确认其功能。在这里,我们开发了一个使用上下文回归(CR)的可解释神经网络模型,使用13种不同癌症的DNA基序预测千碱基分辨率的体细胞突变率,并确定了信息量最大的基序,特别是表观基序。此外,我们发现突变率明显高于预测值的基因组区域可用于癌症分类,从而促进潜在机制的发现。重要的是,这项研究为研究新机制提供了候选基序和TF,并且训练好的CR模型很容易适用于新的癌症和识别癌症相关区域。CR模型还可以应用于其他生物学问题,例如使用DNA序列预测组蛋白修饰。
数字
Fig 4Fig 5图1图2图3Fig 4Fig 5图1图2图3
引文: 刘 C, 王 Z, 王 J, 刘 C, 王 M, Ngo V, 等 (2023) 使用 DNA 基序预测区域体细胞突变率。公共科学图书馆计算生物学19(10): e1011536. https://doi.org/10.1371/journal.pcbi.1011536
编辑 器: 李申,美国西奈山伊坎医学院
收到: 2年2023月20日;接受: 2023月 2, 2023;发表: <>月 <>, <>
版权所有: ? 2023 刘等这是一篇根据知识共享署名许可条款分发的开放获取文章,该许可允许在任何媒体上不受限制地使用、分发和复制,前提是注明原作者和来源。
数据可用性: 所有相关数据都在手稿及其支持信息文件中。软件可用性:代码可从 GitHub (https://github.com/Wang-lab-UCSD/SomaticMutation) 获得。
资金: 这项工作得到了NIH(R01HG009626 W.W.)的部分支持。资助者在研究设计、数据收集和分析、发表决定或手稿准备方面没有任何作用。
竞争利益: 提交人声明不存在相互竞争的利益。
介绍
基因座特异性表观遗传修饰,如DNA甲基化和组蛋白修饰,在各种生物过程中起着关键作用[1]。虽然表观遗传模式受到多种因素的影响,包括核小体定位[2,3],修饰酶[3],转录因子(TF)[4],非编码RNA(ncRNA)[5],信号分子[6]和三维基因组组织[7,8],但表观遗传修饰酶通常不识别特定的DNA序列或根本不与DNA结合,需要招募它们通过DNA结合蛋白或ncRNA的特定位点。先锋转录因子是此类蛋白质的例子,它们启动染色质重塑并激活特定位点的调控元件[9-12]。然而,负责建立或维持其他类型的位点特异性表观遗传模式的蛋白质及其结合基序在很大程度上仍然难以捉摸。
越来越多的证据表明DNA序列特征在塑造表观遗传模式中的重要性[4,13-20]。已有与表观遗传修饰相关的DNA基序(称为表观基序)的记录[21-23]。表观基序的读数是动态的,取决于细胞条件(例如DNA结合调节因子的活性及其对DNA的访问),因此是表观基因组。这种机制类似于TFs的功能:虽然TF基序保持不变,但转录调控是组织特异性和动态的。使用TF基序成功预测基因表达支持TF基序的功能[24,25]。因此,利用表观基序根据局部表观遗传状态(例如体细胞突变率)预测生物输出,将有助于说明它们在调节表观遗传基因座特异性方面的重要性。
体细胞突变与疾病表型密切相关,是诱变过程与DNA修复机制相互作用的结果[26-32]。区域突变率与多种因素有关,包括复制时间、转录活性、核小体定位、染色质可及性、组蛋白修饰和蛋白质结合[26-32]。突变率的分析已在多个尺度上进行。在巨碱基规模上,高突变率与后期复制时间、染色质闭合、强抑制(例如H3K9me3)和弱活性(H3K4me1/2)组蛋白标记相关[33-38]。在基因尺度上,突变率降低与高转录和高H3K36me3水平有关[39-42]。在数十到数百个碱基的尺度上,核小体定位与突变率的周期性相关[43-49];此外,虽然在CTCF[40,50,51]、ETS家族和许多其他转录因子的结合位点观察到高突变率[52-55],但同时分析DNA损伤和修复表明,蛋白质结合对DNA损伤的影响从无影响到抑制或刺激不等,具体取决于TF和DNA损伤剂[56].在几个碱基对的最小尺度上,先前的分析已经揭示了体细胞突变和突变特征的序列背景[57-61]。
这些观察结果支持染色质状态与区域突变率密切相关[29-31]。这种关系可以通过机器学习模型在兆基尺度上量化[34,37,62]。然而,在更精细的尺度上(例如数十个碱基到千碱基),尚未观察到单个表观遗传信号与突变率之间存在很强的相关性[34,37,62],并且尚未建立解释这种关系的定量模型。这种知识差距阻碍了对调节体细胞突变的表观遗传机制的理解。由于蛋白质结合被认为会影响其结合位点周围的DNA损伤和DNA修复速率之间的平衡[52-56],因此考虑DNA结合蛋白识别的DNA基序可能有助于建立突变率的预测模型。然而,它必须克服蛋白质在结合时对突变率产生不同影响的挑战[56]。
鉴于癌症和其他疾病的驱动突变仅占所有体细胞突变的一小部分,我们假设(1)大多数体细胞突变与区域特征相关,例如表观遗传状态和TF基序,并且可以通过这些相关特征预测区域突变率;换句话说,这些区域的体细胞突变是与疾病无关的,它们的发生仅与局部环境有关,而与疾病状态无关。(2)相对较小的基因组区域包含疾病相关突变,并且这些区域的突变率明显偏离预期值;换句话说,这些突变是由疾病状态驱动的,并且具有比局部环境预期的更高的突变负荷。
我们在这里提出了一个可解释的深度神经网络模型,该模型使用DNA基序预测千碱基尺度的体细胞突变率。我们根据以下基本原理计算了由ChromHMM [3]注释的具有不同表观遗传状态的基因组区域的突变率。由于表观基序与区域表观遗传状态相关[21-23],并且区域表观遗传状态已被证明与体细胞突变率相关[33-38],因此将表观基序与其他基序一起使用来预测同一表观遗传状态下的区域突变率是合理的。如果随机分割基因组,单个区域可能包含不同表观遗传状态的片段(例如,活性增强子通常长200-300bp,这只是千碱基长区域的一部分),因此使用epi-motifs和其他基序来预测整个区域的突变率是不合适的。如果以高分辨率(如200bp)随机分割基因组以避免此问题,则区域太短而无法获得稳定的突变率,并且我们不知道有任何研究可以仅使用序列以甚至千碱基分辨率预测突变率。
我们选择DNA基序作为输入特征,因为蛋白质结合已被证明与区域突变率相关[29-31]。通过建立这样的预测模型,我们旨在揭示增强或抑制体细胞突变的DNA基序(图1)。与鉴定对启动子和增强子基因调控很重要的TF基序有助于我们理解转录调控[63,64]类似,我们建议鉴定突变相关基序,特别是外基序,将有助于揭示影响区域体细胞机制速率的分子机制铺平道路。
缩略图 下载:
.PPT幻灯片
.PNG大图
.TIFF原始图像
图1. 分析的流程图。
使用DNA基序,包括已知的TF基序(TF基序),组蛋白相关基序(组蛋白基序)和DNA甲基化相关基序(甲基基序)来表示表观遗传状态,我们建立了一个上下文回归(CR)模型来预测区域突变率。由于大多数突变与局部表观遗传状态有关,并且独立于疾病状态(灰点),因此该CR模型可以量化DNA基序与体细胞突变率之间的关系。重要的是,CR模型揭示了最能预测体细胞突变的基序(右分支),并且预测的突变值允许使用突变率明显高于预测的癌症相关区域(左分支)对癌症类型进行分类。在散点图中,每个点代表一个训练/测试实例,即基因组区域的预测/测量突变率。突变率为log2(MutationRate+1),与图2C一致。热图的行是重要的主题,列是不同类型的癌症。
https://doi.org/10.1371/journal.pcbi.1011536.g001
我们的模型有几个独特的功能。首先,我们不仅包括文献中记录的已知基序,还包括与DNA甲基化和组蛋白修饰相关的从头基序(称为表层基序)[21-23]。包含表观基序可以近似表观基因组信号,并将揭示参与调节位点特异性表观遗传修饰的DNA基序。其次,我们的模型是可解释的,使用了一种称为上下文回归的方法[65,66]。它可以评估每个基序对预测准确性的贡献,并确定基序的存在是否与区域突变率的增加或减少有关。第三,该模型可以识别表现出超过突变负荷的疾病相关区域。这些区域可用于对疾病类型进行分类。
这项研究有三个目标:(1)开发一个可解释的深度神经网络模型,该模型使用DNA基序预测千碱基尺度的体细胞突变率,(2)确定对区域突变率影响最大的基序,以及(3)使用疾病相关区域对癌症类型进行分类,这些区域的突变率明显高于预测值。
结果
区域体细胞突变率可以在千碱基分辨率下使用DNA基序预测
我们收集了1,125名供体的体细胞突变,这些突变是通过全基因组泛癌分析(PCAWG)项目的全基因组测序(WGS)检测到的[67](参见在线方法的选择标准和S1表)。这些供体与13种肿瘤类型相关,总共包含8,086,632个体细胞突变。为了定义对应于每种癌症类型的正常组织中的基因组分割和表观遗传状态,我们使用ChromHMM进行了ENCODE定义的基因组分割[68]。这种方法背后的基本原理是,癌症中的大多数突变是随机的,我们推断它们主要取决于局部表观遗传状态,这可以使用正常细胞近似。我们观察到,平均而言,80.3%的基因组在癌细胞系与其相应的正常细胞系之间具有相似的ChromHMM状态(S2表)。由于 ChromHMM 片段的长度不同,反映了不同染色质状态的不同尺度,因此我们计算并归一化了每个区域的突变率为 ,其中 T 是所考虑的肿瘤数据集中体细胞突变的总数,C我I区,l的体细胞突变数我是该区域的长度 (bp)。值得注意的是,与之前研究中使用的较大的22Mbp区域相比,基因组区域的大小要小得多,平均为7.3kb(S1表)[34,37,62]。预计这种更精细的尺度将更好地捕获区域表观遗传状态和突变率。
为了建立我们的预测模型,我们利用了一套全面的DNA基序作为输入特征。该组包括文献中1,663个已知的人类基序,以及与DNA甲基化相关的310个基序和与组蛋白修饰相关的348个基序,如先前确定的[22,23](在线方法和S4表)。我们在80%的供体上训练和测试了上下文回归(CR)模型,以预测区域突变率,而其余20%的供体则被排除在评估模型对癌症类型进行分类的能力之外。本研究的框架如S1图所示。
上下文回归(CR)是解释机器学习模型的框架[65,66,69]。它可以通过学习嵌入函数来量化特征的贡献,该嵌入函数将每个特征向量映射到能够预测目标值的局部线性模型。分配给特征向量中每个元素的值被视为上下文权重,嵌入用作上下文的分类器。通过分析上下文权重的统计,可以推断出每个特征的贡献。CR已成功应用于识别神经网络模型中的重要特征,例如预测开放染色质[65]和环状RNA生物发生[66]的特征。
在这里,我们构建了一个具有全连接神经网络架构的CR模型(图2A)。该模型由一个输入层和 7 个隐藏层组成。的 1圣, 3RD和 5千隐藏层分别包含 P/2、P/10-20、P/5-30 个节点(P 是特征数)。每个隐藏层使用整流线性单元(ReLU)激活函数激活,每个隐藏层后跟一个滤差层(2德·, 4千, 6千隐藏层),速率分别为 0.01、0.01 和 0.1。dropout 层是模型训练中用于防止过度拟合的常用技术。辍学率是指隐藏层中随机脱落的神经元的百分比。更高的辍学率意味着更多的神经元被停用。七千layer 是具有 p 个节点和线性激活函数的上下文权重层。输出是通过在输入和上下文权重层之间取点积生成的(图 2A)。
缩略图 下载:
.PPT幻灯片
.PNG大图
.TIFF原始图像
图2. 上下文回归模型成功预测了13个肿瘤的体细胞突变率。
(a) 上下文回归模型的结构;(b)对于每种肿瘤类型,进行10倍交叉验证,并计算预测值和测量值之间的皮尔逊相关系数。“训练精度”和“测试准确度”分别表示训练、测试数据集中皮尔逊相关系数的平均值。“包括用于重新训练”表示在去除癌症相关区域(即突变率明显偏离预测值的区域)后,包括哪个数据集用于重新训练CR模型。“重新训练模型的测试准确性”表示使用从交互式程序获得的重新训练的CR模型的相关性(参见在线方法)。由于测试集中肿瘤类型的区域可能与合并数据集中包含的区域重叠以进行训练,因此删除了重叠区域,Pearson相关系数显示为“删除重叠区域后的测试准确性”;(c) 10倍交叉验证中一个折的散点图,其中chr1和chr11被省略为测试集;(d) 使用重新训练的 CR 模型在淋巴-CLL 测试集中预测的散点图。
https://doi.org/10.1371/journal.pcbi.1011536.g002
我们假设(1)大多数体细胞突变是随机的,独立于癌症(相关区域被称为癌症非依赖性区域),以及(2)这种随机突变与局部表观遗传状态相关,可以通过DNA基序预测。为了验证这一假设,我们训练模型来预测所有区域的突变率。我们预计,准确的预测将证实绝大多数地区是癌症独立的。然后,我们将癌症相关区域确定为观察到的突变率明显偏离预测值的区域,并且可以通过删除已识别的癌症相关区域来进一步改进预测模型(见S2图)。
为了实施这一策略,我们首先对每种癌症类型进行了10倍交叉验证的CR预测,并计算了预测突变率和观察到的突变率之间的Pearson相关性(见S3表)。平均皮尔逊相关性很高,测量值为0.866(图2B),表明大多数癌症非依赖性区域占主导地位。为了建立所有癌症的通用模型,我们选择了5种具有大样本量(供体和区域)和卓越预测性能(在0倍交叉验证的测试集中平均Pearson相关系数>90.10)的癌症。这些癌症包括骨骨质,CNS-髓质,肾脏-RCC,Panc-内分泌和胃腺CA。我们合并了这五种癌症的区域。为了避免训练集和测试集中都存在类似的区域,我们保留了2或3条染色体进行测试,同时在其他染色体上训练模型。我们进行了 10 次这样的交叉验证,结果训练集的平均 Pearson 相关性分别为 0.926 和测试集的平均 0.907(参见 S5 表和图 2C)。值得注意的是,ChromHMM区域在13种癌症中有所不同。很少有确切的ChromHMM片段(基因组中具有完全相同的起始和结束位置)在所有13种癌症中共享,其中80%的ChromHMM状态仅对一种癌症是唯一的,并且在所有0种癌症中发生的部分可以忽略不计(远小于01.13%)。因此,对于不同的癌症,这些区域的特征是不同的,并且可以使用相同的模型预测它们的体细胞突变率。
我们的下一个重点是提高癌症独立区域的预测性能。为了实现这一目标,我们首先确定并删除了观察到的突变率明显偏离预测值的区域(在线方法)。随后,我们使用剩余区域(即癌症非依赖性区域)重新训练CR模型,以更好地捕获表观遗传状态与随机体细胞突变之间的关系(S2图)。接下来,我们使用重新训练的CR模型改进了癌症独立区域和癌症相关区域的识别。与我们的假设一致,大多数区域是癌症独立的,乳腺腺CA的比例最高,为90.1%,前列腺腺CA的比例最低为63.1%(图3A,S6表)。
缩略图 下载:
.PPT幻灯片
.PNG大图
.TIFF原始图像
图3. 分析癌症非依赖性区域。
(a) 13 种癌症类型中癌症独立区域的百分比。百分比的计算方法是癌症独立/相关或模糊区域的数量除以癌症中的区域总数;(b) 使用图案的背景权重聚集的癌症独立区域。对于 13 种癌症类型中的每一种,使用特征上下文权重向量之间的曼哈顿距离作为相似性指标,将确定的癌症独立区域聚类为 10 个聚类。每一行都是具有非零上下文权重的基元,每列都是聚类,每个条目是聚类中所有区域中基元上下文权重的平均值。这些聚类进一步分为10组;(c)每组的归一化突变率,即突变密度的z评分(详见方法),从A组的最低到G组的最高变化很大;(d) 10个组中的区域数目;(e)A组和每个肿瘤中ChromHMM状态的倍数变化。每个 ChromHMM 状态的倍数变化定义为 A 组中状态的百分比除以特定癌症中所有区域中的状态百分比。
https://doi.org/10.1371/journal.pcbi.1011536.g003
为了使用独立数据集评估预测性能,我们将重新训练的CR模型应用于其余8种癌症类型(图2B,2D和S3和S3表),并获得了平均皮尔逊相关系数0.857。考虑到 5 个训练数据集中包含的区域也可能出现在其他数据集中,我们删除了测试集中的所有重叠区域,平均 Pearson 相关性不受影响,并保持在 0.858 的高位(图 2B)。综上所述,CR模型成功地捕获了癌症非依赖性体细胞突变率与不同组织中DNA基序之间的关系。
值得注意的是,单独使用 DNA 基序的预测性能与使用 Chromatin 免疫沉淀后测序 (ChIP-seq) 数据进行 TF 和组蛋白修饰的预测性能相当。例如,使用来自GM165(从 https://www.encodeproject.org/ 下载)数据的12878 TF和组蛋白ChIP-seq作为输入特征来预测Lymph-CLL的体细胞突变率(GM12878作为Lymph-CLL的相应正常细胞),训练和测试数据集上的Pearson相关性为0.903(使用基序为0.943)和0.871(与使用基序的0.899相比), 分别。使用 ChIP-seq 数据的相关性略低,这可能是由于与可用基序的数量相比,ChIP-seq 测量的 TF 数量较少。由于大多数癌症在相应的正常组织或细胞系中缺乏广泛的 ChIP-seq 数据,因此这一观察结果表明,使用 TF 和表观基序可用于在预测突变率时近似区域表观遗传状态。
对预测结果的分析表明,我们的模型不仅仅预测不同ChromHMM状态下的平均突变率。我们通过显示相同的ChromHMM状态表现出广泛的突变率来证明这一点(S4图)。这一观察结果适用于所有分析的癌症,而不仅仅是乳腺癌。此外,我们观察到相同 ChromHMM 状态内所有区域的预测突变率和测量突变率之间存在高度相关性(以 S5 图中的乳腺癌为例,每个面板都是一个 ChromHMM 状态)。这些观察清楚地表明,我们的模型确实可以预测单个区域的突变率,而不仅仅是区分不同ChromHMM状态之间的平均突变率。
此外,我们合并了类似的图案以消除冗余,模型的性能与原始模型(S7表)相当。我们选择使用本研究中设置的非合并基序,因为相同基序的不同版本可能代表同一TF与不同合作伙伴的合作。
上下文回归确定了癌症非依赖性区域的重要特征
为了确定每个癌症独立区域中最重要的特征,我们选择了对预测值贡献最大和上下文权重最大的基序:(1)我们首先选择了前10%的特征,具有最大的|β我X我|,其中β我是要素 X 的上下文权重我.|β我X我|表示特征 X 的贡献我到该区域的预测突变率。(2) 在功能最多的前 10% 中 |β我X我|,我们选择了前 10% 的功能,其中最大的 |β我|.在下面的分析中,我们只关注选定的基序,因此每个区域都由一个由上下文权重值组成的向量表示β我对于选定的图案,0 表示未选择的图案。
使用为每种癌症获得的背景体重曲线,我们使用K-means对癌症非依赖性区域进行了聚类。k的值,即簇数,被确定为每个癌症肘部曲线上的肘部点。在去除小尺寸(少于10个区域)的簇后,我们总共获得了163种癌症的13个簇。使用分层聚类将这些聚类进一步分组为10个不同的组。A组的集群最多(18个),而F组的集群最少(6个)(图3B,完整的热图见S6图)。这10组显示出不同的特征。首先,突变率在A组中最低,在E组中最高(图3C)。其次,每组中的区域数量差异很大,A组包含最多的区域(657,746),F组包含最少的区域(441)(图3D)。第三,两种ChromHMM状态,即弱抑制PolyComb和静止/低状态,仅在所有13种癌症的A组中富集,而在任何其他组中都没有(图3E和S7)。
为了确定每组中的重要特征,我们计算了每组集群中上下文权重的平均值(图4A和S8表)。该分析导致鉴定出分布在336组中的10个独特基序,其中J组具有最多的基序数(130),A组具有最小的基序数(41)(图4B)。有趣的是,尽管表观基序(与组蛋白修饰和DNA甲基化相关的基序)仅占输入基序的28%,但它们的百分比显着增加到平均35%(单比例z检验p值= 5.1×10?7)是10组的重要主题之一。这种增长在A、B、F和I组中尤为突出(图4C)。这一发现支持了表观基序在建立区域表观遗传状态中起关键作用的观点[22,23]。
thumbnail 下载:
.PPT幻灯片
.PNG大图
.TIFF原始图像
图4. 鉴定癌症非依赖性区域的重要基序。
(a) 10组中的重要特征。蓝色和橙色分别代表负上下文权重和正上下文权重;(b) 每组重要图案的数目;(c) 每组主题类别的百分比;(d) A组区域中上下文权重为正的基序周围的平均突变率高于上下文权重为负的基序周围的突变率;(e) A组区域基序位点周围的突变率(基序两侧各1kbp)。红线和蓝线分别表示具有正负上下文权重的主题。主题站点位于中心。
https://doi.org/10.1371/journal.pcbi.1011536.g004
为了获得更深入的见解,我们专注于A组,因为它的区域数量最多。在这一组中,我们确定了18个具有正上下文权重的基序和22个具有负上下文权重的基序(图4A)。上下文权重的符号表示输入要素与预测值之间的正相关或负相关。因此,我们的分析表明,18和22基序对体细胞突变有相反的影响。然后,我们检查了这些基序周围的突变率,发现与负权重的基序相比,具有正权重的基序与显着更高的突变率相关(p值为4.5×410?6来自学生的t检验)(图4D)。此外,我们在所有可能的正加权和负加权基序对之间进行了成对比较。在所有对的62.6%中(248/396,使用学生t检验的p值截止值为0.05),正加权基序的基序位点(上游50bp至下游50bp)周围的突变率高于配对的负基序。CBX2(正系数)和TP53(负系数)的一个基序对如图4E所示。突变率显著更高(p 值为 1.51×10?4来自学生的t检验)围绕CBX2基序,而不是围绕A组中TP53(即M6403_1.02)基序的TP53.已知TP70在修复受损DNA中起重要作用[53],支持TP<>基序与突变率之间的合理负相关。
在A组的重要基序中,我们观察到6个正加权组蛋白基序和5个负加权组蛋白基序(图4A)。H3K27me3基序的正相关以及H3K4me3.H3K4me1和H3K4me1.H3K36me3基序与突变率的负相关并不令人惊讶,并且与文献一致。1 H3K4me1.H3K27ac和3 H3K36me3的正相关以及2个H3K9me3基序的负相关表明组蛋白修饰与千碱基尺度体细胞突变之间的关系比先前的超碱基尺度研究预期的要复杂。有趣的是,我们还发现3个DNA甲基化基序(MM)与体细胞突变率呈正相关,表明DNA甲基化在影响DNA损伤和修复方面可能起作用。
CR模型允许识别癌症相关的基因组区域和基序
对预测突变率的分析使我们能够识别每种肿瘤类型中的癌症相关区域(参见在线方法)。这些区域的百分比因癌症类型而异,从CNS-Medullo的0.2%到Prost-AdenoCA的10.5%不等,平均为4.1%(图3A)。这些癌症相关区域中的一小部分证实了我们的假设,即大多数基因组区域是独立于癌症的。乳腺腺CA中癌症相关区域的一个例子如图5A所示。我们分析了每种癌症类型癌症相关区域的生物学过程(S9表),图5B显示了Breast-AdenoCA的富集过程,包括与乳腺组织和/或乳腺癌相关的生物过程,例如“右心室心肌组织形态发生”,“脂肪细胞分化的负调节”和“女性性腺发育的负调节”以及“通过端粒酶形成端粒”和“端粒酶RNA定位到Cajal”和“端粒酶RNA定位到Cajal”身体”。值得注意的是,关键基因WRAP53也存在于乳腺腺CA相关区域,这与乳腺癌风险增加有关[71-73]。
thumbnail 下载:
.PPT幻灯片
.PNG大图
.TIFF原始图像
图5. 癌症相关区域的分析。
(a) 乳腺腺癌中已确定的癌症相关区域(红点);(二)乳腺腺癌相关区域的丰富途径;(c)13种肿瘤中基序破坏率的倍数变化和p值。红线表示 p 值 0.05;(d)每个肿瘤中癌症相关区域的chromHMM状态的倍数变化(与图3E中的相同);(e) 在癌症相关区域受到严重破坏的基序类型的百分比;(f) 分类模型的性能。使用测试数据集上 150 个选定癌症相关区域的分类模型的混淆矩阵。行和列分别对应于真实和预测的肿瘤类型。值是正确分类的捐赠者数量。例如,对于Prost-AdenoCA,31个供体被正确分类。
https://doi.org/10.1371/journal.pcbi.1011536.g005
我们还发现,在10种肿瘤类型中,有13种肿瘤类型中,体细胞突变对癌症相关区域的基序破坏率明显高于癌症非依赖性区域(p值<0.05,图5C)。癌症相关区域的基序破坏率定义为与体细胞突变重叠的所有基序结合位点的数量除以所有基序结合位点的数量和体细胞突变的数量(参见在线方法)。这一观察结果支持了DNA基序在塑造表观遗传状态中发挥作用的假设,破坏这些基序的突变可能与肿瘤发生有关。
为了确定每种癌症在癌症相关区域中破坏最显着的基序,我们选择了在所有基序中破坏率前5%的基序,p值<0.05(p值根据学生的t检验计算得出,用于癌症相关区域的破坏率大于癌症无关区域的替代假设)。在342种癌症类型获得的13个基序中,60.8%是已知基序,低于输入基序的72%(图5E)。102个(28.9%)DNA甲基化相关基序比输入基序的13%显着增加。值得注意的是,它们都是未甲基化的基序(即UM基序),已知与低DNA甲基化水平有关[23]。这一观察结果与癌症中频繁观察到的高度和中度重复DNA序列(包括异色DNA重复序列)中经常观察到的公认的低甲基化现象一致[74]。在癌症类型中发现的最常见的基序包括一个已知的基序(E2F1,基序ID:M4536_1.02),两个非甲基化基序(UM_235.9_3.32_0.65_1_SGCWCGCGGCGGC和UM_326.6_2.71_0.59_6_CGCGCCCCGY)。已知E2F1在细胞周期调节[75]和DNA修复[76]中起着至关重要的作用。E2F1结合位点的体细胞突变可能导致E2F1功能障碍。此外,在某些癌症类型中发现了几种基序被特异性破坏(S10表),例如骨骨弧中的M2321_1.02(TP63),乳腺腺CA中的M6446_1.02(RARG)和淋巴-CLL中的M5371_1.02(EGR4)。
有趣的是,大多数癌症类型的癌症相关区域富集在“静止/低”的ChromHMM状态中,通常表现出很少或低的表观遗传信号。此外,每种癌症类型也显示出自己特定的表观遗传状态,如不同ChromHMM状态的富集所反映的那样。例如,“基因5'和3'''的转录是Lymph-CLL和Lymph-BNHL中最富集的状态,而”ZNF基因和重复“在骨骨和Panc-内分泌中富集(图5D)。
癌症相关区域可预测癌症类型
癌症相关区域在癌症中可能很重要,因为癌症相关区域是那些突变率明显高于预测突变值的区域。因此,我们研究了这些区域是否可以预测癌症类型。30 种具有 WGS 数据的癌症,每种癌症有 >400 名供体,用于癌症类型的多类分类,由于样本量小,Stomach-AdenoCA 被排除在外。此外,来自GTEX的67名健康捐赠者被纳入对照。使用890,6个癌症相关区域(共同跨越整个基因组,S12表)的突变计数,训练梯度增强决策树模型,用于对80种肿瘤类型和对照进行分类。对27%的癌症供体(CR模型构建中使用的数据集)和对照组进行分类模型的训练和评估,而其余样本(CR模型构建中未使用的独立数据)作为测试集。对超参数空间(000,6 种 11 个参数的组合,S5 表和方法部分)进行了系统搜索,对训练数据(即 80,1 名癌症供体中的 382% 和 320 名对照供体)进行了 5 倍交叉验证。根据训练数据集和验证数据集之间的最小精度差异选择最佳参数组合,以避免过度拟合。在0倍交叉验证中,检验数据的预测准确率为865.80。我们使用具有最佳参数组合的所有 20% 数据重新训练分类模型,其在左侧 0% 数据集上的预测准确率为 858.<>。
使用梯度提升决策树的特征重要性指标进行特征选择过程,选择150个区域(占全基因组的5.8%)进行重新训练分类模型。我们还在 5% 数据集上使用 80 倍交叉验证执行了参数调整。使用最佳参数组合(S0表)时,测试样品的准确度为813.12。随后,使用具有最佳参数组合的80%数据集重新训练分类模型,其对左侧20%供体的预测准确率为0.822(图5F)。测试数据集上每个类别的召回率范围从骨骨弧的0.14到对照组的1.00,中位数为0.72。精度范围从乳腺腺CA的0.62到骨骨,淋巴-BNHL和卵巢腺CA的1.00,中位数为0.83。F1得分是一个综合指标,范围从骨骨弧的0.25到对照组的0.98,中位数为0.75。在对照样本上获得最佳性能并不奇怪,因为区分正常样本和肿瘤样本通常比区分不同类型的肿瘤更容易。Bone-Osteosarc的表现最差,这可能是由于样本量小(只有28名供体接受培训,7名接受检测)。总体而言,该模型的性能令人满意,特别是考虑到它仅利用了5.8%的基因组进行分类。这些结果进一步验证了模型的稳健性,并证明预测的突变值可以作为识别异常高突变率区域的参考,这些区域可能与特定癌症类型有关。
讨论
与以前的分析不同,我们首次表明DNA基序可以预测千碱基尺度上的区域体细胞突变率。DNA基序包括已知的TF基序以及与组蛋白修饰或DNA甲基化相关的表皮基序。结果表明,预测性能与使用组蛋白和TF ChIP-seq数据相当。考虑到肿瘤组织中的基因组测序比 ChIP-seq 实验容易得多,我们的模型提供了一种强大的方法来量化体细胞突变与表观遗传状态之间的关系。
该研究的一个显着方面是揭示了epi基序在预测区域体细胞突变率方面所起的关键作用。尽管仅占输入基序的28%,但在35组中最具预测性的基序中,外延基序平均占10%。此外,与输入基序中的百分比(28%)相比,癌症相关区域中DNA甲基化相关基序的破坏频率(9.13%)显着更高,这表明它们在塑造区域表观遗传状态和决定位点特异性修饰方面起着关键作用。从该分析中鉴定出的这些重要的表观基序可以指导未来的研究,以研究与这些基序结合的蛋白质,并将表观遗传酶募集到特定位点,从而启动表观遗传状态的局部变化。这项研究的成功还表明,有可能使用表观基序作为局部表观遗传状态的替代物来预测其他可观察的测量。
我们假设大多数体细胞突变是随机的,仅取决于正常细胞/组织中的区域表观遗传状态。换句话说,大多数包含体细胞突变的基因组区域是癌症非依赖性的。这一假设得到了所有地区预测和测量突变率之间的高度相关性的支持。这种千碱基尺度的关系在癌症中是普遍的,正如对未包含在训练数据集中的癌症的成功预测所表明的那样。这种关系以前在以前研究的超大规模分析中没有发现。
此外,上下文回归模型提供了一个框架来解释神经网络预测并识别最具预测性的特征。使用预测基序的上下文权重,我们能够聚类具有相似基序贡献谱的基因组区域,以预测突变率。同一簇中的区域可能受到类似机制的调节,类似于基因在不同细胞类型中共享相似的表达谱。事实上,通过分析这些簇,我们观察到蛋白质结合对区域突变的影响可以是积极的,消极的或中性的。虽然先前的研究报告TF结合会阻断开放染色质区域中的DNA修复蛋白以增加突变率[55],但我们发现存在存在于开放染色质区域中的蛋白质/基序与较低的突变率相关。这一观察结果强调了遗传和表观遗传背景对影响区域突变的重要性。
重要的是,上下文回归模型的预测突变率为识别特定癌症中的癌症相关区域提供了定量背景。这些区域的突变率明显高于相应正常组织中区域表观遗传状态的预期。CR模型学习基序与突变率之间的关系。对于每种癌症的每个区域,它根据自己的特征都有自己的背景突变率。因此,如果观察到的突变率高于背景,则该区域可能与该癌症的机制有关,因此称为癌症相关区域。由于与正常组织相比,癌症组织中突变率较高的区域可能由各种原因引起,并且可能与癌症无关,因此使用预测的突变率作为参考将允许区分癌症组织内的区域并发现与癌症直接相关的区域。虽然研究这些区域的潜在机制不是本研究的重点,但已确定的已知和表层基序可以帮助未来的机制分析,并阐明调节体细胞突变率的区域特异性因素。基于这些癌症相关区域,我们发现仅使用仅占人类基因组150.5%的8个区域才能以令人满意的性能预测癌症类型。这一结果提供了一种使用靶向测序的潜在诊断工具。
突变特征已被广泛用于表征癌症中突变类型的偏好。因此,我们对3种类型的区域进行了突变特征分析,即癌症非依赖区域,癌症相关区域和所有区域。与癌症相关区域相比,癌症非依赖性区域与突变特征的关联与所有区域的关联更相似,这并不意外。在同一癌症类型中,这两种类型的区域之间突变特征的相对贡献可能大不相同。例如,与癌症非依赖性区域相比,特征2在骨骨质中癌症相关区域的贡献更大(S8图)。对每个突变特征有重大贡献的基序列在Github(https://github.com/Wang-lab-UCSD/SomaticMutation/tree/main/results/supplementaryTables/ 13_cancers_motifs_contribution_30_SBS.xlsx)。显然,两种方法(CR模型和突变特征)提供了互补的信息,CR模型发现的基序/它们的结合蛋白可以指导特定区域突变特征的机制研究。
在提交这项工作期间,Sherman等人[77]发表了一种深度学习方法,用于预测10kbp分辨率的突变率。我们的研究在以下方面与Sherman等人不同,两项研究具有很强的互补性。首先,我们的模型仅使用每种癌症类型相应正常细胞类型中6个组蛋白标记的DNA基序和表观基因组数据。相比之下,Sherman等人使用了更多的数据,包括来自723个组织的111个染色质标记来训练他们的模型,以及10个细胞系的复制时间和参考基因组中的平均核苷酸和CG含量。我们的模型使用的特征要少得多,但可以实现稍微好一点的预测性能(平均皮尔逊R2= 0.736,即R = 0.858,图2B和S3 我们手稿中的表格与平均皮尔逊R2= 0.706,即 R = 0.84,在 Sherman 等人中)。其次,我们的模型无需再训练即可应用于新的癌症类型,并且只需要相应正常细胞中的表观遗传状态,如我们的论文所示,在5种癌症类型上训练的模型已成功应用于预测其余8种癌症类型。相比之下,Sherman等人必须重新训练整个模型以包括新的癌症类型。第三,我们的研究重点是了解DNA基序,特别是表观基序,如何促进区域体细胞突变率,上下文回归模型提供了一个可解释的模型,直接推导出重要基序。相比之下,Sherman等人专注于发现驱动突变。
在这项研究中,我们使用ChromHMM来分割基因组并注释表观遗传状态。值得注意的是,分析结果应该对染色质状态的变异性不敏感。我们的模型考虑了各个区域的突变率,不需要区分不同的状态,例如增强子亚类。比较不同的分割方法并使用不同数量的 ChromHMM 状态来重复我们的分析可能会很有趣。
综上所述,我们开发了一个可解释的神经网络模型,使用13种不同癌症的DNA基序成功预测千碱基分辨率的体细胞突变率,并确定了信息量最大的基序,特别是表层基序。此外,我们发现突变率明显高于预测值的基因组区域可用于癌症分类,从而促进潜在机制的发现。癌症样本中额外的WGS数据和相应正常样本中的表观基因组数据的可用性将进一步提高模型的性能和通用性。此外,本研究为研究新机制提供了候选基序和TF,并且训练好的CR模型很容易适用于新癌症和识别癌症相关区域。CR模型还可以应用于其他生物学问题,例如使用DNA序列预测组蛋白修饰。有趣的是,我们发现相同的突变特征通常对癌症相关和癌症非依赖性区域有不同的贡献,我们还确定了对每个突变特征贡献最大的基序。
材料和方法
体细胞突变数据
全基因组泛癌分析联盟(PCAWG)分析的2,583名供体的体细胞突变数据是从国际癌症基因组联盟(ICGC)数据门户下载的[78] (https://dcc.icgc.org/)。这是此分析开始时最大的数据集。供体的肿瘤类型从参考文献的S1表中检索[67]。我们使用以下标准过滤数据:(1)转移性肿瘤的供体被移除,因为在本研究中,我们专注于原发性肿瘤;(2)丢弃体细胞突变数量极高或极低的异常供体以避免偏倚。异常值定义为位于肿瘤类型上四分位数上方和下四分位数以下四分位数范围 1.5 倍之外的数据点;(3)不包括相应正常组织中供体少于5个或没有ChromHMM分割的肿瘤类型;(4) 如果捐赠者同时拥有WES和WGS数据,则仅保留WGS数据;(5)如果该肿瘤类型的所有供体细胞突变总数小于30,000,则去除肿瘤类型。结果,来自1种不同肿瘤类型的125,13名供体用于模型训练和测试(S1表)。黑名单区域的体细胞突变被移除[79]。虽然这13种癌症类型可能完全代表也可能不完全代表所有组织中的体细胞突变率,但重要的是要注意,本研究的主要目的不是选择癌症类型作为不同组织的代表。相反,我们的研究旨在开发一个预测模型,以了解DNA基序如何促进不同癌症的区域体细胞突变率。
脱氧核糖核酸基序
我们纳入了CIS-BP数据库中记录的1731个DNA结合蛋白的人类基序[80]和来自因子手册[55]的另外63个基序。我们还添加了313个与DNA甲基化相关的基序[23]和361个与组蛋白修饰相关的基序[22],这些基序在我们以前的研究中被鉴定出来。这些基序被用来近似表观遗传状态。我们使用FIMO [81]针对hg2460扫描了总共19个基序。p 值截止值为 10?5,2,321个至少出现一次的基序用于以下分析(S4表)。
使用 ChromHMM 进行基因组分割
核心 15 态 ChromHMM 分割是从 https://egg2.wustl.edu/roadmap/web_portal/ 下载的。对于肾脏和前列腺,网站上无法获得ChromHMM分割。为了保持一致性,我们将核心 15 状态训练的 ChromHMM 模型应用于这 2 个组织,该模型是从 https://egg2.wustl.edu/roadmap/data/byFileType/chromhmmSegmentations/ChmmModels/coreMarks/jointModel/final/model_15_coreMarks.txt 下载的。这2种组织的数据是从ENCODE门户(S13表)下载的。
体细胞突变密度和特征计算
我们计算了一组给定癌症患者的体细胞突变密度,如下所示。让 R我表示分段区域 i, i = 1,...,N, l我R 的长度 (bp)我和 C我区域I中所有供体的体细胞突变数量。体细胞突变从PCAWG下载。区域体细胞突变密度D我计算为 ,其中 T 是该数据集的所有供体体体细胞突变的总数。我们在 D 中添加了一个伪计数我并定义 .然后,我们通过 z 分数变换计算为模型中的响应变量,其中 Mean 是 的平均值,STD 是 的标准差误差。
让 Mj是主题 j, j = 1,..,p。 是所有出现的 M 的 p 值中位数j在区域 R我p值是根据FIMO[81]计算的。我们在每个区域中使用 -log10() 作为输入特征来预测 Y我.
CR模型的构建、培训和测试
CR模型的架构如图2A所示。我们使用 Adam 作为训练 CR 模型的优化算法。Adam 是一种流行且高效的优化算法,常用于神经网络训练。它非常适合数据/参数较大的问题。选择亚当是基于其在类似任务中的出色表现。为了确保CR模型的最佳性能,我们对超参数进行了网格搜索,包括辍学率。Dropout 是一种正则化技术,用于通过在训练期间将神经元输出的一部分随机设置为零来防止神经网络中的过度拟合。我们测试了不同的辍学率并评估了模型的性能。我们选择了三种癌症(骨骨癌、乳腺癌和肝癌),涵盖了预测性能的范围。我们测试了五种不同的辍学率,测试集的准确性非常相似,这表明模型训练对辍学率的鲁棒性。上下文回归 (CR) 的基本原理是,CR 可以通过学习嵌入函数将每个特征向量映射到可以预测目标值的线性模型来量化特征贡献。分配给特征向量中每个元素的值被视为上下文权重,嵌入用作上下文的分类器。通过分析上下文权重的统计,可以推断出每个特征的贡献。
CR 模型的训练和测试细节如 S1 图所示。简而言之,我们将捐赠者随机分为两组:80%用于模型训练/测试,其余用于独立测试。使用80%的供体,我们使用10倍交叉验证训练和测试了单个癌症类型的CR模型(S1图中的步骤1)。选择表现最好的5种癌症来训练这5种癌症所有区域的通用模型(步骤2)。由于癌症中的大多数区域可以使用相应正常细胞中的基序和ChromHMM分割准确预测,因此它证实了我们的假设,即大多数基因组中的体细胞突变是独立于癌症的。为了更好地捕捉体细胞突变与表观遗传状态之间的关系,我们删除了预测突变率明显偏离观测值的区域,即癌症相关区域(步骤3)。我们进一步分析了具有高CR权重的重要基序(步骤4)。然后,我们训练并测试了一个分类模型,以使用癌症相关区域的20%的供体来区分癌症类型,这些供体未用于选择这些区域作为独立测试(步骤5)。
评估 CR 模型性能
在每个数据集中,我们进行了交叉验证以评估模型性能,其中10%的分割区域被保留进行测试。由于存在来自不同肿瘤类型的重叠 ChromHMM 区域,我们根据染色体对这 5 种肿瘤类型的样本进行了分区,以避免训练和测试数据集中出现的重叠区域。两到三条染色体被随机遗漏进行测试,而其他染色体则用于训练CR模型。我们重复了10次这样的交叉验证。训练/测试数据集和性能的具体分区列在 S5 表中。
识别癌症相关和癌症非依赖性区域
为了确定癌症相关和癌症独立区域,我们使用了迭代程序。首先,我们使用合并数据集中的所有区域(第一次迭代)训练了一个 CR 模型。由于大多数区域是癌症无关区域,因此使用所有区域来训练模型不会显着影响准确性。假设特定区域中的癌症非依赖性体细胞突变计数遵循泊松分布,我们使用从预测突变率转换的预测计数估计参数λ(即对泊松分布的期望)。基于此泊松分布,我们计算了观察到的突变计数的p值。如果某个区域的 p 值(上尾或下尾)< 0.1,则认为它与癌症相关或模棱两可,因此从训练集中移除。我们使用剩余的区域重新训练了CR模型,这些区域可能在第二次迭代中包含更多癌症非依赖性区域。重复此过程将继续改进模型并删除与癌症相关或模棱两可的区域。我们发现,随着测试数据集的平均均方误差(MSE)在第二次迭代时达到平台期,该过程收敛速度很快,表明模型变得稳定。因此,我们将使用两次迭代训练的模型作为以下分析的最终模型。
我们使用最终CR模型的预测突变率作为背景,并重新计算每个肿瘤中每个区域的p值。如果一个区域的p值(上尾和下尾)>0.1,则称为癌症无关,如果一个区域的上尾FDR为<0.01,则称为癌症相关。其他区域是模棱两可的区域,未包括在任何进一步分析中。
需要GTEX数据的体细胞突变
我们从dbGap下载了GTEX WGS数据(入藏号phs000424.v8.p2)。我们将测序读数与hg19对齐,并使用GATK最佳实践工作流程称为体细胞突变[82]。我们使用GATK中的MarkDuplicatesSpark函数删除了来自相同DNA片段重复的读取。进行基础(质量得分)重新校准,以纠正在基本质量得分中观察到的任何系统偏差。我们遵循了如何使用GATK4 Mutect2调用体细胞突变的指南(https://gatk.broadinstitute.org/hc/en-us/articles/360035889791-How-to-Call-somatic-mutations-using-GATK4-Mutect2-Deprecated-)。我们使用Mutect2调用候选变体,Mutect400是专门为GATK组的体细胞突变调用而设计的。然后应用FilterMutectCalls来识别伪影中的变异,例如由比对,链和方向偏差,聚合酶滑移和种系变异引起的变异。该工具使用调用集中的注释,并应用针对人体体细胞分析进行优化的预设阈值。这将生成一个带有过滤器字段的 VCF 文件。在“过滤器”字段中,真阳性标记为 PASS。Funcotator用于为这些变体添加注释,例如dbSNP和gencode。最后,我们仅考虑了带有FILTER标志PASS的体细胞突变,并获得了<>个供体的体细胞突变。
图案的中断率
在给定患者的癌症相关区域中,基序的破坏率计算为C / (M * N),其中C是该患者癌症相关区域中与体细胞突变重叠的基序结合位点的数量,M是基序结合位点的总数,N是该患者癌症相关区域中体细胞突变的总数。同样,我们计算了癌症非依赖区域的破坏率。为了检验癌症相关区域的破坏率是否高于癌症非依赖区域的破坏率,使用配对T检验以患者为样本计算每种肿瘤类型的p值。通过这种方式,我们确定了每种癌症类型的显着破坏的基序。
为了评估在一种癌症中是否所有基序都受到显着破坏,我们对所有基序进行了上述分析。具体来说,给定癌症类型和患者,所有基序的破坏率定义为C / (M * N),其中C是该患者癌症相关区域中与体细胞突变重叠的所有基序结合位点的数量,M是所有基序结合位点的总数,N是该患者癌症相关区域中体细胞突变的总数。癌症相关区域的破坏率以相同的方式计算。采用配对T检验以患者为样本评估每种肿瘤类型的显著性。p 值截止值设置为 0.05。
梯度提升决策树
训练梯度提升决策树,使用scikit-learn包对癌症类型进行分类[83]。模型中有六个参数,包括(1)学习率(表示为learning_rate);(2)节点中需要考虑拆分所需的最小样本(或观察)数量(min_samples_split);(3)终端节点或叶子(min_samples_leaf)所需的最小样本(或观察);(4)一棵树的最大深度(max_depth);(5)为每棵树选择的观测值比例(子样本);(6)要建模的顺序树的数量(n_estimators)。
我们选择了分类性能最佳的参数的最优值:当使用所有癌症相关区域作为特征时:learning_rate = 0.012;min_samples_split = 150;min_samples_leaf = 130;max_depth = 2;子样本 = 0.6;n_estimators = 1900(S11表);当使用选定的 150 个癌症相关区域作为特征时,learning_rate = 0.011;min_samples_split = 190;min_samples_leaf = 60;max_depth = 3;子样本 = 0.6;n_estimators = 2000(S12 表)。
突变特征分析
为了分别确定每种癌症的癌症依赖性和癌症相关区域的突变模式,我们首先准备了目录矩阵C,其中行作为突变类型,列作为不同类型的区域。在我们的例子中,C 的维度是 96x3,其中 96 对应于突变类型的数量,3 对应于三种类型的区域,它们是癌症无关区域、癌症相关区域以及该癌症中的所有 ChromHMM 区域作为参考。然后,我们使用R包突变模式[84,85]和默认参数来拟合C与30个宇宙突变特征,并且可以计算每种癌症中三种类型区域的30个突变特征的相对贡献。
支持信息
用于训练和测试 CR 模型的框架。
显示 1/21: pcbi.1011536.s001.tif
跳到无花果共享导航
https://ndownloader.figstatic.com/files/42538148/preview/42538148/preview.jpg
1 / 21
下载
无花果分享
S1 图 用于训练和测试 CR 模型的框架。
https://doi.org/10.1371/journal.pcbi.1011536.s001
(提夫)
S2 图 玩具模型展示了如何训练CR模型和识别癌症独立和癌症相关区域。
红点代表癌症相关区域,黑点代表癌症独立区域。黑线代表真正的模型。在实践中,我们不知道哪些点(即区域/样本)是癌症相关或癌症无关的区域。因此,我们使用所有样本训练一个 CR 模型,并得到红线指示的训练模型。在假设下,我们知道经过训练的CR模型并不完全是真正的模型,但它接近于真正的模型。为了识别癌症相关区域,我们以当前训练的CR模型的预测为背景,对每个区域进行假设检验(详见在线方法)。我们删除了p值较小的区域,并使用其余区域重新训练CR模型。然后得到一个新的CR模型(即蓝线)。这个新的CR模型更接近真实模型。蓝线被视为真实模型,并根据蓝色模型的预测再次对每个区域进行假设检验。最后,p值较小的区域将被视为癌症相关区域,p值较大的区域将被视为癌症无关区域。
https://doi.org/10.1371/journal.pcbi.1011536.s002
(提夫)
S3 图 使用重新训练的CR模型的13种肿瘤类型的散点图。
Cor:皮尔逊相关性。MAE:平均绝对误差。MSE:均方误差。斯皮尔曼:斯皮尔曼相关。
https://doi.org/10.1371/journal.pcbi.1011536.s003
(提夫)
S4 图 log2(MutationRate+1)在乳腺癌中跨ChromHMM状态的分布。
所有其他癌症都有类似的广泛分布。
https://doi.org/10.1371/journal.pcbi.1011536.s004
(提夫)
S5 图 乳腺癌中跨 ChromHMM 状态的预测和测量突变率之间的相关性。
所有其他癌症都有类似的高度相关性。
https://doi.org/10.1371/journal.pcbi.1011536.s005
(提夫)
S6 图 使用基序的背景权重聚集的癌症独立区域。
对于 13 种癌症类型中的每一种,使用特征上下文权重向量之间的曼哈顿距离作为相似性指标,将确定的癌症独立区域聚类为 10 个聚类。每一行都是一个主题,每一列都是一个聚类,每个条目是聚类中所有区域中一个基元的上下文权重的平均值。这些聚类进一步分为10组。
https://doi.org/10.1371/journal.pcbi.1011536.s006
(提夫)
S7 图 9组从B组到J组的chromHMM状态的倍数变化。
颜色键表示一个组中一个状态的百分比与整个数据集中该状态的百分比之间的倍数变化。
https://doi.org/10.1371/journal.pcbi.1011536.s007
(提夫)
S8 图 3 种癌症的 13 个不同区域的标准化突变特征贡献的热图。
颜色键表示规范化的贡献值。
https://doi.org/10.1371/journal.pcbi.1011536.s008
(提夫)
S1 表。 本研究中分析的肿瘤类型和供体大小。
https://doi.org/10.1371/journal.pcbi.1011536.s009
(三十)
S2 表。 ChromHMM状态与癌症和相应的正常细胞系之间的相似性。
四种癌症 - 正常细胞比较以相似状态的长度百分比显示(“长度相似”)。更具体地说,TssA 和 TssAFlnk 被认为是相似的;TxFlnk,Tx和TxWk相似;ZNF/Rpts、Het、ReprPC、ReprPCWk 和 Quies 是相似的。
https://doi.org/10.1371/journal.pcbi.1011536.s010
(三十)
S3 表。 本研究中13种肿瘤类型的汇总统计数据。
“训练集中的相关性”:训练数据集上 CR 模型在 10 倍交叉验证中的 Pearson 相关性的平均值。“测试集中的相关性”:CR 模型在 10 倍交叉验证中测试数据集上的 Pearson 相关性的平均值。“合并数据训练CR”:是否使用此肿瘤类型数据来训练统一的CR模型。“最终模型中的相关性”:真实值与应用于肿瘤所有区域的最终CR模型预测之间的皮尔逊相关性。“删除重叠区域后的区域数”:删除具有 5 个合并数据集的重叠区域后的区域数。“无重叠区域的相关性”:真实值与统一CR模型预测之间的皮尔逊相关性应用于肿瘤中没有重叠的区域。
https://doi.org/10.1371/journal.pcbi.1011536.s011
(三十)
S4 表。 本研究中使用的基序ID和相应的蛋白质。
还列出了每个染色体中结合位点的数量。“TotalNum”代表整个基因组中结合位点的总数。
https://doi.org/10.1371/journal.pcbi.1011536.s012
(三十)
S5 表。 10 倍交叉验证结果。
“chr in test”:用作测试数据集的染色体 ID。“MSE_test”:测试数据集中的均方误差。“Cor_test”:测试数据集中的皮尔逊相关性。“MSE_train”:训练数据集中的均方误差。“Cor_train”:训练数据集中的皮尔逊相关性。
https://doi.org/10.1371/journal.pcbi.1011536.s013
(三十)
S6 表。 本研究中使用的chromHMM数据集以及每种癌症的癌症相关区域的数量。
https://doi.org/10.1371/journal.pcbi.1011536.s014
(三十)
S7 表。 使用合并基元作为特征的训练和测试结果。
(列名的注释可以在图2B图例中找到)。
https://doi.org/10.1371/journal.pcbi.1011536.s015
(三十)
S8 表。 每个组中的重要功能。
“GroupA_beta”:A组中的特征系数,0表示该特征在组中不重要。“GroupA1_mean”:A组中具有相应基序结合位点的区域的突变率平均值。
https://doi.org/10.1371/journal.pcbi.1011536.s016
(三十)
S9 表。 13种肿瘤类型癌症相关区域的丰富途径。
https://doi.org/10.1371/journal.pcbi.1011536.s017
(三十)
S10 表。 基序被体细胞突变显着破坏。
例如,UM_3582.2_3.88_0.56_57_known。TEAD2在三个数据集中被显着破坏:Lymph-CLL,Kidney-RCC,卵巢 - 腺CA。
https://doi.org/10.1371/journal.pcbi.1011536.s018
(三十)
S11 表。 使用所有癌症相关区域作为特征的分类性能。
https://doi.org/10.1371/journal.pcbi.1011536.s019
(三十)
S12 表。 分类性能选用了150个最重要的区域。
https://doi.org/10.1371/journal.pcbi.1011536.s020
(三十)
S13 表。 本研究中使用的组蛋白修饰的入藏号,用于执行 ChromHMM 分割。
https://doi.org/10.1371/journal.pcbi.1011536.s021
(三十)
引用
1.斯特里克 SH, 科弗勒 A, 贝克 S.从轮廓到表观基因组学的功能。自然评论遗传学。2017.第51–66页。密码:27867193
查看文章PubMed/NCBI谷歌学术搜索
2.Struhl K,Segal E.核小体定位的决定因素。自然结构与分子生物学。2013.第267–273页。密码:23463311
查看文章PubMed/NCBI谷歌学术搜索
3.Ernst J,Kellis M.染色质状态的发现和表征,用于人类基因组的系统注释。自然生物技术。2010.第817–825页。密码:20657582
查看文章PubMed/NCBI谷歌学术搜索
4.Stadler MB, Murr R, Burger L, Ivanek R, Lienert F, Sch?ler A, et al. DNA结合因子在远端调控区域塑造小鼠甲基组。自然界。2011.第490–495页。密码:22170606
查看文章PubMed/NCBI谷歌学术搜索
5.林恩, 张海.长非编码RNA的基因组调控。生物化学年度回顾。2012.第145–166页。密码:22663078
查看文章PubMed/NCBI谷歌学术搜索
6.Badeaux AI, Shi Y. 染色质作为信号集成和存储平台的新兴角色。自然评论分子细胞生物学。2013.第211–224页。密码:23524488
查看文章PubMed/NCBI谷歌学术搜索
7.小迪克森, 塞尔瓦拉杰, 岳 F, 金 A, 李 Y, 沈 Y, 等.通过染色质相互作用分析鉴定的哺乳动物基因组中的拓扑结构域。自然界。2012.第376–380页。pmid:22495300
查看文章PubMed/NCBI谷歌学术搜索
8.Nora EP, Lajoie BR, Schulz EG, Giorgetti L, Okamoto I, Servant N, et al.X灭活中心监管景观的空间划分。自然界。2012.第381–385页。密码:22495304
查看文章PubMed/NCBI谷歌学术搜索
9.扎雷特KS,卡罗尔JS。先锋转录因子:建立基因表达能力。基因与发展。2011.第2227–2241页。密码:22056668
查看文章PubMed/NCBI谷歌学术搜索
10.Levine M, Cattoglio C, Tjian R. 循环回去飞跃:转录进入新时代。细胞。2014.第13–25页。密码:24679523
查看文章PubMed/NCBI谷歌学术搜索
11.Mayran A, Drouin J. 先锋转录因子塑造了表观遗传景观。生物化学杂志.2018. 第 13795–13804 页。pmid:29507097
查看文章PubMed/NCBI谷歌学术搜索
12.扎雷特·启动基因网络变化的先驱转录因子。遗传学年度评论。2020.第367–385页。pmid:32886547
查看文章PubMed/NCBI谷歌学术搜索
13.将基因组与表观基因组联系起来。WIREs系统生物学和医学。2012.第297–309页。密码:22344857
查看文章PubMed/NCBI谷歌学术搜索
14.Mendenhall EM, Koche RP, Truong T, Zhou VW, Issac B, Chi AS, et al. 富含GC的序列元件在哺乳动物ES细胞中募集PRC2。公共科学图书馆遗传学。2010. 第 E1001244 页。pmid:21170310
查看文章PubMed/NCBI谷歌学术搜索
15.汤姆森JP, 斯基恩 PJ, 塞尔福里奇 J, 克劳伊尔 T, 盖伊 J, 韦伯 S, 等.CpG岛通过CpG结合蛋白Cfp1影响染色质结构。 自然。2010.第1082–1086页。密码:20393567
查看文章PubMed/NCBI谷歌学术搜索
16.Klattenhoff CA, Scheuermann JC, Surface LE, Bradley RK, Fields PA, Steinhauser ML, et al.勇敢的心,心血管谱系承诺所需的长非编码RNA。细胞。2013.第570–583页。密码:23352431
查看文章PubMed/NCBI谷歌学术搜索
17.蔡明春, 曼诺尔, 万莹, 莫萨马帕拉斯特 N, 王建康, 兰芳, 等. 长非编码RNA作为组蛋白修饰复合物的模块化支架.科学。2010.第689–693页。pmid:20616235
查看文章PubMed/NCBI谷歌学术搜索
18.Baudat F, Buard J, Grey C, Fledel-Alon A, Ober C, Przeworski M, et al. PRDM9是人类和小鼠减数分裂重组热点的主要决定因素。科学。2010.第836–840页。密码:20044539
查看文章PubMed/NCBI谷歌学术搜索
19.布鲁特-卡尔斯利奥卢 A, 佩雷拉五世, 斯卡拉纳罗 M, 德拉罗莎-贝拉斯克斯 IA, 范德诺贝尔伦 S, 舒基尔 N, 等.基于转录因子的小鼠异染色质形成机制。自然结构与分子生物学。2012.第1023–1030页。密码:22983563
查看文章PubMed/NCBI谷歌学术搜索
20.Costa Y, Ding J, Theunissen TW, Faiola F, Hore TA, Shliaha PV, et al. TET1和TET2在建立多能性中的NANOG依赖性功能。自然界。2013.第370–374页。pmid:23395962
查看文章PubMed/NCBI谷歌学术搜索
21.惠特克JW,陈Z,王W.从DNA基序预测人类表观基因组。自然方法。2015.第265–272页。pmid:25240437
查看文章PubMed/NCBI谷歌学术搜索
22.Ngo V, Chen Z, Zhang K, Whitaker JW, Wang M, Wang W. 表观基因组分析揭示了调节人类和小鼠组蛋白修饰的DNA基序。美国国家科学院院刊,2019年;116: 3668–3677.密码:30755522
查看文章PubMed/NCBI谷歌学术搜索
23.王敏, 张可, 吴五, 刘春, 范S, 惠特克, 等.鉴定调节DNA甲基化的DNA基序。核酸研究。2019.第6753–6768页。密码:31334813
查看文章PubMed/NCBI谷歌学术搜索
24.Bussemaker HJ, Li H, Siggia ED. 使用与表达式相关性的调节元素检测.自然遗传学。2001.第167–171页。密码:11175784
查看文章PubMed/NCBI谷歌学术搜索
25.康伦, 刘晓莉, 李京东, 刘建军.整合调控基序发现和全基因组表达分析。美国国家科学院院刊.2003.第3339–3344页。密码:12626739
查看文章PubMed/NCBI谷歌学术搜索
26.Lindahl T,Wood RD.通过DNA修复进行质量控制。科学。1999.第1897-1905页。pmid:10583946
查看文章PubMed/NCBI谷歌学术搜索
27.Sancar A, Lindsey-Boltz LA, ünsal-Ka?maz K, Linn S. 哺乳动物DNA修复的分子机制和DNA损伤检查点。生物化学年度回顾。2004.第39–85页。密码:15189136
查看文章PubMed/NCBI谷歌学术搜索
28.沈华, 莱尔德·癌症基因组和表观基因组之间的相互作用。细胞。2013.第38–55页。密码:23540689
查看文章PubMed/NCBI谷歌学术搜索
29.Gonzalez-Perez A,Sabarinathan R,Lopez-Bigas N.人类基因组突变景观的局部决定因素。细胞。2019;177: 101–114.pmid:30901533
查看文章PubMed/NCBI谷歌学术搜索
30.Supek F,Lehner B.人类基因组中体细胞突变率变异的尺度和机制。脱氧核糖核酸修复。2019;81: 102647.pmid:31307927
查看文章PubMed/NCBI谷歌学术搜索
31.染色质中DNA损伤,切除修复和诱变的组织:基因组视角。脱氧核糖核酸修复。2019;81: 102645.密码:31307926
查看文章PubMed/NCBI谷歌学术搜索
32.马科娃,哈迪森·染色质组织对基因组突变率变异的影响。纳特·雷夫·热内。2015;16: 213–223.密码:25732611
查看文章PubMed/NCBI谷歌学术搜索
33.霍奇金森 A, 陈 Y, 艾尔-沃克 A.癌症基因组中体细胞突变的大规模分布。哼。 2012;33: 136–143.密码:21953857
查看文章PubMed/NCBI谷歌学术搜索
34.Schuster-B?ckler B,Lehner B.染色质组织对人类癌细胞的区域突变率有主要影响。自然界。2012;488: 504–507.密码:22820252
查看文章PubMed/NCBI谷歌学术搜索
35.胡永华, 李文华.DNA复制时间和选择塑造了癌症基因组中核苷酸变异的格局。纳特公社。2012;3: 1004.密码:22893128
查看文章PubMed/NCBI谷歌学术搜索
36.DNA复制时间和高阶核组织决定了癌症基因组中的单核苷酸取代模式。纳特公社。2013;4: 1502.密码:23422670
查看文章PubMed/NCBI谷歌学术搜索
37.波拉克 P, 卡利奇 R, 科伦 A, 瑟曼 R, 桑德斯特罗姆 R, 劳伦斯 M, 等.细胞起源染色质组织塑造了癌症的突变景观。自然界。2015;518: 360–364.pmid:25693567
查看文章PubMed/NCBI谷歌学术搜索
38.Reijns MAM, Kemp H, Ding J, de Procé SM, Jackson AP, Taylor MS. 滞后链复制塑造了基因组的突变景观。自然界。2015;518: 502–506.密码:25624100
查看文章PubMed/NCBI谷歌学术搜索
39.李芳, 毛刚, 童丹, 黄杰, 顾玲, 杨文, 等.组蛋白标记H3K36me3通过与MutSα的相互作用调节人类DNA错配修复。细胞。2013;153: 590–600.
查看文章谷歌学术搜索
40.Pfister SX, Ahrabi S, Zalmas L-P, Sarkar S, Aymard F, Bachrati CZ, et al. SETD2依赖性组蛋白H3K36三甲基化是同源重组修复和基因组稳定性所必需的。细胞代表 2014;7: 2006–2018.密码:24931610
查看文章PubMed/NCBI谷歌学术搜索
41.Haradhvala NJ, Polak P, Stojanov P, Covington KR, Shinbrot E, Hess JM, et al. 癌症基因组中的突变链不对称揭示了DNA损伤和修复的机制。细胞。2016;164: 538–549.密码:26806129
View ArticlePubMed/NCBIGoogle Scholar
42.Supek F,Lehner B.簇状突变特征揭示了容易出错的DNA修复将突变靶向活性基因。细胞。2017;170:534–547.e23。密码:28753428
查看文章PubMed/NCBI谷歌学术搜索
43.佐佐木 S, 梅洛 CC, 岛田 A, 中谷 Y, 桥本 S-I, 小川 M, 等.转录起始位点下游遗传变异中染色质相关周期性。科学。2009;323: 401–404.密码:19074313
查看文章PubMed/NCBI谷歌学术搜索
44.Ying H, Epps J, Williams R, Huttley G. 有证据表明灵长类动物序列差异的局部变异源于核小体放置对DNA修复的影响。分子生物学。2010;27: 637–649.密码:19843619
查看文章PubMed/NCBI谷歌学术搜索
45.托尔斯托鲁科夫 MY, 沃尔福夫斯基 N, 斯蒂芬斯 RM, 朴 PJ.染色质结构对人类基因组序列变异性的影响。自然结构分子生物学. 2011;18: 510–515.密码:21399641
查看文章PubMed/NCBI谷歌学术搜索
46.陈旭, 陈孝, 陈海, 苏志, 杨杰, 林芳, 等.核小体抑制真核生物的自发突变。科学。2012;335: 1235–1238.密码:22403392
查看文章PubMed/NCBI谷歌学术搜索
47.摩根内拉 S, 亚历山德罗夫 LB, 格洛齐克 D, 邹 X, 戴维斯 H, 斯塔夫 J, 等.乳腺癌基因组突变过程的地形。纳特公社。2016;7: 11383.pmid:27136393
查看文章PubMed/NCBI谷歌学术搜索
48.Pich O, Mui?os F, Sabarinathan R, Reyes-Salazar I, Gonzalez-Perez A, Lopez-Bigas N. 体细胞和种系突变周期性遵循核小体周围DNA小沟的方向。细胞。2018;175:1074–1087.e18。pmid:30388444
查看文章PubMed/NCBI谷歌学术搜索
49.布朗 AJ, 毛 P, 斯默登 MJ, 威里克 JJ, 罗伯茨 SA.核小体位置在黑色素瘤中建立了扩展的突变特征。公共科学图书馆热内特。2018;14:e1007823。pmid:30485262
查看文章PubMed/NCBI谷歌学术搜索
50.Katainen R, Dave K, Pitk?nen E, Palin K, Kivioja T, V?lim?ki N, et al. CTCF/凝聚素结合位点在癌症中经常发生突变。自然遗传学。2015.第818–821页。密码:26053496
查看文章PubMed/NCBI谷歌学术搜索
51.郭亚, 常明, 黄文, 黄文, 黄文峰, 邢敏, 谭平, 等.CTCF结合位点的突变热点与胃肠道癌症的染色体不稳定性有关。纳特公社。2018;9: 1520.密码:29670109
查看文章PubMed/NCBI谷歌学术搜索
52.Mao P, Brown AJ, Esaki S, Lockwood S, Poon GMK, Smerdon MJ, et al. ETS 转录因子诱导独特的紫外线损伤特征,驱动黑色素瘤复发性诱变。纳特公社。2018;9: 2626.密码:29980679
查看文章PubMed/NCBI谷歌学术搜索
53.Elliott K, Bostr?m M, Filges S, Lindberg M, Van den Eynden J, St?hlberg A, et al.不同基因组碱基处嘧啶二聚体形成升高是暴露于紫外线的癌症中启动子突变热点的基础。公共科学图书馆热内特。2018;14:e1007849。pmid:30586386
查看文章PubMed/NCBI谷歌学术搜索
54.佩雷拉 D, 普洛斯 RC, 沙阿 A, 贝克 D, 皮曼达 JE, 黄 JWH.差异DNA修复是癌症基因组中活性启动子的突变热点的基础。自然界。2016;532: 259–263.pmid:27075100
查看文章PubMed/NCBI谷歌学术搜索
55.Sabarinathan R, Mularoni L, Deu-Pons J, Gonzalez-Perez A, López-Bigas N. 核苷酸切除修复因转录因子与 DNA 的结合而受损。自然界。2016;532: 264–267.密码:27075101
查看文章PubMed/NCBI谷歌学术搜索
56.Hu J,Adebali O,Adar S,Sancar A.人类基因组紫外线损伤形成和修复的动态图谱。美国国家科学院院刊.2017.第6758–6763页。密码:28607063
查看文章PubMed/NCBI谷歌学术搜索
57.伯恩斯MB,特米兹NA,哈里斯RS。多种人类癌症APOBEC3B诱变的证据。自然遗传学。2013.第977–983页。密码:23852168
查看文章PubMed/NCBI谷歌学术搜索
58.罗伯茨 SA, 劳伦斯 MS, 克里姆恰克 LJ, 格林 SA, 法戈 D, 斯托亚诺夫 P, 等.APOBEC 胞苷脱氨酶诱变模式在人类癌症中广泛存在。纳特热内。2013;45: 970–976.pmid:23852170
查看文章PubMed/NCBI谷歌学术搜索
59.阿加瓦拉五世,沃伊特·扩展的序列上下文模型广泛解释了人类基因组中多态性水平的变异性。纳特热内。2016;48: 349–355.密码:26878723
查看文章PubMed/NCBI谷歌学术搜索
60.Nik-Zainal S, Davies H, Staaf J, Ramakrishna M, Glodzik D, Zou X, et al.560个乳腺癌全基因组序列中的体细胞突变景观。自然界。2016;534: 47–54.密码:27135926
查看文章PubMed/NCBI谷歌学术搜索
61.波拉克 P, 金 J, 布劳恩斯坦 LZ, 卡里克 R, 哈拉达瓦拉 NJ, Tiao G, et al.突变特征揭示了乳腺癌中缺乏同源重组修复的潜在改变。纳特热内。2017;49: 1476–1486.密码:28825726
查看文章PubMed/NCBI谷歌学术搜索
62.Pleasance ED, Cheetham RK, Stephens PJ, McBride DJ, Humphray SJ, Greenman CD, et al.来自人类癌症基因组的体细胞突变的综合目录。自然界。2010;463: 191–196.密码:20016485
查看文章PubMed/NCBI谷歌学术搜索
63.王杰, 庄杰, 艾耶尔, 林旭, 惠特菲尔德, 格雷文, 等.由119种人类转录因子结合的基因组区域周围的序列特征和染色质结构。基因组研究 2012;22: 1798–1812.密码:22955990
查看文章PubMed/NCBI谷歌学术搜索
64.编码项目联盟。人类基因组中DNA元素的综合百科全书。自然界。2012;489: 57–74.密码:22955616
查看文章PubMed/NCBI谷歌学术搜索
65.上下文回归:基于科学数据发现的准确且方便的非线性模型。
查看文章谷歌学术搜索
66.环状RNA的生物发生机制可以通过机器学习模型的特征提取进行分类。生物信息学。2019;35: 4867–4870.密码:31529043
查看文章PubMed/NCBI谷歌学术搜索
67.WG的TIP-CA联盟,ICGC / TCGA全基因组泛癌症分析联盟。全基因组的泛癌症分析。自然界。2020.第82–93页。密码:32025007
查看文章PubMed/NCBI谷歌学术搜索
68.Ernst J,Kellis M. ChromHMM:自动化染色质状态发现和表征。自然方法。2012.第215–216页。密码:22373907
查看文章PubMed/NCBI谷歌学术搜索
69.Parkinson J, Hard R, Ainsworth RI, Li N, Wang W. 通过结合定向进化、测序和基于神经网络的有序回归来设计组蛋白读取蛋白。J 化学 Inf 模型。2020;60: 3992–4004.pmid:32786513
查看文章PubMed/NCBI谷歌学术搜索
70.Williams AB,Schumacher B. p53在DNA损伤修复过程中。冷泉哈布透视医学 2016;6.密码:27048304
查看文章PubMed/NCBI谷歌学术搜索
71.Silwal-Pandit L, Russnes H, Borgen E, Skarpeteig V, Moen Vollan HK, Schlichting E, et al.WRAP53的亚细胞定位对乳腺癌有预后影响。公共图书馆一号。2015;10:e0139965。密码:26460974
查看文章PubMed/NCBI谷歌学术搜索
72.Pouladi N, Abdolahi S, Farajzadeh D, Hosseinpour Feizi MA.TP53-WRAP53位点在伊朗 - 阿塞拜疆乳腺癌妇女中的单倍型和连锁不平衡。公共图书馆一号。2019;14:e0220727。pmid:31387111
查看文章PubMed/NCBI谷歌学术搜索
73.Mahmoudi S, Henriksson S, Farnebo L, Roberg K, Farnebo M. WRAP53促进癌细胞存活,是癌症治疗的潜在靶标。细胞死亡 2011;2:e114。密码:21368886
查看文章PubMed/NCBI谷歌学术搜索
74.Ehrlich M. 癌症中的DNA甲基化:太多,但也太少。基因。2002.第5400–5413页。密码:12154403
查看文章PubMed/NCBI谷歌学术搜索
75.蔡淑贞, 奥帕夫斯基, 夏尔马, 吴 L, 奈杜, 诺兰, 等.使用单个 E2F 激活器进行鼠标开发。自然界。2008;454: 1137–1141.密码:18594513
查看文章PubMed/NCBI谷歌学术搜索
76.崔娥熙, 金祺.E2F1通过定位到断裂位点和增强同源重组因子的表达来促进DNA断裂修复。2019年实验分子医学;51: 1–12.密码:31534120
查看文章PubMed/NCBI谷歌学术搜索
77.Sherman MA,Yaari AU,Priebe O,Dietlein F,Loh P-R,Berger B.体细胞突变率的全基因组图谱揭示了癌症的驱动因素。纳特生物技术公司。2022;40: 1634–1643.密码:35726091
查看文章PubMed/NCBI谷歌学术搜索
78.联盟TICG,国际癌症基因组联盟。癌症基因组计划国际网络。自然界。2010.第993–998页。密码:20393554
查看文章PubMed/NCBI谷歌学术搜索
79.阿米亚 HM, 昆达杰 A, 博伊尔 AP.ENCODE黑名单:识别基因组中存在问题的区域。科学代表 2019;9: 9354.pmid:31249361
查看文章PubMed/NCBI谷歌学术搜索
80.Weirauch MT, Yang A, Albu M, Cote AG, Montenegro-Montero A, Drewe P, et al.真核转录因子序列特异性的测定和推断。细胞。2014;158: 1431–1443.密码:25215497
查看文章PubMed/NCBI谷歌学术搜索
81.格兰特CE,贝利TL,Noble WS。FIMO:扫描给定主题的出现。生物信息学。2011.第1017–1018页。密码:21330290
查看文章PubMed/NCBI谷歌学术搜索
82.Auwera GA, Carneiro MO, Hartl C, Poplin R, del Angel G, Levy-Moonshine A, et al.从 FastQ 数据到高置信度变异调用:基因组分析工具包最佳实践管道。生物信息学中的当前协议。2013. pmid:25431634
查看文章PubMed/NCBI谷歌学术搜索
83.Garreta R, Moncecchi G. Learning scikit-learn: Machine Learning in Python.帕克特出版有限公司;2013.
84.Manders F, Brandsma AM, de Kanter J, Verheul M, Oka R, van Roosmalen MJ, et al.突变模式:分析突变过程的一站式商店。BMC 基因组学。2022;23: 1–18.
查看文章谷歌学术搜索
85.Maura F, Degasperi A, Nadeu F, Leongamornlert D, Davies H, Moore L, et al.血液系统恶性肿瘤突变特征分析的实用指南。纳特公社。2019;10: 1–12.
查看文章谷歌学术搜索