由CRISPR筛选和网络引导的双靶点选择
刘恩泽,吴雪,王磊,杨火,吴焕梅,李朗,程立军
出版日期: 2022年08月19日
抽象
癌症是一种复杂的疾病,通常具有多种疾病机制。在开发癌症疗法时,靶点组合是比单一靶点更好的策略。然而,靶标组合通常更难预测。Current CRISPR-cas9技术能够对潜在靶标进行全基因组筛选,但只有少数基因被筛选为靶标组合。因此,一种用于选择候选目标组合的有效计算方法是非常可取的。选定的靶标组合还需要在细胞系和癌症患者之间具有转化性。因此,我们开发了DSCN(由CRISPR筛选和network指导的d双靶选择),这是一种通过光谱簇状蛋白 - 蛋白相互作用(PPI)网络匹配患者表达水平和细胞系中基因本质的方法。在DSCN中,开发了一种子采样方法来模拟第一个目标敲低及其对PPI网络的影响,并且它还有助于选择第二个目标。我们的分析首先证明了基于DSCN亚采样的基因敲低模型及其预测的差异基因表达的高度相关性,使用在MAP2K1和MAP2K2抑制前后观察到的22个胰腺细胞系中的基因表达(R2= 0.75)。在DSCN算法中,评估了各种评分方案。“扩散路径”方法显示,在胰腺癌中,区分已知合成致死(SL)与非SL基因对(P = 0.001)的统计学功效最为显著。DSCN在选择靶标组合方面优于现有的基于网络的算法(如OptiCon和VIPER)的优越性能归功于其计算任何基因对组合的能力,而其他方法则侧重于网络中优化的调节器之间的组合。DSCN的计算速度也至少是其他方法的十倍。最后,在应用DSCN预测单个样品的靶标组合和药物组合(DSCNi)时,DSCNi在胰腺细胞系中显示出预测的靶标组合与实际协同组合(P = 1e-5)之间的高度相关性。总之,DSCN是一种用于选择目标组合的高效计算方法。
作者摘要
癌症治疗需要靶标才能发挥作用。与单一靶点相比,靶点组合是开发癌症疗法的更好策略。但是,预测目标组合比预测单个目标更复杂。目前的CRISPR技术能够对潜在靶标进行全基因组筛选。但大多数实验都是在单个靶标(基因)水平上进行的。为了促进新靶标(组合)的发现,我们开发了DSCN(由CRISPR筛选和network指导的d双靶标选择),利用单靶标水平CRISPR筛选数据和表达谱,通过将细胞系组学数据与组织组学数据连接起来来预测靶标组合。与现有的基于网络的预测工具相比,DSCN在不同的癌症类型上表现出了很高的准确性和卓越的性能。我们还引入了源自 DSCN 的 DSCNi,专门用于预测单向患者的靶向组合。我们的结果表明,DSCNi预测的协同目标组合准确地反映了药物组合水平上的协同作用。因此,DSCN和DSCNi具有进一步应用于临床个性化医疗实践的潜力。
引文: 刘娥, 吴旭, 王磊, 霍勇, 吴华, 李磊, 等. (2022) DSCN: CRISPR筛选和网络引导的双靶点选择.PLoS计算机生物学18(8):e1009421。https://doi.org/10.1371/journal.pcbi.1009421
编辑 器: James Gallo,布法罗大学 - 纽约州立大学,美国
收到: 九月 5, 2021;接受: 七月 5, 2022;发表: 八月 19, 2022
版权所有: ? 2022 刘先生这是一篇根据知识共享署名许可条款分发的开放获取文章,允许在任何媒体上不受限制地使用,分发和复制,前提是注明原作者和来源。
数据可用性:代码可在 https://github.com/tzcoolman/DSCN 所有其他相关数据在稿件及其支持信息文件中。
资金: 作者没有为这项工作获得任何具体资助。
竞争利益: 作者宣布不存在相互竞争的利益。
介绍
癌症的复杂性已被广泛认可,原发性、转移性和耐药性肿瘤的异质性疾病机制是其基础[1,2]。因此,转化癌症研究现在侧重于识别联合靶点而不是单靶点,以及选择药物组合而不是单一药物[3,4]。簇状规则间隔的短回文重复序列(CRISPR)-Cas9敲除系统是一种革命性的基因编辑工具。通过汇集的CRISPR文库,我们可以一次筛选数千个基因表达变异。最近开发了一种基于CRISPR的双敲除(CDKO)系统,通过合成gRNA(一种短引导RNA)有效地筛选基因对或靶标组合[5,6]。在本文中,我们将互换使用术语基因对和靶标组合,因为它们代表相同的概念。然而,使用CDKO系统的筛选受到要筛选的基因数量的限制。例如,如果我们在100个基因中筛选靶标组合,并且每个基因有四个gRNA,则将有(4×100)2/2 = 80,000 种组合,这在 CDKO 系统中是可行的。然而,在整个基因组中,如果我们在10,000个基因中筛选靶标组合,并且每个基因只选择一个gRNA,则得到10,000个基因。2/2 = 50,000,000个组合实际上是不可行的。因此,需要一种计算方法来对CDKO系统中的顶级候选基因对进行排名和选择。
在可药靶点组合选择方面有两种值得注意的方法。OptiCon(最佳控制节点)[7]和VIPER(通过富集的调节子分析对蛋白质活性进行虚拟推断)[8]。这两种方法主要利用基因表达数据来构建生物网络,然后对可药物靶标组合进行排名和选择,以证明对网络的最佳控制。OptiCon采用蛋白质 - 蛋白质相互作用(PPI)网络,先验途径知识和多组学数据(基因组和转录组学)作为输入。在OptiCon建模中,它使用信号转导和基因调控信息对这些最优控制节点(OCN)进行排名和选择,作为其网络中的组合靶标。这些顶级 OCN 对对网络的控制最大。VIPER [8],另一种方法,依赖于使用转录组数据和ARACN(精确细胞网络重建算法)信息理论算法的预构建的互信息网络(即基因正则网络)。VIPER在基因调控途径中推断出一组调节因子,即调节子。在VIPER数据分析中,根据其下游调节基因的数量选择排名靠前的旋风对。在这两种基于网络的目标组合选择算法中,OptiCon的一些排名靠前的控制节点对或VIPER的调节子对在验证实验中被证明是合成致死力(SL)。
SL基因对是指导致细胞死亡的两个基因的丧失,但如果失去一个基因而不是另一个基因,细胞仍然是可行的。基于网络的目标组合选择方法SL概念在技术上是不同的,但连接性很强。由于从网络中选择的一些排名靠前的目标组合在实验上被证明是SL,因此它们成为SL发现工具。在本文中,我们提出的DSCN方法(即由CRISPR筛选和Network指导的D双目标S选择)确实受到基于网络的目标组合选择方法和SL概念的启发。首先,DSCN中的光谱聚类和靶点选择方案是选择对网络影响较大的基因。其次,DSCN利用CRISRP-Cas9筛选数据来表征基因对细胞活力的特异性影响。然后,利用新颖的后续子采样方案,DSCN被设计为选择在网络中非常重要的第一个目标。在第一个目标表示较低的亚群中,根据其本质性和网络拓扑选择第二个目标。换句话说,选择第一个靶标来湮灭大部分细胞,选择第二个靶标是湮灭第一个靶标表达较低的其余细胞(即第一个靶标敲低)。与VIPER和OptiCon不同,DSCN通过对两个目标的顺序选择将SL概念集成到目标组合选择中。
VIPER和OptiCon在选择靶标组合时没有解决细胞系和肿瘤样品之间的转化连接,但DSCN旨在模拟这种翻译连接。我们的最终目标是为肿瘤组织选择靶标和/或靶标组合。考虑到细胞系和肿瘤组织之间的潜在差异,识别肿瘤组织中重要的分子子网比细胞系更重要。因此,我们的DSC网络和聚类分析首先对肿瘤组织数据进行。然后,将它们映射到细胞系以进行进一步的靶标组合选择。另一方面,为了扩展DSCN以预测单个样品的靶标组合,这里开发了一个DSCNi工具。
材料和方法
本研究中使用的数据集
表1列出了这些论文中使用的数据源,其中包括筛查的癌症类型,数据平台和类型以及样本数量。我们从基因表达综合(GEO)[10,11]和癌症基因组图谱(TCGA)[12]检索了胰腺癌和乳腺癌正常组织和肿瘤样本的基因表达和突变数据,从阿喀琉斯计划和DepMap [13-15]检索了基因表达和必要性数据,从STRING下载了PPI数据[16],从DrugBank提取了药物靶点数据[17]],从SynlethDB数据库下载合成致死基因对数据[18],从DrugComb数据库下载药物敏感性数据[19]。
thumbnail 下载:
断续器幻灯片
巴新放大图像
断续器原始图像
表 1. 本研究中使用的数据集。
https://doi.org/10.1371/journal.pcbi.1009421.t001
这些类型的数据被组织为集合,并通过以下方式使用:
GSE45757是一个独立的集合,用于验证我们提出的子采样方案。集 <1,2,3,4,11,12,13> 用作选择最佳评分方法的训练集,以及 DSCN 中所有目标组合的预测影响的探索集。(表 2)。设置为 <7,8,9,10,11,12,13> 用于 DSCN 和其他方法之间的预测的外部基准。集合<1,2,5,6,11,12,13>用作DSCNi中所有目标组合预测影响的探索集(表3)。
缩略图 下载:
断续器幻灯片
巴新放大图像
断续器原始图像
表 2. 胰管导管腺癌(PDAC)中九种排名靠前的靶药组合的总生存率分析。
这里IS接近于较低的负数,对成对基因的候选者协同作用的支持就越多。
https://doi.org/10.1371/journal.pcbi.1009421.t002
thumbnail 下载:
断续器幻灯片
巴新放大图像
断续器原始图像
表 3. 药物和靶点组合协同作用之间的应急表。
https://doi.org/10.1371/journal.pcbi.1009421.t003
DSCN算法的步骤
DSCN 算法由六个步骤组成(图 1):
thumbnail 下载:
断续器幻灯片
巴新放大图像
断续器原始图像
图 1. 由CRISPR筛选和network(DSCN)指导的d双目标选举概述。
在细胞系和组织的综合网络中按顺序进行成对靶标鉴定有五个步骤。步骤1.输入数据包括细胞系CRISPR基因敲除数据,细胞系转录数据,数据库STRING PPI网络数据,组织转录数据和来自DrugBank的药物靶标数据。步骤2.扰动网络通过SCNrank分别构建到细胞系和组织上[33]。细胞系网络与组织网络匹配,然后在步骤3中通过上聚类寻找同源网络模块。通过SCNRank[33]目标影响评分(IS)评分,我们将确定每个飞翔集群中的第一个目标。然后,我们对细胞系和组织样本进行采样,并选择那些在步骤4中第一个表达显着低的targt基因的患者。我们将重复步骤2-3,在步骤5中获得的第一个目标之后选择第二个目标,同时计算成对的靶基因IS评分。
https://doi.org/10.1371/journal.pcbi.1009421.g001
第一步:网络建设
在此步骤中,我们构建两个集成功能网络,一个组织网络Gt和细胞系网络Gc.Gt由来自STRING PPI网络的骨架和来自肿瘤样品中基因对Pearson相关性的边缘权重组成,节点权重是肿瘤和正常组织之间基因表达的折叠变化。高倍数变化表明肿瘤中的基因表达高于正常组织中的基因表达。假设G中总共有n个基因(节点)t.亲和矩阵 St表示边权重和对角矩阵 Dt表示等式 (1) 中的节点权重:
(1)
其中 w血型, a≠b∈(1, n) 在 S 中t表示组织网络中基因a和b之间的边缘权重(相关性);和 w我在 D 中t是肿瘤与正常折叠变化在基因i的表达中,i = 1,...,n。
同样,Gc由来自相同STRING PPI网络的相同骨架和来自细胞系样品中成对基因相关性的边缘权重组成。与 G 不同t,G 的节点权重c来自CRISPR-Cas9筛选数据,其表示为基因精华值。基因本质值通常可以解释为基因敲除前后细胞计数的折叠变化。显示较小折叠变化的基因更为重要。在本研究中,所有基本值都经过 log2 变换。同样,Gc分解为亲和矩阵 Sc用于边缘权重和对角矩阵 Dc用于细胞系网络 G 中的节点权重c = Sc+Dc.
步骤2:为组织和细胞系网络构建拉普拉斯基质
拉普拉斯矩阵测量网络的所有属性,包括节点权重、边缘权重和连通性。在第二步中,我们为组织网络G构建拉普拉斯矩阵。t和细胞系网络Gcost
(2)
其中 D 是对角矩阵,S 是亲和矩阵,在方程 (1) 中定义,Lt是组织网络的拉普拉斯基质,Lc,用于细胞系网络。
步骤 3:组织网络的光谱聚类
我们仅在组织网络L的拉普拉斯基质上进行光谱聚类tost
归一化拉普拉斯矩阵 Lt到 L′t:
(3)
在归一化拉普拉斯矩阵L′t,则所有对角线元素均为正,所有其他元素均为负。非对角线元素的行总和等于其对应的对角线。abs 是绝对值。
对矩阵 L′ 进行特征分解,得到谱 E = {λ1, λ2...λn},其中 0 = λ1≤λ2≤?≤λn,以及它们对应的特征向量。
选择 k 个最小的非负特征值 {λ我,...,λi+k} 及其相应的特征向量,并将这些 k 个特征向量组合成一个 n×k 矩阵 H。
在此H特征向量矩阵中,每行表示一个基因节点,k列表示基因节点的坐标值。H 中的行向量用于计算一对基因节点之间的欧氏距离。然后,我们对 n 个节点执行 K 均值聚类。为了选择聚类的数量 K',以产生良好的拟合,我们计算 Hartigan 数,该数测量聚类结果的质量。我们选择最优 K' 并将其进一步限制在 10 以下,以便实际考虑。这种频谱聚类导致 K' 独占聚类(即子网)。来自组织网络Gt,则对子网进行分类。
步骤4:绘制组织/细胞系网络并计算靶标1的影响评分
细胞系网络Gc然后映射到光谱簇,从组织网络G生成t在步骤 3 中。因为组织网络Gt和细胞系网络Gc共享相同的网络结构,即节点和连接,Gt子网,{} 映射到 Gc使用其公共节点名称和连接的子网。
目标影响评分将基于单元线子网 计算得出。我们专注于所有食品和药物管理局(FDA)批准的药物目标(见表1)来计算我们的目标评分。目标1(T1)的影响评分计算为影响评分本身及其对网络中其余基因的影响的总和。它的一般形式在等式(4)中定义:
(4)
其中,{N我, i = 1,...n} 是网络中除 T1 以外的基因节点,Pa(N我) 是 N 的一组父节点我.特别是,对N的影响评分我取决于其父节点 Pa(N我).图 2 说明了计算影响评分的三种不同方法 - 最可能、随机游走和扩散路径。
thumbnail 下载:
断续器幻灯片
巴新放大图像
断续器原始图像
图 2. 三种方法“最可能的路径”、“随机游走”和“扩散路径”的网络配置用于计算目标影响评分 (IS)。
(a) 原始网络。例如,我们使用目标 T1 来表示 (b)-(d),(b) 最可能的路径策略中的策略。(c)随机游走策略。(d)分层搜索的扩散路径策略。
https://doi.org/10.1371/journal.pcbi.1009421.g002
最有可能的路径。
T1的直系子代是直接连接到T1的基因节点,例如,N4是图2B中的直系子代T1。在此方法中,在计算影响分数时,我们将仅计算 T1 的直接子项。在不失去普遍性的情况下,设 ch(T1) 是 T1 的直系子项的集合。T1 最可能的路径是 ch(T1) 中影响分数最小的路径。根据在等式 (4) 中计算的一般影响分数,最可能的路径影响分数在等式 (5) 中定义:
(5)
其中,指示其节点权重,并指示其边缘权重。
随机游走路径。
随机游走分数分两步计算。步骤 1 是网络中的随机游走,其中随机游走具有从一个节点到另一个节点的转换概率。在图2C中,从T1开始,每个节点N我随机访问。在这里,我们使用归一化的边缘权重来表示方程 (6) 中定义的转移概率:
(6)
其中 Pj,i是 N 的转移概率j到 N我,wj,i是它们之间的边缘权重,∑x∈e wj,x是 N 的所有边权重之和j.在此马尔可夫进程中,可以多次访问一个节点。我们将随机游走步骤的总数设置为 2n,其中 n 是网络中的节点总数。
然后,在步骤 2 中,我们将父节点定义为访问 N 的节点。我首先,即 Pa(N我).因此,T1 的影响评分变为:
(7)
扩散路径。
从 T1 开始,按层次结构顺序访问每个节点。因此,节点的父节点 N我,可以来自上层,即上层 (N我),或同一层,即 SameTier (N我).例如,在图2D中,从T1开始的分层结构中有四层。T1 的影响从网络中的第 1 层传输到第 4 层。因此,影响分数在等式 (6) 中定义:
(8)
选择这三种评分方法的原因如下。首先,对于无向网络,两个节点之间的距离被定义为它们的Dijkstra最短距离,这相当于我们的例子中最可能的路径[20]。其次,加权和无向网络也称为“马尔可夫随机场”[21],其中马尔可夫性质[22]存在于所有节点中。基于随机游走的算法经常用于马尔可夫随机场[23,24],以模拟马尔可夫属性下的遍历:当前步骤仅取决于前一步。第三,扩散法是一种确定性方法,其中靶标的影响由相邻节点之间的相关性和节点的基因本质性评分加权。从目标节点开始,节点层的分层结构由网络的拓扑结构确定。
步骤 5:子采样和目标 2 (T2) 评分和选择
一旦选择了T1,我们就会去除T1表达高于其样本均值的癌细胞系,并且仅保留其表达低于均值的细胞系。这种子采样方法表征了T1的敲低。同样,我们还删除了T1本质性评分高于子采样样本的癌细胞系。重采样后,我们构建细胞系网络Gc作为Eq(2)使用子采样的细胞系子采样。我们在映射G中遵循相同的步骤3c到 {} 并按照步骤 4 中定义的相同算法计算 T2 影响评分。然后,T2 影响评分记为 IS (T2|T1),因为子采样和网络依赖于T1。
步骤 6:计算目标组合的影响评分
由于 T1 和 T2 及其影响评分是按顺序计算的,因此组合影响评分将考虑等式 (7) 中的两个顺序,其中 T1≠T2:
(9)
组织细胞系子网相似性测量。
我们使用以下方案测量组织和细胞系之间每个子网对<>i∈(1,...,K′)的相似性:
节点权重的归一化(对角线)
为了形成两个子网,并且,可比较,我们使用以下公式根据组织对角线矩阵归一化细胞线对角线矩阵:
(10)
其中 wc,i,j表示单元线子网中的节点权重 j∈(1,J),以及 wt,i,j,即在组织子网中。J 是 中的节点总数。
边权重
的归一化 每个子网对的拉普拉斯矩阵,<>,i∈(1, K′),定义类似于方程 (3): 和 .节点权重规范化后,跟踪 () = 跟踪 ()。然后,使用公式相应地规范化其边缘权重(非对角线元素):
(11)
在此步骤之前,拉普拉斯矩阵和 中的所有边(非对角线元素)在归一化过程中都获得了节点特征。我们保留节点权重和边缘权重的原始方向(正或负),以进行以下距离计算。
距离计算
对于组织和细胞系中的两个对应子网,我们使用它们的归一化拉普拉斯矩阵计算距离,并且:
(12)
其中 L′′(i,j) i≠j 表示给定拉普拉斯矩阵中节点 l 和 j 之间的边权重,并指示两个拉普拉斯矩阵中相同边之间的欧几里得距离。
为单个癌细胞系样本(DSCNi)构建DSCN算法。
我们应用DSCNi算法对单个患者的单个癌细胞系中的靶标组合进行评分。与DSCN非常相似,在构建G方面c,DSCNi依赖于癌细胞系的一组表达谱来计算基因节点之间的边缘权重(即相关性)。然而,与DSCN不同,DSCNi使用细胞系特异性必要性评分来表示节点权重。它对 T1 IS(T 1) 的影响评分计算完全遵循步骤 1、2、3 和 4。在对步骤5中子采样中T1的敲低进行建模时,我们保持与DSCN相同的T1子采样,即我们删除T1表达式高于其样本均值的样本。但是,我们将为该单个癌细胞系样本保持相同的基本性评分,以计算目标2影响评分。我们计算最终组合目标影响得分的方式与在 DSCN 中类似,因此它具有与从 DSCN 计算得出的含义相当的含义。
分析药物和靶点组合协同作用之间的关联。
Bliss评分[25]衡量药物组合的协同效应,即药物组合对细胞活力的影响,而不是其两种组分药物的加性效应。如果双药联合用药的Bliss评分超过0.12,则认为其具有协同作用[26]。另一方面,如果两个目标的影响评分小于两个单独目标的加法评分,则预测目标组合是协同的,例如在Eq(13)中,IS(T 1,T 2),IS(T1)和IS(T2)的影响评分由(9)和(8)计算。(注:影响评分通常取负值。越小,越有影响力)。
(13)
在本节中,我们将定义药物组合评分和靶标组合协同评分之间的关联分析。考虑一个由一组药物组合筛选的癌细胞系,这些药物组合可以根据其Bliss评分分为协同或非协同。然后,对于每种药物组合,我们确定其所有双靶点组合,计算其协同作用评分,并将药物组合分类为协同或与Eq中不同的药物组合(13)。在 2 x 2 列联表中,行是药物协同作用 (Y/N),列是目标协同作用 (Y/N)。对于每种药物组合,靶标组合协同效应和非协同作用的所有计数都添加到与药物组合协同作用或非协同作用相关的相应行中。药物和靶标组合协同作用之间的关联使用卡方测试。
结果
验证子采样方案,以确定DSCN算法中靶基因敲低的影响
在DSCN算法中,我们设计了子采样方法(步骤5)来模拟靶标1敲低对癌细胞系的影响。为了证明这种采样方案的有效性,我们确定了一个GEO数据集GSE45757,该数据集提供了MAP2K1和MAP2K2抑制前后22个胰腺细胞系的转录组谱。我们的分析集中在PPI网络中MAP2K1和MAP2K2的1,301个相邻基因。利用子采样方法,计算出MAP2K1和MAP2K2组高表达或低表达组间这1,301个基因的对数倍变化,这代表了靶标1敲低对子采样方案中的预测影响。另一方面,在MAP2K1和MAP2K2抑制期间计算观察到的这1,301个基因表达的对数倍变化。图3显示了很强的相关性,R2= 0.75,在MAP2K1和MAP2K2的这1,301个相邻基因之间预测和观察到的折叠变化之间。该分析的结果强烈支持子采样作为确定靶基因敲低影响的有效模型。
thumbnail 下载:
断续器幻灯片
巴新放大图像
断续器原始图像
图 3. 预测和观察到的蛋白-蛋白相互作用(PPI)网络中MAP2K1和MAP2K2相邻基因间基因表达的对数倍变化的相关性。
https://doi.org/10.1371/journal.pcbi.1009421.g003
胰腺癌中使用已知合成致死基因对的靶标组合的影响评分比较
我们提出了三种不同的评分方案来模拟靶基因敲低对网络的影响 - 那些最有可能的,随机游走和扩散路径。此外,还可以根据全球或本地 PPI 网络计算影响评分(图 4)。局部PPI网络是全基因组PPI网络(全球网络)光谱聚类的产物。为了比较这些影响评分的表现,我们使用SynlethDB中报告的23个合成致死胰腺基因对作为基准。我们比较了它们与其他164个基因对之间的影响评分,这些基因对来自23个SL基因对中的21个独特基因。我们使用GEO数据库中的153个肿瘤和58个胰腺正常表达谱(表1)构建了一个组织功能网络,并使用来自Project Achilles的26个胰腺细胞系的CRISPR筛选数据和来自GEO数据库的92个胰腺肿瘤细胞系表达谱的细胞系功能网络(表1)。所有表达谱均由Affymetrix U1332.0微阵列生成。
thumbnail 下载:
断续器幻灯片
巴新放大图像
断续器原始图像
图 4. 胰腺癌中使用合成与非合成致死基因对的靶标组合影响评分的比较。
图2定义了计算目标影响评分的三种方法 - 最可能,随机游走和扩散路径。目标影响评分(IS)是根据全球蛋白质 - 蛋白质相互作用(PPI)网络(全球)或本地PPI网络(局部)计算的。
https://doi.org/10.1371/journal.pcbi.1009421.g004
较小的影响评分表明基因敲低对网络的影响更强。使用光谱聚类生成的局部网络计算影响评分显示,合成和非合成致死基因对(P值)之间基于扩散路径的影响评分(IS)存在显着差异,并且合成的影响评分低于非合成致死基因对。我们在其他两种影响评分方案中观察到相同的趋势,即最可能和随机行走路径,即合成中的IS评分低于非合成致死基因对,这些基因对在统计学上没有统计学意义。
使用全球网络和扩散路径评分方案计算的影响评分也使合成基因中的扩散影响评分低于非合成基因对,尽管差异在统计学上并不显着。另一方面,最可能和随机行走路径的分数显示了合成和非合成基因对之间的相反方向。因此,我们认为,使用扩散路径和局部网络,评估靶标组合影响评分是选择合成致死基因对的理想方法(图4)。
比较DSCN、OptiCon和VIPER之间目标组合的选择
我们将DSCN的性能与两种现有算法的性能进行了比较,以选择目标组合 - OptiCon和VIPER。两者都使用转录组谱来选择组合靶标,并且它们的顶级靶标组合是协同作用的主调节器,对其相应的网络具有最佳控制。OptiCon需要肿瘤转录组谱和相应的突变数据作为输入,以推断主调节因子并预测它们之间的协同作用,而VIPER使用来自肿瘤和正常样品的转录组谱来选择调节子并推断调节子之间的协同作用。由于上一节中使用的胰腺微阵列表达谱没有相应的突变信息,因此我们利用TCGA中的胰腺表达谱来构建组织功能网络。我们使用179个胰腺肿瘤表达谱及其突变数据和41个相邻的正常表达谱(表1)。我们还使用了GEO中92种胰腺肿瘤细胞系的表达谱和来自Project Achilles的26种胰腺细胞系的CRISPR筛选数据(表1)。这些数据一起用于三种算法性能的基准比较。
有14,066个重叠的基因(在组织,细胞系和STRING PPI网络之间)作为DSCN中的胰腺癌输入。这些基因产生14,066 * 14,065 / 2个基因对。在这些基因对中,DSCN中预测有37,275个基因对是SL,即它们的组合影响评分小于单个评分的总和。SynlethDB中有12,821个SL对适用于所有癌症类型。其中,只有79对SL对是胰腺癌特异性的。在这79对中,有23对对应于FDA批准的药物靶点。SynlethDB对这79个胰腺癌SL基因对的证据是基于从文献中策划的实验,而不是来自计算预测。因此,这79个基因对作为我们在方法比较中的基准。
在胰腺癌中,DSCN预测了37,275个协同靶标组合,OptiCon,2,778个,VIPER,191个。在将它们映射到79个胰腺癌SL基因对上后,DSCN预测78个为SL,因此灵敏度为78/79 = 0.99%。对于设置为非 SL 的 6,083 个随机组合,DSCN 预测 5880 为负数。特异性为 5880/6162 = 0.95。在这79个中,他们预测的IS评分显示Spearman与他们的SynlethDB评分(P <0.01)的相关性为0.34,并且预测的IS评分显着低于t检验上6,162个随机组合(P = 0.05)。然而,OptiCon和VIPER预测了79个胰腺癌SL基因对中没有一个。
这些基准比较分析是在印第安纳大学的超级计算机“碳酸盐”上进行的[27]。DSCN在12小时内完成了对单个中央处理器核心目标组合的搜索,速度明显快于使用OptiCon(320小时)和VIPER(141小时)的速度。三种方法的主要步骤及其理论时间复杂性的细分可以在S3图中找到。DSCN在12小时内完成了对单个中央处理器核心目标组合的搜索,速度明显快于使用OptiCon(320小时)和VIPER(141小时)的速度。这可能是由于这三种方法的时间复杂程度。在最坏的情况下,当整个转录组网络无法聚类成子网时,DSCN的时间复杂度可以描述为O = (),其中N是基因的数量,T是药物靶标的数量,M是样本的数量。VIPER由两个步骤组成,一个是生成一个相互信息网络,其具有O = (N3+N2M2) 时间复杂度。并且没有关于其第二步的时间复杂度的报告。VIPER需要对所有样本进行1,000次的排列以生成零模型;因此,我们推测这可能会导致异常高的时间复杂度。OptiCon没有提供三个步骤的时间复杂度,但从源代码来看,我们推测贝叶斯网络模型应用于每个子网,因此,搜索最优结构会产生非常高的时间复杂度。比较结果见S1表。
胰腺癌患者排名靠前的靶标组合及其与总生存期的相关性
我们使用GEO数据库中组织和细胞系的表达谱(表1)来构建功能网络并预测影响评分。我们的数据集包括来自GEO的153个肿瘤和58个正常胰腺样本的表达谱,来自Project Achilles的26个胰腺细胞系的CRISPR筛选数据,以及来自GEO数据库的92个胰腺肿瘤细胞系表达谱。这产生了14,066个重叠的基因。
在这项分析中,我们专注于DrugBank中所有FDA批准的药物的1,437个药物靶点,并计算了它们可能的靶标组合。最有趣的是,前230个靶标组合中的所有基因都在同一子网内 - PDAC组织子网(S1图)和细胞系子网(S2图)。S2 表包含子网中基因的完整列表。
表 2 显示了排名靠前的九个目标组合及其注释。他们的Kaplan-Meier曲线(图5)是使用基因表达谱分析交互式分析(GEPIA)数据库中的TCGA PDAC临床注释生成的[28]。根据靶标组合将患者样本分为两组,其中两个基因都在上面(即,高-2)或低于其均值(即低-2)表达。使用log-rank检验和Cox比例风险模型分析靶标组合(高-2与低-2)与PDAC患者总生存期之间的关联,我们观察到9个顶级靶标组合比较中的3个(EGLN1,TRFC),(FRK,TRFC)和(XDH,TRFC)的显着生存差异(P <0.05,表2),其总生存率比高这两个基因的患者差 表达力低下。
thumbnail 下载:
断续器幻灯片
巴新放大图像
断续器原始图像
图 5.
九个排名靠前的目标组合 (a)-(i) 的 Kaplan-Meier 曲线。Kaplan-Meier曲线和其他生存统计数据:(a),(b),(c),(d),(e),(f)< EGLN1,COX7C>,(g),(h)和(i)。Y 轴表示生存概率,而 X 轴表示月。每个图中的蓝线表示两个基因群的低表达,而红线表示高表达。
https://doi.org/10.1371/journal.pcbi.1009421.g005
有趣的是,前九种靶标组合中有七种包括转铁蛋白受体(TFRC),它编码负责细胞铁摄入的表面受体。据报道,TFRC在PDAC中的高表达及其与PDAC生长和生存率的强相关性[29]。最近的研究表明,铁蛋白酶病诱导的几种关键途径包括丝裂原活化蛋白激酶(MAPK)和活性氧(Ros)途径[30]。因此,靶向上游基因(例如,MAP2K2,EGLN2)以及下游基因(例如,TFRC,FTL)可能会产生协同效应。
DSCNi在预测癌细胞系药物协同作用方面的表现
DSCNi使用基因表达和必要性谱预测个体患者的靶标组合。在这项研究中,我们评估了DSCNi是否预测了每个细胞系水平上靶标和药物组合协同作用之间的任何关联。DrugComb [18]是一个综合数据库,其中包含来自众多知名项目的药物组合协同作用的信息,例如美国国家癌症研究所(NCI)-60 [31]用于人类肿瘤细胞系筛选。由于DrugComb仅包括一种PDAC细胞系和五种相关的联合药物治疗,因此我们决定使用三阴性乳腺癌(TNBC)的细胞系数据。我们使用来自TCGA的115个TNBC表达谱来生成组织功能网络中的边缘权重,使用来自癌细胞系百科全书(CCLE)数据库[32]的12个TNBC细胞系来生成细胞系功能网络的边缘权重,以及来自Project Achilles的TNBC细胞系“HS578T”的CRISPR筛选数据来生成细胞系功能网络中的节点权重。在所有TNBC细胞系中,HS578T在DrugComb数据库中具有最大数量的药物组合筛选数据(N = 5,226),并且我们对DrugBank中具有已知靶点的药物的关注导致了HS578T细胞系中1,031种药物组合的筛选数据。反过来,这些药物组合对应于我们网络模型中的14,066个靶标组合(S3表)。
为了测量预测的合成致死对与协同药物组合之间的关联,我们构建了一个2×2的列(表3),其中行对应于药物组合协同作用(Y / N),列对应于靶标组合协同作用(Y / N)。在协同药物组合中,预测其与DSCNi的相应靶标组合中有2,594种具有协同作用,但其他7,097种则没有。在iDSCN中的任何其他非协同药物组合中,两者都没有预测协同作用。卡方检验的 P 值为 0.00001,比值比为 1,599。这是协同药物组合具有协同靶标组合的可能性更大的有力证据。
讨论
我们新的DSCN方法,在CRISPR筛选和network的指导下,选择不同的靶标,使用癌组织和细胞系模型来发现和排列靶标组合,与现有的组合靶点选择方法相比,它具有一些独特的特征和优势。
DSCN首次使用子采样方法,表征第一个靶标的敲低,并模拟其对所有其他基因的影响。为了证明这一假设的有效性,我们研究了MAP2K1和MAP2K2抑制前后22种胰腺细胞系的一组转录组谱。在PPI网络中MAP2K1和MAP2K2的1,301个相邻基因中,我们的分析显示,在MAP2K1和MAP2K2抑制之前和之后观察到的这些基因的对数倍变化与亚采样方法计算的对数倍变化具有高度相关性,R2= 0.75。
DSCN还与所有其他方法不同,它专注于癌症组织和细胞系之间重叠的功能网络,并进一步将组织中的差异基因表达与细胞系中的基因本质相匹配。这种选择目标组合的框架具有高度的转化性和实用性。我们研究了多种用于计算影响评分的评分方案,包括最可能的路径、随机游走路径和扩散路径,并研究了基于全局网络和基于频谱聚类的局部网络是否会导致不同的影响评分计算。使用胰腺癌和细胞系样本的肿瘤样本以及SynlethDB中已知的合成致死数据,我们在统计上显示出合成致死基因对中靶对的冲击分数显着低于利用局部网络上的扩散路径方法的其他靶对。该分析清楚地证明了我们提出的算法在计算反映合成杀伤率的目标组合的影响评分方面的有效性。
此外,DSCN被广泛地定义为每个目标和目标组合,这与现有的基于网络的目标选择算法(如OptiCon或VIPER)不同,后者受到选择单个目标(即主监管机构)的初始步骤的限制。DSCN的这一优势在分析SynlethDB中胰腺癌数据中报告的DSCN,Opticon和VIPER之间的顶级目标对之间的重叠以及合成致死靶对之间的重叠中得到了证明。DSCN确定了79个重叠的合成致死靶组合,而OptiCon和VIPER的重叠为零。此外,在胰腺癌中,这九大预测的协同靶标组合中有三个与胰腺癌患者的总生存率显示出统计学上的显着关联,并且这三个都含有TRFC基因,该基因编码细胞铁摄入的表面受体。因此,上游基因(例如MAP2K2,EGLN2)以及下游基因(例如FTL)的靶向可能导致协同效应。
SL基因对与总生存期之间统计关联分析的一个警告是其范围有限。我们希望使用临床数据验证SL基因对,并尝试将两个基因之间的四种高/低基因表达组合与患者生存结果相关联。然而,由于基因之间的许多高相关性,当我们基于两个基因之间的高/低基因表达创建四组患者时,小样本量很快成为一个主要问题。因此,我们决定将两个基因中表达均低的一组患者与其他患者的总生存期进行比较。虽然这种比较不如SL验证那么理想,但它至少表明至少敲除两个基因对患者预后具有统计学和临床显着影响。
SCNrank方法[33]是我们几年前开发的一种单基因选择算法。SCNrank和DSCN算法都使用相同类型的组学数据作为输入,两种算法都对功能网络进行频谱聚类;两种算法都对靶基因的影响进行评分。然而,DSCN产生全基因组功能网络。在DSCN中,与正常表达相比,每个基因在肿瘤中都可能被过度表达或下调。另一方面,SCNrank生成的功能网络仅包含过度表达的节点(基因)。DSCN首先对目标1进行评分,然后对目标2进行评分,然后给出目标1。两个分数的总和将是每个组合的分数。SCNrank仅对单个目标进行评分,没有子采样方案。
在本文中,我们研究了两个相关但不同的概念,药物和靶标组合的协同作用,假设协同的可能性大于非协同药物组合,以靶向更多协同的靶标组合。使用DSCNi,一种从DSCN衍生的模型,用于预测个体患者的靶标组合,我们使用三阴性乳腺癌组织和细胞系数据证明了我们假设的真实性。基于TNBC细胞系HS578T中的1,031个药物组合筛选数据及其相应的14,067个DSCNi预测靶标组合协同评分,我们显示协同比非协同药物组合高1,599倍的协同比预测协同靶标组合的几率高1,599倍(P = 0.00001)。
最后,我们陈述了我们提出的DSCN和其他基于网络的靶标组合方法如何在癌症研究中得到利用。毫无疑问,这些方法可以发现SL基因对。SL概念本身与正常细胞或癌细胞无关。SL在癌症研究中的应用是鉴定癌细胞中SL基因的功能性体细胞突变,同时应用药物抑制另一个SL基因。这种策略会杀死癌细胞,但不会杀死正常细胞。DSCN方法将帮助我们识别和验证细胞系中的这些SL基因对。然后,利用患者基因组学数据,我们将进一步研究其中一个SL基因是否具有功能突变,而一个基因保持活性。这将产生一个潜在的治疗药物靶点。
支持信息
描述: TFRC的子网来自PDAC的功能组织网络。
显示 1/6: pcbi.1009421.s001.tif
跳转到无花果共享导航
https://ndownloader.figstatic.com/files/36726772/preview/36726772/preview.jpg
1 / 6
下载
无花果份额
S1 图 描述: TFRC的子网来自PDAC的功能组织网络。
点和线表示基因及其在蛋白质 - 蛋白质相互作用网络中的相互作用。红点:肿瘤中过度表达的基因与正常样本的比较。蓝点:肿瘤中下调基因与正常样本的比较。红线:两个基因在肿瘤组织表达水平上的正相关。蓝线:两个基因在表达水平上的负相关。
https://doi.org/10.1371/journal.pcbi.1009421.s001
(断续器)
S2 图 描述: TFRC的子网来自PDAC的功能细胞系网络。
点和线表示基因及其在蛋白质 - 蛋白质相互作用网络中的相互作用。红点:具有正本质的基因(敲除导致细胞存活率降低)。蓝点:具有负本质的基因(敲除导致细胞存活率增加)。红线:两个基因在肿瘤细胞系表达水平上的正相关。蓝线:两个基因在表达水平上的负相关。
https://doi.org/10.1371/journal.pcbi.1009421.s002
(断续器)
S3 图例 描述: 将组织子网映射到单元线子网的演示。
https://doi.org/10.1371/journal.pcbi.1009421.s003
(断续器)
S1 表。 描述: 三种方法的计算步骤及其时间复杂性的细分。
https://doi.org/10.1371/journal.pcbi.1009421.s004
(DOCX)
S2 表。 描述:TFRB组织(稳定2.1)和细胞系(稳定2.2)中的子网SL成员。
https://doi.org/10.1371/journal.pcbi.1009421.s005
(XLSX)
S3 表。 描述: 通过DSCN算法计算,TCGA三重净性胸罩癌(TNBC)中具有合成低乙基度预测影响评分(IS)的成对基因(匹配药物)。
将IS评分与数据库DrugComb和SynlethDB真实SL评分数据进行比较。在这里,我们包括所有目标都可以涵盖的1437种药物。
https://doi.org/10.1371/journal.pcbi.1009421.s006
(XLSX)
引用
1.Parhi P,Mohanty C,Sahoo SK.基于纳米技术的组合药物递送:一种新兴的癌症治疗方法。今天的药物发现。2012;17(17–18):1044–52.pmid:22652342
查看文章PubMed/NCBI谷歌学术搜索
2.Al-Lazikani B,Banerji U,Workman P.后基因组时代癌症的组合药物治疗。自然生物技术。2012;30(7):679–92.pmid:22781697
查看文章PubMed/NCBI谷歌学术搜索
3.Hammer SM, Saag MS, Schechter M, Montaner JSG, Schooley RT, Jacobsen DM, et al.成人艾滋病毒感染的治疗:2006年国际艾滋病协会-美国小组的建议。贾马。2006;296(7):827–43.pmid:16905788
查看文章PubMed/NCBI谷歌学术搜索
4.Stephenson D, Perry D, Bens C, Bain LJ, Berry D, Krams M, et al.为阿尔茨海默病的联合治疗开辟道路。神经治疗学专家综述。2015;15(1):107–13.pmid:25540951
查看文章PubMed/NCBI谷歌学术搜索
5.沈JP, 赵东, 萨西克R, 吕贝克J, 伯明翰A, 博约克斯-戈麦斯A, 等.组合式CRISPR-Cas9筛选用于遗传相互作用的从头制图。自然方法。2017;14(6):573–6.pmid:28319113
查看文章PubMed/NCBI谷歌学术搜索
6.Han K,Jeng EE,Hess GT,Morgens DW,Li A,Bassik MC.在CRISPR筛选中鉴定的癌症协同药物组合用于成对遗传相互作用。自然生物技术。2017;35(5):463–74.pmid:28319085
查看文章PubMed/NCBI谷歌学术搜索
7.胡毅, 陈哲华, 丁永勇, 温旭, 王斌, 高磊, 等.疾病扰动网络中的最优控制节点作为联合治疗的目标。自然通讯。2019;10(1):1–14.
查看文章谷歌学术搜索
8.Alvarez MJ, Shen Y, Giorgi FM, Lachmann A, Ding BB, Ye BH, et al.使用基于网络的蛋白质活性推断来表征癌症中体细胞突变的功能表征。自然遗传学。2016;48(8):838–47 pmid:27322546
查看文章PubMed/NCBI谷歌学术搜索
9.Margolin AA,Nemenman I,Basso K,Wiggins C,Stolovitzky G,Favera RD等人,ARACNE:一种在哺乳动物细胞环境中重建基因调控网络的算法。2006年:生物医学中心。
查看文章谷歌学术搜索
10.Edgar R, Domrachev M, Lash AE.基因表达综合:NCBI基因表达和杂交阵列数据存储库。核酸研究。2002;30(1):207–10.pmid:11752295
查看文章PubMed/NCBI谷歌学术搜索
11.Barrett T, Wilhite SE, Ledoux P, Evangelista C, Kim IF, Tomashevsky M, et al. NCBI GEO: archive for functional genomics data sets—update.核酸研究。2012;41(D1):D 991–D5.
查看文章谷歌学术搜索
12.Tomczak K, Czerwińska P, Wiznerowicz M.癌症基因组图谱(TCGA):不可估量的知识来源。当代肿瘤学(波兰波兹南)。2015;19(1a):A68–77.pmid:25691825
查看文章PubMed/NCBI谷歌学术搜索
13.Tsherniak A, Vazquez F, Montgomery PG, Weir BA, Kryukov G, Cowley GS, et al.定义癌症依赖性地图。细胞。2017;170(3):564–76.pmid:28753430
查看文章PubMed/NCBI谷歌学术搜索
14.Aguirre AJ, Meyers RM, Weir BA, Vazquez F, Zhang CZ, Ben-David U, et al. 基因组拷贝数决定了基因无关细胞对CRISPR/Cas9靶向的反应。癌症发现。2016 8 月;6(8):914–29.pmid:27260156
查看文章PubMed/NCBI谷歌学术搜索
15.Cowley GS, Weir BA, Vazquez F, Tamayo P, Scott JA, Rusin S, et al.在216个癌细胞系中进行平行的基因组规模功能丧失筛查,以鉴定环境特异性遗传依赖性。科学数据。2014;1(1):1–12.pmid:25984343
查看文章PubMed/NCBI谷歌学术搜索
16.Szklarczyk D, Morris JH, Cook H, Kuhn M, Wyder S, Simonovic M, et al.2017年的STRING数据库:质量控制的蛋白质 - 蛋白质关联网络,广泛可及。核酸研究。2017 1月 4;45(D1):D 362–D8.pmid:27924014
查看文章PubMed/NCBI谷歌学术搜索
17.Wishart DS, Feunang YD, Guo AC, Lo EJ, Marcu A, Grant JR, et al. DrugBank 5.0: DrugBank database for 2018的重大更新。核酸研究。2018 1月 4;46(D1):D 1074–D82.pmid:29126136
查看文章PubMed/NCBI谷歌学术搜索
18.郭娟, 刘华, 郑俊. SynLethDB:合成致死率数据库,用于发现选择性和灵敏的抗癌药物靶标。核酸研究。2016;44(D1):D 1011–D7.pmid:26516187
查看文章PubMed/NCBI谷歌学术搜索
19.Zagidullin B, Aldahdooh J, Zheng S, Wang W, Wang Y, Saad J, et al.DrugComb:一个综合癌症药物组合数据门户。核酸研究。2019;47(W1):W43–W51.pmid:31066443
查看文章PubMed/NCBI谷歌学术搜索
20.Gass SI, Harris CM. 运筹学和管理科学百科全书.运筹学会杂志。1997;48(7):759–60.
查看文章谷歌学术搜索
21.Kindermann R. Markov随机场及其应用.美国数学学会。1980.
查看文章谷歌学术搜索
22.道奇Y,考克斯D,康文吉斯D。牛津统计术语词典:牛津大学按需出版社;2006.
23.S?rbye SH, Rue H. 空间建模中的标度内在高斯马尔可夫随机场先验。空间统计。2014;8:39–51.
查看文章谷歌学术搜索
24.Rue H, Martino S. 分层高斯马尔可夫随机场模型的近似贝叶斯推理.统计计划和推理杂志。2007;137(10):3177–92.
查看文章谷歌学术搜索
25.Borisy AA, Elliott PJ, Hurst NW, Lee MS, Lehár J, Price ER, et al.系统地发现多组分疗法。美国国家科学院院刊.2003;100(13):7977–82.pmid:12799470
查看文章PubMed/NCBI谷歌学术搜索
26.O'Neil J, Benita Y, Feldman I, Chenard M, Roberts B, Liu Y, et al.一种无偏倚的肿瘤学复方筛查,用于识别新的联合策略。分子癌症治疗。2016;15(6):1155–62.pmid:26983881
查看文章PubMed/NCBI谷歌学术搜索
27.Stewart CA,Welch V,Plale B,Fox G,Pierce M,Sterling T.印第安纳大学普适技术研究所。2017.
查看文章谷歌学术搜索
28.Tang Z, Li C, Kang B, Gao G, Li C, Zhang Z. GEPIA:用于癌症和正常基因表达谱分析和交互式分析的网络服务器。核酸研究。2017 7月 3;45(W1):W98–W102.pmid:28407145
查看文章PubMed/NCBI谷歌学术搜索
29.郑 SM, 黄 S, 郑 RH.转铁蛋白受体通过调节线粒体呼吸和ROS生成来调节胰腺癌的生长。生化和生物物理研究通讯。2016;471(3):373–9.pmid:26869514
查看文章PubMed/NCBI谷歌学术搜索
30.谢燕, 侯伟, 宋旭, 于毅, 黄军, 孙旭, 等.铁丝症:过程和功能。细胞死亡与分化。2016;23(3):369–79.pmid:26794443
查看文章PubMed/NCBI谷歌学术搜索
31.舒梅克RH。NCI60人肿瘤细胞系抗癌药物筛选。自然评论癌症。2006;6(10):813–23.pmid:16990858
查看文章PubMed/NCBI谷歌学术搜索
32.Barretina J, Caponigro G, Stransky N, Venkatesan K, Margolin AA, Kim S, et al.癌细胞系百科全书能够预测抗癌药物敏感性。自然界。2012;483(7391):603–7.pmid:22460905
查看文章PubMed/NCBI谷歌学术搜索
33.刘娥, 张ZZ, 程旭, 刘霞, 程L. SCNrank: 基于网络的光谱聚类揭示潜在药物靶点及其在胰腺导管腺癌中的应用.BMC Medical Genomics.2020;13(5):1–15.pmid:32241274
查看文章PubMed/NCBI谷歌学术搜索