医学期刊目录-从肿瘤的超低覆盖率单细胞DNA测序中生长克隆树
抽象
新兴的超低覆盖率单细胞DNA测序(scDNA-seq)技术使肿瘤内拷贝数像差(CNA)的高分辨率进化研究成为可能。虽然由于测序覆盖率的一致性,这些测序技术非常适合鉴定CNA,但覆盖率的稀疏性给单核苷酸变体(SNV)的研究带来了挑战。为了最大限度地利用日益可用的超低覆盖率scDNA-seq数据并全面了解肿瘤演变,分析同一组肿瘤细胞的SNV的进化也很重要。我们提出了Phertilizer,一种从肿瘤的超低覆盖率scDNA-seq数据推断克隆树的方法。基于概率模型,我们的方法通过识别肿瘤历史上的关键进化事件来递归地划分数据。我们在模拟数据和两个真实数据集上展示了Phertilizer的性能,发现与以前的方法相比,Phertilizer有效地利用数据中固有的拷贝数信号来更准确地发现克隆结构和基因型。
作者摘要
肿瘤的发展可以用系统发育来解释——一棵描述进化历史并具有治疗意义的树。肿瘤系统发育可以从单细胞DNA测序数据构建,但每种技术都有优点和缺点。特别是,超低覆盖率技术对基因组进行统一测序,这有助于准确推断影响每个细胞内基因组区域中拷贝数的突变。然而,稀疏的覆盖率使得研究点突变的进化变得困难,这只影响单个DNA碱基。因此,没有现有的算法可以从这种单细胞技术推断点突变的进化历史。在这项工作中,我们提出了Phertilizer,这是一种从超低覆盖率技术推断点突变的肿瘤系统发育的方法,该方法使用强拷贝数信号来克服稀疏覆盖。我们的研究结果表明,与现有的临时方法相比,Phertilizer能够更准确地推断肿瘤中点突变的进化历史。这种准确性的提高可以帮助对不同患者群体之间和内部的肿瘤进展模式产生新的见解,最终使我们更接近于提高我们对癌症的基本理解以及如何设计和应用治疗。
数字
Fig 4Fig 5图1图2图3Fig 4Fig 5图1图2图3
引文: 韦伯LL,张C,奥乔亚I,El-Kebir M (2023)Phertilizer:从超低覆盖率的肿瘤单细胞DNA测序中生长克隆树。公共科学图书馆计算生物学19(10): e1011544. https://doi.org/10.1371/journal.pcbi.1011544
编辑 器: 特蕾莎·普日蒂卡, 美国国家医学图书馆
收到: 29月 2023, 26;接受: 2023月 11, 2023;发表: <>月 <>, <>
版权所有: ? 2023 韦伯等人。这是一篇根据知识共享署名许可条款分发的开放获取文章,该许可允许在任何媒体上不受限制地使用、分发和复制,前提是注明原作者和来源。
数据可用性: 代码和数据可在 https://github.com/elkebir-group/phertilizer 获得。
资金: M.E-K.得到了美国国家科学基金会(CCF-2046488)以及伊利诺伊州癌症中心资助的支持。I.O.得到了巴斯克政府的Gipuzkoa研究员赠款,西班牙的Ramon y Cajal赠款以及西班牙科学与创新部的赠款(PID2021-126718OA-I00)的支持。这项工作使用了通过 Greg Gulick 荣誉研究奖机会提供的资源、服务和支持,该机会得到了亚马逊云科技的礼物支持。资助者在研究设计、数据收集和分析、发表决定或手稿准备方面没有任何作用。
竞争利益: 提交人声明不存在相互竞争的利益。
介绍
癌症是由进化过程引起的,该过程产生由多个细胞亚群或克隆组成的异质性肿瘤,具有不同的体细胞突变集[1](图1a)。这些突变包括改变单个碱基的单核苷酸变异(SNV)和扩增或删除大基因组区域的拷贝数畸变(CNA)。在过去十年中,单细胞DNA测序(scDNA-seq)方法的新发展有助于揭示有关肿瘤内异质性和癌症进化的丰富见解[2-5]。特别是,高通量、超低覆盖率scDNA-seq技术(<1×)的持续开发和应用,如直接文库制备(DLP+)[6]和声细胞标记(ACT)[7],为丰富我们对CNA在癌症进展和肿瘤进化中的作用的理解铺平了道路[6-8]。
缩略图 下载:
.PPT幻灯片
.PNG大图
.TIFF原始图像
图1. Phertilizer根据给定超低覆盖率的单细胞测序数据推断克隆树T,克隆基因型Y和细胞聚类φ。
(a) 肿瘤由具有不同基因型的克隆组成。(b)超低覆盖率scDNA-seq产生n细胞和m SNV位点的总读取计数和变体读取计数,以及分箱读取计数的低维嵌入。(c)给定最大拷贝数c和测序错误概率α,Phertilizer推断克隆树T,克隆基因型Y和细胞聚类φ具有最大后验概率。
https://doi.org/10.1371/journal.pcbi.1011544.g001
与其他高通量scDNA-seq方法(>1×),如Mission Bio Tapestry [9])相比,这些超低覆盖率scDNA-seq技术的优势在于覆盖的均匀性。这种一致性意味着观察到的基因组区域的读段计数与拷贝数成正比,使其成为分析仅在一小部分肿瘤细胞中发生的亚克隆CNA的理想选择。然而,这种一致性是以测序深度为代价的,使得识别和表征SNV从超低覆盖率scDNA-seq进化变得非常困难。至关重要的是,为了全面研究同一组细胞的肿瘤进化,理想情况下,CNA和SNV都应该通过描述其协同进化的单个肿瘤系统发育来表征。虽然这仍然是该领域的长期目标,但朝着这个方向迈出的第一步是通过将可靠的拷贝数信息纳入SNV肿瘤系统发育的推断中,从超低覆盖率scDNA-seq数据中增加我们对SNV进化的理解。尽管来自批量测序和单细胞RNA测序的细胞聚类的系统发育推断方法正在扩展,以包含SNV和CNA特征,例如TUSV-ext [10]和CASIC [11],但目前来自单细胞测序的肿瘤系统发育和/或克隆推断方法自然倾向于关注数据非常适合的特征(SNV或CNA事件)[12-26]。一个例外是BiTSC2[24],它推断出包含SNV和CNA事件的系统发育。然而,该方法并非专为高通量超覆盖率数据而设计,在最多包含500个细胞且覆盖率低至3×的数据集上证明了有效性。中高覆盖率scDNA-seq制度(>10×)中的另一个例外是SCARLET [27],它在CNA损失支持的进化模型下使用SNV读取计数细化给定的拷贝数树。虽然SCARLET考虑了测序错误和缺失数据,但它并不是为了处理超低覆盖率scDNA-seq的极端稀疏而设计的。SBMClone [28] 迈出了第一步,使用超低覆盖率测序数据通过随机块建模推断 SNV 克隆。尽管在模拟数据上表现良好,尤其是在覆盖率较高(>0.2×)的情况下,SBMClone 无法在 10x 基因组学乳腺癌数据集 [4] 中识别清晰的结构,而无需临时使用额外的拷贝数克隆信息。此外,将SBMClone随机块模型的推断参数转换为克隆基因型并非易事,这可能会影响下游分析。类似地,给定一组候选SNV位点,SECEDO[29]首先使用贝叶斯滤波方法调用SNV,然后使用称为SNV对细胞进行聚类。虽然这两种聚类方法都利用了超低覆盖率scDNA-seq方法不断增长的吞吐量,但这两种方法都不能通过树来限制输出,并且CNA特征仅以临时方式或用于正交验证。因此,这两种方法都意味着CNA和SNV数据特征应该在单独的生物信息学管道中分离和分析。超低覆盖率scDNA-seq分析的另一个新兴趋势是伪体分析[6]。这种方法首先使用现有方法鉴定拷贝数克隆,然后将属于相同CNA克隆的细胞汇集到伪散样品中,然后对其进行独立分析以鉴定SNV。最后,使用拷贝数克隆作为树的叶子进行系统发育推断。通过这样做,这种方法不允许基于SNV演化进一步细化这些克隆。
在这里,我们介绍了Phertilizer,这是从肿瘤的超低单细胞DNA测序推断SNV克隆树的第一种方法。为了克服此类数据中的SNV覆盖稀疏性,我们利用数据中固有的强拷贝数信号来指导克隆树推理。通过类比树木的种植和生长,Phertilizer试图通过递归推断基本克隆树作为构建块来种植具有最大后验概率的克隆树。我们的模拟表明,当细胞数量与当前实践相匹配时,Phertilizer可以准确地推断系统发育和细胞簇。特别是,Phertilizer优于当前同时聚类SNV和细胞的方法[28]以及另一种常用的临时方法[6]。在真实数据上,我们发现Phertilizer有效地利用数据中固有的拷贝数信号来揭示克隆结构,从而产生高保真克隆基因型。
材料和方法
问题陈述
我们的目标是在拷贝数畸变的指导下,从由n个细胞和m鉴定的单核苷酸变异(SNV)组成的超低覆盖率测序数据中推断SNV系统发育。更准确地说,我们得到的变体读数为 A = [a智商] 和总读数 D = [d智商],其中智商和 d智商分别是单元格i∈[n]中SNV轨迹q∈[m]的变体和总读取计数(图1b)。虽然使用最新一代超低覆盖率单细胞DNA测序技术(n≈1000个细胞)的细胞数量很大,但覆盖率或跨越单个位点的平均读取数是均匀但低的(0.01×至0.5×)。例如,当覆盖率为0.01×时,我们平均会观察到智商 = d智商= 每个单元格 i 的每 0 个位点 q 中有 99 个读数为 100。这种稀疏性使得使用 SNV 进行系统发育推断极具挑战性。我们建议使用以下三个关键思想来克服这一挑战。
首先,与目前的方法类似,我们利用肿瘤中存在的克隆结构,即细胞通常聚集成少量克隆。因此,我们试图通过细胞聚类和相应的克隆基因型将n个观察到的细胞分组为k个克隆(k?n),定义如下:
定义 1 函数φ:[k] → 2[n] 是一个细胞聚类,前提是其图像将细胞 [n] 的分区编码为 k(不相交和非空)部分。
定义 2 矩阵 Y ∈ {0, 1}千米× 编码克隆基因型,其中JQ= 1 表示克隆 j 和 y 中存在 SNV qJQ= 0 表示克隆 j 中不存在 SNV q。
其次,由于超低覆盖率scDNA-seq是均匀测序的,我们可以利用数据中固有的拷贝数信号来提高细胞聚类性能[11]并指导树推理。更具体地说,我们希望克隆中的所有细胞都具有相同的拷贝数配置文件。由于我们不直接观察拷贝数,我们将使用观察到的读取计数,其中b是基因组箱的数量,作为拷贝数的代理。从读取计数 R 中,我们得出的距离反映了 R 的分箱读取计数(即 l ? b)的低维嵌入上单元格对之间的拷贝数相似性——参见 S1 附录中的 A.1 节。第三,与SCITE [12],SciCloneFit [15]和SPhyR [14]等方法类似,它们在中高覆盖率的scDNA-seq数据上运行,我们认为观察到的细胞是树状进化过程的结果,该过程限制了SNV簇的顺序。特别是,我们使用定义如下的无限站点模型 [30]。
定义 3.具有节点 {v 的树 T1, ..., vk} 根植于节点 V1 是克隆基因型 Y = [y 的克隆树1, ..., yk]? 提供 (i) 每个节点 vj 由克隆基因型 Y 标记j (ii)每个SNV q只获得一次,随后从未丢失。也就是说,不存在有向边(vj′, vj) SNV 丢失的地方,即 yJQ= 1 和 yj′q= 0。此外,任一根节点都包含 SNV,即 y1问= 1,或者正好存在一条有向边 (vj′, vj) 引入 SNV 的地方,即 yj′q= 0 和 yJQ= 1。
为了将数据与我们感兴趣的潜在变量(T,Y,φ)相关联,我们在S2附录的A.1节中引入了一个生成模型,该模型描述了变体读取计数A的生成和分箱读取计数嵌入。该模型(S1附录中的图A)需要两个超参数c和α,其中基因组中任何位点的染色体拷贝总数上限和α∈[0,1]是在测序过程中误读单个核苷酸的概率。重要的是,虽然定义 1 到 3 明确指出了克隆的数量 k,但克隆的数量 k 不是超参数,将成为推理的一部分。具体来说,我们的生成模型使我们能够近似克隆树T的后验概率,该克隆树T具有任意数量的k个节点和相关克隆基因型Y和细胞聚类φ(在S2附录的A.1节中推导)。然而,由于测序技术的局限性,从数据中检测到的克隆数量可能少于克隆树T中的节点数量。从观察到的数据中检测克隆j的能力是测序覆盖率,克隆j中的细胞数量和克隆j中新引入的SNV数量的函数。为了防止数据过度拟合,预先指定的检测阈值控制支持每个推断克隆的最小观测数据量。有关正式定义和其他详细信息,请参阅 S3 附录中的 A.1 节。
这会导致以下问题。
问题1(克隆树推理(CTI))给定变异读、总读、分箱读计数嵌入、最大拷贝数、测序错误概率α∈[0,1]和检测阈值,找到具有可检测克隆基因型Y的克隆树T 和具有最大后验概率的细胞聚类φ。
磷硫化剂
为了解决 CTI 问题,Phertilizer 在三个阶段维护一组候选树:(i) 初始化,(ii) 生长,以及 (iii) 按后验概率对每棵树进行排名。首先,在初始化阶段,集合使用仅包含根节点 v 的单个树进行初始化1.所有 n 个单元都分配给节点的单元簇φ(v1),并且针对每个SNV q初始化所有基因型。
其次,在生长阶段(S4附录中的A.1节),Phertilizer通过在每个叶节点上执行三种不同的基本树操作(线性,分支和恒等)来递归构建克隆树的候选集以及相应的克隆基因型和细胞聚类vj每个候选树(图2)。具体来说,每个操作都作为输入(T,Y,φ),并通过扩展叶v产生具有更新基因型Y′和细胞聚类φ′的新克隆树T′ j的 T(图 2)。关键思想是每个基本树操作将CTI问题分解为更小的子问题。直观地说,线性操作(图 2a)用双节点线性子树替换叶节点,而分支操作(图 2b)用三节点二元子树替换叶节点。前者表示逐步获得SNV,观察到的数据中存在中间克隆的证据,而后者则表明与共同祖先分化的证据[31]。Identity(图2c)操作不会修改树,并且在枚举所有候选树的生长过程中很有用。
缩略图 下载:
.PPT幻灯片
.PNG大图
.TIFF原始图像
图2. Phertilizer 通过以递归方式使用三个基本操作枚举克隆树来解决 CTI 问题。
(a) 每次操作通过延伸叶子 v 产生一个新的克隆树 T′j先前克隆树 T 并重新分配其 SNV Δ(yj) 和单元格 φ(j)。由此产生的克隆基因型Y′和细胞聚类φ′受到限制,如(b)线性,(c)分支和(d)同一性。
https://doi.org/10.1371/journal.pcbi.1011544.g002
这些操作在 S4 附录的 A.1 节中进行了更正式的定义。虽然细节略有不同,但线性和分支都是使用坐标下降方法求解的。也就是说,我们固定克隆基因型Y′并求解细胞聚类φ′和交替。在图像分割之间绘制平行线,其中结合像素和像素位置特征可以产生更好的聚类[32],我们将分箱读取计数嵌入和变体读取计数A合并到单个特征中[11]。然后,我们将此功能用作归一化切割算法 [32] 的输入(最坏情况下运行时间 O(n3)) 以获得具有两个簇的细胞聚类。将SNV和CNA信号组合成一个特征的优点是,当其中一个或两个信号较弱时,细胞聚类得到改善,从而改善了我们接下来求解的SNV分区。给定一个固定的细胞聚类φ′,我们使用我们的生成模型更新克隆基因型Y′,方法是将每个SNV以最大后验概率分配给扩展树T′中的节点。这是在时间 O(nm) 中完成的。我们在收敛或达到最大迭代次数时终止此过程。这导致一个基本树操作的运行时间为 O(n3+ 纳米)。然后将生成的克隆树 T′ 附加到候选集,前提是其所有克隆都可以在指定的检测阈值 t 下检测到并满足其他正则化标准(S4 附录中的 A.1 节)。
第三,一旦没有新的克隆树被添加到候选集中,我们返回后处理后具有最大后验概率的克隆树T,克隆基因型Y和细胞聚类φ(S4附录中的A.1节)。重要的是,Phertilizer 自上而下的方法要求不对推断的克隆树中的节点 k 数做出任何先验假设。Phertilizer 在 Python 3 中实现,开源(BSD-3-Clause),可在 https://github.com/elkebir-group/phertilizer 上找到。
结果
模拟研究
概述。
为了评估Phertilizer的性能并将其与先前提出的方法进行比较,我们对已知的地面真实克隆树进行了模拟研究,评估了以下四个问题:
(i) 推断的克隆树的准确性如何?(ii)每种方法能够识别具有相似克隆基因型的细胞簇的程度如何?(三) 推断的克隆基因型有多准确?(四) 每种方法对违反无限站点假设的敏感程度如何?我们设计了模拟研究,以匹配由超低覆盖率scDNA-seq生成的当前数据集的特征。为了实现这一目标,我们生成了模拟实例,其中节点数 k ∈ {5, 9},测序细胞数 n ∈ {1000, 2000},SNV 数 m ∈ {5000, 10000, 15000},平均测序覆盖率 g ∈ {0.01×, 0.05×, 0.1×}。我们复制了这些组合中的每一个 10 次,总共 360 个实例。有关模拟实例的详细信息,请参阅 S1 附录中的 B.1 节。
我们使用祖先对召回(APR)、不可比对召回(IPR)和细胞和SNV的聚集对召回(CPR)指标以及基因型相似性,根据真实树T*、细胞聚类φ*和克隆基因型Y*评估了推断溶液(T,φ,Y)的质量[33],以及基因型相似性。 此外,我们计算了一个由 APR、IPR 和 CPR 的加权平均值组成的单个精度值(域:[0, 1]),其中权重与每个类别中的对数成正比,因此 SNV 和细胞精度为 1 意味着推断的解决方案完全符合基本事实。基因型相似性等于 1 减去真实基因型和推断细胞基因型之间的归一化汉明距离。我们参考S3附录中的图1a部分B.4.1,以获取示例和更正式的定义。
缩略图 下载:
.PPT幻灯片
.PNG大图
.TIFF原始图像
图3. Phertilizer在模拟数据上优于Baseline和SBMClone。
我们显示了 n 个 ∈ {1000, 2000} 个细胞、k 个∈ {5, 9} 个克隆和覆盖率 g = 0.05× 的聚合结果。(a) SNV 准确性、祖先对召回 (APR)、聚集对召回 (CPR) 和不可比对召回 (IPR) 指标的示例。有关细胞指标和基因型相似性的相应示例,请参阅 S1 附录中的 B.4.1 节。(b) Phertilizer在SNV和细胞的APR和IPR方面优于Baseline + SCITE和SBMClone + SCITE。尽管竞争方法在心肺复苏术中排名更高,但考虑到准确性,总体而言,Phertilizer的性能最佳。(c) Phertilizer比竞争方法更准确地回收克隆基因型。
https://doi.org/10.1371/journal.pcbi.1011544.g003
我们以SBMClone [28]为基准,因为它是唯一现有的对细胞和SNV进行共聚的聚类/基因分型方法。我们还以一种普遍采用的临时实践为基准,我们称之为基线[6,7]。在基线中,单元格首先从读取计数嵌入聚集成克隆。克隆基因型是通过汇集分配给克隆j的所有细胞的读数并设置yJQ当每个位点q的备用读数与总读取数之比超过1.0的阈值时,= 05(详细信息在S1附录的B.1.1节中提供)。由于没有独立的方法可以对超低覆盖率scDNA-seq进行细胞聚类,基因分型和树推断,因此我们将SBMClone和基线与SCITE配对[12]。我们试图将SCARLET [27]和BiTSC2 [24]纳入我们的基准测试,因为这些scDNA-seq方法在其模型中包含了拷贝数畸变。但是,两者都无法在我们的模拟数据上运行。具体而言,专为中高覆盖率数据设计的 SCARLET 无法适当处理总读取计数矩阵 D 中的缺失条目。BiTSC2是一种MCMC方法,无法扩展到我们的输入数据集的大小 - BiTSC2论文[24]中考虑的最大实例有n = 500个细胞和m = 200个SNV,明显小于我们最小的模拟实例n = 1000个细胞和m = 5000个SNV。
为简洁起见,我们将讨论重点放在覆盖率g = 0.05×并显示n个∈{1000,2000}个细胞和k个∈{5,9}个克隆的聚合结果。我们报告所有性能指标的中位数,并在适当时包括四分位距(IQR),即数据的第75和第25个百分位数之间的差异。我们注意到相关趋势的偏差,并参考S1附录中的B.5.1节以获取剩余结果。
结果。
我们首先通过评估 APR、CPR、IPR 和 SNV 的准确性来评估 SNV 在推断树上放置的准确性(图 3b,S1 附录中的图 I)。总体而言,Phertilizer在所有三种方法的SNV放置方面都达到了最高的SNV精度(中位数:0.90)(基线+SCITE中位数:0.81,SBMClone+SCITE中位数:0.54)。
对于SNV APR,Phertilizer(中位数:0.92)的表现优于Baseline+SCITE(中位数:0.71)和SBMClone+SCITE(中位数:0.38)。这意味着我们的线性操作能够可靠地准确地对 SNV 进行分区,并且我们的分支操作在识别应放置在父节点上的 SNV 方面表现良好。转到SNV IPR,Phertilizer(中位数:1.0,IQR:0.11)的表现优于SBMClone+SCITE(中位数:0.48,IQR:0.5),变异性低于基线+SCITE(中位数:1.0,IQR:0.18)。因此,除了正确识别父节点中的 SNV 之外,分支操作还成功对子节点中的 SNV 进行分区。然而,对于SNV CPR,与SBMClone+SCITE(中位数:0.98)和基线+SCITE(中位数:0.97)相比,Phertilizer的表现更差,但仍保持良好的性能(中位数:0.84)。需要注意的是,通过将所有 SNV 聚类到一个聚类中,可以实现 SNV CPR 为 1。因此,数据拟合不足或将SNV分组为几个非常大的集群的成本将反映在APR和IPR的降低上。事实上,我们观察到Baseline+SCITE的情况也是如此,前者在APR上表现相对较差,而SBMClone+SCITE在APR和IPR上表现最差。
接下来,我们评估了细胞聚类和在推断树上放置的准确性。我们在准确性、APR、IPR 和 CPR 细胞性能指标方面观察到与 SNV 对应指标相似的趋势(图 3b,S1 附录中的图 I)。与SBMClone+SCITE(中位数:0.82)和基线+SCITE(中位数:0.60)相比,Phertilizer实现了最高的整体细胞精度(中位数:0.56)。同样,Phertilizer(中位数:0.84)在细胞APR上优于所有其他方法(基线+SCITE中位数:0.0,SBMClone+SCITE中位数:0.32)。在细胞IPR方面,Phertilizer(中位数:1.0,IQR:0.2)和基线+SCITE(中位数:1.0,IQR:0.13)均显著优于SBMClone+SCITE(中位数:0.67,IQR:0.68),但基线+SCITE的变异性(IQR)略低于Phertilizer。与SNV CPR类似,基线+SCITE(中位数:1.0)和SBMClone+SCITE(中位数:1.0)在细胞CPR上优于Phertilizer(中位数:0.87),但细胞APR和IPR的相应性能下降表明推断细胞簇太少。
除了为我们的基本操作的有效性提供更多支持证据外,这些细胞放置性能指标还突出了 Phertilizer 利用拷贝数和 SNV 信号进行树推断的优势。相比之下,Baseline+SCITE优先考虑拷贝数信号,并且无法进一步细化具有不同克隆基因型但拷贝数谱相同的细胞簇。相反,SBMClone+SCITE忽略了拷贝数信号,并且难以推断具有稀疏SNV信号的克隆。
最后,我们评估了基因型的相似性,并纳入了SBMClone和基线,因为这是在树推断之前获得的。由于基因型相似性将推断的基因型或每个模拟细胞与其真实基因型进行比较,因此它捕获了细胞聚类和克隆基因分型之间的相互作用。鉴于Phertilizer在克隆树推理和细胞聚类指标上取得了最高的性能,我们预计Phertilizer具有最高的基因型相似性。事实上,图3c证明这是正确的,因为Phertilizer是唯一具有中位基因型相似性高于0.95的方法。基线是第二高(中位数:0.88),紧随其后的是基线+SCITE(中位数:0.85),而SBMClone+SCITE(中位数:0.55)和SBMClone(中位数:0.53)的表现最差。当在最低覆盖率g = 0.01×下评估这些指标时,Phertilizer在细胞放置和基因型相似性方面都保持了最佳性能,但Baseline+SCITE在SNV放置方面与Phertilizer具有竞争力(S1附录中的图H)。对于最高覆盖率g = 0.1×,Phertilizer在SNV放置和细胞放置方面实现了最高的准确度,并且中位数基因型相似性为0.97,而下一个最接近的竞争对手(基线)的中位数相似性为0.89(S1附录中的图J)。就n = 1000个细胞,m = 15000 SNV和g = 0.01×的运行时间而言,Phertilizer的中位运行时间为460 s,基线+ SCITE为45.9 s,SBMClone+SCITE为101 s(S1附录中的图M)。
为了进行灵敏度分析,我们生成了另外两组仿真。第一个具有与上述相同的参数,但排除了CNA,因此每个位点都是杂合二倍体。我们还从比较中排除了Baseline+SCITE,因为在细胞聚类后只推断出一个克隆。我们发现Phertilizer的性能仍然优于SBMClone+SCITE,但对于覆盖率g = 0.01×我们的性能略差于使用CNA的模拟(S1附录中的图K),这意味着当测序覆盖率非常稀疏时,CNA特征有助于推断。第二,在 Dollo [34] 进化模型下生成模拟,k = 9, m = 15000, 覆盖率 g ∈ {0.01×, 0.05×, 0.01×}。我们发现Phertilizer的表现仍然优于Baseline+SCITE和SBMClone+SCITE,在所有性能指标上都保持了高分(S1附录中的图L),除了覆盖率最低的细胞APR。
超参数选择。
Phertilizer需要许多超参数进行推理。为了评估对这些超参数中的每一个的敏感性,我们进行了一项额外的模拟∈∈∈α研究,除了运行时参数(如重启次数({0, 001*, 0, 01},每个基本树操作的最大迭代次数({3, 5*, 9, 3})和质量检查上限QC ∈{5.7*, 11.5} 对于没有指定SNV集的单元格 - 有关质量检查的详细信息,请参阅S15附录中的A.30.60节。带 * 的超参数选项表示上述模拟研究中使用的默认 Phertilizer 值。在所有模拟实例中,我们将细胞数固定在n = 25,SNV固定在m = 50,测序覆盖率固定在g = 100.200× - 这些结果参见S0附录中的图N和图O。
总体而言,我们发现高估碱基测序误差α导致基因型相似性以及SNV和细胞准确性方面的性能略有下降。对于其余的比较,我们固定α = 0.001,并观察到将最大副本 c 增加到 9 会略微改善整体性能。这可能是由于c = 9考虑的等位基因特异性拷贝数状态数量多于c = 5 。我们还发现,在增加到t = 11之前,可检测性阈值的性能保持相似。由于测序覆盖率低,具有如此高的可检测性阈值会产生分辨率较差的树,其克隆少于地面事实。然而,质量检查阈值的变化不会导致性能的显着差异。最后,我们发现 15 次重新启动,每个基本树操作最多迭代 50 次,足以最大限度地提高性能。但是,以增加运行时为代价,增加实际数据的这些值可能是谨慎的做法。尽管此灵敏度分析为超参数值的设置提供了指导,但当超参数(如 α 和 c)在实践中难以估计时,我们建议对这些值执行网格搜索。Phertilizer近似的后验概率可用于区分具有不同参数设置的输出克隆树。
总之,我们得出结论,鉴于Phertilizer在这些性能指标上获得了高水平的准确性,不仅基本操作在隔离中成功,而且后验概率也有助于区分候选克隆树。此外,我们发现,在处理超低覆盖率scDNA-seq数据时,只要可用,就有必要使用拷贝数信号,但不足以进行准确的克隆树重建和/或SNV基因分型。
高级别浆液性卵巢癌患者
利用对输入参数的网格搜索(S2附录中的B.1.1节),我们对来自同一高级别浆液性卵巢癌患者的三个克隆相关癌细胞系的n = 890个DLP+测序细胞运行了Phertilizer[6]。我们使用变体和总读取计数 A, D 表示 m = 14, 068 SNV,并从 Laks 等人报告的数据中派生分箱读取计数 R 表示 b = 6, 207 个箱(箱宽为 500 KB)[6]。这些数据的平均测序覆盖率为0.25×。利用类似于上述基线方法的方法,Laks等人[6]通过降维和基于密度的聚类鉴定了9个拷贝数克隆(标记为A-I),并在系统发育中将它们与拷贝数克隆作为叶子进行协调(图4a)。我们在cBioPortal [35, 36]和来自COSMIC v37的癌症基因普查(CGC)[97]中注释了具有癌症相关基因突变的推断树(参见S2附录中的B.2.1节)。
thumbnail 下载:
.PPT幻灯片
.PNG大图
.TIFF原始图像
图4. Phertilizer改进了Laks等人先前推断的SNV系统发育[6]。
(a)Laks等人推断的克隆树[6],边缘由SNV增益标记,细胞数显示在叶节点下方。(b)由Phertilizer推断的克隆树,其边缘由SNV增益标记,细胞数显示在叶节点下方。癌症相关基因在(a)和(b)中的SNV旁边标记,“*”表示停止增益变异。(c)Laks等人[6]细胞放置和Phertilizer细胞放置之间的映射。(D-E)推断Laks等人[6]和Phertilizer克隆树中每个分支内(蓝色)和外部(红色)细胞之间的细胞突变负荷(CMB)比较。
https://doi.org/10.1371/journal.pcbi.1011544.g004
如图4b所示,Phertilizer推断出具有13个节点和8个克隆的克隆树。我们发现Phertilizer的树与Laks等人[6]树紧密对齐,两种方法都正确识别了对应于三个不同细胞系的三个主要分支(图4c)。此外,驱动基因TP53、SUGCT和MYH9在Laks et.al[6]推断树(图4a)和Phertilizer克隆树(图4b)中被鉴定为克隆基因。类似地,CHD2,ARID1A,ZHX1,HTR1D和INSL4中的亚克隆SNV被放置在两棵树的相应分支中。为了进一步评估每个推断分支的质量,我们开发了一种称为细胞突变负担(CMB)的性能指标,定义为CMB(i,M)= ∑问∈米 1{a智商> 0}/∑问∈米 1{d智商> 0}。
简而言之,CMB(i,M)是映射的SNV位点M在单元格i中具有映射变体读数的比例。对于以节点 v 为根的指定分支 j 或子树j, SNV Mj是在节点 v 处获得的 SNVj.对于放置在分支 j 中的单元格,我们期望 CMB(i, Mj) 为高,尽管该值将取决于拷贝数。相比之下,对于位于分支j之外的细胞,我们期望CMB(i,Mj) 为低。有关CMB的更多详情,请参阅S2附录的B.3.1节。
图4d和4e分别描述了Laks等人[6]和Phertilizer所有分支的CMB分布比较。对于放置在指定分支之外的细胞,Laks等人[6]报告的树以及Phertilizer推断的树对于所有分支的CMB中位数为0。这表明这两种方法都具有高度特异性,即,如果在该分支之外观察到SNV,则不会将SNV分配给该分支。然而,对于放置在进化枝内的细胞,我们观察到Laks等人[6]推断的进化枝比Phertilizer更大的变异性。这种变异性在叶节点中最为明显,尤其是C,D,G,F,H和I,其中大多数具有少量SNV。 我们进一步分析了簇G和H,其中分支内细胞的CMB的第25个百分位数等于0,以及具有较大变异性的簇C和D(IQR分别为0.74和0.51)。
聚类 G 和 H 在嵌入空间中的位置表明在基于密度的聚类过程中过度拟合,包含 G 和 H 的较大内聚聚簇任意拆分(S1 附录中的图 P )。相比之下,Phertilizer同时使用拷贝数和SNV信号,导致Laks等人[6]G和H细胞聚集在一起到推断的Phertilizer克隆树中的节点4。将进化枝G和H(图4d)内细胞的CMB分布与Phertilizer推断的进化枝4(图4e)进行比较,我们观察到节点25的第0个百分位数(31.4)高于G(0.00)和H(0.00)。这导致Phertilizer的进化枝4内外细胞的CMB分布之间的大量分离,但Laks等人[6]G和H进化枝的CMB分布没有,这意味着SNV在Phertilizer的克隆树中的位置更好。
两个推断树之间的最后一个主要区别是Laks等人[6]节点C和D中的细胞与Phertilizer节点8和9的聚类。与节点G和H类似,我们没有观察到嵌入空间中C和D的明确分离(S1附录中的图P),因此在没有更严格的拷贝数分析和聚类的情况下很难定义这些细胞的聚类。然而,正如我们在模拟研究中看到的那样,Phertilizer能够在一组具有相同拷贝数谱的细胞中检测到进一步的SNV进化。这些簇中的像元不会在嵌入空间中分成两半,而是应该随机分散在嵌入空间中的单个簇中。除了观察到节点8和9中的细胞随机分散在嵌入空间的簇中(S1附录中的图P)外,我们还观察到放置在分支8和9内外的细胞的CMB分布之间存在明显的分离(图4e)。对于这些分支,我们还观察到IQR分别为0.08和0.13的低变异性,而簇C和D在推断的Laks等人[6]克隆树中具有非常高的变异性。
总体而言,两个推断的克隆树非常相似,但由于Phertilizer同时使用CNA和SNV信息,我们在SNV系统发育推断方面略有改善。此外,我们注意到,在大多数叶节点上获得的少量SNV是Laks等人[6]采取的自下而上方法的直接结果,该方法在每个细胞簇上单独执行伪散装SNV调用。当SNV存在于多个细胞簇中但在每个簇中的患病率较低时,它们可能无法通过细胞簇的当前体细胞SNV调用者的过滤。这看起来SNV对于单个克隆是唯一的,而实际上它们存在于多个克隆中,但尚未被调用。当测序覆盖率接近0.01×而不是这些数据的0.25×时,对细胞簇进行正确的基因分型变得更具挑战性。相比之下,Phertilizer的自上而下方法更适合以低患病率检测存在于多个细胞簇中的SNV。
八种三阴性乳腺肿瘤
我们将Phertilizer应用于通过ACT [7]测序的八个三阴性乳腺肿瘤,标记为TN1至TN8。在归一化和GC偏差校正的分档读计数R的降维后,Minussi等人[7]为每个肿瘤鉴定了两组具有不同粒度的细胞簇,表示为超级克隆和亚克隆。为了获得每位患者的SNV输入集,我们在仅肿瘤模式下使用MuTect2对混合测序细胞的假批量样本进行了SNV调用[38]。有关数据处理的更多详细信息,请参阅 S2 附录中的 B.5.1 节。S1附录中的表A显示了每个肿瘤在细胞数n、SNV数m和平均覆盖率g方面的细分,并描述了Phertilizer,Minussi等人[7]超克隆和亚克隆的推断克隆数,以及SBMClone推断克隆的数量.请注意,这些数据的覆盖范围(范围从 0.017× 到 0.039×)明显低于 DLP+ 数据 (0.25×)。我们还运行了Baseline+SCITE,将细胞簇固定在Minussi等人[7]亚克隆上,但除TN3和TN5之外的所有实例在10小时后超时。然而,TN3和TN5的推断树的CMB分布(S1附录中的图S)没有提供支持这些树的证据。SBMClone仅推断出所有患者的单个克隆,而Phertilizer推断了4个肿瘤(TN8:1,TN6:2,TN6:4和TN4:8)中的2个具有多个克隆的树。 这四种肿瘤在八名患者中的平均覆盖率最高。我们将重点讨论由Phertilizer推断的肿瘤TN1(图5)和TN2(S1附录中的图T)的克隆树上。
thumbnail 下载:
.PPT幻灯片
.PNG大图
.TIFF原始图像
图5. Phertilizer推断乳腺癌肿瘤TN1的克隆树。
(a)Phertilizer推断的树,边缘旁边标记了SNV的数量,叶子下方标记了细胞的数量。癌症相关基因被标记在SNV旁边(“*”:停止增益变体)。(b)Phertilizer的细胞簇与Minussi等人[7]超级克隆之间的映射。(c)推断克隆树中每个分支内(蓝色)和外部(红色)细胞之间的细胞突变负荷(CMB)比较。
https://doi.org/10.1371/journal.pcbi.1011544.g005
对于肿瘤TN1,Phertilizer推断出具有11个节点和6个克隆的分支树(图5a)。我们还在驱动基因DICER1中发现了与肿瘤发生和预后不良相关的亚克隆错义SNV[39,40]。 我们注意到Minussi等人[7]超级克隆和Phertilizer细胞簇之间具有良好的一致性,除了在超级克隆35中显示为异常值的1个细胞(图5b,S1附录中的图R)。这表明这些细胞可能更适合基于SNV信号的超级克隆2。此外,我们将8745个SNV中的13934个确定为truncal。这种大的躯干距离和分支结构与Minussi等人[7]使用批量全外显子组测序推断的克隆谱系树中的躯干距离一致。我们使用CMB来评估SNV和细胞放置的性能(图5c)。对于进化枝5到10,我们观察到进化枝外细胞的中位数CMB为0。分支9和10特别有趣,因为嵌入空间描述了Minussi等内部SNV进化的发生。al.的[7]超级克隆4(S1附录中的图R)。对于进化枝2到4,我们注意到每个进化枝外细胞的中位数CMB约为0.035,而进化枝1最高,为0.077。在对这358个SNV的进一步调查中,我们发现在聚集所有细胞时,映射读取的中位数为5,这使得这些SNV特别难以放置。与上面分析的卵巢癌患者相比,由于测序覆盖率从0.25×下降到0.031×,预计进化枝外细胞的中位数CMB性能下降。然而,我们仍然观察到进化枝内细胞的CMB分布与所有进化枝外细胞之间的CMB分布之间存在很大的分离。
对于肿瘤TN2,我们推断出具有11个节点和6个克隆的分支克隆树(S1附录中的图T)。Phertilizer的两个细胞簇直接同意Minussi等人[7]的超级克隆。然而,Phertilizer使用SNV信息将剩余的两个超级克隆分成四个细胞簇(3,4,5,6)。我们观察到进化枝外细胞的中位数CMB(0)较低,并且进化枝分布内外的细胞之间有明显的分离,为这种细胞聚类和SNV放置提供了证据。对于肿瘤TN4,我们鉴定了一个具有五个细胞簇的8节点树,在细胞聚集一致性和CMB方面的趋势与肿瘤TN1和TN2相似(S1附录中的图U)。最后,对于这四种肿瘤中覆盖率最低的肿瘤TN8为0.021×,Phertilizer仅推断出具有两个细胞簇的3节点分支树(S1附录中的图V)。
讨论
超低覆盖率scDNA-seq极大地增强了我们从拷贝数角度研究肿瘤进化的能力[7,17]。利用这些数据中固有的强拷贝数信号,我们提出了一种新的方法Phertilizer,该方法使用基本树操作以递归方式生长SNV系统发育。我们在模拟和真实数据上证明了我们的方法相对于现有聚类方法的有效性。重要的是,我们发现,对于目前在实践中使用的细胞数量(800 ? 2000),Phertilizer的性能明显优于这些方法,产生更准确的克隆树,细胞簇和克隆基因型。作为第一种从超低覆盖率scDNA-seq重建SNV进化历史的方法,Phertilizer有助于推进肿瘤进化的研究,并在单细胞分辨率下朝着SNV和CNA联合系统发育推断的目标取得进展。
未来的研究还有一些额外的限制和方向。首先,由于测序覆盖率下降到0.02以下×如ACT数据,Phertilizer不会推断具有多个克隆的克隆树。尽管推理受到许多因素的影响,例如拷贝数配置文件,但它可能确实表明Phertilizer的检测限约为0.02×覆盖率。其次,对于超低scDNA-seq数据来说,准确的变异调用仍然是一个悬而未决的问题,这使得识别输入亚克隆变异变得具有挑战性。除了scDNA-seq数据之外,来自scRNA-seq和ATAC-seq数据集的准确SNV变异调用也具有挑战性[41,42]。 但是新方法,如Monopogen [43],SComatic [44],VarCA [45],scAllele [46],基于参考的方法[47]和患者来源细胞系[48]的使用正在迅速提高我们从scDNA-seq以外的各种技术准确进行单细胞体细胞突变分析的能力。通过考虑变体调用中的不同错误配置文件,Phertilizer可以扩展到直接从scRNA-seq和ATAC-seq数据集中模拟体细胞变体的进化。第三,除了SNV和CNA之外,我们还计划支持结构变异并整合其他组学模式,如甲基化和转录[49]。第四,本作品中使用的无限站点模型经常因复制编号删除而被违反。虽然我们证明了对此类违规行为的鲁棒性,但未来的方向是使用Dollo进化模型[14,34]。 最后,我们的模型缺少在树上显式放置 CNA 事件。树协调方法,如PACTION [50],现在可以应用于整合由Phertilizer和CNA树生成的SNV克隆树,以获得联合树。
支持信息
补充材料。
跳到无花果共享导航
补充文本 — Phertilizer:从中生长克隆树肿瘤的超低覆盖率单细胞DNA测序Leah L. Weber1,?Chuanyi Zhang2,?Idoia Ochoa2,3,?Mohammed El-Kebir1,4,?1Dept. of Computer Science, University of Illinois Urbana-Champaign, IL, USA2Dept. of Electrical & Computer Engineering, University of Illinois Urbana-Champaign, IL, USA3Dept. of Electrical and Electronics Engineering, University of Navarre, Donostia, Spain4Cancer Center at Illinois, University of Illinois Urbana-Champaign, IL, USA?Shared first authorship;?Corresponding author:{idoia,melkebir}@illinois.eduContentsA Supplementary methods2A.1 Data processing . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .2A.2 Generative model . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .2A.2.1 Latent variant allele frequency model . . . . . . . . . . . . . . . . . . . . . . . . .3A.2.2 Variant read count model . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .3A.2.3 Binned read count embedding model . . . . . . . . . . . . . . . . . . . . . . . . .4A.2.4 Posterior probability . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .5A.3 Detectability of a clone . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .6A.4 PHERTILIZER. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .8A.4.1 Growing phase . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .8A.4.2Linear. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10A.4.3Branching. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12A.4.4Identity. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14A.4.5 Running time of an elementary tree operation . . . . . . . . . . . . . . . . . . . . . 14A.4.6 Regularization . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14A.4.7 Postprocessing . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15B Supplementary results16B.1 Simulation study . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16B.1.1BASELINEmethod . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16B.1.2Simulation setup . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16B.1.3运行时参数 .17B.1.4绩效指标 .18B.1.5补充模拟研究图 .19B.2 实验数据 .27B.2.1P赫蒂尔实验数据的运行时参数 .27B.2.2驱动基因在推断树上的位置 .27B.2.3细胞突变负担 (CMB) .27B.2.4用DLP+ 30测序的高级浆液性卵巢癌细胞的补充图1
B.2.5处理来自ACT的三阴性乳腺癌肿瘤测序数据。 .31B.2.6三阴性乳腺癌肿瘤测序的补充表格和图表与法案 .31数字列表一个板图 .2B对克隆可探测性的视觉描述 . .7CP的图形描述赫蒂尔的递归枚举树构建过程 . . .10D图形描述线性基本树操作 ..11E图形描述分支基本树操作 . .12F使用B 推断的每个细胞簇的基因型之间的基因型相似性阿赛林方法并改变变异等位基因频率 (VAF) 阈值和推断的克隆基因型Laks 等人的细胞簇 [1] .17G祖先对召回 (APR)、聚类对召回 (CPR)、不可比对召回示例调用(IPR),以及细胞的准确性。 .18H覆盖率的模拟结果g= 0.01×. . . . . . . . . . . . . . . . . . . . . . . . . . .20我覆盖率的模拟结果g= 0.05×. . . . . . . . . . . . . . . . . . . . . . . . . . .21J覆盖率的模拟结果g= 0.1×. . . . . . . . . . . . . . . . . . . . . . . . . . .22K杂合二倍体模拟结果聚合k∈ {5,9}克隆和m∈{5000,10000,15000}SNV .23L多洛进化模型仿真结果k= 9克隆和m= 15000SNV .24M模拟数据的运行时间(以秒为单位) .24N超参数对基因型相似性的影响 .25O超参数对树木重建精度的影响 .26P分析具有不同错误率的模拟实例上的细胞突变负荷(CMB)在{0%,15%,30%}用于细胞和SNV放置 .29Q用推断细胞簇描绘的高级别浆液性卵巢癌患者的 UMAP 30R三阴性乳腺肿瘤TN1在包埋空间中的细胞聚集比较P赫蒂尔和米努西等人 [2] ..32S由B推断的树木中每个分支的细胞突变负荷阿赛林+用于肿瘤的SCITE TN3和TN5 .33TP赫蒂尔乳腺癌肿瘤TN2的推断克隆树 . ..33UP赫蒂尔乳腺癌肿瘤TN4的推断克隆树 . ..34VP赫蒂尔乳腺癌肿瘤TN8的推断克隆树 . ..34表列表一个Minussi等人[2]乳腺癌数据的结果摘要 . ..312
下载
无花果分享
S1 附录。 补充材料。
https://doi.org/10.1371/journal.pcbi.1011544.s001
(英文)
确认
我们感谢Navin实验室和Darlan Minussi对ACT数据的帮助。此外,我们感谢Shah Lab,包括Daniel Lai,Robert Reinert和Andrew McPherson,感谢他们对DLP+数据的帮助。
引用
1.诺威尔电脑。肿瘤细胞群的克隆进化:获得性遗传不稳定性允许逐步选择变异亚系,并成为肿瘤进展的基础。科学。1976;194(4260):23–28.邮编:959840
查看文章PubMed/NCBI谷歌学术搜索
2.森田K, 王F, Jahn K, 胡T, 田中T, Sasaki Y, et al.高通量单细胞基因组学揭示的急性髓系白血病的克隆进化。自然通讯.2020;11(1):1–17.
查看文章谷歌学术搜索
3.巴斯兰 T, 肯德尔 J, 沃里扬斯基 K, 麦克纳马拉 K, 考克斯 H, 德意大利 S, 等.通过单细胞基因组测序揭示的乳腺癌拷贝数遗传异质性的新见解。电子生活。2020;9:e51480。pmid:32401198
查看文章PubMed/NCBI谷歌学术搜索
4.Kim C, Gao R, Sei E, Brandt R, Hartman J, Hatschek T, et al.通过单细胞测序描述的三阴性乳腺癌的化学耐药性演变。细胞。2018;173(4):879–893.密码:29681456
查看文章PubMed/NCBI谷歌学术搜索
5.Miles LA, Bowman RL, Merlinsky TR, Csete IS, Ooi AT, Durruthy-Durruthy R, et al.骨髓恶性肿瘤克隆进化的单细胞突变分析。自然界。2020;587(7834):477–482.密码:33116311
查看文章PubMed/NCBI谷歌学术搜索
6.Laks E, McPherson A, Zahn H, Lai D, Steif A, Brimhall J, et al.由规模化的单细胞基因组测序定义的克隆分解和 DNA 复制状态。细胞。2019;179(5):1207–1221.密码:31730858
查看文章PubMed/NCBI谷歌学术搜索
7.Minussi DC, Nicholson MD, Ye H, Davis A, Wang K, Baker T, et al.乳腺肿瘤在扩增过程中保持亚克隆多样性的储存库。自然界。2021;592(7853):302–308.密码:33762732
查看文章PubMed/NCBI谷歌学术搜索
8.Zahn H, Steif A, Laks E, Eirew P, VanInsberghe M, Shah SP, et al.可扩展的全基因组单细胞文库制备,无需预扩增。自然方法。2017;14(2):167–173.pmid:28068316
查看文章PubMed/NCBI谷歌学术搜索
9.佩莱格里诺 M, 夏安比 A, 特鲁什 S, 杜鲁西-杜鲁西 R, 戈卡莱 K, 雅各布 J, 等.使用液滴微流体对急性髓系白血病肿瘤进行高通量单细胞DNA测序。基因组研究。2018;28(9):1345–1352.pmid:30087104
查看文章PubMed/NCBI谷歌学术搜索
10.Fu X, Lei H, Tao Y, Schwartz R. 重建包含单核苷酸变异、拷贝数改变和结构变异的肿瘤克隆谱系树。生物信息学。2022;38(Supplement_1):i125–i133。密码:35758777
查看文章PubMed/NCBI谷歌学术搜索
11.Kannan J,Mathews L,Wu Z,Young NS,Gao S. CAISC:一种通过单细胞RNA测序集成拷贝数变异和单核苷酸突变进行遗传异质性分析和亚克隆检测的软件。BMC生物信息学。2022;23(3):1–17.pmid:35313800
查看文章PubMed/NCBI谷歌学术搜索
12.Jahn K, Kuipers J, Beerenwinkel N. 单细胞数据的树推理。基因组生物学。2016;17(1):1–17.pmid:27149953
查看文章PubMed/NCBI谷歌学术搜索
13.马利基奇 S, 梅赫拉巴迪 FR, 西科莱拉 S, 拉赫曼 MK, 里基茨 C, 哈格谢纳斯 E, 等.PhISCS:一种通过综合使用单细胞和批量测序数据进行不完全肿瘤系统发育重建的组合方法。基因组研究。2019;29(11):1860–1877.密码:31628256
查看文章PubMed/NCBI谷歌学术搜索
14.El-Kebir M. SPhyR:在丢失和错误下从单细胞测序数据估计肿瘤系统发育。生物信息学。2018;34(17):i671–i679。密码:30423070
查看文章PubMed/NCBI谷歌学术搜索
15.Zafar H, Navin N, Chen K, Nakhleh L. SiCloneFit:从单细胞基因组测序数据中对肿瘤克隆的群体结构、基因型和系统发育进行贝叶斯推断。基因组研究。2019;29(11):1847–1859.密码:31628257
查看文章PubMed/NCBI谷歌学术搜索
16.Roth A, McPherson A, Laks E, Biele J, Yap D, Wan A, et al.来自单细胞肿瘤测序的克隆基因型和群体结构推断。自然方法。2016;13(7):573–576.密码:27183439
查看文章PubMed/NCBI谷歌学术搜索
17.扎卡里亚·用CHIEL表征单个细胞中的等位基因和单倍型特异性拷贝数。自然生物技术。2021;39(2):207–214.密码:32879467
查看文章PubMed/NCBI谷歌学术搜索
18.Markowska M, C?ka?a T, Miasojedow B, Aybey B, Juraeva D, Mazur J, et al. CONET:单细胞数据的进化肿瘤历史的复制数事件树模型。基因组生物学。2022;23(1):1–35.密码:35681161
查看文章PubMed/NCBI谷歌学术搜索
19.刘 Y, Edrisi M, Ogilvie H, Nakhleh L. NestedBD: 出生-死亡模型下单细胞 DNA 拷贝数谱数据系统发育树的贝叶斯推断。生物Rxiv。2022;.
查看文章谷歌学术搜索
20.王峰, 王琪, 莫汉蒂 V, 梁 S, 窦 J, 韩 J, 等. MEDALT:单细胞拷贝数谱系追踪使基因发现成为可能。基因组生物学。2021;22(1):1–22.pmid:33622385
查看文章PubMed/NCBI谷歌学术搜索
21.Kaufmann TL, Petkovic M, Watkins TB, Colliver EC, Laskina S, Thapa N, et al. MEDICC2:癌症进化的全基因组加倍感知拷贝数系统发育。基因组生物学。2022;23(1):241.pmid:36376909
查看文章PubMed/NCBI谷歌学术搜索
22.Kozlov A,Alves JM,Stamatakis A,Posada D. CellPhy:从scDNA-seq数据准确快速地推断单细胞系统发育。基因组生物学。2022;23(1):1–30.密码:35081992
查看文章PubMed/NCBI谷歌学术搜索
23.Kang S, Borgsmüller N, Valecha M, Kuipers J, Alves JM, Prado-López S, et al. SIEVE: 从单细胞DNA测序数据中联合推断单核苷酸变异和细胞系统发育。基因组生物学。2022;23(1):248.密码:36451239
查看文章PubMed/NCBI谷歌学术搜索
24.陈 K, 莫拉维茨 JC, 加夫留什金 A, 韦尔奇 D, 德拉蒙德 AJ.考虑数据错误可以改善单细胞癌症进化中的发散时间估计。分子生物学和进化。2022;39(8):MSAC143。密码:35733333
查看文章PubMed/NCBI谷歌学术搜索
25.米利特 S, 贝尔加明 R, 帕特鲁诺 L, 卡洛纳奇 N, 卡拉瓦尼亚 G.一种使用拷贝数改变对单细胞RNA测序数据进行聚类的贝叶斯方法。生物信息学。2022;38(9):2512–2518.密码:35298589
查看文章PubMed/NCBI谷歌学术搜索
26.周孜, 徐斌, 敏安, 张懊.DENDRO:通过单细胞RNA测序进行遗传异质性分析和亚克隆检测。基因组生物学。2020;21(1):1–15.密码:31937348
查看文章PubMed/NCBI谷歌学术搜索
27.萨塔斯 G, 扎卡里亚 S, 蒙 G, 拉斐尔 BJ.SCARLET:具有拷贝数约束突变损失的单细胞肿瘤系统发育推断。细胞系统。2020;10(4):323–332.密码:32864481
查看文章PubMed/NCBI谷歌学术搜索
28.迈尔斯马,扎卡里亚S,拉斐尔BJ。在稀疏的单细胞突变数据中鉴定肿瘤克隆。生物信息学。2020;36(Supplement_1):i186–i193。密码:32657385
查看文章PubMed/NCBI谷歌学术搜索
29.罗兹霍诺娃 H, 丹丘 D, 斯塔克 S, 拉奇 G, 卡勒斯 A, 莱曼 KV.SECEDO:使用超低覆盖率单细胞DNA测序进行基于SNV的亚克隆检测。生物信息学。2022;38(18):4293–4300.密码:35900151
查看文章PubMed/NCBI谷歌学术搜索
30.木村·由于突变的稳定通量,在有限的群体中维持的杂合核苷酸位点的数量。遗传学。1969;61(4):893.密码:5364968
查看文章PubMed/NCBI谷歌学术搜索
31.肿瘤进化:线性,分支,中性还是间断?Biochimica et Biophysica Acta (BBA)-癌症评论。2017;1867(2):151–161.密码:28110020
查看文章PubMed/NCBI谷歌学术搜索
32.Shi J, Malik J. 归一化切割和图像分割。IEEE Transactions on patterns Analysis and Machine Intelligence .2000;22(8):888–905.
查看文章谷歌学术搜索
33.埃尔-凯比尔 M, 厄斯珀 L, 艾奇逊-菲尔德 H, 拉斐尔 BJ.从多样本测序数据重建克隆树和肿瘤组成。生物信息学。2015;31(12):i62–i70。密码:26072510
查看文章PubMed/NCBI谷歌学术搜索
34.Dollo L. Les lois de l'évolution.比利时地质、古生物学和水文学学会公报。1893;7:164–166.
查看文章谷歌学术搜索
35.Cerami E, Gao J, Dogrusoz U, Gross BE, Sumer SO, Aksoy BA, et al.cBio癌症基因组学门户:一个探索多维癌症基因组学数据的开放平台。癌症发现。2012;2(5):401–404.密码:22588877
查看文章PubMed/NCBI谷歌学术搜索
36.高J, 阿克索伊, 多格鲁索斯 U, 德累斯顿 G, 格罗斯 B, 苏美尔, 等.使用cBioPortal对复杂的癌症基因组学和临床概况进行综合分析。科学信号。2013;6(269):p L1–PL1.密码:23550210
查看文章PubMed/NCBI谷歌学术搜索
37.桑德卡Z,班福德S,科尔CG,沃德SA,邓纳姆I,福布斯SA。宇宙癌症基因普查:描述所有人类癌症的遗传功能障碍。自然评论癌症。2018;18(11):696–705.密码:30293088
查看文章PubMed/NCBI谷歌学术搜索
38.Van der Auwera GA, O'Connor BD. 云中的基因组学:在 Terra 中使用 Docker、GATK 和 WDL。奥赖利媒体;2020.
39.Consortium APG, Consortium APG, André F, Arnedos M, Baras AS, Baselga J, et al. AACR Project GENIE: 通过国际财团为精准医疗提供动力。癌症发现。2017;7(8):818–831.
查看文章谷歌学术搜索
40.赫拉维-穆萨维, 安格尔西奥, 程文刚, 森兹, 杨 W, 普伦蒂斯, 等.非上皮性卵巢癌中的复发性体细胞DICER1突变。新英格兰医学杂志。2012;366(3):234–242.密码:22187960
查看文章PubMed/NCBI谷歌学术搜索
41.Schnepp PM, Chen M, Keller ET, Zhou X. 从单细胞RNA测序数据进行SNV鉴定。人类分子遗传学。2019;28(21):3569–3583.密码:31504520
查看文章PubMed/NCBI谷歌学术搜索
42.刘芳, 张毅, 张林, 李孜, 方琪, 高蓉, 等.单细胞RNA测序数据中单核苷酸变异检测方法的系统比较分析。基因组生物学。2019;20(1):1–15.密码:31744515
查看文章PubMed/NCBI谷歌学术搜索
43.窦杰, 谭毅, 科克, 王杰, 程鑫, 谭林, 等.单核苷酸变异在单细胞测序数据中使用Monopogen调用。自然生物技术。2023;第1-10页。密码:37592035
查看文章PubMed/NCBI谷歌学术搜索
44.穆亚斯 F, 绍尔 CM, 瓦莱-英克兰 JE, 李 R, 拉赫巴里 R, 米切尔 TJ, 等.从头检测高通量单细胞分析数据集中的体细胞突变。自然生物技术。2023;第1-10页。密码:37414936
查看文章PubMed/NCBI谷歌学术搜索
45.Massarat AR, Sen A, Jaureguy J, Tyndale ST, Fu Y, Erikson G, et al.从体积和单细胞ATAC-seq中发现单核苷酸变体和插入缺失。核酸研究。2021;49(14):7986–7994.密码:34313779
查看文章PubMed/NCBI谷歌学术搜索
46.Quinones-Valdez G, Fu T, Chan TW, Xiao X. scAllele:一种用于检测和分析scRNA-seq变异的多功能工具。科学进步。2022;8(35):EABN6398。pmid:36054357
查看文章PubMed/NCBI谷歌学术搜索
47.Gasper W, Rossi F, Ligorio M, Ghersi D. 变异调用增强了单细胞RNA测序数据中癌细胞的鉴定。公共科学图书馆计算生物学。2022;18(10):e1010576。pmid:36191033
查看文章PubMed/NCBI谷歌学术搜索
48.Ramazzotti D, Angaroni F, Maspero D, Ascolani G, Castiglioni I, Piazza R, et al.来自scRNA-seq数据的变异鉴定允许评估患者来源细胞系中的细胞身份。自然通讯。2022;13(1):2718.密码:35551450
查看文章PubMed/NCBI谷歌学术搜索
49.El-Kebir M,Morris Q,Oesper L,Sahinalp SC.癌症进化中的新兴主题。在:2022年太平洋生物计算研讨会。世界科学;2021.第397–401页。
50.Sashittal P, Zaccaria S, El-Kebir M. 癌症中的简约克隆树整合。分子生物学算法。2022;17(1):1–14.pmid:35282838
查看文章PubMed/NCBI谷歌学术搜索