《利用深度分割模型提高断点分辨率:一种基于读取深度的结构变异调用的通用细化方法-医学论文发表》期刊简介
利用深度分割模型提高断点分辨率:一种基于读取深度的结构变异调用的通用细化方法-医学论文发表
· 张耀忠,
· Seiya Imoto
· 宫野聪郎(Satoru Miyano),
· 瑞山
· 发表日期:2021年10月11日
· Https://doi.org/10.1371/journal.pcbi.1009186
摘要
读取深度(RDS)经常用于从测序数据中识别结构变体(SVS).对于现有的基于RD的SV呼叫者来说,由于RD数据的噪声和基于bin的计算,很难确定单核苷酸解析的断点。本文提出利用深度分割模型UNET来学习已知SVS断点周围的逐基RD模式。我们将模型预测与一个基于RD的SV调用者集成起来,以提高单核苷酸分辨率中的断点。实验结果表明,利用少量的数据可以对UNET进行训练,并且可以同时应用于样本中和交叉样本中。一个名为RDBKE的增强管道显着地增加了在模拟和真实数据上具有更精确断点的SVS的数量。RDBKE的源代码可在Https://github.com/yaozhong/deepIntraSV.
作者摘要
本文采用深度分割模型UNET来缓解基于RD的SV呼叫方的容量限制。UNT最初是为图像数据提出的。在这里,我们证明了UNET模型也可以应用于一维基因组数据.我们将断点预测形式化为分割任务,并从预测的标签标记中推断出单核苷酸解析的断点。通过一组模拟和真实WGS数据的实验,我们证明了用少量数据训练UNET模型,并且一个称为RDBKE的增强管道显着地增加了具有更精确断点的SVS的数量。
引用:张英兹,伊莫托S,宫野S,山口R(2021)用深度分割模型提高断点分辨率:一种基于读取深度的结构变异呼叫的一般精化方法。PLOS Comput Biol 17(10):e1009186。Https://doi.org/10.1371/journal.pcbi.1009186
编者:Mona Singh,美国普林斯顿大学
收到:2020年7月8日;接受:2021年6月15日;出版:2021年10月11日
版权:2021岁,Zhang等人。这是一篇以CreativeCommonsAttribution许可证,允许在任何介质中不受限制地使用、分发和复制,只要原始作者和源被记入帐户。
数据可得性:所有相关资料都在手稿中辅助信息档案。
供资:Y.Z.、S.I.、S.M.和R.Y.由日本教育、文化、体育、科学和技术部关于创新领域的科学研究资助项目(15H05907)资助。S.I和R.Y还得到了日本医学研究和发展机构(AMED)的癌症研究和治疗进化项目(P-CREATE)(450px0106535h0001)的支持。资助者在研究设计、数据收集和分析、决定出版或编写手稿方面没有任何作用。
相互竞争的利益:提交人宣布,不存在任何相互竞争的利益。
这是一个PLOS计算生物学方法纸。
导言
结构变异(SVS)是指长度大于50个碱基对(BP)的基因组变异。与小规模突变(如单核苷酸多态性(SNPs)和indels)相比,SVS的较大大小使它们更有可能改变基因组结构并产生功能性后果。在阿尔茨海默病和癌症等许多疾病中,SVS发挥了重要作用。1–4]。随着测序技术的进步,在全基因组范围内对SVS进行更准确和全面的分析成为可能。
为了从全基因组测序(WGS)数据中检测SVS,人们提出了各种算法.(在这里,拷贝数变化(CNVS)被视为SVS的一个子类型)。一般来说,这些方法可分为四大类[5]:基于读深度(RD)的[6],基于对端(PE)映射的[7],拆分读(SR)基[8]和基于新组装(AS)的[9]。基于RD的方法首先将参考基因组划分为不重叠的垃圾箱,然后计算每个垃圾桶的RD值。重复(DUPs)和缺失(DEL)是根据相邻垃圾箱的异常RD变化来检测的。基于PE的方法使用SPAN和对尾读取的方向,检测更多的SV类型,如InVS(InVS).对于基于SR的方法,如果相邻的READ分别与参考基因组的不同坐标对齐,则该比对可用于确定单核苷酸分辨率中SV的断点。基于AS的方法组装读入较大的Contigs,并使用程序集Contigs检测SVS。然而,对于短读测序数据,程序集本身具有很高的计算成本.除了上述四种方法之外,几种方法还集成了多个方法。例如,Delly[7]结合PE和SR检测SV。近期基准研究[10, 11显示没有一个单独的SV调用者能够准确和敏感地检测所有类型和大小的SVS。-医学论文发表
本文主要研究基于RD的方法.垃圾箱大小是影响基于RD的SV呼叫者性能的一个重要参数.一个大的垃圾箱大小是可靠的捕获大型SVS,如CNV。然而,大的垃圾箱尺寸会给检测小长度的SVS带来灵敏度损失.另一方面,用一个小的垃圾箱大小计算RD是非常嘈杂和稀疏的,这会导致更多的假阳性。本文采用深度分割模型UNET来提高SVS的断点分辨率。更具体地说,我们训练UNET模型来学习已知SVS断点周围的基本RD模式,并将该模型应用于包括候选SVS断点在内的RD向量的分割。我们从分割结果中推断出新的单核苷酸拆分断点。与近几年将深入学习方法应用于基因型谱的研究相比,我们的方法有两个新的方面。首先,将断点检测形式化为分割任务。通常采用深度学习模型作为分类器。例如,DeepVariant[12使用一个校准良好的卷积神经网络来调用SNPs和Indels,其基础是假定位置的图像堆。第二,我们提出的方法充分利用了传统方法和深度学习方法的力量。我们首先使用一个基于RD的SV调用者来预测bin分辨率中的初始断点.然后应用该分割模型对候选断点周围的基向RDS进行筛选,进一步细化。我们对模拟的和真实的WGS数据进行了一系列的实验。对于实际数据,我们进行了系统的实验,包括在样本和交叉样本.实验结果表明,该模型可以用少量的数据进行训练,既可以应用于样本中,也可以应用于交叉样本。拟议的使用UNET的管道大大增加了具有更精确断点的SVS的数量。
方法和材料
断点增强的整体流水线
图1A介绍了RDBKE的整体管道,用于增强基于RD的SV呼叫者的断点到单核苷酸解析。在增强之前,一个基于RD的SV调用者在bin分辨率中预测具有断点的初始SVS.对于典型的基于RD的SV呼叫者(例如CNVnator[6),读取首先与参考基因组对齐。参考基因组被分割成固定长度的不重叠的bin区.由bin覆盖的映射读取数被计算为bin的平滑RD。基于RD的SV呼叫方的bin大小会影响SV调用方的灵敏度,并决定SV断点的分辨率。在增强阶段,通过深度分割模型进一步分析候选断点周围的基因组区域,该模型在筛选窗口内识别SV重叠区域。然后根据SV重叠标记推断新的断点,并相应地进行更新,如图1B.
·
图1.
(A)RDBKE的整体管道,用于增强基于RD的SV呼叫者的深度分割模型。Bin解析中的初始SV预测作为VCF文件提供。(B)说明使用RDS周围断点候选点增强bin分辨率断点的示例。
Https://doi.org/10.1371/journal.pcbi.1009186.g001
我们在以下两种场景中应用了增强管道。一个是样例应用程序。对于一个样本,我们假设验证了少量的SVS。这些已知的SVS用于训练或调整UNET模型。然后,应用经过训练的UNET模型对样本中其余未验证的SVS进行细化.另一个是交叉样本应用程序。对于在同一平台上排序的样本,我们对综合调查样本(如NA 12878)进行了UNET模型的训练,并对其他样本进行了改进。
UNET分割模型
通常,常规的基向rds被视为噪音太大,不能直接用于确定svs的断点。事实上,通过正确设计模型结构,可以使用深度学习模型直接处理基向RD数据,并学习识别候选断点周围的RD模式。在这里,我们使用一个深度分割模型来标记SV重叠坐标,并根据分割结果推断出断点位置。
形式上,给定基向RD向量。X = {d1, d2, …, dl的筛选窗口的}lBP,我们的目标是找到分割。Y = {m1, m2, …, ml},其中mi∈{0,1}表示坐标是否i与SV重叠。我们使用UNET[13]学习从X到Y。UNET是一种基于U型结构的深度神经网络.它结合了卷积神经网络(CNN)和自动编码器(AE)的优点.在图像分割任务中,特别是在医学图像分割任务中,达到了最先进的性能。14]。本文描述了UNET的结构。图2。它是一种由左编码模块和右解码模块组成的编解码体系结构.左编码模块对基向RD信号进行去噪,并通过反复应用卷积层来提取RD特征,然后是经过校正的线性单元(Relu)和批归一化(BN)。在每两个模块块中应用一个最大池操作。右U通过向上卷积扩展下采样特征映射,并将左U模块中对应层的特征映射连接起来.下采样张量和上采样张量之间的跳过连接是为了避免梯度消失和保持位置信息.两个额外的卷积层跟随每个级联特征映射与relu和BN。在输出层中,1x1卷积与乙状体用于预测标签标记的活动函数。与一个典型的CNN模型相比,UNET中没有完全连接的层。-医学论文发表
·
图2.用于标记SV重叠坐标的深度分割模型UNET的模型结构。
Https://doi.org/10.1371/journal.pcbi.1009186.g002
为了从分割结果中进一步推断断点位置,我们让UNET的输出与输入具有相同的长度。在下采样和上采样过程中,我们使用填充和选择适当的最大池大小来避免不可分的隐藏单元数。根据预测分数是否大于0.5的标准来预测每个位置的标签。如果大于0.5,则指定标签“1”以指示位置与SV重叠。否则,标签“0”将被预测。
培训UNET模式
为了训练UNET模型,我们利用经过验证的SVS,并以正样本的形式生成围绕已知断点的基向RD向量。全零RD向量被过滤掉.请注意,基于RD的SV调用者只能预测DELS和DUP。由于断点可能不位于筛选窗口的中心位置,因此我们在筛选窗口的起始位置添加了随机移位。起始位置和断点之间的距离在[10]范围内随机抽样。l-10]。SV重叠过小的区域(核苷酸与SV重叠的长度小于10 bp)很难用RD信息进行正确的预测。这些样本被排除在培训集之外。作为阴性样本,我们从其他基因组区产生相同数量的随机选择的RD载体,而没有任何报告的SV。
我们使用Dice相似系数(DSC)[15]作为损失函数,并使用adam[16]作为培训UNET模型的优化者。哪里m金和m普雷德是金本位(GS)和预测的标签标记,以及?(例如,1e-7)是避免除以零的数字公差。
利用分割结果细化SVS的断点
我们使用算法1从分割结果中推断出断点位置。由于增强是针对SV的每个断点独立执行的,我们对增强的SVS进行额外检查,它们的SV大小是否小于50 bp。如果增强后的SV小于50 bp,则保留原来的SV边界。
评价数据
我们使用Kosugi等人提供的模拟数据。[10],目的是对不同的SV呼叫者进行系统的基准测试。他们根据基因组变体数据库(DGV)预定义了具有精确断点的SVS,并从基准样本NA 12878中验证了SVS。预定义的SV集由3530 DELS、1656 DUP、2819 INSS和309 INVS组成。我们在常染色体上评估了Dels和DUPs。利用ART模拟器,在模拟的GRCH 37人类二倍体基因组基础上生成成对端读(125 bp读取长度和500 bp插入长度,平均覆盖范围30倍)。17].
算法1:SVS的断点增强
1输入::svs由一个基于RD的SV呼叫者预测。
2输出具有增强断点的SVS。
3先令 SV ∈ SVS 做
4提取SV左右边界的读深度矢量;
5 ?前程 RD向量 做
6利用深度分割模型预测SV标记;
7根据标签标记生成断点候选;
8 ??开关 候选断点数目n 做
9 ???案例 n=1 做
10与候选人一起更新断点;
11 ???端部
12 ???案例 n > 1 做
13使用最接近原始断点的断点作为新的断点;
14 ???端部
15 ???不然的话
16保留原断点;
17 ???端部
18 ??端部
19 ?端部
20端
为了对实际数据进行评价,我们使用了1000个基因组项目(1kgp)的WGS数据和一个瓶子联盟(Giab)中的基因组(Genome)数据。包括高质量SV愈伤组织的样品,如NA 12878和HG 002.另外,用1kgp的NA 19238和NA 19239作为交叉样本进行评价。基于1kgp合并的SVS的VCF文件(V8)生成NA 12878、NA 19238、NA 19239的金标准SVS。HG 002的金标准SVS来自高置信度的第1级呼叫集,并使用“HG 002_count≥8”进行过滤。有关vcf文件和对齐bam文件的更详细信息,请参见S1表.-医学论文发表
我们对每个样本的RD向量进行归一化处理,方法是从“背景”区域(不包括已知-SV重叠区域和低映射区)的随机抽样的垃圾箱中对基向RDS进行平均和标准的推导。
评价指标
本文从模型级和应用级两个方面对该方法进行了评价。在模型层次上,通过分割和分类任务对不同的模型进行评价。我们将UNET与两种常用的模型:CNN和支持向量机(SVM)进行了比较。利用CNN对不同的深度学习模型进行分割比较,将SVM应用于筛选窗口是否包含SV重叠区域的简化任务。为了评价UNET和CNN在分类任务中的作用,我们首先对筛选窗口的RD向量进行分割,并根据分割结果进行分类预测。如果筛选窗口中存在SV重叠标记,则将其归类为阳性,反之亦然。我们使用F1评分、FDR、精确度和回忆等指标来衡量分类性能。我们使用DSC来测量分割性能。
在应用程序层,我们使用不同的分割模型对一个基于RD的SV调用者进行断点增强。我们评估了增强前后SV和断点的变化。在不失去通用性的情况下,我们使用CNVnator作为实例。其他基于RD的SV呼叫者也可以使用。为了评价SVS的准确性,我们使用了预测SV和金标准SV之间的Jaccard相似性(JS),计算方法如下:哪里l重叠是预测SV与金标准SV重叠区域的长度。我们将金标准重叠SV定义为JS分数大于0.5的重叠SV.与其他相关工作中使用的倒数重叠(RO)相比,对于同一对(JS的分母等于或更大),JS的值小于或等于RO的值。换句话说,大于0.5的JS是一个比RO大于0.5的相对更严格的度量标准。我们计算了具有精确边界(边界匹配和部分边界匹配(左或右))的金标准重叠SVS和SVS的数目。在这里,“精确”边界被定义为距离金本位的1 bp以内。除了对SVS的评价外,我们还对不同精度的断点数目进行了研究。比较了增强前后不同距离范围的断点数。
SV呼叫者和模型设置
我们使用了三个常用的SV呼叫者,CNVnator(V0.4),Delly(v0.8.1)和Lumpy(v0.2.13)。CNVnator是一个基于RD的SV调用者,而Delly和Lumpy作为其他类型的SV调用者进行比较。CNVnator和Delly在它们的默认设置中运行。对于CNVnator,根据模拟数据,对50~1000 bp范围内的不同垃圾箱尺寸进行了评价。Lumpy与“Express”模式一起用于分析。
对于增强模型,筛选窗口的默认长度为400 bp。其中描述了UNET的模型结构。图2。CNN使用典型的LeNet结构[18]。有关网络结构的更详细信息,请参阅S2表。我们用一张NVIDIA V 100 GPU卡训练了深度学习模型。利用Hyperopt(v0.2)对模拟数据进行随机训练分割,确定超参数。学习率和批次大小分别为0.001和64。在训练过程中,我们采用了最少10个周期和最多100个周期的早期停止训练。SVM使用了Scikit-Learning(v0.22.2)包的默认设置。
结果
模拟数据评价
我们首先根据模拟数据对所提出的方法进行了评价。通常,n倍交叉验证使用。n?1倍用于训练,其余1倍用于测试。除了制定标准外,我们还使用了一种训练和另一种。n?1倍的测试,以评估模型使用少量的培训数据。
模型级性能
首次研究了典型的5倍交叉验证设置(列车数据比例为总SVS的80%).如图所示表1对于分割任务,UNET以较高的DSC分数获得了较好的分割性能。更具体地说,对于含有背景样本的测试集,DSC-所有的UNET都比CNN的绝对高2.61%。对于仅含SV样品的测试装置,UNET的DSC-BK值比CNN高出2.03%左右。在二进制分类任务中,UNET在三种模型中取得了最佳的性能。在保持较低FDR值的同时,UNET具有更高的F1分数、精确性和召回率。对于深度分割模型,UNET和CNN的召回率均在85%以上,高于SVM的召回率,约为81.3%。与CNN相比,SVM还具有较低的FDR值。
·
表1.对模拟数据进行5倍交叉验证。
为了减少GPU训练的随机性,报告了5次重复跑的平均结果。重复运行的结果显示在S3表.
Https://doi.org/10.1371/journal.pcbi.1009186.t001
可以用少量数据对联合国环境技术进行培训。
在实际应用中,已知的验证SVS相对较少。值得研究的是,只需少量的数据就可以训练深度分割模型。因此,我们调整了数据分割设置,只使用一次数据进行训练(训练-数据-比例:20%)。对于总共19974个RD向量的模拟数据,我们在3989 RD向量上进行了模型的训练,并在其余的向量上进行了测试。-医学论文发表
与典型的数据分割设置(80%的训练,20%的测试)下的模型性能相比,当使用较少的训练数据时,三种模型的性能都会下降。如图所示表1在分割任务中,UNET的DSC-BK相对下降1.9%,CNN的DSC-BK相对下降4.7%。在分类任务中,UNET、CNN和SVM F1评分的相对下降分别为1%、3.7%和1.2%。CNN比其他两种模型对数据量更敏感。然而,减少的幅度没有减少近四分之三的培训数据那么大。结果表明,用少量的数据对UNET模型进行训练是可行的。
提高断点分辨率。
在应用程序级别,我们在以下两种场景中执行了增强。一种是样本内增强,它用少量验证的SVS训练分割模型,并对同一样本中的其他候选SVS进行断点增强。另一种是交叉样本增强,从一个样本中用有效的SVS训练分割模型,并对其他样本的SVS进行增强。对于交叉样本情况,我们假设两个样本都在同一个平台上进行排序,这是保持模型泛化能力所必需的。
我们对模拟数据进行了样本内增强。对于每个样本,我们随机抽取20%的SVS和经过训练的模型。这20%的SVS被排除在评估之外。采用CNVnator生成SVS的初始断点。深度分割模型分析了这些断点周围的筛选窗口中各坐标的RD值。在分割结果的基础上,采用算法1生成增强断点。表2显示增强前后的特定SVS数量。我们使用CNVnator,使用5种不同的容器尺寸,从50 bp到1000 bp不等。CNVnator在使用较小的bin大小时预测了更多的SVS,如“预测的SVS”列中所示。表2。由于WGS数据的读取覆盖是固定的,所以bin的大小越小,在bin中的读取就越少。因此,当垃圾箱尺寸减小时,尤其是当垃圾箱尺寸小于100 bp时,基于本机的RDS就会变得稀疏和嘈杂。CNVnator的预测SVS数量从100 bp减少到50 bp,增加了21.3%,达到4766个。然而,黄金标准重叠svs的数量并不与增加的预测成比例增加,这表明cvnator使用较小的垃圾箱大小往往有更多的假阳性预测。
表2.不同垃圾箱尺寸CNVnator对预测SVS的增强作用。
预测断点周围的筛选窗口长度为400 bp。“GS-ov”SVS被称为黄金标准重叠SVS。“l/r匹配”表示SVS与部分边界匹配(左或右),“l&r匹配”表示SVS与两个边界匹配(左和右)。
Https://doi.org/10.1371/journal.pcbi.1009186.t002
我们使用一个400 bp长的筛选窗口对CNVnator预测的不同垃圾箱尺寸的断点进行细化。在增强步骤中,候选断点被放置在筛选窗口的中心,这与训练步骤不同。对于CNVnator使用不大于200 bp的桶大小预测的候选断点,在断点的每一侧至少有一个全长的bin被筛选窗口重叠。对于CNVnator使用大于200 bp的容器大小预测的断点,筛选窗口可能只覆盖一个垃圾箱的部分长度。垃圾箱所包含的黄金标准断点可能在这种部分覆盖情况的筛选窗口之外。这一观测结果说明,对于使用大于200 bp的垃圾箱尺寸的CNVnator,具有精确边界的增强SVS的数量明显减少。根据经验,筛选窗口覆盖至少四个垃圾箱的长度是首选的(两边有两个垃圾箱)。
我们对增强前后有精确断点的SVS的变化进行了研究。从…表2我们可以观察到:首先,具有精确边界的SVS数量显著增加。在增强之前,由于容器大小的限制,具有精确边界的SVS非常少.例如,CNVnator预测多达四个双边界匹配的SVS的垃圾箱大小为50 bp.部分边界匹配SVS的数目也小于预测的金标准重叠SVS的10%.增强后,双边界匹配SVS的数目增加到887个.对于直径为50 bp的CNVnator,随着UNET的增强,具有精确边界的SVS的比例从8.31%提高到70.52%。对于CNN的增强,具有精确边界的SVS数目增加到18.43%。这些都证明了使用联合国评价小组加强基于研发的SV呼叫者的有效性和潜力.第二,金标准重叠SVS(JS>0.5)的数量略有增加.与CNVnator用50 bp的容器大小预测的SVS相比,CNN和UNET增强后的SVS分别多出4和19个金标准重叠SVS。这些变化是由于断点的调整,使得Jaccard相似度大于0.5的SVS更多。第三,与cnn相比,UNET还获得了更好的性能,因为使用UNET增强的SVS有更多的部分边界匹配SVS和更多的边界匹配SVS。
我们进一步研究了对断点的增强效应。对于每个断点,我们评估了它与金本位的距离(到-GS-距离)的变化.我们计算了在不同的-GS距离范围内的断点数.图3使用UNET和CNN显示增强前后断点变化的数量。我们演示了在热图中绘制的混乱矩阵的形式的变化。我们将-GS-距离分解为DR={[0,5],[5,10),[10,20),[20,50],[50,100),[100,200],[200,500],[500,1000],[1000,}}的范围集。对于更改矩阵中的每个元素,ci,j表示从博士i到博士j增强后。为ci,i这表示在相同范围内调整的断点,我们忽略了那些不变的断点。为了可视化,较大数值的矩阵元素用较暗的颜色绘制。UNET增强了2145个断点,它们的原始到-GS距离在5到50 bp之间,到距离小于5 bp的断点之间,如下所示图3A。CNN的阳性增强数少于UNET。请注意,有负调整,使-GS-距离增加.这个数字比正面增强的数量要小。我们进行了误差分析,发现一些负调整属于黄金标准断点离最初预测的坐标太远的情况,而这些坐标也超出了筛选窗口。
图3.评估UNET和CNN模型增强效果的变更矩阵。
(A)使用环境署模式改变增强矩阵。(B)使用CNN模型的改进矩阵。
Https://doi.org/10.1371/journal.pcbi.1009186.g003
基于增强RD的SV呼叫者与其他类型SV呼叫者的比较。
由于现有的基于RD的呼叫者并不是为了预测单核苷酸分辨率中的断点,所以我们将所提出的方法与其他类型的SV呼叫者进行了比较,后者可以对单核苷酸分辨率进行预测。在这里,我们使用了Delly(v0.8.1)[7]和块状(v0.2.13)[19]。Delly基于异常对齐的读取检测svs,包括不一致的对齐读取和拆分读取.在SV发现的概率框架下,LUMBY集成了配对端面定位器、分片读取定位器和CNV预测。根据模拟数据,Delly预测了3460个金标准重叠SVS(Jaccard相似性>0.5,1433个SVS(41.4%)为边界匹配),而Lumpy预测共3525个金标准重叠SVS(2672个SVS(75.8%)为边界匹配)。这些金标准重叠SVS的数量大约是CNVnator的1.5倍,在相同的数据上使用50 bp的容器大小(总计2237个SVS)。CNVnator预测的金标准重叠SVS约为90.82%和92.95%,分别为Delly和Bumpy预测值的90.82%和92.95%。受50 bp容量的限制,由非增强的CNVnator预测的双边界匹配的SVS非常少(只有4个SVS)。然后用CNN和UNET的不同分割模型对CNVnator进行增强。我们将SVS与增强CNVnator预测的双边界匹配与Delly和Lumpy预测的GS-ov svs进行了比较,如下所示图4。基于UNET的增强显着地将双边界匹配SVS的数目增加到866个.这866个SVS分别有39.5%和91.9%的边界匹配SVS与Delly和Bumpy的预测值重叠。有31和21个GS-ov SVS不与Delly和Bumpy预测的任何GS-ov SVS重叠。两种边界匹配的SVS(共39)与CNN增强的数目远小于UNT增强(总计866)。只有一个SV不与Delly和Bumpy预测的任何GS-ov SVS重叠。
图4.基于增强型RD的SV呼叫者与两种不同SV呼叫者在模拟数据上的比较。
评估的SVS是与金标准SVS重叠的SVS(Jaccard相似度>0.5)。将CNVnator(w/wo增强)预测的具有精确断点的SVS(两种边界匹配,简称“*_精确”)与Delly和Lumpy预测的GS-ov SVS进行了比较,如以下Venn图所示。任何两个预测的SVS都被视为重叠,只要它们与相同的金标准SV重叠。维恩图是用Eulerr[20]。(A)CNVnator(W/WO增强)和Delly的比较。(B)CNVnator(w/wo增强)和块状的比较。
Https://doi.org/10.1371/journal.pcbi.1009186.g004
真实数据性能
我们对两个基准样本NA 12878和HG 002的模型级性能进行了评估。在……里面表3,我们观察到一个类似的趋势,在评价模拟数据。随着训练数据的增加,~评分提高了2%,NA12878的分割率提高了2.36%,HG 002的分割效果提高了2.43%,~值提高了3.88%。在分类任务的所有评价指标中,UNET也取得了最佳业绩。同时,仅使用20%的训练数据,UNET的性能并没有CNN的显著下降。在分类任务中,虽然NA 12878和模拟数据有SVS,但三种模型在NA12878上的FDR值都高于模拟数据上的FDR值。一个原因与数据集中断点的精度有关。对于真实的数据集,断点是从多个SV调用者集成而来的,并且定义在一个从零到几百bp的置信区间内。而在模拟数据中,断点的定义更为精确。这一观察表明,对于训练分割模型以获得较低的FDR值,更准确的数据是必不可少的。-医学论文发表
对NA 12878和HG 002进行5倍交叉验证,筛选窗口长度为400 bp。为了减少GPU训练的随机性,报告了5次重复跑的平均结果。
Https://doi.org/10.1371/journal.pcbi.1009186.t003
实际数据的样本增强。
我们用四个实际样本进行了样本内增强。我们随机选择了20%的已知SVS,并在SV边界周围生成RD向量,对每个样本进行UNET和CNN训练。其余80%的SVS用50 bp的容量评价CNVnator的增强效果。表4显示增强前后特定SVS和断点的更改数。UNET预测所有四个样本的SVS具有精确的边界(“l/r匹配”和“l&r匹配”)比CNN更多。对于HG 002,部分边界匹配SVS和双边界匹配SVS的总百分比约为59.72%。此外,我们还观察到,当to-GS距离小于5 bp时,经UNET增强后的断点数也显著增加。小于5 bp的to-gs距离的平均值也会减少,如S4表。变化矩阵显示在图S1。大多数由UNET模型增强的断点是原始到-GS距离在20到100 bp之间的断点。而对于CNN模型,其增强效果相对保守,在距离小于5 bp的情况下,被增强的断点较少。
表4.CNVnator的样品增强使用50 bp的垃圾箱尺寸。
对于每个SV调用方,拆分区域中最大数目的断点以粗体突出显示。“GS-ov”SVS被称为黄金标准重叠SVS。“l/r匹配”表示SVS与部分边界匹配(左或右)。“l&r匹配”表示具有双边界匹配(左和右)的SVS。
Https://doi.org/10.1371/journal.pcbi.1009186.t004
对真实数据的交叉样本增强。
然后,我们评估了不同样本的分割模型。交叉样本评价考察了模型是否可以跨样本推广。我们假设样本是在同一个平台上进行排序的。在这里,我们使用来自1kGP的WGS数据来满足这个前提条件。我们使用综合研究的样本NA 12878来训练深度分割模型,并将训练后的模型应用于NA 19238和NA 19239。与样本中20%用于训练的SVS被排除在外的样本评估不同,对目标样本的所有已知SVS都进行了评估。
表5给出了模型和应用层次上的交叉样本评价。在模型级,所有模型的召回率相对较低,而与样本内评价相比,精度分数仍然保持不变。UNT取得了最佳的分割和分类性能。在NA 19238和NA 19239上,支持向量机最大的FDR值分别为0.2045和0.1626。结果表明,基于分割结果的分类效果优于分类,对交叉样本应用进行了直接预测。在应用一级,对UNET模型可观察到类似于抽样评价的增强效果。具有精确边界的SVS的比例从1.3%左右增加到34.39%和36.26%。在不同范围内,to-gs距离的平均和标准推导如下:S5表。与在样例相比,cnn的性能有了明显的提高.样本的断点变化矩阵显示在图S2当距离小于5 bp时,会增强更多的断点.正如仿真研究中所讨论的,CNN对训练数据量更敏感。在交叉样本评价中,使用了更多的数据进行训练,有助于提高CNN的性能。然而,具有精确边界的SVS数和距离小于5 bp的断点数仍小于UNET。
·
表5.对真实数据的交叉样本增强。
在NA 12878上对深度分割模型进行了训练,并对NA 19238和NA 19239进行了不同模型的增强。“GS-ov SVS”被称为黄金标准重叠SVS。“l/r匹配”表示SVS与部分边界匹配(左或右),“l&r匹配”表示SVS与边界匹配(左和右)。
Https://doi.org/10.1371/journal.pcbi.1009186.t005
肿瘤WGS数据的交叉增强。
我们对UNET对肿瘤WGS数据的泛化能力进行了进一步的研究。我们使用Valle-In族等人提供的COLO829肿瘤细胞系的WGS数据。[21]。采用正交技术对SVS进行了验证,包括IlluminaHiSeq、牛津纳米粒、太平洋生物科学和10倍基因组学。此外,还采用了捕获探针、PCR和Bionano等额外的验证方法。我们使用了提供的对齐(BAM文件,大约100倍的覆盖率)和SV信任集,其中包含了常染色体上的32个Del和7个DUP(插入和转位被排除在评估之外)。我们在NA12878数据上训练了UNET模型,并在COLO829肿瘤WGS数据集上进行了测试(不使用配对正常WGS数据)。我们使用默认设置,在先前的实验中,筛选窗口的长度为400 bp,而CNVnator的容器大小为50 bp。增强UNET的变化矩阵显示在S3图。从图中我们观察到,在5 bp范围内,4个断点被增强,分辨率更高,2个断点被增强到5, 10]。这一结果证明了UNET模型对肿瘤WGS数据的推广能力。
读取深度和筛选窗口长度的影响
断点增强受读取深度的影响。通过向下采样NA 12878的WGS数据,我们实证地评估了读取深度对模型性能的影响。我们对NA 12878的不同读取深度进行了5次交叉验证,并对其进行了20%的列车分割.如图所示图5随着阅读深度的增加,我们观察到了性能提高的总体趋势。低于0.5的下采样率范围内的曲线相对于其它区域的曲线更为陡峭。图中显示了用低深度数据训练单个样本的深度分割模型的困难。根据图中所示的性能差距,根据经验建议阅读深度不少于40倍用于应用UNET模型。图5.使用不同读取深度数据的模型在样本评价中的性能。
通过60倍读取深度下采样NA 12878 WGS数据生成不同的读取深度数据.虚线曲线连接F1分数的分类,而直线曲线显示DSC-所有分数的分割。
Https://doi.org/10.1371/journal.pcbi.1009186.g005
为了评价筛选窗口长度的影响,我们使用NA 12878对CNVnator进行了50 bp的采样增强。筛选窗长分别为100 bp、200 bp、400 bp、800 bp和1000 bp。如图所示图6,在模型级别上,不同的筛选窗口长度不会因读取深度而产生剧烈的性能变化。对于分类任务,我们观察到随着筛选窗口长度的增加,SVM和CNN的性能略有下降,而在200 bp后,UNET的F1曲线开始偏离SVM和CNN。同时,与支持向量机(SVM)和CNN(CNN)相比,其F1评分有收敛的趋势。筛选窗口越长,包含的RDS就越多。支持向量机和cnn更容易被使用更多的基向RD信号所影响,而UNET则对屏幕窗口长度较长的屏幕窗口具有很好的通用性。随着分割任务的筛选窗口长度的增加,评估标签的数量也会增加。DSC评分也相应增加。UNET比CNN表现更好,尤其是当放映窗口长度大于400 bp时。
图6.使用不同筛选窗口长度的模型对NA 12878 WGS数据的性能(读取深度为60倍)。
虚线曲线连接F1分数的分类,而直线曲线显示DSC-所有分数的分割。
Https://doi.org/10.1371/journal.pcbi.1009186.g006
讨论
在本文中,我们提出了一种通用的增强方法RDBKE,以提高基于读取深度的SV呼叫的断点分辨率。RDBKE的核心部分使用UNET模型对候选断点周围的区域进行细分。以前基于RD的SV呼叫者通常需要通过回收箱平滑RD信号,从而限制了预测断点的分辨率。在这里,我们使用UNT直接处理碱基RD信号,并在单核苷酸分辨率中细化断点预测.虽然WGS数据的基向RD有很大的噪声,但可以用一个具有适当神经网络结构的深度学习模型直接进行处理。除了卷积模块外,编解码结构和跳接结构也对此功能做出了贡献。此外,还可以用少量的数据对UNET模型进行训练,从而使在样本中的应用在实际中是可行的。在同一平台上对两个样本进行排序的情况下,利用更多的训练数据也可以将增强流水线应用于交叉样本应用。
通常,SV调用集是通过不同SV调用方的聚类预测生成的。对于这些基准SV调用集,对同一样本也应用了多个排序技术来获得高置信度结果。几种计算算法[22, 23]用于进一步过滤和合并SV预测。例如,SVCLE[23使用单类支持向量机对候选SVS是否存在与大多数基因组不同的异常注释进行聚类和分类。在这里,我们关注的是基于RD的SV调用者。我们建议使用深度学习模型来增强现有的基于RD的SV呼叫者,而不是开发一个新的基于RD的SV呼叫者。与现有的SV检测机器学习应用程序不同的是,我们采用了一种不同的建模方法作为分割任务,为预测区域的分析提供了更好的粒度。
与其他类型的信息相比,常规RD在全基因组规模中更为常见.虽然基于拆分读取的方法能够准确地预测基向断点,但有数量有限的svs与大量的拆分读取重叠[24]。Pedersen等人,[25]提出整合阅读深度信息,分析基于不一致读和基于分读算法聚类生成的假定事件。该方法将事件中的中位深度与两侧1000个基座的中位深度进行了比较,用于细化基于分读和成对的方法的预测。然而,这种方法仍然使用基于bin的RDS。
对模拟数据中分割模型的输出进行了误差分析。对于那些包含重大RD变化的区域,UNET和CNN相对容易标记SV-重叠坐标。UNET倾向于预测比CNN更多的连续相同的标签标记,特别是在候选边界附近。对于RD变化较小的区域,两种深度分割模型仍有可能生成几乎正确的分段,如表A所示S4图。这两种分割模型都显示了检测小规模SVS的情况(表B在S4图)。除了筛选窗口外的金本位断点问题外,还观察到了另外两种类型的错误。一是RD信号信息量小,难以进行可靠的分割。另一个是断点注释的不一致性,一些相邻的已知断点具有不同的RD信号模式,如表C所示S4图。虽然分割不是完美的,但我们的实验表明,基向rds仍然可以用来学习围绕断点的特定信号模式以进行细化。我们期望,当高覆盖率和高质量的培训数据越来越多的时候,性能可以得到进一步的提高。为了减轻错误片段的影响,还可以保留原有的SVS和增强结果,以便进行进一步的聚类分析。
在本工作中,我们只利用读取深度信息来提高SVS的断点分辨率.所提出的深度学习框架还具有灵活性,可以将其他不同的特征作为输入。例如,我们可以结合与序列相关的信息和特定读取的读取深度,例如拆分读取和配对读取。DeepVariant利用推测区(100 Bp)的堆积图像,应用CNN对检测SNPs和Indels的基因型进行分类。虽然叠加图像表示比一维RD表示包含更多的信息,但它们的噪声要大得多,特别是在SV检测任务中,假设区域通常较大时更是如此。另一方面,这种方法也可以通过学习长读的RD模式来扩展到长读WGS数据。值得进一步探讨。
结语
在本文中,我们提出了RDBKE来增强基于RD的SV呼叫者的单核苷酸解析中的断点。RDBKE使用UNET来学习围绕已知断点的基本RD模式。我们证明,利用少量的数据可以对UNET进行训练,并且可以应用于样本和交叉样本的断点增强。使用UNET的RDBKE可以显着地增加SVS的数目,在模拟数据和真实数据上都有更精确的断点。
辅助信息
数据源的相关VCF和BAM文件的模拟和实际数据。-医学论文发表
显影1/9: Pcbi.1009186.s001.pdf
跳到无花果分享通航
S
1
无花果分享
S1表数据源的相关VCF和BAM文件的模拟和实际数据。
(A)VCF文件的数据源。(B)BAM档案的数据源。
Https://doi.org/10.1371/journal.pcbi.1009186.s001
(PDF)
S2表详细介绍了UNET和CNN的网络结构。
(A)联合国技术网络结构。(B)CNN网络结构。
Https://doi.org/10.1371/journal.pcbi.1009186.s002
(PDF)
中3桌。对模拟数据进行5倍交叉验证的重复运行结果。
Https://doi.org/10.1371/journal.pcbi.1009186.s003
(Xlsx)
中4桌对实际数据进行抽样评价的断点到-GS距离的均值和标准推导。
Https://doi.org/10.1371/journal.pcbi.1009186.s004
(Xlsx)
中5桌。对实际数据进行交叉样本评价的断点到-GS距离的均值和标准推导。
Https://doi.org/10.1371/journal.pcbi.1009186.s005
(Xlsx)
图S1.NA 12878、NA 19238、NA 19239和HG 002 WGS数据样品中断点变化矩阵.
对于NA 12878 WGS数据,(A)、(C)、(E)和(G)分别是使用UNET对NA 12878、NA 19238、NA 19239和HG 002进行增强的结果。(B)、(D)、(F)和(H)分别是使用CNN对NA 12878、NA 19238、NA 19239和HG 002进行增强的结果。
Https://doi.org/10.1371/journal.pcbi.1009186.s006
(Docx)
图S2.NA 19238,NA 19239 WGS数据交叉样本增强的断点变化矩阵.
对于NA 19238 WGS数据,(A)和(B)分别是使用UNET和CNN增强的结果。对于NA 19239 WGS数据,(C)和(D)分别是使用UNET和CNN增强的结果。
Https://doi.org/10.1371/journal.pcbi.1009186.s007
(Docx)
图S3.COLO829肿瘤WGS数据的UNT增强断点变化矩阵
Https://doi.org/10.1371/journal.pcbi.1009186.s008
(Docx)
图4。对模拟数据中具体案例的分割结果。
虚线表示金本位断点的位置.红色坐标是SV-重叠坐标。(A)联合国教育中心积极加强的案例。(B)小规模SVS完全在甄别窗口内的情况。(C)联合国教育技术的负面分类实例。
Https://doi.org/10.1371/journal.pcbi.1009186.s009
(Docx)
致谢
这些超级计算资源是由东京大学医学科学研究所人类基因组中心提供的。
参考文献
00001. 1.书名/作者Rausch T,Jones DT,Zapatka M,Stütz AM,Zichner T,Weischenfeldt J,等。儿童髓母细胞瘤基因组测序将灾难性DNA重排与TP 53突变联系在一起。细胞。2012年;148(1):59-71。PMID:22265402-医学论文发表
· 查看文章
· PubMed/NCBI
· 谷歌学者
00002. 2.Falchi M,Moustafa JSES,Takousis P,Pesce F,Bonnefond A,Andersson-Assarsson JC,等。唾液淀粉酶基因拷贝数低会导致肥胖。自然遗传学。2014年;46(5):492。PMID:24686848
· 查看文章
· PubMed/NCBI
· 谷歌学者
00003. 3.Hooli B,Kovacs-Vajna ZM,Mullin K,Blumenthal M,Mattheisen M,Zhang C,等。早发家族性阿尔茨海默病的罕见常染色体拷贝数变异。分子精神病学。2014年;19(6):676。PMID:23752245
· 查看文章
· PubMed/NCBI
· 谷歌学者
00004. 4.Alaei-Mahabadi B,Bhadury J,Karlsson JW,Nilsson JA,Larsson E.体细胞结构基因组变化及其对基因表达的影响。美国国家科学院会议记录。2016年;113(48):13768-13773。PMID:27856756
· 查看文章
· PubMed/NCBI
· 谷歌学者
00005. 5.赵M,王Q,王Q,贾P,赵Z.利用下一代测序数据进行拷贝数变异(CNV)检测的计算工具:特征和前景.BMC生物信息学2013年;14(11):1-16。
· 查看文章
· 谷歌学者
00006. 6.Abyzov A,UrbanAE,Snyder M,Gerstein M.CNVnator:一种从家族和群体基因组测序中发现、基因型和表征典型和非典型CNV的方法。基因组研究。2011年;P.GR-114876。
· 查看文章
· 谷歌学者
00007. 7.Rausch T,Zichner T,Schlattl A,Stütz AM,Benes V,Korbel JO。DELLY:通过组合成对和分读分析发现结构变体.生物信息学。2012年;28(18):i 333-i 339。PMID:22962449
· 查看文章
· PubMed/NCBI
· 谷歌学者
00008. 8.孙R,爱MI,Zemojtel T,Emde AK,钟HR,Vingron M,等。中断指针:使用本地映射工件来支持从单端读取中发现序列断点。生物信息学。2012年;28(7):1024-1025。PMID:22302574
· 查看文章
· PubMed/NCBI
· 谷歌学者
00009. 9.Iqbal Z,Caccamo M,Turner I,Flicek P,McVean G.自然遗传学。2012年;44(2):226。PMID:22231483
· 查看文章
· PubMed/NCBI
· 谷歌学者
00010. 10.Kosugi S,Momozawa Y,Liu X,Terao C,Kubo M,Kamatani Y.全基因组测序结构变异检测算法的综合评价基因组生物学。2019年;20(1):117。PMID:31159850
· 查看文章
· PubMed/NCBI
· 谷歌学者
00011. 11.题名/责任者:by A.短读通用结构变型调用软件的综合评价与特点。自然通讯。2019;10(1):1-11.PMID:31324872
· 查看文章
· PubMed/NCBI
· 谷歌学者
00012. 12.府绸R,常PC,亚历山大D,施瓦茨S,Colthurst T,Ku A,等。一种通用的SNP和使用深层神经网络的小独立变量调用者。自然生物技术。2018年;36(10):983。PMID:30247488
· 查看文章
· PubMed/NCBI
· 谷歌学者
00013. 13.Ronneberger O,Fischer P,Brox T.U-net:生物医学图像分割的卷积网络。国际医学图像计算和计算机辅助干预会议。斯普林格;2015年。第234至241页。
00014. 14.Falk T,Mai D,Bensch R,zi ek,Abdulkadir A,Marrakchi Y,等。U-网:深入学习细胞计数、检测和形态计量学.自然方法。2019年;16(1):67。PMID:30559429
· 查看文章
· PubMed/NCBI
· 谷歌学者
00015. 15.骰子LR。物种间生态关联量的测定。生态学。1945年;第26(3)条:297-302。
· 查看文章
· 谷歌学者
00016. 16.金马DP,Ba J.Adam:随机优化的一种方法。阿西夫预印阿西夫:14126980。2014年;
00017. 17.黄W,李L,小迈尔斯,马赛特。ART:下一代测序阅读模拟器。生物信息学。2012年;28(4):593-594。PMID:22199392-医学论文发表
· 查看文章
· PubMed/NCBI
· 谷歌学者
00018. 18.Le村Yann和Bottou Léon,Bengio Yoshua和Haffner Patrick。梯度学习在IEEE文档识别过程中的应用。1998年;86(11):2278-2324。
· 查看文章
· 谷歌学者
00019. 19.层RM,蒋C,昆兰AR,大厅IM。块体:结构变体发现的概率框架。基因组生物学。2014年;15(6):R84。PMID:24970577
· 查看文章
· PubMed/NCBI
· 谷歌学者
00020. 20.Eulerr:面积比例Euler和Venn图与椭圆;2020年。可从以下网址获得:Https://cran.r-project.org/package=eulerr.
00021. 21.Besselink NJ,de Bruijn E,Cameron DL,Ebler J,Kutzera J,等.用于体细胞结构变异检测的多平台参考文献。生物Rxiv.2020年;
· 查看文章
· 谷歌学者
00022. 22.题名/责任者:by L.通过集成多种检测方法和局部组装,利用SVMerge增强结构变异和断点检测。基因组生物学。2010年;11(12):R 128。PMID:21194472
· 查看文章
· PubMed/NCBI
· 谷歌学者
00023. 23.Parikh H,Mohiyuddin M,Lam HY,Iyer H,Chen D,Pratt M,等。分类:一种建立基准结构变体调用的方法。BMC基因组学2016年;17(1):64。PMID:26772178
· 查看文章
· PubMed/NCBI
· 谷歌学者
00024. 24.题名/责任者:by L.人类基因组单倍型结构变异的多平台发现。自然通讯。2019;10(1):1-16.PMID:30992455
· 查看文章
· PubMed/NCBI
· 谷歌学者
00025. 25.Pedersen BS,Quinlan AR.Duphold:可伸缩的,基于深度的注解和高度置信度结构变体调用的策划.巨人科学。2019;8(4):giz 040。PMID:31222198
· 查看文章
· PubMed/NCBI-医学论文发表