长读长测序可识别结直肠癌的新结构变异
徐路明 ,王星月,卢晓欢 ,范亮 ,刘志波,张红艳,李晓琼,田少波,王琳 ,王铮
发布时间:22 年 2023 月
抽象
结构变异(SV)是癌症基因组改变的关键类型,有助于许多癌症的肿瘤发生和进展,包括结直肠癌(CRC)。然而,由于常用的短读长测序的SV检测能力有限,CRC中的SV仍然难以可靠地检测。本研究采用纳米孔全基因组长读长测序法对21对CRC样品的体细胞SVs。鉴定出5200例结直肠癌患者(21例/例)的494例新型体细胞SV。鉴定出沉默APC表达的4.9 Mbp长反转(由RNA-seq证实)和结构改变CFTR的11.2 kbp反转。检测到两种可能在功能上影响癌基因RNF38和肿瘤抑制因子SMAD3的新型基因融合。RNF38融合具有体外迁移和侵袭试验和体内转移实验证实的转移促进能力。这项工作突出了长读长测序在癌症基因组分析中的各种应用,并为体细胞SVs如何结构改变CRC中的关键基因提供了新的线索。通过纳米孔测序对体细胞SVs的研究揭示了这种基因组方法在促进CRC的精确诊断和个性化治疗方面的潜力。
作者摘要
结构变异有助于结直肠癌的肿瘤发生和进展,但它们仍然难以可靠地检测到。为了全面了解CRC中体细胞SVs的情况,我们对CRC肿瘤样品及其匹配的癌旁组织进行了长读长纳米孔测序。我们的结果表明,长读长测序精确可靠地检测每个样品494个体细胞SV,这明显超过先前报道的基于短读长测序的研究。我们发现大规模倒置(>10 kbp)通常难以通过短读长测序检测到,并改变关键肿瘤抑制基因(包括APC和CFTR)的表达或结构。还鉴定出一种新的基因融合RNF38-RAD51B,我们发现它在功能上可以增强结直肠癌细胞的迁移,侵袭和转移能力。虽然倒置和基因融合的分子机制和临床相关性还有待进一步研究,但我们的工作呈现了相对完整的CRCSV景观,并为CRC的个体化医疗提供了遗传基础。
引文: 徐林, 王 X, 卢 X, 梁 F, 刘 Z, 张 H, 等. (2023) 长读长测序可识别结直肠癌中的新型结构变异。公共科学图书馆基因19(2): e1010514. https://doi.org/10.1371/journal.pgen.1010514
编辑 器: 理查达·德·沃尔,拉德布杜姆克,荷兰
收到: 12月 2021, 8;接受: 2022月 22, 2023;发表: <>月 <>, <>
版权所有: ? 2023 徐等这是一篇根据知识共享署名许可条款分发的开放获取文章,该许可允许在任何媒体上不受限制地使用、分发和复制,前提是注明原作者和来源。
数据可用性: 序列数据存放在中国生物信息中心(CNCB)的基因组序列档案(GSA),入藏号为HRA002638,可公开访问(https://ngdc.cncb.ac.cn/gsa-human/browse/HRA002638)。
资金: 这项工作得到了国家自然科学基金(81773104,81773263 LW和81873931,81974382 ZW),教育部装备预研联合基金(6141A02022626至LW),湖北省重大科技创新项目(2018ACA136至ZW),华中科技大学同济医学院人类重大疾病项目综合创新团队(至ZW), 同济医学院学术博士支持计划、华中科技大学(至浙江省)、湖北省卫健委科研项目(WJ2019M155至ZW)。资助者在研究设计、数据收集和分析、发表决定或手稿准备方面没有任何作用。
竞争利益: 提交人声明他们没有竞争利益。
介绍
结直肠癌(CRC)是第三大常见恶性肿瘤,1年全球新增病例超过8万例,死亡0万例[86]。CRC的发展和进展主要归因于遗传改变,例如结构变异(SVs),单核苷酸变异(SNV)和表观遗传变化。在这些基因改变中,通过基因扩增或缺失、基因结构破坏和基因融合影响基因表达和功能的SV在CRC中很普遍[2018,1],一些研究已通过CNV阵列和短读长测序进行了检查[2-3]。这些研究发现癌基因(包括KRAS和MYC)的拷贝数改变、肿瘤抑制因子(如FHIT、PTEN、SMAD4和SMAD7)的缺失以及复发性的R-spondin融合[2,4]。然而,CNV阵列无法确定大多数SV的精确位置,短读长测序在检测长、复杂或重复区域定位的SV方面效率低下[8-9]。因此,对CRC中SV进行精确和详细的检测仍然是一个挑战[10,12]。
长读长测序技术可以产生长连续读段(长度超过数十个千碱基对(kbp)),在SVs检测中具有更高的可靠性和灵敏度[15]。太平洋生物科学(称为单分子读取时间(SMRT)测序或PacBio测序)和牛津纳米孔技术(ONT或纳米孔测序)是长读长测序的两种主要策略[16]。与短读长测序不同,PacBio和纳米孔测序直接从天然DNA生成读数(无需超声/酶片段化和PCR扩增),避免了检测具有重复含量或非典型GC含量的基因组区域中变异的困难[17]。一些研究强调了长读长测序在研究人类疾病方面的优势。例如,使用纳米孔测序鉴定出SAMD12中可能导致家族性皮质肌阵挛性震颤伴癫痫的五核苷酸重复扩增[18]。这种类型的重复区域驻留SV很难通过短读长测序仪进行分析[18]。除此之外,长读长测序还发现了白质脑病相关的GGC重复扩增,X连锁肌张力障碍-帕金森综合征相关的SINE-VNTR-Alu反转录转座子插入[19],这些变异以前被短读长测序遗漏。此外,长读长测序实现了SARS-CoV-2等病原体的快速低成本基因组测序[20]。
除了遗传性疾病,长读长测序也有助于癌症基因组的研究。使用纳米孔测序,在乳腺癌细胞系(SK-BR-2)中使用纳米孔测序发现了由三个独立染色体区域组成的复杂KLHDC1-SNTB10融合(大于3kbp)[11]。在肺腺癌中,通过最新的纳米孔PromethION测序仪鉴定了一类由几个中小型SV组成的新型复杂SV[21]。鉴于长读长测序、影响关键癌基因或肿瘤抑制基因结构和表达的新型大规模和/或复杂SVs的优势,可以有效地检测可能引起基因组不稳定(如转座元件)或有助于肿瘤进展的重复区SV,以及促进肿瘤的基因融合,这将为更全面地了解CRC的基因组畸变提供更全面的了解,并进一步深入研究它们 生物学功能。
在这里,使用长读长全基因组测序分析来自 21 名患者的 CRC 肿瘤,我们 (1) 精确可靠地检测了癌症基因组中的体细胞 SV,(2) 显示了具有代表性的大规模反转,改变了 CRC 中关键肿瘤抑制基因(如 APC 和 CFTR)的表达或结构;(3)发现了一种新的基因融合RNF38-RAD51B,可以增加CRC细胞的迁移、侵袭和转移能力。
材料和方法
道德声明
这项研究是根据赫尔辛基人类受试者学说进行的,并得到了华中科技大学审查委员会和伦理委员会的批准(IORG编号IORG0003571,2020-S197),获得了所有患者的书面同意。
样品采集和牛津纳米孔测序
从武汉协和医院手术切除的结直肠患者肿瘤组织和邻近肠组织(距肿瘤组织>21 cm)中获取6对肿瘤标本和匹配的癌旁标本,并储存在-80°C。 所有样品均采用长读长纳米孔测序、短读长全外显子组测序和RNA测序进行分析和测序。通过十二烷基硫酸钠法提取每个样品的基因组DNA。DNA由Covaris g-tude共享到>20kb。然后,使用连接测序试剂盒1D(SQK-LSK109)根据制造商的说明构建基因组DNA文库。将制备好的文库加载到R9.4(1D)流通池中,然后在PromethION测序仪(英国ONT)上测序。然后使用Guppy(版本:2.0.8)对fast5文件执行基调用以生成FASTQ格式文件。
对齐和 SV 调用
ONT测序的所有读数都与人类参考基因组对齐,只有主要染色体1-22和来自NCBI(ftp://ftp-trace.ncbi.nih.gov/1000 基因组/ftp/technical/reference/human_g1k_v37.fasta.gz)的X,Y使用NGMLR(v0.2.7)和默认参数。Samtools(v1.9)用于通过分析BAM文件来计算对齐比率和映射身份。结构变化使用Sniffles v1.0.8调用,最小读数支持数字2,最小SV大小为50bp。为了在肿瘤和正常样品中获得高质量的SV,仅保留了至少0.3倍平均测序深度支持的SV。
体细胞SV(存在于肿瘤中但不存在于正常样本SV调用中)是通过比较超过过滤阈值的高质量肿瘤样本SV与仅由两个或多个读数支持的正常样本SV获得的。该策略旨在提高正常样本SV的召回率,以提高体细胞SV的可靠性。 使用svmerge(https://github.com/GrandOmics/svmerge)合并肿瘤和匹配的正常样本SV,所有类型SV的最大距离为1000bp,缺失、倒置和重复的倒数重叠率为40%,SV长度差异小于20%。我们使用svhawkeyes(https://github.com/yywan0913/SVhawkeye)手动管理未过滤的体细胞SV。每个未过滤的体细胞SV的读取比对图像由svhawkeyes从比对文件中生成并手动检查。在癌症和配对正常样本中出现的体细胞SV被鉴定为假阳性。最后,将所有体细胞SV合并到一个集成的调用集中。使用annovar(19-19-2016)在segdup(UCSC黄金路径hg05),rmsk(UCSC黄金路径hg15),DGV(1000-3-2),1基因组计划(第1阶段),gnomAD(70.2017.07)和COSMIC数据库(v17)中注释了具有上下游基因的SV。插入部分使用TRF(4.09)和RepeatMasker(4.1)进一步注释为串联重复或已知的重复类。
全外显子组测序和变异调用
将每个肿瘤和正常样品的剪切基因组DNA用于文库制备。使用XGen Exome Research Panel v1.0 51Mb试剂盒捕获外显子组DNA,并使用Illumina NovaSeq平台以150 bp配对末端测序模式进行测序。每个样品的测序深度在200X以上。Bam文件是使用sentieon DNA管道(sentieon-genomics-201808.01)生成的,包括按照博德研究所的最佳实践进行比对,删除重复,排序和局部重新比对。通过使用来自共重整肿瘤和正常BAM文件的Sentieon TNscope在目标间隔内使用dbSNP 138检测体细胞突变和插入缺失。所有体细胞突变和插入缺失均在dbSNP 147,clinvar(2017-05-01),ExAC(2016-04-23),1000基因组计划(第3阶段),gnomAD (2.1.1),InterVar(2017-02-02)和COSMIC数据库(v70)中使用ANNOVAR (2017-07-17)进行了注释。
转录组测序和基因表达水平定量
根据制造商的说明,使用适用于Illumina(美国NEB)的NEBNext Ultra RNA文库制备试剂盒生成测序文库。AMPure XP系统(贝克曼库尔特,贝弗利,美国)用于纯化文库片段,并使用3μl用户酶(NEB,美国)进行尺寸选择(250~300 bp)。文库制备在具有150 bp配对端模型的Illumina Hiseq平台上进行测序,并且为每个样品生成至少6 G的干净数据。使用Hisat2(v2.0.5)将配对末端读段与参考基因组对齐。读取计数是使用 FeatureCounts (v1.5.0-p3) 计算的。使用edgeR R包(v 3.18.1)进行差异表达分析,显著性定义为调整后的P值<0.05和倍数变化>2。
新型基因融合鉴定
融合基因通常由染色体易位、倒置和缺失等原因引起。选取分别含有同一SV两个断点的两个基因作为候选融合基因。star-fusion(1.2.0)用于检测Illumina RNA测序数据中的融合基因,注释;examine_coding_effect;FusionInspector检查;denovo_reconstruct;min_junction_reads 1;—min_sum_frags 2。由结构变异预测并在RNAseq数据中表达的融合基因进一步用于纳米孔全基因组测序和Illumina RNA测序比对的手动管理。引物设计为跨越融合连接,并通过PCR和Sanger测序进行验证。
引物序列。
缩略图 下载:
.PPT幻灯片
.PNG大图
.TIFF原始图像
细胞系
HEK293T(人胚胎肾细胞系)、LoVo(人结肠腺癌细胞系)和HCT116(人直肠腺癌细胞系)细胞购自美国类型培养库(美国马里兰州罗克维尔),并在Dulbecco的改良鹰培养基(Hyclone,犹他州洛根,美国)中维持,补充10%胎牛血清(美国加利福尼亚州卡尔斯巴德市Sciencell),温度为37°C,共5% CO2在细胞培养箱中。
RNF38-RAD51B过表达细胞系的建立
从HCT38细胞的cDNA文库中扩增RNF51和RAD116b的cDNA,然后克隆到pLenti-puro慢病毒报告质粒中以形成RNF38-RAD51b过表达载体。通过PCR和Sanger测序确认过表达载体(引物对的序列如下所列)。然后,根据制造商的说明,通过将HEK293T细胞与pLenti-puro-RNF38-RAD51b、psPAX2包装和pMD2.G包膜质粒共转染获得慢病毒载体。HCT116和LoVo细胞被过滤的慢病毒(pLenti-puro-载体或pLenti-puro-RNF38-RAD51b)用聚溴乙烯(8 μg/mL)感染,然后用嘌呤霉素(1 μg/mL)选择1周。使用蛋白质印迹法测定RNF38-RAD51B融合基因的表达水平。
跨孔迁移和侵袭测定
使用38.51 μm孔径的Transwell插入物评估RNF116-RAD8B过表达HCT0和LoVo细胞的迁移和侵袭测定。对于迁移测定,将细胞接种到插入物上并培养15(LoVo细胞)或30(HCT116细胞)小时。对于迁移测定,将细胞接种到基质胶包被的插入物(侵袭测定)中并培养36(LoVo细胞)或48(HCT116细胞)小时,然后将插入物底部的细胞固定并用结晶紫染色,并通过显微镜计数。每个实验重复三次。
动物研究
从北京HFK生物科技有限公司购买的1周龄雄性BALB / c裸鼠用于动物研究。10× <>6将过表达HCT38细胞的RNF51-RAD116B通过脾静脉(每组<>只小鼠)注射到裸鼠的肝脏中。六周后,通过过度麻醉对小鼠实施安乐死并收集肝脏。然后,切片肝组织,用苏木精和伊红(H&E)染色,并通过显微镜量化转移病变的数量进行评估。
结果
结直肠癌样品的纳米孔测序
我们使用PromethION(牛津纳米孔技术)纳米孔测序仪从21名CRC患者(S1表)生成了全基因组长读长序列数据。所有患者均处于II期(n = 13)或III期(n = 8),其中51例为高水平微卫星不稳定性(MSI-H)。所有样品还通过短读长全外显子组测序(WES)和RNA-seq进行分析,分别获得SNV和基因转录数据。我们获得了每个样本超过17亿个碱基(深度>50X)长读长数据,平均读数N30为211,19 bp(范围从238,45 bp到166,94 bp;10%的读数为≥1 kbp)(图1A和2B以及S3和S50表)。获得的最大读取长度和N897长度分别为996,42 bp和969,21 bp,与先前报道的PromethION数据一致[11],但比MinION平台生成的长度长[15,22]。使用NGMLR[96],3.1%的读数被映射到参考基因组(人类G37Kv87),平均映射强度为4.1%(图<>C)。
缩略图 下载:
.PPT幻灯片
.PNG大图
.TIFF原始图像
图1. 长读长测序数据的摘要。
(A)通过纳米孔测序仪从50对肿瘤/正常样品中获得的长读长数据的测序深度(左)和读取N21(右)。(B)肿瘤/正常样本的总碱基(Y轴)与读取长度(X轴)的累积分布。标记读取10 Kbp +和50 Kbp +中的碱基数量。(C)长读长测序的映射率和身份。
https://doi.org/10.1371/journal.pgen.1010514.g001
长读长测序鉴定出结直肠癌中广泛的体细胞 SV
我们使用Sniffles[22]进行SV呼叫,并在所有样本中鉴定出817,857个SV(每个样本19466个SV)(S1图),与之前的研究基本一致[22,23]。这些SV用于绘制体细胞SV,产生14508个未过滤的体细胞SV。人工整理后(参见方法),我们每个肿瘤样本获得494个体细胞SV(总共5,200个非冗余体细胞SVs),明显多于先前CRC的短读长数据[24,25],这可能是由于长读长测序在检测SV方面的灵敏度更高[11,26]。98%的SV的长度小于10,000 bp,大多数SV的相互距离(~80%)在105~ 107bp(S2图)。这些体细胞SV的成分是661个(12.7%)缺失,4,383个(84.3%)插入,61个(1.2%)重复,56个(1.1%)倒置和39个(0.8%)易位(图2A,上,2B,左;和S3)。这些插入和缺失的序列和位点的分类表明,由于短串联重复(STR)区域的异常扩张,大多数插入(95%)发生在MSI-H样品中(图2C和S4)。排除STR区插入后,分别为54.72%、32.37%、5.05%和3.32%的体细胞SV缺失、插入、重复和易位(图2A,下,2B,右;和S3)。MSI-H样本的反转次数显著低于MSS样本,而其他类型的SV在不同状态和不同阶段的数量相似(S5图)。一些高频位点与参与结直肠癌发生和发育的基因相关,包括选择性剪接因子RBFOX1、肿瘤抑制基因FHIT以及LGR6、CTGF和RAB11A等多个癌基因(图2A)。同时,在至少两个样本中检测到62.1%的体细胞SV(图2D)。复发性插入主要位于STR区域(S6图)。此外,重复、倒置和易位不太可能是复发事件,因为这些SV中有90%以上是单例(S7图)。
缩略图 下载:
.PPT幻灯片
.PNG大图
.TIFF原始图像
图2. 通过长读长测序检测CRC中的体细胞SV。
(A) 染色体表意图显示通过长读长测序鉴定的 21 对 CRC 样本中的体细胞缺失 (DEL) 和插入 (INS)。(B)饼图显示从长读长测序数据中鉴定出的不同类别SV的百分比,包括或排除STR区域中的插入。(C)MSI-H或MSS样本中体细胞插入的定量(p<0.0001,学生t检验)。(D)在多个样本中检测到的体细胞SV的数量,包括(左)或不包括在STR区域的插入(右)。X轴上的“复发”是指检测到SV的样本数。
https://doi.org/10.1371/journal.pgen.1010514.g002
体细胞SV的表征揭示了CRC中扩展的LINE和正弦插入
我们使用RepeatMasker(http://www.repeatmasker.org)通过变异序列的重复内容对鉴定的SV进行分类,以探索体细胞SV的基因组背景。 大约,一半的缺失位于串联重复区域或移动元素(例如,LINE,SINE和长末端重复(LTR))(图3A)。排除STR区域后,约70%的插入是移动元件的插入(图3B和3C和S8),其中一半是LINE插入,表明CRC中LINE-1反转录转座子的异常激活,与之前的报道一致[27,28]。
thumbnail 下载:
.PPT幻灯片
.PNG大图
.TIFF原始图像
图3. 体细胞缺失/插入的序列分析。
(A和B)使用RepeatMasker进行序列分析获得的每个样品中体细胞缺失(A)和插入(B)的基因组背景。赛格杜普,段重复;卫星,卫星重复;Low_complexity,低复杂度重复。(C) 删除和插入的组成部分和比例,包括或不包括在可疑交易报告中的插入。
https://doi.org/10.1371/journal.pgen.1010514.g003
大规模倒置导致肿瘤抑制因子功能障碍
除了小SVs外,还通过纳米孔测序检测到通过破坏基因结构使其沉默而影响肿瘤抑制因子的大规模(>10 kbp)体细胞SV。在样本C546-T中,发现了从chr4:9,5,107到chr157:237,5,112的高置信度073.107 Mbp反演,覆盖了APC的外显子1(图4A)。我们使用Sanger测序分析了针对跨越每个断点的序列扩增的PCR产物,以详细说明两个断点的结构(S9A图)。在断点8(BP1)处发现了1 bp缺失,这导致了微同源性,并可能因此通过微同调介导的端部连接引起反转的形成(S10A图)。RNA-seq结果显示,与配对的正常样品(C0-N,FPKM:296.546)相比,mRNA水平的APC表达急剧下降(FPKM:2.262)。使用基于短读长的WES报告APC中没有变异,这可能是因为APC的倒外显子1的基本序列没有变化。
thumbnail 下载:
.PPT幻灯片
.PNG大图
.TIFF原始图像
图4. 通过纳米孔测序检测大规模反转和基因融合。
(公元至日)跨越APC (A)外显子4的915,1 kbp反转,CFTR(B)中的11.2 kbp反转,RNF38-RAD51B基因融合(C)和SMAD3-SHISA6基因融合(D)的读取和结构。对于读取对齐,跨断点的读取以颜色突出显示。对于每个反转,顶部面板指示发生反转的位点,并读取与断点对齐(由功能区可视化)。正向和反向拆分读数分别用蓝色和红色标记。中间面板显示断点周围的读数对齐(由综合基因组学查看器可视化)。底部面板显示了 SV 的详细结构(由功能区可视化)。对于每个基因融合,顶部,中间和底部面板分别显示易位点,读段比对和分裂读段。
https://doi.org/10.1371/journal.pgen.1010514.g004
此外,我们发现了从chr11:2,7,117到chr191:185,7,117的202.321 kbp体细胞反转,涉及样品C11-T中CFTR的外显子564(图4B)。值得注意的是,四个长读取跨越了反演的两个断点(图4B),并涵盖了这种相对长反演的完整结构。两个断点的Sanger测序揭示了两个断点附近的小插入,缺失和重复,表明这种反转可能是由微同源介导的断裂诱导复制产生的(S9B和S10B图)。
通过长读长测序鉴定的新型基因融合
事实证明,长读长测序在检测基因融合方面非常有帮助[29]。例如,我们发现了两种可能导致基因融合的新重排,RNF38-RAD51B和SMAD3-SHISA6。对于RNF38-RAD51B,RNF3的内含子38的上游连接到RAD8B的内含子51的下游(图4C)。这种基因融合也被RNAseq检测到,并通过包含断点连接的PCR产物(S9C和S11A图)证实。这种融合的形成可能会改变RNF38的功能,据报道RNF30促进癌细胞迁移和侵袭,抑制癌细胞凋亡和上皮-间充质转化[32-3]。对于SMAD6-SHISA4(图7D),PCR验证了SMAD3的内含子3的下游连接到SHISA6的内含子7的上游,而SMAD3的内含子7的上游反向连接到SHISA6的内含子9的下游(S11D和S3B)。 图)。然而,RNAseq没有检测到这种基因融合,可能是因为它的低表达。鉴于TGF-β通路的主要转录因子SMAD33作为肿瘤抑制因子,其功能破坏与CRC进展和转移呈正相关[3],这种融合可能导致SMAD<>功能障碍,从而抑制TGF-β通路的功能。
RNF38-RAD51B 促进 CRC 细胞迁移、侵袭和转移。
为了研究RNF38-RAD51B融合的致癌作用,我们克隆了融合基因并建立了RNF38-RAD51B过表达LoVo(人结肠腺癌细胞系)和HCT116(人直肠腺癌细胞系)细胞(S12图)。RNF38-RAD51B的过表达在跨孔测定中显着促进了细胞在体外的迁移和侵袭(图5A-5D)。接下来,我们通过静脉注射过表达HCT38细胞的RNF51-RAD38B到裸鼠中来检查RNF51-RAD116B融合的体内致癌作用。观察到肿瘤细胞转移到肝脏(图5E和5F);转移位点的数量比对照组高两倍(注射空载体表达细胞)。这些结果表明,RNF38-RAD51B融合增强了CRC细胞的迁移,侵袭和转移能力。
thumbnail 下载:
.PPT幻灯片
.PNG大图
.TIFF原始图像
图5. RNF38-RAD51B促进细胞迁移、侵袭和CRC转移。
(一、二)RNF38-RAD51B过表达CRC细胞的跨孔迁移测定的代表性图像(A)和统计结果(B)(每组重复三次)。(中、丁)RNF38-RAD51B过表达CRC细胞的跨孔侵袭测定的代表性图像(C)和统计结果(D)(每组重复三次)。(东、女)静脉注射过表达HCT38细胞(每组51只小鼠)的异种移植小鼠肝脏中转移性肿瘤的代表性H&E染色图像(E)和计数(F)。P < 116.0 具有统计学意义(学生 t 检验)。
https://doi.org/10.1371/journal.pgen.1010514.g005
讨论
结构变异被认为是改变癌基因或肿瘤抑制因子表达和功能的致癌组织者[5]。然而,由于短读长导致比对不明确,常用的短读长测序策略在断点阶段以及复杂或长SVs检测和重建方面无效[34]然而,人类基因组中大量隐藏的结构变异需要进一步鉴定[15,35]。在这项研究中,我们在21对CRC样品中应用了纳米孔长读长测序,在每个样品中检测到的体细胞SV数量约为使用短读长测序的两倍[24,25],其中许多与已知的癌基因和肿瘤抑制因子有关。我们进一步研究了CRC中SV的类型和成分,并确定了与CRC相关基因相关的多个SV热点。这是第一项采用长读长测序来研究人类CRC样本中的SV的研究。
大多数临床使用的结直肠癌精准治疗方法,如FDA批准的MSK-IMPACT(纪念斯隆凯特琳癌症中心)和FoundationOne CDx(Foundation Medicine,Inc)检测,使用短读长捕获测序或扩增子测序来检测癌症相关和/或药物靶向突变作为治疗指标[36,37].然而,如果患者的治疗指标是SV,则患者可能无法从短读长捕获测序或扩增子测序中受益[38],因为SV(尤其是大规模SVs)可能跨越一个或多个外显子而其序列没有任何变化,如果使用捕获测序或扩增子测序,这些外显子跨越SV很可能会被遗漏。例如,APC和CFTR中的反转明显改变了两个基因的结构(包括编码区),但未被WES检测到。因此,检测这种SVs对于癌症精准治疗很有价值。与短读长捕获序列相比,长读长序列在捕获大型复杂SV和重复区域中的SV方面具有优势,因为长读取(>5 kbp)可以轻松跨越重复序列或SV断点,并且精确对齐[22]。在目前的研究中,CFTR中跨越11.2 kbp反转的读数表明,增强的读取长度能够完全捕获SV,显着提高癌症SVs检测效果,为癌症精准治疗提供了强大的工具。
由基因组重排产生的基因融合是肿瘤基因组景观的重要组成部分,参与约16%的所有癌症类型(包括CRC)的发展[39]。虽然基于短读长的全基因组测序(WGS)和RNA-seq是鉴定融合基因的两种主要方法,但WGS受到上述缺点的限制,并且RNA-seq在检测以相当低水平表达或被伴随的非癌细胞稀释的融合基因方面灵敏度较差[40]。相比之下,长读长测序的优势允许更有效地鉴定可能导致基因融合的新型遗传重排。事实上,我们的工作发现了一种新的基因融合RNF38-RAD51B,它可以增强CRC细胞的致癌功能。据报道,RNF38是癌症进展的重要驱动因素,可促进癌细胞的侵袭和转移[30,31]。RNF38-RAD51B基因融合可显著促进结直肠癌细胞的侵袭和转移能力,可增强RNF38的表达或功能。虽然这种基因融合的分子机制和临床相关性需要进一步研究,但我们的结果表明,纳米孔测序可能作为检测致癌基因融合的新策略。
然而,这项研究有一些局限性。首先,样本量(21对样本)有限,使得在CRC中难以找到低频体细胞SVs。其次,需要更高的测序深度来提高SV阶段的准确性,特别是对于小的插入和缺失。第三,需要功能研究来进一步揭示我们新发现的体细胞SVs的功能作用,即使它们根据它们对基因结构的影响(即,倒置改变肿瘤抑制因子APC和CFTR)可能促进CRC的发育和进展。
总之,我们的研究提供了一个示例,说明了长读长纳米孔测序在癌症基因组研究中的效用。我们的工作突出了长读长测序作为CRC精准诊断和治疗新平台的潜力,并描绘了CRC中长读长测序检测到的体细胞SVs的首次景观,这可以成为未来生物学和临床研究的有用资源。
支持信息
肿瘤和正常样品中SV的定量。
显示 1/16: pgen.1010514.s001.pdf
跳到无花果共享导航
图 S1.肿瘤和正常样品中SV的定量。X的-轴表示患者身份证(详细信息见表S1和S2).
1 / 16
下载
无花果分享
S1 图 肿瘤和正常样品中SV的定量。
X 轴表示患者 ID(详细信息参见 S1 和 S2 表)
https://doi.org/10.1371/journal.pgen.1010514.s001
(英文)
S2 图
(A)在MSS和MSI-H样品中检测到的体细胞SV的数量。(B)在不同阶段检测到的体细胞SV的数量。
https://doi.org/10.1371/journal.pgen.1010514.s002
(英文)
S3 图
(甲和乙)通过每个样品中的长读长测序检测到的体细胞 SV 的定量 (A) 和类型 (B) 的百分比。插入是MSIH样品中占主导地位的SV。(C 和 D)排除 STR 区域中的插入后,通过长读长测序在每个样品中检测到的体细胞 SV 的定量 (C) 和类型 (D) 的百分比。每个图中的 X 轴表示样本 ID。
https://doi.org/10.1371/journal.pgen.1010514.s003
(英文)
S4 图 定量位于MSI-H或MSS样品之间短串联重复(STR)区域的体细胞插入(p<0.0001,学生t检验)。
https://doi.org/10.1371/journal.pgen.1010514.s004
(英文)
S5 图
体细胞SV的长度(A)和距离(B)分布。
https://doi.org/10.1371/journal.pgen.1010514.s005
(英文)
S6 图
定量每个样品中的单例和复发体细胞SV,包括STR中的(A)或排除(B)插入。每个图中的 X 轴表示患者 ID。
https://doi.org/10.1371/journal.pgen.1010514.s006
(英文)
S7 图 体细胞插入(INS),缺失(DEL),重复(DUP),倒置(INV)和易位的百分比。
不同的颜色代表来自21名患者的测试肿瘤样本中的不同复发次数(图表左侧)。
https://doi.org/10.1371/journal.pgen.1010514.s007
(英文)
S8 图 定量每个肿瘤样本中LINE和SINE插入的数量。
X 轴表示示例 ID。
https://doi.org/10.1371/journal.pgen.1010514.s008
(英文)
S9 图 来自反转和基因融合断点(BP)的PCR验证的产品电泳图像。
(A)影响样本C4-T中APC的915,546 kbp反转。(B)影响样品C11-T中CFTR的2.564 kbp反转。(C)RNF38-RAD41B基因融合。(D)SMAD3-SHISA6基因融合。
https://doi.org/10.1371/journal.pgen.1010514.s009
(英文)
S10 图 Sanger测序结果证明了单碱基分辨率下的复杂断点结构。
(A)影响样本C4-T中APC的915,546 kbp反转。(B)影响样品C11-T中CFTR的2.564 kbp反转。
https://doi.org/10.1371/journal.pgen.1010514.s010
(英文)
S11 图
RNF38-RAD51B (A) 和 SMAD3-SHISA6 基因融合 (B) 断点的 Sanger 测序色谱图。
https://doi.org/10.1371/journal.pgen.1010514.s011
(英文)
S12 图 LoVo和HCT38细胞中过表达RNF51-RAD116B融合基因的蛋白质印迹结果。
融合基因被标记在Flag标签上。
https://doi.org/10.1371/journal.pgen.1010514.s012
(英文)
S1 表。 结直肠癌患者的临床特征。
https://doi.org/10.1371/journal.pgen.1010514.s013
(英文)
S2 表。 长读长测序的数据摘要。
https://doi.org/10.1371/journal.pgen.1010514.s014
(英文)
S3 表。 短读长全外显子组测序的数据摘要。
https://doi.org/10.1371/journal.pgen.1010514.s015
(英文)
S4 表。 本研究中图表或汇总统计量背后的数值数据。
https://doi.org/10.1371/journal.pgen.1010514.s016
(三十)
引用
1.Bray F,Ferlay J,Soerjomataram I,Siegel RL,Torre LA,Jemal A.2018年全球癌症统计:GLOBOCAN估计全球36个国家185种癌症的发病率和死亡率。加州癌症 J 克林。2018;68(6):394–424.Epub 2018/09/13.噗:30207593。
查看文章PubMed/NCBI谷歌学术搜索
2.米特尔曼 F, 约翰逊 B, 默滕斯 F.易位和基因融合对癌症因果关系的影响。纳特雷夫癌症。2007;7(4):233–45.Epub 2007/03/16.PMID:17361217。
查看文章PubMed/NCBI谷歌学术搜索
3.魏申费尔特 J, 西蒙斯 O, 斯皮茨 F, 科贝尔 JO.基因组结构变异的表型影响:来自人类疾病的见解。纳特·雷夫·热内。2013;14(2):125–38.Epub 2013/01/19.pmid:23329113。
查看文章PubMed/NCBI谷歌学术搜索
4.杨 R, 陈 B, 普富策 K, 布赫 S, 斯坦克 V, 霍林斯基-费德 E, 等.全基因组分析将家族性结直肠癌与拷贝数变异的增加和 12p12.3 处的罕见结构变异联系起来。发生。2014;35(2):315–23.Epub 2013/10/16.pmid:24127187。
查看文章PubMed/NCBI谷歌学术搜索
5.稻岐K, 刘婷婷.癌症的结构突变:机制和功能见解。趋势基因。2012;28(11):550–9.Epub 2012/08/21.PMID:22901976。
查看文章PubMed/NCBI谷歌学术搜索
6.李贾,卡瓦略CM,小卢普斯基一种DNA复制机制,用于产生与基因组疾病相关的非复发性重排。细胞。2007;131(7):1235–47.Epub 2007/12/28.普米德:18160035。
查看文章PubMed/NCBI谷歌学术搜索
7.张轶, 杨 L, 库切拉帕蒂 M, 陈 F, 哈吉帕纳伊斯 A, 潘塔齐 A, 等.通过体细胞基因组重排在 1,400 多个病例中解除管制的基因泛癌症纲要。细胞代表 2018;24(2):515–27.Epub 2018/07/12.pmid:29996110;PubMed Central PMCID:PMC6092947。
查看文章PubMed/NCBI谷歌学术搜索
8.癌症基因组图谱N.人类结肠癌和直肠癌的综合分子表征。自然界。2012;487(7407):330–7.Epub 2012/07/20.pmid:22810696;PubMed Central PMCID:PMC3401966。
查看文章PubMed/NCBI谷歌学术搜索
9.Seshagiri S, Stawiski EW, Durinck S, Modrusan Z, Storm EE, Conboy CB, et al. 结肠癌中复发性R-spondin融合。自然界。2012;488(7413):660–4.Epub 2012/08/17.pmid:22895193;PubMed Central PMCID:PMC3690621。
查看文章PubMed/NCBI谷歌学术搜索
10.Audano PA, Sulovari A, Graves-Lindsay TA, Cantsilieris S, Sorensen M, Welch AE, et al.表征人类基因组的主要结构变异等位基因。细胞。2019;176(3):663–75 e19.Epub 2019/01/22.PMID:30661756。
查看文章PubMed/NCBI谷歌学术搜索
11.Nattestad M, Goodwin S, Ng K, Baslan T, Sedlazeck FJ, Rescheneder P, et al.通过乳腺癌细胞系的长读长 DNA 和 RNA 测序揭示的复杂重排和癌基因扩增。基因组研究 2018;28(8):1126–35.Epub 2018/06/30.pmid:29954844;PubMed Central PMCID:PMC6071638。
查看文章PubMed/NCBI谷歌学术搜索
12.迪克森, 徐军, 迪利普 V, 詹莹, 宋福, 勒VT, 等.癌症基因组结构变异的综合检测和分析。纳特热内。2018;50(10):1388–98.Epub 2018/09/12.pmid:30202056。
查看文章PubMed/NCBI谷歌学术搜索
13.Helman E,Lawrence MS,Stewart C,Sougnez C,Getz G,Meyerson M.通过全基因组和外显子组测序揭示人类癌症中的体细胞逆转录转位。基因组研究 2014;24(7):1053–63.Epub 2014/05/16.pmid:24823667;PubMed Central PMCID:PMC4079962。
查看文章PubMed/NCBI谷歌学术搜索
14.图比奥·体细胞结构变异和癌症。简要功能基因组学。2015;14(5):339–51.Epub 2015/04/24.PMID:25903743。
查看文章PubMed/NCBI谷歌学术搜索
15.Jain M, Koren S, Miga KH, Quick J, Rand AC, Sasani TA, et al.纳米孔测序和具有超长读取的人类基因组组装。纳特生物技术公司。2018;36(4):338–45.Epub 2018/02/13.pmid:29431738;PubMed Central PMCID:PMC5889714。
查看文章PubMed/NCBI谷歌学术搜索
16.Logsdon GA, Vollger MR, Eichler EE.长读长人类基因组测序及其应用.纳特·雷夫·热内。2020;21(10):597–614.Epub 2020/06/05.pmid:32504078。
查看文章PubMed/NCBI谷歌学术搜索
17.王彦, 赵茹, 波拉斯 A, 王茹, 区钦哲峰.纳米孔测序技术、生物信息学和应用。纳特生物技术公司。2021;39(11):1348–65.Epub 20211108。pmid:34750572;PubMed Central PMCID:PMC8988251。
查看文章PubMed/NCBI谷歌学术搜索
18.曾淑, 张敏, 王晓军, 胡志明, 李建强, 李楠, 等.长读长测序从受家族性皮质肌阵挛性震颤伴癫痫影响的中国谱系中鉴定出SAMD12中的内含子重复扩增。J 医学热内。2019;56(4):265–70.Epub 2018/09/09.PMID:30194086。
查看文章PubMed/NCBI谷歌学术搜索
19.Aneichyk T, Hendriks WT, Yadav R, Shin D, Gao D, Vaine CA, et al.通过整合基因组和转录组组装来剖析X连锁肌张力障碍-帕金森综合征的因果机制。细胞。2018;172(5):897-909.e21.pmid:29474918;PubMed Central PMCID:PMC5831509。
查看文章PubMed/NCBI谷歌学术搜索
20.Bull RA, Adikari TN, Ferguson JM, Hammond JM, Stevanovski I, Beukers AG, et al.纳米孔测序对SARS-CoV-2快速基因组分析的分析有效性。纳特公社。2020;11(1):6272.pmid:33298935;Pubmed Central PMCID:PMC7726558。
查看文章PubMed/NCBI谷歌学术搜索
21.坂本Y, 徐L, 关M, 横山TT, 笠原M, 鹿岛Y, 等.长读长测序揭示了癌症中一类新的结构畸变:癌性局部扩增的鉴定和表征。生物Rxiv。2019:620047.
查看文章谷歌学术搜索
22.Sedlazeck FJ, Rescheneder P, Smolka M, Fang H, Nattestad M, von Haeseler A, et al.使用单分子测序准确检测复杂的结构变化。纳特方法。2018;15(6):461–8.Epub 2018/05/02.pmid:29713083;PubMed Central PMCID:PMC5990442。
查看文章PubMed/NCBI谷歌学术搜索
23.De Coster W, De Rijk P, De Roeck A, De Pooter T, D'Hert S, Strazisar M, et al.通过牛津纳米孔PromethION测序鉴定的人类基因组结构变异。基因组研究 2019;29(7):1178–87.Epub 2019/06/13.pmid:31186302;PubMed Central PMCID:PMC6633254。
查看文章PubMed/NCBI谷歌学术搜索
24.Alaei-Mahabadi B,Bhadury J,Karlsson JW,Nilsson JA,Larsson E.体细胞结构基因组改变及其对多种人类癌症基因表达的影响的全球分析。美国国家科学院院刊, 2016;113(48):13768–73.pmid:27856756;Pubmed Central PMCID:PMC5137778。
查看文章PubMed/NCBI谷歌学术搜索
25.Bass AJ, Lawrence MS, Brace LE, Ramos AH, Drier Y, Cibulskis K, et al.结直肠腺癌的基因组测序可识别复发性 VTI1A-TCF7L2 融合。纳特热内。2011;43(10):964–8.Epub 2011/09/06.pmid:21892161;PubMed Central PMCID:PMC3802528。
查看文章PubMed/NCBI谷歌学术搜索
26.石玲, 郭毅, 董春, 哈德尔斯顿, 杨华, 韩旭, 等.中国基因组的长读长测序和从头组装。纳特公社。2016;7:12065.Epub 2016/07/01.pmid:27356984;PubMed Central PMCID:PMC4931320。
查看文章PubMed/NCBI谷歌学术搜索
27.伯恩斯·癌症中的转座元件。纳特雷夫癌症。2017;17(7):415–24.PMID:28642606。
查看文章PubMed/NCBI谷歌学术搜索
28.Lee E, Iskow R, Yang L, Gokcumen O, Haseley P, Luquette LJ, 3rd, et al.人类癌症中体细胞逆转录转位的景观。科学。2012;337(6097):967–71.Epub 2012/06/30.pmid:22745252;PubMed Central PMCID:PMC3656569。
查看文章PubMed/NCBI谷歌学术搜索
29.Cretu Stancu M, van Roosmalen MJ, Renkens I, Nieboer MM, Middelkamp S, de Ligt J, et al.使用纳米孔测序绘制和分期患者基因组的结构变异。纳特公社。2017;8(1):1326.Epub 20171106。pmid:29109544;PubMed Central PMCID:PMC5673902。
查看文章PubMed/NCBI谷歌学术搜索
30.彭蕊, 张磊, 杨晓, 魏旭, 黄晓燕, 蔡建斌, 等.RNF38的过表达通过泛素化和降解肝细胞癌中的AHNAK促进TGF-β信号传导。临床研究杂志 2019;38(1):113.Epub 2019/03/07.pmid:30836988;PubMed Central PMCID:PMC6402116。
查看文章PubMed/NCBI谷歌学术搜索
31.熊丹, 朱思思, 吴玉波, 金春, 蒋建华, 廖永峰, 等.无名指蛋白38通过赋予细胞EMT表型促进非小细胞肺癌进展。J 癌症。2018;9(5):841–50.Epub 2018/03/28.pmid:29581762;PubMed Central PMCID:PMC5868148。
查看文章PubMed/NCBI谷歌学术搜索
32.黄志, 杨萍, 葛华, 杨春, 蔡茹, 陈志, 等. 无名指蛋白38介导LIM结构域结合1降解并调节结直肠癌细胞生长。Onco针对的是。2020;13:371–9.Epub 2020/02/06.pmid:32021282;PubMed Central PMCID:PMC6969705。
查看文章PubMed/NCBI谷歌学术搜索
33.Fleming NI, Jorissen RN, Mouradov D, Christie M, Sakthianandeswaren A, Palmieri M, et al. SMAD2, SMAD3 和 SMAD4 突变在结直肠癌中.癌症研究 2013;73(2):725–35.pmid:23139211。
查看文章PubMed/NCBI谷歌学术搜索
34.易珞, 鞠玉.人类癌症结构变异的模式和机制。实验分子医学 2018;50(8):98.Epub 2018/08/10.pmid:30089796;PubMed Central PMCID:PMC6082854。
查看文章PubMed/NCBI谷歌学术搜索
35.Chaisson MJ, Huddleston J, Dennis MY, Sudmant PH, Malig M, Hormozdiari F, et al.使用单分子测序解决人类基因组的复杂性。自然界。2015;517(7536):608–11.Epub 2014/11/11.pmid:25383537;PubMed Central PMCID:PMC4317254。
查看文章PubMed/NCBI谷歌学术搜索
36.Cheng DT, Mitchell TN, Zehir A, Shah RH, Benayed R, Syed A, et al. Memorial Sloan Kettering-Integrated Mutation Profile of Actionable Cancer 靶点 (MSK-IMPACT):一种基于杂交捕获的实体瘤分子肿瘤学下一代测序临床测定。J 摩尔诊断。2015;17(3):251–64.Epub 2015/03/25.pmid:25801821;PubMed Central PMCID:PMC5808190。
查看文章PubMed/NCBI谷歌学术搜索
37.Goodman AM, Kato S, Bazhenova L, Patel SP, Frampton GM, Miller V, et al. 肿瘤突变负荷作为多种癌症对免疫治疗反应的独立预测因子。摩尔癌症2017;16(11):2598–608.pmid:28835386;PubMed Central PMCID:PMC5670009。
查看文章PubMed/NCBI谷歌学术搜索
38.麦金太尔G,伊尔斯特拉B,布伦顿JD。对癌症结构变异进行测序,用于精准治疗。趋势基因。2016;32(9):530–42.pmid:27478068。
查看文章PubMed/NCBI谷歌学术搜索
39.Valeri N. 简化结直肠癌融合基因的检测:在(组织)“不可知论”时代对精准肿瘤学有“信心”。癌症研究 2019;79(6):1041–3.Epub 2019/03/17.普米德:30877101。
查看文章PubMed/NCBI谷歌学术搜索
40.Heyer EE, Deveson IW, Wooi D, Selinger CI, Lyons RJ, Hayes VM, et al.使用靶向RNA测序诊断融合基因。纳特公社。2019;10(1):1388.Epub 2019/03/29.pmid:30918253;PubMed Central PMCID: PMC6437215
查看文章PubMed/NCBI谷歌学术搜索