厦门免费医学论文发表-基因转化在疟疾寄生虫恶性疟原虫细胞表面抗原进化中的作用
抽象
虽然疟疾寄生虫恶性疟原虫的平均全基因组多样性水平较低,可能是由于它最近从感染大猩猩的祖先(大约10,000至50,000年前)引入,但一些基因显示出极高的多样性水平。特别是,在感染红细胞的裂殖子表面表达的某些蛋白质(裂殖子表面蛋白 (MSP))恰好具有 2 个似乎没有重组的深度分歧谱系。虽然引起了人们的极大兴趣,但这种现象的进化起源仍然未知。在这项研究中,我们分析了 2 个最可变的 MSP DBLMSP 和 DBLMSP2 的遗传多样性,它们是旁系同源物(来自祖先重复的后代)。尽管有来自疟疾流行国家的数千个可用的Illumina WGS数据集,但这些基因的多样性很难表征,因为含有高度分歧的等位基因的reads完全无法与参考基因组对齐。为了解决这个问题,我们开发了一个利用基因组图谱的管道,使我们能够以高精度和完整性对它们进行基因分型。使用我们新解析的序列,我们发现这两个基因在特定的蛋白质结构域 (DBL) 中表现出 2 个深度分化的谱系,并且 2 个谱系中的一个在基因之间共享。我们确定了 2 个基因之间的非等位基因转换作为共享背后的可能机制的明确证据,这导致我们提出,不同的旁系同源物之间的基因转换,而不是重组抑制,可以产生这种令人惊讶的谱系;该模型与这 2 个基因的高多样性水平一致,尽管历史 P 很强。恶性疟原虫传播瓶颈。
数字
图4图5图1图2图3图4图5图1图2图3
引文: Letcher B、Maciuca S、Iqbal Z (2024) 基因转换在疟疾寄生虫恶性疟原虫细胞表面抗原进化中的作用。PLoS 生物学 22(3): 编号:E3002507。 https://doi.org/10.1371/journal.pbio.3002507
学术编辑: Michael Duffy,澳大利亚墨尔本大学
收到: 2023年3月15日;接受: 2024年1月19日;发表: 3月 7, 2024
版权所有: ? 2024 Letcher et al.这是一篇根据知识共享署名许可条款分发的开放获取文章,该许可允许在任何媒体上不受限制地使用、分发和复制,前提是注明原作者和来源。
数据可用性: 作者确认,这些发现所依据的所有数据都是完全可用的,不受限制。所有代码和输入数据表都 https://github.com/iqbal-lab-org/paper_pfalciparum_DBs 在 github 上公开提供,并在 https://zenodo.org/doi/10.5281/zenodo.7677547 在 zenodo 上冻结。github 存储库实现了我们的基因分型管道以及我们对 DBLMSP 和 DBLMSP2 序列的分析,并包含 Snakemake 工作流程来重现所有步骤,包括使用输入 tsv 表下载输入数据。所有主要和补充数据背后的数据也可在 zenodo 上找到。在 github 上,输入的 tsv 文件位于 'analysis/input_data/sample_lists' 下(包括 ENA 运行 accessions;有关详细信息,请参阅存储库 'README.md' 文件),主要文件也复制在 zenodo 上。我们分析的所有DBLMSP和DBLMSP2序列的集合都可以在zenodo上名为“output_analysed_sequences.tar.gz”的文件中找到。所有 MosaicAligner 图像也可以在 github 存储库和 zenodo 上以名为“figures_recombination_breakpoints_all.pdf”的文件提供。所有使用的软件和版本都存储在 github 存储库的“reproducibility/container”文件夹中,包括一个定义文件,用于构建所有 Snakemake 工作流程使用的 Singularity 图像。此图像的副本也可以在 zenodo 上作为名为“singu.sif”的文件获得。
资金: BL由欧洲分子生物学实验室的博士前奖学金资助。ZI由Wellcome Trust/Royal Society Sir Henry Dale Fellowship资助,资助号为102541/A/13/Z。资助者在研究设计、数据收集和分析、发表决定或手稿准备方面没有任何作用。
利益争夺: 提交人声明不存在相互竞争的利益。
缩写: CNV, 拷贝数变异;DSR, DBL 跨区域;EBA, 红细胞结合抗原;法学硕士 最大似然;莫伊 感染的多重性;MSP, 裂殖子表面蛋白;红细胞 红细胞
介绍
恶性疟原虫是一种单细胞真核寄生虫,可引起人类疟疾。根据WHO的数据,全球疟疾负担仍然很高,2020年有2.41亿例病例和62.7万例死亡[1]。高负担部分是由于 P。恶性疟原虫逃避人类免疫系统的能力,由2个主要机制介导[2]。首先,免疫系统靶向的细胞表面暴露抗原由功能冗余的基因家族产生。例如,裂殖子是感染人红细胞(RBC)的寄生虫生命阶段,它使用Rh和EBA家族的不同成员进行侵袭[2],而var、rifin和stevor家族的不同成员使受感染的红细胞能够与宿主微血管系统结合[3]。其次,表面抗原在序列和免疫水平上具有高度多样性。在var家族中,多样性主要由频繁的重组和基因转换(序列复制粘贴)事件产生,这些事件既发生在有性生殖期间的直系同源物之间,也发生在无性复制期间同一基因组上的旁系同源物之间[4–7]。
从历史上看,有几种称为裂殖子表面蛋白(merozoite surface proteins, MSP)的细胞表面抗原被发现显示出不寻常的谱系,恰好有2个深度分化的谱系:包括MSP1、MSP2、MSP3和MSP6[8–11]。这种深刻的差异表明了古老的起源和可能的维持,通过平衡免疫逃逸的选择[12,13],但Roy及其同事表明,无论是这种进化还是中性进化,都不应该产生确切的2个谱系,并且具有如此深刻的最近共同祖先[14]。此外,具有这种极端多样性水平的位点与P不一致。恶性疟原虫的整体多样性水平较低,可能是由于它起源于人类的最近(10,000至50,000年前),来自感染大猩猩P的共同祖先。praefalciparum [15–17]。
在这项研究中,我们重点研究了 2 个称为 DBLMSP 和 DBLMSP2 的 MSP,它们都是 P 中最多样化的基因。恶性疟原虫[18],两者都编码人类免疫系统识别的细胞表面暴露抗原[19,20]。它们是 8 个基因串联排列的旁系同源物家族的一部分,从序列共享中鉴定出来:所有 8 个基因都具有 N 端信号序列,6 个基因(包括 DBLMSP 和 DBLMSP2)具有 C 端 SPAM 结构域,而 DBLMSP 和 DBLMSP2 还唯一地拥有 DBL 结构域 [20](如 S1 图所示)。DBL结构域介导许多重要的疟疾宿主-病原体相互作用,包括入侵期间红细胞结合抗原(erythrocyte binding antigen, EBA)基因产物与红细胞之间的相互作用[21,20],以及感染红细胞上的var基因产物与各种人类受体之间的相互作用,从而实现隔离[22]。然而,它们在DBLMSP和DBLMSP2中的功能在很大程度上仍然未知[23]。
P. 的进化史。恶性疟原体表面抗原,包括DBLMSP和DBLMSP2,由于参考偏倚,到目前为止一直难以研究:跨越高度分化的非参考等位基因的reads无法与参考基因组对齐,使其难以重建。为了解决这个问题,我们之前开发了gramtools,这是一种使用同时包含多个参考文献的基因组图谱绘制reads和基因分型的软件[24,25]。在这项研究中,我们开发了一种新的管道,结合局部组装来重建DBLMSP和DBLMSP2等位基因,以及用于全面基因分型的gramtools。将其应用于Illumina群体测序数据,我们收集了这些基因的第一套综合等位基因,涵盖3,500>全球P。恶性疟原虫样本。通过详细研究这些基因,我们发现,尽管DBLMSP和DBLMSP2已经大幅分化,但1个特定区域(DBL结构域)包含两个基因共享的序列。我们发现了明确的证据表明,这是由两个基因之间DBL序列的基因转换驱动的,因此尽管最近存在大猩猩到人类的传播瓶颈,但仍创造了高度多样化的基因谱系。有趣的是,我们还发现了证据表明,DBLMSP2可能已经进化出一种特定的人类功能。
在本文的其余部分,我们将 DBLMSP 和DBLMSP2统称为 DBLMSP1/2。
结果
1. 新的基因分型管线优于现有技术
为了分析DBLMSP1/2的变化,我们使用了来自malariaGEN的数据,这是一个发布来自全球P的Illumina全基因组测序数据的联盟。恶性疟原虫样本[26]。我们使用了2021年发布的数据,包括>7,000个样本[27];其中,我们保留了 3,589 个样本通过了 MalariaGEN 的质量控制,并推断为克隆性,因为 P 中常见的多种感染。恶性疟原虫,可混淆基因分型[26,28]。这些样本总共来自29个国家(S2图)。在读取预处理(参见方法)后,所有 3,589 个样本都使用新开发的管道进行处理。该管道使用我们现有的基于基因组图的工具gramtools,我们之前证明它对高度多样化的基因进行基因分型是有效的[25,29],以及基于组装的工具来重建不同的非参考等位基因(详见S4图和相关文本)。
为了评估我们的基因型检出,我们实施了 2 种正交方法(参见方法),并将我们的管道输出与基于 GATK 的 malariaGEN 现有管道的输出进行了比较。GATK是一种最先进的基因分型框架[30,31],但可能存在参考偏倚,特别是在P中。恶性疟原虫[18]。我们发现我们的管线在靶标 DBLMSP1/2 基因(S6-S8 图)上明显优于 GATK。使用严格的标准,我们得出了一组我们认为“可靠解决”的 DBLMSP1/2 序列(详见方法;本文提供的序列,见数据可用性)。对于基于 GATK 的管道,49% (DBLMSP) 和 12% (DBLMSP2) 的序列被可靠地解析,而对于我们的新管道,>81% 的基因被可靠地解析(S9 图)。我们的新序列集也包含更多的变化,正如我们在下一节中展示的那样。
2. DBLMSP1/2 的 DBL 域是高度可变的,包含共享序列和私有序列
为了分析 DBLMSP1/2 中的多态性水平,我们将 2 个管道中所有可靠解析的基因序列翻译成蛋白质,并计算了 2 个序列多样性测量值,如图 1 所示(从多序列比对计算得出的测量值)。在图 (a) 中,我们显示了基因内杂合性(y 轴),定义为对于给定基因和给定对齐位置(x 轴),从群体中随机选择的 2 个氨基酸不同的概率。对于 DBLMSP 和 DBLMSP2,基于 GATK 的管道(左侧面板)恢复的多样性要比我们的管道(右侧)少得多。仅在我们的序列中,每个基因的中心区域都是特别多态性的,并且跨越它们的DBL结构域,用蓝色垂直虚线分隔(参见注释方法)。
缩略图 下载:
PPT的PowerPoint幻灯片
巴布亚新几内亚放大图像
TIFF的原始图像
图 1. DBLMSP 和 DBLMSP2 中的基因内和基因间杂合性。
在图 (a) 中,y 轴测量在每个对齐的蛋白质位置(x 轴)处,对于每个基因和每个基于 GATK 和 gramtools 的管道,2 个随机选择的氨基酸不同的概率。一个极其多样化的区域横跨 DBL 域,用蓝色垂直虚线标注,并且只有在我们的新管道中才能看到。图 (b) 显示了 2 个随机选择的氨基酸(每个基因一个)不同的概率。值为 1 表示没有共同的氨基酸,即 2 个基因完全分化。DBL 结构域位于共享序列的区域,其中没有氨基酸完全发散,并用红色垂直虚线表示——我们称之为 DBL 跨区域 (DSR)。我们注意到,较小的 C 端区域也显示了具有假定序列共享的位置,但这些实际上是比对中富含插入缺失区域的间隙字符。生成此图的数据和代码可在 https://zenodo.org/doi/10.5281/zenodo.7677547 中找到。
https://doi.org/10.1371/journal.pbio.3002507.g001
在图 (b) 中,我们显示了基因间杂合性,定义为对于处于对齐位置的 2 个基因,随机选择的 2 个氨基酸(每个基因一个)不同的概率。值为 1 表示 2 个基因的序列之间没有共同的氨基酸(完全发散位置),而值为 0 表示在两个基因中都发现了一个相同的氨基酸(固定位置)。虽然许多位置是完全分化的,但跨越 DBL 结构域的区域(用红色垂直虚线显示)基因之间的固定差异为零,表明序列共享。这种观察在以前的方法(即基于GATK或任何单参考/非泛基因组管道)中是不可能的。我们将此区域称为 DBL 跨区域或 DSR,并将本文中其余分析的重点放在该区域上,并使用我们的 gramtools-pipeline 结果。
然后,我们从 DBLMSP1/2 的多序列比对中从所有独特的蛋白质序列(总共 278 个)构建了一个分层聚类树,以可视化 DSR 中的序列关系(图 2)。树清楚地显示了 3 个主要谱系,标记为 A、B 和 C.谱系 A 和 C 分别由 DBLMSP(最内层的彩色环中的黄色)和 DBLMSP2(蓝色)序列组成,而谱系 B 包含来自两个基因的序列。因此,我们将谱系 B 称为“共享谱系”,将谱系 A 和 C 称为“私有谱系”(有关详细信息,请参见 S11 图)。我们注意到,共享谱系在人群中很丰富:在所有 16 个样本超过 50 个国家/地区,它以大约 25% 至 50% 的频率出现(S12 图)。这与平衡选择、保持种群中的共享和私有谱系是一致的。
缩略图 下载:
PPT的PowerPoint幻灯片
巴布亚新几内亚放大图像
TIFF的原始图像
图 2. 在 DBLMSP1/2 中,私有和共享血统存在严重分歧。
我们构建了所有独特的 DBL 跨越蛋白序列的分层聚类树(参见方法)。内环按原产基因(DBLMSP,DBLMSP2)为序列着色,外环显示原产物种,P。恶性疟原虫及其 3 个最密切相关的物种。树中存在三个主要谱系,标记为 A、B 和 C:谱系 A 和 C 分别仅包含 DBLMSP2 和 DBLMSP 的代表(“专用谱系”),谱系 B 包含两者的代表(“共享谱系”)。生成此图的数据和代码可在 https://zenodo.org/doi/10.5281/zenodo.7677547 中找到。
https://doi.org/10.1371/journal.pbio.3002507.g002
为了探究 DBLMSP1/2 的演化,我们在 P 的 6 个已知近亲中搜索了直系同源物。恶性疟原虫(Laverania亚属的所有部分)。使用Otto及其同事[17]的测序数据和基因组组装,我们可以为每个物种重建多达2个序列(参见方法)。对于DBLMSP,我们在与P最密切相关的3个物种中发现了明确的直系同源物。恶性疟原虫: P. praefalciparum, P.reichenowi 和 P.billcollinsi(按 P.falciparum),但不在更分化的物种中。对于DBLMSP2,我们在 P 中发现了一个明确的直系同源物。praefalciparum 和 P.仅限 Reichenowi。因此,我们将 DBLMSP 的祖先复制日期定为 P 之间的 DBLMSP2。恶性疟原虫–P.billcollinsi 和 P.恶性疟原虫–P.reichenowi 分裂,因此在 P 跳跃之前。恶性疟原虫从大猩猩到人类。
每个DBLMSP/DBLMSP2序列的起源物种如图2(外环)所示。对于DBLMSP,直系同源物属于谱系C的一个独特的亚谱系,并且与已知的Laverania系统发育一致。对于DBLMSP2,P.reichenowi 是假基因(与先验知识 [17] 一致),并且未在树中显示(起始密码子附近的过早终止密码子使 DSR 无法比拟)。2 个在 P 中鉴定出的直系同源物。praefalciparum 都属于共同谱系 B:一个有一个过早的终止密码子(最右边的 P。谱系 B 中的 praefalciparum 样本),另一个位于 P 的分支内。恶性疟原虫等位基因。我们发现这与P一致。falciparum最近起源于P。praefalciparum 通过一个紧密的瓶颈:在全长 DBLMSP 和 DBLMSP2 序列以及单拷贝、保守基因 (AMA1) 的树中,P。praefalciparum 等位基因也筑巢在 P 内。恶性疟原虫分支(与来自更不同物种的等位基因相反;S14 和 S15 图)。我们的数据还表明,DBLMSP2可能在P中进化出一种保守的功能。仅恶性疟原虫;我们在讨论中回到这一点。
总体而言,在 P.恶性疟原虫,每个基因存在 2 个深度分歧的谱系,其中一个在两者之间共享——导致总共 3 个谱系,而不是 4 个。在 S16 图中,我们显示了每个序列谱系原型在氨基酸水平上的典型外观的 HMM 标志。据报道,在其他高度多样化的MSP中,2个谱系之间的重组很少见或不存在[11,32];接下来,我们正式测试了 DBLMSP1/2 中的重组,以及基因转换作为共享谱系的假定驱动因素。
3. DBL结构域中的重组和基因转化
为了检测我们的 DBLMSP1/2 蛋白序列中的重组,我们使用了 Zilversmit 及其同事 [33] 开发的一种方法来研究 P 中的 var 基因。恶性疟原虫。简而言之,使用基于HMM的模型将panel中的每个序列与所有其他序列对齐,该模型在靶标和供体之间执行成对比对,同时允许在供体之间切换(即重组)。鉴于我们的序列数量众多,我们首先将它们聚类为 35 个代表(同一性为 96%),因为过于接近的序列只会相互对齐,从而掩盖更远的重组。我们在此面板上运行了 Zilversmit 及其同事的实现 MosaicAligner,并构建了输出的可视化表示,以验证每个推断的断点(本文提供的代码;请参阅数据可用性)。在图3A中,我们详细展示了一个这样的“马赛克对齐”。目标是一个 DBLMSP 序列(第二行),是其他 2 个 DBLMSP 供体的重组体,垂直红线表示推断的重组断点。在断点的任一侧,突出显示的供体的不匹配(红色字母)比未突出显示的供体少;这适用于所有 35 个对齐方式(S18 图)。在图 (b) 中,我们显示了 3 个完整的镶嵌比对:一个用于每个基因的第一个代表,另一个断点跨越两个基因的供体(下面讨论)。本文提供了所有 35 种镶嵌路线的插图(参见数据可用性)。总体而言,在 35 个对齐中,我们在 DSR 的 254 个位置中总共发现了 13 个 (DBLMSP) 和 15 个 (DBLMSP2) 的断点,没有明显的热点结构,因为它们分布在整个区域(图 c)。虽然大多数重组事件发生在直系同源物之间和图 2 的 3 个主要谱系内,但我们也观察到不同谱系(A-B 和 C-B;S19 和 S20 图)。
缩略图 下载:
PPT的PowerPoint幻灯片
巴布亚新几内亚放大图像
TIFF的原始图像
图 3. 马赛克排列揭示了 DBLMSP1/2 的广泛重组。
(a) 目视确认 MosaicAligner 推断的第一个 DBLMSP 序列(目标;完全着色序列)的比对,与其他 2 个 DBLMSP 序列(供体;部分着色序列)对齐。红色垂直线标记了 2 个供体之间的开关。在开关的任一侧,目标与着色供体对齐,其编辑次数比其他供体少得多(红色字母标记不匹配)。(b) 图中35个代表性序列中3个序列的全马赛克排列图。在每个面板中,对齐的目标是标有箭头的完全不透明行,供体显示为部分不透明行。本文提供了所有 35 种对齐方式的插图。(c) 对于每个基因,显示了镶嵌比对中所有断点的聚集位置。断点似乎没有聚集成热点。生成此图的数据和代码可在 https://zenodo.org/doi/10.5281/zenodo.7677547 找到。
https://doi.org/10.1371/journal.pbio.3002507.g003
对于其中 3 个镶嵌比对,供体序列来自不同的基因(图 3B 和 S21 的最后一次比对),与旁系同源物之间的序列交换一致。这尤其可能发生在修复双链断裂和随后从附近的未断裂模板粘贴序列(也称为基因转换)期间。模板通常是同源基因拷贝,要么来自相同的姐妹染色单体(例如,在基因组复制后),要么来自同源染色体(例如,在减数分裂重组期间)。在某些情况下,附近的旁白可以充当模板;这也称为非等位基因转化[34]。我们进行了一项测试来检测 DBLMSP 和 DBLMSP2 之间的非等位基因转换。对于 2,882 个样本中的每一个,其中两个 DBLMSP1/2 基因都得到了可靠的解析,我们将 2 个基因成对对齐,并在 DNA 密码子水平上测量了序列同一性(参见方法)。在图4B中,我们说明了209个样本,其中DSR中相同密码子的比例很高(>0.5;完整分布见S22图),在排除了基因内部发生的DSR重复(见方法)。每行显示 1 个样本在 DSR 中的 DBLMSP1/2 序列比对,每列显示 1 个密码子,相同密码子的细胞颜色为米色,不同密码子的细胞颜色为黑色(如图 a 所示)。几乎不间断的米色延伸清晰可见,支持 DBLMSP1/2 之间的基因转换。
缩略图 下载:
PPT的PowerPoint幻灯片
巴布亚新几内亚放大图像
TIFF的原始图像
图 4. DSR 中 DBLMSP 和 DBLMSP2 之间非等位基因转换的证据。
(a) 该方案解释了图(b)后面的矩阵。对于两个 DBLMSP1/2 基因序列均被可靠解析的每个样本,我们在 DSR 中对齐了它们的 DNA 序列,并记录了 2 个基因(米色细胞)与不同基因(黑细胞)之间密码子相同的位置。基因转化应表现为米色细胞的连续条带。(b) 在 DSR(列)的每个位置显示了 DBLMSP 和 DBLMSP2 之间密码子为 >50% 的 209 个样品(行)。几乎全是米色的条带表明样本中 2 个基因之间可能存在序列复制,支持基因组内基因转换。两组主要样本可以在视觉上区分,这与导致这些样本的谱系中至少发生了 2 个不同的转化事件(在右侧标记)一致。生成此图的数据和代码可在 https://zenodo.org/doi/10.5281/zenodo.7677547 中找到。
https://doi.org/10.1371/journal.pbio.3002507.g004
图 4 图 b 中的样本与祖先发生的 2 个主要转换事件一致,具有不同的断点(米色条带的开始和结束位置)和序列(S23 图)。这两个事件的样本在地理上分布广泛,发生在西撒哈拉以南非洲和东撒哈拉以南非洲以及东南亚(S24图),这表明它们都通过选择或反复转换得到积极维护。
4. 通过基因转换实现DBLMSP1/2的多样化
在图 5 中,我们说明了基因转换与 DBLMSP1/2 谱系之间的关系。在图a中,我们再次显示了图2中的聚类树,并添加了一个外环,标记了属于图4中标识的2个不同转换事件的样本。彩色星星标记了树中由基因转换产生的新亚分支的假定位置。
缩略图 下载:
PPT的PowerPoint幻灯片
巴布亚新几内亚放大图像
TIFF的原始图像
图 5. 通过DBLMSP和DBLMSP2之间的基因转换产生亚谱系。
(a) 图中显示了与图 2 相同的聚类树(由 DSR 的等位基因构建),并添加了一个外环来标记图 4 中所示的序列。这些被分为图 4 中标识的 2 个不同的转化事件,并标记为绿色(转化事件 1)和粉红色(转化事件 2)。这两个事件在树中产生了新的亚分支;有关操作方法,请参阅正文和以下面板。(b) 一个简化的示意图,显示基因转换事件 1 如何在 DBLMSP2(情景 i)或 DBLMSP(情景 ii)中创建 2 个深度不同的谱系,具体取决于序列粘贴的方向。生成此图的数据和代码可在 https://zenodo.org/doi/10.5281/zenodo.7677547 找到。
https://doi.org/10.1371/journal.pbio.3002507.g005
转换事件 1 在图 5A 中以绿色标记,图 b 说明了它对 DBLMSP1/2 序列的祖先树的影响,具体取决于 DBLMSP 是否粘贴到DBLMSP2(场景 i),反之亦然(场景 ii)。例如,在场景 ii 中,DBLMSP2中谱系 B.2 的预先存在的序列粘贴到 DBLMSP 谱系 C 的序列中,从而在 DBLMSP 中产生谱系 B.1,并在 DBLMSP 中创建 2 个深度分歧的谱系。在场景 i 中,通过从谱系 B.1 中的 DBLMSP 等位基因粘贴,在DBLMSP2中创建了 2 个深度分歧的谱系。请注意,因为几乎所有的序列都已粘贴(大约 80%;图4B),受体序列最终形成接近供体序列的谱系;如果粘贴了一小部分(例如,20%)序列,则情况正好相反。我们假设情景ii更有可能导致亚分支B.1(图5A中的绿色星)的诞生,因为我们从P中鉴定出序列。在这两个谱系(B.2 和 C)中,但没有来自谱系 B.1 (DBLMSP) 或 A (DBLMSP2) 的序列。
同样,转换事件 2 导致了谱系 A.1 或谱系 B.1.1 的诞生,并且可能发生在转换事件 1 之后,因为亚分支 B.1.1 嵌套在亚分支 B.1 中。在这里,我们无法推测哪个导致了另一个,因此我们在图 5 面板 a 中显示了 2 颗粉红色的星星。请注意,由于此事件的粘贴序列的中间部分(大约 0.55;图 4B)亚分支 A.1 和 B.1.1 在树中彼此不靠近。最后,虽然我们的数据与DBLMSP树中通过基因转换的亚谱系出生明显一致,但它们并不能解释DBLMSP2中存在深度分化的谱系(图5B)。我们在讨论中回到这一点。
5. 测试DBLMSP1/2中进化的直接证据
迄今为止研究的重组和基因转换事件是从种群水平数据中间接推断出来的。为了测试DBLMSP1/2中这些事件的直接证据,我们还分析了随时间重复测序的分离株的数据。我们在 2 个来源中寻找 DBLMSP1/2 突变:Hamilton 及其同事 [35] 的“克隆树”,他们反复克隆、培养和测序单个分离株(总共跨越约 700 个红细胞生命周期),以及不同 P 菌株之间的 4 个实验性遗传杂交。恶性疟原虫(共142个测序的亲本和后代[18,36];详见数据可用性和方法)。总体而言,我们在其中一个遗传杂交后代中仅发现 2 点突变,并且在 DBLMSP1/2 中没有重组或基因转换的直接证据(S27 图)。然而,我们注意到,在Cortes[37]的重复培养和测序分离株中观察到基因RH2a和RH2b的基因转化。
讨论
恰好存在 2 个深度分化的谱系,这些谱系没有在特定的 P 中重新组合。恶性疟原虫基因在疟疾文献中历史上被称为“等位基因二态性”,长期以来一直是一个难题[8,14]。虽然平衡选择可以通过宿主免疫压力维持不同的谱系,但如果不被抑制,则有望通过重组获得中间形式,偶尔应观察到 2 个以上的谱系。在这里,我们发现 DBLMSP 和 DBLMSP2 在 P 中分别显示 2 个深度不同的谱系(图 2)。恶性疟原虫,每个谱系在种群中保持高频率,与平衡选择一致。得益于我们庞大的全球数据集和完全解析的等位基因,我们还发现了每个谱系内广泛的多态性,即每个基因超过严格意义上的 2 个谱系,以及广泛的重组,主要是在每个谱系内,但也在同一基因的不同谱系之间。我们提出,等位基因二态性不是没有重组的分化过程,而是可以通过分化的旁系同源物之间的基因转换来突然产生。
这个想法与最近引入的 P 是一致的。恶性疟原虫通过人畜共患病进入人类,来自与大猩猩感染 P 的共同祖先。praefalciparum,大约在10,000至50,000年前[15]。恶性疟原虫确实具有非常低的全基因组多样性水平(比Laverania亚属的其他物种低约10倍[17,38]),可能是由于只有一个或几个个体跳入人类[17,16,39]。因此,DBLMSP 和 DBLMSP2 序列可能是我们从 P 中重建的。praefalciparum 正好属于 2 个谱系,代表 P 的祖先谱系。恶性疟原虫。我们发现至少 2 个新的亚系是通过旁系基因转换产生的(图 5)。虽然我们无法明确推断转换的方向,但对于 1 个子谱系,很可能DBLMSP2粘贴到 DBLMSP 中。随后的未知方向的转换事件导致了进一步的谱系多样性。然而,我们的数据并不能解决DBLMSP2谱系A和B之间预先存在的深度分裂。一种可能性是 P 中另一个含有 DBL 结构域的基因。恶性疟原虫产生了谱系 A,尽管测试这可能需要长读长数据,尤其是要解析 var 基因 DBL 结构域。
在未来,我们的进化模型也可以在其他被称为“二态性”的MSP中进行测试:值得注意的是,MSP2与另一个MSP(MSP4)同时发生,MSP3和MSP6都与DBLMSP和DBLMSP2发生在相同的8基因旁系同源串联阵列中(S1图)。有趣的是,关于DBLMSP1/2,2003年,尼尔森及其同事报告了相距10 kbp的旁系同源基因FP2A和FP2B之间的基因转换,导致基因看起来比最近的瓶颈更加多样化[40]。然而,我们并不认为我们的模型是详尽的:其他具有深度分歧谱系的基因,如MSP1或EBA-175,不会与旁系同源物同时出现[41,42]。更一般地说,我们的模型并不意味着应该存在确切的 2 个谱系,也不意味着它们不会重组,从长远来看,这两种谱系都很难预期。
在进化约束方面,我们注意到在P.恶性疟原虫,DBLMSP2似乎比DBLMSP受到更严格的限制:在234个具有过早终止密码子的DBLMSP1/2基因序列中,196个位于DBLMSP中,38个位于DBLMSP2中。相比之下,在 P.reichenowi 和 P.在praefalciparum中,所有4个鉴定的DBLMSP直系同源物都有一个完整的开放阅读框(每个物种2个),而4个DBLMSP2直系同源物中有1个具有完整的开放阅读框(P.praefalciparum)。这提出了一种有趣的可能性,即人类特定的功能(或约束)在DBLMSP2中已经进化。为了充分测试这一点,需要以 P 为单位的种群水平数据。reichenowi 和 P.praefalciparum。
我们还注意到,基因转换仅在 DSR 中发生(或被选择),而其余的 DBLMSP1/2 基因则大幅分化(图 1)。在其他 P.恶性疟原虫蛋白中,DBL结构域是寄生虫侵袭和持久性的关键:在EBA家族中,DBL结构域介导红细胞侵袭,在vars中,它与内皮细胞和其他感染红细胞(redc)上的受体(iRBC)结合,从而实现iRBC隔离[3,21]。它在DBLMSP和DBLMSP2中的功能尚不清楚,但一项研究发现它与人IgM结合[23]。作为免疫逃避选择的替代方法,可能是共享的 DBL 结构域谱系介导与共享环境的结合,其中 2 个基因共表达,而私有谱系介导与私有环境的结合。这可能与DBLMSP在血期无性裂殖子中表达一致,DBLMSP2可能仅在致力于配子细胞发生(性周期;[43]);据报道,配子体优先出现在特定的生态位,如人类骨髓[44]。这也许可以通过生物学测试(例如,使用AVEXIS [45,46]),或者使用基于AlphaFold的未来蛋白质-蛋白质相互作用预测方法进行计算测试[47]。
总之,我们的研究强调了旁系同源基因进化的重要性,我们希望 DBLMSP1/2 中更高分辨率的序列数据将有助于阐明它们的生物学功能。
方法
结果部分 1
样品预处理。
在我们分析的MalariaGEN版本(2020年11月发布[27])中可用的>7,000个样本中,有5,970个被联盟标记为可分析(例如,在过滤掉由于覆盖率而可调用的基因组少于50%的样本后,或具有不止一种感染物种证据的样本[27])。
P的序列生命阶段。恶性疟原虫是单倍体,因此每个样本中可以预期有一个单倍型。然而,具有多种同时发生的菌株(多重感染 (MOI) > 1)的样本在 P 中很常见。恶性疟原虫,难以自信地进行基因分型。因此,我们进一步过滤掉了具有 MOI > 1 证据的样本,使用 FWS公司metric [26],这与 P 中的 MOI 密切相关。恶性疟原虫[48]。我们使用了 FWS公司MalariaGEN [27] 计算的值及其克隆性阈值> 0.95,剩余 3,589 个样本进行分析。
读取预处理和质量控制。
对于分析集中的每个样品,从ENA下载读数,使用trimmomatic [49]进行修剪,以从读取端去除适配器和低质量碱基,并使用rasusa [50]进行子采样至最大60倍的预期覆盖率。修剪可以更好地使用gramtools进行基因分型(见下文),60倍的覆盖率足以进行基因分型,并避免了过度计算。然后,我们对预处理的reads进行了表征。在所有 3,589 个样本中,读取长度有 2 个模式,分别为 75 和 100 bp,估计的每碱基测序错误率为 1×10?4 (S3 图,上图)。
我们还使用 bwa-mem [51] 将reads与3D7参考基因组比对,并测量了平均折叠覆盖率和估计的测序片段长度(从对齐的双端reads之间的距离)。我们在 P 内的对齐中测量了这些。恶性[52]定义的“核心基因组”,排除了高度重复或可变的基因组区域,如端粒和VaR基因。我们选择了该核心基因组的 240 kbp 子集,均匀分布在所有 14 个 P 上。恶性疟原虫染色体。折叠覆盖率大多在 25 到 50 之间,测序片段长度在 200 到 300 bp 之间(S3 图,下图)。一些样品具有折叠覆盖率<10,并在下面描述的后续过滤步骤中进行处理。
基因分型评估和性能。
我们在这里仅提供基因分型评估和性能的简要总结,并请读者参考 S1 文本了解完整详细信息。我们使用了 2 种方法来评估两个管道进行的基因型调用(S4 和 S5 图)。第一个使用了14个独立样本,同时包含Illumina和PacBio数据,并从中构建了高质量的真值组装[52]。仅使用Illumina数据,我们用两个管道对这些样本进行了基因分型,并将调用与真值组装进行了比较。第二个依赖于将我们分析的 3,589 个分析样本的测序读数重新映射到“诱导参考基因组”,该基因组是通过将管道进行的所有调用应用于 3D7 参考基因组来实现的。然后,我们通过reads和诱导基因组之间的一致性水平来测量基因分型质量。根据 DBLMSP 和 DBLMSP2(从 3D7 坐标适当转换)和每个样本的读取堆积,我们测量了低覆盖率的位置数、读数中多数基数与诱导参考中多数基数不同的位置数,以及插入尺寸较大的读取数(参见 S1 文本了解我们如何定义大)。
然后,我们将基因序列定义为在全基因(DBLMSP:2,094个碱基对(bp);DBLMSP2:2,289 bp),读段不包含少于 5 个对齐读长的位置,没有大多数读段与诱导参考不一致的位置,以及 <15% 的插入片段尺寸较大的读段。这导致基于gramtools的管道总共有5,895个DBLMSP1/2序列(包括两个3D7参考代表)。我们观察到,对于基于gramtools的管道结果,另外200个DBLMSP1/2序列(92 DBLMSP和108 DBLMSP2)没有覆盖差距,<15%的reads,插入片段尺寸较大,并且存在单一的多数堆积差异。我们使用自定义脚本(本文提供)校正了这些单SNP序列,并将它们添加到我们的分析集中,还添加了Otto及其同事[52]收集的14个样本中的28个DBLMSP1/2序列,总共有6,123个分析序列。
基于gramtools的流程中的每一步都逐渐改善了评估指标的基因分型性能,并在最后自信地分离了大多数样品(S6图)。总体而言,基于 gramtools 的流水线也明显优于基于 GATK 的流水线(S7–S9 图)。
结果部分 2
翻译成蛋白质。
使用seqkit[53]将DBLMSP1/2个基因序列翻译成蛋白质,并排除任何具有2个或更多终止密码子的序列,因为DBLMSP和DBLMSP2是单外显子基因,因此序列末尾的单个终止密码子是预期的(即,无需考虑内含子中的终止密码子)。这从我们基于gramtools的管道中移除了3.8%(234/6123;还剩5,889个分析序列)的分析就绪序列,从基于GATK的管道中移除了8.0%(178/2,223)的序列。在我们移除的 234 个序列中,206 个样本具有 1 个全长和 1 个截短的蛋白质序列,而在其余 14 个样本中,预计两个蛋白质序列都被截断。我们在蛋白质水平上分析了多态性水平,因为蛋白质是细胞的功能单位,它们更有可能直接受到选择。
杂合性。
图1中的杂合性是在使用mafft[54]构建的多序列比对上计算的。
在给定的对齐位置,我们将所有观察到的氨基酸的集合定义为 {a1、我,...,an},以及它们在基因 j 序列中的频率,如 fj(一个我).那么,基因 j 和 k 的基因间杂合性为 。
基因内杂合性是上述在单个基因 j (h 上评估的方程JJ公司).后者通常简称为杂合性,与“核苷酸多样性”密切相关,π[55]。
DBL 域。
通过从InterPro(https://www.ebi.ac.uk/interpro/entry/Pfam/PF05424/)下载DBLMSP的HMM模型并使用HMMSCAN从HMMER套件[56]映射DBLMSP的3D7序列,在DBLMSP的3D7序列上注释了DBL结构域。
重组来自其他 Laverania 的序列。
为了从其他Laverania寄生虫中获得DBLMSP和DBLMSP2序列,我们使用了Otto及其同事[17]的数据,其中在保护区黑猩猩和大猩猩分离株的疟原虫DNA中鉴定了6种Laverania物种。对于每个物种,3 至 4 个分离株进行短读长测序 (Illumina),1 个分离株也进行长读长测序 (PacBio),用于构建染色体水平组装体。总的来说,我们可以从其他 3 个 Laverania 物种中重建 9 个 DBLMSP1/2 序列。
在程序集中查找 DBLMSP 和 DBLMSP2(加上 P.赖切诺维[57];本文提供的所有种质,参见数据可用性),我们使用 minimap2 [58](预设:“-x asm20”)将基因序列从基于 gramtools 的管道映射到每个组装体。使用bedtools[59],我们将所有重叠的命中合并为单个区间,并提取每个合并区间的组装序列。对于系统发育上最接近 P 的 3 种。恶性疟原虫(P.praefalciparum,P. reichenowi 和 P.billcollinsi),我们可以获得与 P 中相同长度的序列。恶性疟原虫(约 2 kbp)并以起始密码子开头:1 DBLMSP 和 1 个 P DBLMSP2。praefalciparum、2 个 DBLMSP 和 2 个 DBLMSP2 在 P 中。reichenowi 和 P 中的 1 个 DBLMSP。billcollinsi (共 7 个序列;其中 5 个如图 2 所示,如 P 的 2 个DBLMSP2序列所示。Reichenowi 是完全假基因化的)。对于 P。gaboni,我们发现一个小区域(大约 800 bp)与我们丢弃的 DBLMSP 和 DBLMSP2 以及 P 冗余匹配。adleri 和 P.Blacklocki,我们没有得到任何命中。为了确认 DBLMSP1/2 确实在更远的亲缘关系 Laverania 中缺失,我们确认我们可以在 P 的 DBLMSP/DBLMSP2 附近找到基因的直系同源物。恶性疟原虫基因组,包括位于 DBLMSP 和 DBLMSP2 之间的 MSP11,以及 AMA1,一种单拷贝且保守良好的基因(S13 图)。对于AMA1,使用Liftoff[60]获得了正确的开放阅读框。
作为 P.praefalciparum 与 P 的进化特别相关。恶性菌,我们仅使用Illumina数据在另外3个分离株中分离出DBLMSP和DBLMSP2[17]。对于每个样本,我们执行了上述预处理(trimmomatic + rasusa),在根据上述 3,589 个“分析集”样本构建的图表上使用 gramtools 对每个样本进行基因分型,然后进一步运行我们基于 gramtools 的管道的所有步骤,直到并包括 Gapfiller(S4 图)。对于 1 个样本 (PPRFG02),根据我们上面的标准,两个基因都在其 DBL 结构域中可靠地解析,它们的序列如图 2 所示。其他 2 个样本未解析:一个样本的读数太少,可能是由于宿主污染,另一个样本与另一个物种高度混合 (P.阿德勒里)(与[17]的S1表一致)。
聚类树。
使用scipy[61]构建了分层聚类树,使用DBLMSP1/2多序列比对的DSR中所有唯一蛋白质序列之间的汉明距离(差异数)(这相当于未对齐序列之间的编辑距离)。通过“平均”方法对序列进行聚类,即将具有最小平均距离的 2 个聚类迭代连接起来。这也称为 UPGMA。因此,该树不是一个“真正的”系统发育树——值得注意的是,它没有模拟不同突变的概率或不同位点的突变率变化。
对于结果,第 3 节
识别重组。
首先使用cd-hit[62]对DSR中的5,889个DBLMSP1/2蛋白序列进行聚类,结果为96%,产生了35个代表性序列。这样可以检测更远的重组。要了解原因,请考虑由两个高度不同的其他序列 B 和 C 重组产生的序列 A。如果存在另一个序列 D,该序列距离 A 一个 SNP,则 A 将与 D 全长对齐。
为了执行“镶嵌比对”,MosaicAligner [33](最初称为Tesserae)使用由氨基酸发射概率和必须估计的过渡概率(匹配/插入缺失转换和供体开关)参数化的HMM模型。按照MosaicAligner的原始模型规范[33],首先估计所有与对齐相关的参数的最大似然(ML)值,将重组概率?设置为零,然后估计?为所有目标对齐与面板之和最大的值。然后根据推断的 ML 参数值获得 35 个代表中每个代表的 ML (Viterbi) 路径。从MosaicAligner的文本输出中,使用本文提供的自定义代码生成了对齐的可视化表示(例如,图3B)。
所有镶嵌对齐都包含至少 1 个重组断点。为了验证这些,我们将每个靶标与其 MosaicAligner 推断的供体路径的编辑距离与到单个最接近供体的编辑距离进行了比较。前者总是比后者小(S18 图)。
识别基因转化。
在比较单个样本中 DBLMSP1/2 的序列时,我们比对了它们的 DNA 序列,因为基因转化发生在 DNA 水平,并测量了相同密码子的比例,而不是核苷酸,以匹配蛋白质水平的分析。值得注意的是,密码子水平的同一性比核苷酸水平的同一性更接近蛋白质水平的同一性,尽管它的下界为 2 个相同的氨基酸可以由 2 个不同的密码子编码。
为了识别具有基因转换证据的样本,我们寻找同一基因组上两个旁系同源物之间相同序列的片段,对于两个 DBLMSP1/2 序列都“可靠解析”的所有样本,这意味着(如上所述)没有覆盖差距或基于堆积的差异,也没有高水平的大插入物尺寸。为了排除错误地将序列共享归因于1个基因中的重复事件的可能性,我们进一步过滤掉了具有可能的基因拷贝数变异(CNV)证据的样本;见S25图。在密码子水平同一性为 >0.5 的 212 个样本中,有 3 个可能具有 CNV,剩下的 209 个样本均如图 4 所示。
我们通过手动检查IGV中的读取覆盖率水平和插入片段大小,进一步验证了图4中每个基因转化事件的8个样本[63]。我们发现,DBLMSP、DBLMSP2和不相关的基因 AMA1 的覆盖水平、插入片段大小和读取对方向都是一致的,这证实了这些样本中没有发生 DBL 结构域的重复。
关于结果,第 5 节
对于 P。恶性疟原虫遗传杂交,我们使用了所有4个公开的杂交,包括菌株3D7和HB3[64]、HB3和Dd2[65]、7G8和GB4[66]、803和GB4;原始数据在 [18] 和 [36] 中可用,并直接列在“数据可用性”部分。对于“克隆树”,我们使用了 [7] 和 [35] 中的所有可用数据,从它们的补充表和克隆树图构建 tsv 文件。对于 6 个样本,我们发现了令人信服的样本错误标记证据,并得到了原作者的确认。我们在与本文相关的存储库中提供了未更正和更正的表(请参阅数据可用性)。
我们从 ENA 下载了所有可用的读取种质(6 个克隆树中的 284 个克隆树样本和 4 个杂交中的 142 个样本)。对于每个样本,我们进行了如上所述的预处理(trimmomatic + rasusa),然后使用gramtools在根据上述3,589个“分析集”样本构建的图表上对每个样本进行基因分型。为了发现任何遗漏的变异(因为这些样本不是图中 3,589 个样本的一部分)或后代样本中的突变事件,我们随后运行了基于 gramtools 的管道的所有步骤,包括 Gapfiller(S4 图)。
根据我们的评估管道标准,所有样品均已可靠地分离。然后,我们将所有成对的后代和亲本样本(在克隆树中,与唯一的亲本对齐,在杂交中,与父母双方对齐并寻找最近的亲本(亲本通常高度分化))以推断任何突变。唯一发现的突变事件是杂交 HB3xDd2 的 1 个后代样本中的 2 个 SNP,每个 DBLMSP1/2 基因一个(S27 图)。
工作流和容器化
本文中给出的结果所依据的分析步骤是使用Snakemake[67]编写的生物信息学工作流程实现的,并且所有使用的软件版本都冻结在Singularity容器中[68]。若要访问这些以及结果背后的所有代码和数据,请参阅数据可用性部分。
支持信息
支持论文补充数字的文本文件。
显示 1/29: pbio.3002507.s001.docx
跳到无花果分享导航
抱歉,我们无法预览此文件
1 / 29
下载
无花果分享
S1 文本。 支持论文补充数字的文本文件。
https://doi.org/10.1371/journal.pbio.3002507.s001
(DOCX)
S1 图。 DBLMSP 和 DBLMSP2 中的基因组背景和蛋白质结构域。
这 2 个基因用灰色箭头标记,彼此相距 16.1 kbp,位于 10 号染色体上跨越 32 kbp 的 8 个连续基因阵列内。由于观察到的序列共享,这些基因可能是旁系同源物:所有 8 个基因都有一个 N 端共享基序,另外 6 个具有 C 端 SPAM 结构域,DBLMSP 和 DBLMSP2 进一步共享一个 DBL 结构域(结构域显示为每个基因下方的彩色圆圈)。从PlasmoDB获取的DBLMSP2基因轨迹的屏幕截图中注释的图。
https://doi.org/10.1371/journal.pbio.3002507.s002
(TIF)
S2 图。 分析的3,589个P的地理分布情况。恶性疟原虫样本。
共有29个国家参加,大多数样本位于流行最严重的两个地区:撒哈拉以南非洲和东南亚。底图来自免费分发的 R 软件包“maps”,遵循 GPL-2 许可证:https://cran.r-project.org/package=maps。生成此图的数据和代码可在 https://zenodo.org/doi/10.5281/zenodo.7677547 找到。
https://doi.org/10.1371/journal.pbio.3002507.s003
(TIF)
S3 图。 阅读 3,589 个分析的 P 的统计数据。恶性疟原虫样本。
上面的面板直接显示了在读取上测量的统计数据:每个碱基质量(左上面板)和读取长度(右上面板)。每碱基质量q给出的Illumina估计测序错误率ε为。下方面板显示了将读数映射到 P 后测量的统计数据。恶性疟原虫 3D7 参考基因组:片段长度,根据双端读长(左下)和折叠覆盖率之间的距离估计,根据每个映射位置的读长数估计。生成此图的数据和代码可在 https://zenodo.org/doi/10.5281/zenodo.7677547 中找到。
https://doi.org/10.1371/journal.pbio.3002507.s004
(TIF)
S4 图。 应用于 MalariaGEN 数据的现有和新型基因分型管道。
图(a)说明了MalariaGEN现有的基于GATK的管道,图(b)说明了我们的新管道。两者都首先在每个样本中单独发现变异,然后在所有变异的结合处对每个样本进行基因分型。GATK 依靠线性参考基因组来做到这一点,而 gramtools 使用基因组图。
https://doi.org/10.1371/journal.pbio.3002507.s005
(TIF)
S5 图。 用于评估来自 GATK 和基于 gramtools 的管道的变体调用的框架。
从 VCF 文件(中)中工具的变体调用开始,执行了 2 次独立评估。首先,对于 14 个具有真值组装的样本,通过将它们应用于 3D7 基因序列并测量整个基因的编辑距离(a 部分),将调用直接与真值进行比较。其次,这些调用都应用于参考基因组,并将reads重新映射到该诱导的参考基因组。然后,读取堆积中会出现不正确或缺失的调用,例如与参考基数相比的多数差异、覆盖差距或读取对之间的插入大小不一致(b 部分)。
https://doi.org/10.1371/journal.pbio.3002507.s006
(TIF)
S6 图。 DBLMSP 和 DBLMSP2 中 gramtools 管道步骤的性能。
2 个面板 a 和 b 对应于 S5 图中评估框架的 a 和 b 部分。图(a)显示了14个具有真值组装的样本的推断基因序列与真值组装之间的平均编辑距离(编辑距离按基因长度缩放)。图(b)显示了在应用每个工具的称为变体后,将测序读长重新映射到3D7参考基因组后,具有基于堆积的差异(顶部)和低读取覆盖率(底部)的位置比例。基于堆积的差异是指在给定位置,给定位置的大多数读取与参考不一致,给定至少 5 个映射读取,低读取覆盖率定义为映射读取少于 5 个的位置。图 b 中的每个条形图显示了 3,589 个分析样本中 500 个样本的平均值。在两个面板上,每个彩色条对应于基于 gramtools 的管道中的一个附加步骤,其运行顺序相同(参见 S4 图)。“基线”条件不是管道的一部分,是指使用未应用变异的 3D7 参考基因序列(图 a:与真值组装对齐的 3D7 序列;图 b:与 3D7 参考基因组对齐的样本读数)。生成此图的数据和代码可在 https://zenodo.org/doi/10.5281/zenodo.7677547 中找到。
https://doi.org/10.1371/journal.pbio.3002507.s007
(TIF)
S7 图。 基于 gramtools 和基于 GATK 的管道的全局性能。
面板 a 和 b 显示的指标与 S6 图 6 相同。面板 b 中的指标是在所有 3,589 个分析样本上计算的。生成此图的数据和代码可在 https://zenodo.org/doi/10.5281/zenodo.7677547 找到。
https://doi.org/10.1371/journal.pbio.3002507.s008
(TIF)
S8 图。 基于 gramtools 和基于 GATK 的管道的评估指标的频率分布。
每个子图显示了所有 3,589 个分析样本中 DBLMSP(顶部)和 DBLMSP2(底部)具有基于堆积的间隙(左侧图)或差异(右侧图)的位置比例的频率分布。平均值显示为一条红色垂直线(值显示在其旁边的文本中),对应于 S7 图面板 b 中彩色条的高度。生成此图的数据和代码可在 https://zenodo.org/doi/10.5281/zenodo.7677547 找到。
https://doi.org/10.1371/journal.pbio.3002507.s009
(TIF)
S9 图。 使用基于堆积的指标进行序列过滤。
在每个面板中(“基线”:无变异检出,“gram_joint_geno”:基于gramtools的管道,“malariaGEN”:基于GATK的管道),显示了通过过滤器的剩余基因序列(在3,589个分析样本中)的总分数。过滤器(颜色)按照它们在图例中出现的顺序连续应用于每组剩余的基因序列。其余序列的数量在每个彩色条的上方给出。生成此图的数据和代码可在 https://zenodo.org/doi/10.5281/zenodo.7677547 找到。
https://doi.org/10.1371/journal.pbio.3002507.s010
(TIF)
S10 图。 被定义为共享的肽在许多不同的国家/地区共享。
根据我们的定义(y 轴),在同一国家/地区的两个基因中发现的共享肽的数量,最多 16 个国家/地区具有高水平的采样(定义为 >50 个可用的 DBLMSP1/2 序列;x 轴)。x 轴上的值为零表示在这些国家/地区的两个基因上均未发现共享肽,而 16 表示在所有国家/地区的两个基因上均未发现共享肽。大多数(57%)共享肽在所有这些国家/地区都存在,86%在至少2个不同的国家/地区发现,这表明共享肽总体上在地理上非常广泛。生成此图的数据和代码可在 https://zenodo.org/doi/10.5281/zenodo.7677547 找到。
https://doi.org/10.1371/journal.pbio.3002507.s011
(TIF)
S11 图。 具有序列共享的聚类树。
最内层的 2 个环显示基因和起源物种(如图 2 所示),最外层的环测量 2 个基因之间的序列共享水平(参见文中的定义)。生成此图的数据和代码可在 https://zenodo.org/doi/10.5281/zenodo.7677547 找到。
https://doi.org/10.1371/journal.pbio.3002507.s012
(TIF)
S12 图。 共享肽 10-mer 非常普遍。
显示了每个位置(x 轴)的共享肽的频率(y 轴),显示了具有 50 个以上序列的 16 个国家/地区。颜色表示每个基因的频率。在所有国家/地区,共享肽的频率很高,在 25% 到 50% 之间。推而广之,私有肽也很常见,因为任何非共享肽都是私有肽。在x轴的左右两端,零值表示该区域的发散侧翼,而1的值对应于两个基因中始终相同的肽,即任何突变都可能通过选择消除。在图的左侧,DBLMSP2显示了所有国家/地区共享肽频率较低的区域,表明该区域在 DBLMSP 和 DBLMSP2 之间几乎完全分化。生成此图的数据和代码可在 https://zenodo.org/doi/10.5281/zenodo.7677547 找到。
https://doi.org/10.1371/journal.pbio.3002507.s013
(TIF)
S13 图。 P的鉴定。Laverania 组件中的恶性疟原体直系同源物。
对于每个 P。恶性疟原虫基因(panels),使用 minimap2(预设:“-x asm20”)搜索直系同源物。y 轴显示按 P 的长度归一化的每次命中的长度。恶性疟原虫基因序列,并且命中按每个 Laverania 组装中查询序列和靶标之间的 % 同一性着色。前 7 个面板显示基因在 P 上 40 kbp 的 10 号染色体段中连续发生。恶性疟原虫 3D7 参考基因组,并添加了 AMA1,因为我们预计它保存良好并在单拷贝中发现。AMA1 确实可以在所有 6 个 Laverania 组装体中全长找到,MSP11 也是如此,MSP11 是一个位于 DBLMSP 和 DBLMSP2 之间的基因。我们注意到 P 中缺少许多基因。布莱克洛克;这很可能是由于测序前的限制性全基因组扩增形式,原作者指出,这导致了最终组装中核心基因的缺失[17]。生成此图的数据和代码可在 https://zenodo.org/doi/10.5281/zenodo.7677547 找到。
https://doi.org/10.1371/journal.pbio.3002507.s014
(TIF)
S14 图 全长 DBLMSP1/2 序列的聚类树。
该图与图 2 相同,只是该树是由所有独特的 DBLMSP1/2 全长蛋白质序列构建的,而不仅仅是 DSR。而 DBLMSP 序列来自 P.reichenowi 和 P.billcollinsi 是 DBLMSP 等位基因分支中的外群,DBLMSP 和 DBLMSP2 的序列来自 P。praefalciparum 落在 P 的分支内。恶性疟原虫等位基因。这与最近的P辐射一致。来自P的恶性疟原虫。类似Praefalciparum的祖先。DBLMSP2 在 P 中不存在。billcollinsi 并且未显示在 P 的树中。Reichenowi,因为它是假基因化的。生成此图的数据和代码可在 https://zenodo.org/doi/10.5281/zenodo.7677547 找到。
https://doi.org/10.1371/journal.pbio.3002507.s015
(TIF)
S15 图。 全长 AMA1 序列的聚类树。
如上图所示,P.praefalciparum 属于 P。恶性疟原虫分支,与最近的 P 辐射一致。来自P的恶性疟原虫。praefalciparum的祖先,而来自其他Laverania物种的直系同源物则作为P的外群出现。恶性疟原虫等位基因。生成此图的数据和代码可在 https://zenodo.org/doi/10.5281/zenodo.7677547 找到。
https://doi.org/10.1371/journal.pbio.3002507.s016
(TIF)
S16 图。 DSR 中专用和共享数据库序列的 HMM 徽标。
一个标志是针对仅在DBLMSP(上图)中发现的肽,仅在DBLMSP2(中图)中发现的肽,并在两个基因上发现(下图,标记为“Both”)。为了视觉清晰,3 条轨道被分成几段。在每个位置,显示观察到的氨基酸,字母高度与氨基酸频率成正比。在不同的 N 端和 C 端区域之间,每个基因通常有 1 个原型私有序列(前 2 个轨道)和 1 个原型共享序列(或 2 个,在蛋白质结构域的 C 端半部分)。生成此图的数据和代码可在 https://zenodo.org/doi/10.5281/zenodo.7677547 找到。
https://doi.org/10.1371/journal.pbio.3002507.s017
(TIF)
S17 图。 每个位置的不同共享肽和私有肽的数量。
对于 2 个私有和 1 个共享 MSA,包含仅在 DBLMSP 中发现的肽(上图)、仅在 DBLMSP2(中图)中发现的肽,或两者(下图),显示了每个位置的不同肽 10-mer 的总数。大多数情况下,在共享类别的每个位置观察到 1 到 4 个肽,而仅在每个基因上观察到 2 到 6 个肽。该图补充了 S16 图,该图显示大多数情况下,每个基因中出现两个 10 聚体肽的频率很高——这里显示了总数,无论频率如何。生成此图的数据和代码可在 https://zenodo.org/doi/10.5281/zenodo.7677547 找到。
https://doi.org/10.1371/journal.pbio.3002507.s018
(TIF)
S18 图。 验证 MosaicAligner 推断的重组事件。
蓝点显示每个目标到由 MosaicAligner 推断的供体路径的编辑距离(y 轴)和到单个最近供体(x 轴)的编辑距离。灰色虚线显示 y = x。所有推理都缩短了与单个最接近供体的编辑距离,支持将重组断点添加到对齐中。生成此图的数据和代码可在 https://zenodo.org/doi/10.5281/zenodo.7677547 找到。
https://doi.org/10.1371/journal.pbio.3002507.s019
(TIF)
S19 图例。 谱系内和谱系间重组的模式。
图中显示了与正文图 2 相同的聚类树,并添加了连接 2 个序列的虚线,如果推断它们在过去某个时间点重新组合(参见正文和方法了解如何)。大多数重组事件发生在树的主要谱系内(例如,在A内或B.1中),但少数事件也发生在树的高度分化谱系之间(例如,在C和A之间,或C和B.2之间)。生成此图的数据和代码可在 https://zenodo.org/doi/10.5281/zenodo.7677547 找到。
https://doi.org/10.1371/journal.pbio.3002507.s020
(TIF)
S20 图。 谱系内和系间重组的具体例子。
矩阵中显示了五种不同的重组,其中,如正文的图 4 所示,每个矩阵描绘了 1 个目标序列与 35 个序列面板的马赛克对齐。DBLMSP(顶部)和 DBLMSP2(底部)的序列由白色水平条分隔。每个细胞的颜色取决于以该位置为中心的 10 号肽是仅出现在 DBLMSP(蓝绿色)、仅出现在DBLMSP2(橙色)还是两者(黄色)。重组主要发生在私DBLMSP2谱系(所有供体大多为橙色)和共享DBLMSP2谱系(所有供体大多为黄色)内。在最后一个面板中,目标是高度私有和高度共享序列的重组体。生成此图的数据和代码可在 https://zenodo.org/doi/10.5281/zenodo.7677547 找到。
https://doi.org/10.1371/journal.pbio.3002507.s021
(TIF)
S21 图例。 三种镶嵌比对支持基因转换。
在每个面板中,可以看到 2 个重组断点(红色垂直线)。目标序列是完全不透明的序列(沿其整个长度;用黑色箭头表示),供体序列(目标对齐的序列)在与目标匹配的地方显示为突出显示,而在不匹配的地方则不太不透明。在每个面板中,靶标与 2 个不同基因的供体对齐,与基因之间的基因转换一致。生成此图的数据和代码可在 https://zenodo.org/doi/10.5281/zenodo.7677547 找到。
https://doi.org/10.1371/journal.pbio.3002507.s022
(TIF)
S22 图。 DBLMSP1/2 密码子水平同一性在 2,882 个可靠解析样本中的分布。
对于两个 DBLMSP1/2 序列均被可靠解析的所有样品,对单个基因组中 DBLMSP 和 DBLMSP2 的 DNA 序列进行比对,并记录 DSR 中相同密码子的比例。大多数样本具有相当低的同一性水平(例如,0.2 到 0.4),少数样本具有较高的同一性水平,定义为 >0.5 同一性。正文的图4说明了后面的样本。生成此图的数据和代码可在 https://zenodo.org/doi/10.5281/zenodo.7677547 找到。
https://doi.org/10.1371/journal.pbio.3002507.s023
(TIF)
S23 图。 来自 2 个基因转换事件的样本的序列基序。
正文图 4 中的 2 个转化事件中的每一个都制作了一个徽标,为了视觉清晰,每个徽标分为 3 个部分。虽然在许多位置,每个转化事件中的序列重叠,但每个序列都富集了不同的氨基酸,并且某些位置具有完全不同的氨基酸。这支持每个事件都有不同的进化轨迹,因此在 DBLMSP1/2 中至少发生了 2 个不同的基因转换事件。生成此图的数据和代码可在 https://zenodo.org/doi/10.5281/zenodo.7677547 找到。
https://doi.org/10.1371/journal.pbio.3002507.s024
(TIF)
S24 图。 2个基因转换事件的地理分布。
这 2 个面板对应于正文图 4 中确定的 2 个基因转换事件(顺序相同)。在每个面板中,通过点的大小和颜色显示每个地理区域的样本数量。对于这两种转化事件,样本在地理上都很广泛,发生在西非、东非和东南亚。底图来自免费分发的 python 包“plotly”(函数“plotly.express.scatter_geo”),根据 MIT 许可证:https://github.com/plotly/plotly.py。生成此图的数据和代码可在 https://zenodo.org/doi/10.5281/zenodo.7677547 中找到。
https://doi.org/10.1371/journal.pbio.3002507.s025
(TIF)
S25 图 用推定的 CNV 鉴定样品。
对于所有 3,589 个分析集样本,在基因 DBLMSP、DBLMSP2 和 AMA1 中测量了重新对齐“诱导参考”(S5 图,图 b)的每碱基读长覆盖率的平均值和标准偏差 (std)。对于每个基因,我们产生了一个覆盖区间{mean– 2 * std,mean + 2 * std},我们认为这是基因水平覆盖率的“合理范围”。x 轴显示 DBLMSP1/2 中的平均覆盖率与 AMA1 中的平均覆盖率之比,我们假设该基因在所有样本中都是单拷贝的。边际分布直方图显示在顶部。大多数样本的比率为 1,有些样本的比率为 <0.5 或 >2,表明可能的拷贝数变化。y 轴显示 DBLMSP 或 DBLMSP2 覆盖间隔与 AMA1 覆盖间隔重叠的分数。大多数样本具有完全重叠的区间(右侧的边缘分布)。重叠值越小,表示覆盖率的真实差异越大。在分析的 6,123 个(“可靠解析”)DBLMSP 和 DBLMSP2 序列中,31 个具有折叠覆盖率 >2 和重叠 <0.5(图右下角),表明假定存在重复。其中三个与具有基因转换证据的样本重叠,并在该分析中被过滤掉(正文图4)。生成此图的数据和代码可在 https://zenodo.org/doi/10.5281/zenodo.7677547 中找到。
https://doi.org/10.1371/journal.pbio.3002507.s026
(TIF)
S26 图。 DBLMSP1/2 的 DBL 跨区域 (DSR) 的多样性和发散水平。
前 2 个面板测量 DBLMSP 和 DBLMSP2 中的每一个,随机选择的基因对的密码子同一性百分比,并且是序列多样性的度量。第三幅图显示了所有 2,882 个样本中 DBLMSP 和 DBLMSP2 之间的密码子同一性百分比,它们是序列差异的衡量标准。基因间差异超过基因内多样性(跨基因密码子同一性低于基因内)。生成此图的数据和代码可在 https://zenodo.org/doi/10.5281/zenodo.7677547 找到。
https://doi.org/10.1371/journal.pbio.3002507.s027
(TIF)
S27 图。 在 1 个遗传杂交后代中鉴定出两个 SNP。
在来自遗传杂交 HB3xDd2 的 1 个后代样本中,在 DBLMSP1/2 中鉴定出 2 个 SNP,每个基因一个(图 a:DBLMSP2,图 b:DBLMSP)。在这两个面板中,顶部轨迹显示亲本基因序列 (HB3),下面显示了 4 个后续轨迹,每个轨迹代表 1 个不同的对齐序列(灰色水平条)。第一个比对的序列是子样本基因序列,显示与亲本的单个 SNP 差异。为了确认这些是自发突变,而不是来自同源物的单碱基基因转换,将 3 个可能是转换供体的同源序列与亲本对齐:来自另一个杂交亲本的直系同源序列(Dd2,第二条轨道)和来自父母双方的同源序列(第三和第四条轨道)。在SNP位置看不到与这些匹配项。生成此图的数据和代码可在 https://zenodo.org/doi/10.5281/zenodo.7677547 找到。
https://doi.org/10.1371/journal.pbio.3002507.s028
(TIF)
S1 表。 我们新的基因分型管道中使用的工具的特征。
总结了每种工具的方法和主要优势。“特异性”是指变异检出中的低假阳性率,“敏感”是指高真阳性率。
https://doi.org/10.1371/journal.pbio.3002507.s029
(DOCX)
确认
作者感谢Leah Roberts审阅手稿,感谢Richard Pearson和Gavin Band对疟疾基因组学的讨论,感谢Richard Pearson在Pf7发布之前分享MalariaGEN数据[69]。
引用
1.世界卫生组织。世卫组织《2021年疟疾报告》[互联网]。日内瓦:世界卫生组织;2022. 可从: https://apps.who.int/iris/handle/10665/356584
2.赖特 GJ,雷纳 JC。恶性疟原虫红细胞侵袭:功能与免疫逃避相结合。PLoS 病态。2014年3月20日;10(3):e1003943.PMID:24651270
查看文章PubMed/NCBI的Google 学术搜索
3.沃尔格伦 M、戈尔 S、阿克胡里 RR。恶性疟原虫的变异表面抗原及其在重症疟疾中的作用。Nat Rev 微生物。2017年8月;15(8):479–491.
查看文章Google 学术搜索
4.Freitas-Junior LH、Bottius E、Pirrit LA、Deitsch KW、Scheidig C、Guinet F 等。恶性疟原虫端粒染色体簇中毒力因子基因的频繁异位重组。自然界。2000年10月;407(6807):1018–1022.PMID:11069183
查看文章PubMed/NCBI的Google 学术搜索
5.泰勒 HM、凯斯 SA、纽博尔德 CI。恶性疟原虫的 Var 基因多样性是由频繁的重组事件产生的。Mol Biochem Parasitol 2000 年 10 月 1 日;110(2):391–397.PMID:11071291
查看文章PubMed/NCBI的Google 学术搜索
6.达菲 MF、伯恩 TJ、卡雷特 C、伊文斯 A、布朗 GV。有丝分裂期间疟疾 var 基因的异位重组与 var 转换率改变相关。J Mol Biol. 2009 年 6 月 12 日;389(3):453–469.PMID:19389407
查看文章PubMed/NCBI的Google 学术搜索
7.Claessens A、Hamilton WL、Kekre M、Otto TD、Faizullabhoy A、Rayner JC 等。恶性疟原虫通过有丝分裂期间 Var 基因的结构重排产生抗原多样性。PLoS 基因。2014年12月18日;10(12):e1004812.PMID:25521112
查看文章PubMed/NCBI的Google 学术搜索
8.田边 K、麦凯 M、戈曼 M、斯凯夫 JG。疟疾寄生虫恶性疟原虫表面抗原基因中的等位基因二态性。J Mol Biol. 1987 年 5 月 20 日;195(2):273–287.PMID:3079521
查看文章PubMed/NCBI的Google 学术搜索
9.恶性疟原虫裂殖子表面蛋白-3 (MSP-3) 中结构基序和抗原多样性的守恒。分子生化副硅醇。1997年12月1日;90(1):21–31.PMID:9497029
查看文章PubMed/NCBI的Google 学术搜索
10.Pearce JA, Triglia T, Hodder AN, Jackson DC, Cowman AF, Anders RF. 恶性疟原虫 Merozoite 表面蛋白 6 是一种二态性抗原。感染免疫。 2004年4月;72(4):2321–2328.PMID:15039357
查看文章PubMed/NCBI的Google 学术搜索
11.费雷拉 MU, 哈特尔 DL.恶性疟原虫:疟疾候选疫苗裂殖子表面蛋白-2 (MSP-2) 的全球序列多样性和进化。Exp Parasitol。2007年1月1日;115(1):32–40.PMID:16797008
查看文章PubMed/NCBI的Google 学术搜索
12.Ochola LI、Tetteh KKA、Stewart LB、Riitho V、Marsh K、Conway DJ。恶性疟原虫中一组新的过滤多态性基因中平衡选择的基于等位基因频率和多态性与发散指数。Mol Biol Evol.2010年10月1日;27(10):2344–2351.PMID:20457586
查看文章PubMed/NCBI的Google 学术搜索
13.Amambua-Ngwa A, Tetteh KKA, Manske M, Gomez-Escobar N, Stewart LB, Deerhake ME, et al. 群体基因组扫描以寻找平衡选择的候选特征,以指导疟疾寄生虫的抗原表征。PLoS 基因。2012年11月1日;8(11):E1002992.PMID:23133397
查看文章PubMed/NCBI的Google 学术搜索
14.罗伊 SW、费雷拉 MU、哈特尔 DL。疟疾表面抗原等位基因二态性的进化。遗传。2008年2月;100(2):103–110.PMID:17021615
查看文章PubMed/NCBI的Google 学术搜索
15.Liu W, Li Y, Learn GH, Rudicell RS, Robertson JD, Keele BF, et al.人类疟疾寄生虫恶性疟原虫在大猩猩中的起源。自然界。2010年9月;467(7314):420–425.PMID:20864995
查看文章PubMed/NCBI的Google 学术搜索
16.Loy DE, Liu W, Li Y, Learn GH, Plenderleith LJ, Sundararaman SA, et al.走出非洲:人类疟疾寄生虫恶性疟原虫和间日疟原虫的起源和进化。Int J Parasitol.2017年2月1日;47(2):87–97.PMID:27381764
查看文章PubMed/NCBI的Google 学术搜索
17.Otto TD、Gilabert A、Crellen T、B?hme U、Arnathau C、Sanders M 等。疟原虫亚属所有已知成员的基因组揭示了致病性人类疟疾的途径。Nat微生物。2018年6月;3(6):687–697.PMID:29784978
查看文章PubMed/NCBI的Google 学术搜索
18.迈尔斯 A、伊克巴尔 Z、沃特林 P、皮尔森 R、坎皮诺 S、塞隆 M 等。插入缺失、结构变异和重组驱动恶性疟原虫的基因组多样性。基因组研究 2016 年 9 月 1 日;26(9):1288–1299.PMID:27531718
查看文章PubMed/NCBI的Google 学术搜索
19.Wickramarachchi T、Cabrera AL、Sinha D、Dhawan S、Chandran T、Devi YS 等。一种与裂殖子表面相关的新型恶性疟原虫红细胞结合蛋白 PfDBLMSP。2009年6月1日;39(7):763–773.PMID:19367830
查看文章PubMed/NCBI的Google 学术搜索
20.辛格 S、索 S、魏斯曼 S、巴恩韦尔 JW、培里侬 JL、德鲁伊 P.保守的多基因家族诱导交叉反应抗体,有效防御恶性疟原虫。Moorthy V,编辑。PLoS 一号。2009年4月30日;4(4):e5410.
查看文章Google 学术搜索
11 分钟Tolia NH, Enemark EJ, Sim BKL, Joshua-Tor L. 疟疾寄生虫恶性疟原虫 EBA-175 红细胞侵袭途径的结构基础。细胞。2005年7月29日;122(2):183–193.PMID:16051144
查看文章PubMed/NCBI的Google 学术搜索
12 分钟克雷默 SM,史密斯 JD。家族事务:var基因、PfEMP1结合和疟疾疾病。Curr Opin 微生物。2006年8月;9(4):374–380.PMID:16814594
查看文章PubMed/NCBI的Google 学术搜索
13 分钟Crosnier C、Iqbal Z、Knuepfer E、Maciuca S、Perrin AJ、Kamuyu G 等。恶性疟原虫裂殖子表面蛋白 DBLMSP 和 DBLMSP2 与人免疫球蛋白 M 的结合在广泛不同的序列变体中是保守的*。生物化学杂志 2016 7月 1;291(27):14285–14299.PMID:27226583
查看文章PubMed/NCBI的Google 学术搜索
14 分钟Maciuca S, del Ojo Elias C, McVean G, Iqbal Z.Burrows-Wheeler 变换中遗传变异的自然编码,可实现绘图和基因组推断。在:Frith M,Storm Pedersen CN,编辑。生物信息学中的算法。Cham:施普林格国际出版社;2016 年,第 222–233 页。(计算机科学讲义)。
15 分钟Letcher B, Hunt M, Iqbal Z. Gramtools 可通过基因组图进行多尺度变异分析。基因组生物学 2021 年 12 月;22(1):259.PMID:34488837
查看文章PubMed/NCBI的Google 学术搜索
16 分钟Manske M、Miotto O、Campino S、Auburn S、Almagro-Garcia J、Maslen G 等。通过深度测序分析自然感染中的恶性疟原虫多样性。自然界。2012年7月;487(7407):375–379.PMID:22722859
查看文章PubMed/NCBI的Google 学术搜索
27.疟疾 GEN、Ahouidi A、Ali M、Almagro-Garcia J、Amambua-Ngwa A、Amaratunga C 等。全球 7,000 个样本中恶性疟原虫基因组变异的开放数据集。惠康公开赛 2021 年 2 月 24;6:42。PMID:33824913
查看文章PubMed/NCBI的Google 学术搜索
28.Zhu SJ, Hendry JA, Almagro-Garcia J, Pearson RD, Amato R, Miles A, et al.混合感染的起源和相关性结构因恶性疟原虫疟疾的当地患病率而异。Franco E、Daniels R、Greenhouse B、Schaffner S,编辑。生命。2019年7月12日;8:E40845。PMID:31298657
查看文章PubMed/NCBI的Google 学术搜索
29.Hunt M、Letcher B、Malone KM、Nguyen G、Hall MB、Colquhoun RM 等。Minos:细菌基因组队列的变异裁决和联合基因分型。基因组生物学 2022 7月 5;23\(1):147.PMID:35791022
查看文章PubMed/NCBI的Google 学术搜索
30.DePristo MA、Banks E、Poplin R、Garimella KV、Maguire JR、Hartl C 等。使用下一代 DNA 测序数据进行变异发现和基因分型的框架。纳特·热内特。2011年5月;43(5):491–498.PMID:21478889
查看文章PubMed/NCBI的Google 学术搜索
31.Poplin R、Ruano-Rubio V、DePristo MA、Fennell TJ、Carneiro MO、der Auwera GAV 等。将准确的遗传变异发现扩展到数以万计的样本。生物Rxiv。2018 7 月;24:201178.
查看文章Google 学术搜索
32.Sakihama N, Kimura M, Hirayama K, Kanda T, Na-Bangchang K, Jongwutiwes S, et al.恶性人类疟疾寄生虫恶性疟原虫 Msp-1 内的等位基因重组和连锁不平衡。基因。1999年4月1日;230(1):47–54.PMID:10196473
查看文章PubMed/NCBI的Google 学术搜索
33.Zilversmit MM, Chase EK, Chen DS, Awadalla P, Day KP, McVean G. 疟疾中的高变抗原基因有着古老的根源。BMC Evol Biol. 2013 年 5 月 31 日;13(1):110.PMID:23725540
查看文章PubMed/NCBI的Google 学术搜索
34.陈 JM, 库珀 DN, 楚扎诺娃 N, 费雷克 C, 帕特里诺斯 GP.基因转换:机制、进化和人类疾病。Nat Rev Genet。2007年10月;8(10):762–775.PMID:17846636
查看文章PubMed/NCBI的Google 学术搜索
35.汉密尔顿 WL、克莱森斯 A、奥托 TD、凯克雷 M、费尔赫斯特 RM、雷纳 JC 等。恶性疟原虫的极端突变偏倚和高AT含量。核酸研究 2017 年 2 月 28 日;45(4):1889–1901.PMID:27994033
查看文章PubMed/NCBI的Google 学术搜索
36.Garimella KV、Iqbal Z、Krause MA、Campino S、Kekre M、Drury E 等。使用多个参考序列检测简单和复杂的从头突变。基因组研究 2020 年 8 月 19 日;30(8):1154–1169.PMID:32817236
查看文章PubMed/NCBI的Google 学术搜索
37.科尔特斯 A.嵌合恶性疟原虫 Pfnbp2b/Pfnbp2a 基因起源于无性生长期间。Int J Parasitol.2005年2月1日;35(2):125–130.PMID:15710432
查看文章PubMed/NCBI的Google 学术搜索
38.Sundararaman SA, Plenderleith LJ, Liu W, Loy DE, Learn GH, Li Y, et al.神秘的黑猩猩疟原虫物种的基因组揭示了导致人类疟疾的关键进化事件。纳特公社。2016年3月22日;7(1):11078.PMID:27002652
查看文章PubMed/NCBI的Google 学术搜索
39.夏普 PM、Plenderleith LJ、哈恩 BH。人类疟疾的猿类起源。Annu Rev 微生物。2020年9月8日;74(1):39–63.PMID:32905751
查看文章PubMed/NCBI的Google 学术搜索
40.Nielsen KM, Kasper J, Choi M, Bedford T, Kristiansen K, Wirth DF, et al. 基因转换作为恶性疟原虫核苷酸多样性的来源。Mol Biol Evol.2003年5月1日;20(5):726–734.PMID:12679555
查看文章PubMed/NCBI的Google 学术搜索
41.亚当斯 JH、布莱尔 PL、金子 O、彼得森 DS。恶性疟原虫的 ebl 家族不断扩大。趋势 Parasitol.2001年6月1日;17(6):297–299.PMID:11378038
查看文章PubMed/NCBI的Google 学术搜索
42.Aurrecoechea C、Brestelli J、Brunk BP、Dommer J、Fischer S、Gajria B 等。PlasmoDB:疟疾寄生虫的功能性基因组数据库。核酸研究 2009 年 1 月 1 日;37(suppl_1):D 539–D543。PMID:18957442
查看文章PubMed/NCBI的Google 学术搜索
43.Filarsky M, Fraschka SA, Niederwieser I, Brancucci NMB, Carrington E, Carrió E, et al. GDV1 通过拮抗 HP1 依赖性基因沉默诱导疟疾寄生虫的性行为。科学。2018年3月16日;359(6381):1259–1263.PMID:29590075
查看文章PubMed/NCBI的Google 学术搜索
44.Venugopal K, Hentzschel F, Valkiūnas G, Marti M. 疟原虫在宿主造血生态位中的无性生长和性发育。Nat Rev 微生物。2020年3月;18(3):177–189.PMID:31919479
查看文章PubMed/NCBI的Google 学术搜索
45.布谢尔 KM、索尔纳 C、舒斯特-博克勒 B、贝特曼 A、赖特 GJ。大规模筛选新型低亲和力细胞外蛋白相互作用。基因组研究 2008 年 4 月 1 日;18(4):622–630.PMID:18296487
查看文章PubMed/NCBI的Google 学术搜索
46.巴托尔德森 SJ、克罗斯尼尔 C、布斯塔曼特 LY、雷纳 JC、赖特 GJ。使用系统细胞外蛋白相互作用筛选鉴定新型恶性疟原虫红细胞侵袭受体。细胞微生物。2013;15(8):1304–1312.PMID:23617720
查看文章PubMed/NCBI的Google 学术搜索
47.Jumper J、Evans R、Pritzel A、Green T、Figurnov M、Ronneberger O 等。使用 AlphaFold 进行高度准确的蛋白质结构预测。自然界。2021年8月;596(7873):583–589.PMID:34265844
查看文章PubMed/NCBI的Google 学术搜索
48.Auburn S、Campino S、Miotto O、Djimde AA、Zongo I、Manske M 等。使用下一代序列数据表征宿主内恶性疟原虫多样性。Snounou G,编辑。PLoS 一号。2012年2月29日;7(2):e32891.
查看文章Google 学术搜索
49.Bolger AM, Lohse M, Usadel B. Trimmomatic:用于Illumina序列数据的灵活修剪器。生物信息学。2014年8月1日;30(15):2114–2120.PMID:24695404
查看文章PubMed/NCBI的Google 学术搜索
50.MB厅。Rasusa:随机子样本测序读数达到指定的覆盖率。J 开源软件。2022年1月29日;7(69):3941.
查看文章Google 学术搜索
51.Li H. 使用 BWA-MEM 对齐序列读取、克隆序列和组装重叠群。ArXiv13033997 Q-Bio [互联网].2013年3月16日;可从: http://arxiv.org/abs/1303.3997
查看文章Google 学术搜索
52.Otto TD、B?hme U、Sanders M、Reid A、Bruske EI、Duffy CW 等。地理上分散的恶性疟原虫分离株的长读长组装揭示了高度结构化的亚端粒。惠康公开赛 2018 年 5 月;3:3。
查看文章Google 学术搜索
53.Shen W, Le S, Li Y, 胡 F. SeqKit: A Cross-Platform and Ultrafast Toolkit for FASTA/Q File Manipulation.PLoS 一号。2016年10月5日;11(10):e0163962.PMID:27706213
查看文章PubMed/NCBI的Google 学术搜索
54.Katoh K, Misawa K, Kuma K, Miyata T. MAFFT:一种基于快速傅里叶变换的快速多序列比对新方法。核酸研究 2002 年 7 月 15 日;30(14):3059–3066.PMID:12136088
查看文章PubMed/NCBI的Google 学术搜索
65 分钟Nei M, Li WH. 根据限制性核酸内切酶研究遗传变异的数学模型.Proc Natl Acad Sci. 1979年10月;76(10):5269–5273.PMID:291943
查看文章PubMed/NCBI的Google 学术搜索
56.Finn RD, Clements J, Eddy SR. HMMER Web 服务器:交互式序列相似性搜索。核酸研究 2011;39(suppl_2):W29–W37。可从: https://academic.oup.com/nar/article/39/suppl_2/W29/2506513 pmid:21593126
查看文章PubMed/NCBI的Google 学术搜索
57.Otto TD、Rayner JC、B?hme U、Pain A、Spottiswoode N、Sanders M 等。黑猩猩疟疾寄生虫的基因组测序揭示了适应人类宿主的可能途径。纳特公社。2014年9月9日;5(1):4754.PMID:25203297
查看文章PubMed/NCBI的Google 学术搜索
58.Li H. Minimap2:核苷酸序列的成对比对。生物信息学。2018年9月15日;34(18):3094–3100.PMID:29750242
查看文章PubMed/NCBI的Google 学术搜索
59.Quinlan AR,大厅 IM。BEDTools:一套灵活的实用程序,用于比较基因组特征。生物信息学。2010年3月15日;26(6):841–842.PMID:20110278
查看文章PubMed/NCBI的Google 学术搜索
60.Shumate A, Salzberg SL. Liftoff:基因注释的精确定位。生物信息学。2021年7月19日;37(12):1639–1643.PMID:33320174
查看文章PubMed/NCBI的Google 学术搜索
61.Virtanen P, Gommers R, Oliphant TE, Haberland M, Reddy T, Cournapeau D, et al. SciPy 1.0:Python 中科学计算的基本算法。Nat 方法。2020年3月;17(3):261–272.
查看文章Google 学术搜索
62.Fu L, Niu B, Zhu Z, Wu S, Li W. CD-HIT:用于对下一代测序数据进行聚类的加速。生物信息学。2012年12月1日;28(23):3150–3152.PMID:23060610
查看文章PubMed/NCBI的Google 学术搜索
63.Robinson JT、Thorvaldsdóttir H、Winckler W、Guttman M、Lander ES、Getz G 等。综合基因组学查看器。国家生物技术。2011年1月;29(1):24–26.PMID:21221095
查看文章PubMed/NCBI的Google 学术搜索
64.Walliker D, Quakyi IA, Wellems TE, McCutchan TF, Szarfman A, London WT, et al. 人类疟疾寄生虫恶性疟原虫的遗传分析。科学。1987年6月26日;236(4809):1661–1666.电话:3299700
查看文章PubMed/NCBI的Google 学术搜索
65.Wellems TE、Panton LJ、Gluzman IY、do Rosario VE、Gwadz RW、Walker-Jonah A 等。氯喹耐药性与恶性疟原虫杂交中的 MDR 样基因无关。自然界。1990年5月;345(6272):253–255.PMID:1970614
查看文章PubMed/NCBI的Google 学术搜索
66.Hayton K, Gaur D, Liu A, Takahashi J, Henschen B, Singh S, et al. 红细胞结合蛋白 PfRH5 多态性决定恶性疟原虫入侵的物种特异性途径。细胞宿主微生物。2008年7月17日;4(1):40–51.PMID:18621009
查看文章PubMed/NCBI的Google 学术搜索
67.M?lder F、Jablonski KP、Letcher B、Hall MB、Tomkins-Tinch CH、Sochat V 等。使用 Snakemake 进行可持续数据分析。F1000分辨率2021;10:33.PMID:34035898
查看文章PubMed/NCBI的Google 学术搜索
68.Kurtzer 总经理、Sochat V、Bauer MW。Singularity:用于计算移动性的科学容器。PLoS 一号。2017年5月11日;12(5):e0177459.PMID:28494014
查看文章PubMed/NCBI的Google 学术搜索
69.疟疾原 Abdel Hamid MM、Abdelraheem MH Acheampong DO、Ahouidi A、Ali M 等。Pf7:全球 20,000 个样本中恶性疟原虫基因组变异的开放数据集。惠康公开赛 2023 年 1 月 16;8:22。PMID:36864926
查看文章PubMed/NCBI的Google 学术搜索