医学论文发表 -阐明恶性疟原虫流行率与遗传多样性衡量标准之间的关系,以及疟疾的遗传流行病学模型
· 杰森·亨德里
· 多米尼克·克维亚特科夫斯基
· 吉尔·麦克
· 发布时间: 2021年8月19日
抽象
正在从该领域收集大量疟疾遗传数据,但利用这些数据了解区域流行病学的驱动因素仍然是一项挑战。一个关键问题是缺乏将寄生虫遗传多样性与流行病学参数联系起来的模型。人口遗传学中的经典模型描述了与人口参数有关的遗传多样性变化,但没有考虑到疟疾生命周期的独特特征。相比之行病学模型,如罗斯 - 麦克唐纳模型,捕捉疟疾传播动态,但不考虑遗传学。在这里,我们开发了一个综合模型,包括寄生虫进化和区域流行病学。我们通过将罗斯-麦克唐纳模型与主机内连续时间莫兰模型相结合来实现这一点,从而明确代表在传统流行病学框架中单个寄生虫基因组的进化。作为随机模拟,我们使用该模型来探索寄生虫遗传多样性和寄生虫流行率(一种广泛使用的传播强度指标)之间的关系。首先,我们探讨不同寄生虫的流行如何影响均衡的遗传多样性。我们发现,多种遗传多样性统计数据与流行率相关,但这种关系的强度取决于流行率的变化是由宿主或病媒相关因素驱动的。接下来,我们评估各种统计数据对疟疾控制干预措施的反应,发现与混合感染相关的统计数据反应迅速(+月份),而其他统计数据(如核苷酸多样性)可能需要几十年才能做出响应。这些发现提供了对利用遗传数据监测疟疾流行病学的机遇和挑战的见解。
作者摘要
了解恶性疟原虫疟疾的流行情况如何因地区或时间而异,对疟疾控制方案的运作至关重要。然而,通过传统方法获取这些信息提出了许多挑战。寄生虫遗传数据越来越容易获得,并可能提供一种替代方法来估计该领域的恶性疟原虫流行率。然而,我们对寄生虫种群的遗传多样性与流行程度的理解有限,而且在很大程度上缺乏指导我们理解的适当模型。在这里,我们合并了两个经典模型罗斯-马康达尔德和莫兰-产生一个框架,其中寄生虫遗传多样性和流行之间的关系可以探讨。我们发现,一些遗传多样性统计数据与流行率相关,尽管程度不同,而且时间尺度也不同。总体而言,与混合感染有关的统计数据对流行率的变化反应强劲且迅速,表明它们可能是开发利用遗传数据的疟疾监测方法的有用协调中心。
引文:亨德里·贾、克维亚特科夫斯基D、麦克维恩G(2021年)将恶性疟原虫流行率与遗传多样性衡量标准与疟疾遗传流行病学模型相结合的关系阐明。PLoS 计算生物 17 (8): e1009287.https://doi.org/10.1371/journal.pcbi.1009287
编辑:亚历克斯·帕金斯,美国圣母大学
接收:2020年9月7日:已接受:2021年7月19日:已发布:2021 年 8 月 19 日
版权所有:2021年?亨德里等人。这是根据《知识共享归因许可证》条款分发的开放访问文章,该条款允许在任何媒介中不受限制地使用、分发和复制,前提是原始作者和来源被记入贷记。
数据可用性:所有相关数据均在手稿及其支持信息文件中。作为这份手稿的一部分开发的所有代码,包括前瞻梦想,都可以在 GitHub 上找到(https://github.com/JasonAHendry/fwd-dream)。
资金:这项研究得到了韦康信托 https://wellcome.ac.uk/(206194,090770,204911,100956/Z/13/Z到通用汽车,109107/Z/15/Z到JH)和李嘉诚基金会https://www.lksf.org/(通用汽车)的支持。 这项研究的计算方面得到了韦尔康信托核心奖赠款编号203141/Z/16/Z和NIHR牛津BRC的支持。所表达的观点是作者的观点,不一定是国民保健制度、国家卫生研究院或卫生部的观点。资助者在研究设计、数据收集和分析、决定出版或准备手稿方面没有作用。
竞争利益:作者宣称不存在相互竞争的利益。
介绍
人们普遍认为,疟疾的区域流行病学与当地寄生虫种群的遗传多样性之间存在着关系。例如,抗疟药物耐药性的起源和传播、寄生虫迁移的速度和方向以及局部传播强度都对种群遗传多样性产生影响(在[1]7中回顾)。然而,在大多数情况下,这些关系的确切性质仍然不清楚。从建模的角度来看,探索这些关系需要将遗传过程(包括突变、漂移和梅病)和流行病学过程(包括疟疾的传播动力学和生命周期)合并为一个单一框架。目前,这种综合模型很少见,但是没有它们,寄生虫遗传数据作为疟疾监测资源的利用不足。
对疟疾监测至关重要的一个流行病学参数是传播强度,因为国家疟疾控制方案(NMCPs)使用这种参数来开具疟疾控制干预措施并评估其有效性[8]。NMCP 可以尝试通过各种统计数据测量传输强度。这些包括基本复制编号(R)0),定义为一个受感染者在天真的人群中产生的继发感染数量:昆虫接种率(EIR),定义为个人每年接受的感染性叮咬的平均数量:寄生虫的流行率或率(如果重点为恶性疟原虫),定义为携带可检测感染的人群中个体的分数:或只是临床发病率(审查在[9])。然而,所有这些统计数字都有充分记载的问题。虽然是理论上的黄金标准, R0在实践中很难衡量,估计方法要么依赖于利用与其他传输测量的平衡关系,要么涉及几个特征较差的参数的公式[9, 10]。EIR的蚊子密度变化不大,蚊虫捕捞方法缺乏标准化,以及传播强度低时捕捉足够的蚊子的困难[9、11、12]。 临床发病率因获得免疫力和寻求治疗行为的变异以及不完整的记录保存[12]而感到困惑。寄生虫流行率是最广泛收集的测量方法,并已被用作大规模地图[1315]的基础,但它需要在低传播强度[12]进行令人望而却步的广泛采样,并且必须解决寄生虫血症感染过程和年龄依赖变化可能产生的检测能力偏差[9, 16]。因此,利用遗传数据估计或改进现有传播强度估计的方法将是有价值的。
估计流行病学参数(如遗传数据的传播强度)的问题表面上与人口遗传学中常见的人口推理问题相似。例如,现在存在许多方法来估计有效的人口规模(N)e) 从遗传数据[17]20], 可以假设疟疾的区域传播强度是N的功能e当地的寄生虫种群。然而,疟疾遗传数据的流行病学推论至少存在两个挑战,这使它成为一个独特和更困难的问题。
首先,尚不清楚人口遗传学中的经典模型(包括赖特-菲舍尔、莫兰和其他与金曼的n-在无限种群限制中[21]合并的模型,这些模型通常采用人口推理方法,适合疟疾。P. 恶性疟原虫的生命周期涉及人类宿主和蚊子病媒种群之间的振荡,这些种群可能大小不同,也可能诱发不同的漂移和突变率。在宿主和病媒内,寄生虫种群都可能遇到瓶颈(例如,当寄生虫穿透载体的中壁时)、指数生长阶段(在宿主血液中复制的微生物)以及与宿主或病媒免疫系统的相互作用。事实上,有工作表明,疟疾的生命周期同时加剧漂移和选择:结果与赖特 - 菲舍尔模型下的预期相反[22]。因此,虽然人口遗传学中的经典模型具有被广泛研究和数学可处理的优势,在平衡遗传多样性统计和人口参数之间有一套已知的关系,但这些模型并不易适用于恶性疟原虫。最后,即使这些模型确实适用,人口参数(如N)之间的关系e)和流行病学的(如传播强度)将需要定义。
相反,旨在反映疟疾生物学和传播的流行病学模型没有明确纳入遗传过程。最广为人知的流行病学模型类别是基于隔间的模型,其中单个宿主和病媒在可以代表各种疾病状态(如易感、感染或免疫)的隔间之间转换,而总人口由占据每个状态的宿主和病媒总数表示(在[23, 24]中回顾)。疟疾的规范隔间模型是罗斯-麦克唐纳,在那里宿主和病媒可能易感或感染[24]。在这些模型中,受感染宿主和病媒的均衡流行率是指定隔间间间过渡率的参数的函数。然而,缺乏遗传过程(事实上,是单个寄生虫)意味着它们无法洞察寄生虫遗传多样性与这些转化率的关系,或者作为必然结果,无法了解从这些变异率中得出的任何流行病学参数。因此,至少在疟疾方面,传统的建模模式无法解决涉及遗传数据和流行病学的问题。医学论文发表 -
使用遗传数据进行流行病学推论的第二个挑战是,最终目的往往是为疾病控制提供信息,因此,推论的时间范围至关重要。许多人口推论方法基于他们对N的估计e关于DNA片段之间凝聚时间的分布。由于这些凝聚事件通常发生在N的尺度上e过去几代人,估计是历史性的:反映几百或几千代人的平均人口规模。这种方法不适合疾病控制,因为政策决定需要根据关于近期的信息或对未来的预测作出。
鉴于这些挑战,发展综合遗传流行病学模型是疟疾基因组监测未来的关键任务。迄今为止,这种综合模式有两个值得注意的例子。第一个数据由 Daniels 等人于 2015 年开发,旨在支持单核苷酸多态性 (SNP) 数据的流行病学推论,这些数据是在塞内加尔 Thiés 加强干预期间收集的[25]。在此,该模型与近似贝叶斯计算 (ABC) 算法一起使用,以基于 24-SNP 条形码[25]独立地证实传输强度的下降和反弹。最近,Watson等人开发了一个流行病学复杂性显著提高的模型,包括单个病媒和病媒发育周期、六个宿主感染状态、宿主年龄和免疫力等特征,并利用该模型在将模型中的单个参数安装到SNP数据[26]之后,对乌干达和肯尼亚五个地点的寄生虫患病率进行了估计。在这两种情况下,对 SNP 条形码的关注都反映了可用的数据。然而,随着P. falciparum全基因组测序 (WGS) 数据继续增加[27],需要建模框架来调查从 WGS 数据中可计算的更广泛的遗传多样性统计数据。
在这里,我们的目标是通过开发一种新的前瞻性模型,称为前瞻梦想,解决缺乏综合遗传流行病学模型的问题。前瞻梦想将罗斯-麦克唐纳模型与连续的宿主内部和向量内莫兰模型相结合,并进一步将梅病纳入病媒内(允许多囊肿)、多发感染(由超级感染或共同感染)以及传播瓶颈的表示。作为随机模拟,我们使用该模型来探索遗传多样性和寄生虫流行量量之间的关系,无论是平衡还是应对困扰平衡的疟疾控制干预措施。我们确认,各种遗传多样性统计数据与寄生虫流行率相关,尽管程度不同,时间跨度也不同。此外,我们发现影响宿主感染持续时间的干预措施对寄生虫遗传多样性的影响大于影响病媒咬咬率或密度的干预措施。总体而言,我们的结果表明,基于感染复杂性的统计数据对流行率的变化反应强烈、有力和迅速,突出了其监测疟疾的潜在价值。
结果
开发恶性疟疾传播和演变模型
We developed an agent-based simulation of P.falciparum malaria incorporating features of its transmission and life cycle, as well as explicitly modelling the genetic material of parasites. Our integrated genetic-epidemiological model is called forward-dream (forward-time drift, recolonisation, extinction, admixture and meiosis) and is comprised of three layers: (1) a stochastic epidemiological layer, which controls how malaria spreads through a population of hosts and vectors and reaches equilibrium; (2) a stochastic infection layer, which controls the behaviour of malaria parasites during individual transmission events and within individual hosts and vectors; and (3) a stochastic genetic layer, which controls how the genetic material of individual parasites is represented, mutated and recombined (Fig 1). We describe each layer below and provide additional information, including a discussion of parameterisation, in the S1 Appendix.
Fig 1. Schematic of forward-dream.
(a) The epidemiological layer. Hosts and vectors oscillate between susceptible and infected compartments according to a Ross-Macdonald model. (b) The infection layer. The capacity of individual hosts and vectors to be infected is represented by a fixed number of sub-compartments (black boxes) each which can harbour a unique parasite genome (colored circles). In a susceptible host/vector, all sub-compartments are empty. Upon infection, all sub-compartments are populated. Drift and mutation occur among sub-compartments according to a continuous-time Moran model. Parasite genomes undergo meiosis during transmission from host to vector. Super-infection can occur, resulting in an average of half of all sub-compartments being replaced with newly transmitted parasite genomes. Note that the infection layer can be nested within the Ross-Macdonald model. (c) The genetic layer. The genome is represented by a fixed-length array of 0’s and 1’s. Mutation is reversible, converting 0 to 1 or 1 to 0. Recombination occurs during meiosis.
https://doi.org/10.1371/journal.pcbi.1009287.g001
Epidemiological layer.
For the epidemiological layer we implemented a stochastic, agent-based version of the Ross-Macdonald model (reviewed in [24]). In this model, a fixed number of hosts (Nh) and vectors (Nv) alternate between susceptible and infected based on four fixed rate parameters (Fig 1a). The model can be described by two coupled differential equations: where h0 and h1 are the number of susceptible and infected hosts, respectively, with Nh = h0+ h1;和v0和v1易感病媒和受感染病媒的数量,分别与Nv = v0+ v1.请注意,在此模型中,[和φ是表示宿主和向量感染速率的复合参数。特别是,b是每日矢量咬人率的地方,(Nv/Nh) 给载体密度, 和πh是病媒传染性叮咬产生受感染宿主(病媒对宿主传播效率)的概率。同样,我们有,b再次是每日矢量咬率和πv是咬受感染宿主的病媒被感染的概率(宿主对病媒传播效率)。然而,我们允许混合感染,但是,对于流行病学层,它们没有后果:克隆和混合感染被分配到受感染的隔间(hh)1或v1).
请注意,流行病学层决定宿主感染的均衡流行率(X)h = h1/Nh) 和向量 (Xv = v1/Nv).特别是,宿主的均衡流行率由:(1)并在载体由:(2)
我们已经确认,我们在前梦中实施罗斯-麦克唐纳模型会趋同于预期的均衡流行值(图2a和S1图)。流行病学层的行为总共由七个参数指定。
·
图2。同时监测寄生虫的流行率和遗传多样性使用前梦。
(a) 由10个受感染的宿主播种的具有相同寄生虫基因组的前瞻性模拟,运行50年。所有受感染宿主("主机全部",对应PfPR)和乘法感染宿主("主机混合")的流行率分别以红色和粉红色线条表示。蓝调中的载体也是如此。受感染宿主和病媒的流行率围绕其罗斯-麦克唐纳平衡值波动(X)h和Xv),分别用红色和蓝色水平线表示。(b) 与(a)相同的模拟,但通过每30天从20个随机选择的受感染宿主收集寄生虫基因组来可视化8个遗传多样性统计数据。统计数据在S1 表中定义。供参考,浅色和深灰色阴影区域显示主机和矢量流行率(右 y 轴),对应面板中的红色和深蓝色线(a)。
https://doi.org/10.1371/journal.pcbi.1009287.g002
感染层。
感染层指定个体感染和传播事件的生物学。这包括:(一) 宿主和病媒感染的能力:(二) 宿主和病媒内感染的演变,(三) 宿主和病媒之间的感染传播。
我们模拟单个主机感染n的能力h主机内子隔间(图1b)。当单个主机处于易感状态(即未受感染)时,所有nh子隔间是空的。当单个宿主被感染时,所有nh子隔间同时成为人口稠密的。每个子舱都可能蕴藏着独特的寄生虫基因组(因此感染的最大复杂性为 k = n)h),虽然通常多个子舱将占用相同的,或接近相同的基因组。例如,如果宿主被携带单个不同寄生虫基因组的载体感染,则全部nh子舱最初将被该基因组占据。或者,如果宿主被携带两种不同寄生虫基因组的载体共同感染,则其子舱将从两个基因组的混合物中提取。
随着时间的流移,宿主的恶性疟原虫感染根据连续的莫兰过程进化为nh个人,按漂移速率参数化 (dh) 和突变率 (+h) [28]我们已经确认,我们实施莫兰进程产生固定时间符合理论预期(S2图)。Moran 过程继续,直到感染被清除,宿主恢复到易感状态,所有子隔间同时空无一人。对于宿主,清除率γ,如流行病学层所述。向量的感染根据与宿主类似的过程演变,但具有一组参数nv, dv, v,ε。
在前梦中,P. 恶性疟原虫感染通过传播瓶颈从病媒传染给宿主,因此并非所有传染性病媒内的寄生虫都存在于宿主体内。特别是,所有寄生虫的随机子集(向量中所有寄生虫的集)被传播。传播寄生虫的数量来自截断的二元体:
这导致平均寄生虫通过传播瓶颈:瓶颈的大小由p控制v.对于此处提供的所有模拟,pv= 0.2 和nv= 20,导致平均 +4 寄生虫通过瓶颈。
请注意,如果n > 1 并含有独特的寄生虫,可能会发生共感染。如果载体感染了易感(即未受感染)宿主,nh寄生虫的提取与替换,每个有一个相等的概率(1/n)被绘制。这些nh寄生虫然后填充nh主机子舱。或者,如果宿主已经感染,则会发生超级感染。定义寄生虫已经在主机设置,我们首先创建联盟。从此集nh寄生虫被绘制,其中每个寄生虫有概率1/2nh或1~2n的绘制,如果它是从h或,分别。因此,平均而言,超级感染导致一半的宿主舱被新的寄生虫占据。医学论文发表 -
从宿主到病媒的传播与上述相同,但增加了梅病。简言之,从受感染宿主中随机选择的寄生虫菌株在填充n之前可能会经历梅病v向量子分区内。梅病模型是基于我们以前出版的梅病模拟器,pf-梅病[29]的简化实现。重组事件的数量来自与染色体长度相比较的 Poisson 分布,因此在染色体长度期间,每个双价发生一个交叉事件。重组断点从染色体上均匀采样。该模型包括多个卵母体,允许在单个传输事件期间发生平行的卵母细胞,从截断的几何分布中提取卵母体的数量: ?最小=10, Geo(p卵 囊)].
感染层总共由九个参数指定。
遗传层。
前梦的遗传层描述了疟疾基因组模型。我们代表单个寄生虫的遗传物质,作为由参数N定义的单个固定长度的零和零的固定长度阵列捕捉 (图1c)。实际上,此阵列表示标有N的单染色体捕捉单核苷酸多态性 (SNPs)。突变是对称和可逆的。基因组进化层的唯一参数是N捕捉.
总体而言,前向梦想由17个参数(表1)指定。它在 Python 中实施,并可在https://github.com/JasonAHendry/fwd-dream在 GitHub 上提供。
·
表1。转发梦想的模拟参数完整列表。
给出的值表示与主机模拟的值(X)h) 和向量 (Xv) 患病率分别为0.65和0.075。这相当于所有疟疾控制干预模拟的初始时代(见下文)。有关参数值选择的详细信息,请参阅S1 附录。
https://doi.org/10.1371/journal.pcbi.1009287.t001
寄生虫患病率与均衡遗传多样性之间的关系
在"前梦"框架中,监控受感染主机的分数是很简单的(h)1/Nh),这相当于最普遍收集的传播强度,寄生虫流行率(PfPR)(图2a)的测量。也可以监测受感染的病媒的分数(v1/Nv),这与孢子岩速率(SP)非常吻合。最后,可以通过从受感染宿主样本中收集寄生虫基因组并模拟DNA测序(见材料和方法)(图2b)来监测寄生虫种群的遗传多样性。
我们试图用远向梦想来阐明PfPR与寄生虫种群的遗传多样性之间的关系。为此,我们在模拟中对PfPR进行了不同的修改,并观察了寄生虫遗传多样性的差异。在罗斯-麦克唐纳框架内,PfPR是四个速率参数的函数(参见Eq 1)。在自然界中,在两个地区或时间点之间观察到的流行差异的根源往往不为人知,而且可能是无数流行病学和环境因素的结果。为了在远期梦中实现不同的PfPR值,我们选择三个参数来分别变化:(一) 人感染清除率(γ),如果在一个站点有更快的治疗途径,或者症状和无症状个体的比例不同,则不同部位可能会有所不同:(二) 由于病媒物种、环境条件或蚊帐的存在而变化的矢量咬人率(+):和 (iii) 向量数量(N)v) 受气候和天气、当地地理以及基于杀虫剂的干预措施的影响(见[30])。我们调整了这些参数,以实现平衡PfPR值,在一千个人类宿主(S3图)中,从0.1到0.8不等。在每个流行值,前梦被播种了四十个携带相同寄生虫的受感染宿主,然后运行到平衡。在达到平衡后,模拟又持续了10年,在此期间,每30天从受感染的宿主种群中采集一次寄生虫基因组。由于我们还希望探索不同遗传多样性统计数据的噪声分布及其受样本量的影响,因此每次采样时,我们都会从 5 个随机绘制的样本中收集寄生虫基因组,样本大小从 20 个到 100 个受感染宿主不等。
从这些寄生虫基因组中计算的遗传多样性统计数据在S1表中描述。统计数据可分为三大类:(一) 与混合感染有关的统计,其中包括混合样本的分数和感染的平均复杂性(COI):(二) 与样本遗传家谱的大小和形状有关的,包括分离位点的数量、单体数、核苷酸多样性(π)、瓦特森的泰塔(+)w), 和塔吉玛的D:和 (iii) 总结人口内按州 (IBS) 和按降体身份 (IBD) 结构的样本,包括在一对样本之间、IBD 或 IBS 中基因组的平均部分以及 IBD 或 IBS 段的平均长度。我们注意到,这些统计数字并不独立,事实上很多是共线的(S4图),但它们反映了常用的人口遗传学遗传多样性指标。
我们在每个流行水平上总共进行了三十次复制模拟,并汇总了给定大小的所有样本,以探索与PfPR和采样噪声的关系。所有11个遗传多样性统计的关系显示(图3a和S5-S7图),划分的流行病学参数是多种多样的。线性回归用于确定方差的分数(r2在每个遗传多样性统计中,可以通过PfPR的变异来解释,以及它是如何随样本大小(图3b)而变化的。我们观察到,几乎所有的遗传多样性统计数据都有相当大比例的差异,这些差异是由流行率解释的。对于许多统计数据 - 混合样本的分数, 平均 COI, 分离点的数量, 核苷酸多样性, 瓦特森的+,和分数 IBS的 r -2超过0.9至少一个流行病学驱动程序。r 最低的两个统计数据2值是塔吉玛的D和平均 Ibd 段长度。Tajima的D的稳定值表明寄生虫种群的家谱树在不同的流行值中具有一致的形状。适度r的一个可能原因2我们观察到的Tajima D值是反复突变,其结果来自有限的基因组大小。较低的r2平均 IBD 段长度可能部分与缺乏以较高流行值检测小型 IBD 段的电源有关。
·
图3。遗传多样性与寄生虫患病率之间的平衡关系。
(a) 通过不同的统计数据显示宿主(x轴)与寄生虫种群遗传多样性的平衡寄生虫流行率的框图。每个框总结 30 个在指示流行率下的复制模拟:每30天对40个受感染宿主进行采样,为期10年,以收集用于计算多样性统计数据的寄生虫基因组。左、中、右列显示平衡寄生虫患病率变化时的关系,如宿主清除率(γ,蓝色)、矢量咬人率(b、绿色)或向量数量(N)v,红色)。在普通线性回归中解释的方差(r2) 显示在每种关系的左上部,在 (b) 中,解释的差异显示在较大的遗传多样性统计面板中,并作为样本大小的函数显示。r中的变体2样本大小的函数由点大小表示。最佳拟合线的斜率在左侧指示(+,增加;-,减少)。(b) 中所有统计数据的框图可以在S5和S7图中找到。
https://doi.org/10.1371/journal.pcbi.1009287.g003
第二个主要观察是,当不同的流行病学参数导致流行率的变化时,PfPR解释的差异存在显著差异。特别是,不同的主机清除率(γ)导致显著更高的r2对于所有家谱统计,以及所有IBD和IBS统计,不包括平均IBS段长度。例如,当寄生虫患病率由病媒数量(N)调节时,PfPR解释的核苷酸多样性差异从 94% 下降到 60%(40 号样本)v),而不是主机清除率(γ)。解释力的降低与在向量数量(N)时观察到的较高流行值的多样性高原有关v) 或咬率 (b) 增加。相比之下,与混合感染有关的两项统计数据一直居高不下2值(>75%),无论哪个流行病学参数导致流行率变化。
r2值反映了不同遗传多样性统计的信号与噪声比率,并可能受样本量的影响。在这里,我们发现,对于一些统计数据,收集额外的样本有相当大的好处,而对于其他只有很少的好处(图3b和S8图)。当流行率变化是由向量数驱动时(Nv)或咬率(b),PfPR解释的混合样本比例的差异从0.81攀升至0.94,因为样本量从20增加到100。对于样本大小的相同增加,r2核苷酸多样性仅从0.62增加到0.68。r2平均IBD段长度也随着采集样本数量的增加而大幅增加(从0.01增加到0.15)。在这里,由于偶然检测到稀有的长 IBD 段,因此样本量很小,平均估计值差异非常大。我们发现,从 20 个样本增加到 100 个样本,平均 IBD 段长度的方差减少了高达 60%(S8 图)。
即使在样本量增加之后,噪音仍有多种来源,这与流行病学和遗传过程的随机性有关。流行病学噪音意味着流行率围绕其均衡值波动,这会影响一些多样性统计。遗传水平上的噪音可能存在于家谱树结构深处(接近根部),但最近也存在。为了评估这些贡献,我们进行了一个方差分解分析,确定不同遗传多样性统计中变异的哪一部分发生在复制模拟(S9图)中。由于我们为每次复制模拟收集寄生虫遗传数据长达 10 年,因此比这更长的时间尺度上的变异将表现为模拟之间而不是模拟内部。总的来说,我们发现大多数变异发生在家谱相关统计数据的复制模拟之间,表明它们在很长一段时间内会发生变化(S9图)。相反,COI 统计中 90% 以上的变异存在于单个模拟中,这表明变异的时间尺度很短。
寄生虫流行与遗传多样性之间的不平衡关系
我们模型的一个重要应用是在疟疾控制干预活动活跃的环境中。在这种情况下,在寄生虫流行率季节性变化的情况下,寄生虫种群不太可能处于平衡状态。因此,我们与前瞻梦想的第二个目标是探索哪些基因变异的测量最能预测非平衡环境中的瞬时PfPR。
疟疾控制干预措施。
为了了解在部署疟疾控制干预的情况下,遗传多样性统计数据与PfPR的关系,我们开发了一个框架,其中个别前向梦想模拟通过三个不同的时代:初始、崩溃和恢复(图4)。在初始时代,根据表1所列参数,模拟运行到寄生虫流行率为0.65的平衡。在崩溃纪元的开始,一个主机清除率(γ),矢量咬率(b),或向量的数量(N)v), 变化, 使新的平衡Pfpr是 0.2 。参数变化在后勤过渡功能之后的三十天内逐渐发生,以模拟分阶段引入疟疾控制干预措施。因此,模拟保持平衡,宿主和矢量患病率下降。崩溃时代被允许继续,直到人口恢复平衡。在恢复时代开始时,我们将更改的模拟参数返回到其原始值,在物流转换功能之后的三十多天中再次返回。再次,这导致模拟离开平衡,PfPR恢复到 0.65。与崩溃时代一样,复苏时代一直持续到人口恢复平衡。总之,三个时代模型使我们能够探索寄生虫种群的减少和反弹。
·
图4。遗传多样性统计对寄生虫流行率崩溃和恢复的反应。
(a) 单个前向梦想模拟,其中向量数(N)v) 在时间零 (x 轴, 以灰色垂直条表示), 导致寄生虫流行率从 0.65 下降到 0.2.(b) 左列,与 (a) 中的模拟相同,但显示三个遗传多样性统计(彩色线)对流行变化的反应。浅灰色和深灰色区域显示宿主和矢量流行,如图2。右列,100 个独立复制模拟中每个遗传多样性统计数据的平均值,阴影显示 95% 的置信区间。(c) 与 (a) 以后的模拟相同,其中向量数返回到其原始值。寄生虫患病率回升至0.65。(d) 与 (b) 相同,但与 (c) 中显示的恢复相对应。医学论文发表 -
https://doi.org/10.1371/journal.pcbi.1009287.g004
在整个三个时代,寄生虫基因组每五天从随机选择的20个宿主中收集一次,从而可以随时间跟踪上述讨论的同一组遗传多样性统计数据。立即观察的是,在个别模拟中,遗传多样性统计的轨迹表现出相当大的噪声,即使在模拟参数没有任何变化的情况下,也往往会随着时间而波动(图4)。为了更好地辨别不同统计数据的平均行为,我们试图通过计算滚动平均值来平滑它们的轨迹。然而,根据我们的方差分解分析,我们发现随机波动的时间尺度在遗传多样性统计中差异很大。平均COI和混合样本的分数等统计数据波动迅速,通过平均大约一个月收集的遗传数据(S10图),其真实平均值周围的变异可以大大减少(达到原方差 <的20%)。然而,我们发现,其他统计数据,如核苷酸多样性,在性质上更惯性:它们可以在很长一段时间内呈上升或下降趋势,而不会对基础模拟参数有任何更改。将初始方差缩小到等值程度需要平均超过10年的遗传数据(S10图)。
因此,我们采取了另一种方法来提取基本趋势:我们在100个独立、复制的前瞻性模拟(图4b和4d)中平均了每个统计数据的轨迹。出现了若干观察结果。首先,与人口遗传理论一致,塔吉玛的D在PfPR下降期间增加(表明感染Ne),在PfPR正在攀升的时期,跌破零(表明N正在扩大)e) [31|(S11 图) 。其次,不同遗传多样性统计数据对流行率变化的反应速度存在显著差异。例如,与 COI 相关的统计数据响应速度高于 IBD 或 IBS 相关统计数据,而 IBD 或 IBS 相关统计数据的反应速度又快于核苷酸多样性。最后,我们注意到,给定遗传多样性统计对PfPR下降的反应速度可能与它对PfPR增加的反应速度不同(图4)。
我们开发了两个指标来总结不同遗传多样性统计对模拟中寄生虫流行变化的时间反应(图5,另见材料和方法)。在三个时代模拟框架中,我们可以为每个流行变化前后的每个统计数据构建均衡分布(即初始、崩溃和恢复的均衡分布)。使用这些分布,我们计算了"检测时间"(td),我们定义为干预后的时间量,直到给定的遗传多样性统计在其干预前平衡之外的值。实际上, td通过通过时间监测给定的遗传多样性统计数据来估计发现寄生虫患病率的变化需要多长时间。我们还计算了"平衡时间"e),我们定义为时间,直到给定的遗传多样性统计达到其新的,干预后的平衡。请注意,这些指标的设计仅是模拟的信息摘要;他们不太可能被部署在现实世界的环境中。
·
图5。寄生虫流行率崩溃后,遗传多样性统计的检测和平衡时间。
(a) 每个图段通过寄生虫患病率的崩溃,在单个模拟中显示遗传多样性统计的行为,诱导因素为:左列,提高宿主清除率(γ):中间列,降低矢量咬率(b):或右列,减少向量的数量。在所有情况下,干预都发生在零(x 轴、灰色垂直条)的时间。对于每个图,指示遗传多样性统计的检测时间(垂直破折号条)和平衡时间(垂直实心条)。请注意,此处显示每个干预类型的单个模拟。(b) 从100个独立复制模拟创建的多样性统计的检测和平衡时间的实证累积密度函数(ECDFs)。y 轴的复制模拟分数比 x 轴上指示的时间要小,而检测(破折号线)或平衡(实线)的分数。行颜色指定干预类型。打开圆和闭圈分别给出检测和平衡时间的中位数。第一年被放大为清晰。
https://doi.org/10.1371/journal.pcbi.1009287.g005
图 5b显示t的实证累积密度函数d和te在崩溃时代开始时宿主患病率下降之后, 所有考虑的遗传多样性统计数据。根据我们从平均轨迹的观测结果,混合样品的平均COI和分数的检测时间最短(中位数为6-9mo.,取决于干预)和均衡时间(2/3年)。下一个最短检测时间的统计数据是隔离站点的数量(1 至 2 年),但此统计数据具有很长的平衡时间(40 至 75 年)。接下来的两个最快统计数据是 IBD 和平均 IBS 段长度。我们注意到这些统计数据在我们的模拟中具有高度共线性(S4 图,Pearson 的R ≥ 0.89),并且具有快速检测和均衡时间(检测 1+4 年,平衡 8+16 年)。反应最迟钝的统计数据是核苷酸多样性,其检测时间中位数为35-75年,中位检测时间为35-75年。
我们假设隔离地点数量的快速检测时间是从相对较高的流行率(65%)开始的结果。在这方面,寄生虫种群携带大量相对稳定的隔离点(CV<10%),因此可以快速检测到显著减少。同时,IBD 相关统计数据对高流行率发生的变化不太敏感。为了进一步探讨这一点,我们重复了上述实验,但从最初的30%下降到干预后的流行率10%。与此假设一致,IBD 分数的检测时间比此上下文中的隔离站点数(S12 图)快。
最后,我们试图了解我们观察到的检测和平衡时间如何取决于所考虑的人口规模。为此,我们重复了上述实验,但有400,700和1000个主机。对于与遗传家谱相关的统计数据,我们发现平衡时间随着宿主种群规模(S13图)的显著增长。例如,核苷酸的中位平衡时间从主机人口规模为400的28年增加到主机人口规模1000年的75年。平均 IBS 段长度和分数 IBD 统计数据的均衡时间也随着人口规模而增加,但程度要小得多。有趣的是,检测时间对主机人口规模的依赖性很小。
就统计数据的相对行为而言,d和te恢复时代的值与崩溃纪元(S14图)相似,平均COI和混合样本的分数是最快的统计数据,核苷酸多样性是最慢的。总体而言,中位数时间往往更长,尤其是te.这可能是多样性重新建立的速度(通过突变)比消除多样性的速度(通过干预)慢的结果。
季节性。
接下来,我们旨在探讨任何遗传多样性衡量指标是否对季节性驱动的寄生虫流行率变化做出响应。为此,我们开发了一个模拟框架,其中向量的数量在雨季达到的峰值和旱季达到的低谷之间振荡,PfPR在 +0.6 和 +0.2 之间波动(参见材料和方法)。进入旱季死亡的病媒是随机选择的,旱季持续170天,雨季持续195天。根据我们的干预分析结果,我们发现混合样本和平均COI的分数与流行率的季节性变化有明显的相关性(r2= 平均 COI 的 0.62, r2? 0.59 分混合样品;图6)。我们发现,平均IBD和IBS段长度也表现出与季节性变化的流行率(r)的弱相关性2= 0.12 和r2= 0.06)。然而,与均衡模式相比,这些关系的方向正好相反,平均段长度以较高的流行值增加。这可能是由"流行病扩张"在早期雨季与寄生虫种群扩张的速度比它获得新的突变,导致增加IBD[32]。与此一致,我们在前一节探索的恢复时代的第一年观察到平均IBD和IBS段长度的类似增长(S15图)。
下载:
·
图 6.遗传多样性统计对寄生虫流行季节性变化的反应。
寄生虫患病率的年度变化是由病媒数量变化引起的(上排,见材料和方法)。从第二行开始,在左列显示单个模拟的遗传多样性统计行为。10 个独立复制模拟的平均行为显示在中间,阴影区域提供 95% 的置信间隔。右侧的散射图显示了在六年的季节性波动中寄生虫流行中每个遗传多样性之间的关系。每个点表示从单个模拟中从 20 个受感染宿主的样本寄生虫基因组中计算的遗传多样性估计值 (y 轴);寄生虫患病率(x轴)同时计算整个宿主种群。所有 10 个复制模拟的数据已聚合。方差解释r2从一个普通的线性回归指示在左上。
https://doi.org/10.1371/journal.pcbi.1009287.g006
值得注意的是,我们计算的其他遗传多样性统计数据均未显示与流行率的季节性波动有关。
讨论
在今后几年中,收集寄生虫遗传数据可能成为疟疾监测的常规部分。然而,要从这些数据中获得最大的好处,就需要了解疟疾遗传多样性与流行病学之间的关系。这种理解可以以建模方法为指导,但前提是进化和流行病学过程是一体化的。目前这种情况很少见,因为人口遗传学中的经典模型对疟疾生命周期的近似度很差,而传统的流行病学模型没有纳入寄生虫的进化。为了解决这个问题,我们已经将罗斯-麦克唐纳和莫兰模型合并成一个单一的框架,我们作为一个称为"前梦"的随机模拟实施了这个框架。
我们利用前瞻性梦想来研究寄生虫遗传多样性与寄生虫在平衡环境中和非平衡环境中的流行之间的关系。我们发现,许多寄生虫遗传多样性的测量与寄生虫在均衡下的流行率相关。我们的发现与现有的经验数据[25, 32]35] 一致, 并支持混合感染率 (因此重组率) 与寄生虫流行率[36]正相关的观点。此外,我们发现,对于特定的人口主机人口规模,反映长期有效人口规模的统计数据(Ne)寄生虫,如核苷酸多样性和分离部位的数量,也随着均衡流行而增加。我们还探讨了这些遗传多样性统计在非均衡环境中的行为,最重要的是,为了应对模仿疟疾控制干预措施的寄生虫流行率的变化。其他作者强调,基因组方法对疟疾监测的可行性将取决于流行病学变化的信号在合理规模的寄生虫遗传数据样本中检测的速度。我们发现,与 COI 分布相关的统计数据反应最快(按月顺序排列),而其他统计数据(如核苷酸多样性)可能需要几十年才能对寄生虫流行率的变化做出响应。响应时间的这些显著差异与更改不同统计数据值必须发生的事件类型相关。COI 分布直接根据单个感染事件(传播和清除速率的时间尺度)变化,而其他统计数据则因漂移而变化(N的时间尺度)e)和/或突变事件(在μ的时间尺度上)。
除了了解不同遗传多样性统计与流行率的关系外,了解噪声源及其可控制程度也很重要。我们在前梦中观察到的噪音来自我们模拟的各个层面:对于给定的流行病学参数,由于感染和清除事件的随机性,宿主患病率会有变化:对于给定的宿主流行,由漂移、突变和重组事件的随机性质驱动的遗传多样性会有变化:对于特定人群级别的遗传多样性,通过对所有受感染宿主的子集进行采样,在测序数据方面会有变化。此外,在遗传水平上,在家谱树深处可以产生噪音,这与接近根部的凝聚事件的时间有关:也是在最近的过去, 由最近的凝聚事件驱动。不同统计数据受这些噪声源影响的程度决定了收集额外样本的价值,无论是作为横截面调查的一部分,还是纵向调查。对于受流行病学噪声(如来自 COI 分布的噪声)和最近的合并事件(特别是 IBD 和 IBS 段的平均长度)影响的统计数据,增加样本量可以起到平均时间波动的影响,或减少横截面调查中的采样变化。相比之下,在当今收集更多的样本对减少历史事件所推动的变化没有多大作用,并表现在诸如核苷酸多样性或瓦特森的 Theta 等统计数据中。w).对于这些统计数据,需要生成良好估计值的样本相对较少,而短期的额外纵向抽样几乎没有附加值。虽然这里没有探索,但平均这种深层家谱噪声的一种方法是评估基因组的更大比例。
我们的研究结果还证明了流行率和遗传变异之间的关系对潜在的流行病学过程有多敏感。具体来说,我们发现宿主清除率的变化对几个遗传多样性统计的影响比对病媒咬咬率或密度的变化更深远。显示这种行为的统计数据都与\n有关e μ.由于我们并没有改变模拟中的突变率,我们预计这种观察是由对N的影响推动的e.当人口规模随时间而波动时,Ne可以接近这些大小的谐波平均值,因此受人口小[37]的时期的影响更大。同样,P. falciparum血统在大量病媒种群和小宿主种群之间交替,因此,我们观察的一个解释是,影响较小宿主种群的变化对多样性的影响更大。这一结果使使用遗传变异指标比较跨空间或跨时间寄生虫患病率的努力复杂化,因为它意味着只有在某些条件行率的变化才会通过基因变异的变化来反映。此外,这意味着评估哪些流行模式在性质上更频繁地观察到,将非常重要。这一评估可直接得到流行病学数据的帮助。例如,关于EIR与流行率之间关系的实证观察表明,病媒数量或咬人率的变化可能是地理流行变化的主要流行病学驱动因素[38]。
远期梦想有几个局限性,最明显的是它的简单性和规模。例如,在简单性方面,异质咬伤、获得免疫力和迁移都是被提议影响混合感染率的现象[2],但它们没有包括在前瞻性梦想中。我们不探讨选择的效果,尽管这可能在许多情况下都相关,特别是在耐药性普遍存在的东南亚[39]。在规模方面,我们只模拟了一千个宿主,我们的基因组模型仅限于八千个位点的单染色体。因此,一些遗传多样性统计的绝对值与现有的经验观察不同。两个例子包括我们对低流行值的分数IBD的估计,这比观察[40]要高,因为我们模拟的少量种群中可能发生近亲繁殖;和我们对分离位点数量的估计, 这是低的结果, 因为我们的基因组要小得多。医学论文发表 -
许多这些限制可以通过继续发展远大的梦想来解决,但是,至少有两个突出的考虑因素。首先,增加复杂性或规模可能会增加计算成本。合并莫兰和罗斯-麦克唐纳模型导致前梦的计算成本比任何一个都高,在这项研究中的大多数单个模拟中,运行时间大约是几个小时(S16图)。其中大部分与实现平衡的前进梦想所需的时间有关:前瞻性基因模型面临的一个普遍问题(见[41])。利用凝聚理论的逆向模拟可以大大加快计算时间,因为忽略了与所收集的遗传数据样本无关的过程(例如[42]),但是此处描述的模型的反向时间公式尚未阐明。同样,分离流行病学和遗传过程的模型正在开发中[43],并可能导致显著更快的模拟。其次,重要的是要考虑更复杂的模型通常需要更多的参数。这些模型很可能在分析上难以确定,在统计学上也不可识别,因此,如果没有额外的复杂实地实验,就不可能推断其价值。事实上,在当前模型中使用的许多参数具有很大的不确定性,在当前文献中很难找到(见S1 附录)。社区努力通过实验工作整理现有知识和解决关键不确定因素,将大大有利于该领域。
正如这里所证明的,远向梦想的直接价值是作为一种工具,通过它可以探索遗传学和流行病学之间的关系,并评估实验和分析策略。此外,随着疟疾遗传数据流行病学推论方法的开发,前瞻性梦想可以为评估其预期性能和在不同的流行病学情景下设计理想的采样策略提供依据。我们认为前瞻性梦想不太可能直接为此类推理方法提供动力,例如通过近似贝叶斯计算 (ABC) (以[44, 45]形式审查)等技术,因为上述限制。相反,它将使能够确定对多种流行病学参数的具体值不敏感的假设测试和估计方法(例如,通过监测COI来评估流行率的相对变化)。正是通过这些方式,远期梦想和其他类似模拟可以提供一个平台来解释未来十年将收集的数以万计的疟疾基因组中的信号,并有助于利用这些信号进行疟疾监测。
材料和方法
收集遗传数据和计算汇总统计数据
对于本文稿中的所有模拟,寄生虫基因组都是从随机选择的受感染宿主中收集的。对于每个宿主,我们通过在宿主(其中)中提取所有寄生虫基因组的子集来模拟DNA测序,这样每个宿主的基因组在至少5%的位点上与所有其他基因组不同:假设基因组比这更相似, 不会很容易通过测序来区分。然后,每个主机的 COI 是。混合样品和平均 COI 的分数直接从所有测序主机的k分布中计算。为了计算其他统计数据,我们汇集了所有主机收集的所有基因组。隔离地点的数量,单体的数量,核苷酸的多样性,瓦特森的泰塔(+)w), 塔吉玛的D是用科学的阿勒尔(https://scikit-allel.readthedocs.io/en/stable/)计算的。我们通过对各状态的连续段(IBS)设置 2cM 长度阈值来估算寄生虫基因组对之间的逐降 (IBD) 特征,这种方法类似于GERMLINE [46]等方法所使用的方法。
在独立前瞻模拟中平均遗传多样性统计数据
为了为干预分析(图4b和4d)生成遗传多样性统计的平滑轨迹,我们平均独立复制前梦模拟。由于前梦在连续运行,寄生虫遗传数据永远不会在独立模拟中同时采样。因此,为了平均模拟,我们将时间分成 25 天间隔。最后,在所有复制模拟中,在整个干预分析期间,平均每个25天垃圾箱内计算的遗传多样性统计数据。
计算响应时间统计 td和te
我们创建了两个简单的指标来描述不同遗传多样性对PfPR变化的时间反应。这些指标是专门在结果部分描述的干预实验的背景下制定的,它们是针对单个模拟计算的。"检测时间"(td) 估计如果使用给定的遗传多样性统计数据监测这种变化,就会发现寄生虫流行率变化之前的时间。为了计算它,我们首先构建了一个在均衡中为兴趣遗传多样性统计的分布。在考虑寄生虫患病率下降时,通过记录遗传多样性统计在崩溃纪元进行的25年的价值来实现,在此期间模拟处于平衡状态(主机流行值为0.65)。对于增加,该统计数据记录了25年,进入复苏时代。td然后计算为在流行机会发生后,连续三个样本在量子区间之外具有该统计数据值[α/2,1=α/2],α = 0.01; 即,当连续三个样本的价值在模拟处于平衡状态时,第一次以低于 1% 的概率进行观察。要求连续三个样本(相当于大约两周的遗传数据)在间隔之外具有值,这使td更强健到在个别模拟中观察到的高变异性。
同样,"平衡时间"(te) 估计在宿主流行率变化后, 给定遗传多样性统计数据恢复平衡的时间。te计算为连续六个样本在其新平衡的统计数据分布中首次具有四分位数范围内([α/2,1=α+2],α = 0.5)。 同样,要求在四分位数范围内连续六个值,使我们对t的估计e更强健的单个模拟的高变异性;我们选择了六个样本, 而不是只有三个样本, 因为四分位数范围内的标准比t弱d标准。
疟疾控制干预和季节性实验的参数
用于指定疟疾控制干预和季节性实验的完整参数文件(存储为".ini")可在"参数"目录内的 GitHub 上找到。所有这些实验都是从表1中列出的同一组参数开始的,然后将各个参数改为模仿疟疾控制干预措施或诱导季节性。为了在疟疾控制干预实验的崩溃时期达到0.2的寄生虫流行率,要么宿主清除率(γ)增加到0.012,向量咬人率(b)降低到0.16,要么病媒数量(N)v) 减少到 2050 年。在恢复时代,他们被返回到原来的值。为了在季节性实验中实现每年不同的寄生虫流行,病媒数量(Nv)在持续170天的旱季中振荡在10天之间,在持续195天的雨季中振荡2800。
支持信息
关于前瞻性实现和参数化的其他信息。
显示 1/18: pcbi.1009287.s001.pdf
跳到无花果共享导航
from the study of
msp2
alleles in Northern Ghana, but analyzed using different methods. In [8] estimates
were aged-stratified. Horizontal lines separate estimates from individual studies. Abbreviations: yo., years
old.
Studies examining the duration of untreated
P. falciparum
infections are scarce on account of the medical
obligation to treat [5]. In the mid-1900s in the USA, the recommended treatment for individuals with
2
1 / 18
下载
figshare
S1 附录。关于前瞻性实现和参数化的其他信息。
https://doi.org/10.1371/journal.pcbi.1009287.s001
(PDF)
S1 图。验证平衡宿主在远期梦想中的流行值。
前梦的流行病学层实施罗斯-马康达尔模型,其中宿主患病率是速率参数的函数(见Eq 1)。Violinplots 总结了在前梦模拟中观察到的流行值,预期均衡流行值从 x 轴上给出的 0.1 到 0.8(使用Eq 1计算)不等。不同的均衡流行值是通过改变宿主清除率(γ)、矢量咬人率(b)或向量数量(N)来实现的v).解释的方差 (r2) 在普通的线性回归中,每个图的左上侧显示。
https://doi.org/10.1371/journal.pcbi.1009287.s002
(蒂夫)
S2 图。验证前梦中的主机内固定时间。
(a) 单个宿主的感染是随着时间而演变的,给定站点的主机内alelle频率由红线指示。该网站在第125天左右修复。实验重复1000次(灰色线),在给定时间固定的感染分数由蓝线指示。所有实验都以最初的等位基因频率 0.5 和每天 1/事件的漂移速率开始。(b) 固定时间的分布(a)。观测到的平均值(64.81 天)非常接近莫兰模型(64.56 天)的理论预期平均值。(c) 实验(a)是重复的,但初始等位基因频率(x轴)和三种不同的漂移速率(浅蓝色、深蓝色和绿线)。在所有情况下,观察到的平均固定时间都接近理论预期时间。阴影为平均估计值提供了 95% 的置信区间。
https://doi.org/10.1371/journal.pcbi.1009287.s003
(蒂夫)
S3 图。前瞻梦想中不同的均衡流行值。
前梦的参数值各不相同,以产生平衡寄生虫流行值从 0.1 到 0.8 的模拟。(a) 改变向量的数量。宿主的流行率以红色表示,向量以蓝色表示。点标记寄生虫的流行值为 0.1 到 0.8。(b) 改变病媒咬率b.注 1/b给出连续咬之间的平均时间, 以正确的情节显示。(c) 改变主机清除率(γ)。注 1/γ给出宿主感染的平均持续时间,以正确的情节显示。
https://doi.org/10.1371/journal.pcbi.1009287.s004
(蒂夫)
S4 图。前瞻梦想中不同遗传多样性统计之间的共线性。
显示了所有基因多样性统计对之间计算的皮尔逊相关共生(R)的矩阵。在面板(a)中,主机流行率通过改变主机间隙率(γ)调整到0.1和0.8之间的不同值:(b) 通过改变病媒咬人率(b):或 (c) 通过改变向量N的数量v.在所有情况下,不同的遗传多样性统计之间都有显著的共线性。
https://doi.org/10.1371/journal.pcbi.1009287.s005
(蒂夫)
S5 图。寄生虫流行率与混合感染相关统计数据之间的平衡关系。
混合感染相关遗传多样性统计(y轴)的分布,绘制为平衡寄生虫流行值,在前梦模拟中调整到0.2至0.8(x轴)之间。左、中、右列显示寄生虫患病率变化时的分布情况,如宿主清除率(γ蓝色)、病媒咬咬率(b、绿色)或病媒数量(N)v,在绿色)。每个框图包含 30 个复制实验的结果,其中 40 个随机选择宿主中的寄生虫基因组每 30 天收集一次,为期 10 年,用于计算感兴趣的遗传统计。由普通最小方块回归解释的方差在左上方给出,最合适的线和置信度间隔以灰色表示。
https://doi.org/10.1371/journal.pcbi.1009287.s006
(蒂夫)
S6 图。寄生虫患病率与与样本家谱大小和形状有关的遗传多样性统计之间的平衡关系。
有关详细信息,请参阅S5 无花果。
https://doi.org/10.1371/journal.pcbi.1009287.s007
(蒂夫)
S7 图。寄生虫流行率与与身份下降模式相关的遗传多样性统计之间的平衡关系。
有关详细信息,请参阅S5 无花果。医学论文发表 -
https://doi.org/10.1371/journal.pcbi.1009287.s008
(蒂夫)
S8 图。探索样本量对遗传多样性统计噪声分布的影响。
(a) 显示样本量对不同遗传多样性统计的平均值和标准偏差的影响。所有采集的样本(从三十次复制模拟中超过十年)中,每个遗传多样性统计数据的平均值和标准偏差显示为三种不同的流行水平(按颜色表示)。患病率因改变病媒数量而有所不同 (Nv),平均值和标准偏差在样本大小为二十时时,均值和标准偏差均正常化。请注意,增加样本量如何不同程度地减少不同统计数据的标准偏差。(b) r 中的更改2用于增加样本量。每行是不同的遗传多样性统计,每个列有不同的样本大小(以n表示)。散射图中的单个点表示在模拟达到平衡后,从指示大小的样本中得出的遗传多样性统计数据的估计值。绿色阴影表示单个模拟的均衡流行值。r2所有遗传多样性统计的价值可以在图3b中找到。
https://doi.org/10.1371/journal.pcbi.1009287.s009
(蒂夫)
S9 图。遗传多样性统计的差异分解在一系列流行值的均衡度。
(a) 在平衡的十年期间,为三个随机选择的复制模拟(按颜色指示)的一组四个遗传多样性统计的轨迹。每个复制模拟的主机流行率相同,为 60%,通过调整向量N的数量来实现v.每个复制模拟中的多样性统计数据的边际密度显示在右侧。请注意,对于核苷酸的多样性,复制模拟之间存在巨大差异:而对于其他统计数据,大多数变化是在单个模拟中观察到的。(b) 所有遗传多样性统计数据都显示了在单个复制模拟内而不是单个复制模拟之间发生的总方差的一小部分。每个点代表一个特定的统计(y轴),不同的流行病学参数(颜色)和均衡流行率值(阴影)。对每个流行病学参数和流行水平进行了三十多个复制模拟分析。
https://doi.org/10.1371/journal.pcbi.1009287.s010
(蒂夫)
S10 图。不同频率的遗传多样性统计的时空波动,寄生虫患病率没有任何变化。
面板 (a) 显示三个遗传多样性统计 (y 轴) 的嘈杂行为,这些统计数据来自单个模拟,其中寄生虫患病率在 25 年期间固定在 0.65(x 轴)。每个统计数据的轨迹使用滚动平均值进行平滑,窗口大小从 1 天(1 d.,紫色)到不平滑,最长可达 10 年(10 年,黄色)。25 年窗口期间的统计平均值用灰色水平条表示。请注意,即使有 10 年的窗口滚动平均值,核苷酸潜水率仍然偏离其平均值。(b) 在100个独立复制模拟中,显示每个遗传多样性统计的差异随着滚动平均窗口大小的增加而减少。y 轴给出 x 轴表示的窗口大小的方差比率(Var(X)w)除以遗传多样性统计(Var(X)中的无烟方差。随着滚动平均值的窗口大小而增加总是会减少方差,但不同统计数据的差值速度不同。
https://doi.org/10.1371/journal.pcbi.1009287.s011
(蒂夫)
S11 图。塔吉玛的D在崩溃和寄生虫流行恢复期间的平均行为。
彩色线显示 100 个复制模拟的平均估计值,阴影区域提供 95% 的置信间隔。注意塔吉玛的D在人口收缩期间如何增加,在人口增长期间如何减少。
https://doi.org/10.1371/journal.pcbi.1009287.s012
(蒂夫)
S12 图。比较遗传多样性统计的检测和平衡时间,从高流行率(65%)或低流行率(30%)减少载体数量之后。
(a) 检测和均衡时间的分布显示在流行率变化为 30% 到 10%(低PfPR,蓝色)或从 65% 到 20% (高PfPR,红色) 的实验中。每个点代表每个实验的一百个复制模拟之一。在这两种情况下,通过减少病媒数量改变了流行率。黑色圆表示中位数。(b) 平均COI(蓝色)、分数IBD(黄色)和隔离点数(绿色)检测时间分布的直方图。垂直虚线表示中位数。请注意,当下降从 30% 开始时,分数 IBD 的检测中位数时间越快。
https://doi.org/10.1371/journal.pcbi.1009287.s013
(蒂夫)
S13 图。比较不同宿主人口大小的检测和平衡时间。
(a) 平均COI、分数IBD和核苷酸多样性(π)的轨迹在载体数量减少后显示。彩色线表示 100 个复制模拟中的平均指标行为,阴影区域表示平均值的标准误差。显示主机人口大小为 1000(红色)、700(蓝色)和 400(绿色)。指标的缩放表示其干预前平均值的百分比。(b) 在100个主机人口大小中,所有统计数据的检测和均衡时间分布复制模拟。中位数由黑色圆表示。右边的文本给出了年份中的中位数,括号给出了主机人口规模的所有指标中的排名。
https://doi.org/10.1371/journal.pcbi.1009287.s014
(蒂夫)
S14 图。寄生虫流行率恢复后遗传多样性统计的检测和平衡时间。
(a) 每个图段通过恢复寄生虫流行率,在单个模拟中显示遗传多样性统计的行为,诱导因素为:左列,降低宿主清除率(γ):中间列,增加矢量咬率(b):或右列,增加向量的数量。在所有情况下,干预都发生在零(x 轴、灰色垂直条)的时间。对于每个图,指示遗传多样性统计的检测时间(垂直破折号条)和平衡时间(垂直实心条)。请注意,此处显示每个干预类型的单个模拟。(b) 从100个独立复制模拟创建的多样性统计的检测和平衡时间的实证累积密度函数(ECDFs)。y 轴的复制模拟分数比 x 轴上指示的时间要小,而检测(破折号线)或平衡(实线)的分数。行颜色指定干预类型。打开圆和闭圈分别给出检测和平衡时间的中位数。第一年被放大为清晰。
https://doi.org/10.1371/journal.pcbi.1009287.s015
(蒂夫)
S15 图。放大平均IBD跟踪长度的反应,以增加恢复初期的流行率。
在复苏开始的四年时间里,关注IBD和IBS的统计数据。注意如何更改向量(N)v) 恢复开始时,IBS 和 IBD 段的平均跟踪长度有所增加,这与疫情扩张一致。
https://doi.org/10.1371/journal.pcbi.1009287.s016
(蒂夫)
S16 图。用于前梦模拟的峰值内存使用和运行时间缩放。
左面板显示在不同流行值下实现平衡的单个前向梦想模拟的峰值内存使用。对于每个流行值,绘制了三十个复制模拟:同样的模拟分析在3。右面板,与左面板相同,但显示单个模拟的运行时间(运行在 2.6GHz 英特尔常春藤桥 CPU 上,具有 15Gb RAM)。每个流行值的平均运行时间显示在右侧。
https://doi.org/10.1371/journal.pcbi.1009287.s017
(蒂夫)
S1 表。遗传多样性统计计算在前瞻性的梦想。
https://doi.org/10.1371/journal.pcbi.1009287.s018
(PDF)
确认
我们感谢蒂姆·安德森、丽莎·怀特、杰罗姆·凯勒赫、丹·布里奇斯和佩妮·汉考克的有益讨论。
引用
00001. 1.沃尔克曼 Sk, 尼夫西德, 沙夫纳 Sf, 公园 Dj, 沃斯 Df 。利用基因组学和基因组生物学来了解疟疾生物学。纳特 · 雷夫 · 吉纳特2012;13(5):315–28.下午:22495435
· 查看文章
· 普布梅德/NCBI
· 谷歌学者
00002. 2.温室 B, 史密斯 Dl 。用于流行病学监测的疟疾基因型。普罗克·纳特尔·阿卡德·西美国 2015;112 (22):6782+3.下午:26016526
· 查看文章
· 普布梅德/NCBI
· 谷歌学者
00003. 3.埃斯卡兰特AA,费雷拉MU,维尼茨JM,沃尔克曼SK,崔L,甘博亚D等人疟疾分子流行病学:从国际疟疾研究中心网络的经验教训。是 J 特罗普 · 梅德 · 海格2015;93 (3 Suppl):79+86.下午:26259945
· 查看文章
· 普布梅德/NCBI
· 谷歌学者
00004. 4.尼夫西 · 德, 沃尔克曼 · 斯克, 根除时代的疟疾基因组学。冷泉哈布佩雷克梅德 2017;7 (8).下午:28389516
· 查看文章
· 普布梅德/NCBI医学论文发表 -
· 谷歌学者
00005. 5.奥本 S, 巴里 · 艾利用人口遗传学和基因组学剖析疟疾生物学和流行病学。国际寄生虫学杂志。2017;47(2):77–85.下午:27825828
· 查看文章
· 普布梅德/NCBI
· 谷歌学者
00006. 6.韦索洛夫斯基 A, 泰勒 · 阿尔, 张 H, Verity R, 特塞玛 S, 贝利 · 贾等人。通过结合寄生虫基因组学和流行病学数据绘制疟疾图。BMC 医学。2018;16(1):190.下午:30333020
· 查看文章
· 普布梅德/NCBI
· 谷歌学者
00007. 7.特塞马SK,拉曼J,达菲CW,伊生戈马DS,阿曼布阿-恩格瓦A,温室B.应用下一代测序跟踪撒哈拉以南非洲的恶性疟疾。疟疾杂志。2019;18(1):268.下午:31477139
· 查看文章
· 普布梅德/NCBI
· 谷歌学者
00008. 8.谁。2016-2030年疟疾全球技术战略;2015.
00009. 9.塔斯汀 Ls, 布塞马 T, 史密斯 Dl, 德雷克利 C. 测量恶性疟原虫传输的变化: 精度, 精度和指标成本。阿德夫·帕拉西托尔2014;84:151–208.下午:24480314
· 查看文章
· 普布梅德/NCBI
· 谷歌学者
00010. 10.史密斯 Dl, 麦肯齐费, 斯诺 Rw, 海西。重新审视疟疾的基本生殖数量及其对疟疾控制的影响。PLoS 生物 2007:5 (3):e42.下午:17311470
· 查看文章
· 普布梅德/NCBI
· 谷歌学者
00011. 11.奥弗加德 Hj, 圣贝 S, 雷迪先生, 雷迪 Vp, 阿巴加 S, 马蒂亚斯 A, 等等。在赤道几内亚比奥科岛,光陷阱无法估计可靠的疟疾蚊子叮咬率。疟疾杂志。2012;11(1):56.下午:22364588
· 查看文章
· 普布梅德/NCBI
· 谷歌学者
00012. 12.斯图罗克 Hjw, 贝内特 Af, 米德基萨 A, 高斯林路, 盖兴 Pw, 温室 B. 绘制低传播环境中的疟疾风险: 挑战和机遇。趋势寄生虫。2016;32(8):635–645.下午:27238200
· 查看文章
· 普布梅德/NCBI
· 谷歌学者
00013. 13.盖辛 Pw, 帕蒂尔 Ap, 史密斯 Dl, 盖拉卡, 埃利亚扎尔 Ir, 约翰斯顿 Gl, 等等。一个新的世界疟疾地图:2010年恶性疟原虫流行。马拉尔 J. 2011:10:378.下午:22185615
· 查看文章
· 普布梅德/NCBI
· 谷歌学者
00014. 14.巴特 S, 韦斯 Dj, 卡梅隆 E, 比桑齐奥 D, 马平 B, 达林普尔 U, 等等。2000年至2015年期间疟疾控制对非洲恶性疟原虫的影响。自然界。2015;526(7572):207–211.下午:26375008
· 查看文章
· 普布梅德/NCBI
· 谷歌学者
00015. 15.韦斯 Dj, 卢卡斯 Tcd, Nguyen M, 南迪 Ak, 比桑齐奥 D, 战斗 Ke, 等等。绘制2000-17年恶性疟原虫全球流行率、发病率和死亡率图:空间和时间建模研究。柳叶 刀。2019;394(10195):322–331.下午:31229234
· View Article
· PubMed/NCBI
· Google Scholar
00016. 16.Smith DL, Guerra CA, Snow RW, Hay SI. Standardizing estimates of the Plasmodium falciparum parasite rate. Malar J. 2007;6:131. pmid:17894879
· 查看文章
· 普布梅德/NCBI
· 谷歌学者
00017. 17.皮布斯 · 奥格, 兰鲍特 A, 哈维 · 菲从重建的家谱中推断病毒种群史的综合框架。遗传学。2000;155(3):1429–1437.下午:10880500
· 查看文章
· 普布梅德/NCBI
· 谷歌学者
00018. 18.古滕昆斯特 Rn, 埃尔南德斯路, 威廉姆森 Sh, 布斯塔曼特 CD 。从多维 SNP 频率数据推断多个人群的联合人口历史。普洛斯 · 吉纳特2009:5 (10):e1000695.下午:19851460
· 查看文章
· 普布梅德/NCBI
· 谷歌学者
00019. 19.李H,德宾R.从单个全基因组序列推断人类人口史。自然界。2011;475(7357):493–6.下午:21753753
· 查看文章
· 普布梅德/NCBI
· 谷歌学者
00020. 20.刘 X ,傅 YX 。使用 SNP 频率光谱探索人口大小变化。纳特·吉纳特2015;47(5):555–9.下午:25848749
· 查看文章
· 普布梅德/NCBI
· 谷歌学者
00021. 21.金曼 Jfc .关于大人口的家谱。应用概率日志。1982;19 (A):27+43.医学论文发表 -
· 查看文章
· 谷歌学者
00022. 22.张 Hh, 莫斯埃尔, 公园 Dj, 恩迪亚耶 D, 姆布普 S, 沃尔克曼 Sk, 等等。疟疾生命周期强化了自然选择和随机遗传漂移。国家科学院学报。2013;110(50):20129.下午:24259712
· 查看文章
· 普布梅德/NCBI
· 谷歌学者
00023. 23.曼达尔 S, 萨卡尔 Rr, 辛哈 S. 疟疾数学模型 - 审查。疟疾杂志。2011;10(1):202.下午:21777413
· 查看文章
· 普布梅德/NCBI
· 谷歌学者
00024. 24.史密斯 Dl, 战斗 Ke, 海西, 巴克 Cm, 斯科特 Tw, 麦肯齐费。罗斯、麦克唐纳和蚊子传播病原体的动态与控制理论。普洛斯病原体。2012;8(4):e1002588。下午:22496640
· 查看文章
· 普布梅德/NCBI
· 谷歌学者
00025. 25.丹尼尔斯 R, 沙夫纳 Sf, 温格 Ea, 普罗克特 Jl, 张 H, 黄 W 等人。疟疾基因组模型显示,塞内加尔的传播下降和反弹。普罗克·纳特尔·阿卡德·西美国 2015;112 (22):7067+72.下午:25941365
· 查看文章
· 普布梅德/NCBI
· 谷歌学者
00026. 26.沃森 · 奥杰、奥克尔 · Lc 、海勒威尔 J 、斯莱特 · 赫克、温温 · 赫特、奥梅多一世等人。使用传播建模评估疟疾遗传学在推断传播强度变化方面的表现。分子生物学与进化。2020;38(1):274–289.
· 查看文章
· 谷歌学者
00027. 27.疟疾根、阿胡伊迪A、阿里M、阿尔马格罗-加西亚J、阿曼布阿-恩格瓦A、阿马拉通加C等人。全球7,000个样本中恶性疟原虫基因组变异的开放式数据集[版本1;同行评议:2已获批准]。韦康开放研究。2021:6 (42) 下午:33824913
· 查看文章
· 普布梅德/NCBI
· 谷歌学者
00028. 28.莫兰· 帕普遗传学中的随机过程。剑桥哲学会的数学学报。1958;54(1):60–71.
· 查看文章
· 谷歌学者
00029. 29.朱 Sj, 亨德里贾, 阿尔马格罗 - 加西亚 J, 皮尔逊路, 阿马托 R, 迈尔斯 A 等。混合感染的起源和相关结构因当地恶性疟疾流行而异。生活。2019;8.下午:31298657
· 查看文章
· 普布梅德/NCBI
· 谷歌学者
00030. 30.奥诺里 E, 抓取 B. 疟疾流行预测指标。公牛世界卫生组织。1980;58(1):91–8.下午:6966545
· 查看文章
· 普布梅德/NCBI
· 谷歌学者
00031. 31.Tajima F. 统计方法,通过DNA多态性来测试中性突变假说。遗传学。1989;123(3):585–95.下午:2513255
· 查看文章
· 普布梅德/NCBI
· 谷歌学者
00032. 32.丹尼尔斯 R, 张 Hh, 塞内 Pd, 公园 Dc, 尼夫西德, 沙夫纳 Sf, 等等。在塞内加尔加强干预后,基因监测检测疟疾的克隆和流行病传播。普洛斯一号2013;8(4):e60780。下午:23593309
· 查看文章
· 普布梅德/NCBI
· 谷歌学者
00033. 33.莫贝吉瓦、卢阿公里、阿胡伊迪广告、佐藤吉纳 J、恩瓦坎马 DC 、阿曼布阿 - 恩格瓦 A 等。在西非不同地方的一个地区,恶性疟原虫的种群遗传结构。疟疾杂志。2012;11(1):223.下午:22759447
· 查看文章
· 普布梅德/NCBI
· 谷歌学者
00034. 34.埃切弗里 · 德夫, 奈尔 S, 奥索里奥 L, 梅农 S, 穆里略 C, 安德森 Tj 。哥伦比亚太平洋地区长期存在克隆疟原虫疟原虫恶性疟原虫血统。BMC基因。2013;14:2.下午:23294725
· 查看文章
· 普布梅德/NCBI
· 谷歌学者
00035. 35.恩霍马 Sc, 奈尔 S, 艾尔赛 S, 阿什利 E, 麦克格雷迪 R, 菲奥 Ap, 等等。人类病原体中传播下降的人口遗传相关性。摩尔生态 2013;22 (2):273+85.下午:23121253
· 查看文章
· 普布梅德/NCBI
· 谷歌学者
00036. 36.安德森 Tj, 豪博尔德 B, 威廉姆斯 Jt, 埃斯特拉达 - 弗兰科 Jg, 理查森 L, 莫林多 R, 等等。微型卫星标记揭示了疟原虫恶性疟原虫的种群结构。莫尔·比奥·埃沃尔2000;17(10):1467–82.下午:11018154
· 查看文章
· 普布梅德/NCBI
· 谷歌学者
00037. 37.与物种相关的人群的育种结构。美国博物学家1940;74(752):232–248.
· 查看文章
· 谷歌学者
00038. 38.佩妮 · 马、 迈尔 N 、贝弗 · 卡、彭伯顿 - 罗斯 · P 、布里埃特 · 奥杰、史密斯 · 德尔等人。考虑到各国有效治疗水平,非洲流行国家疟疾暴露分布情况。马拉尔 J. 2015:14:384.下午:26437798
· 查看文章
· 普布梅德/NCBI
· 谷歌学者
00039. 39.汉密尔顿 · 沃尔、阿马托 R 、范德普洛伊姆 · 鲁、雅各布 · 克格、广 Hh 、图伊 - 尼恩 · 恩特等人。东南亚耐多药疟疾的演变和扩展:基因组流行病学研究。柳叶刀感染迪斯 2019;19 (9):943+951.下午:31345709
· 查看文章
· 普布梅德/NCBI
· 谷歌学者
00040. 40.谢蒂 · 阿克、雅各布 ·CG 、黄 F 、李 Y 、阿格拉瓦尔 S 、桑德斯 Dl 等人。东南亚恶性疟原虫的基因组结构和多样性揭示了最近的寄生虫迁移模式。纳特公社2019;10(1):2665.下午:31209259
· 查看文章
· 普布梅德/NCBI
· 谷歌学者
00041. 41.哈勒BC,加洛韦J,凯勒赫J,梅瑟PW,拉尔夫PL.树序列记录在SLiM开辟了新的视野,为全基因组的前瞻性模拟。莫尔 ·埃科尔 · 鲁苏尔2019;19(2):552–566.下午:30565882
· 查看文章
· 普布梅德/NCBI医学论文发表 -
· 谷歌学者
00042. 42.凯勒赫 J, 埃瑟里奇 Am, 麦克文 G. 高效凝聚模拟和大样本大小的家谱分析。PLos 计算生物 2016;12 (5):1+22.下午:27145223
· 查看文章
· 普布梅德/NCBI
· 谷歌学者
00043. 43.真实性 B. 简单;可从: https://mrc-ide.github.io/SIMPLEGEN/.
00044. 74M实际上,西莱里K、百隆MGB、加焦蒂OE、弗朗索瓦O.近似贝叶斯计算(ABC)。生态学和进化趋势。2010;25(7):410–418.
· 查看文章
· 谷歌学者
00045. 45.林图萨里 J, 古特曼穆, 杜塔 R, 卡斯基 S, 科兰德 J. 基本原理和近似贝叶斯计算的最新发展。系统生物学。2016;66 (1):e66+e82.
· 查看文章
· 谷歌学者
00046. 46.古塞夫 A, 洛伊 Jk, 斯托费尔 M, 戴利 Mj, 阿尔特舒勒 D, 布雷斯洛 Jl, 等等。全人群、全基因组图谱的隐性相关性。基因组再来. 2009;19 (2):318+26.下午:18971310
· 查看文章
· 普布梅德/NCBI
· 谷歌学者