免费医学论文发表-利用病毒序列多样性估计婴儿HIV感染的时间
抽象
HIV感染年龄可能影响婴儿的病毒发病机制,但感染时间(即感染日期)并不总是已知的。成人研究使用 HIV RNA 多样化率估计感染时间,然而,由于病毒动力学可能存在差异,目前尚不清楚成人训练的模型在用于婴儿时是否能提供准确的预测。虽然成人的病毒多样化率已经得到很好的定义,但描述婴儿这些动态的数据有限。在这里,我们使用来自22名肯尼亚婴儿的纵向血浆样本对gag和pol进行了Illumina测序,这些样本具有明确的感染时间特征。我们利用这些数据来表征病毒多样性随时间的变化,方法是设计一个婴儿训练的贝叶斯分层回归模型,该模型使用病毒多样性预测感染后的时间。我们发现,对于大多数婴儿来说,多样性会随着时间的推移而累积(pol 内的中位率 = 0.00079 多样性/月),并且多样性的积累速度比成人快得多(比较先前报道的 pol = 0.00024 多样性/月的成人率 [1])。我们发现,婴儿病毒多样化率因个体、基因区域和感染的相对时间而异,但不因设定点病毒载量或CD4 + T细胞下降率而异。我们将这种婴儿训练的贝叶斯分层回归模型的预测性能与使用相同婴儿数据训练的简单线性回归模型以及现有的成人训练模型进行了比较[1]。使用来自另外 15 名经常进行 HIV 检测的婴儿的独立数据集来定义感染时间,我们证明婴儿训练的模型比现有的成人训练模型更准确地估计感染后的时间。这项工作将有助于确定感染时间未知的婴儿感染HIV的时间,并有助于完善我们对病毒多样性如何在婴儿中积累的理解,这两者都可能对婴儿特异性治疗和预防干预措施的未来发展产生广泛影响。
作者摘要
了解HIV感染的时间对于提高我们对病毒传播和发病机制的理解至关重要,尤其是在婴儿中。在该组中,已发现病毒载量水平远高于成人,并且因年龄和感染方式而异。在这项研究中,我们探讨了儿童HIV感染早期阶段的病毒多样性动态。受先前成人研究的启发,我们开发了特定于婴儿的模型来测量病毒多样化的速率,并使用这些推断的速率来估计感染时间。将这些模型应用于一组肯尼亚婴儿,我们成功地比现有的成人特定模型更准确地估计了他们的感染时间。我们还表明,与成人相比,病毒多样性在婴儿中的积累速度要快得多。这项工作为婴儿HIV序列如何多样化提供了新的见解,为了解婴儿和成人之间病毒发病机制、传播和疾病进展的差异提供了有价值的信息。这些发现还强调了在为未来研究制定与不同年龄组的HIV感染时间相关的方法时考虑这些差异的重要性,因为如果不这样做,可能会导致关于儿科感染时间的错误结论。
数字
Fig 9图1图2图3Table 1Fig 4Fig 5Fig 6Fig 7Fig 8Fig 9图1图2图3
引文: Russell ML、Fish CS、Drescher S、Cassidy NAJ、Chanana P、Benki-Nugent S 等人(2023 年)使用病毒序列多样性来估计婴儿感染 HIV 的时间。PLoS 病理学 19(12): e1011861 中。 https://doi.org/10.1371/journal.ppat.1011861
编辑 器: Daniel C. Douek,美国疫苗研究中心
收到: 11年2023月27日;接受: 2023年20月2023日;发表: <>月 <>, <>
版权所有: ? 2023 Russell et al.这是一篇根据知识共享署名许可条款分发的开放获取文章,该许可允许在任何媒体上不受限制地使用、分发和复制,前提是注明原作者和来源。
数据可用性: 本研究中实现的所有建模和分析代码均可在 GitHub 上获得,网址为 https://github.com/matsengrp/infection-timing。https://mc-stan.org/ 提供的 rstan 和 doi: 10.1201/9781315372495 的重新思考 R 包特别有用。过滤后的测序读长已存入美国国立卫生研究院序列读长档案,藏号为PRJNA1032485。
资金: 这项工作得到了美国国立卫生研究院的资助:用于 GJS 和 DAL 的 R01 HD094718,用于 JO 的 R01 AI076105,用于 MLR 和 FAM 的 R01 AI146028,P30 CA015704 到 Fred Hutch/华盛顿大学癌症联盟的基因组学和生物信息学共享资源 (RRID:SCR_022606),以及 Fred Hutch 科学计算的S10OD028685。FAM 是霍华德休斯医学研究所 (HHMI) 的研究员。HHMI医学研究员计划为SD提供了支持。资助者在研究设计、数据收集和分析、发表决定或手稿准备方面没有任何作用。
利益争夺: 我已经阅读了该杂志的政策,这篇手稿的作者有以下相互竞争的利益: FAM 是霍华德休斯医学研究所 (HHMI) 的研究员。
介绍
感染艾滋病毒的母亲所生的婴儿在子宫内或分娩和哺乳期间有感染艾滋病毒的风险。既往研究表明,病毒载量和发病机制因年龄和感染方式而异[2–4]。具体而言,与后来感染的婴儿和成人相比,2月龄前感染的婴儿的HIV RNA水平要高得多[4-<>]。然而,在这些密切监测的队列之外,大多数新诊断的HIV感染婴儿已经确定HIV感染的持续时间未知。确定感染时间通常需要定期进行婴儿检测,但并不总是实施。了解HIV感染的时间对于提高我们对婴儿病毒传播和发病机制的理解非常重要。
成人研究证实,HIV序列多样性随时间推移而增加[1,5–18]。由于HIV传播过程中的瓶颈导致急性HIV感染的早期阶段病毒种群相对均匀[19–22],感染通常仅感染一种或几种变异[23–27]。逆转录酶容易出错的特性和宿主免疫应答的压力导致病毒种群随着时间的推移迅速多样化[28]。在感染早期,病毒多样性以近似线性方式增加[6]。使用各种测序平台和序列多样性测量方法观察到了这一趋势,包括多态性核苷酸的分数[1,11,13,14,16,18],高分辨率熔解[15]和平均成对多样性[1,10,12,17].在这些测量中,平均成对多样性,即任何两个序列在特定位置具有不同核苷酸的概率,在序列中的所有位置上取平均值,可以说是最容易解释和计算的。事实上,成人研究表明,使用平均成对多样性的线性回归模型可用于准确估计感染时间[1,18]。
与成人相比,尽管人们广泛努力描述婴儿和成人HIV感染之间的其他差异,但婴儿的病毒多样化率尚不清楚。例如,研究发现,与成人相比,婴儿的HIV病毒载量设定点水平要高得多[2,3]。由于婴儿在母体抗体存在的情况下被感染,病毒可能在感染前逃避免疫压力[27],因此具有相对较高的复制适应性[29,30]。此外,与急性感染的成人相比,婴儿抑制病毒的速度较慢[31],这可能与婴儿在感染时具有发育中的免疫系统有关。由于存在这些差异,婴儿的病毒多样化率可能与成人不同[32]。目前尚不清楚婴儿的病毒多样性在早期感染期间是否以近似线性方式增加,以及它是否可用于估计儿科感染时间。
在本文中,我们研究了肯尼亚婴儿队列中病毒平均成对多样性 (APD) 如何随时间变化,并探讨了病毒多样化率是否可用于准确估计感染时间。我们设计了一个贝叶斯分层回归模型来衡量病毒多样化的速率,并使用在 HIV 感染后 2-3 个时间点从 22 名具有良好 HIV 感染时间的婴儿收集的序列数据来训练该模型。通过这种婴儿训练的模型,我们表明,对于大多数婴儿来说,序列多样性会随着时间的推移而积累,并且这种积累的速度因个体、基因区域和感染方式而异,但不因设定点病毒载量或CD4 + T细胞下降率而异。我们证明该模型具有经过良好校准的不确定性估计,这意味着它提供了准确的置信区间。此外,我们比较了这种婴儿训练的贝叶斯分层回归模型估计儿童感染时间的能力,以及使用相同婴儿数据训练的简单线性回归模型,以及现有的成人训练模型[1]。我们发现,与现有的成人训练模型相比,两种婴儿训练的模型类型都可以更准确地估计婴儿感染后的时间,尽管两者都具有不平凡的预测误差水平。
结果
数据概览
在1992-2002年间,纳入队列研究(见 方法)的HIV感染母亲所生的肯尼亚儿童,从出生到33岁,通过频繁的HIV检测和血浆样本进行随访[34,6]。由于抗逆转录病毒疗法(ART)在这段时间内还不是肯尼亚的标准护理,因此这些孩子在监测期间都是未接受过抗逆转录病毒治疗的,但是,他们的一些母亲在怀孕期间接受了短期抗逆转录病毒治疗。频繁的HIV检测(每12-3周)使我们能够估计HIV感染的时间,作为最后一次阴性检测和第一次阳性检测之间的中点。我们将这个估计的HIV感染时间作为“真实”感染时间。对于每个婴儿,我们使用Illumina测序来计算血浆HIV RNA中GAG和POL的<>个不同区域内的平均成对病毒多样性测量值(参见方法)。
模型训练数据集由来自22名婴儿的序列组成,这些婴儿在HIV感染后的2-3个时间点有血浆样本。在这 22 名婴儿中,11 名在子宫内感染(log10 设定点病毒载量范围为 5.72-6.52),11 名在产后感染(log10 设定点病毒载量范围为 5.29-7.80)。模型测试数据集仅由另外 15 名婴儿感染 HIV 后单个时间点的序列数据组成,其中 2 名和 13 名分别在子宫内或产后感染。
量化婴儿病毒序列多样化率的建模方法概述
如上所述,训练数据集包含从多个时间点和每个个体的基因区域采样的病毒序列多样性 (APD) 测量值(图 1A)。由于这些数据的多维性质,我们选择使用贝叶斯分层模型来量化病毒多样化的速率,这为我们提供了灵活性,可以同时使用单一的统一模型测量所有个体和基因区域的病毒多样性与时间之间的关系。为此,我们使用来自所有个体和基因区域的所有数据,使用基线斜率项,线性地模拟自感染以来的时间与病毒序列多样性之间的关系。在同一模型中,我们还包括个体特异性和基因区域特异性斜率修饰术语,以解释每个个体和基因区域相对于基线斜率的斜率差异(图1B)。我们将此模型称为婴儿训练的分层模型。
缩略图 下载:
PPT格式PowerPoint 幻灯片
巴布亚新几内亚放大图像
TIFF格式原始图像
图 1. 用于量化病毒多样化率的数据集和模型概述。
(A) 数据集中每个基因区域的平均成对多样性 (APD) 作为感染后真实时间的函数。数据集中的每个人都会显示一条单独的行。(B)我们使用婴儿训练的分层模型量化每个人的病毒多样化率。用于该模型的贝叶斯分层建模框架允许我们获得自感染以来的估计时间分布,给定病毒序列多样性测量 (APD),使用 APD 斜率分布,该分布是从基线斜率分布中获得的,此外还有个体特异性和基因区域特异性斜率修饰项。总之,这些 APD 斜率的分布提供了每个个体和基因区域的病毒序列多样化速率的估计值。这些 APD 斜率将具有与我们的预测设置相对应的单位月/多样性。
https://doi.org/10.1371/journal.ppat.1011861.g001
我们设计了这个模型,以便它可以使用APD测量来预测婴儿感染后的时间。因此,从该模型推断出的病毒多样化率或 APD 斜率将具有与我们的预测设置相对应的单位月/多样性。先前的一项研究也采用了类似的方法,该研究估计了成人队列中的病毒多样化率[1]。因此,图1A之后的分析和绘图将在x轴上具有成对的多样性,在y轴上具有时间。
贝叶斯建模框架允许我们在制定模型时结合现有的生物学知识。由于研究表明,大多数婴儿仅感染了一种病毒变异[23\u27],因此我们使用先验值或一组初始合理值将基线斜率项限制为模型公式中的正值。然而,由于某些个体和基因区域可能以不同的方式积累病毒多样性,因此我们没有限制个体特异性和基因区域特异性斜率修饰术语的标志。因此,APD 斜率(即基线斜率、个体特异性斜率修饰项和基因区域特异性斜率修饰项的总和)仍有可能为负值,这表明给定个体和基因区域的多样性随时间推移而减少。此外,由于我们假设感染时序列多样性应为零,因此我们没有推断出截距参数。
所有个体和基因区域的病毒多样性都随着时间的推移而增加
每个病毒序列多样性 (APD) 测量值表示两个随机抽取的序列在指定位置具有不同核苷酸的概率,在所有位置上取平均值,而 APD 斜率(即以每个多样性的月为单位测量的 APD 积累速率)表示 APD 测量值增加的速率。由于突变会随着时间的推移在序列中饱和,因此不应将 APD 斜率解释为两个序列之间的所有位点不匹配所需的时间。相反,我们建议考虑 APD 斜率的倒数,以每月多样性单位测量,这可以解释为两个序列之间不匹配累积的速率。我们使用来自婴儿训练分层模型的哈密顿马尔可夫链蒙特卡洛采样,在给定完整的婴儿训练数据集的情况下,根据基线斜率、个体特异性斜率修饰项和基因区域特异性斜率修饰项的总和估计了 APD 斜率的完整后验分布(参见方法)。这些 APD 斜率分布的特征是每个个体和基因区域的不同中位数和可信区间(置信区间的贝叶斯类似物)。所有中位APD斜率均为正值,只有一个可信区间包含负值,表明所有个体和基因区域的序列多样性随时间增加(S1图)。总体而言,推断的基线斜率表明 APD 积累率为正(中位 APD 斜率 = 1262.16 个月/多样性,89% 可信区间 = [900.60, 1606.44])。
为了评估婴儿训练的分层模型测量 APD 斜率的充分性,我们进行了一系列后验预测检查,其中包括将观察到的感染后时间数据与后验预测分布生成的模拟样本进行比较。这种后验预测分布是给定观测数据的新观测值自感染以来可能时间的模型派生分布。理想情况下,如果模型与数据拟合良好,则在模型下生成的自感染数据以来的复制时间应与观察到的自感染数据以来的时间相似。事实上,这主要是我们观察到的(S3图)。然而,这些重复的数据包含自感染以来的时间范围更广,值表明,给定观察到的数据,该模型允许 APD 斜率和感染后可能的时间比预期的变化更大。
病毒序列多样化率因个体、基因区域和感染方式而异,但不因设定点病毒载量或 CD4+ T 细胞下降率而异
我们感兴趣的是病毒序列多样化率(即APD斜率)是否因个体、基因区域、感染方式、设定点病毒载量或CD4 + T细胞下降率而显着变化。为了探索 APD 斜率是否因个体或基因区域而异,我们将婴儿训练的分层模型(包含基线斜率项,以及个体特异性和基因区域特异性斜率修饰项)与缺乏相应斜率变化效应的模型(例如,个体特异性斜率修饰项或基因区域特异性斜率修饰项)进行了比较通过计算贝叶斯因子。同样,为了探索 APD 斜率是否随感染方式、设定点病毒载量或 CD4+ T 细胞下降速率而变化,我们将婴儿训练的分层模型与包含相应斜率变化效应的模型进行了比较(例如 感染模式特异性斜率修饰项、设定点病毒载量特定斜率修饰项等)通过计算贝叶斯因子。在贝叶斯框架内,贝叶斯因子提供了一种比较两个模型并衡量有利于一个模型相对于另一个模型的证据权重的方法。贝叶斯因子检验根据得到的贝叶斯因子值的大小分配不同的解释(S1表)[35]。在这里,大于 100 的贝叶斯因子为婴儿训练的分层模型提供了极其有力的证据,而小于 1/100 的贝叶斯因子为缺乏或包含感兴趣的斜率修正效应的替代模型提供了极其有力的证据。因此,大贝叶斯因子和小贝叶斯因子 (BF) 都包含有用的信息。
使用这些方法,我们分别比较了APD斜率因基因区域或个体而异的假设与比率不变化的替代假设。在这两种情况下,我们都发现了支持婴儿训练分层模型的极其有力的证据,表明APD斜率在个体之间都不同(BF = 6.710×1020)和基因区域(BF = 3.963 × 104).当仔细观察数据(图1A)以及从婴儿训练的分层模型(图2和S1)中推断出的个体特异性和基因区域特异性斜率修饰项的值时,这些趋势得到了反映。推断的个体特异性斜率修正项,模拟了每个个体相对于基线斜率的 APD 斜率差异,表明 APD 斜率在个体之间差异很大(中位斜率差异范围 [89% 可信区间] = -873.48 [-1247.16, -518.64] 至 934.08 [445.32, 1451.16] 个月/多样性)。推断的基因区域特异性斜率修饰项模拟了每个基因区域相对于基线斜率的 APD 斜率差异,表明 APD 斜率在基因区域 1 内(在 gag 内;中位斜率差异 = -181.32 个月/多样性,89% 可信区间 = [-464.40, -85.68])比基因区域 2(pol 的 5' 末端)积累得更快;中位斜率差异 = 7.20 个月/多样性,89% 可信区间 = [-271.92, 299.64]) 和基因区域 3(pol 的 3' 末端;中位斜率差异 = 191.04 个月/多样性,89% 可信区间 = [-49.08, 525.72])。
缩略图 下载:
PPT格式PowerPoint 幻灯片
巴布亚新几内亚放大图像
TIFF格式原始图像
图 2. APD 斜率因个体、基因区域和感染方式而异。
训练数据集中的每个个体和基因区域都显示了不同的线。每条线的斜率是每个个体和基因区域的婴儿训练分层模型衍生的中位 APD 斜率。由于我们用于估计这些 APD 斜率的模型最终被设计为最终用于估计给定 APD 值的感染后的时间,因此这些推断的 APD 斜率具有与我们的预测设置相对应的单位月/多样性。
https://doi.org/10.1371/journal.ppat.1011861.g002
我们还对APD斜率是否随感染时间而变化感兴趣,特别是将出生时HIV检测呈阳性并在子宫内感染的婴儿与出生后首次HIV检测呈阳性的婴儿进行比较。我们将这种感染的相对时间称为“感染方式”。因此,我们将婴儿训练的分层模型与包含感染模式特异性斜率修饰术语的替代模型进行了比较。在这种比较中,我们发现了非常有力的证据支持替代模型,表明APD斜率因感染方式而异(BF = 1.199 × 10?4).具体而言,感染方式特异性斜率修饰术语(模拟感染方式之间相对于基线斜率的 APD 斜率差异)表明,与宫内感染的个体相比,出生后感染的个体具有更高的 APD 积累率(中位斜率差异 = -88.44 个月/多样性,89% 可信区间 = [-541.20, 253.08]) 116% 可信区间 = [-76.89, 146.4])。这些差异可以在图 674 中直观地看到。一位评论员认为,该信号是由两名产后感染者(个体 88 和 2)驱动的,与其他产后感染者相比,他们的病毒多样化率相对较高。事实上,我们发现,当这两个人被排除在分析之外时,APD斜率并没有随感染方式(BF = 12.13)而发生显着变化。无论感染方式的APD斜率变化是否代表真正的生物信号,我们选择不使用包含感染方式特异性斜率修饰术语的替代模型进行下游分析。之所以做出这个决定,是因为在将最终模型应用于感染时间未知的个体时,我们不希望了解感染方式。
最后,由于设定点病毒载量和CD4+ T细胞下降率都是疾病进展和生存的强预测因子[3,31,36–42],我们对APD斜率在这些变量的背景下是否变化感兴趣。我们预计具有较高设定点病毒载量(即病毒复制率较高,容易出错)的个体将具有较高的病毒多样化率。同样,我们预计CD4 + T细胞下降率较高(即疾病进展较快)的个体也将具有较高的病毒多样化率。为了探索这一点,我们将 APD 斜率与设定点病毒载量(图 3)和 CD4+ T 细胞衰退率(S2 图)进行了比较。尽管我们最初做出了假设,但在这两种情况下似乎都没有明显的趋势。为了量化这一点,我们将婴儿训练的分层模型与包含 APD 和设定点病毒载量 log10 之间的交互斜率项或 APD 与 CD4+ T 细胞衰退率之间的交互斜率项的替代模型进行了比较贝叶斯因子检验。在这两种情况下,我们都发现了支持婴儿训练的分层模型的中等证据。我们的结论是,APD 斜率随设定点病毒载量的 log10 (BF = 3.484) 或 CD4+ T 细胞下降速率 (BF = 4.840) 没有显着变化。
缩略图 下载:
PPT格式PowerPoint 幻灯片
巴布亚新几内亚放大图像
TIFF格式原始图像
图 3. APD 斜率不会因设定点病毒载量的 log10 而发生显着变化。
从婴儿训练的分层模型中推断出的每个个体和基因区域的中位 APD 斜率显示为每个个体的设定点病毒载量的 log10 的函数。
https://doi.org/10.1371/journal.ppat.1011861.g003
使用婴儿训练的模型最准确地估计感染后的婴儿时间
鉴于在儿童感染期间,APD似乎随着时间的推移而增加,我们有兴趣确定病毒APD是否可用于准确估计婴儿感染后的时间。为了探索这一点,我们评估了三种不同的模型类型。
既往发表的一项成人研究表明,使用最小绝对偏差线性回归模型,病毒多样化率可用于准确估计感染时间[1]。具体来说,他们为每个病毒基因区域定义了一个独特的模型,其中测量了多样性,因此每个模型都从该基因区域获取病毒多样性测量值作为输入,并输出自感染以来的估计时间。他们使用成人数据集训练每个模型。我们将这组现有模型称为成人训练的线性模型。在这里,我们复制了这些方法,使用上述婴儿训练数据集为每个病毒基因区域训练最小绝对偏差线性回归模型(参见方法)。我们将这些模型称为婴儿训练的线性模型。表1总结了成人训练的线性模型和婴儿训练的线性模型。鉴于我们的婴儿训练数据集中代表了三个基因区域区域,成人训练的线性模型组和婴儿训练的线性模型组分别由三个独立的模型组成(例如,每个独特的基因区域一个模型)。
thumbnail 下载:
PPT格式PowerPoint 幻灯片
巴布亚新几内亚放大图像
TIFF格式原始图像
表 1. 型号说明。
https://doi.org/10.1371/journal.ppat.1011861.t001
所有这些简单的线性回归模型都假设病毒多样性在个体之间以相同的方式积累,并且仅为给定的病毒序列多样性测量提供单个估计的感染时间。相比之下,贝叶斯婴儿训练的分层模型(如前所述)更进一步,为我们提供了灵活性,即使用从婴儿训练数据集中每个个体和基因区域的多个时间点采样的序列多样性测量来获得单一的统一模型(图 1B)。此外,贝叶斯建模框架使我们能够在给定婴儿训练数据集的情况下,通过估计模型参数的完整后验分布来评估任何给定病毒序列多样性测量的所有可能感染时间的概率(参见方法)。
我们感兴趣的是这三种模型类型(表1)在准确预测此处使用的婴儿数据感染后时间的能力方面的比较。为了衡量每个模型的准确性,我们将模型得出的感染时间与使用频繁的HIV检测获得的感染后的“真实”时间进行了比较。由于婴儿训练的分层模型和婴儿训练的线性模型都使用上述婴儿训练数据集进行拟合,因此我们使用留一交叉验证来获得模型得出的自感染以来每个个体的感染时间和婴儿训练数据集中的 APD 测量值(图 4 中的“婴儿训练模型评估路径”)。相比之下,由于在先前的研究中,成人训练的线性模型的系数是使用单独的成人数据集拟合的[1],因此我们使用这些模型来获得模型衍生的自感染以来对每个人的感染估计和直接在婴儿训练数据集中测量的APD(图4中的“成人训练模型评估路径”)。
thumbnail 下载:
PPT格式PowerPoint 幻灯片
巴布亚新几内亚放大图像
TIFF格式原始图像
图 4. 模型评估策略概述。
我们使用婴儿训练数据集的子集训练了每个婴儿训练的模型。我们使用留一交叉验证来评估每个婴儿训练模型在训练数据集上的预测准确性(如虚线所示)。我们还使用婴儿训练数据集(如实线所示)测试了先前发表的成人训练线性模型的预测准确性。
https://doi.org/10.1371/journal.ppat.1011861.g004
虽然婴儿训练的分层模型为每个病毒序列多样性测量提供了自感染以来的估计时间分布,但婴儿训练的线性模型和成人训练的线性模型仅推断每个病毒序列多样性测量的感染后时间的单点估计。因此,为了直接比较模型,我们将婴儿训练的分层模型中估计感染时间的每个分布的中位数视为与其他模型估计感染点估计时间的等效度量。为了计算每个模型的准确性,我们将每个模型得出的自感染估计时间与HIV检测得出的“真实”时间进行比较,因为每个人的感染测量值,并计算了每个基因区域的平均绝对误差(MAE)。通过这些方法,我们发现使用从基因区域 3(pol 的 3' 末端)采样的 APD 测量值,其次是基因区域 2(pol 的 5' 末端)采样,所有三种模型类型的预测误差都最低(图 5A)。虽然婴儿训练的线性模型在所有基因区域的预测误差最低,但婴儿训练的分层模型和婴儿训练的线性模型的MAEs非常相似(例如,在基因区域3内,MAE = 5.698个月和5.031个月),它们的预测误差分布在零附近(图5A)。与成人训练的线性模型相比,两种婴儿训练的模型的预测误差都要低得多(例如,在基因区域 3 内,MAE = 20.252 个月)。我们还设计了一个婴儿训练的分层模型版本,其中从拉普拉斯分布中得出观测值,对应于最小绝对偏差假设(参见方法),并注意到非常相似的结果(S4图)。
thumbnail 下载:
PPT格式PowerPoint 幻灯片
巴布亚新几内亚放大图像
TIFF格式原始图像
图 5. 比较训练数据集的模型预测误差。
如前所述,婴儿训练的分层模型使用来自所有基因区域的病毒多样性测量进行训练(但仅将单个病毒多样性测量作为输入,表 1),而对于婴儿训练的线性模型和成人训练的线性模型,每个基因区域都有一个训练的唯一模型。对于所有模型,每个基因区域的预测误差都是单独计算的。对于两种婴儿训练的模型类型,使用留一交叉验证来计算每个人感染后的估计时间。(A)与成人训练的线性模型相比,两种婴儿训练的模型的平均绝对误差都低得多。模型得出的感染后时间与感染后的真实时间之间的差值显示在 x 轴上。黑色垂直线表示零的差值。(B) 两个婴儿训练模型的自感染后的真实时间和模型得出的感染后时间的比较。对于婴儿训练的分层模型,每个估计值的 89% 可信区间显示为一条垂直黑线。蓝线表示自感染以来模型派生的时间 = 自感染线以来的真实时间。灰线表示模型得出的感染后时间和感染后的真实时间之间的最佳拟合线。(C) 对于两个婴儿训练的模型,平均残差(由自感染后的真实时间和自感染以来的模型得出的时间之间的平均差值给出)作为自感染后真实时间的函数而变化。绘制每个模型自感染以来每个记录时间的平均残差:绿色 = 婴儿训练的分层模型,橙色 = 婴儿训练的线性模型。 平均残差为零由水平虚线表示。
https://doi.org/10.1371/journal.ppat.1011861.g005
鉴于两个婴儿训练模型的平均绝对误差估计值高度相似,我们希望更仔细地比较两个模型的预测准确性。在评估自感染后的真实时间与模型得出的自感染以来的时间值之间的关系时,我们发现,与基因区域 1 的婴儿训练线性模型相比,婴儿训练的分层模型的两个值的相关性略高(在 gag 内;R型2= 0.018 对比 0.003)、基因区域 2(pol 的 5' 末端;R型2= 0.185 vs 0.114)和基因区域 3(pol 的 3' 末端;R型2= 0.124 对比 0.112)(图 5B)。同样,在量化自感染以来的真实时间与自感染以来的模型推导时间值之间的关系时,我们发现与基因区域 1 的婴儿训练线性模型相比,婴儿训练分层模型的最佳拟合线斜率更接近 0(在 gag 内;β = 172.0 vs -014.2)、基因区域 5(pol 的 0' 末端;β = 469.0 vs 213.3)和基因区域 3(pol 的 0' 末端;β = 352.0 对 203.11)。对于这两种模型,预测误差取决于感染后的真实时间;平均而言,对于婴儿训练的分层模型和婴儿训练的线性模型,自感染以来的时间分别小于 184.9 个月和 936.5 个月(图 11C)。同样,对于婴儿训练的分层模型和婴儿训练的线性模型,感染后分别大于 184.9 个月和 936.<> 个月的感染时间被低估了模型得出的感染时间。对于婴儿训练的分层模型来说,这种趋势略逊一筹。
为了进一步评估婴儿训练分层模型的预测准确性,我们计算了该模型的后验预测覆盖率,该模型提供了自感染以来观察到的时间值落在其模型派生的感染后验预测区间内的比例的度量。更简单地说,它是真实值落在图 5B 顶行中显示的“误差线”内的频率。对于此计算,我们获得了模型得出的自感染以来每个人的后验预测间隔和 APD 测量,使用留一交叉验证。通过这些方法,我们发现自感染测量以来所有真实时间的 90.96% 落在自感染后分布以来模型推导时间的 89% 可信区间内。这种高覆盖概率表明,婴儿训练的分层模型具有经过良好校准的不确定性预测,这使我们能够理解给定预测的置信度。然而,自感染后分布以来,每个模型得出的时间的 89% 可信区间宽度为 17.52 个月。这种缺乏精确性凸显了使用这些数据进行预测所固有的不确定性,尽管允许个体、测序区域等之间存在差异,并进一步解释了这里分析的所有预测方法观察到的预测准确性有限。
使用独立数据集进行验证
我们在 15 名婴儿的独立测试数据集上验证了每种模型类型的推断系数,这些数据集具有明确定义的感染时间和来自单个时间点的测序数据。在分析这些数据之前,我们在存储库的 git commit 1f6652a 中“冻结”了我们训练的模型系数(对于婴儿训练的线性模型)和模型参数的后验分布(对于婴儿训练的分层模型)(参见 https://github.com/matsengrp/infection-timing)。由于成人训练的线性模型的回归系数是先前发布的,因此在分析之前它们也被“冻结”。然后,对于每个模型,我们使用冷冻回归系数推断测试数据集中 15 名婴儿中每个婴儿的感染时间,并计算每个基因区域的平均绝对误差 (MAE)(图 6)。
thumbnail 下载:
PPT格式PowerPoint 幻灯片
巴布亚新几内亚放大图像
TIFF格式原始图像
图 6. 模型验证策略概述。
我们使用完整的婴儿训练数据集训练每个婴儿训练的模型,并“冻结”系数。成人训练线性模型的模型系数之前已发布。对于每个模型,我们都在独立的测试数据集上验证了预测的准确性。
https://doi.org/10.1371/journal.ppat.1011861.g006
这些新的测试数据表现出与所有三个模型的训练数据集略有不同的行为。和以前一样,使用从基因区域 2 和 3(均在 pol 内)采样的病毒多样性测量,我们发现婴儿训练的分层模型和婴儿训练的线性模型(在基因区域 2(pol 的 5' 末端)内,MAE = 9.880 个月和 10.241 个月,以及在基因区域 3(pol 的 3' 末端)内,MAE 高度相似, MAE 分别 = 9.452 个月和 9.067 个月)(图 7)。然而,使用从基因区域 3(pol 的 3' 末端)采样的多样性测量,成人训练的线性模型的误差相对较低(MAE = 8.640 个月)。虽然当使用从训练数据集的基因区域 1(gag 内)采样的病毒多样性测量时,所有三个模型的预测误差最高,但对于这些测试数据,使用从基因区域 1 采样的病毒多样性测量和婴儿训练的线性模型(MAE = 7.666 个月)的预测误差最低。使用这些相同的基因区域 1 多样性测量,婴儿训练的分层模型和成人训练的线性模型产生了高误差(MAE = 分别为 27.723 个月和 90.989 个月)。我们认为这些误差差异可归因于两个数据集之间的属性差异。
thumbnail Download:
PPTPowerPoint slide
PNGlarger image
TIFForiginal image
Fig 7. Comparison of model prediction errors by gene region for the testing data.
The difference between model-derived time since infection and true time since infection is shown on the x-axis. A difference of zero is shown by the black vertical line.
https://doi.org/10.1371/journal.ppat.1011861.g007
Indeed, we noted that the distributions of APD measures and times since infection for these 15 testing cohort infants were different from the training cohort of 22 infants. For example, the APD measures from gene region 3 (3’ end of pol) for this testing data set were slightly lower and the APD measures from gene region 1 (within gag) were much higher compared to the training data set (S5 Fig). Further, the true times since infection for this testing data set were also much higher compared to the training data set (S6 Fig). These differences in properties likely explain some of the differences in prediction errors between the training and testing data sets for each model (compare Figs 5A to 7).
Discussion
了解病毒多样性动态和HIV感染时间对于提高我们对儿童HIV感染的病毒发病机制和流行病学的理解至关重要。虽然成人研究已经描述了病毒多样化的速率,并确定它们可用于准确估计成人感染时间,但婴儿的病毒多样化速率尚未探索。使用Illumina对来自肯尼亚婴儿队列的纵向血浆样本的gag和pol进行测序,具有明确的感染时间,我们(1)量化了儿童HIV感染早期阶段的病毒多样性动态,以及(2)证明,可以使用婴儿特定的病毒多样化率来估计感染后的婴儿时间,但不能使用成人特定的比率来估计。
与成人相比,婴儿对病毒的抑制速度通常较慢[31],感染的病毒具有相对较高的复制适应度[29,30],且HIV设定点病毒载量水平更高[2,3],因此先前有研究表明,两组之间的病毒多样化率可能不同[32].事实上,先前的一项研究报告称,使用成人队列中pol基因采样的序列,病毒多样性以0.00024个多样性/月的速度增加(成人模型斜率为4206.0个月/多样性)[1]。在这里,使用来自婴儿队列的等效 pol 基因病毒多样性测量,我们发现病毒多样性以 0.00079 多样性/月的中位速率增加(婴儿模型斜率为 1269.6 个月/多样性)。这一发现表明,与成人感染相比,儿童感染期间病毒多样性的积累速度要快得多,并强调了在为未来研究制定与不同年龄组的HIV感染时间相关的方法时考虑这些差异的重要性。根据研究的不同,未能适当考虑婴儿HIV序列进化的加速速度可能会导致关于儿科感染时间和/或来源的错误结论。
此外,我们发现这些婴儿病毒多样性动态因基因区域而异,因此与pol相比,病毒多样性在gag内积累得更快。这些观察结果与既往成人研究一致[1]。我们还报告说,个体婴儿的病毒多样化率差异很大,这可能与宿主和病毒因素有关。由于选择效应,感染多种病毒变异的个体在感染的早期阶段可能会出现病毒多样性下降,但婴儿感染最常由单一病毒变异引发[23–27]。事实上,我们发现只有一个个体(个体 10)在所有基因区域的病毒多样性随着时间的推移而降低。
有趣的是,我们发现病毒多样化率因感染时间而异,因此,与出生时HIV检测呈阳性并在子宫内感染的个体相比,出生后HIV检测呈阳性的个体具有更高的病毒多样化率。该信号似乎是由两名产后感染者(个体 12 和 13)驱动的,与其他产后感染者相比,他们的病毒多样化率相对较高。事实上,当我们从分析中删除这些人时,我们不再发现两组之间病毒多样化率的差异。我们不排除这些是子宫内晚期感染的病例,出生时可能不会检测呈阳性。无论如何,这一结果令人惊讶,因为与出生后感染者相比,宫内感染者具有相对较高的HIV设定点病毒载量水平和更快的疾病进展[2–4,40]。我们预计,具有较高设定点病毒载量水平和较高CD4 + T细胞下降率的个体,因此具有较高的病毒复制率和更快的疾病进展,将具有较高的病毒多样化率。然而,我们发现病毒多样化率不随设定点病毒载量水平或CD4 + T细胞下降率而有很大差异。本分析中包含的样本数量有限可能限制了我们检测信号的能力。由于该分析包括本研究中个体的设定点病毒载量水平和 CD4+ T 细胞下降率范围有限,因此需要进一步研究病毒多样化率与设定点病毒载量水平/婴儿 CD4+ T 细胞下降率之间的关系。
成人研究表明,利用病毒多样性的线性回归模型可用于估计成人感染时间[1,18];这些成人特异性模型报告,独立成人队列的平均预测误差范围为10.08-12个月[1,18]。在这里,我们探讨了使用这种方法来估计婴儿感染时间的潜力。我们发现,与先前开发的成人训练模型相比,使用婴儿训练的模型可以更准确地估计婴儿感染后的时间[1]。具体来说,我们发现婴儿训练的线性回归模型,使用与先前开发的成人训练模型类似的方法进行训练,导致在两个独立的婴儿数据集上获得最准确的估计。婴儿训练的贝叶斯分层回归模型考虑了病毒多样化率的个体和基因区域特异性变化,具有相似的性能。上述婴儿和成人之间病毒多样化率的巨大差异可能解释了为什么与成人训练的模型相比,婴儿训练的模型可以更准确地估计婴儿感染时间。尽管准确性有所提高,但我们仍然发现我们最好的婴儿训练模型缺乏精确度(所有基因区域 3(pol 的 3' 末端)APD 测量的预测误差,婴儿训练的线性模型范围 = 0-19.8 个月,平均值 = 5.6 个月),这强调了使用多样性测量预测感染时间固有的不确定性。
对于两种婴儿训练的模型类型,与gag相比,从pol基因内采样的病毒多样性导致了最准确的感染时间估计。这表明,在婴儿感染的早期阶段,与gag相比,病毒多样性可能在pol内更线性地积累。这一发现与既往关于成人感染期间病毒多样性积累的研究一致[1]。然而,对于两个婴儿训练的模型,我们报告说预测误差取决于自感染以来的真实时间,因此每个模型都高估了自感染以来的真实时间值小于~12个月,而自感染以来的真实时间值大于~12个月被低估了每个模型。在使用婴儿测试数据集验证每个婴儿训练模型时,我们注意到了更极端的结果,该数据集包含来自婴儿的数据,与训练数据集相比,这些婴儿自感染以来的真实时间值相对较大。这些趋势表明,在儿科感染的早期阶段,病毒多样性可能不会以完全线性的方式积累。相反,相对于感染的第二年,病毒多样性在感染的第一年似乎积累得更快。例如,如果在非常早期的感染期间病毒载量水平迅速增加导致病毒复制/多样化率相对较高,这可能是由于病毒适应新的人类宿主,与后来确定设定点病毒载量水平相比。鉴于婴儿在母体抗体存在的情况下被感染,另一种可能的解释是,母体被动抗体的压力可能导致感染早期阶段的病毒复制/多样化相对于后期阶段的增加。需要进一步的工作,包括在早期感染期间更频繁的多样性采样,以探索这些关系并制定适当的回归模型(即非线性模型、响应病毒种群规模的模型等)。
在这里,我们开发并评估了用于估计感染时间的方法,这些方法适用于短的、无链接的测序读长,这是一些成人特异性模型中使用的数据类型[1]。其他类型的测序数据支持额外的感染定时方法。例如,给定单基因组序列数据,可以使用贝叶斯系统发育软件BEAST进行贝叶斯系统发育分析以进行分子测年。这种方法既往已被证明可以准确估计成人HIV感染的感染时间[43]。
我们的研究有几个关键的局限性。首先,由于我们对在抗逆转录病毒治疗之前量化儿科HIV感染期间的病毒多样性动态感兴趣,因此我们的研究依赖于在抗逆转录病毒治疗成为标准护理之前被诊断患有HIV的婴儿(例如1992-2002年在肯尼亚诊断的婴儿)的血浆样本的可用性,其感染时间是明确的。接下来,虽然本研究中包含的所有婴儿在监测期间都未接受过抗逆转录病毒治疗,但他们的许多母亲在怀孕期间接受了短期齐多夫定 (AZT),这是肯尼亚队列入组时的标准护理,以降低母婴传播的风险。事实上,对于纳入训练队列的婴儿,3 名母亲中只有 22 名在怀孕期间没有接受短期 AZT。虽然这种缺乏治疗可能会影响这些母亲所生婴儿的病毒多样化率,但由于没有AZT的人数很少,我们没有统计学能力来探索这种关系。此外,我们注意到训练数据集和测试数据集之间的属性存在一些差异,这可以解释使用每个模型时两个数据集之间预测误差的差异。例如,来自所有婴儿训练模型的三个测试数据集观察结果具有最大的超预测误差,每个模型的基因区域 1(在 gag 内)APD 测量值大于 0.04,自感染以来的次数大于 15.6 个月。具有相似基因区域 1 APD 测量值和感染时间的观察结果在训练数据集中以非常低的频率出现。其次,由于我们的感染时间模型是根据大多数婴儿仅感染单一病毒变异的假设制定的[23\u27],因此它们可能会产生不准确的时间,因为对多创始人感染个体的感染估计。最后,由于每个人的感染时间是使用6-12周之间的HIV检测间隔来定义的,因此每个人的已知感染时间都包含限制了我们感染时间建模准确性的误差。
总之,我们发现在儿科感染的前两年,病毒多样性会随着时间的推移而增加,并且婴儿特异性的病毒多样化率可用于估计儿科感染时间。这些结果进一步加深了我们对儿童HIV发病机制的理解,以及它与成人感染的区别,特别是在HIV序列多样化率的差异方面。
材料与方法
道德声明
此处描述的 CTL 和 NBT 子研究已获得肯雅塔国立医院-内罗毕大学伦理与研究委员会、Fred Hutch 癌症中心机构审查委员会和华盛顿大学机构审查委员会的批准。在入组前获得儿童父母/监护人的书面知情同意书,其中包括在未来的研究中使用儿童的样本。
研究参与者选择
我们的研究利用来自CWH的血浆样本,在肯尼亚的两个队列中注册,以训练和验证每个模型。婴儿训练数据集来自22-1999年在内罗毕参加CTL队列的2002名婴儿的纵向血浆样本[34],婴儿测试数据集包括来自CTL队列的另外10名婴儿和5-1992年间进行的内罗毕母乳喂养试验(Nairobi Breastfeeding Trial, NBT)的1998名婴儿[33].这些研究招募了妊娠晚期感染HIV的妇女(LWHIV),并在分娩后对母婴进行了1-2年的随访。
CTL 和 NBT 研究都是在抗逆转录病毒疗法 (ART) 广泛使用之前进行的,因此本研究中的所有婴儿在监测期间均未接受过 ART。
估计真正的HIV感染时间
婴儿在出生时、6 周、14 周和每 3 个月检测一次 HIV DNA,直到 2 岁。为了更精确地估计感染时间,在第一次HIV-DNA阳性检测之前,对样本进行了HIV RNA检测。感染时间被估计为最后一次HIV DNA或RNA检测阴性与第一次阳性检测之间的中点。11 名婴儿有多个可用的时间点,并被纳入训练数据集,其中 11 名出生时为 HIV 阳性,3 名出生时为 HIV 阴性,随后在随访 15 个月后检测为 HIV 感染者。在另外10名婴儿中(CTL的n=5,NBT的n=2),13名出生时HIV阳性,<>名出生时HIV阴性,但随后检测呈阳性。估计的感染时间测量值用于模型中,如下所述。对于在子宫内感染的个体,由于无法在分娩前(即子宫内)进行HIV检测,因此将感染时间估计为出生时间。因此,这些感染时间测量包含不确定性。为了减少在我们的一些模型训练期间宫内感染个体的这种不确定性,我们直接在下面描述的婴儿训练分层模型的建模框架中估计了真实的感染时间数量。
HIV-1扩增和测序
使用先前描述的基于奎尼定的RNA提取方案从50uL血浆中提取总RNA[44]。使用位于 gag 基因区域(基因区域 18080051)(HXB1 2–2347)、pol 区域中间(基因区域 2324)(HXB2 2–3892)和 pol 3869' 末端(基因区域 3)(HXB3 2–5105) 的反向引物,按照制造商的方案在三个单独的反应中对来自每个样品的 HIV RNA 进行逆转录(上标 III 第一链合成 5077)。如前所述,通过内部ddPCR方案(ddPCR TM Supermix for Probes,Bio-Rad 3)对来自pol的3'端(基因区域1863026)合成的cDNA进行定量,该方案使用定制的交叉亚型pol引物和探针[45]。使用通过ddPCR定量的HIV cDNA拷贝,我们估计了每个样品在逆转录反应(RT)中的RNA拷贝输入量,并将cDNA模板输入归一化为2个重复扩增PCR,大约相当于每个RT-PCR反应8,000个拷贝的HIV RNA。使用KOD热启动预混液(Millipore-Sigma 71842)完成三次PCR反应,扩增三个基因区域:基因区域1(HXB2 801–2252)、基因区域2(HXB2 1998–3799)和基因区域3(HXB2 3681–5061)。扩增引物改编自先前描述的引物[46]。基因区域 1 和 2 是使用 35 个循环的单轮扩增,而基因区域 3 需要 20 个和 15 个循环的巢式 PCR(参见 S2 表)。
在建立测序文库之前,使用TapeStation D5000 Assay (100–5000 bp) (Agilent 4200)对所有PCR扩增子进行定量,然后进行归一化,使0.5 ng DNA用于标记,并按照制造商的方案使用Nextera-XT DNA文库制备试剂盒(Illumina,FC-131-1096)。文库在Illumina MiSeq v3平台上使用2x300bp测序试剂盒(MS-10-3003)进行测序,每个扩增子的中位数为339,297个(IQR:167,531–497,700个)。
序列比对和多样性测量
使用概率比对流程HIVMMER将原始测序读长与参考HXB2(gag或pol,取决于片段)比对[47]。每个样本的共识序列被组装到一个本地数据库中,用于使用Magic-BLAST[48]重新对齐所有原始读长,以过滤“污染”读长,或与不同参与者样本的共识序列最接近的参与者的样本读长。如果达到 > = 5000 个读取覆盖率,则使用 HIVMMER 再次对过滤的读段进行比对以生成新的共识序列,并使用生成的氨基酸变体检出来计算每个样本的平均成对多样性 (APD)。APD是衡量两个随机选择的序列在序列长度上平均的第三个密码子位置包含不同核苷酸的概率的量度[1]。对于此分析,仅使用所有次要变异总和大于 0.01 的位点计算 APD。
训练数据集说明
如上所述,模型训练数据集由来自 22 名婴儿的数据组成。对于每个婴儿,我们计算了 2 个不同基因区域内 3-3 个时间点的病毒 APD 测量值。当对于给定的个体和基因区域,我们只有一个采样时间点时,我们排除了数据。通过对数据集中每个个体、基因区域和时间点的 APD 测量,我们计算了样本测序重复的平均 APD 值,以获得用于模型拟合和其他分析的最终 APD 值。
婴儿训练的分层模型概述
我们希望使用病毒序列多样性的测量来推断感染以来的时间(以年为单位)。我们使用贝叶斯分层建模方法,使用来自所有个体和基因区域的所有数据的基线斜率,以及个体特异性和基因区域特异性斜率修饰项,线性模拟自感染以来的时间与病毒序列多样性之间的关系(图 1B)。我们根据训练数据集中每个人的感染时间以不同的方式表示自感染以来观察到的时间。如上所述,使用频繁的HIV检测来估计真正的感染时间。然而,由于检测频率有限,这些HIV检测得出的真实时间存在不确定性,特别是对于出生时HIV检测呈阳性并在子宫内感染的个体。为了减少宫内感染个体的这种不确定性,我们选择直接在婴儿训练的分层模型的建模框架内估计“真实”感染时间。为此,对于在子宫内感染的个体,我们将使用他们在采样时的年龄作为模型拟合的“建模时间”,并直接在建模框架中估计他们的感染时间。对于出生期间或出生后感染的个体,由于他们自感染以来的HIV检测得出的真实时间具有更高的确定性,我们将使用这些措施作为模型拟合的“建模时间”。
我们之所以使用这种方法,是因为我们试图减少模型训练过程中的不确定性,同时最大化这些训练数据中包含的时序信息。然而,由于在将婴儿训练的分层模型应用于保留数据时,我们没有这些模型衍生的“真实”感染时间,因此我们使用HIV检测衍生的真实感染时间测量来评估模型的预测准确性,而不管保留数据集中每个人的感染时间如何。下面我们将介绍模型设计和模型验证的细节。
婴儿训练的分层建模符号
让 I 表示训练数据集中所有个体的集合,F 表示用于计算 APD 测量值的三个基因区域的集合,J 表示每个个体 i ∈ I 的所有时间点观测值的集合。 我们定义观察时间tij是每个人的年龄,我∈我观察 j ∈ J。因此,tij= 0 表示出生,?0.75 ≤ tij< 0 表示子宫内时间(以年为单位)。我们定义感染时间,d我,是病毒 APD、D 的观察时间(年龄)如果,对于每个个体 i ∈ I 和基因区域 f ∈ F,等于 0。因此,我们定义了自感染以来的时间,sij,对于每个个体,我∈ I 和观察 j ∈ J 使得
因此,对于分娩期间感染的每个个体,自感染以来的时间将等于观察到的时间(sij = tij和 d我= 0)。对于每个通过母乳喂养(出生后)感染的个体,感染后的时间将少于观察到的时间(sij < tij和 d我> 0;图8A)。对于每个在子宫内感染的个体,感染后的时间将大于观察到的时间(sij > tij和 d我< 0;图 8B)。
thumbnail 下载:
PPT格式PowerPoint 幻灯片
巴布亚新几内亚放大图像
TIFF格式原始图像
图 8. “建模时间”T 与感染后 s 后的时间和出生后感染 (A) 和出生前 (B) 感染者的观察时间 t 的关系表示。
(A) 出生后感染的个体的感染时间d大于零。鉴于频繁的HIV检测,我们可以仔细估计这些人的真实感染时间,因此,可以仔细估计在某个采样时间感染后的真实时间。在这个例子中,个体在两个月大时被感染。如果我们在六个月大时对它们的病毒多样性进行采样,那么它们在该时间点感染后的时间是四个月。对于这些人,我们在建模过程中使用这段时间作为“建模时间”。(B) 在子宫内感染的个体的感染时间 d 小于零。因此,我们无法通过频繁的HIV检测来估计这些人的真实感染时间或感染后的时间。在这个例子中,这个人在出生前三个月被感染。如果我们在六个月大时对它们的病毒多样性进行采样,那么它们在那个时间点感染后的时间(我们无法使用HIV检测来估计)是九个月。对于这些个体,我们使用个体在采样时的年龄,即观察到的时间t,作为建模过程中的“建模时间”。由于观察到的时间不等同于感染后的时间(这是我们想要用模型估计的值),因此我们推断出一个“建模时间”修正项 δ,即直接在模型框架内对未知感染时间 d 的估计。
https://doi.org/10.1371/journal.ppat.1011861.g008
定义婴儿训练的分层模型以预测感染时间
为了定义我们受过婴儿训练的分层模型来估计自感染以来的时间,sij,对于每个个体 I ∈ I 和观察 J ∈ J,我们对 HIV 生物学做出以下假设。我们假设感染HIV的母亲所生的婴儿可以在子宫内(-0.75 ≤ d < 0)、分娩期间(d = 0)或通过母乳喂养(d > 0)感染。对于宫内感染的婴儿,妊娠晚期(-0.333 ≤ d < 0)内的时间点最有可能是感染时间[49,50]。通过母乳喂养感染的婴儿在一个月大后的某个时间点被感染(0.083≤天)。此外,我们假设病毒APD,D,随着时间的推移而增加,但对于每个人和每个基因区域,这个比率可能是不同的(甚至可能是负的)。
基于这些假设,我们设计了一个贝叶斯分层回归模型(我们称之为婴儿训练的分层模型)来预测自HIV感染以来使用病毒APD的时间。具体来说,我们使用线性函数对每个个体 i、基因区域 f 和观察 j 的感染后估计时间进行建模,使得 σ
s2是自感染方差估计以来的估计时间,m如果是斜率,DIFJ的是 APD 度量值。我们可以定义斜率 m如果对于个体 I 和基因区域 F,其中 M 被定义为基线斜率,M
我被定义为个体特定的斜率修正项,并且 mf被定义为基因区域特异性斜率修饰术语。对基线斜率 m 进行建模,以便
个体 i 特异性斜率修正项 m我建模使得 μ
我是个体特定的斜率修正项平均估计值和σ我2是个体特定的斜率修正项方差估计值。同样,基因区域 f 特异性斜率修饰术语 mf建模使得 μ
f是基因区域特异性斜率修饰项均值估计和σf2是基因区域特异性斜率修饰项方差估计值。
如上一节所述,我们将根据训练数据集中每个人的感染时间估计值以不同的方式表示自感染以来的观察时间,并且我们将定义变量“建模时间”以包含这些自感染测量以来观察到的时间。对于出生期间或出生后感染的个体(感染时间,d ≥ 0),使用频繁的HIV检测来估计真正的感染时间和感染后的次数,我们将使用这些观察到的感染时间作为模型拟合的“建模时间”(图8A)。然而,对于在子宫内感染的个体(感染时间,d < 0),由于他们的真实感染时间是无法测量的,我们将改用他们在采样时的年龄作为模型拟合的“建模时间”,并使用“建模时间”校正项直接在建模框架中估计他们的感染时间,我们将在后面描述(图 8B)。
具体来说,我们定义了建模时间TIFJ的对于每个个体 i、基因区域 f 和观察 j,使得 TIFJ的 = sij对于出生后感染的个体和 TIFJ的 = tij对于出生前(宫内)感染的个体,其中 sij表示自频繁 HIV 检测和 t 以来估计感染的时间ij表示观察到的时间(年龄)(图 8)。我们可以对这个观测到的建模时间 T 进行建模IFJ的其中表示估计的建模时间(来自我们的模型,如下所述),0.1 表示建模时间方差。如前所述,每个人每隔 1-3 个月接受一次 HIV 检测,预计真正的感染时间是最后一次阴性检测和第一次阳性检测之间的中点(有关详细信息,请参阅“估计真正的 HIV 感染时间”部分)。因此,此建模时间方差值旨在表示在数据收集过程中预测真实感染时间的方式所固有的误差。
对于我∈我在子宫内感染的个体(d我< 0),由于感染时间d我未被观察到,并且由于我们使用的是观察到的时间(年龄)tij作为观测建模时间 TIFJ的对于模型拟合,我们定义了一个“建模时间”修正项δ我我们将直接建模为估计值 |d我|(图 8B)。由于妊娠晚期(-0.333 ≤ d < 0)内的时间点更可能是感染时间[49,50],因此“建模时间”校正值在0-0.333之间应该是最有可能的。因此,我们δ建模我这样
当使用哈密顿马尔可夫链蒙特卡洛抽样估计宫内感染个体的这些“建模时间”校正参数的后验分布时,我们发现后验均值范围为 0.96-2.28 个月,89% 可信区间相当窄(即最宽的 89% 可信区间是 [0.24, 5.40] 个月)。对于每个人,我∈分娩期间或通过母乳喂养感染(d我≥ 0),由于感染时间d我使用频繁的HIV检测直接估计,并且由于我们使用的时间,因为感染估计sij作为观测建模时间 TIFJ的对于模型拟合,建模时间校正项δ我不是必需的,将等于 0(图 8A)。
使用这些“建模时间”校正项估计值 (δ我),我们对每个个体 i、基因区域 f 和观察 j 的估计建模时间进行建模,其中 是自感染以来的估计时间,我们如上所述对其进行建模。
我们使用哈密顿马尔可夫链蒙特卡洛采样来估计模型参数的完整后验分布(图 9),给定上述使用 R 中的 rstan [51] 包的婴儿训练数据集。
thumbnail 下载:
PPT格式PowerPoint 幻灯片
巴布亚新几内亚放大图像
TIFF格式原始图像
图 9. 在拟合模型时,针对训练数据集中的每个观测值 j ∈ J、基因区域 f ∈ F 以及个体 i ∈ I 估计了许多婴儿训练的贝叶斯分层模型参数。
在此板图中,圆角节点表示在模型拟合期间估计的参数,方形节点表示常量值。橙色节点表示观察到的数据,紫色节点表示确定性值,红色节点表示我们最终有兴趣使用模型估计的自感染以来的时间值。
https://doi.org/10.1371/journal.ppat.1011861.g009
使用拉普拉斯分布的婴儿训练分层模型的替代版本
我们注意到,最小绝对偏差回归(用于训练婴儿训练的线性模型和成人训练的线性模型)的残差被假定为随机分布,拉普拉斯分布,而婴儿训练的分层模型的误差被设计为正态分布。由于与正态分布相比,拉普拉斯分布具有更长的尾部,因此即使数据中存在异常值,涉及拉普拉斯分布的回归方法通常也能提供稳健的解决方案。为了探索这种区别是否会影响每个模型的相对预测准确性,我们设计了一个婴儿训练的分层模型版本,其中观察结果来自拉普拉斯分布。
定义婴儿训练的线性模型以预测感染时间
成人研究表明,病毒多样化率可用于使用最小绝对偏差线性回归模型准确估计感染时间[1]。因此,除了婴儿训练的分层模型外,我们还使用上述婴儿训练数据集训练了最小绝对偏差线性回归模型。与之前发表的成人训练线性模型一样,我们使用最小绝对偏差回归分别训练每个基因区域的婴儿模型。我们将这些模型称为婴儿训练的线性模型。
模型验证
对于每个婴儿训练的模型(例如,婴儿训练的线性模型和婴儿训练的分层模型),我们使用留一交叉验证来估计每个人的感染后时间和婴儿训练数据集中的APD测量。为此,我们从数据集中删除了每个人的所有数据(而不是来自每个人的一个采样时间点的数据),重新拟合模型,并估计了被保留的个体的感染时间。我们对训练数据集中的所有个体重复了这一过程。我们通过将这些模型得出的感染后估计时间与HIV检测得出的每个人的感染后测量的真实时间进行比较来衡量预测准确性。我们将这些预测的准确性与成人训练的线性模型的准确性进行了比较。
此外,我们定义了一个独立的测试数据集,其中包含来自另外 15 名婴儿(如上所述)的单时间点病毒 APD 测量值。这些婴儿的数据没有出现在原始训练数据集中。在分析这些数据之前,我们在存储库的 git commit 43f312c 中“冻结”了经过训练的模型系数(对于婴儿训练的线性模型)和模型参数(对于婴儿训练的分层模型)的后验分布。然后,我们使用每个婴儿训练模型(即婴儿训练的分层模型和婴儿训练的线性模型)的这些冷冻回归系数推断 15 个测试数据集中每个婴儿的感染时间。和以前一样,我们将这些预测的准确性与成人训练的线性模型的准确性进行了比较。
支持信息
对于大多数个体和基因区域,APD 会随着时间的推移而增加。
显示 1/8: ppat.1011861.s001.tif
跳到无花果共享导航
https://ndownloader.figstatic.com/files/43776968/preview/43776968/preview.jpg
1 / 8
下载
无花果份额
S1 图。 对于大多数个体和基因区域,APD 会随着时间的推移而增加。
图中显示了使用贝叶斯分层模型(如上所述)的马尔可夫链蒙特卡洛采样获得的训练数据集中每个个体和基因区域的 APD 斜率的推断分布。绘制了斜率中值,以及参数分布的 89% 可信区间。等于零的 APD 斜率由水平虚线表示。APD 斜率以月/多样性为单位显示,因此,较高的速率表明多样性随时间累积较慢。
https://doi.org/10.1371/journal.ppat.1011861.s001
(TIF)
S2 图。 APD 斜率不随 CD4+ T 细胞衰退率而显着变化。
从婴儿训练的分层模型中推断出的每个个体和基因区域的中位 APD 斜率显示为每个个体的 CD4+ T 细胞百分比下降率的函数。
https://doi.org/10.1371/journal.ppat.1011861.s002
(TIF)
S3 图。 后验预测检验表明,在婴儿训练的分层模型下生成的复制数据在中位数和标准差方面与观察到的数据相似,但在最小值或最大值方面则不相似。
(A) 中位数、(B) 标准差、(C) 最大值和 (D) 自感染测量以来真实观察时间分布的最大测试统计量由垂直黑线显示。此外,还显示了将针对自感染测量以来的真实观察到的时间计算的每个检验统计量与从模型模拟的感染测量以来观察到的时间进行比较的 p 值。每个检验统计量的单位是月。
https://doi.org/10.1371/journal.ppat.1011861.s003
(TIF)
S4 图。 比较在婴儿训练的分层模型公式中从拉普拉斯分布和正态分布绘制观测值时训练数据集的模型预测误差。
使用留一出交叉验证来计算每个人感染后的估计时间。(A)从拉普拉斯分布中得出观测值并不能提高预测精度。自感染以来的真实时间与自感染以来的模型推导时间之间的差值显示在 x 轴上。黑色垂直线表示零的差值。(B) 使用从基因区域 3 采样的 APD 测量值比较两种模型的感染后真实时间和模型得出的感染后时间。每个估计值的 89% 可信区间显示为一条垂直黑线。蓝线表示自感染以来模型派生的时间 = 自感染线以来的真实时间。灰线表示最适合的线。
https://doi.org/10.1371/journal.ppat.1011861.s004
(TIF)
S5 图。 每个数据集的三个基因区域的 APD 测量值的分布。
与训练数据集相比,测试数据集在基因区域 1 内的 APD 测量值要高得多。
https://doi.org/10.1371/journal.ppat.1011861.s005
(TIF)
S6 图。 每个数据集的自感染测量以来的时间分布。
与训练数据集相比,测试数据集具有更高的时间度量。
https://doi.org/10.1371/journal.ppat.1011861.s006
(TIF)
S1 表。 贝叶斯因子截止值和解释的描述。
https://doi.org/10.1371/journal.ppat.1011861.s007
(PDF格式)
S2 表。 HIV-1扩增引物。
https://doi.org/10.1371/journal.ppat.1011861.s008
(PDF格式)
确认
我们感谢细胞毒性T淋巴细胞队列和内罗毕母乳喂养试验的参与者和工作人员。我们还要感谢 Hassan Nasif、Thayer Fisher、Will Dumm、Chris Jennings-Shaffer 和 Jiansi Gao 对本文的有益讨论,以及 Morgane Rolland 分享来自 [43] 的示例 BEAST XML 文件。
本文受HHMI的开放获取出版物政策的约束。HHMI实验室负责人此前曾在其研究文章中向公众授予非排他性CC BY 4.0许可,并向HHMI授予可再许可许可。根据这些许可,本文的作者接受的手稿可以在出版后立即根据 CC BY 4.0 许可免费提供。
引用
1.Puller V, Neher R, Albert J. 根据下一代序列多样性估计 HIV-1 感染的时间。PLoS Comput Biol. 2017;13:e1005775。PMID:28968389
查看文章PubMed/NCBI公司Google 学术搜索
2.Richardson BA、Mbori-Ngacha D、Lavreys L、John-Stewart GC、Nduati R、Panteleeff DD 等。肯尼亚女性、男性和婴儿在初次和早期感染期间人类免疫缺陷病毒 1 型病毒载量的比较。J 维罗尔。2003;77: 7120–7123.PMID:12768032
查看文章PubMed/NCBI公司Google 学术搜索
3.Obimbo EM、Wamalwa D、Richardson B、Mbori-Ngacha D、Overbaugh J、Emery S 等。肯尼亚的儿科 HIV-1:病毒载量的模式和相关性以及与死亡率的关联。J Acquir 免疫缺陷合成剂。2009;51: 209–215.PMID:19504753
查看文章PubMed/NCBI公司Google 学术搜索
4.Becquet R, Marston M, Dabis F, Moulton LH, Gray G, Coovadia HM, et al. 围产期感染 HIV 的儿童比通过母乳感染的儿童早期死亡的风险更高:荟萃分析。PLoS 一。2012;7:E28510。PMID:22383946
查看文章PubMed/NCBI公司Google 学术搜索
5.Domingo E, Holland JJ. RNA病毒突变和生存适应性。Annu Rev 微生物学。1997;51: 151–178.PMID:9343347
查看文章PubMed/NCBI公司Google 学术搜索
6.Shankarappa R、Margolick JB、Gange SJ、Rodrigo AG、Upchurch D、Farzadegan H 等。与人类免疫缺陷病毒 1 型感染进展相关的一致病毒进化变化。J 维罗尔。1999;73: 10489–10502.PMID:10559367
查看文章PubMed/NCBI公司Google 学术搜索
7.Troyer RM、Collins KR、Abraha A、Fraundorf E、Moore DM、Krizan RW 等。疾病进展过程中人类免疫缺陷病毒 1 型适应性和遗传多样性的变化。J 维罗尔。2005;79: 9006–9018.PMID:15994794
查看文章PubMed/NCBI公司Google 学术搜索
8.Tebit DM, Nankya I, Arts EJ, Gao Y. HIV 多样性、重组和疾病进展:健身如何“适合”拼图?2007年艾滋病修订版;9: 75–87.可用: https://www.researchgate.net/profile/Denis-Tebit/publication/6144269_HIV_Diversity_Recombination_and_Disease_Progression_How_Does_Fitness_Fit_Into_the_Puzzle/links/0c96051efef9655bb2000000/HIV-Diversity-Recombination-and-Disease-Progression-How-Does-Fitness-Fit-Into-the-Puzzle.pdf pmid:17694675
查看文章PubMed/NCBI公司Google 学术搜索
9.Piantadosi A, Chohan B, Panteleeff D, Baeten JM, Mandaliya K, Ndinya-Achola JO, et al. HIV-1 在 gag 和 env 中的进化高度相关,但与病毒载量和免疫反应表现出不同的关系。艾滋病。2009;23: 579–587.PMID:19516110
查看文章PubMed/NCBI公司Google 学术搜索
10.Allam O, Samarani S, Ahmad A. 用汉明距离敲定 HIV-1 发病率。艾滋病。2011 年,第 2047–2048 页。PMID:21997490
查看文章PubMed/NCBI公司Google 学术搜索
11.Kouyos RD、von Wyl V、Yerly S、B?ni J、Rieder P、Joos B 等人。基于人群的HIV-1测序结果显示的核苷酸检出不明确,是病毒多样性和感染年龄的标志。2011 年临床感染病;52: 532–539.PMID:21220770
查看文章PubMed/NCBI公司Google 学术搜索
12.Park SY、Love TMT、Nelson J、Thurston SW、Perelson AS、Lee HY。设计具有高灵敏度和特异性的基于基因组的HIV发病率检测。艾滋病。2011;25:F13-9。PMID:21716075
查看文章PubMed/NCBI公司Google 学术搜索
13.Ragonnet-Cronin M、Aris-Brosou S、Joanisse I、Merks H、Vallée D、Caminiti K 等人。遗传多样性作为HIV感染患者感染时机的标志物:6个月窗口的评估以及与BED的比较。J Infect Dis. 2012 年;206: 756–764.PMID:22826337
查看文章PubMed/NCBI公司Google 学术搜索
14.Andersson E、Shao W、Bontell I、Cham F、Cuong DD、Wondwossen A 等。评估 HIV-1 pol 基因的序列模糊性,作为在传播耐药性调查中识别近期 HIV-1 感染的方法。感染 Genet Evol。2013;18: 125–131.PMID:23583545
查看文章PubMed/NCBI公司Google 学术搜索
15.Cousins MM, Konikoff J, Laeyendecker O, Celum C, Buchbinder SP, Seage GR 3rd, et al. HIV 多样性作为 HIV 发病率估计的生物标志物:包括多重检测算法中的高分辨率熔解多样性测定。临床微生物学杂志。2014;52: 115–121.PMID:24153134
查看文章PubMed/NCBI公司Google 学术搜索
16.Meixenberger K、Hauser A、Jansen K、Yousef KP、Fiedler S、von Kleist M 等人。评估 HIV-1 pol 人群序列中的模糊碱基调用,作为识别 HIV-1 发病率研究中近期感染的生物标志物。临床微生物学杂志。2014;52: 2977–2983.PMID:24920768
查看文章PubMed/NCBI公司Google 学术搜索
17.Moyo S、Vandormael A、Wilkinson E、Engelbrecht S、Gaseitsiwe S、Kotokwe KP 等。分析与博茨瓦纳HIV-1C感染新近度相关的病毒多样性。PLoS 一。2016;11:e0160649。PMID:27552218
查看文章PubMed/NCBI公司Google 学术搜索
18.Carlisle LA, Turk T, Kusejko K, Metzner KJ, Leemann C, Schenkel CD, et al. 基于下一代 HIV-1 测序的病毒多样性提供了感染新近度和感染后时间的精确估计。J Infect Dis. 2019年;220: 254–265.PMID:30835266
查看文章PubMed/NCBI公司Google 学术搜索
19.Long EM、Martin HL Jr、Kreiss JK、Rainwater SM、Lavreys L、Jackson DJ 等。感染时 HIV-1 多样性的性别差异。2000年;6: 71–75.PMID:10613827
查看文章PubMed/NCBI公司Google 学术搜索
20.Keele BF、Giorgi EE、Salazar-Gonzalez JF、Decker JM、Pham KT、Salazar MG 等。原发性 HIV-1 感染中传播和早期创始人病毒包膜的鉴定和表征。美国国家科学院院刊,2008年;105: 7552–7557.PMID:18490657
查看文章PubMed/NCBI公司Google 学术搜索
21.Sagar M. HIV-1传播生物学:感染病毒的选择和特征。J Infect Dis. 2010 年;202 增刊 2:S289-96。PMID:20846035
查看文章PubMed/NCBI公司Google 学术搜索
22.Joseph SB, Swanstrom R, Kashuba ADM, Cohen MS. HIV-1 传播的瓶颈:来自创始人病毒研究的见解。Nat Rev 微生物。2015;13: 414–425.PMID:26052661
查看文章PubMed/NCBI公司Google 学术搜索
23.Wolinsky SM、Wike CM、Korber BT、Hutto C、Parks WP、Rosenblum LL 等。人类免疫缺陷病毒1型变异株从母亲到婴儿的选择性传播。科学。1992;255: 1134–1137.PMID:1546316
查看文章PubMed/NCBI公司Google 学术搜索
24.Scarlatti G、Leitner T、Halapi E、Wahlberg J、Marchisio P、Clerici-Schoeller MA 等。来自受感染儿童的人类免疫缺陷病毒 3 型可变区域 1 序列与其母亲病毒种群的 RNA 和 DNA 序列的比较。美国国家科学院院刊。1993;90: 1721–1725.PMID:8446584
查看文章PubMed/NCBI公司Google 学术搜索
25.Ahmad N, Baroudy BM, Baker RC, Chappey C. 围产期传播后从母亲和婴儿中分离出的人类免疫缺陷病毒 1 型包膜 V3 区域的遗传分析。J 维罗尔。1995;69: 1001–1012.PMID:7815476
查看文章PubMed/NCBI公司Google 学术搜索
26.Mulder-Kampinga GA、Simonon A、Kuiken CL、Dekker J、Scherpbier HJ、van de Perre P 等。来自母亲和婴儿的人类免疫缺陷病毒 1 型 (HIV-1) 基因组 RNA 之间的 env 和 gag 基因的相似性与儿童 HIV-1 RNA 阳性的时间无关。J 维罗尔。1995;69: 2285–2296.PMID:7884875
查看文章PubMed/NCBI公司Google 学术搜索
27.Wu X, Parast AB, Richardson BA, Nduati R, John-Stewart G, Mbori-Ngacha D, et al. 人类免疫缺陷病毒 1 型的中和逃逸变体从母亲传播给婴儿。病毒学杂志。2006 年,第 2585–2585 页。PMID:16378985
查看文章PubMed/NCBI公司Google 学术搜索
28.劳埃德 SB、肯特 SJ、温纳尔 WR。保真度成本高昂。艾滋病嗡2014;30: 8–16.PMID:24180375
查看文章PubMed/NCBI公司Google 学术搜索
29.孔 X, 西 JT, 张 H, Shea DM, M'soka TJ, 伍德 C.人类免疫缺陷病毒 1 型包膜对围产期传播病毒的复制适应率高于对非传播病毒的复制适应率。J 维罗尔。2008;82: 11609–11618.PMID:18786994
查看文章PubMed/NCBI公司Google 学术搜索
30.陈旭清, 刘春, 孔旭华.HIV复制适应度在HIV围产期传播中的作用。维罗尔·辛。2011;26: 147–155.PMID:21667335
查看文章PubMed/NCBI公司Google 学术搜索
31.Shearer WT、Quinn TC、LaRussa P、Lew JF、Mofenson L、Almy S 等人感染人类免疫缺陷病毒 1 型婴儿的病毒载量和疾病进展。N Engl J Med. 1997;336: 1337–1342.PMID:9134873
查看文章PubMed/NCBI公司Google 学术搜索
32.Salvatori F、Masiero S、Giaquinto C、Wade CM、Brown AJ、Chieco-Bianchi L 等。人类免疫缺陷病毒 1 型在围产期感染婴儿中的进化,进展缓慢和缓慢。J 维罗尔。1997;71: 4694–4706.PMID:9151863
查看文章PubMed/NCBI公司Google 学术搜索
33.Nduati R、John G、Mbori-Ngacha D、Richardson B、Overbaugh J、Mwatha A 等人。母乳喂养和配方奶喂养对 HIV-1 传播的影响:一项随机临床试验。贾马。2000;283: 1167–1174.PMID:10703779
查看文章PubMed/NCBI公司Google 学术搜索
34.John-Stewart GC、Mbori-Ngacha D、Payne BL、Farquhar C、Richardson BA、Emery S 等人 HV-1 特异性细胞毒性 T 淋巴细胞和母乳 HIV-1 传播。J Infect Dis. 2009 年;199: 889–898.PMID:19434932
查看文章PubMed/NCBI公司Google 学术搜索
35.杰弗里斯·概率论。牛津大学;1998. https://play.google.com/store/books/details?id=vh9Act9rtzQC
36.de Wolf F, Spijkerman I, Schellekens PT, Langendam M, Kuiken C, Bakker M, et al. 基于 HIV-1 RNA、CD4+ T 细胞计数和功能的艾滋病预后:血清转化后随时间推移具有相互预测价值的标志物。艾滋病。1997;11: 1799–1806.PMID:9412697
查看文章PubMed/NCBI公司Google 学术搜索
37.Mellors JW、Mu?oz A、Giorgi JV、Margolick JB、Tassoni CJ、Gupta P 等。血浆病毒载量和 CD4+ 淋巴细胞作为 HIV-1 感染的预后标志物。Ann Intern Med. 1997 年;126: 946–954.PMID:9182471
查看文章PubMed/NCBI公司Google 学术搜索
38.Mofenson LM、Korelitz J、Meyer WA 3rd、Bethel J、Rich K、Pahwa S 等。HIV-1感染儿童血清人类免疫缺陷病毒1型(HIV-4)RNA水平、CD1淋巴细胞百分比与长期死亡风险的关系。美国国家儿童健康与人类发展研究所静脉注射免疫球蛋白临床试验研究组。J Infect Dis. 1997 年;175: 1029–1038.PMID:9129063
查看文章PubMed/NCBI公司Google 学术搜索
39.Cozzi Lepri A、Katzenstein TL、Ullum H、Phillips AN、Skinh?j P、Gerstoft J 等人。血浆HIV RNA水平和CD4淋巴细胞计数在晚期HIV感染中的相对预后价值。艾滋病。1998;12: 1639–1643.PMID:9764783
查看文章PubMed/NCBI公司Google 学术搜索
40.Dickover RE、Dillon M、Leung K-M、Krogstad P、Plaeger S、Kwok S 等。原发性围产期人类免疫缺陷病毒 1 型感染的早期预后指标:病毒 RNA 的重要性和传播时机对长期结局的影响。J Infect Dis. 1998年;178: 375–387.可用: https://academic.oup.com/jid/article-abstract/178/2/375/904768 pmid:9697717
查看文章PubMed/NCBI公司Google 学术搜索
41.Goujard C, Bonarek M, Meyer L, Bonnet F, Chaix M-L, Deveau C, et al. CD4 细胞计数和 HIV DNA 水平是未经治疗的患者原发性 HIV 1 型感染后疾病进展的独立预测因子。2006 年临床感染病;42: 709–715.PMID:16447119
查看文章PubMed/NCBI公司Google 学术搜索
42.菲利普斯 AN,伦德格伦 JD。CD4 淋巴细胞计数和临床进展风险。Curr Opin HIV 艾滋病。2006;1: 43–49.PMID:19372783
查看文章PubMed/NCBI公司Google 学术搜索
43.Dearlove B、Tovanabutra S、Owen CL、Lewitus E、Li Y、Sanders-Buell E 等。影响使用 BEAST 估计 HIV-1 感染时间的因素。PLoS Comput Biol. 2021;17:e1008537。PMID:33524022
查看文章PubMed/NCBI公司Google 学术搜索
44.Palmer S、Kearney M、Maldarelli F、Halvas EK、Bixby CJ、Bazmi H 等人。标准基因型分析会遗漏有治疗经验的患者中的多个相关的人类免疫缺陷病毒 1 型耐药突变。临床微生物学杂志。2005;43: 406–413.PMID:15635002
查看文章PubMed/NCBI公司Google 学术搜索
45.Cassidy NAJ、Fish CS、Levy CN、Roychoudhury P、Reeves DB、Hughes SM 等人使用交叉亚型多重 ddPCR 定量 HIV 储库。iScience的。2022;25: 103615.PMID:35106463
查看文章PubMed/NCBI公司Google 学术搜索
46.Zanini F、Brodin J、Thebo L、Lanz C、Bratt G、Albert J 等。患者体内 HIV-1 进化的群体基因组学。生命。2015;4.电话:26652000
查看文章PubMed/NCBI公司Google 学术搜索
47.Howison M, Coetzer M, Kantor R. HIV深度Illumina测序中的测量误差和变异检出。生物信息学。2019;35: 2029–2035.PMID:30407489
查看文章PubMed/NCBI公司Google 学术搜索
48.Boratyn GM、Thierry-Mieg J、Thierry-Mieg D、Busby B、Madden TL。Magic-BLAST,一种用于长读长和短读长的精确RNA-seq比对仪。BMC生物信息学。2019;20: 405.PMID:31345161
查看文章PubMed/NCBI公司Google 学术搜索
49.Rouzioux C、Costagliola D、Burgard M、Blanche S、Mayaux M-J、Griscelli C 等人。HIV-1母婴传播的时间取决于孕产妇的状况。艾滋病。1993 年,第 S49-52 页。PMID:8161446
查看文章PubMed/NCBI公司Google 学术搜索
50.Rouzioux C, Costagliola D, Burgard M, Blanche S, Mayaux MJ, Griscelli C, et al. 使用马尔可夫模型估计母婴人类免疫缺陷病毒 1 型 (HIV-1) 传播的时间。Am J 流行病学。1995;142: 1330–1337.PMID:7503054
查看文章PubMed/NCBI公司Google 学术搜索
51.Stan 开发团队。RStan:Stan 的 R 接口。2022 [引用于 27 年 2022 月 <> 日]。https://mc-stan.org/