改进群体基因组学中统计推断的建议-厦门杂志期刊论文发表-厦门杂志期刊论文发表
帕鲁尔·乔赫里,查尔斯·阿夸德罗,马克?博蒙特,布莱恩?查尔斯沃思,洛朗·埃科菲耶,亚当?艾尔-沃克,彼得?凯特利,迈克尔·林奇,吉尔·麦克维恩,布雷特·A·佩瑟尔,苏珊娜?P?菲佛,沃尔夫冈?斯蒂芬,杰弗里·詹森
出版日期: 2022年05月31日
抽象
为了应对最近出现的负担得起的大规模测序技术,群体基因组学领域迅速发展。与20世纪大部分时间的情况相反,理论和统计人口遗传见解的发展超过了可以应用的数据的产生速度,基因组数据的产生速度远远超过了它们能够被有意义地分析和解释的速度。随着这种丰富的数据,人们倾向于专注于将特定的(通常是相当特殊的)模型拟合到数据中,而牺牲了对可能的潜在进化过程的仔细探索。例如,直接研究每个新测序种群或物种的适应性进化模型的方法往往忽略了这样一个事实,即对无处不在的非适应性过程的彻底表征是准确推理的先决条件。我们在这里描述了这些趋势的危险,提出了我们对当前人口基因组数据分析最佳实践的共识,并强调了需要进一步关注的统计推断和理论领域。因此,我们主张定义一个生物学相关的基线模型的重要性,该模型根据每个新分析的细节进行调整,在解释模型拟合结果时持怀疑态度和审查态度,并仔细定义可寻址的假设和潜在的不确定性。
引文: Johri P,Aquadro CF,Beaumont M,Charlesworth B,Excoffier L,Eyre-Walker A等人(2022)改善人口基因组学统计推断的建议。PLoS Biol 20(5):e3001669。https://doi.org/10.1371/journal.pbio.3001669
发表: 五月 31, 2022
版权所有: ? 2022 Johri等人。这是一篇根据知识共享署名许可条款分发的开放获取文章,允许在任何媒体上不受限制地使用,分发和复制,前提是注明原作者和来源。
资金: 这项工作由美国国立卫生研究院资助R01GM135899和R35GM139383给JDJ。资助者在研究设计,数据收集和分析,出版决定或手稿准备方面没有任何作用。
竞争利益: 作者宣布不存在相互竞争的利益。
缩写: ABC,近似贝叶斯计算;DFE,适应性效应的分布;LD,联动不平衡;SFS,站点频谱
介绍
简要概述
群体基因组推断 - 使用物种内部分子变异和物种间差异的数据来推断进化过程 - 在进化生物学,生态学,人类学,农业和医学等领域已被广泛接受和高度利用。潜在的问题可能是人口统计学性质的,无论是估计世界人口暴发的时间[1]还是先天性感染新生儿的病毒传播时间[2];或者,它们可能涉及特定人群的选择性病史,无论是识别适应冰后主要气候和地质变化的物种中赋予隐性着色的突变[3]还是病毒对临床治疗的耐药性[4]。
允许从变异和分化的水平和模式中解剖这些进化过程的基础工作是由费舍尔,赖特和霍尔丹在近一个世纪前进行的(例如,[5-7];有关历史概述,请参阅[8])。这项工作证明了在基因水平上研究进化论的可能性,将达尔文的革命性思想[9]与孟德尔[10]研究的世纪之交欣赏相结合。然而,正如Lewontin[11]所描述的那样,20世纪上半叶的这一初步理论进步“就像一台复杂而精致的机器,旨在加工一种没有人成功开采的原材料。随着20世纪60年代人口水平分子变异的第一次“挖掘”(见[12]),这台机器投入使用。接下来的重大进展是由木村和太田提供的,他们根据这些基本的理论见解(分子进化的中性理论[13-15])为研究DNA和蛋白质序列变异提供了一个全面的框架,分子生物学也为此提供了支持[16]。尽管有一些相反的说法[17],木村和太田的最初假设已经在很大程度上得到了验证[18,19],并提供了一种在不断发生的进化过程中解释观察到的分子变异和发散的方法,包括突变,遗传漂移和纯化选择。虽然中性理论在表型进化水平上归因于正选择的重要作用(与达尔文最初的概念一致),但假设在遗传水平上,与不断落在所有物种基因组上的中性,近乎中性和有害突变的更大输入相比,有益的突变是罕见的。因此,与遗传漂移和纯化选择相比,每个核苷酸的阳性选择发作是罕见的。然而,自木村最初提出中性理论以来的几十年中,已经详细描述了由适应性改变突变引起的连锁位点进化的重大影响[20-22]。
随着这个框架和可以应用的数据集的可用性,用于分析分子数据的统计方法开始激增,经常采用某种形式的中性期望作为零模型。现在有各种相当复杂的统计机制可用于重建人口规模变化,人口细分和迁移的历史(例如,[23,24]);用于根据与选择性扫描相关的模式识别有益突变(例如,[25,26]);用于量化新出现的突变(例如[27,28])的适应性效应(DFE)的分布,以及估计突变(例如[29-31])和重组(例如[32-34])的发生率。这些方法在各种统计框架中运行(见[35-37]),并利用数据的各个方面,包括样本中变异的频率(站点频谱,SFS),变体之间的关联(连锁不平衡,LD),和/或对比位点类别(例如,同义与非同义位点)物种间差异的水平和模式。
模型选择和参数拟合的挑战
越来越多的统计方法和相关的软件实现为任何给定的分析提供了一系列令人眼花缭乱的选择;虽然许多方法具有相同的目标,但也存在重要的差异。例如,有些方法需要相对较高的编码能力才能实现,而其他方法可能应用于易于使用的软件包中;虽然有些经过了充分的测试,并通过了群体遗传理论来证明,但其他的则不是。此外,即使将原始测序数据转化为等位基因叫声和基因型作为这些方法的输入的过程也伴随着不确定性,这取决于测序质量和覆盖率、参考基因组的可用性以及变异调用和过滤策略的选择[38,39]。除了这种复杂性之外,越来越明显的是,当选择和重组相关的偏倚基因转换被忽视时,人口统计估计可能是高度偏倚的[40,41],而当忽略人口效应时,对选择强度和重组率的估计可能高度偏倚[42-45]].这在开始任何新分析时都会产生一个循环问题:人们需要有关人口统计历史的信息来估计重组和选择的参数,同时需要有关重组和选择的信息来估计人口统计历史。另一个挑战,也是许多人的挫折,是没有单一的“最佳办法”;相反,没有一个“最佳办法”。使用正确的分析工具,以及哪些问题可以得到解答,完全取决于所研究生物体的细节[46]。具体而言,生物参数因物种而异,包括进化参数(例如,有效种群规模(Ne),突变率,重组率以及群体结构和历史),基因组结构(例如,沿基因组的功能位点的分布)和生活史特征(例如,交配系统) - 都必须考虑,以便定义可寻址的假设和最佳方法。
除了这些最初的考虑之外,经常会出现一个更困难的问题。也就是说,可以发现非常不同的模型为观察到的数据提供了很好的拟合(例如,[47];关于该主题的系统发育观点,请参见[48])。换句话说,特定的参数组合可以在竞争模型下找到,这些模型都能够预测观察到的变异模式。例如,假设中立,则可以通过拟合总体瓶颈的时间,严重程度和持续时间来匹配位点的经验观测,或者,在假设人口规模恒定时,通过拟合选择性扫描的速率和平均强度来匹配位点的经验观测。这一事实本身就意味着一个简单的道理:将一个人喜欢的模型的参数拟合到数据的能力并不仅仅代表生物学现实的证据。相反,它表明这个模型是一个 - 在可能非常多的模型中 - 代表了一个可行的假设,应该通过随后的分析或实验进一步检查。
热情推广单一首选模型的例子比比皆是,只是通过随后对替代模型的拟合证明而有所缓和,而且通常更简单/生物学上更现实。例如,通过平衡选择可以普遍维持分离等位基因的观点[49]被认识到遗传漂移通常是一个充分的解释[14]所缓和,并且对站立变异的全基因组选择性扫描是普遍存在的观点[50,51]由于认识到中性种群历史可以导致相似的模式而有所缓和[47,虽然人们可能很容易找到这样的例子,即通过忽略定义由常见和某些即将发生的过程产生的期望来适应大规模数据模式,但确定要评估的模型以及如何解释模型及其替代方案的拟合是所有研究人员的挑战。为了更好地说明这一点,图1提出了3种场景(背景选择的恒定人口规模,背景选择和选择性扫描的恒定人口规模,以及背景选择和选择性扫描的人口瓶颈),并将每种场景与2个不正确的模型(假设严格中立的人口规模变化和假设恒定人口规模的循环选择性扫描)提供了这些场景的拟合。如图所示,每种情况都可以通过两个不正确的模型很好地拟合,选择性扫描和人口瓶颈通常被混淆,以及背景选择和人口增长,如前所述(例如,[40,53-55])。
thumbnail 下载:
断续器幻灯片
巴新放大图像
断续器原始图像
图 1. 不正确的模型通常很容易拟合到给定的数据集。
在这里,我们呈现了从简单到更复杂的3种情况:第一行表示一个恒定大小的群体经历背景选择(用“Eqm + BGS表示”),第二行是相同的场景,增加了循环选择性扫描(用“Eqm + BGS + Pos”表示),最后一行增加了一个总体瓶颈(用“瓶颈+BGS + Pos”表示)。对于每个方案,生成的 SFS(截断为 n = 20)和 LD(r2) 分布,以及平均成对 (π) 和单倍型多样性。对于这些模拟数据,我们拟合了2个不正确的模型:一个假设所有位点都是中性的,但包括种群规模的变化,另一个模型中存在复发性选择性扫描,种群大小没有变化,并且所有突变都被认为是中性的或有益的(具有人口规模的有益选择系数(γ)和有益替代的分数(λ) 根据数据估算)。对于每个推理面板,红叉给出真实值,分布表示从ABC分析获得的联合后验,后验上方给出的汇总统计数据表示平均值,以及从后验获得的95%CI的范围。在所有情况下,外显子位点(即直接选择的位点)都被屏蔽,并且汇总的统计计算和推断仅基于中性区域(参见方法论)。如图所示,人口统计和选择模型可以拟合到所有数据集,当违反估计过程背后的假设时,通常会导致强烈的错误推断。此图背后的脚本可在 https://github.com/paruljohri/Perspective_Statistical_Inference/tree/main/SimulationsTestSet/Figure1 中找到。LD,联动不平衡;SFS,站点频率谱。-厦门杂志期刊论文发表
https://doi.org/10.1371/journal.pbio.3001669.g001
方法论
为了提供一系列示例来配合关键点 - 如上面的图1所示 - 进行了时间转发模拟和合并模拟,用于(1)假设完全中立的人口历史推断;(2)假设种群规模恒定的正选择的推论;(3)获取代表不同进化场景的测试数据集。虽然任何涉及模型/参数探索和比较的统计框架都可能与我们的建议一致,但我们在这里使用近似贝叶斯计算(ABC)作为我们的例子,因为它是量化不确定性和探索复杂模型的特别有用的框架。我们的模拟和分析背后的所有相关数据和脚本都可以在下面的链接中找到,与单个数字相关的链接也可以在相应的图形图例中找到:
https://github.com/paruljohri/Perspective_Statistical_Inference。
在所有模拟中,使用类似于黑腹果蝇基因组的内含子 - 外显子 - 基因间结构模拟了99,012 bp的染色体片段。每个基因由5个外显子(每个300 bp)和4个内含子(每个100 bp)组成,由长度为1,068 bp的基因间区域隔开。这样的构建体在模拟片段中总共产生了33个基因。选择的人口参数与D中的参数相似。Campos及其同事之后的黑色素体群体[56],假设有效种群规模(Ne) 的 106平均突变率 (μ) 为 4.5×10 的个体?9每对碱基/代,平均复合率 (r) 为 1×10?8每对/代。为了提高计算效率,所有参数都重新缩放了 200 倍。
人口统计历史的建模和推断
模拟了一个简单的人口统计历史,其中单个种群从祖先大小(N非国大) 到当前大小 (Neu4),τ 几代人以前。两个 N 的先验非国大和 Neu4从 10 和 50,000 之间的对数均匀分布中采样,而从 10 和 N 之间的对数均匀分布中采样变化时间 (τ) 的先验eu4.对每个参数组合共模拟了100个重复。ABC所需的模拟在msprime v. 0.7.3 [57]中执行,假设完全中立。突变和重组率被假定在整个基因组和跨重复之间是恒定的。
正选择的建模和推理
模拟了一种复发性选择性扫描情景,其中仅允许中性和有益的常染色体突变,并使用SLiM v. 3.1进行模拟[58]。内含子和基因间区域被认为是中性的,而外显子经历了有益的突变,其适应性效应是从纯合子均值s的指数分布中抽样的,假设半占优势。变化的2个参数是平均人口尺度的选择强度,γ = 2N非国大s,以及新的有益突变的比例,f位置.这些参数的先验是从对数均匀分布中采样的,使得γ∈[0.1, 10,000] 和 f位置∈[0.00001, 0.01]。对于所有参数组合,每个位点的有益替换的真实率(d一个)并使用固定的总数(由SLiM提供)计算由于有益突变引起的替代的真实部分(λ,这与Eyre-Walker和Keightley的α参数有关[59]),根据基础参数观察到λ的范围从0到0.85。对 γ 和 d 执行参数推断一个并且相应的 λ 是用 推断出来的,其中假定 1?f位置~1.如上所述,种群具有5,000个二倍体个体的恒定大小,具有恒定的突变和重组率。模拟运行了100,100代(即20Ne+ 100代)。
美国广播公司
样本量设置为100个单倍体基因组(或50个二倍体个体)。在上述人口统计和选择模型下,所有外显子区域都被掩盖,并计算了以下汇总统计数据的均值和方差(跨重复):分离位点的数量,核苷酸位点多样性(π),沃特森θ(θW),θH,H′,田岛D,单例数,单倍型数和频率分布,以及总结LD(r2, D, D′)。所有统计数据均在 2 kb 的非重叠滑动窗口中使用 pylibseq v. 0.2.3 [60] 进行计算。ABC是使用R包“abc”v. 2.1 [61]执行的,使用所有汇总统计,用“神经网络”来解释统计和参数之间的非线性。使用100倍交叉验证来确定最佳公差水平,发现其为0.05(即,在ABC推理期间接受了5%的模拟以估计每个参数的后验概率)。每个推断参数的点估计值计算为后验估计值的加权中位数。
将不同的进化场景模拟为“真实场景”
为了考虑更符合生物学的现实模型并评估模型违规行为,模拟了许多进化场景(使用SLiM),如下所示:
背景选择:外显子经历有害突变,由由4个非重叠均匀分布组成的离散DFE建模,代表有效的中性(-1<2N非国大s≤0),弱有害 (?10<2N非国大s≤?1),中等有害 (?100<2N非国大s≤?10)和强有害 (2N非国大s≤?100) 类突变。假设所有4个箱体对新突变的贡献相等(即,所有新突变的25%属于每类突变)。
阳性选择:外显子经历有益突变,γ = 125和f位置= 2.2×10?3(从[56]修改而来),得到λ≈0.35。
人口规模变化:模拟人口下降,使人口在100代前从5,000人立即下降到100人。使用参数N对人口扩张进行了类似的模拟非国大= 5,000 和 Neu<>= 10,000。还模拟了一个人口瓶颈模型,使得N非国大 = Neu<>= 5,000,瓶颈发生在2,000代前,100代减少到人口规模的1%。
SNP确定:基因型误差被建模为在使用低覆盖率人群基因组数据调用变异时无法检测到单例的真实数量[38]。为了模拟此方案,删除了一组随机的单例,表示样本中存在的所有单例的三分之一。
后代偏斜:后代分布中的偏差(ψ)被建模为每代5%和10%的种群被单个个体的后代取代([62]和见[63,64])。
整个基因组的突变和重组率的变化(例如,[65-67]):所考虑的≈100 kb基因组区域中每10 kb被假定具有不同的突变和重组速率。对于每个模拟重复,这些速率都是从高斯分布中采样的,其均值与上述相同,变异系数为0.5。负值被截断为 0。
后验
为了便于说明,图1中提供了一个后验示例(即,显示不正确模型下推断的后验与所考虑的真实场景的拟合的简单评估)。具体而言,使用推断参数的平均估计值来模拟SLiM v. 3.1中的“最佳拟合模型”[58]。外显子被屏蔽,并使用pylibseq v.0.2.3 [60]在2 kb的窗口中计算汇总统计数据。为了模拟正选择的推断模型,f位置由假设大小为 N 的 Wright-Fisher 二倍体群体和总突变率为 μ托特(对于我们的目的,这与μ相同)。因此,μb = f位置×μ托特和μ新= (1?f位置)×μ托特,其中μb和μ新分别是有益突变率和中性突变率。给定 λ 的值,并假设有益突变的 DFE 是指数(带平均值),我们计算 f位置如下:
鉴于
(1)
哪里
(2)
和
(3)
其中 L 是所考虑区域的长度,P修复是有益突变固定的概率,由下式给出
(4)
在(1)中替换(2)和(3),并重新排列,我们得到
(5)
在R中积分(4)并将其替换为(5)得到f的值位置.
在 2 kb 的非重叠窗口中计算统计数据,并将区间 (CI) 计算为统计数据分布的 0.025 和 0.975 分位数。
建议
为群体基因组分析构建适当的基线模型
将不正确的模型拟合到数据(如图1所示)的有点令人沮丧的做法自然提出了一个问题,即是否可以以及如果是,如何从从从群体中采样的DNA序列中提取准确的进化推断。重要的第一点是,任何基因组分析的起点都应该是构建一个生物学相关的基线模型,其中包括必须发生的过程,并塑造整个基因组的变异和分化的水平和模式。该模型应包括突变,重组和基因转换(各适用),作用于功能区域的纯化选择及其对相关变异的影响(即背景选择[21,68,69]),以及通过人口历史和人口地理结构等因素调节的遗传漂移。根据感兴趣的生物体,可能还有其他重要的生物成分要包括,例如交配系统,后代分布,倍体等(尽管对于某些感兴趣的问题,其中一些生物因素可能只是包含在由此产生的有效种群规模中)。因此,将此基线模型视为从头开始构建以进行任何新数据分析是有帮助的。重要的是,重点不在于需要在给定的人群中充分理解这些许多参数才能进行任何进化推断,而是它们都需要考虑,并且其潜在值的不确定性对下游推断的影响可以量化。
然而,即使在考虑任何生物过程之前,调查数据本身也很重要。首先,存在与随机过程的无数潜在实现相关的进化方差,以及有限抽样引入的统计方差。其次,不建议将经验观察结果(可能包括缺失数据、变异调用或基因分型不确定性(例如,低覆盖率的影响)、掩蔽区域(例如,由于低可映射性和/或可调用性而省略变异的区域)等)与缺乏这些考虑因素的分析或模拟期望进行比较,从而假设最佳数据分辨率[70].数据集还可能涉及某种确定方案,无论是针对所调查的变异[71],还是给定一些用于调查特定基因组区域的预定义标准(例如,相对于所选汇总统计量表示基因组异常值的区域[72])。为了便于说明,图 2 遵循与图 1 相同的格式,但考虑了 2 种方案:具有背景选择和选择性扫描的人口增长,以及相同的方案以及数据确定(在本例中为单例类的底调用)。可以看出,由于频谱形状的变化,忽视这种确定会极大地影响推理,从而大大修改不正确的人口统计和不正确的递归选择性扫描模型对数据的拟合。
thumbnail 下载:
断续器幻灯片
巴新放大图像
断续器原始图像
图 2. 如果不加以纠正,确定错误可能会放大错误推断。
如图1所示,场景在第一列中给出,这里人口增长与背景选择和循环选择性扫描(“增长+ BGS + Pos”),以及考虑变体调用过程的不完美性的相同场景 - 在这种情况下,三分之一的单例不被调用(“增长+ BGS + Pos +确定”)。中间列表示生成的 SFS 和 LD 分布,最后列提供数据拟合到 2 个不正确的模型时的联合后验分布:假定严格中立的人口统计数据模型和假设总体大小恒定的递归选择性扫描模型。所有外显子(即直接选择的)位点在分析前都被屏蔽。红十字表示真实值。如图所示,未下落的确定错误可能会导致误判。此图背后的脚本可在 https://github.com/paruljohri/Perspective_Statistical_Inference/tree/main/SimulationsTestSet/Figure2 中找到。LD,联动不平衡;SFS,站点频谱。
https://doi.org/10.1371/journal.pbio.3001669.g002
因此,如果测序覆盖率使得罕见的突变由于无法准确区分真正的变异和测序错误而被排除在分析之外,则用于后续测试的模型也应忽略这些变异。同样,如果由于对齐困难等问题而在实证分析中被掩盖多个区域,则在任何给定模型下可观察到的预期LD模式可能会受到影响。此外,虽然最近增加的时间序列数据的时间维度对群体遗传推断的各个方面都有帮助[73-76],但这些数据绝不会回避对适当基线模型的需求,而只是需要开发与时间采样相匹配的基线。总而言之,由于这些因素会极大地影响计划分析的效力,并可能引入偏差,因此在基线模型构建中应直接匹配数据集的精确细节(例如,区域长度,屏蔽区域的范围和位置,可调用站点的数量和确定性)和研究设计(例如,样本大小和单个时间点与时间序列数据)。
一旦这些担忧得到满足,第一个生物学加法在逻辑上将是突变率和突变谱。对于少数常用研究物种,突变率的均值和基因组异质性均已通过突变累积谱系和/或谱系研究进行了量化[77]。然而,即使对于这些物种,确定问题仍然复杂化[78],个体之间的差异可能很大[79],估计仅代表了可能在进化时间尺度上发生变化并可能受环境影响的速率和模式的时间快照[31,80]。在缺乏实验信息的生物体中,通常最好的估计来自远亲物种或基于分子钟的方法。除了强调实施任何一种实验方法的重要性,以进一步完善对这种感兴趣物种的突变率估计之外,值得注意的是,这种不确定性也可以建模。也就是说,如果在密切相关的物种中进行了适当的估计,则可以量化对观察到的变异水平的预期影响以及较高和较低速率的发散。因此,由这种不确定性引起的可能数据观测的变化现在是基础模型的一部分。
对于下一个参数添加,遵循相同的逻辑:交叉/基因转换,如果适用于所讨论的物种。例如,对于物种的一个子集,通过将基于杂交或谱系的遗传图谱与物理图谱进行比较,估计了每代交叉速率(以cM/Mb为单位)[81-83]。此外,根据LD模式(例如[84,85])也估计了按有效种群规模缩放的重组率,尽管这种方法通常需要对可能违反的进化过程做出假设(例如,[42])。与突变一样,可以模拟各种可能的重组率(无论是针对感兴趣物种还是密切相关物种的估计)对下游推理的影响。
基线模型构建的下一个补充通常与最大的不确定性有关 - 人口的人口历史,以及直接和相关的净化选择的影响。鉴于几乎无限数量的潜在人口假设(例如,[86]),这是一项艰巨的任务。此外,选择与人口统计学的相互作用本质上是非平凡的,难以治疗(例如,[55,87,88])。这一认识继续促使人们尝试将种群历史参数与中性、近乎中性、弱有害和强有害突变的DFE一起共同估计——这种分布通常以连续和离散的形式估计[89]。该领域的首批重要进展之一是使用假定的中性同义位点来估计基于SFS模式的人口规模变化,并以该人口统计为条件,将DFE拟合到非同源位点,这些位点可能经历了相当大的纯化选择[90-92]。然而,对于同义位点本身不是中性的生物体[93-95],或者当同义位点的SFS受到背景选择的影响时,这种循序渐进的方法可能会成为问题,这可能是通常的情况,因为它们与直接选择的非同义位点密切相关([41]和见[96,97])。
为了解决其中一些问题,Johri及其同事[44]最近开发了一种ABC方法,该方法放宽了同义位点中立性的假设,并通过同时估计DFE的参数和种群历史来校正背景选择效应。在任何给定的数据应用中,通过这种方法估计的参数的后验分布(即,表征推理的不确定性)代表了对种群规模变化和纯化/背景选择的逻辑处理,以便纳入这一进化相关的基线模型。也就是说,此实现中的人口统计模型高度简化,并且需要扩展来解释更复杂的人口历史。特别是,由于忽视了隐晦的人口结构和移徙,以及实际上在这一框架内将人口规模变化和DFE与人口结构和移徙共同估计的可行性,可能预期的估计偏差,仍然需要进一步调查。虽然这种基于模拟的推理(见[98]),包括ABC,为共同估计人口统计历史和选择提供了一个有前途的平台,但在这方面也已经取得了进展[99,100],并且在这些复杂模型下开发分析期望应该仍然是最终的目标,尽管遥远的话。或者,在功能稀疏的基因组中,重组率足够高,使得严格中立的假设对于某些基因组区域是可行的,已经开发了多种表现良好的方法来估计更复杂的人口统计模型的参数(例如,[101-104])。在适用这种方法的生物体中(例如,某些大型编码序列稀疏脊椎动物和陆地植物基因组),这种假设严格中立的基因间人口统计估计可能与编码区域内或附近数据得出的估计值进行比较,这些数据考虑了直接和链接的纯化选择的影响[41,44,105]].对于缺乏功能注释和编码密度信息的新研究物种, 遵循联合估计程序仍将是更令人满意的策略, 以考虑可能的背景选择效应。
量化模型选择和参数估计中的不确定性,调查潜在的模型违规,并定义可回答的问题
这些类型的分析的一个有用方面是能够在相对复杂的模型下将不确定性纳入基础参数中,以确定这种不确定性对下游推理的影响。将变异性纳入突变和重组率估计值,或从人口统计或DFE参数的置信区间或可信度区间中得出,可以通过多种高度灵活的仿真工具来满足计算负担[58,106,107]。这些也是用于调查可能导致的潜在模型违规的有用程序。例如,如果用于检测种群结构的给定分析假设没有基因流动,则可以从构建的基线模型开始,将迁移参数添加到模型中,以确定迁移速率和方向的变化对实证分析中使用的汇总统计数据的影响,从而量化违反该假设如何影响随后的结论。类似地,如果分析假设金曼聚结(例如,一个小的后代分布,使得每一代最多发生一个聚结事件),但所讨论的生物体可能违反这一假设(即,与许多植物,病毒和海洋产卵者相关的大量后代数量分布,或者只是由于相对广泛的进化过程,这些过程可能同样导致多个合并聚结事件), 这些分布也可以建模,以量化潜在的下游错误推断。
为了说明这一点,图3考虑了2种群体规模恒定和严格中立但后代偏斜程度不同的场景,以证明这种未经纠正的违规行为可能导致严重低估的种群规模以及强选择性扫描的高速率的错误推断。在这种情况下,错误推断源于这些模型下贡献祖先的减少,以及中性后代偏斜和选择性扫描都可以产生多个合并事件的事实[63,64,108,109]。同样,人们可以研究恒定突变或重组率的假设,当它们实际上是可变的。如图4所示,当这些比率被假定为恒定时,这是常见的做法,但实际上在所调查的基因组区域中变化,所考虑的(不正确的)人口统计和选择模型的拟合可能再次被实质性地修改。值得注意的是,这种速率异质性可能会夸大选择性扫描的推断强度。虽然图3和图4作为示例,但对于诸如在现实中存在分布时具有固定选择性效应,当现实中存在LD时存在独立的中性变体,当存在现实中的种群结构中存在panmixia等情况,可以进行相同的调查。简而言之,即使没有直接估计特定的生物过程/参数,其后果仍然可以被探索。
thumbnail 下载:
断续器幻灯片
巴新放大图像
断续器原始图像
图 3. 可以量化潜在模型违规的影响。
与图1和图2一样,场景在第一列中给出,在这里,平衡种群规模以及中等程度的后代偏斜(“Eqm + ψ = 0.05”)以及高度的后代偏斜(“Eqm + ψ = 0.1”)(参见方法论);中间列表示生成的 SFS 和 LD 分布,当数据拟合到 2 个不正确的模型时,最后列提供联合后验分布:假设中性的人口模型和假设平衡总体大小的递归选择性扫描模型。红十字表示真实值。如图所示,这种违反金曼合并假设的行为可能导致严重的错误推断,但这种潜在的模型违规所产生的偏差可以很容易地描述。此图背后的脚本可在 https://github.com/paruljohri/Perspective_Statistical_Inference/tree/main/SimulationsTestSet/Figure3 中找到。LD,联动不平衡;SFS,站点频谱。
https://doi.org/10.1371/journal.pbio.3001669.g003
thumbnail 下载:
断续器幻灯片
巴新放大图像
断续器原始图像
图 4. 不校正突变和重组率异质性的影响。
这里考虑了三种情况:平衡人口规模与背景选择和循环选择性扫描(“Eqm + BGS + Pos”),人口规模下降以及背景选择和复发选择性扫描(“下降+ BGS + Pos”),以及不断增长的人口规模以及背景选择和复发选择性扫描(“增长+ BGS + Pos”)。假设中立性,在不正确的人口统计模型以及假设平衡人口规模的错误循环选择性扫描模型下再次做出推断。然而,在每个类别中,推理在2种设置下进行:突变和重组速率是恒定的和已知的,突变和重组速率在整个区域是可变的,但假设是恒定的(参见方法学)。红十字表示真实值,所有外显子(即直接选择)位点在分析前都被屏蔽。如图所示,忽略所讨论的基因组区域的突变和重组率异质性可以对推理产生重要影响,特别是在选择模型方面。此图背后的脚本可在 https://github.com/paruljohri/Perspective_Statistical_Inference/tree/main/SimulationsTestSet/Figure4 中找到。
https://doi.org/10.1371/journal.pbio.3001669.g004
如图5所示,通过这样的模型在参数估计中同时包含生物和随机方差以及统计不确定性,并且了解了可能的模型违规的作用,人们可以研究哪些其他问题/假设可以用手头的数据来解决。通过使用从基线模型开始并添加假设过程的模拟方法,可以量化模型以及这些模型背后的参数可以区分的程度,以及导致数据中重叠或难以区分的模式的程度(例如,[110])。例如,如果给定研究的目标是确定基因组中最近的有益固定 - 无论它们是否可能与人类的高海拔适应,小鼠的冷冻或病毒中的耐药性有关 - 人们可以从基线模型开始,并在该模型下模拟选择性扫描。如图6所示,通过改变有益突变的强度,速率,年龄,优势和上位系数,可以量化SFS,LD和/或背离中的模式,这些模式可以区分添加此类选择性扫描参数与基线期望。此外,任何预期的实证分析都可以使用模拟数据(即基线,与基线+假设进行比较)来评估,以定义相关的功率和假阳性率。如果无法将所得模式的差异与基线模型下的预期方差区分开来(换句话说,如果分析的功效和假阳性率不利),则该假设无法用手头的数据解决(例如,[54])。如果结果是有利的,则该分析可以进一步量化假设可以检验的程度;也许只有选择性扫描来自选择性效应大于1%且固定在最后0.1 N内的罕见突变e世代是可检测的(见[111,112]),任何其他世代都无法在统计学上与基线模型下的预期模式区分开来。因此,这样的练习为解释由此产生的数据分析提供了至关重要的关键。
thumbnail 下载:
断续器幻灯片
巴新放大图像
断续器原始图像
图 5. 构建基因组分析基线模型的重要考虑因素图。-厦门杂志期刊论文发表
与突变率相关的考虑因素以红色编码,重组率以蓝色编码,人口统计学历史以绿色编码,DFE以紫色编码 - 以及它们的组合。从收集的数据源的顶部开始,箭头表示需要考虑的路径。虚线表示返回到起点。DFE,适应性效应的分布;FNR,假阴性率;FPR,假阳性率。
https://doi.org/10.1371/journal.pbio.3001669.g005
thumbnail 下载:
断续器幻灯片
巴新放大图像
断续器原始图像
图 6. 检测选择性扫描时的重要注意事项图示。
配色方案与图5中的配色方案相匹配,“选择性扫描”以橙色编码。DFE,适应性效应的分布;FPR,假阳性率;TPR,真阳性率。
https://doi.org/10.1371/journal.pbio.3001669.g006
对替代战略的考虑
在这方面,值得一提的是,有两种常见的方法可以被视为我们建议的战略的替代方案。第一种策略涉及识别与一个特定过程唯一且排他性关联的变异模式,无论构成基线的各种基础过程和细节如何,其存在都可以支持该模型。例如,Fay和Wu的[113]H统计,捕获了由重组选择性扫描产生的高频衍生等位基因的预期模式,最初被提出作为区分选择性扫描效应和替代模型的强大统计。最初应用H统计学的结果被解释为D基因组中广泛阳性选择的证据。黑色素瘤。然而,Przeworski[112]随后证明,该统计数据的特点是检测正选择的功率低,并且在多个中性人口统计模型下可以很容易地产生显着值。Kim和Stephan的复合似然框架[111]通过结合选择性扫描模型的多个预测提供了显着的改进,随后尼尔森及其同事[114]在提出SweepFinder方法时建立了这种框架。然而,Jensen及其同事[115]描述了在某些中性人口统计模型下的低功率和高假阳性率。Kim和Nielsen[116]以及Stephan及其同事[117](并见[118])描述的有益重组固定产生的LD的特殊模式也被发现是在严重中性群体瓶颈的范围内(尽管更有限)产生的[119,120]。-厦门杂志期刊论文发表
这里的要点是,统计数据本身代表了研究变异模式的重要工具,并且对于可视化数据的多个方面很有用,但是在任何给定的经验应用中,如果没有定义适当的基线模型以及相关的功率和误报率,它们就不可能解释。因此,寻找单个进化过程所特有的模式并不是一种解决方法,而且从历史上看,这种模式在进一步研究后很少被证明是特定于过程的。即使有朝一日构建了“防弹”测试,如果没有适当的建模,对模型违规行为的检查以及广泛的功率/灵敏度特异性分析,也不可能建立其实用性。但实际上,一个简单的事实是,某些测试统计和估计过程在某些情况下表现良好,但在其他情况下则不然。
第二种常见策略涉及汇总给定统计量的经验分布,并假设该分布的异常值表示感兴趣的过程的作用,例如正选择(例如,[121])。但是,这种方法是有问题的。首先,任何分布都有异常值,并且在给定模型下,所选统计数据始终存在5%或1%的尾部。因此,仍然需要拟合基线模型来确定观察到的经验异常值是否具有意外的严重性,以及基线模型与假设过程是否具有显着提高的可能性。此外,只有通过在基线模型的背景下考虑假设过程,才能确定受影响的位点(例如,那些受到最近扫描的位点)是否有望驻留在所选统计分布的尾部,这与给定的统计分布相去甚远[72,122]。因此,可能不一定需要定义的基线模型来执行初始分析的方法(例如,[114]),但仍然需要这种建模来准确定义期望,功率和假阳性率,从而解释观察到的经验异常值的重要性。由于这些原因,我们提倡的方法仍然至关重要。由于适当的基线进化模型可能因生物体和种群而异,因此必须针对每次实证分析仔细定义和量化这种性能,以便准确解释结果。
结论
在进化分析方面,想要回答一个问题并不一定等同于能够回答它。群体基因组学用给定的数据集解决感兴趣的假设的能力是必须证明的,这可以通过构建一个由常见的生物学和进化过程组成的模型来实现,包括这些潜在参数的不确定性,以及手头数据集的具体特征。与所选基线模型相关的可能观察结果的变化以及将假设的额外进化过程与这种“背景噪声”区分开来的能力都是可以量化的。此外,即使模型是正确的,人口统计学中的进化方差对估计精度也存在限制,这需要描述,而且再多的抽样也无法消除。
证明多个模型和/或模型中相当大的参数空间与数据兼容,不必被视为否定或弱发现。恰恰相反,这些结果的诚实呈现激发了未来的理论,实验和实证发展和分析,这可以进一步完善竞争假设的列表,本文包含许多成功做到这一点的引用。同时,这种分析可以确定哪些程度的不确定性最具破坏性(例如,图3和图4),也强调了一个简单的事实,即基本生物过程被更好地表征的生物体适合更广泛的潜在进化分析。这些参数在非模型生物体中不确定性的影响可能促使人们退后一步,首先通过突变积累谱系或谱系研究更好地表征基本的生物过程,如突变率和光谱,以提高对主要兴趣问题的解决。
重要的是,我们描述的框架通常还会识别许多实际上与观察到的数据不一致的模型和参数实现。这种“排除”过程通常与模型拟合一样有用,拒绝可能的假设通常是2的更稳健的练习。这种缩小范围的价值,而不是对个别场景的热情推广,值得高度赞赏。然而,不应平等地看待所有模式。数十年的工作支持中性理论的核心原则[19],量化突变和重组率的高质量实验和计算工作[77-79,83,84,123],不断改进实验和理论方法,以量化来自自然种群,突变积累或定向诱变数据的中性和有害DFE[44,90,124-126]],以及关于种群规模变化或结构的历史知识(例如,人类学,生态学和临床)-结合所有这些因素可能强烈影响观察到的变异和差异水平和模式的事实-证明它们在构成基因组分析的适当基线模型中的作用。
鉴于此,特别是在考虑了相关参数的不确定性、潜在的模型违规以及任何给定分析中可用数据的数量和质量所造成的方差膨胀之后,通常情况下,许多感兴趣的假设可能无法用手头的数据集和知识来解决。然而,认识到一个问题不能得到准确的回答,并确定在什么条件下可以回答这个问题,应该比提出毫无根据的、因而具有误导性的主张更可取。然而,与这一谨慎呼吁相一致,同样应该强调的是,基线模型与数据的拟合肯定不是该模型包含塑造人口的所有相关过程的固有证据。实际上,它几乎可以保证不会包罗万象,并且构建这些模型涉及简化更复杂的过程(有关有用且更一般的观点,请参阅[127])。当无法令人满意地检测到附加过程时,可以将其视为关于统计可识别性的陈述 - 无法将假设过程与其他已知正在起作用的过程区分开来 - 并且在这种情况下,缺乏证据不需要被视为不存在的证据。
虽然我们描述的许多考虑因素可能看起来令人生畏,但我们希望这些建议可以作为未来人口基因组学数据分析的有用路线图,不仅可以为作者的观点提供信息,还可以为审稿人和编辑的观点提供信息。有用的是,这些策略可以通过确定研究人员可以访问哪些问题,在经验数据处理开始之前节省大量时间,金钱和精力。如果一个问题是可以解决的,这种初步分析可以另外定义需要哪些类型的数据,例如,获得足够功率所需的变体数量或样本大小,或者替代数据收集(例如,时间样本)如何提高分辨率。这进一步凸显了定义特定假设和研究特定模式的价值,而不是在每个新数据集上运行一套通用软件以识别感兴趣的内容 - 也就是说,人们无法定义研究解决未定义问题的能力。在过去十年中,这种假设驱动的群体基因组学已经产生了许多成功的故事:形成特定假设的系统,为此目的收集数据,设计了详细的群体基因组分析,并最终获得了有关相关人群进化历史的重要见解(例如,对神秘着色的研究在这方面被证明是富有成效的[3]]).这些研究的一个共同特征是跨学科性:利用这里描述的群体遗传理论和推理,结合经典的遗传杂交,大规模的实地研究和遗传操作,以便将基因型与表型与适应性联系起来,并验证统计推断。然而,重要的是,如果没有一个群体遗传框架来定义假设,量化有助于观察到的变异和发散的过程,评估和区分竞争模型,以及定义不确定性和潜在的偏见,观察结果仍然只是描述性的。
确认
本文致力于纪念Richard Lewontin(1929-2021)和Bill Hill(1940-2021)。我们要感谢Nick Barton,Matt Dean,Fabian Freund,Ryan Gutenkunst,Mark Kirkpatrick,Sarah Marion,Mohamed Noor,Sally Otto,Kevin Thornton和John Wakeley提供有用的意见和建议。
引用
1.Nielsen R, Akey JM, Jakobsson M, Pritchard JK, Tishkoff S, Willerslev E. 通过基因组学追踪世界的人口。自然界。2017;541(7637):302–10.pmid:28102248
查看文章PubMed/NCBI谷歌学术搜索
2.Renzette N, Gibson L, Jensen JD, Kowalik TF.人类巨细胞病毒宿主内进化 - 了解和控制疱疹病毒感染的新途径。Curr Opin Virol.2014;8:109–15.pmid:25154343
查看文章PubMed/NCBI谷歌学术搜索
3.Harris RB, Irwin K, Jones MR, Laurent S, Barrett RDH, Nachman MW, et al.脊椎动物冷冻的群体遗传学:来自小鼠,野兔和蜥蜴的最新见解。遗传。2020;124(1):1–14.pmid:31399719
查看文章PubMed/NCBI谷歌学术搜索
4.Irwin KK, Renzette N, Kowalik TF, Jensen JD.抗病毒药物耐药性作为一个适应性过程。病毒卷2016;2(1):vew014.pmid:28694997
查看文章PubMed/NCBI谷歌学术搜索
5.费舍尔 RA.自然选择的遗传理论。克拉伦登出版社,牛津,英国;1930.
6.赖特S.孟德尔种群的进化。遗传学。1931;16(2):97–159.pmid:17246615
查看文章PubMed/NCBI谷歌学术搜索
7.霍尔丹 JBS.进化的原因。朗文, 伦敦, 英国;1932.
8.普罗文·巴布。理论群体遗传学的起源。芝加哥大学出版社;1971.
9.达尔文C.关于通过自然选择的物种起源,或在生命斗争中保护受青睐的种族。约翰·默里,伦敦,英国;1859.
10.Mendel G. Versuche über Pflanzenhybriden.Verh Naturforsch Ver Brünn.1866;4:3–47.
查看文章谷歌学术搜索
11.Lewontin RC.进化变化的遗传基础。哥伦比亚大学出版社,纽约;1974.
12.Lewontin RC.二十五年前在遗传学:进化遗传学发展中的电泳:里程碑还是磨石?遗传学。1991;128(4):657–62.pmid:1916239
查看文章PubMed/NCBI谷歌学术搜索
13.木村M.分子水平的进化率。自然界。1968;217(5129):624–6.pmid:5637732
查看文章PubMed/NCBI谷歌学术搜索
14.木村 M.分子进化的中性理论。剑桥大学出版社, 剑桥;1983.
15.Ohta T.进化中略微有害的突变体替代。自然界。1973;246(5428):96–8.pmid:4585855
查看文章PubMed/NCBI谷歌学术搜索
16.国王JL,朱克斯TH。非达尔文进化论。科学。1969;164(3881):788–98.pmid:5767777
查看文章PubMed/NCBI谷歌学术搜索
17.克恩 AD, 哈恩 MW.自然选择的中性理论。摩尔生物 Evol.2018;35(6):1366–71.pmid:29722831
查看文章PubMed/NCBI谷歌学术搜索
18.Walsh B,Lynch M.定量性状的进化和选择。牛津大学出版社,牛津;2018.
19.Jensen JD, Payseur BA, Stephan W, Aquadro CF, Lynch M, Charlesworth D, et al.中性理论在1968年和50年后的重要性:对Kern & Hahn 2018的回应。演化。2019;73(1):111–4.pmid:30460993
查看文章PubMed/NCBI谷歌学术搜索
20.梅纳德·史密斯 J, 海格 J.有利基因的搭便车效应。热内特研究 1974;23(1):23–5.pmid:4407212
查看文章PubMed/NCBI谷歌学术搜索
21.查尔斯沃思B,摩根MT,查尔斯沃思D.有害突变对中性分子变异的影响.遗传学。1993;134(4):1289–303.pmid:8375663
查看文章PubMed/NCBI谷歌学术搜索
22.查尔斯沃思B,詹森JD。在连锁位点进行选择对遗传变异性模式的影响。Annu Rev Ecol Evol Syst. 2021;52:177–97.
查看文章谷歌学术搜索
23.Ray N,Excoffier L.使用空间上明确的群体遗传模型推断过去的人口统计学。Hum Biol. 2009;81(2–3):141–57.pmid:19943741
查看文章PubMed/NCBI谷歌学术搜索
24.贝希曼AC,韦尔塔-桑切斯E,洛穆勒KE。使用基因组数据推断非模式生物的历史种群动态。Annu Rev Ecol Evol Syst. 2018;49:433–56.
查看文章谷歌学术搜索
25.Booker TR,Jackson BC,Keightley PD.检测基因组中的阳性选择。BMC Biol. 2017;15(1):98.pmid:29084517
查看文章PubMed/NCBI谷歌学术搜索
26.斯蒂芬W.选择性扫荡。遗传学。2019;211(1):5–13.pmid:30626638
查看文章PubMed/NCBI谷歌学术搜索
27.艾尔-沃克 A, 凯特利 PD.新突变的适应性效应的分布。纳特·吉内特·2007;8(8):610–8.pmid:17637733
查看文章PubMed/NCBI谷歌学术搜索
28.Bank C, Foll M, Ferrer-Admetlla A, Ewing G, Jensen JD.想法太积极?重新审视当前群体遗传选择推断的方法。趋势基因。2014;30(12):540–6.pmid:25438719
查看文章PubMed/NCBI谷歌学术搜索
29.Keightley PD, Halligan DL.突变变异的分析和影响。遗传学。2009;136(2):359–69.pmid:18663587
查看文章PubMed/NCBI谷歌学术搜索
30.Keightley PD.人类新突变的速率和适应性后果。遗传学。2012;190(2):295–304.pmid:22345605
查看文章PubMed/NCBI谷歌学术搜索
31.Lynch M, Ackerman MS, Gout JF, Long H, Sung W, Thomas WK, et al.遗传漂移,选择和突变率的进化。纳特·吉内特·2016;17(11):704–14.pmid:27739533
查看文章PubMed/NCBI谷歌学术搜索
32.Stumpf MP,McVean GA.根据群体遗传数据估计重组率。纳特·吉内特·2003;4(12):959–68.pmid:14631356
查看文章PubMed/NCBI谷歌学术搜索
33.Auton A, Fledel-Alon A, Pfeifer SP, Venn O, Ségurel L, Street T, et al.来自群体测序的精细尺度黑猩猩遗传图谱。科学。2012;336(6078):193–8.pmid:22422862
查看文章PubMed/NCBI谷歌学术搜索
34.斯宾塞JP,宋YS。推断和分析26个不同人群的人群特异性精细尺度重组图。科学进展 2019;5(10):eaaw9206.pmid:31681842
查看文章PubMed/NCBI谷歌学术搜索
35.马博蒙特,张伟,秃头DJ。群体遗传学中的近似贝叶斯计算。遗传学。2002;162(4):2025–35.pmid:12524368
查看文章PubMed/NCBI谷歌学术搜索
36.博蒙特 MA, 兰纳拉 B.遗传学中的贝叶斯革命。纳特·吉内特·2004;5(4):251–61.pmid:15131649
查看文章PubMed/NCBI谷歌学术搜索
37.Schraiber JG, Akey JM.揭示人类进化史的方法和模型。纳特·吉内特·2015;16(12):727–40.pmid:26553329
查看文章PubMed/NCBI谷歌学术搜索
38.Han E,Sinsheimer JS,Novembre J.从低覆盖率测序数据中表征群体遗传推断中的偏差。摩尔生物 Evol.2014;31(3):723–35.pmid:24288159
查看文章PubMed/NCBI谷歌学术搜索
39.研究灵长类动物的突变率进化 - 计算管道和参数选择的影响。千兆科学。2021;10(10):giab069.pmid:34673929
查看文章PubMed/NCBI谷歌学术搜索
40.尤因G,詹森JD。在人口统计推断中不考虑背景选择的后果。分子生态. 2016;25(1):135–41.pmid:26394805
查看文章PubMed/NCBI谷歌学术搜索
41.Pouyet F,Aeschbacher S,Thiery A,Excoffier L.背景选择和偏倚基因转换影响超过95%的人类基因组和偏倚人口统计推断。伊莱夫。2018;7:e36317.pmid:30125248
查看文章PubMed/NCBI谷歌学术搜索
42.Dapper AL, Payseur BA.人口学史对连锁不平衡重组热点检测的影响.摩尔生物 Evol.2018;35(2):335–53.pmid:29045724
查看文章PubMed/NCBI谷歌学术搜索
43.Rousselle M, Maeva M, Nabholz B, Bataillon T, Galtier N. 高估波动种群中适应性替代率.Biol Lett.2018;14(5):20180055.pmid:29743267
查看文章PubMed/NCBI谷歌学术搜索
44.Johri P, Charlesworth B, Jensen JD.走向进化上适当的零模型:共同推断人口统计和净化选择。遗传学。2020;215(1):173–92.pmid:32152045
查看文章PubMed/NCBI谷歌学术搜索
45.Samuk K, Noor MAF.基因流偏倚群体对重组率的遗传推断。biorxiv 2021.https://www.biorxiv.org/content/10.1101/2021.09.26.461846v1.full.pdf
查看文章谷歌学术搜索
46.迈尔斯S,费弗曼C,帕特森N.人们可以从等位基因谱中学习历史吗?大众生物学. 2008;73(3):342–8.pmid:18321552
查看文章PubMed/NCBI谷歌学术搜索
47.哈里斯RB,萨克曼A,詹森JD。关于对软选择性扫描的毫无根据的热情II:检查来自人类,苍蝇和病毒的最新证据。PLoS Genet.2018;14(12):e1007859.pmid:30592709
查看文章PubMed/NCBI谷歌学术搜索
48.卢卡 S, 彭内尔 MW.现存的时间树与无数的多样化历史是一致的。自然界。2020;580(7804):502–5.pmid:32322065
查看文章PubMed/NCBI谷歌学术搜索
49.福特EB.生态遗传学。查普曼和霍尔,伦敦,英国;1975.
50.加鲁德N,梅塞尔P,布兹巴斯E,彼得罗夫D.最近在北美果蝇黑腹股蓝中进行的选择性扫描显示出软扫描的特征。PLoS Genet.2015;11(2):e1005004.pmid:25706129
查看文章PubMed/NCBI谷歌学术搜索
51.软扫描是人类基因组中主要的适应模式。摩尔生物 Evol.2017;34(8):1863–77.pmid:28482049
查看文章PubMed/NCBI谷歌学术搜索
52.Johri P, Stephan W, Jensen JD.软选择性扫描:解决新定义,评估竞争模型,并解释经验异常值。PLoS Genet.2022;18(2):e1010022.pmid:35202407
查看文章PubMed/NCBI谷歌学术搜索
53.新罕布什尔州巴顿基因搭便车。Philos Trans R Soc B. 2000;355(1403):1553–62.pmid:11127900
查看文章PubMed/NCBI谷歌学术搜索
54.Poh YP, Domingues V, Hoekstra HE, Jensen JD.关于在最近出现瓶颈的种群中识别适应性位点的前景。PLoS ONE.2014;9(11):e110579.pmid:25383711
查看文章PubMed/NCBI谷歌学术搜索
55.Johri P, Riall K, Becher H, Excoffier L, Charlesworth B, Jensen JD.净化和背景选择对人口历史推论的影响:问题与展望.摩尔生物 Evol.2021;38(7):2986–3003.pmid:33591322
查看文章PubMed/NCBI谷歌学术搜索
56.坎波斯JL,查尔斯沃思B.递归选择性扫描和背景选择对中性变异性的影响.遗传学。2019;212(1):287–303.pmid:30923166
查看文章PubMed/NCBI谷歌学术搜索
57.Kelleher J,Etheridge AM,McVean G.大样本量的高效聚结模拟和家谱分析。PLoS计算机生物学版. 2016;12(5):e1004842.pmid:27145223
查看文章PubMed/NCBI谷歌学术搜索
58.哈勒BC,梅塞尔PW。SLiM 3:超越赖特-费舍尔模型的前向遗传模拟。摩尔生物 Evol.2019;36(3):632–7.pmid:30517680
查看文章PubMed/NCBI谷歌学术搜索
59.Eyre-Walker A,Keightley PD.估计在存在轻微有害突变和种群规模变化的情况下适应性分子进化的速度。摩尔生物 Evol.2009;26(9):2097–108.pmid:19535738
查看文章PubMed/NCBI谷歌学术搜索
60.Thornton K. Libsequence:一个用于进化遗传分析C++类库。生物信息学。2003;19(17):2325–7.pmid:14630667
查看文章PubMed/NCBI谷歌学术搜索-厦门杂志期刊论文发表
61.Csilléry K, Fran?ois O, Blum M. abc: 一个用于近似贝叶斯计算(ABC)的R包。方法 Ecol Evol.2012;3:475–9.
查看文章谷歌学术搜索
62.Eldon B,Wakeley J. 当个体中后代数量的分布高度偏斜时,聚结过程。遗传学。2006;172(4):2621–33.pmid:16452141
查看文章PubMed/NCBI谷歌学术搜索
63.Matuszewski M, Hildebrandt ME, Achaz G, Jensen JD.具有偏斜后代分布和非平衡人口统计的凝聚过程。遗传学。2018;208(1):323–38.pmid:29127263
查看文章PubMed/NCBI谷歌学术搜索
64.萨克曼A,哈里斯RB,詹森JD。推断以后代分布偏斜为特征的生物体中的人口统计学和选择。遗传学。2019;211(3):1019–28.pmid:30651284
查看文章PubMed/NCBI谷歌学术搜索
65.麦克维恩G,迈尔斯S,亨特S,德卢卡斯P,宾利D,唐纳利P。人类基因组重组速率变异的精细尺度结构.科学。2004;304(5670):581–4.pmid:15105499
查看文章PubMed/NCBI谷歌学术搜索
66.Chan AH, Jenkins P, Song Y. 黑腹果蝇的全基因组细尺度重组速率变异.PLoS Genet.2012;8(12):e1003090.pmid:23284288
查看文章PubMed/NCBI谷歌学术搜索
67.Penalba JV, Wolf JB.从分子到群体:欣赏和估计重组速率变化。纳特·吉内特·2020;21(8):476–92.pmid:32472059
查看文章PubMed/NCBI谷歌学术搜索
68.查尔斯沃思D,查尔斯沃思B,摩根MT.背景选择模型下的中性分子变异模式.遗传学。1995;141(4):1619–32.pmid:8601499
查看文章PubMed/NCBI谷歌学术搜索
69.查尔斯沃思B.背景选择20年后。Wilhelmine E. Key 2012年邀请讲座。J·赫里德。2013;104(2):161–71.pmid:23303522
查看文章PubMed/NCBI谷歌学术搜索
70.Pfeifer SP.从下一代重测序读取到高质量的变体数据集。遗传。2017;118(2):111–24.pmid:27759079
查看文章PubMed/NCBI谷歌学术搜索
71.Nielsen R.已确定SNP数据的群体遗传分析。嗡嗡声基因组学。2004;1(3):218–24.pmid:15588481
查看文章PubMed/NCBI谷歌学术搜索
72.桑顿KR,詹森JD。控制多位点基因组扫描中的假阳性率以进行选择。遗传学。2007;175(2):737–50.pmid:17110489
查看文章PubMed/NCBI谷歌学术搜索
73.Malaspinas AS,Malaspinas O,Evans SN,Slatkin M.从时间序列数据中估计等位基因年龄和选择系数。遗传学。2012;192(2):599–607.pmid:22851647
查看文章PubMed/NCBI谷歌学术搜索
74.Foll M, Shim H, Jensen JD.一种基于Wright-Fisher ABC的方法,用于从时间采样数据中推断每个站点的有效种群大小和选择系数。Mol Ecol Resour.2015;15(1):87–98.pmid:24834845
查看文章PubMed/NCBI谷歌学术搜索
75.Ferrer-Admetlla A, Leuenberger C, Jensen JD, Wegmann D.赖特-费舍尔扩散的近似马尔可夫模型及其在时间序列数据中的应用.遗传学。2016;203(2):831–46.pmid:27038112
查看文章PubMed/NCBI谷歌学术搜索
76.林奇M,何WC。使用时态数据估计群体遗传参数的限值。基因组生物进化2020;12(4):443–55.pmid:32181820
查看文章PubMed/NCBI谷歌学术搜索
77.自发突变率。在分子进化时钟中。理论与实践。施普林格自然;2020.
78.Smith TCA,Arndt PF,Eyre-Walker A.人类生殖系从头突变,碱基组成,发散和多样性的速率的大规模变化。PLoS Genet.2018;14(3):e1007254.pmid:29590096
查看文章PubMed/NCBI谷歌学术搜索
79.Ness RW,Morgan AD,Radhakrishnan V,Colegrave N,Keightley PD.个体之间和整个衣原体基因组中广泛的从头突变率变化。基因组研究 2015;25(11):1739–49.pmid:26260971
查看文章PubMed/NCBI谷歌学术搜索
80.Maddamsetti R, Grant NA.大肠杆菌长期进化实验中突变率和偏倚的不同进化。基因组生物进化2020;12(9):1591–603.pmid:32853353
查看文章PubMed/NCBI谷歌学术搜索
81.Kong A, Gudbjartsson DF, Sainz J, Jonsdottir G, Gudjonsson S, Richardsson B, et al. 2002.人类基因组的高分辨率重组图谱。纳特·热内特。2002;31(3):241–7.pmid:12053178
查看文章PubMed/NCBI谷歌学术搜索
82.Cox A, Ackert-Bicknell C, Dumont B, Ding Y, Tzenova Bell J, Brockmann G, et al.实验室小鼠的新标准遗传图谱。遗传学。2009;182(4):1335–44.pmid:19535546
查看文章PubMed/NCBI谷歌学术搜索
83.Comeron JM, Ratnappan R, Bailin S.黑腹果蝇重组的多种景观.PLoS Genet.2012;8(10):e1002905.pmid:23071443
查看文章PubMed/NCBI谷歌学术搜索
84.Auton A,McVean G.估计人类遗传变异的重组率。方法分子生物学. 2012;856:217–37.pmid:22399461
查看文章PubMed/NCBI谷歌学术搜索
85.Pfeifer SP.用于绒毛猴的精细遗传图谱。摩尔生物 Evol.2020;37(7):1855–65.pmid:32211856
查看文章PubMed/NCBI谷歌学术搜索
86.Chikhi L, Sousa VC, Luisi P, Goossens B, Beaumont MA.种群结构、遗传多样性和抽样方案对种群规模变化检测与量化的混杂效应.遗传学。2010;186(3):983–95.pmid:20739713
查看文章PubMed/NCBI谷歌学术搜索
87.Peischl S, Dupanloup I, Kirkpatrick M, Excoffier L.关于范围扩展过程中有害突变的积累。分子生态学报. 2013;22(24):5972–82.pmid:24102784
查看文章PubMed/NCBI谷歌学术搜索
88.Peischl S,Kirkpatrick M,Excoffier L.膨胀负荷和物种范围的进化动力学。全国 2015;185(4):E81–93.pmid:25811091
查看文章PubMed/NCBI谷歌学术搜索
89.Johri P, Eyre-Walker A, Gutenkunst RN, Lohmueller KE, Jensen JD.关于实现与种群史的准确联合估计选择的前景.修订版中。基因组生物进化
查看文章谷歌学术搜索
90.Keightley PD,Eyre-Walker A.基于核苷酸多态性频率的有害突变和群体人口统计学的适应性效应分布的联合推断。遗传学。2007;177(4):2251–61.pmid:18073430
查看文章PubMed/NCBI谷歌学术搜索
91.施耐德A,查尔斯沃思B,艾尔沃克A,凯特利PD。一种推断有利突变的发生率和适应性效应的方法。遗传学。2011;189(4):1427–37.pmid:21954160
查看文章PubMed/NCBI谷歌学术搜索
92.林奇·基因组结构的起源。Sinauer Associates, Sunderland, MA;2007.
93.Singh ND,Bauer DuMont VL,Hubisz MJ,Nielsen R,Aquadro CF.果蝇同义词位点的突变和选择模式。摩尔生物 Evol.2007;24(12):2687–97.pmid:18000010
查看文章PubMed/NCBI谷歌学术搜索
94.Zeng K,Charlesworth B.研究黑腹果蝇同义词位点和内含位点的近期进化模式。J Mol Evol.2010;70(1):116–28.pmid:20041239
查看文章PubMed/NCBI谷歌学术搜索
95.Choi JY, Aquadro CF. 最近在果蝇中跨同义词位点的近期和长期选择。J Mol Evol.2016;83(1–2):50–60.pmid:27481397
查看文章PubMed/NCBI谷歌学术搜索
96.科门伦·背景选择作为果蝇基因组中核苷酸变异的基线。PLoS Genet.2014;10(6):e1004434.pmid:24968283
查看文章PubMed/NCBI谷歌学术搜索
97.科门伦·背景选择作为群体基因组学中的零假设:果蝇研究的见解和挑战。Philos Trans R Soc B. 2017;372(1736):20160471.pmid:29109230
查看文章PubMed/NCBI谷歌学术搜索
98.克兰默K,布雷默J,卢普G.基于仿真的推理的前沿。美国国家科学院院刊 2020;117(48):30055–62.pmid:32471948
查看文章PubMed/NCBI谷歌学术搜索
99.威廉姆森SH,埃尔南德斯R,弗莱德尔-阿隆A,朱L,尼尔森R,布斯塔曼特CD。从人类基因组的变异模式中同时推断选择和种群增长。美国国家科学院院刊. 2005;102(22):7882–7.pmid:15905331
查看文章PubMed/NCBI谷歌学术搜索
100.Ragsdale A,Moreau C,Gravel S.使用扩散模型和等位基因频谱进行基因组推断。Curr Opin Gen Deve.2018;53:140–7.pmid:30366252
查看文章PubMed/NCBI谷歌学术搜索
101.Gutenkunst R, Hernandez R, Williamson S, Bustamante CD.从多维SNP数据推断多个人群的联合人口统计历史。PLoS Genet.2009;5(10):e1000695.pmid:19851460
查看文章PubMed/NCBI谷歌学术搜索
102.Excoffier L,Dupanloup I,Huerta-Sánchez E,Sousa VC,Foll M.从基因组和SNP数据中进行鲁棒的人口推断。PLoS Genet.2013;9(10):e1003905.pmid:24204310
查看文章PubMed/NCBI谷歌学术搜索
103.Kelleher J,Wong Y,Wohns AW,Fadil C,Albers PK,McVean G.在大型人口数据集中推断全基因组历史。纳特·热内特。2019;51(9):1330–8.pmid:31477934
查看文章PubMed/NCBI谷歌学术搜索
104.斯坦鲁肯 M, 卡姆 J, 斯宾塞 J, 宋 YS.使用来自多个群体的全基因组序列推断复杂的种群历史。美国国家科学院院刊 2019;116(34):17115–20.pmid:31387977
查看文章PubMed/NCBI谷歌学术搜索
105.Torres R,Szpiech Z,Hernandez RD.人类人口统计历史放大了整个基因组中背景选择的影响。PLoS Genet.2018;14(6):e1007387.pmid:29912945
查看文章PubMed/NCBI谷歌学术搜索
106.桑顿一C++模板库,用于对大种群进行有效的前向种群遗传模拟。遗传学。2014;198(1):157–66.pmid:24950894
查看文章PubMed/NCBI谷歌学术搜索
107.Kelleher J,Thornton K,Ashander J,Ralph P.用于快速群体遗传学模拟的高效谱系记录。PLoS计算机生物学. 2018;14(11):e1006581.pmid:30383757
查看文章PubMed/NCBI谷歌学术搜索
108.Durrett R, Schweinsberg J. 近似选择性扫描.大众生物学. 2004;66(2):129–38.pmid:15302222
查看文章PubMed/NCBI谷歌学术搜索
109.Hallatschek O. 类似选择的偏见出现在具有经常性头奖事件的人口模型中。遗传学。2018;210(3):1053–73.pmid:30171032
查看文章PubMed/NCBI谷歌学术搜索
110.Lapierre M,Lambert A,Achaz G.从站点频谱推断人口统计的准确性:约鲁巴人口的情况。遗传学。2017;206(1):439–49.pmid:28341655
查看文章PubMed/NCBI谷歌学术搜索
111.Kim Y,Stephan W.检测沿着重组染色体的遗传搭便车的局部特征。遗传学。2002;160(2):765–77.pmid:11861577
查看文章PubMed/NCBI谷歌学术搜索
112.普热沃斯基 M.随机选择位点处正选择的特征。遗传学。2002;160(3):1179–89.pmid:11901132
查看文章PubMed/NCBI谷歌学术搜索
113.费杰, 吴慈.在积极的达尔文选择下搭便车。遗传学。2000;155(3):1405–13.pmid:10880498
查看文章PubMed/NCBI谷歌学术搜索
114.尼尔森R,威廉姆森S,金Y,胡比什MJ,克拉克股份公司,布斯塔曼特CD。使用SNP数据进行选择性扫描的基因组扫描。基因组研究 2005;15(11):1566–75.pmid:16251466
查看文章PubMed/NCBI谷歌学术搜索
115.Jensen JD, Kim Y, DuMont VB, Aquadro CF, Bustamante CD.使用DNA多态性数据区分选择性扫描和人口统计学。遗传学。2005;170(3):1401–10.
查看文章谷歌学术搜索
116.Kim Y, Nielsen R. Linkage disquilibrium 作为选择性扫描的标志。遗传学。2004;167(3):1513–24.pmid:15280259
查看文章PubMed/NCBI谷歌学术搜索
117.Stephan W, Song YS, Langley CH. 搭便车效应对连锁中性位点之间连锁不平衡的影响.遗传学。2006;172(4):2647–63.pmid:16452153
查看文章PubMed/NCBI谷歌学术搜索
118.麦克维恩·围绕选择性扫描的连锁不平衡结构。遗传学。2007;175(3):1395–406.pmid:17194788
查看文章PubMed/NCBI谷歌学术搜索
119.Jensen JD,Thornton KR,Bustamante CD,Aquadro CF.关于连锁不平衡作为确定非平衡人群中正选择目标的统计数据的效用。遗传学。2007;176(4):2371–9.pmid:17565955
查看文章PubMed/NCBI谷歌学术搜索
120.Crisci J, Poh YP, Mahajan S, Jensen JD.均衡假设对选择检验的影响.前热内特。2013;4:235.pmid:24273554
查看文章PubMed/NCBI谷歌学术搜索
121.Garud N,Messer P,Petrov D.从黑腹果蝇种群基因组数据中检测硬选择性和软选择性扫描。PLoS Genet.2021;17(2):e1009373.pmid:33635910
查看文章PubMed/NCBI谷歌学术搜索
122.Teshima K, Coop G, Przeworski M.经验基因组扫描对选择性扫描的可靠性如何?基因组研究 2006;16(6):702–12.pmid:16687733
查看文章PubMed/NCBI谷歌学术搜索
123.Lynch M, Sung W, Morris K, Coffey N, Landry CR, Dopman EB, et al.酵母中自发突变谱的全基因组视图。美国国家科学院院刊. 2008;105(27):9272–7.pmid:18583475
查看文章PubMed/NCBI谷歌学术搜索
124.Bank C, Hietpas RT, Wong A, Bolon DNA, Jensen JD.一种贝叶斯MCMC方法,用于评估新突变的适应性效应的完整分布:揭示在具有挑战性的环境中适应性行走的潜力。遗传学。2014;196(3):841–52.pmid:24398421
查看文章PubMed/NCBI谷歌学术搜索
125.Foll M, Poh YP, Renzette N, Ferrer-Admetlla A, Shim H, Malaspinas AS, et al.流感病毒耐药性:时间采样的群体遗传学观点。PLoS Genet.2014;10(2):e1004185.
查看文章谷歌学术搜索
126.B?ndel KB, Kraemer SA, Samuels TS, McClean D, Lachapelle J, Ness RW, et al.推断莱因哈蒂衣原体自发突变的适应性效应的分布。PLoS Biol. 2019;17(6):e3000192.pmid:31242179
查看文章PubMed/NCBI谷歌学术搜索
127.Gelman A, Shalizi CR. 哲学和贝叶斯统计的实践.Br J Math Stat Psychol. 2013;66(1):8–38.pmid:22364575
查看文章PubMed/NCBI谷歌学术搜索-厦门杂志期刊论文发表-厦门杂志期刊论文发表