厦门杂志期刊论文发表-英国生物样本库中813个性状的显著稀疏多基因风险评分
谷川洋介 ,钱俊阳,古汉·文卡塔拉曼,约翰娜·玛丽·贾斯特森,李瑞林,罗伯特?蒂布希拉尼,特雷弗?哈斯蒂,曼努埃尔·里瓦斯
出版日期: 2022年03月24日
抽象
我们使用英国生物库中的遗传和表型数据对1,500多个性状的多基因风险评分(PRS)预测进行了系统评估。我们报告了 813 个稀疏 PRS 模型,其显著 (p < 2.5 x 10?5)与考虑年龄、性别、基因分型阵列类型和基因型主成分负载的仅协变量模型相比,增量预测性能。我们报告了稀疏PRS模型中选择的遗传变异数量与增量预测性能之间的显着相关性(Spearman的?= 0.61,p = 2.2 x 10?59对于数量性状,? = 0.21,p = 9.6 x 10?4对于二进制特征)。在英国生物银行对非欧洲个人进行评估时,对欧洲个人训练的稀疏PRS模型显示出有限的可转移性。我们在全球生物样本库引擎(https://biobankengine.stanford.edu/prs)上提供PRS模型权重。
作者简介
多基因风险评分(PRS)是一种通过汇总多个遗传变异的影响来估计疾病责任的遗传易感性的方法,吸引了越来越多的研究兴趣。虽然 PRS 对某些性状的预测性能有所改善,但 PRS 模型在各种人类性状中的适用性尚不清楚。在这里,使用批量筛选迭代套索(BASIL)算法将惩罚回归应用于英国生物库中超过269,000名具有英国白人血统的个体,我们系统地表征了1,500多个特征的PRS模型。我们报告了813个具有PRS模型的具有统计学意义的预测性能的特征。虽然统计学意义不一定直接转化为临床相关性,但我们研究了813个重要PRS模型的性质,并报告了预测性能与估计的基于SNP的遗传力之间的显着相关性。我们发现,在我们的稀疏PRS模型中选择的遗传变异数量与定量和二元性状的增量预测性能显着相关。我们对英国生物银行PRS模型的可转移性评估显示,对欧洲血统个体进行训练的稀疏PRS模型对非洲和亚洲祖先群体个体的预测性能较低。
引文: Tanigawa Y, Qian J, Venkataraman G, Justesen JM, Li R, Tibshirani R, et al. (2022) 英国生物样本库中813个性状的显著稀疏多基因风险评分。PLoS Genet 18(3):e1010105。https://doi.org/10.1371/journal.pgen.1010105
编辑 器: Samuli Ripatti,芬兰分子医学研究所(FIMM),芬兰
收到: 九月 8, 2021;接受: 二月 15, 2022;发表: 三月 24, 2022
版权所有: ? 2022 谷川等人。这是一篇根据知识共享署名许可条款分发的开放获取文章,该许可允许在任何媒体上不受限制地使用,分发和复制,前提是注明原始作者和来源。
数据可用性: 本研究生成的稀疏PRS模型权重可在全球生物样本库引擎(https://biobankengine.stanford.edu/prs 上找到。重要的 PRS 模型也可在 PGS 目录中找到(https://www.pgscatalog.org/publication/PGP000244/ 和 https://www.pgscatalog.org/publication/PGP000128/,评分 ID 列在 S1 表中)。在 R snpnet 包中实现的 BASIL 算法用于 PRS 分析,该分析可在 https://github.com/rivas-lab/snpnet。本研究中提出的分析基于通过英国生物银行访问的个人层面数据:https://www.ukbiobank.ac.uk。
资金: 这项工作得到了美国国立卫生研究院(NIH)国家人类基因组研究所(NHGRI)[R01HG010140至M.A.R.]的支持;NIH [5U01 HG009080 至 M.A.R., 5R01 EB 001988-21 至 T.H., 和 5R01 EB001988-16 至 R.T];美国国家科学基金会 [DMS-1407548 至 T.H., 19 DMS1208164 至 R.T.];斯坦福大学医学院[到Y.T.,R.L.和M.A.R.];和船井财团信息技术[到Y.T.]。本手稿的作者获得了以下工资支持:NIH的NHGRI [R01HG010140至Y.T.和M.A.R.,R01HG008155至Y.T.];美国国立卫生研究院 [5U01 HG009080 至 M.A.R.];和国立卫生研究院国家老龄化研究所[R01AG067151至Y.T.]。内容完全由作者负责,并不一定代表资助机构的官方观点;资助者在研究设计,数据收集和分析,出版决定或手稿准备方面没有任何作用。
相互竞争的利益: 通讯作者已经阅读了该期刊的政策,本手稿的作者有以下相互竞争的兴趣:M.A.R是MazeTx的顾问,目前在HiBio休假。
介绍
多基因风险评分(PRS)是个体对性状或疾病的遗传责任的估计,已被建议用于疾病风险预测,对某些性状具有潜在的临床相关性[1,2]。由于训练数据样本量的增加以及变量选择和效应量估计方法开发的进步,PRS预测性能有所改善[3-17]。然而,目前尚不清楚当PRS模型应用于广泛的特征及其在祖先群体之间的可转移性时,PRS模型的预测性能会是什么。大规模基因分型队列中丰富的表型信息为解决这个问题提供了机会。
在这里,我们在英国生物库的813个性状中呈现了显着的稀疏PRS[18,19]。我们将最近在R snpnet包[10]中实现的批量筛选迭代套索(BASIL)算法应用于1,500多个性状,分别由二元结果和定量性状组成,包括疾病结果和生物标志物(图1,S1表)。与最近开发的大多数以全基因组关联研究(GWAS)汇总统计数据作为输入的PRS方法相反,BASIL/snpnet能够同时从个体水平的基因型和表型数据中进行变量选择和效应大小估计。BASIL/snpnet 产生稀疏的 PRS 模型,这意味着输入数据集中的大多数遗传变异的系数为零。例如,用于站立高度的snpnet PRS是多基因性状的典型例子,包括51,209个变异,其对输入遗传数据中存在的1,080,968个遗传变异和等位基因的4.7%具有非零系数。此外,这种方法不需要明确说明性状的潜在遗传结构,适用于PRS建模的现象范围应用。使用坚持测试集中的个体,我们评估了他们的预测表现和统计显著性,结果为813个显着(p<2.5 x 10?5) PRS 模型。我们发现,与定量性状和二元性状的仅协变量模型相比,模型中选择的遗传变异数量与增量预测性能之间存在显着相关性。我们使用来自英国生物银行中非英国白人、非洲人、南亚人和东亚血统的个体,评估PRS模型在祖先群体之间的可转移性。我们通过全球生物样本库引擎[20](https://biobankengine.stanford.edu/prs)上的PRS地图网络应用程序公开PRS模型的系数。
thumbnail 下载:
个人电脑幻灯片
巴新放大图片
断续器原始图像
图 1. 英国生物样本库中813个性状的显著稀疏多基因风险评分(PRSs)。
(A)我们在英国生物银行中总共分析了超过378,000个无关的个体和1,565个性状。我们使用80%的英国白人血统的个体进行评分发展。为了进行评估,我们使用了剩余的20%的个体和其他祖先群体中的其他个体。(B)具有预测性能的1,565个性状的完整列表显示为全球生物样本库引擎(https://biobankengine.stanford.edu/prs)的可排序表格。(C)将PRS模型对数量性状的预测性能总结为热图,比较预测风险评分(Z评分)和观察到的性状值(左)以及按百分位条柱分层的性状值的均值和标准误差(右图)。(D)PRS模型对二元性状的预测性能总结为按病例/对照状态分层的PRS评分分布(左)和按百分位条柱分层的比值比(右)。(E) 显示稀疏PRS模型的非零系数。(F)训练和测试集中的预测表现评估包括英国白人血统的个体,以及由英国生物库中来自非英国白人,非洲,南亚和东亚血统群体的个体组成的其他组。
https://doi.org/10.1371/journal.pgen.1010105.g001
结果
使用 BASIL 算法表征稀疏 PRS 模型
为了在广泛的表型中建立稀疏的PRS,我们在英国生物库中共汇编了1,565个性状。我们将它们分为性状类别,例如疾病结果,人体测量测量和癌症表型(S1表,方法)。我们总共分析了来自直接基因分型变异[19],估算的HLA等位基因型[21]和拷贝数变异[22]的1,080,968个遗传变异和等位基因型。使用80%(n = 269,704)的英国白人血统的无关个体,我们应用了在R snpnet包中实现的批量筛选迭代套索(BASIL)[10]。这种最近开发的方法通过同时执行变量选择和效应大小估计来表征PRS模型。在带有惩罚因子的Lasso回归中应用不同级别的惩罚,我们在PRS模型中优先考虑了医学相关的等位基因。具体来说,我们在ClinVar数据库中使用了基因分型变异的预测后果和致病性信息。我们通过分配较低的惩罚因子(方法),优先考虑蛋白质截断变异,蛋白质改变变异,估算的HLA化位素型以及已知的致病性和可能致病性变异。作为无节位的协变量,我们包括年龄,性别和基因型前十个主要成分(PC)的负载。对于35种血液和尿液生物标志物性状,我们从最近发表的一项研究[23]中获取了snpnet PRS模型,其中PRS模型在调整了广泛的技术协变量列表(包括禁食时间和稀释因子)以及年龄后,在同一组个体上用相同的方法进行了表征, 性别和基因型 PC。
评估预测性能 (R2对于定量性状和观测尺度纳格尔克的伪R2[也称为Cragg和Uhler的伪R2] [24,25]对于二元性状)及其统计意义,我们专注于坚持测试集中剩余的20%的不相关个体(n = 67,425)以及英国生物库中以下祖先组中的其他不相关个体集:非英国欧洲人(非英国白人,n = 24,905),非洲人(n = 6,497),南亚人(n = 7,831)和东亚人(n = 1,704)(S2表, 方法)。我们找到 813 个 PRS 模型,其显著 (p < 2.5 x 10?5= 0.05/2,000,针对 Bonferroni 方法的多个假设检验进行了调整)在白人英国个体的坚持测试集中的预测性能(方法)。对于二元性状,我们还评估了曲线下的接收器工作特征面积[ROC-AUC]和Tjur的判别系数(Tjur的伪R2) [[见26]。
英国生物样本库的参与者在两个不同的阵列上进行基因分型:约10%的受试者在英国BiLEVE公理阵列上进行基因分型,而其余的则在英国生物银行公理阵列上进行基因分型[19]。为了考虑与阵列类型相关的潜在偏差,我们通过考虑阵列类型以及年龄,性别和前十名基因型PC来评估PRS的预测性能。我们发现英国生物样本库评估中心的身份大多对预测性能有不显著的影响(S1图,方法)。
为了评估医学相关等位基因的优先级,我们选择了站立身高,体重指数(BMI),高胆固醇和哮喘。我们比较了每个功能类别的预测性能和遗传变异数量。对于四个选定的特征,我们发现预测性能略有不同(R2= 0.177 vs. 0.176 对于 PRS 模型,具有惩罚因子和无惩罚因子,对于站立高度,R2= 0.111 vs. BMI为0.111,高胆固醇的AUC = 0.620 vs. 0.619,哮喘为0.617 vs. 0.617)(S2图),而我们在PRS模型中看到具有非零系数的医学相关等位基因的数量丰富,并具有优先级(2.14倍富集站立高度,BMI为2.75倍,高胆固醇为4.14倍, 和4.33倍哮喘)(表1和S3表),突出了BASIL/snpnet在根据变体级别信息分配不同惩罚水平方面的灵活性。
thumbnail 下载:
个人电脑幻灯片
巴新放大图片
断续器原始图像
表 1. 医学上相关的等位基因与惩罚因素的优先级。
显示所选四个性状的遗传变异或具有非零系数值的化位基因型的数量。分母表示模型中包含的变量总数。分子表示医学上相关的等位基因的数量,它们是以下等位基因之一:蛋白质截断变体,蛋白质改变变体,插补的HLA等位基因,ClinVar数据库中的致病或可能致病变体。还显示了医学相关变异的丰富性。
https://doi.org/10.1371/journal.pgen.1010105.t001
使用相同的四个特征集,我们询问包括归因的遗传变异是否可以提高预测性能。我们看到三个特征的预测性能有所提高,但站立高度没有(S3图)。基于这些结果,我们决定继续在R snpnet包中实现的BASIL算法在直接基因分型变异,插补等位基因型和拷贝数变异上实现的现象范围应用,同时优先考虑具有惩罚因子的医学相关等位基因。
稀疏 PRS 模型的重要性和估计效应量
我们通过在全基因组关联研究(GWAS)汇总统计数据上应用连锁不平衡(LD)评分回归(LDSC)[27]来估计基于SNP的遗传力。我们将其与预测性能(R2定量性状和纳格尔克的伪R2对于重要 PRS 模型的二元性状)(图 2)。在具有重要PRS模型的244个二元性状和569个定量性状中,我们发现观察到的定量性状的估计尺度遗传性更高。总体而言,我们发现估计的基于SNP的观察到的尺度遗传性与预测性能之间存在显着相关性(Spearman的秩相关系数?= 0.44,p值= 3.5 x 10–13对于二元性状,? = 0.46,p 值 = 1.4 x 10–31对于数量性状)。
thumbnail 下载:
个人电脑幻灯片
巴新放大图片
断续器原始图像
图 2. 比较具有显著PRS的813个性状的估计基于SNP的遗传力和预测性能。
预测性能(Nagelkerke's pseudo-R2对于 244 个二元性状 [左] 和 R2对于仅考虑遗传变异的PRS模型的569个数量性状[右]),将它与估计的基于SNP的遗传力进行比较。这两个指标都以观察量表显示,并取决于目标和发现队列中病例的比例。灰色实线表示 y = x。我们在插图中显示左下角的点。误差线表示标准误差。BMD:骨矿物质密度。
https://doi.org/10.1371/journal.pgen.1010105.g002
仅基本协变量就已经为表型预测提供了信息。为了评估 PRS 的增量效用,我们通过比较同时考虑基因型和协变量的完整模型的预测性能,以及具有显著稀疏 PRS 的 813 个性状中仅协变量模型的预测性能,量化了增量预测性能。我们发现大多数性状的预测效应大小都有适度增加,但有一些明显的例外,例如乳糜泻(Nagelkerke的伪R2= 0.149(完整模型)与 0.006(仅协变量模型),p = 3.8 x 10?162),头发颜色(红色)(Nagelkerke's pseudo-R2= 0.603 vs. 0.008,p < 1 x 10?300),平均血小板体积(R2= 0.36 vs. 0.001,p < 1 x 10?300),脚跟骨矿物质密度(R2= 0.20 vs. 0.06,p < 1 x 10?300),以及血液和尿液生物标志物性状[23](图3和4)。
thumbnail 下载:
个人电脑幻灯片
巴新放大图片
断续器原始图像
图 3. PRS模型在813个特征中的增量预测性能,在坚持测试集具有显着的预测性能,具有英国白人血统的个体。
预测性能(Nagelkerke's pseudo-R2对于 244 个二元性状 [左] 和 R2对于同时考虑基因型和协变量的完整模型的569个定量性状[右]),将其与仅协变量模型的差异(增量预测性能)显示为直方图。
https://doi.org/10.1371/journal.pgen.1010105.g003
thumbnail 下载:
个人电脑幻灯片
巴新放大图片
断续器原始图像
图 4. 稀疏PRS模型及其对乳糜泻的预测性能。
(A、B)乳糜泻PRS的预测性能。(一)乳糜泻PRS分布(y轴)在坚持试验集中按病症病例状态(x轴)分层。虚线表示平均值,分位数显示为箱形图。(B)疾病患病率比值比值与PRS百分位数条柱分层的中(第40-60百分位)PRS评分个体的比较。误差线表示标准误差 (SE)。(三)乳糜泻PRS模型的系数。显示了每个遗传变异(x轴)的估计效应大小(y轴)。基因符号在图中注释,用于编码具有大效应大小估计值的变异和HLA等位基因型。
https://doi.org/10.1371/journal.pgen.1010105.g004
稀疏 PRS 模型提供了对多基因风险潜在基因组位点的解释
乳糜泻是一种自身免疫性疾病,因食用麸质而影响小肠。例如,该性状的稀疏PRS模型由428个变异组成,这些变异体包含6号染色体中MHC区域附近插补的HLA等位基因型和变异[19,21]。PRS模型还包含所有其他常染色体中的遗传变异,包括SH2B3中12号染色体中先前隐含的错义变异(rs3184504,多变量PRS模型中的log(OR)= 0.15)。该基因编码SH2B适配器蛋白3,其参与细胞信号传导,造血和细胞因子受体[28](图4)。
PRS 模型的大小与增量预测绩效相关
重要的 PRS 模型具有模型中选择的变量数量范围很广,从只有一个用于虹膜炎 PRS 的变量(HLA 等位基因型,HLA-B*27:05,在成熟的 HLA-B*27 位点 [29,30])到为站立高度 PRS 选择的 51,209 个变体(图 5)。我们研究了显著 PRS 模型中的活动变量数量与增量预测绩效之间是否存在关系。两个量之间的显著相关性在定量上更强(斯皮尔曼秩相关系数 ? = 0.61,p = 2.2 x 10?59) 与二进制 (? = 0.21, p = 9.6 x 10) 相比的特征?4),反映了二元性状和数量性状之间的功率差异[31]。
thumbnail 下载:
个人电脑幻灯片
巴新放大图片
断续器原始图像
图 5. 稀疏 PRS 的效应大小和模型大小的比较。
模型中包含的遗传变异数量(模型大小,x轴)和增量预测性能(模型的效应大小,y轴)显示244个二元性状(左)和569个定量性状(右)。TTE:事件发生时间表型。
https://doi.org/10.1371/journal.pgen.1010105.g005
稀疏 PRS 模型在祖先群体之间的可转移性有限
虽然英国生物银行的大多数参与者都是欧洲血统,但将非洲和亚洲血统的个人包括在内,可以评估英国生物银行中跨祖先群体的PRS模型的可转移性。除了我们从英国白人群体中得出的坚持测试集外,我们还关注来自非英国欧洲(非英国白人),非洲,南亚和东亚血统群体的其他个体集,并将增量预测性能与白人英国坚持测试集进行比较(图6)。对于定量特征,模型对非英国白人的预测良好(增量预测性能的线性回归拟合:y = 0.91x),但对于非欧洲血统群体,它们的可转移性有限(分别为y = 0.56x,y = 0.47x,南亚,东亚和非洲分别为y = 0.13x)。同样,在二元性状中,非英国白人表现出比非欧洲血统群体更高的可转移性(y = 0.80 x)(分别为y = 0.027x,y = 0.059x,南亚,东亚和非洲为y = -0.145x)。
thumbnail 下载:
个人电脑幻灯片
巴新放大图片
断续器原始图像
图 6. 英国生物银行跨祖先群体的PRS模型的可转移性评估。
增量预测性能(Nagelkerke's pseudo-R2对于 244 个二元性状(A、B)和增量 R2对于569个数量性状(C,D))在英国生物库中不同祖先群体的个体中进行定量定量,并与从白人英国祖先组中的个体构建的坚持测试集进行比较。(A,C)目标组(x轴,用颜色双重编码)和来源的英国白人队列之间的增量预测性能的差异。中位数显示为黑色水平条和数字。(B、D)增量预测性能在目标组(颜色)和测试集的比较。为每个具有虚线的祖先组显示线性回归拟合。还显示了回归线的斜率。
https://doi.org/10.1371/journal.pgen.1010105.g006
讨论
在这项研究中,我们对1,500多个性状的多基因预测进行了系统扫描,并报告了813个显着的稀疏PRS模型。我们发现,重要PRS模型的预测性能与基于SNP的遗传力估计之间存在相关性。我们通过量化增量预测性能来评估 PRS 模型的效应大小,我们将其定义为仅协变量模型与由协变量和遗传学组成的完整模型之间预测性能的差异。在定量和二元性状中,我们发现模型中包含的独立位点的数量与其增量预测性能之间存在显着相关性。
我们的研究是对许多其他研究的补充,这些研究侧重于较少的特征,以从GWAS荟萃分析和混合模型中构建PRS模型。虽然我们研究中的样本量足够大,可以观察到数百种性状的预测性能的统计显著性,但这并不一定意味着PRS模型的临床相关性。此外,英国生物银行基于人群的招聘可能不是实现某些特征的最高预测绩效的最佳策略。以疾病为重点的研究[6,32-34]将是一种有吸引力的替代策略,特别是当为同一疾病招募的多个基因型队列可用或感兴趣的疾病具有低人群患病率时。相反,我们的研究侧重于PRS在单个队列中数百个性状中的现象级应用,方法是在R snpnet包中应用具有现成的实现的BASIL算法[10],这不需要对各种性状中的潜在遗传结构进行显式建模。
对于二元性状,我们使用观察到的规模伪R2并观察到基于SNP的遗传力估计量表,因为本研究中仅考虑了二元性状的子集,因此群体患病率可用。改用负债比额表估计数将进一步提高比较的有效性[35],并有助于今后的调查。
与其他在PRS训练中考虑来自一个来源群体的数据集的PRS方法一样,我们在英国白人个体水平数据上训练的稀疏模型显示,不同祖先群体的可转移性有限[36-38]。英国生物样本库中非欧洲血统群体的样本量小于欧洲血统群体的样本量。一般而言,这将导致预测性绩效评估中存在更大的不确定性。尽管如此,当我们通过比较由遗传数据和基本协变量以及仅协变量模型组成的完整模型来评估跨祖先群体的增量预测性能时,我们发现与定量性状(包括生物标志物,血液测量和人体测量性状)相比,包括疾病结果在内的二元性状具有较低的可转移性。二元性状和定量性状之间的功率差异[31],某些性状的功率限制,特别是对于病例数有限的二元性状,以及遗传性的差异可能是观察到的差异的促成因素。PRS模型在祖先群体和混合个体之间具有高可转移性的改进对未来的研究是有意义的。
鉴于医学相关性[39-51],我们优先考虑了ClinVar中报告的致病性和可能致病性变异[52]以及预测的蛋白质截断和蛋白质改变变异(方法)。我们专注于四个特征的分析表明,优先考虑医学相关的等位基因并不一定能提高预测性能。虽然我们的稀疏PRS模型显示所选医学相关等位基因的数量丰富,但不能保证稀疏PRS模型中包含的遗传变异是因果关系。它保证了对每个位点进行进一步的后续分析,包括统计精细映射和详细的功能表征。
PRS模型在多个性状中的可用性增加[17]显示出广泛的应用,包括改进疾病的遗传风险预测[23,53]以及识别复杂性状之间的因果关系[54]。我们在全球生物样本库引擎(https://biobankengine.stanford.edu/prs)以及PGS目录[17]上提供了结果,并设想该资源将成为理解复杂性状多基因基础的重要基础。
方法
道德声明
这项研究是使用英国生物银行资源进行的,申请号为24983,"从基因组和医院连锁数据中生成有效的治疗假设"(http://www.ukbiobank.ac.uk/wp-content/uploads/2017/06/24983-Dr-Manuel-Rivas.pdf)。根据44532号议定书中提供的信息,斯坦福大学IRB确定该研究不涉及45 CFR 46.102(f)或21 CFR 50.3(g)中定义的人类受试者。英国生物银行的所有参与者都提供了书面知情同意书(更多信息可在 https://www.ukbiobank.ac.uk/2018/02/gdpr/)。
研究人口和遗传数据
英国生物样本库是一项基于人群的队列研究,从英国各地的多个地点收集[18]。为了最大限度地减少数据集中由于种群结构引起的变异性,我们根据英国生物银行在样本QC文件"ukb_sqc_v2.txt"中报告的以下四个标准[46,55]将分析限制为无关的个体:(1)用于计算主成分("used_in_pca_calculation"列);(2)未因杂合性和缺失率而标记为异常值("het_missing_outliers"列);( 3 )不显示推定的性染色体非整倍性( putative _ _ chromo - some _ aneuploidy 栏) ;(4)最多有十个推定的三级亲属("excess_relatives"栏)。
使用基因型主成分(PC),自我报告的祖先(英国生物样本库字段ID 21000,https://biobank.ndph.ox.ac.uk/ukb/field.cgi?id=21000)和来自英国生物银行的样本QC文件中的"in_white_British_ancestry_subset"列的组合,我们随后将重点放在自我识别的英国白人(n = 337,129),自我识别的非英国白人(n = 24,905),非洲人(n = 6,497),南亚人(n = 7,831)和东亚人(n = 1,704)祖先的人,如其他地方所述 简而言之,我们使用了一个两步过程来定义五组。我们首先使用个体的基因型主成分负载,并在组件1和组件2上设置阈值如下:(1)自我识别的英国白人:-20≤PC1≤40和-25≤PC2≤10和in_white_British_ancestry_subset= = 1;(2)自认非英国白人:-20≤PC1≤40,-25≤PC2≤10,有自我报告的白人血统,不认为自己是白人英国人;(3)非洲人:260≤PC1,50≤PC2,并且不表明自己是以下任何一种:亚洲人,白人,混合或其他人口群体;(4)南亚人:40≤PC1≤120人,-170人≤PC2≤-80人,并且不认为自己是以下任何一种:黑人,白人,混合或其他人群;和(5)东亚人:130≤PC1≤170,PC2≤-230,并且不表明自己是以下任何一个:黑人,白人,混合或其他人群。为了通过删除异常值来完善总体定义,我们使用近似LD独立(R2<0.5)主要组织相容性复合体区域以外的常见(群体特异性次要等位基因频率>5%)双等位基因变异[23]。我们应用了以下阈值[23]:(1)南亚:-0.02≤人群特异性PC1≤0.03,-0.05≤人群特异性PC2≤0.02;(2) 东亚:-0.01 ≤人群特异性 PC1 ≤ 0.02,-0.02 ≤人群特异性 PC2 ≤ 0。
我们将英国白人队列随机分为70%训练(n = 235,991),10%验证(以选择最佳稀疏水平)(n = 33,713)和20%测试(n = 67,425)组[23,56]。我们对所有测试的特征使用相同的训练、验证和测试集。非英国白人、非洲人、南亚人和东亚人的样本仅用作测试集。
变体质量控制和变体注释
我们使用基因型数据集(直接基因分型变异和插补HLA等位基因型数据集的发布版本2)[19],CNV数据集[22]和hg19人类基因组参考作为研究中的主要PRS分析。此外,我们还考虑了插补变体(发布版本 3),以调查插补变体是否会提高预测性能。我们使用 Ensembl 的 Variant Effect Predictor (VEP) (version 101) [57,58] 和 LOFTEE 插件 (https://github.com/konradjk/loftee) [49] 对直接基因分型的变体进行了注释,为此我们创建了一个 Docker 容器映像 (https://github.com/yk-tanigawa/docker-ensembl-vep-loftee)。使用ClinVar(版本20200914)[28],我们注释了"致病性"和"可能致病性"变体。
我们进行了变体质量控制,如其他地方所述[23,46,55]。简而言之,我们专注于通过以下标准的变体:(1)在主要组织相容性复合物(MHC)区域之外(hg19 chr6:25477797-36448354);(2)考虑到两个基因分型阵列(英国BiLEVE公理阵列和英国生物库公理阵列)覆盖了一组略有不同的变体[19],变体的缺失率小于1%;(3)次要等位基因频率大于0.01%;(4)哈代-温伯格不平衡检验p值小于1.0x10-7;(5)如前所述,通过与gnomaD数据集(版本2.0.1)的次要等位基因频率比较;(6)我们手动研究了一个变异子集的簇图,并删除了11个具有不可靠基因型调用的变异[46]。
我们将VEP预测的变异结果分为六组:蛋白质截断变异(PTV),蛋白质改变变异(PAV),近端编码变异(PCV),内含子变异(内含子),未翻译区域的变异(内含子)和其他变异(其他)。VEP预测结果的分组规则总结在(S4表)中。
我们纳入了插补拷贝数变异型(CNV)[22]和归因HLA等位基因[21]。使用PennCNV(v.1.0.4)[59]对来自每个基因分型阵列的原始信号强度数据调用CNV,如其他地方所述[22]。由于没有确定CNV的精确位置,因此我们没有通过变体注释推断CNV的功能后果。HLA-A、-B、-C、-DPA1、-DPB1、-DQA1、-DQB1、-DRB1、-DRB3、-DRB4 和 -DRB5 位点的 HLA 等位型使用 HLA*IMP:02 进行估算,估算剂量文件由英国生物银行提供。我们纳入了所有11个位点的156个等位基因,这些位点在英国白人中的频率为0.1%或更高。当等位基因剂量在0,1或2的正负0.1范围内时,我们将等位基因剂量四舍五入。我们排除了剩余的非零条目。我们还排除了舍入后错误的总等位基因计数[21]。
在评估纳入插补变异是否会提高PRS模型的预测性能时,我们根据以下标准重点关注了5,931,362个插补变异[19]:(1)插补INFO评分大于0.7,(2)在整个~50万基因分型样本中计算的次要等位基因频率(UK Biobank Resource 1967,https://biobank.ctsu.ox.ac.uk/crystal/refer.cgi?id=1967)大于0.01,(3)双等位基因变异,(4)变异在直接基因分型变异中不存在,(5)缺失率小于1%。随后,我们将插补变异数据集与直接基因分型变异、插补HLA同种异型和拷贝数变异相结合。
英国生物样本库中的表型定义
我们分析了英国生物样本库中的各种特征,包括疾病结局[46,60]、家族史[46,60]、癌症登记数据[46]、血液和尿液生物标志物[23]、血液学测量以及其他二元和定量表型[55,56]。在英国生物银行评估中心收集的一些表型信息包含多达四个实例,每个实例对应于(1)初始评估访问(2006-2010),(2)第一次重复评估访问(2012-2013)和(3)成像访问(2014-)和(4)第一次重复成像访问(2019-)。简而言之,对于二元性状,我们手动管理表型定义,如果参与者在至少一次访问中被归类为病例,则分配"案例"状态,否则则"控制"。对于数量性状,我们取了非NA值的中位数,如其他地方所述[55]。
此前,我们分析了血液和尿液生物标志物性状,研究了协变量对生物标志物水平的影响,并得出协变量调整后的生物标志物值[23]。简而言之,我们使用线性回归模型来解释对来自UK Biobank的对数变换测量值的协变量效应,并根据基因型,年龄,性别,年龄(按性别相互作用),自我识别的祖先组,按性别相互作用自我识别的祖先组,禁食时间,估计的样本稀释因子,评估中心指标,基因分型批次指标的主成分负载进行调整, 白天的采样时间,评估月份和测定日期。我们使用针对协变量调整性状训练的PRS模型[23]。为了量化仅协变量模型的增量预测性能,我们根据原始测量值量化了预测性能,除了eGFR,AST / ALT比率和非白蛋白,其中我们使用协变量调整的性状值。这三种性状来自协变量调整的生物标志物[23],并且没有原始测量值。
本研究中分析的1,565个性状列表,其中至少有100个病例(对于二元性状)或非NA测量(对于定量性状),列在(S1表)中。
构建稀疏 PRS 模型
使用在 R snpnet 包 [10] 中实现的批量筛选迭代套索 (BASIL) 算法,我们为 1,565 个性状构建了稀疏 PRS 模型。我们使用了高斯族和 R 族2定量性状的度量,而我们使用二项式族和AUC-ROC度量来表示二元性状[10]。对于每个特征,我们在训练集上拟合了一系列具有不同程度稀疏性的回归模型,由70%(n = 235,991)的英国白人血统的无关个体组成。每个模型的预测性能在验证集上进行评估,该验证集由10%(n = 33,713)的英国白人血统的无关个体组成,以指导选择可选的稀疏水平。我们选择了在验证集中最大化预测性能的稀疏性。随后,我们使用组合训练和验证集个体(n = 269,704)中的个体(我们将其表示为分数开发集)来重新拟合惩罚回归模型,以最大化回归模型中的功效[10]。我们在本研究中分析的所有 PRS 模型中使用相同的训练、验证和测试集拆分。
与许多在GWAS汇总统计[3-9,13-15]上运行的PRS方法相反,我们的方法采用个体水平的基因型和表型数据。使用 L1惩罚回归(也称为套索),BASIL同时执行所选变体的变量选择和效应大小估计。我们将年龄,性别和为英国白人个体计算的前十大人群特异性基因型PC负荷[23]作为未减少的协变量。感谢L1在惩罚非零回归系数的特征数量的目标函数中,惩罚项将得到的模型将是稀疏的,这意味着它们的遗传变异将比未减少的模型少[10]。
为了在链接中优先考虑编码变异而不是非编码变异,我们分配了三个级别的惩罚因子(也称为惩罚缩放参数)[61]:ClinVar中致病变异的0.5 [52]或根据基于VEP的变异注释[58]的蛋白质截断变异;0.75 对于 ClinVar 中可能的致病变异、VEP 预测的蛋白质改变变异或推测的化位基因;和 1.0 表示所有其他变体。处罚因素的分配规则总结在(S5表)中。惩罚因子值较低的变体在 L 中优先排序1惩罚性回归。为了评估医学相关等位基因的优先级及其对预测性能的影响,我们专注于四个特征(站立身高,BMI,高胆固醇和哮喘),并拟合一个单独的模型,没有惩罚因素。我们比较了所选变体的数量和预测性能。
PRS 模型的预测性能和可转移性
我们评估了预测性能(R2定量性状和纳格尔克的伪R2[也称为Cragg和Uhler的伪R2] [24,25]对于PRS模型的二元性状(S6表)。对于二元性状,我们还评估了曲线下的接收器工作特征面积[ROC-AUC]和Tjur的判别系数(Tjur的伪R2) [[26]. 对于 R2和ROC-AUC,我们使用R的近似标准误差评估了预测性能的95%置信区间2 [62,63]和德龙法[64]。我们使用了英国白人血统的坚持测试集(n = 67,425)中的个体,以及非英国白人(n = 24,905),非洲(n = 6,497),南亚(n = 7,831)和东亚(n = 1,704)祖先组中的其他个体。我们评估了(1)仅基因型模型,(2)仅协变量模型和(3)考虑协变量和基因型的完整模型的预测性能。我们计算了完整模型和仅协变量模型之间的差异,得出增量预测性能。
为了评估英国白人血统的坚持测试集中仅协变量模型的预测性能,我们使用分数开发集中的个体拟合广义回归模型,特征~年龄+性别+阵列+基因型PC。随后,我们根据坚持测试集中个体的协变量项计算了风险评分。该数组是指示变量,表示基因分型数组(英国 BiLEVE 公理阵列或英国生物库公理阵列)的类型。对于非英国白人、非洲人、南亚人和东亚人祖先群体中的个体,我们选取了为每组[23]计算的祖先群体特定的PC,并为每个群体拟合相同的回归模型。我们没有对非洲人、南亚人和东亚人使用阵列指示符变量,因为这些祖先群体中的所有个体都是在英国生物银行公理阵列(S2表)上进行基因分型的。
为了评估纯基因型模型的预测性能,我们使用plink2中实现的--score命令计算了用于评估的个体组的多基因风险评分[65]。我们量化了评估指标(R2, Nagelkerke's pseudo-R2、ROC-AUC 和 Tjur 的伪 R2).
为了评估完整模型的预测性能,我们使用上述仅协变量分数和 PRS 拟合模型,特征 ~ 1 + 仅协变量分数 + PRS。常数项考虑了评分发展总体和目标群体之间性状平均值(对于数量性状)或病例流行率(对于二元性状)的潜在差异。我们研究了 PRS 项报告的 p 值,以了解 PRS 模型的统计显著性。我们使用 p < 2.5 x 10?5(= 0.05/2000,使用 Bonferroni 方法对研究中分析的特征数量进行多次假设检验进行调整)作为显著性阈值。
我们还计算了R的差异2或Nagelkerke的伪R2在完整模型和仅协变量模型之间,以派生增量预测性能。
基于SNP的遗传力估计
为了比较PRS模型与基于SNP的遗传性的增量预测性能,我们应用了PLINK的全基因组关联分析。具体来说,我们在PLINK [65] v2.00-alpha中应用了--glm命令,年龄,性别,阵列,CNV的数量,CNV的长度以及前十个基因型PC负载作为协变量。该数组是一个指示变量,表示基因分型中是否使用了英国生物银行公理阵列或英国 BiLEVE 公理阵列。如果变体直接在两个阵列上测量,我们包括了这个术语。CNV的数量和长度在别处描述[22]。基因型PC是个体的主要组成部分(PC)负载。我们使用英国白人中不相关的个体计算了特定于人群的PC,并使用了前10台PC[23]。在回归分析中,我们标准化了协变量的方差(--covar-variance-standardize选项),并对定量表型应用了分位数归一化(--pheno-quantile-normalize选项)。请注意,我们在 PRS 分析中没有执行分位数归一化。我们使用"cc-残差"和"firth-残差"选项来实现近似值[66],以有效计算GWAS p值。我们随后应用了连锁不平衡(LD)评分回归(LDSC)[27],并表征了基于SNP的遗传性(S7表)。我们比较了PRS模型和基于LDSC的遗传力估计的预测性能。
PRS模型遗传变异数量与预测性能的相关性分析
我们应用了在R中实施的Spearman相关性检验来评估PRS模型的大小(模型中包含的遗传变异数量)和效应大小(增量预测性能)之间的等级相关性。
统计学
对于计算和统计分析,我们使用Jupyter Notebook [67],R [68],R tidyverse包[69]和GNU并行[70]。除非另有说明,否则 p 值是从双侧检验计算得出的。
支持信息
评估中心项在表型预测中的统计学意义。
显示 1/10: pgen.1010105.s001.tif
跳到无花果导航
https://ndownloader.figstatic.com/files/34499557/preview/34499557/preview.jpg
1 / 10
下载
无花果
S1 图 评估中心项在表型预测中的统计学意义。
我们为研究中分析的1,565个特征中的每一个拟合了年龄,性别,基因分型阵列类型,多基因风险评分和评估中心的回归模型。统计显著性 (-log) 的频率10(P)))的评估中心变量显示。累积频率显示在右侧的次轴上。Bonferroni校正后的统计显著性显示为红色垂直线。
https://doi.org/10.1371/journal.pgen.1010105.s001
(TIF)
S2 图 优先考虑具有惩罚因子的医学相关等位基因对snpnet PRS模型预测性能的影响。
预测性能(二元性状和 R 的 AUC2对于定量性状)在英国生物库中跨坚持测试集评估不同祖先群体的个体,显示四种性状。误差线表示 95% 置信区间。
https://doi.org/10.1371/journal.pgen.1010105.s002
(TIF)
S3 图 推导遗传变异对snpnet PRS模型预测性能的影响.
预测性能(二元性状和 R 的 AUC2对于定量性状)在英国生物库中跨坚持测试集评估不同祖先群体的个体,显示四种性状。误差线表示 95% 置信区间。
https://doi.org/10.1371/journal.pgen.1010105.s003
(TIF)
S1 表。 研究中分析的性状列表以及相应PRS模型的预测性能。
对于研究中分析的1,565个性状,显示了以下信息:性状类别,全球生物库引擎(GBE ID)中的表型ID,性状名称,广义线性模型中的链接函数类型(高斯用于定量性状,二项式性状)的预测性能,仅基因型模型的预测性能,仅协变量模型,考虑基因型和协变量的完整模型, 除了增量预测性能(Delta[Full,仅协变量]),PRS模型中包含的遗传变异数量外,保留测试集中增量预测性能的统计显着性由英国生物库中白人英国个体的子集组成,p值在多重假设校正后是否显着(p<2.5 x 10?5),多基因评分(PGS)目录中的评分ID,PGS目录中映射性状的实验因子本体术语ID,以及PGS目录中映射性状的标签。
https://doi.org/10.1371/journal.pgen.1010105.s004
(XLSX)
S2 表。 队列特征。
对于英国生物库中的每个祖先群体,个体数量(n),年龄(平均和标准偏差[sd]),性别(男性个体的百分比),在英国生物库公理阵列上基因分型的个体比例。70%的训练集,10%的验证集和20%的测试集显示了英国白人血统组的统计数据。
https://doi.org/10.1371/journal.pgen.1010105.s005
(XLSX)
S3 表。 具有非零 BETA 的变体数量显示在四个特征中。
对于每种性状,我们比较了两种模型:没有和有惩罚因素,以优先考虑医学上相关的等位基因。
https://doi.org/10.1371/journal.pgen.1010105.s006
(XLSX)
S4 表。 变体结果分组。
我们将Ensembl的变异效应预测因子(VEP)预测遗传变异的结果分为六组(后果组):蛋白质截断变异(PTV),蛋白质改变变异(PAV),蛋白质编码变异(PCV),内含子变异(Intronic),未翻译区域的变异(UTR)和其他非编码变异(其他)。显示了序列本体 (SO) 术语的链接,该术语详细说明了每个预测结果的定义。
https://doi.org/10.1371/journal.pgen.1010105.s007
(XLSX)
S5 表。 处罚因子分配规则。
我们使用VEP预测的后果和ClinVar注释,通过分配较低的惩罚因子值来优先考虑蛋白质截断,蛋白质改变和(可能)致病性变异。显示了惩罚因子和按遗传变异(基因型或化位型)分层的变异数量,预测结果和ClinVar注释。
https://doi.org/10.1371/journal.pgen.1010105.s008
(XLSX)
S6 表。 PRS 模型的预测性能。
对于每个性状(性状类别,GBE_ID和性状名称),我们在广义线性模型中显示链接函数的类型(GLM族列,高斯用于定量性状,二项式表示二项性状),总体分裂(总体),预测模型的类型(模型列),评估指标的类型(R2[R2],Nagelkerke的伪R2[NagelkerkeR2]、AUROC [AUC] 或 Tjur 判别系数 [TjurR2])、指定度量的值及其 95% 置信区间的下限和上限,以及统计显著性(p 值)。
https://doi.org/10.1371/journal.pgen.1010105.s009
(XLSX)
S7 表。 估计的基于 SNP 的遗传性。
对于具有显著 PRS 模型(性状、trait_name和trait_category)的每个性状,我们在广义线性模型中显示链接函数的类型(家族列,高斯定量性状和二元性状的二项式),估计的基于 SNP 的观测尺度遗传性,标准误差(h2_obs和h2_obs_se),lambda GC(lambda_GC),平均卡方统计量(mean_chi2), LD 分数回归截距及其标准误差(截距和intercept_se),以及归因于 LD 分数回归截距的通货膨胀比例(由 (intercept -1)/(mean(chi-square)-1) 定义)及其标准误差(比率和ratio_se)。
https://doi.org/10.1371/journal.pgen.1010105.s010
(XLSX)
确认
该项目的一些计算是在夏洛克集群上执行的。我们要感谢斯坦福大学和斯坦福研究计算中心为这些研究结果提供计算资源和支持。内容完全由作者负责,并不一定代表资助机构的官方观点;资助者在研究设计,数据收集和分析,出版决定或手稿准备方面没有任何作用。
引用
1.Lewis CM,Vassos E.多基因风险评分:从研究工具到临床仪器。基因组医学. 2020;12: 44.pmid:32423490
查看文章PubMed/NCBI谷歌学术搜索
2.Wray NR, Lin T, Austin J, McGrath JJ, Hickie IB, Murray GK, et al.从基础科学到多基因风险评分的临床应用:入门书。JAMA Psychiatry.2021;78: 101–109.下午:32997097
查看文章PubMed/NCBI谷歌学术搜索
3.Vilhjálmsson BJ, Yang J, Finucane HK, Gusev A, Lindstr?m S, Ripke S, et al. 建模连锁不平衡可提高多基因风险评分的准确性。Am J Hum Genet.2015;97: 576–592.pmid:26430803
查看文章PubMed/NCBI谷歌学术搜索
4.Mak TSH, Porsch RM, Choi SW, Zhou X, Sham PC.通过汇总统计的惩罚回归获得多基因评分。Genet Epidemiol.2017;41: 469–480.pmid:28480976
查看文章PubMed/NCBI谷歌学术搜索
5.Zhu X,Stephens M. Bayesian大规模多元回归与全基因组关联研究的汇总统计数据。Ann Appl Stat. 2017;11: 1561–1592.pmid:29399241
查看文章PubMed/NCBI谷歌学术搜索
6.Khera AV, Chaffin M, Aragam KG, Haas ME, Roselli C, Choi SH, et al.常见疾病的全基因组多基因评分可识别具有与单基因突变相当风险的个体。纳特·热内。2018;50: 1219–1224.pmid:30104762
查看文章PubMed/NCBI谷歌学术搜索
7.葛天, 陈春燕, 倪毅, 冯永华, 斯莫勒 JW.通过贝叶斯回归和连续收缩先验进行多基因预测。纳特公社。2019;10: 1776.pmid:30992449
查看文章PubMed/NCBI谷歌学术搜索
8.Choi SW,O'Reilly PF. PRSice-2:用于生物样本库规模数据的多基因风险评分软件。千兆科学。2019;8: giz082.pmid:31307061
查看文章PubMed/NCBI谷歌学术搜索
9.Lloyd-Jones LR, Zeng J, Sidorenko J, Yengo L, Moser G, Kemper KE, et al.改进了贝叶斯多元回归对汇总统计量的多基因预测.纳特公社。2019;10: 5086.pmid:31704910
查看文章PubMed/NCBI谷歌学术搜索
10.钱军, 谷川毅, 杜伟, 阿吉雷 M, 张昌, 蒂布希拉尼 R, 等.一个快速且可扩展的框架,用于大规模和超高维稀疏回归,并应用于英国生物样本库。PLoS Genet.2020;16: e1009141.pmid:33095761
查看文章PubMed/NCBI谷歌学术搜索
11.李瑞,常超,Justesen JM,谷川Y,强军,Hastie T,等.用于大规模超高维Cox模型的快速套索方法,并应用于英国生物库。生物统计学。2020;kxaa038.pmid:32989444
查看文章PubMed/NCBI谷歌学术搜索
12.Li R, Chang C, Tanigawa Y, Narasimhan B, Hastie T, Tibshirani R, et al. 人口生物库基因组测序数据的快速数值优化.生物信息学。2021;btab452.下午:34146108
查看文章PubMed/NCBI谷歌学术搜索
13.Privé F, Arbel J, Vilhjálmsson BJ.LDpred2:更好,更快,更强。生物信息学。2020;36: 5424–5431.pmid:33326037
查看文章PubMed/NCBI谷歌学术搜索
14.Choi SW, Mak TS-H, O'Reilly PF. 教程:执行多基因风险评分分析的指南。Nat Protoc.2020;15: 2759–2772.pmid:32709988
查看文章PubMed/NCBI谷歌学术搜索
15.Ojavee SE, Kousathanas A, Trejo Banos D, Orliac EJ, Patxot M, L?ll K, et al.通过贝叶斯全基因组分析对被删失事件时间表型的基因组结构和预测。纳特公社。2021;12: 2337.pmid:33879782
查看文章PubMed/NCBI谷歌学术搜索
16.Wand H, Lambert SA, Tamburro C, Iacocca MA, O'Sullivan JW, Sillari C, et al.改进风险预测研究中多基因评分的报告标准。自然界。2021;591: 211–219.pmid:33692554
查看文章PubMed/NCBI谷歌学术搜索
17.Lambert SA, Gil L, Jupp S, Ritchie SC, Xu Y, Buniello A, et al.多基因评分目录作为可重复性和系统评估的开放数据库。纳特·热内。2021;53: 420–425.pmid:33692568
查看文章PubMed/NCBI谷歌学术搜索
18.Sudlow C, Gallacher J, Allen N, Beral V, Burton P, Danesh J, et al. UK biobank: 一种开放获取资源,用于识别各种中老年复杂疾病的原因。PLoS Med. 2015;12: e1001779.pmid:25826379
查看文章PubMed/NCBI谷歌学术搜索
19.Bycroft C, Freeman C, Petkova D, Band G, Elliott LT, Sharp K, et al.英国生物样本库资源,具有深厚的表型和基因组数据。自然界。2018;562: 203–209.pmid:30305743
查看文章PubMed/NCBI谷歌学术搜索
20.McInnes G, Tanigawa Y, DeBoever C, Lavertu A, Olivieri JE, Aguirre M, et al. Global Biobank Engine: 支持基因型表型浏览生物样本库汇总统计数据。生物信息学。2018;35: 2495–2497.pmid:30520965
查看文章PubMed/NCBI谷歌学术搜索
21.Venkataraman GR, Olivieri JE, DeBoever C, Tanigawa Y, Justesen JM, Dilthey A, et al.HLA区域内普遍存在的添加剂和非添加剂效应导致英国生物银行的疾病风险。生物Rxiv.2020. p. 2020.05.28.119669.
查看文章谷歌学术搜索
22.Aguirre M,Rivas MA,英国生物库中牧师J. Phenome-number变异的负担。Am J Hum Genet.2019;105: 373–383.下午:31353025
查看文章PubMed/NCBI谷歌学术搜索
23.Sinnott-Armstrong N, Tanigawa Y, Amar D, Mars N, Benner C, Aguirre M, et al.英国生物库中35种血液和尿液生物标志物的遗传学。纳特·热内。2021;53: 185–194.pmid:33462484
查看文章PubMed/NCBI谷歌学术搜索
24.Cragg JG, Uhler RS.对汽车的需求。1970;3: 386–406.
查看文章谷歌学术搜索
25.Nagelkerke NJD.关于决定系数的一般定义的说明。生物力学。1991;78: 691–692.
查看文章谷歌学术搜索
26.Tjur T. 逻辑回归模型中的决定系数——新提案:判别系数。Am Stat. 2009;63: 366–372.
查看文章谷歌学术搜索
27.Finucane HK, Bulik-Sullivan B, Gusev A, Trynka G, Reshef Y, Loh P-R, et al.使用全基因组关联汇总统计按功能注释对遗传性进行分区。纳特·热内。2015;47: 1228–1235.pmid:26414678
查看文章PubMed/NCBI谷歌学术搜索
28.Trynka G, Hunt KA, Bockett NA, Romanos J, Mistry V, Szperl A, et al.密集基因分型可识别并定位乳糜泻中多个常见和罕见的变异关联信号。纳特·热内。2011;43: 1193–1201.下午:22057235
查看文章PubMed/NCBI谷歌学术搜索
29.Chang JH,McCluskey PJ,Wakefield D.急性前葡萄膜炎和HLA-B27。视婴。2005;50: 364–388.pmid:15967191
查看文章PubMed/NCBI谷歌学术搜索
30.齐军, 李强, 林志, 廖志, 魏璇, 曹姗, 等.在中国人群中,HLA-B*2705 强直性脊柱炎患者发生葡萄膜炎和指端炎以及发病年龄较大的风险高于 HLA-B*2704 患者。组织抗原。2013;82: 380–386.pmid:24498994
查看文章PubMed/NCBI谷歌学术搜索
31.Yang J, Wray NR, Visscher PM. 比较苹果和橙子:等同于病例对照和数量性状关联研究的力量。Genet Epidemiol.2010;34: 254–257.pmid:19918758
查看文章PubMed/NCBI谷歌学术搜索
32.Nikpay M, Goel A, Won H-H, Hall LM, Willenborg C, Kanoni S, et al.全面的1,000个基于基因组的冠状动脉疾病全基因组关联荟萃分析。纳特·热内。2015;47: 1121–1130.pmid:26343387
查看文章PubMed/NCBI谷歌学术搜索
33.井上M,亚伯拉罕G,纳尔逊CP,伍德AM,斯威丁MJ,达布里奇F等人。480,000名成年人冠状动脉疾病的基因组风险预测:对一级预防的影响。J Am Coll Cardiol.2018;72: 1883–1893.pmid:30309464
查看文章PubMed/NCBI谷歌学术搜索
34.Mars N, Koskela JT, Ripatti P, Kiiskinen TTJ, Havulinna AS, Lindbohm JV, et al.多基因和临床风险评分及其对发病年龄的影响,以及心脏代谢性疾病和常见癌症的预测。Nat Med. 2020;26: 549–557.pmid:32273609
查看文章PubMed/NCBI谷歌学术搜索
35.Lee SH, Goddard ME, Wray NR, Visscher PM.用于遗传图谱分析的更好的决定系数。Genet Epidemiol.2012;36: 214–224.pmid:22714935
查看文章PubMed/NCBI谷歌学术搜索
36.Martin AR, Gignoux CR, Walters RK, Wojcik GL, Neale BM, Gravel S, et al. 人类人口统计学历史影响不同人群的遗传风险预测。Am J Hum Genet.2017;100: 635–649.下午:28366442
查看文章PubMed/NCBI谷歌学术搜索
37.Kim MS,Patel KP,Teng AK,Berens AJ,Lachance J.遗传疾病风险可能在全球人群中被错误地估计。基因组生物学. 2018;19: 179.下午:30424772
查看文章PubMed/NCBI谷歌学术搜索
38.Martin AR, Kanai M, Kamatani Y, Okada Y, Neale BM, Daly MJ.临床使用当前的多基因风险评分可能会加剧健康差异。纳特·热内。2019;51: 584–591.pmid:30926966
查看文章PubMed/NCBI谷歌学术搜索
39.科恩 J, 佩尔岑利迪斯 A, 科托夫斯基 IK, 格雷厄姆 R, 加西亚 CK, 霍布斯 HH.非洲裔个体的低密度脂蛋白胆固醇低,这是由于 PCSK9 中频繁的无意义突变所致。纳特·热内。2005;37: 161–165.pmid:15654334
查看文章PubMed/NCBI谷歌学术搜索
40.Cohen JC, Boerwinkle E, Mosley TH Jr, Hobbs HH.PCSK9的序列变异,低LDL和冠心病的保护作用。N Engl J Med. 2006;354: 1264–1272.pmid:16554528
查看文章PubMed/NCBI谷歌学术搜索
41.Rivas MA, Beaudoin M, Gardet A, Stevens C, Sharma Y, Zhang CK, et al.GWAS位点的深度重新测序可识别与炎症性肠病相关的独立罕见变异。纳特·热内。2011;43: 1066–1073.下午:21983784
查看文章PubMed/NCBI谷歌学术搜索
42.Rivas MA, Pirinen M, Conrad DF, Lek M, Tsang EK, Karczewski KJ, et al. 人类基因组学.预测的蛋白质截断遗传变异对人类转录组的影响。科学。2015;348: 666–669.pmid:25954003
查看文章PubMed/NCBI谷歌学术搜索
43.Rivas MA, Graham D, Sulem P, Stevens C, Desch AN, Goyette P, et al.RNF186 中的一种蛋白质截断 R179X 变体可预防溃疡性结肠炎。纳特公社。2016;7: 12342.pmid:27503255
查看文章PubMed/NCBI谷歌学术搜索
44.Narasimhan VM, Hunt KA, Mason D, Baker CL, Karczewski KJ, Barnes MR, et al.与亲缘关系的成年人中罕见基因敲除的健康和群体影响。科学。2016;352: 474–477.pmid:26940866
查看文章PubMed/NCBI谷歌学术搜索
45.Saleheen D, Natarajan P, Armean IM, Zhao W, Rasheed A, Khetarpal SA, et al.在血缘关系高的队列中进行人类敲除和表型分析。自然界。2017;544: 235–239.下午:28406212
查看文章PubMed/NCBI谷歌学术搜索
46.DeBoever C, Tanigawa Y, Lindholm ME, McInnes G, Lavertu A, Ingelsson E, et al.在英国生物银行研究中,337,205名个体的蛋白质截断变异的医学相关性。纳特公社。2018;9: 1612.下午:29691392
查看文章PubMed/NCBI谷歌学术搜索
47.Emdin CA, Khera AV, Chaffin M, Klarin D, Natarajan P, Aragam K, et al.对英国生物样本库中预测的功能丧失变异的分析确定了对疾病有保护作用的变异。自然通讯。2018. pmid:29691411
查看文章PubMed/NCBI谷歌学术搜索
48.谷川 Y, 温伯格 M, 卡亚莱宁 J, 基斯金宁 T, 文卡塔拉曼 G, 莱梅拉 S, 等.ANGPTL7中罕见的蛋白质改变变体可降低眼内压并预防青光眼。PLoS Genet.2020;16: e1008682.pmid:32369491
查看文章PubMed/NCBI谷歌学术搜索
49.Karczewski KJ, Francioli LC, Tiao G, Cummings BB, Alf?ldi J, Wang Q, et al.突变约束谱从141,456人的变异中量化。自然界。2020;581: 434–443.pmid:32461654
查看文章PubMed/NCBI谷歌学术搜索
50.Lam BYH, Williamson A, Finer S, Day FR, Tadross JA, Gon?alves Soares A, et al. MC3R将营养状态与儿童生长和青春期时间联系起来。自然界。2021. 下午:34732894
查看文章PubMed/NCBI谷歌学术搜索
51.巴克曼JD, 李亚, 玛凯塔A, 孙D, 姆巴乔J, 凯斯勒医学博士, 等.对454,787名英国生物样本库参与者进行外显子组测序和分析。自然界。2021. pmid:34662886
查看文章PubMed/NCBI谷歌学术搜索
52.Landrum MJ, Lee JM, Benson M, Brown GR, Chao C, Chitipiralla S, et al.ClinVar:改善对变体解释和支持证据的获取。核酸研究 2018;46: D1062–D1067.pmid:29165669
查看文章PubMed/NCBI谷歌学术搜索
53.钟伟, 陈军, 图曼C, 林德斯特罗姆S, 朱志, 罗普瑞, 等.有效的交叉性状惩罚回归可提高使用次要表型的大型队列的预测准确性。纳特公社。2019;10: 569.pmid:30718517
查看文章PubMed/NCBI谷歌学术搜索
54.Richardson TG, Harrison S, Hemani G, Davey Smith G.多基因风险评分关联图谱图集,用于突出整个人类表型组的推定因果关系。埃利夫。2019;8: e43657.pmid:30835202
查看文章PubMed/NCBI谷歌学术搜索
55.谷川 Y, 李 J, Justesen JM, Horn H, Aguirre M, DeBoever C, et al.英国生物库中2,138种表型的遗传关联成分突出了脂肪细胞生物学。纳特公社。2019;10: 4064.pmid:31492854
查看文章PubMed/NCBI谷歌学术搜索
56.Aguirre M, Tanigawa Y, Venkataraman GR, Tibshirani R, Hastie T, Rivas MA.具有潜在性状相关遗传成分的多基因风险建模。Eur J Hum Genet.2021;29: 1071–1081.下午:33558700
查看文章PubMed/NCBI谷歌学术搜索
57.Yates AD, Achuthan P, Akanni W, Allen J, Allen J, Alvarez-Jarreta J, et al. Ensembl 2020.核酸研究 2020;48: D682–D688.pmid:31691826
查看文章PubMed/NCBI谷歌学术搜索
58.McLaren W, Gil L, Hunt SE, Riat HS, Ritchie GRS, Thormann A, et al.Ensembl 变体效应预测器。基因组生物学. 2016;17: 122.下午:27268795
查看文章PubMed/NCBI谷歌学术搜索
59.王坤, 李明, 哈德利 D, 刘荣, 格莱纳 J, 格兰特SFA, 等.PennCNV:一种集成的隐马尔可夫模型,设计用于全基因组SNP基因分型数据中的高分辨率拷贝数变异检测。基因组研究 2007;17: 1665–1674.pmid:17921354
查看文章PubMed/NCBI谷歌学术搜索
60.DeBoever C, Tanigawa Y, Aguirre M, McInnes G, Lavertu A, Rivas MA.评估数字表型以加强人类疾病的遗传研究。Am J Hum Genet.2020;106: 611–622.下午:32275883
查看文章PubMed/NCBI谷歌学术搜索
61.Friedman J, Hastie T, Tibshirani R. 通过坐标下降实现广义线性模型的正则化路径。J 统计软件。2010;33: 1–22.下午:20808728
查看文章PubMed/NCBI谷歌学术搜索
62.奥尔金一世,芬恩JD。关联还原。精神病公牛。1995;118: 155–164.
查看文章谷歌学术搜索
63.科恩J,科恩P,西SG,艾肯LS。将多元回归/相关性分析应用于行为科学。劳特利奇;2013. https://play.google.com/store/books/details?id=fAnSOgbdFXIC
64.德龙ER, 德龙DM, 克拉克-皮尔逊DL.比较两个或多个相关接收器工作特性曲线下的面积:非参数方法。生物测定学。1988;44: 837–845.pmid:3203132
查看文章PubMed/NCBI谷歌学术搜索
65.Chang CC, Chow CC, Tellier LC, Vattikuti S, Purcell SM, Lee JJ. 第二代PLINK:迎接更大、更丰富的数据集的挑战。千兆科学。2015;4: 7.pmid:25722852
查看文章PubMed/NCBI谷歌学术搜索
66.Mbatchou J, Barnard L, Backman J, Marcketta A, Kosmicki JA, Ziyatdinov A, et al.计算高效的全基因组回归,用于定量和二元性状。纳特·热内。2021;53: 1097–1103.pmid:34017140
查看文章PubMed/NCBI谷歌学术搜索
67.Kluyver T, Ragan-Kelley B, Pérez F, Granger B, Bussonnier M, Frederic J, et al. Jupyter Notebooks——一种用于可重现计算工作流程的出版格式。学术出版中的定位和权力:参与者,代理商和议程。IOS出版社;2016. 第87–90页.
68.R 核心团队。R:一种用于统计计算的语言和环境。2019. https://www.R-project.org/
69.Wickham H, Averick M, Bryan J, Chang W, McGowan L, Fran?ois R, et al.欢迎来到整洁。J 开源软件。2019;4: 1686.
查看文章谷歌学术搜索
70.Tange O. GNU Parallel 2018.2018.
查看文章谷歌学术搜索