《遗传关联数据的噪声增强定向聚类可识别肥胖背后的不同机制-厦门畜牧期刊杂志论文发表》期刊简介
遗传关联数据的噪声增强定向聚类可识别肥胖背后的不同机制-厦门畜牧期刊杂志论文发表
安德鲁·格兰特 ,迪彭德·吉尔,保罗·柯克,斯蒂芬·伯吉斯
出版日期: 2022年01月27日
抽象
根据遗传变异与不同性状的关联对遗传变异进行聚类,可以深入了解其潜在的生物学机制。现有的聚类方法通常根据其对各种特征的关联估计的相似性对变体进行分组。我们提出了一种基于变体与不同特征的比例关联对变体进行聚类的新程序,这更能反映它们相关的潜在机制。该方法基于用于定向聚类的混合模型方法,并包括一个噪声聚类,该噪声聚类为异常值提供鲁棒性。该过程在一系列模拟场景中表现良好。在应用环境中,对与体重指数相关的遗传变异进行聚类会产生反映不同生物学途径的群体。孟德尔随机化分析支持这些簇对冠心病的影响各不相同,包括一个簇代表体重指数升高,代谢状况良好,冠心病风险降低。对该集群背后的生物学途径的分析将炎症确定为可能解释体重指数增加对冠心病的影响差异。
作者简介
全基因组关联研究发现许多与性状相关的遗传变异,特别是复杂的性状,如体重指数(BMI)。然而,遗传关联数据不能告诉我们这些变异如何影响性状,或者它们是否以同样的方式影响性状。通过分析变异与其他相关特征之间的关联,可以深入了解这些问题。在一组性状中具有相似关联模式的变异可能被认为通过类似的生物学机制起作用。在这里,我们提出了一种新的统计方法,用于根据遗传变异与所选性状的关联对遗传变异进行分组,以便每个组都以独特的方式表示作用于这些性状的变异。我们将该方法应用于与BMI相关的遗传变异,然后研究每组已确定的变异对冠心病的影响。我们发现一组与较高的BMI和降低心脏病风险相关的遗传变异,这与BMI对心脏病的总体有害影响形成鲜明对比。
数字
Fig 6Fig 7Fig 1Fig 2Table 1Fig 3Fig 4Fig 5Fig 6Fig 7Fig 1Fig 2Table 1
引文: Grant AJ,Gill D,Kirk PDW,Burgess S(2022)遗传关联数据的噪声增强定向聚类确定了肥胖背后的不同机制。PLoS Genet 18(1):e1009975。https://doi.org/10.1371/journal.pgen.1009975
编辑 器: Michael P. Epstein,埃默里大学,美国
收到: 五月 24, 2021;接受: 十二月 1, 2021;发表: 一月 27, 2022
版权所有: ? 2022 格兰特等人。这是一篇根据知识共享署名许可条款分发的开放获取文章,该许可允许在任何媒体上不受限制地使用,分发和复制,前提是注明原始作者和来源。
数据可用性: 本文中使用的所有数据都是公开的。遗传与性状关联的汇总统计数据从以下网址下载:https://zenodo.org/record/1251813#.X8drUF7gquP(BMI和WHR);http://www.nealelab.is/uk-biobank/(体脂百分比,SBP,甘油三酯,HDL和CRP);https://www.thessgac.org/data(教育程度);https://ora.ox.ac.uk/objects/uuid:ff479f44-bf35-48b9-9e67-e690a2937b22(体力活动);https://data.bris.ac.uk/data/dataset/10i96zb8gm0j81yz0q6ztei23d(终生吸烟评分);http://diagram-consortium.org/downloads.html (T2D);http://www.phenoscanner.medschl.cam.ac.uk/(CHD);https://data.bris.ac.uk/data/dataset/3g3i5smgghp0s2uvm1doflkx9x(细胞因子和生长因子)。用于执行 NAvMix 聚类分析算法以及重现仿真结果和应用分析的 R 代码可在 https://github.com/aj-grant/navmix 找到。
资金: AJG和SB由Wellcome Trust和皇家学会共同资助的Henry Dale爵士奖学金(授权号204623 / Z / 16 / Z)提供支持。DG由伦敦帝国理工学院的英国心脏基金会卓越研究中心(RE / 18 / 4 / 34215)和伦敦大学圣乔治的国家健康研究临床讲座(CL-2020-16-001)提供支持。PDWK得到了英国医学研究委员会的支持(MC_UU_00002/13)。这项研究由NIHR剑桥生物医学研究中心(BRC-1215-20014)资助。所表达的观点是作者的观点,不一定是NHS,NIHR或卫生和社会护理部的观点。出于开放获取的目的,作者已对因提交而产生的任何作者接受的稿件版本应用了CC-BY公共版权许可。资助者在研究设计,数据收集和分析,出版决定或手稿准备方面没有任何作用。
相互竞争的利益: 我已阅读该期刊的政策,该手稿的作者有以下相互竞争的兴趣。DG由诺和诺德兼职工作。其他作者声明没有竞争利益。
介绍
近年来,全基因组关联研究(GWAS)的数量大幅增长[1]。这些研究提供了将整个人类基因组中的遗传变异与各种性状联系起来的宝贵信息。人们通常不太了解的是相关遗传变异影响性状的潜在机制。通过研究与其他相关性状的关联模式,可以深入了解这些机制:具有相似关联模式的遗传变异可能被认为通过类似的机制起作用[2]。例如,一些与2型糖尿病相关的遗传变异也与肥胖相关的特征相关,如体重指数(BMI),而另一些则与甘油三酯等特征相关,这表明这些变异通过不同的生物学机制影响2型糖尿病的风险[3]。
已经实施了许多技术,根据遗传变异与被认为与告知生物学途径相关的性状的关联来对遗传变异进行聚类。这些特征通常包括单独的危险因素或某些感兴趣的疾病结局的潜在介质。一种常见的方法是使用分层聚类,根据观测值之间的距离对观测值进行分组[4–7]。然后以启发式方式选择聚类数。其他应用于遗传变异-性状关联估计的聚类方法包括模糊c均值[6]和贝叶斯非负矩阵因子分解[3]。一种旨在确定遗传变异-性状关联不同组成部分的相关方法使用截断的奇异值分解[8]。
以前实现的方法的一个关键特征是,它们基于遗传变异 - 性状关联估计的向量之间的欧氏距离进行聚类,定义为绘制为图形上点的关联估计之间的线的长度。然而,当试图确定共享的生物学机制时,更相关的聚类目标是每个遗传变异与性状集的比例关联。如果两个变异通过共同的机制影响一组相关性状,则遗传关联在数量上可能会有很大差异,因为一个变异体比另一个变异的影响更大。然而,对于两种变体,它们在性状之间的比例关联将是相似的。等价于查看比例关联是考虑关联向量的方向。也就是说,为了区分通过不同机制起作用的变体,最重要的是关联向量的方向,而不是它在空间中的位置。如图 1 所示。例如,Yaghootkar等人[9],Winkler等人[2]和Udler等人[3]已经讨论了将遗传关联的类似方向与共享的生物学机制联系起来。我们注意到,在这个机制定义中隐含的假设是,具有一个性状的遗传关联与与其他每个性状的遗传关联之间的关系是线性的。
thumbnail 下载:
个人电脑幻灯片
巴新放大图片
断续器原始图像
图 1. 图示示了基于欧氏距离的聚类与方向之间的差异。-厦门畜牧期刊杂志论文发表
面板(a)绘制了90个模拟点,代表具有两个性状的遗传关联。每个点都是从三个二元正态分布之一生成的。图(b)绘制了归一化的遗传关联,代表了每个遗传变异相对于两个性状的比例关联。所有点都位于单位圆上。绿点代表遗传变异,这些变异以相似的大小与每个性状正相关。橙色点代表与性状1正相关且与性状2负相关的遗传变异,同样具有相似的量级。基于欧氏距离的方法,如高斯混合模型和分层聚类,将考虑有三个聚类,区分亮绿色点和深绿色点,如面板(a)所示。定向聚类方法将考虑有两个聚类,将绿点分组在同一聚类中。这见小组(b),其中各点明确地分为两组。
https://doi.org/10.1371/journal.pgen.1009975.g001
在本文中,我们介绍了一种基于遗传变异与给定性状集的关联对遗传变异进行聚类的新程序,以识别具有共同生物学机制的组。我们开发了NAvMix(噪声增强冯米塞斯- 费舍尔混合模型)聚类方法,该方法扩展了定向聚类方法,以包括噪声聚类以及用于选择聚类数量的数据驱动方法。该方法在仿真研究中显示,在识别真实聚类方面表现良好,并且在一系列场景中优于替代方法。我们进一步将该程序应用于与体重指数(BMI)相关的聚类遗传变异。我们使用孟德尔随机化研究BMI不同成分对冠心病(CHD)的下游影响,孟德尔随机化使用遗传变异作为工具变量来研究危险因素对结局的潜在因果效应[10,11]。我们确定了与良好的心脏代谢谱和较低的CHD风险相关的BMI增加的变异簇。对每组变异背后的生物学途径的分析表明,与其他组相比,该组的关键区别在于其对全身炎症的独特影响。因此,这项工作中展示的聚类方法能够识别复杂性状背后的不同途径,从而突出治疗干预的特定机制。
结果
二. 拟议的分组办法概览
我们使用混合模型方法来聚类,它假设每个观测值都是从固定数量的概率分布之一实现的。由于我们对基于关联方向的聚类感兴趣,因此我们拟合了冯·米塞斯-费舍尔(vMF)分布的混合物,该分布的特征是来自原点的观测值的平均方向和色散参数。vMF分布的混合模型之前已经由Banerjee等人描述过[12]。我们通过包括噪声聚类来增强这种方法,因为认识到并非所有观察到的遗传变异 - 性状关联估计的向量都有望很好地适应指定的分布集。噪声聚类将包含指定模型的异常值,从而为聚类的识别提供鲁棒性。因此,我们的聚类方法是拟合噪声增强冯·米塞斯-费舍尔混合模型(NAvMix)。
NAvMix 算法根据给定数据输出属于每个聚类的每个观测值的概率。然后,可以根据每个观测值的成员资格概率最高(称为硬聚类)分配每个观测值。该方法还提供了软聚类功能,即将观测值分配给任何聚类,如果该观测值具有超过特定级别的成员资格的概率,因此观测值可能属于多个聚类。尽管该算法需要指定固定数量的聚类,但我们对不同数量的聚类重复该过程,然后使用贝叶斯信息准则 (BIC) 选择最终数。方法部分提供了该过程的完整详细信息。
设为遗传变异 j 与所考虑的性状集相关联估计的向量,并设为该向量的协方差矩阵。我们假设遗传变异是相互独立的(即没有连锁不平衡)。我们还注意到,关联估计值不需要在同一样本中进行,因此我们可以考虑遗传变异与任何具有相应GWAS汇总统计数据的性状之间的关联集。虽然可以将原始关联估计值输入到算法中,但我们建议输入标准化关联估计值,由 给出 jth 变量。标准化意味着输入向量的每个元素都是独立的,并且具有相同的标准误差。因此,它能够解释关联估计之间的相关性。假设所有遗传关联都以给定性状的相同样本量进行估计,这不会扭曲方向向量。如果用于估计相同性状的遗传关联的样本量之间存在显着差异,并且与不同性状的关联在相似的尺度上,则也可以使用非标准化的关联估计值,可能用作敏感性分析。该算法的第一步是将每个输入向量转换为具有 1 的量级。这是通过将每个向量除以其与原点的欧氏距离来完成的。我们将此称为正常化。归一化向量表示比例关联估计值。
协方差矩阵的对角线元素表示遗传变异-性状关联估计值的方差。不对角线元素表示这些估计值之间的协方差。如果在每个性状的单独样本中估计遗传关联,则这些协方差理论上等于零。如果关联估计值取自同一样本,则如果特征是独立的,则协方差仍将近似于零。如果特征是相关的,则需要估计此相关性以估计一个样本设置中的完整协方差矩阵。这很容易使用单个级别数据(方法)进行计算。如果使用已发布的GWAS汇总统计数据,则此信息并非始终可用。尽管如此,下一节中介绍的模拟研究表明,在特征真正相关但相关估计值设置为零的情况下,聚类方法仍然表现良好。
仿真结果
为了评估所提出方法的性能,并与其他聚类方法进行比较,我们进行了仿真研究。我们选择了两种方法进行比较。第一种是使用R中的mclust算法将高斯混合模型拟合到标准化的关联估计值[13]。选择该方法进行比较,因为它是一种基于模型的方法,能够通过拟合多个模型并使用原则模型选择标准在它们之间进行选择来估计聚类的数量。用于比较的第二种方法是使用比例关联估计值拟合高斯混合模型。这是模型规格错误的情况,因为归一化后的关联估计值不会遵循高斯分布,即使关联估计本身也是如此(例如,参见图1)。因此,它演示了应用基于欧氏距离到比例关联的聚类方法的结果。请注意,其他实现定向聚类形式的R包不用于比较,因为它们要么不允许估计聚类的数量(例如,skmeans [14],它使用球面k-means算法),要么不包含噪声聚类(例如,movMF [15]),因此无法轻松比较性能。
我们模拟了六种情况下遗传变异的数据,其中性状数量(用m表示)为2或9,簇数(K)为1,2或4。在每种情况下,80个遗传变异中的每一个都与K潜伏因子中的一个相关,代表不同的聚类。每个性状都是这些潜在因子的函数,20个额外的噪声遗传变异,以及由参数γ确定的比例的随机变异来自一个共同的未测量混杂变量。γ = 0 的情况表示不相关的性状,但它也代表了特征可能相关但在单独的、不重叠的样本中测量的场景。因此,增加γ证明了性状相关性和/或样本重叠增加的影响。我们以两种方式应用了NAvMix。在第一个中,协方差矩阵的离对角线条目设置为零。在第二种方法中,将来自个体水平数据的估计性状相关性纳入到程序中,因此使用了完整的估计协方差矩阵。在这里介绍的初步模拟研究中,在20 000个个体的单个样本中估计了遗传变异性状关联。S1 Text还提供了模拟研究的结果,其中每个性状的样本量不同。模拟参数的完整详细信息在方法部分给出。
我们使用四个指标评估了每种方法的性能:调整后的兰特指数;轮廓系数;估计的聚类平均数;以及分配给噪声聚类的平均观测值数。调整后的兰特指数是真实聚类成员资格和估计聚类成员资格之间的相似性度量,并显示每种方法分配观测值的程度[16,17]。越接近 1,估计的集群成员数就越接近事实。观测值的轮廓基于其与星团内其他观测值的接近程度,以及它与星团外观测值的分离[18]。值越高,表示观测值非常适合其分配的聚类。我们将两个观测值之间的距离定义为归一化后沿单位球体表面的距离,并将轮廓系数定义为所有观测值的平均轮廓,其中较高的轮廓系数表示形成的聚类更好。图 2 显示了每种方法和方案的调整后 Rand 指数的箱线图。轮廓系数的箱线图如图 A 中的 S1 文本所示。表 1 显示了每种方法和方案估计的平均聚类数和噪声聚类的平均大小。
thumbnail 下载:
个人电脑幻灯片
巴新放大图片
断续器原始图像
图 2. 模拟研究中的方法比较。
使用 NAvMix、NAvMix 结合性状相关性估计 (cor)、mclust 和使用比例关联 (pr) 的 mclust 的每个方案的调整后 Rand 指数的箱线图。
https://doi.org/10.1371/journal.pgen.1009975.g002
thumbnail 下载:
个人电脑幻灯片
巴新放大图片
断续器原始图像
表 1.使用 NAvMix、NAvMix(使用比例关联 (pr) 结合性状相关估计值 (cor)、mclust 和 mclust),为每个模拟场景估计的平均聚类数和分配给噪声聚类的平均观测值数。
噪声簇中的真实变体数为 20。
https://doi.org/10.1371/journal.pgen.1009975.t001
NAvMix在将观测值分配给正确的集群方面表现非常出色,在几乎所有情况下,调整后的兰特指数中位数都高于mclust方法。它在轮廓系数方面同样表现出色,并且平均选择了一些更接近真实数字的聚类。mclust 算法倾向于高估聚类的数量,特别是当没有真正不同的聚类时(即,在 K = 1 方案中)。例外情况是当特征高度相关时(γ = 0.8),其中NAvMix倾向于选择太多的集群。但是,在NAvMix中加入性状相关估计值可以提高这些情况下的性能。请注意,当K = 4时,其中一个簇只有10个遗传变异。尽管如此,NAvMix仍然平均选择了近4个集群,并且具有比mclust方法更高的中位数调整兰特指数和轮廓系数。除了在具有较高性状数量(m = 9)和高性状相关性(γ = 0.8)的情况下,使用具有和不具有性状相关性估计的NAvMix的结果没有太大差异。这表明,除非存在实质性的性状相关性或样本重叠,否则该程序可以灵活地遗漏这些估计值。随着性状数量的增加和真实聚类数量的减少,整合性状相关性变得更加重要。最后,与NAvMix相比,mclust倾向于向噪声聚类分配更少的观测值,特别是在低维(m = 2)设置中。
我们在相同的模拟数据集上重复分析,但其中遗传变异被过滤,使得只有那些与至少一个全基因组意义的特征相关的变异被包括在内。这大大提高了NAvMix在高度相关性状场景中的性能(参见图B和C以及S1文本中的表A)。在样本量不同的模拟场景中,结果与主要模拟研究的结果相似(参见S1文本中的图D和E以及表B)。在这些情况下,各种样本量的差异高达五倍,这表明该程序对于用于每个性状的样本量的合理大差异是稳健的。
BMI相关遗传变异聚类
我们将我们的程序应用于由Pulit等人的GWAS鉴定的BMI相关遗传变异[19]。我们考虑了与BMI相关的遗传变异,其p值<5×10?8并在 r 处修剪2< 0.001。聚类是与具有九个特征的遗传关联相关的:体脂百分比;收缩压(SBP);甘油三酯;高密度脂蛋白胆固醇(HDL);教育程度;身体活动;终生吸烟评分;腰臀比(WHR);和2型糖尿病。这些是生活方式或心脏代谢特征,先前已被证明与BMI相关,并且可能有助于深入了解BMI下游效应的途径,例如CHD[20,21]。与这些性状的遗传关联估计都是从公开的GWAS汇总统计数据(方法)中获得的。我们对所有数据集中可用的539个遗传变异进行了聚类。遗传变异及其分配的簇的完整列表,以及它们对每个簇的成员概率,在S1表中给出。
鉴定出5个簇,其中1个遗传变异被分配到噪声簇。图3显示了按聚类估计与每个性状的比例遗传关联估计的热图,图4绘制了每个拟合vMF分布的均值,表示每个聚类中心观测值的比例关联。最大的四个簇,标记为簇1-4,包含与脂肪百分比,WHR和2型糖尿病具有非常相似的正平均比例关联的遗传变异。群集 3 中的变体与 SBP 的平均关联接近于零,而群集 1、2 和 4 中的变体与 SBP 的平均关联为正。第2类中的变异与吸烟的平均关联接近于零,而第1、3和4类变异与吸烟的平均关联为正。与簇 1-3 中的变异相比,聚类 4 中的变异与 HDL 具有正平均关联,与聚类 1-3 中的变异相比,与聚类 4 中的变异具有负平均关联。
thumbnail 下载:
个人电脑幻灯片
巴新放大图片
断续器原始图像
图 3. 热图显示BMI相关遗传变异与每个性状的关联估计值。
关联估计值首先通过除以标准误差进行标准化,然后归一化,以便每个变体的关联估计向量具有一级。因此,显示的值表示性状集上每个遗传变异的比例关联估计值。每个分类标签下方括号中的值是相应分类中的变体数。
https://doi.org/10.1371/journal.pgen.1009975.g003-厦门畜牧期刊杂志论文发表
thumbnail 下载:
个人电脑幻灯片
巴新放大图片
断续器原始图像
图 4. 每个聚类的拟合冯·米塞斯-费舍尔分布的均值向量的平行图。
绘制的点表示与每个聚类中心的观测值的每个特征的标准化比例关联。
https://doi.org/10.1371/journal.pgen.1009975.g004
第5组包含20个遗传变异。平均而言,这些变异与HDL呈正相关,与SBP,甘油三酯,WHR和2型糖尿病呈负相关。与其他四组相比,这些变异与吸烟,身体活动和教育的平均关联也接近于零,并且与脂肪百分比的正相关较弱。
BMI对CHD影响的孟德尔随机估计
孟德尔随机化先前表明,BMI对CHD风险具有积极的因果关系,使用Locket等人鉴定的94个遗传变异作为工具[22][23]。我们应用了双样本孟德尔随机化[24],使用用于聚类的BMI相关遗传变异集作为工具,以及依次使用每个聚类的变异集(方法)。除了应用逆方差加权(MR-IVW)方法[25]外,我们还执行了MR-中位数法[26],污染混合物(MR-ConMix)法[27]和MR-PRESSO法[28]的灵敏度分析。这些方法中的每一个都为不同假设集下的因果原假设提供了有效的检验(方法)。
图5显示了每组考虑的仪器的遗传关联估计值与BMI与CHD风险的关联估计值的散点图,以及孟德尔随机化分析的结果。当使用全套遗传变异作为工具时,结果表明BMI增加对CHD风险有积极影响,MR-IVW的估计比值比(OR)为1.50(95%置信区间为1.40-1.62),遗传预测BMI每增加1个标准差。所有敏感性分析都给出了类似的估计值。这与Larsson等人的结果一致[23]。使用最大的两个聚类也获得了类似的结果,使用聚类1估计OR为1.83(1.68-2.00),使用聚类2估计OR为1.54(1.38-1.72)。当使用聚类3遗传变异作为仪器时,估计值向零点衰减,估计OR为1.22(0.99-1.50)。当使用簇4遗传变异作为工具时,没有证据表明BMI增加与CHD风险相关,估计OR为0.94(0.69-1.29)。当使用簇5遗传变异作为工具时,结果表明BMI增加降低了CHD风险,估计OR为0.34(0.19-0.64)。请注意,MR-Egger截距试验[29]在任何这些分析中都没有显示出方向性多效性的证据(见S1文本中的表C)。
thumbnail 下载:
个人电脑幻灯片
巴新放大图片
断续器原始图像
图 5. 孟德尔随机化分析的结果,分析了BMI对CHD的影响。
散点图是每个遗传变异与BMI(标准偏差单位)和CHD风险对数比值比的关联图。虚线的斜率是相应聚类的MR-IVW估计值。森林图显示了孟德尔随机化对所有遗传变异和每个聚类的估计值和 95% 置信区间。孟德尔随机化估计值表示遗传预测的BMI中每增加1个标准差,CHD风险的比值比变化。虚线表示优势比为 1。
https://doi.org/10.1371/journal.pgen.1009975.g005
探索BMI相关变异簇的生物学途径
我们使用功能映射和注释平台[30]对BMI相关变异进行了基因集分析,以检查与每个簇相关的生物学途径。根据位置和eQTL图谱将变异映射到基因,然后测试这些基因在各种途径数据库(方法)的基因集中的富集。出现了许多不同的模式:簇1变体与与细胞分裂和分化相关的途径相关;簇3变体,具有与细胞信号传导相关的途径;具有与脂质代谢相关的途径的簇4变体;和具有与炎症相关的途径的簇5变体。未发现第2组变异体被任何测试的途径显着富集。与映射的基因相关的全套通路在S2表中给出。
鉴于其与有利肥胖的关系,第5簇变体在炎症中的作用特别令人感兴趣。为了确认这些变异在炎症中的作用,我们进行了孟德尔随机化分析,以检查遗传预测的BMI与C反应蛋白(CRP)的关联,分别使用所有变异和每个簇,C反应蛋白(CRP)是全身炎症的一种衡量标准(方法)。MR-IVW方法的结果如图6所示。当使用所有变异作为工具时,MR-IVW估计,遗传预测BMI每增加一个标准偏差,CRP增加0.44个标准差(95%置信区间为0.38-0.50)。使用组1-4作为工具时的结果与此一致。然而,没有证据表明第5类变异预测的BMI成分与CRP相关(MR-IVW估计为0.01,95%置信区间为-0.24-0.27)。这些发现在敏感性分析中得到了支持(见S1文本中的图F)。
thumbnail 下载:
个人电脑幻灯片
巴新放大图片
断续器原始图像
图 6. 孟德尔随机化分析的结果,即BMI对CRP的影响。
MR-IVW估计和遗传预测BMI与CRP关联的95%置信区间,对于所有遗传变异和每个集群。这些估计值表示CRP在基因预测的BMI中每增加1个标准偏差单位的标准偏差单位的变化。虚线表示遗传预测的CRP水平与BMI之间没有关联。
https://doi.org/10.1371/journal.pgen.1009975.g006
为了进一步探索各种簇影响炎症的途径,我们进行了单独的孟德尔随机化分析,其中Ahola-Olli等人[31]和Kalaoja等人[32]研究的41种细胞因子和生长因子作为结果(参见S1文本中的表D,了解考虑的细胞因子和生长因子的完整列表)。图7显示了每个聚类和结果的MR-IVW估计值。有证据表明,与其他簇预测的BMI的影响相比,第5组变异预测的BMI对细胞因子的影响存在差异。对于许多炎症性状,如肝细胞生长因子(HGF)和TNF相关的凋亡诱导配体(TRAIL),由簇5变异预测的BMI显示出比其他簇更弱的关联。在某些情况下,例如对于单核细胞趋化蛋白-1(MCP1),使用聚类5变体的MR-IVW估计值与其他簇的方向相反。这些结果在敏感性分析中得到支持(见S3表)。
thumbnail 下载:
个人电脑幻灯片
巴新放大图片
断续器原始图像
图 7. 孟德尔随机化分析的结果,即BMI对细胞因子和生长因子的影响。
MR-IVW估计值(表示为Z评分,即估计值除以其标准误差)用于遗传预测的BMI与41种细胞因子和生长因子的关联。用 * 表示的值的 p 值小于 0.05/41。
https://doi.org/10.1371/journal.pgen.1009975.g007
讨论
在本文中,我们提出了一种使用NAvMix方法根据遗传变异与给定性状集的关联对遗传变异进行聚类的程序。该方法使用定向聚类算法,根据遗传变异与性状的比例关联来区分遗传变异。由于它是一种基于模型的聚类方法,因此与当前用于基于性状关联对遗传变异进行聚类的方法相比,它具有许多优点,例如用于选择聚类数量的数据驱动方法以及使用软聚类的能力。包含噪声聚类可为异常值提供鲁棒性,从而增强对已识别聚类的信心。一项模拟研究表明,该方法在一系列设置中表现良好,并且在基于比例关联分配观测值方面优于替代聚类方法。重要的是,与所考虑的其他方法相比,当数据中不存在真聚类时,该方法不会在模拟设置中识别误报聚类。
对BMI相关遗传变异进行聚类的应用确定了五个簇,这表明BMI的遗传预测因子可以根据其与所考虑的特征的关联分为五个独立的机制。有趣的是,第1类和第2类中的变异在所考虑的每个特征中的平均关联性相似,但吸烟除外,其中第2类的关联接近于零。对此的一种可能的解释是,这些变异根据一些与成瘾行为相关的机制而有所不同。然而,在1号集群的基因集分析中没有发现这样的途径。这表明,其他一些机制可能正在推动这种变化,尽管需要进一步的分析来确定这可能是什么。
孟德尔随机化分析提供了证据,证明影响BMI的不同途径对CHD风险具有不同的下游影响。当使用聚类1和2中的遗传变异集作为工具时,BMI对CHD风险的孟德尔随机化估计为正,与BMI增加的既定总体效果一致。当使用第3组中的变体集作为工具时,估计值仍为正数,但减弱为零。此聚类与聚类 1 和 2 之间的主要区别在于,平均而言,变体与 SBP 的增加无关。先前的证据表明,SBP升高是BMI升高的下游后果[33],并且也被证明对CHD有因果关系[27]。因此,我们的研究结果支持BMI的遗传预测成分与SBP增加无关,对CHD风险的积极影响较低。然而,仍有证据表明存在积极的因果效应,这表明BMI升高可能增加冠心病风险的其他机制[34]。
当使用聚类4中的一组遗传变异作为工具时,这些变异与HDL增加和甘油三酯减少具有平均关联,孟德尔随机化表明与CHD风险无关。此外,由聚类5中的变体预测的BMI分量的孟德尔随机化估计为负。也就是说,在第5组,我们已经确定了与保护CHD的BMI增加途径相关的遗传变异。这些遗传变异以BMI增加的等位基因为导向,与有利的代谢特征相关,即HDL增加和SBP,甘油三酯,WHR和2型糖尿病责任降低。
通过分析支撑不同集群的生物学途径,我们发现有证据支持BMI不同成分对心血管风险的影响之间的异质性可能与炎症有关。此外,我们的研究结果确定了与BMI升高相关的可能的炎症途径,这些途径代表了预防CHD的治疗靶点。具体而言,与更普遍的BMI增加变异相比,簇5变异体的估计效果与CHD发病机制相关的关键炎症细胞因子水平较低一致,包括HGF[35],MCP1 [36]和TRAIL [37]。通过改善可归因于BMI升高的炎症增加,其对CHD风险的不利影响也可以减轻。
许多研究以前曾试图确定与代谢有利的肥胖相关的遗传变异。Huang等人[38]在肥胖性状和各种其他心脏代谢性状之间进行了成对的显著性试验,以确定遗传变异,对于至少一个这样的配对,这些变异与肥胖性状的增加和心脏代谢性状的减少有关。Yaghootkar等人也采用了类似的方法来鉴定与有利肥胖相关的遗传变异[39]。我们的方法与这些方法的不同之处在于,我们的集群是在不使用与风险因素或感兴趣的结果(在本例中为BMI和CHD)的遗传关联,而是与所选性状相关的。因此,聚类之间与 CHD 风险关联的任何差异都是有意义的统计检验,而不是由聚类算法驱动的差异。
建议的方法有一些局限性。它使用遗传变异-性状关联的完整协方差矩阵作为输入。如果它假设这些性状是不相关的,或者遗传变异性状关联是在单独的样本中估计的,那么这些矩阵可以很容易地从遗传关联估计的标准误差中构建出来,这些误差通常可以从已发表的GWAS结果中获得。在实践中,整个特征集不太可能不相关,因为它们通常至少通过与感兴趣的主要特征的共同关联而相关。我们已经展示了如何使用来自单个水平数据或参考数据集的性状相关性估计来估计完整的协方差矩阵。此外,模拟研究表明,除非这些性状彼此高度相关,否则该方法可以很好地忽略遗传变异 - 性状关联相关性。这也表明,该方法对样本中的某些参与者重叠是稳健的。如果性状高度相关,存在显着的样本重叠,并且个体水平数据不可用,则存在使用摘要水平数据估计遗传关联之间相关性的方法。一种方法是使用交叉性状LD评分回归的截距项[40]。另一种方法是仅使用被认为与性状无关的变异来估计遗传关联估计之间的相关性[41]。
另一个限制是,结果取决于用于聚类的特征的选择。应使用领域知识来选择一组被认为对所考虑的遗传变异的潜在机制提供信息的性状。未来的研究将寻求扩展该方法以包括特征选择[42],以便包含中等到大量的特征,其中许多特征可能无法区分集群。应该注意的是,添加高度相关的性状不会增加太多额外的信息,如果不合并相关性估计值,可能会影响结果。因此,如果有许多感兴趣的特征高度相关,则最好只选择其中一个。
在应用的示例中,用于聚类的遗传变异是根据它们与感兴趣的主要特征(在本例中为BMI)相关的来选择的。这导致相当多的变体被聚类,部分原因是估计这些关联的GWAS样本量非常大。其他感兴趣的性状可能没有那么多与它们相关的独立变异,具有全基因组意义。如果簇大小较小,则变体数较少可能会使查找真正的聚类更加困难。尽管如此,仍有许多性状,例如,已经发现100个或更多变异与之相关,并且只会随着GWAS样本量的增加而增长。此外,仿真结果表明,我们的聚类方法通常仍然能够检测到相对较小的聚类,在某些设置中,聚类小至100个变体中的10个变体。在只有极少数变异与感兴趣的主要性状相关的情况下,我们建议将纳入的阈值降低到全基因组显著性以下,而不是包括相关的变异。非独立的遗传变异将被期望与给定的性状类似地相关联,因此包括这些变异不会提供信息。
总之,我们提出了一种基于遗传变异与相关性状的关联方向对遗传变异进行聚类的程序,以便深入了解其潜在的生物学机制和途径。通过将该方法应用于BMI相关遗传变异并进行孟德尔随机化分析来推断不同BMI增加途径对CHD风险的差异效应,我们已经证明了以这种方式聚类遗传变异的效用。
方法
冯·米塞斯-费舍尔分布
m维冯米塞斯-费舍尔(vMF)分布具有概率密度函数,其中‖x‖ = ‖μ‖ = 1和C
m(κ) 是归一化常数,由 I 给出
ν(x) 是第一类的贝塞尔函数的修改,序为 ν [12, 43]。μ的均值参数是一个单位向量,它表示从 m 维空间中的原点开始的方向。浓度参数 κ 表示观测值围绕均值的散布。当 κ = 0 时,分布是 (m ? 1) 维单位球面上的均匀分布。随着 κ 的增加,分布越来越集中在μ给出的单位球面上的点周围。
噪声增强冯·米塞斯-费舍尔混合模型
假设我们有 m 维观测值 {x1, ..., xn} 其中 ‖xj对于所有 j,‖ = 1(如果观测值未归一化为具有星等 1,则此归一化是该过程的第一步)。这里, xj表示遗传变异 j 与 m 性状的比例关联估计向量。也就是说,如果使用标准化的遗传关联估计值,则将载体归一化为具有1级。进一步假设每个观测值要么属于 K 个聚类中的一个,每个聚类都包含来自 vMF 分布的观测值,要么不属于这些聚类中的任何一个,因此被视为噪声。我们可以用 k + 1 分量 vMF 混合模型来表示这一点,对于第 j 个观测值,其中:
Θ = {μ1, ..., μK, κ1, ..., κK、π1, ..., πK+1};
z = {z1, ..., zn} 表示群集成员身份(即 zj = k 如果 xj属于簇 k);
πk是簇 k 的混合比例,具有;
f(x∣μ, κ) 是 m 维 vMF 分布的密度函数;
μK+1是根据全局样本均值方向固定的单位向量,由下式给出
κK+1固定在接近零的数字(例如 0.0001)。
在此模型中,聚类 K + 1 称为噪声聚类。当 κ 接近于零时,分布函数表示 (m ? 1) 维单位球面上的均匀分布,因此不能很好地拟合到其他 K 聚类的观测值将倾向于在此处赋值。请注意,由于噪声簇分布均匀,因此μK+1是任意的,为了方便起见,我们选择全局样本均值。噪声聚类的均匀分布在高斯混合模型[44]中很常见,我们的模型给出了这种方法的方向性类比。还提出了将噪声分量纳入高斯混合模型的替代方法[45-47]。虽然超出了本工作的范围,但可以通过改变组分K + 1的密度来探索NAvMix的不同噪声分布。
对数似然函数为
为了最大化似然函数以获得参数 Θ 的估计值,我们需要了解潜在变量 z。因此,使用EM算法[48]拟合了这种混合模型。
EM 算法。
假设我们有一个 Θ 的估计值,用 表示。让。然后在哪里
计算γ杰克对于给定的是 EM 算法中的 E 步。
鉴于γ杰克,我们可以通过最大化来估计 Θ。在Banerjee等人[12]之后,参数估计值来自
(1)
这是 EM 算法的 M 步。请注意,我们不会更新噪声聚类参数,μK+1和 κK+1,但我们确实更新了分配给噪声聚类的观测值的比例。现在,(1)没有给出用于计算的闭合形式解决方案。然而,已经提出了许多近似这些溶液的方法,这些方法允许轻松更新浓度参数估计值。Banerjee等人[12]提出了近似值,其中
Hornik和Grün [15]总结了其他几种近似方法,并提供了实现每种方法的软件。请注意,在实践中,非常接近 1 的值可能会导致数值问题(因为这与观测值几乎都位于同一点的情况有关,因此精度接近无穷大)。为了解决这个问题,我们将可以取的值限制在500。
EM 算法可以在 E 步长(给定 Θ 的初始估计值)或 M 步长(给定γ初始值)启动杰克.迭代算法,直到连续值之间的绝对值差值小于某个预定义的收敛阈值。在我们的模拟研究和应用示例中,我们使用了10?4作为收敛阈值。
算法初始化。
为了初始化算法,我们必须首先设置属于噪声聚类的观测值的初始比例,我们将用 表示。然后,我们执行球面 k 均值过程 [14],该过程根据其方向与原点的相似性对观测值进行聚类,类似于基于欧几里得距离对观测值进行聚类的 k 均值过程。我们以初始值为初始值,因为 i = 1, ..., n,
然后,我们在 M 步开始 EM 算法。请注意,球面 k 均值过程依赖于聚类均值的初始随机集,因此其结果对这种随机化很敏感。该过程中的某些初始值可能会导致 EM 算法收敛到局部最大值,而不是全局最大值。因此,我们在实践中多次运行该算法,每次都以不同的初始值开始。我们将那些导致EM算法收敛到最大值的估计值作为最终参数。在我们的仿真研究和应用示例中,我们运行了具有5种不同初始化的算法。
选择聚类数。
在实践中,我们不知道要与数据拟合的聚类数。聚类的数量可以使用信息标准来确定,例如BIC [44,49]。对于 K 的连续值,我们执行上述算法并计算其中 r
m(K) = (m + 2)K + m 是估计的参数数。我们一直持续到φm(K) 对于连续迭代增加。然后,将最终的簇数取为 arg minK φm(K)。
分配群集成员身份。
拟合混合模型过程的输出是属于每个聚类的每个观测值的一组概率(即γ益参数)。分配聚类成员身份的最简单方法是将每个观测值分配给其成员资格概率最大的聚类(即 )。这是本文提出的仿真研究和应用实例中使用的方法。
用于聚类的混合模型方法允许灵活地分配聚类成员身份。为了提高聚类的置信度,可以设置一个阈值,以便仅在成员资格的概率大于某个级别时才将观测值分配给聚类。那些不符合任何集群阈值的集群仍然未分配。最后,软聚类是可能的,即将观测值分配给其成员概率大于某个级别的任何聚类。在软聚类方法下,可以将一个观测值分配给多个聚类。
遗传变异-性状关联协方差矩阵
对于变体 j,(k, l)的第一个元素由 where 是 的标准误差给出的。如果在单独的、非重叠的样本中估计遗传变异性状关联,则可以取为对角矩阵,其第 k 个对角线条目等于 。如果在同一样本中估计性状,则 的偏离对角线的条目将不为零。虽然 和 之间的相关性不容易估计,但如果 jth 遗传变异只解释了第 k 和第 l 个性状中方差的一小部分,那么 ,其中 X
k和 Xl分别是第 k 和第 l 个性状 [50]。因此,我们可以计算 ,i ≠ j 的第 (k, l) 个条目,其中 X 之间的相关性估计值
k和 Xl.因此,如果假定特征是独立的,则 的对角线外条目可以用零近似,协方差矩阵可以取为对角线,就像在单独的样本案例中一样。
模拟研究
我们模拟了n = 100个独立遗传变异,N = 20000个个体,记作G伊杰对于个体 i 和遗传变异 j,以及 m 性状,表示为 X伊尔对于单个 i 和性状 l,从以下模型中 i = 1, ..., N 和 l = 1, ..., m.变量 L
1, ..., LK是潜在因子,代表K种不同的机制,遗传变异通过这些机制作用于观察到的性状X1, ..., Xm,带 n(k)索引与 L 关联的变体k.由 n 编制索引的变体(K+1)是噪声群集中的那些。这些变异直接作用于性状,不与任何潜在因素相关联。公共变量 U我诱导性状之间的相关性,相关性量由γ决定。第 k 簇中的遗传变异与其他变量之间的关系在 S1 文本中图 G 中的有向无环图中说明。性状的数量为m = 2或9,我们设置γ = 0,0.4或0.8。前80个变体被分成1个,2个或4个簇,其余20个变体被认为是噪声。对于 k = 2 方案,每个集群包含 40 个变体。对于 k = 4 方案,群集大小为 30、20、20 和 10。
我们生成了β杰克这些值使得大多数遗传变异与性状的相关性较弱,而相对较少的遗传变异与性状的相关性更强。对于每个 k,以及每个 j ∈ n(k), 概率为 1 ? φ, φ ~ 均匀(0.05, 0.2), β杰克由均匀(0.03,0.06)分布(这导致p值平均低于全基因组显著性水平)生成,并且概率从N(0.1,0.02)φ2) 分发。对于 j ? n(k)、β杰克设置为零。αj值由均匀(?0.1, 0.1) 分布生成,j ∈ n(K+1),否则设置为零。
当 m = 2 时,δ千升分别设置为 1、2 和 4 聚类方案的矩阵的 (k, l) th 元素。当 m = 9 时,δ
千升分别设置为 1、2 和 4 聚类方案的矩阵的 (k, l) th 元素。这些值决定了每个簇中遗传变异与性状之间关联的方向和相对大小。例如,在 m = 2, K = 2 的场景中,一个聚类包含与两个性状正相关的变异,而另一个聚类包含与性状 1 正相关且与性状 2 负相关的变异。α的参数化
j、β杰克和δ千升参数使得遗传变异解释的每个性状的方差比例约为5-10%。
估计的遗传变异 - 性状关联是使用每个遗传变异上每个性状的简单线性回归来计算的。使用NAvMix对噪声簇中初始比例为0.05的遗传变异进行聚类,并使用mclust对5个随机选择的遗传变异的初始噪声簇进行聚类。
还进行了补充模拟研究,其中每个性状的样本量不同。每个样本数量被随机选择为10000和50000之间。此补充模拟研究的结果在 S1 文本中呈现。
BMI相关遗传变异聚类
与BMI的遗传变异关联估计值取自Pulit等人的GWAS[19]。p 值< 5 × 10 的变体?8使用 R [51] 中的 TwoSampleMR 包修剪,并带有 r2= 0.001。
与体脂百分比,SBP,甘油三酯和HDL的遗传变异关联估计值来自Neale实验室的结果,该结果基于英国生物银行数据集(http://www.nealelab.is/uk-biobank/)。教育程度的遗传变异关联取自Okbay等人的GWAS[52];对于身体活动,Doherty等人的GWAS[53];对于终生吸烟评分,Wootton等人的GWAS[54];对于WHR,Pulit等人的GWAS[19];对于2型糖尿病,Mahajan等人的GWAS[6]。请注意,对于教育程度数据集,一个BMI相关的遗传变异(rs10761785)被替换为r的代理(rs2163188)2= 0.9842(使用PhenoScanner [55,56]识别)。所有使用的研究都是对欧洲血统或主要欧洲血统的个体样本进行的。所有遗传变异性状关联估计值都针对等位基因,因此与BMI的关联是积极的。S1文本中的表E显示了每项研究的样本量以及与全基因组显著性水平上与每个性状相关的BMI相关遗传变异的数量。
使用NAvMix进行聚类,噪声聚类中遗传变异的初始比例为0.05,并使用该算法的5个单独初始化。该算法产生的每个遗传变异对每个聚类的成员资格概率显示在S1表中。
孟德尔随机化分析
遗传变异是孟德尔随机化分析的有效工具变量,如果它是:与风险因素相关;独立于风险因素 - 结果关系的任何混杂因素;除危险因素外,没有获得结局的因果途径[57]。在双样本框架下,在单独的样本中估计遗传变异-危险因素和遗传变异-结局关联[24]。假设分析中的所有变异都是有效的工具,MR-IVW产生因果效应的统计一致估计值和因果原假设的检验[25]。之所以选择用于敏感性分析的三种方法,是因为它们在不同假设下对BMI对CHD的因果效应进行了有效的估计[58]:MR-中位数(大多数遗传变异是有效的工具);污染混合法(多个遗传变异是有效的工具);和 MR-PRESSO 方法(满足 InSIDE 假设)。MR-Egger方法的截距试验用于测试是否存在未测量的方向多向性。使用孟德尔随机化[59,60]和MRPRESSO [28]包进行分析。
与CHD的遗传变异关联估计值取自Nikpay等人的CARDIOGRAMplusC4D数据集[61],并使用PhenoScanner访问[55,56]。与CRP的遗传变异关联来自Neale实验室的结果,该结果基于英国生物银行数据集(http://www.nealelab.is/uk-biobank/)。与41种细胞因子和生长因子的遗传变异关联估计值来自支持Ahola-Olli等人[31]和Kalaoja等人[32]的数据。S1文本中的表F给出了BMI相关遗传变异的列表,这些变异在每个结局数据集中都不可用,因此被排除在相关的孟德尔随机化分析之外。
基因图谱和基因集分析
539个BMI相关遗传变异被映射到使用FUMA中的SNP2GENE功能的基因[30]。每组变体的汇总统计数据分别上传,并被标识为预定义的潜在客户 SNP。执行了位置和 eQTL 映射。对于eQTL绘图,从以下来源中选择组织类型作为所有组织类型:EQTL目录;心灵密码;van der Wijst et al. scRNA eQTLs;骰子;eQTLGen;血液电子液质合金;穆瑟;xQTLServer;ComminMind Consortium;布雷尼克;和 GTEx v8。使用了所有其他默认设置。使用GENE2FUNC功能进行基因集分析。S2表中提供的结果包括来自MsigDB的所有规范途径,以及基因本体过程,这些过程与使用超几何测试绘制的基因相关联(每个簇应用多个测试校正)。
支持信息
仿真研究和应用示例的附加仿真结果和补充信息。
显示 1/4: pgen.1009975.s001.pdf
跳到无花果共享导航
支持信息:噪声增强定向遗传关联数据的聚类可识别不同的数据肥胖的机制安德鲁·格兰特?1, 迪彭德吉尔2,3,4,5, 保罗 D. W. 柯克1,6和斯蒂芬·伯吉斯1,71MRC生物统计学系,剑桥大学,剑桥,英国2圣玛丽医院公共卫生学院流行病学和生物统计学系,伦敦帝国理工学院,英国伦敦3医学和生物医学教育研究所临床药理学和治疗科和感染与免疫研究所,圣乔治,伦敦,伦敦,英国4圣乔治大学药学和药物理事会临床药理学组医院NHS基金会信托,英国伦敦5诺和诺德研究中心牛津,老路校区,牛津,英国6剑桥大学治疗免疫学与传染病研究所(CITIID)剑桥, 剑桥, 英国7大学公共卫生和初级保健司心血管流行病学股的剑桥, 剑桥, 英国?通讯作者。电邮地址: andrew.grant@mrc-bsu.cam.ac.uk1
K = 1K = 2K = 4m = 2m = 9NAvMix NAvMix(科尔)mclust mclust(公关)NAvMix NAvMix(科尔)mclust mclust(公关)NAvMix NAvMix(科尔)mclust mclust(公关)0.00.50.00.5方法西乌海特系数γ=0K = 1K = 2K = 4m = 2m = 9NAvMix NAvMix(科尔)mclust mclust(公关)NAvMix NAvMix(科尔)mclust mclust(公关)NAvMix NAvMix(科尔)mclust mclust(公关)0.00.50.00.5方法西乌海特系数γ≤0.4K = 1K = 2K = 4m = 2m = 9NAvMix NAvMix(科尔)mclust mclust(公关)NAvMix NAvMix(科尔)mclust mclust(公关)NAvMix NAvMix(科尔)mclust mclust(公关)?0.50.00.5?0.50.00.5方法西乌海特系数γ≤0.8图 A.使用 NAvMix、NAvMix 的每个方案的轮廓系数框图结合具有比例效应 (pr) 的性状相关性估计 (cor)、mclust 和 mclust。2
1 / 4
下载
无花果共享
S1 文本。 仿真研究和应用示例的附加仿真结果和补充信息。
https://doi.org/10.1371/journal.pgen.1009975.s001-厦门畜牧期刊杂志论文发表
(英文)
S1 表。 为每个BMI相关遗传变异分配的簇和每个簇的成员概率。
https://doi.org/10.1371/journal.pgen.1009975.s002
(XLSX)
S2 表。与每个BMI相关遗传变异簇的映射基因相关的规范途径和基因本体过程列表。
https://doi.org/10.1371/journal.pgen.1009975.s003
(XLSX)
S3 表。 孟德尔随机化敏感性分析的结果,分析了BMI对细胞因子和生长因子的影响。
来自MR-中位数,污染混合物法(MR-ConMix)和MR-PRESSO的估计值和95%置信区间,用于遗传预测的BMI与41种细胞因子和生长因子的关联。
https://doi.org/10.1371/journal.pgen.1009975.s004
(XLSX)
引用
1.Visscher PM, Wray NR, Zhang Q, Sklar P, McCarthy MI, Brown MA, et al. GWAS发现10年:生物学、功能和翻译。Am J Hum Genet.2017;101(1):5–22.pmid:28686856
查看文章PubMed/NCBI谷歌学术搜索
2.Winkler TW, Günther F, H?llerer S, Zimmermann M, Loos RJ, Kutalik Z, et al.关于肥胖的遗传变异的共同观点区分了具有不同代谢意义的亚型。纳特公社。2018;9(1):1946.pmid:29769528
查看文章PubMed/NCBI谷歌学术搜索
3.Udler MS, Kim J, von Grotthuss M, Bonàs-Guarch S, Cole JB, Chiou J, et al.由多性状关联告知的2型糖尿病遗传位点指向疾病机制和亚型:软聚类分析。2018;15(9):1–23.pmid:30240442
查看文章PubMed/NCBI谷歌学术搜索
4.Dimas AS, Lagou V, Barker A, Knowles JW, M?gi R, Hivert MF, et al.2型糖尿病易感性变异对定量血糖性状的影响揭示了机制异质性。糖尿病。2014;63(6):2158–2171.pmid:24296717
查看文章PubMed/NCBI谷歌学术搜索
5.Scott RA, Scott LJ, M?gi R, Marullo L, Gaulton KJ, Kaakinen M, et al.欧洲人2型糖尿病的扩展全基因组关联研究。糖尿病。2017;66(11):2888–2902.下午:28566273
查看文章PubMed/NCBI谷歌学术搜索
6.Mahajan A, Wessel J, Willems SM, Zhao W, Robertson NR, Chu AY, et al.通过编码变异体精细映射在2型糖尿病中提高经过验证的靶标识别的准确性。纳特·热内。2018;50(4):559–571.pmid:29632382
查看文章PubMed/NCBI谷歌学术搜索
7.Ruth KS, Day FR, Tyrrell J, Thompson DJ, Wood AR, Mahajan A, et al.使用人类遗传学来了解睾丸激素对男性和女性的疾病影响。国家医学. 2020;26(2):252–258.pmid:32042192
查看文章PubMed/NCBI谷歌学术搜索
8.谷川 Y, 李 J, Justesen JM, Horn H, Aguirre M, DeBoever C, et al.英国生物库中2,138种表型的遗传关联成分突出了脂肪细胞生物学。纳特公社。2019;10(1):4064.pmid:31492854
查看文章PubMed/NCBI谷歌学术搜索
9.Yaghootkar H, Scott RA, White CC, Zhang W, Speliotes E, Munroe PB, et al.正常体重"代谢性肥胖"表型的遗传证据,该表型连接胰岛素抵抗、高血压、冠状动脉疾病和 2 型糖尿病。糖尿病。2014;63(12):4369–4377.pmid:25048195
查看文章PubMed/NCBI谷歌学术搜索
10.Davey Smith G,Ebrahim S."孟德尔随机化":遗传流行病学有助于理解疾病的环境决定因素吗?Int J Epidemiol.2003;32(1):1–22.
查看文章谷歌学术搜索
11.Lawlor DA,Harbord RM,Sterne JAC,Timpson N,Davey Smith G. Mendelian随机化:使用基因作为在流行病学中进行因果推断的工具。统计医学 2008;27(8):1133–1163.下午:17886233
查看文章PubMed/NCBI谷歌学术搜索
12.Banerjee A, Dhillon IS, Ghosh J, Sra S. 使用 von Mises-Fisher 分布在单元超球体上的聚类。马赫学习研究 2005;6(46):1345–1382.
查看文章谷歌学术搜索
13.Scrucca L, Fop M, Murphy TB, Raftery AE.mclust 5:使用高斯有限混合模型进行聚类、分类和密度估计。R J. 2016;8(1):289–317.下午:27818791
查看文章PubMed/NCBI谷歌学术搜索
14.Dhillon IS, Modha DS.使用聚类分析对大型稀疏文本数据进行概念分解。马赫学习。2001;42(1):143–175.
查看文章谷歌学术搜索
15.Hornik K, Grün B. movMF: 一个 R 包,用于拟合冯·米塞斯-费舍尔分布的混合物。J 统计软件。2014;58(10):1–31.
查看文章谷歌学术搜索
16.评估聚类方法的客观标准。统计协会 1971;66(336):846–850.
查看文章谷歌学术搜索
17.Hubert L, Arabie P. 比较分区。分类杂志。1985;2(1):193–218.
查看文章谷歌学术搜索
18.Rousseeuw PJ.轮廓:用于解释和验证聚类分析的图形辅助工具。计算与应用数学杂志。1987;20:53–65.
查看文章谷歌学术搜索
19.Pulit SL, Stoneman C, Morris AP, Wood AR, Glastonbury CA, Tyrrell J, et al.对694-649名欧洲血统个体中体脂分布的全基因组关联研究进行荟萃分析。嗡2019;28(1):166–174.pmid:30239722
查看文章PubMed/NCBI谷歌学术搜索
20.Van Gaal LF, Mertens IL, De Block CE.将肥胖与心血管疾病联系起来的机制。自然界。2006;444(7121):875–880.pmid:17167476
查看文章PubMed/NCBI谷歌学术搜索
21.戴维斯,迪克森M,戴维史密斯G,范登伯格GJ,温德梅耶尔F.英国生物银行教育对健康结果的因果影响。纳特·胡姆·贝法。2018;2(2):117–125.pmid:30406209
查看文章PubMed/NCBI谷歌学术搜索
22.Locke AE, Kahali B, Berndt SI, Justice AE, Pers TH, Day FR, et al.体重指数的遗传学研究为肥胖生物学提供了新的见解。自然界。2015;518(7538):197–206.pmid:25673413
查看文章PubMed/NCBI谷歌学术搜索
23.Larsson SC,B?ck M,Rees JMB,Mason AM,Burgess S.英国生物银行中与14种心血管疾病相关的体重指数和身体成分:孟德尔随机化研究。欧心杂志 2019;41(2):221–226.
查看文章谷歌学术搜索
24.Burgess S, Scott RA, Timpson NJ, Davey Smith G, Thompson SG, EPIC-InterAct Consortium.使用孟德尔随机化中的已发表数据:有效识别因果风险因素的蓝图。Eur J Epidemiol.2015;30(7):543–552.pmid:25773750
查看文章PubMed/NCBI谷歌学术搜索
25.Burgess S,Butterworth A,Thompson SG.使用汇总数据对多个遗传变异进行孟德尔随机化分析。Genet Epidemiol.2013;37(7):658–665.pmid:24114802
查看文章PubMed/NCBI谷歌学术搜索
26.Bowden J, Davey Smith G, Haycock PC, Burgess S. 使用加权中位数估计器对一些无效仪器进行孟德尔随机化的一致估计。Genet Epidemiol.2016;40(4):304–314.下午:27061298
查看文章PubMed/NCBI谷歌学术搜索
27.伯吉斯S,弗利CN,阿拉拉E,小斯塔利,豪森JMM。一种具有数百个遗传变异的孟德尔随机化的稳健而有效的方法。纳特公社。2020;11:376.pmid:31953392
查看文章PubMed/NCBI谷歌学术搜索
28.Verbanck M, Chen CY, Neale B, Do R. 从复杂性状和疾病之间的孟德尔随机化推断的因果关系中广泛水平多效性的检测。纳特·热内。2018;50(5):693–698.下午:29686387
查看文章PubMed/NCBI谷歌学术搜索
29.Bowden J,Davey Smith G,Burgess S. Mendelian随机化与无效仪器:通过Egger回归进行效应估计和偏差检测。Int J Epidemiol.2015;44(2):512–525.下午:26050253
查看文章PubMed/NCBI谷歌学术搜索
30.Watanabe K,Taskesen E,van Bochoven A,Posthuma D.与FUMA遗传关联的功能映射和注释。纳特公社。2017;8(1):1826.pmid:29184056
查看文章PubMed/NCBI谷歌学术搜索
31.Ahola-Olli AV, Würtz P, Havulinna AS, Aalto K, Pitk?nen N, Lehtim?ki T, et al.全基因组关联研究确定了27个影响循环细胞因子和生长因子浓度的位点。Am J Hum Genet.2017;100:40–50.pmid:27989323
查看文章PubMed/NCBI谷歌学术搜索
32.Kalaoja M, Corbin LJ, Tan VY, Ahola-Olli AV, Havulinna AS, Santalahti K, et al.炎症细胞因子作为中间体在从肥胖增加到疾病的途径中的作用。肥胖。2021;29(2):428–437.下午:33491305
查看文章PubMed/NCBI谷歌学术搜索
33.Marini S, Merino J, Montgomery BE, Malik R, Sudlow CL, Dichgans M, et al.肥胖和脑血管疾病的孟德尔随机化研究。神经安. 2020;87(4):516–524.下午:31975536
查看文章PubMed/NCBI谷歌学术搜索
34.Gill D, Zuber V, Dawson J, Pearson-Stuttard J, Carter AR, Sanderson E, et al.介导体重指数和腰臀比对心血管结局影响的危险因素:孟德尔随机化分析。国际肥胖杂志。2021;45(7):1428–1438.pmid:34002035
查看文章PubMed/NCBI谷歌学术搜索
35.Morishita R,Aoki M,Yo Y,Ogihara T.肝细胞生长因子作为心血管激素:HGF在心血管疾病发病机制中的作用。内分泌 J. 2002;49(3):273–284.pmid:12201209
查看文章PubMed/NCBI谷歌学术搜索
36.Georgakis MK, Gill D, Rannikm?e K, Traylor M, Anderson CD, MEGASTROKE CONSORTIUM OF THE INTERNATIONAL STROKE GENETICS CONSORTIUM (ISGC) 等遗传决定的循环细胞因子水平和中风风险。流通。2019;139(2):256–268.pmid:30586705
查看文章PubMed/NCBI谷歌学术搜索
37.Bernardi S,Bossi F,Toffoli B,Fabris B.OPG和TRAIL作为心血管疾病生物标志物的作用和临床应用。BioMed Res Int. 2016;2016:1752854.下午:27200369
查看文章PubMed/NCBI谷歌学术搜索
38.Huang LO, Rauch A, Mazzaferro E, Preuss M, Carobbio S, Bayrak CS, et al.全基因组发现遗传位点,将多余的肥胖与其合并症分离。纳特·梅塔布。2021;3(2):228–243.pmid:33619380
查看文章PubMed/NCBI谷歌学术搜索
39.Yaghootkar H, Lotta LA, Tyrrell J, Smit RAJ, Jones SE, Donnelly L, et al.遗传证据显示,有利的肥胖与降低 2 型糖尿病、高血压和心脏病的风险之间存在联系。糖尿病。2016;65(8):2448–2460.pmid:27207519
查看文章PubMed/NCBI谷歌学术搜索
40.Bulik-Sullivan B, Finucane HK, Anttila V, Gusev A, Day FR, Loh PR, et al.人类疾病和性状之间遗传相关性的图谱。自然遗传学。2015;47(11):1236–1241.pmid:26414676
查看文章PubMed/NCBI谷歌学术搜索
41.Ray D,Boehnke M.使用GWAS汇总统计对多个性状进行荟萃分析的方法。遗传流行病学。2018;42(2):134–145.下午:29226385
查看文章PubMed/NCBI谷歌学术搜索
42.Law MH,Jain AK,Figueiredo MAT.基于混合物的聚类中的特征选择。在: Adv 神经 Inf 过程系统 卷 15;2003. 第641–648页.
43.Mardia KV, Jupp P. Direction statistics.Chichester: John Wiley & Sons;2000.
44.Banfield JD, Raftery AE.基于模型的高斯和非高斯聚类。生物测定学。1993;49(3):803–821.
查看文章谷歌学术搜索
45.亨尼希C,科雷托P.基于模型的聚类分析中的噪声分量。在:Preisach C,Burkhardt H,Schmidt-Thieme L,Decker R,编辑。数据分析、机器学习和应用。柏林,海德堡:施普林格;2008. 第127–138页.
46.Coretto P,Hennig C.一致性,分解鲁棒性和鲁棒不当最大似然聚类的算法。机器学习研究杂志。2017;18:1–39.
查看文章谷歌学术搜索
47.Crook OM, Mulvey CM, Kirk PDW, Lilley KS, Gatto L.一种用于空间蛋白质组学的贝叶斯混合建模方法.PLoS Comput Biol. 2018;14(11):1–29.pmid:30481170
查看文章PubMed/NCBI谷歌学术搜索
48.Dempster AP, Laird NM, Rubin DB.通过 EM 算法从不完整数据中获得最大可能性。J R Stat Soc Series B Stat Methodol.1977;39(1):1–22.
查看文章谷歌学术搜索
49.Schwarz G. 估计模型的维度。安统计 1978;6(2):461–464.
查看文章谷歌学术搜索
50.Sanderson E, Spiller W, Bowden J. 在双样本多变量孟德尔随机化中测试和校正弱和多效性仪器。统计医学. 2021;40(25):5434–5452.下午:34338327
查看文章PubMed/NCBI谷歌学术搜索
51.Hemani G, Zheng J, Elsworth B, Wade KH, Haberland V, Baird D, et al.MR-Base平台支持跨人类表型组的系统因果推断。电子生活。2018;7:e34408.pmid:29846171
查看文章PubMed/NCBI谷歌学术搜索
52.Okbay A, Beauchamp JP, Fontana MA, Lee JJ, Pers TH, Rietveld CA, et al.全基因组关联研究确定了74个与教育程度相关的位点。自然界。2016;533(7604):539–542.pmid:27225129
查看文章PubMed/NCBI谷歌学术搜索
53.Doherty A, Smith-Byrne K, Ferreira T, Holmes MV, Holmes C, Pulit SL, et al. GWAS鉴定出14个位置,用于设备测量的身体活动和睡眠持续时间。纳特公社。2018;9(1):5257.pmid:30531941
查看文章PubMed/NCBI谷歌学术搜索
54.Wootton RE, Richmond RC, Stuijfzand BG, Lawn RB, Sallis HM, Taylor GMJ, et al.终生吸烟对抑郁症和精神分裂症风险的因果影响的证据:孟德尔随机化研究。心理医学. 2020;50(14):2435–2443.pmid:31689377
查看文章PubMed/NCBI谷歌学术搜索
55.Staley JR, Blackshaw J, Kamat MA, Ellis S, Surendran P, Sun BB, et al.PhenoScanner:人类基因型-表型关联的数据库。生物信息学。2016;32(20):3207–3209.下午:27318201
查看文章PubMed/NCBI谷歌学术搜索
56.Kamat MA, Blackshaw JA, Young R, Surendran P, Burgess S, Danesh J, et al. PhenoScanner V2:一种用于搜索人类基因型-表型关联的扩展工具。生物信息学。2019;35:4851–4853.下午:31233103
查看文章PubMed/NCBI谷歌学术搜索
57.格陵兰岛 S.流行病学家的工具变量简介。Int J Epidemiol.2000;29(4):722–729.pmid:10922351
查看文章PubMed/NCBI谷歌学术搜索
58.斯洛布·伊AW, 伯吉斯·使用汇总数据的鲁棒孟德尔随机化方法的比较。Genet Epidemiol.2020;44(4):313–329.pmid:32249995
查看文章PubMed/NCBI谷歌学术搜索
59.Yavorska OO,Burgess S. MendelianRandomization:一个R包,用于使用汇总数据执行孟德尔随机化分析。Int J Epidemiol.2017;46(6):1734–1739.下午:28398548
查看文章PubMed/NCBI谷歌学术搜索
60.Broadbent JR, Foley CN, Grant AJ, Mason AM, Staley JR, Burgess S. MendelianRandomization v0.5.0:更新用于使用汇总数据执行孟德尔随机化分析的 R 包 [版本 2;同行评审:1 个已批准,2 个已批准但有保留]。惠康开放研究. 2020;5(252).pmid:33381656
查看文章PubMed/NCBI谷歌学术搜索
61.Nikpay M, Goel A, Won HH, Hall LM, Willenborg C, Kanoni S, et al.基于1000个基因组的冠状动脉疾病全基因组关联荟萃分析。纳特·热内。2015;47(10):1121–1130.pmid:26343387
查看文章PubMed/NCBI谷歌学术搜索