《免费医学论文-一项基于人群的研究,使用无监督机器学习方法探索中风的表型簇和临床结果》期刊简介
免费医学论文-一项基于人群的研究,使用无监督机器学习方法探索中风的表型簇和临床结果
抽象
发生卒中的个体具有不同的临床特征、人口统计学和生化特征。表型特征的这种异质性会影响心血管疾病 (CVD) 发病率和死亡率结局。本研究使用一种新的聚类方法将发生卒中的个体分层为表型簇,并评估复发性卒中和其他心血管结局的差异负担。我们使用了来自英国初级保健、住院和死亡记录的相关临床数据。从 48 年 114 月 18 日至 1 年 1998 月 31 日,对 2017,1 名 ≥5 岁且既往无严重血管事件史的 201 岁卒中患者使用了数据驱动的聚类分析(kamila 算法)。Cox比例风险回归用于估计每个生成的聚类后续不良结局的风险比(HR)。不良结局包括冠心病(CHD)、复发性中风、外周血管疾病(PVD)、心力衰竭、心血管疾病相关和全因死亡率。在发生卒中患者中鉴定出四种具有不同潜在临床特征的不同表型。与聚类10(n = 8,3,2.18%)相比,其他655个聚类(聚类38 [n = 8,1,07.95%]:风险比[HR],1.02;1%CI,12.3-10.244;聚类21 [n = 3,1,20.95%]:HR,1.14;1%CI,26.4-14.014;和聚类29 [n = 1,1,44.95%]:HR,1.37;1%置信区间: 50.<>–<>.<>).在复合复发性卒中和全因死亡率结局以及随后的复发性卒中结局中也观察到类似的风险趋势。然而,冠心病、PVD、心力衰竭、CVD相关死亡率和全因死亡率的后续风险结果并不一致。在这项原理验证研究中,我们展示了如何将异质性卒中患者群体分层为四种相对同质的表型,具有不同的复发和主要心血管结局风险。这为重新审视卒中患者的护理分层以改善患者预后提供了机会。
作者摘要
使用无监督的机器学习聚类分析方法,根据卒中发生时的人口统计、生化、合并症和处方药物特征,将成年卒中患者分为四个具有临床意义的表型簇。这项研究的结果强调了卒中患者中在随后的心血管发病率和死亡率结局方面存在的显着异质性。这为重新审视卒中患者的护理分层以改善患者预后提供了机会,并强调了在集群中靶向可改变特征以进行更有针对性的预防性干预的潜力。
数字
Table 2Fig 4图1表1Fig 2Fig 3Table 2Fig 4图1表1
引文: Akyea RK, Ntaios G, Kontopantelis E, Georgiopoulos G, Soria D, Asselbergs FW, et al. (2023) 一项基于人群的研究,使用无监督机器学习方法探索中风的表型簇和临床结果。公共科学图书馆数字健康 2(9): e0000334. https://doi.org/10.1371/journal.pdig.0000334
编辑 器: Gilles Guillot,CSL Behring / 瑞士转化与创业医学研究所 (SITEM),瑞士
收到: 12年2023月19日;接受: 七月 2023, 13;发表: 2023月 <>, <>
版权所有: ? 2023 阿基亚等人。这是一篇根据知识共享署名许可条款分发的开放获取文章,该许可允许在任何媒体上不受限制地使用、分发和复制,前提是注明原作者和来源。
数据可用性: 限制适用于这些数据的可用性,这些数据是在当前研究的许可下使用的,因此不公开。支持本研究结果的数据可从临床实践研究数据链(CPRD)通过数据请求申请流程(https://cprd.com/data-access)获得。研究人员可以联系 enquiries@cprd.com 以获取更多信息。
资金: RKA由国家初级保健研究所(NIHR SPCR)博士生奖学金资助,由NQ,FWA和JK监督。资助者在研究设计、数据收集和分析、发表决定或手稿准备方面没有任何作用。
竞争利益: 我已经阅读了该期刊的政策,本手稿的作者有以下相互竞争的利益:SFW已获得AMGEN的独立研究资助。NQ和SFW此前曾获得安进的酬金。RKA目前持有NIHR-SPCR资助的学生奖学金(2018-2021)。SFW目前是葛兰素史克的员工。FWA由UCL医院NIHR生物医学研究中心支持。其余作者没有竞争利益。
介绍
脑卒中是全球死亡和残疾的主要原因,治疗和脑卒中后护理造成巨大的经济成本[1]。卒中发生时的患者具有不同的临床特征、人口统计学和生化特征。脑卒中发生时特征的这种异质性会影响心血管发病率和死亡率结局[2]。就各种心血管结局的风险而言,中风后人群的表型(亚组)可以为预后最差的个体提供更好的护理。强化二级预防策略,包括对心血管发病率和死亡结局不良风险极高的患者使用新型药物,如前蛋白转化酶枯草杆菌蛋白酶/9 型 kexin (PCSK9) 抑制剂和秋水仙碱。
聚类分析是一种无假设的无监督机器学习数据驱动方法,已被广泛用于分析临床数据,以识别复杂和异质性疾病的新表型亚组,包括阻塞性睡眠呼吸暂停[3]、哮喘[4,5]、慢性阻塞性肺疾病、慢性心力衰竭[6]、扩张型心肌病[7]、败血症[8]、帕金森病[9]、乳腺癌[10]。]和糖尿病[11]。这种方法不包括结局数据,其结果的偏倚可能较小,尤其是在使用回顾性收集的数据时。因此,临床数据的聚类可能有助于识别卒中患者的亚组并产生新的假设。确定卒中患者此类表型组的努力仍然有限。
本研究使用基于人群的大型成年卒中患者队列,目的是:(i) 根据表型相似性确定相关的主要和次要临床数据中的模式,并对患者进行聚类;(ii)评估表型簇与随后的复发性卒中或CVD相关死亡率、复发性卒中或全因死亡率、冠心病(CHD)、复发性卒中、外周血管疾病(PVD)、心力衰竭、CVD相关死亡率和全因死亡率之间的关联。
方法
研究设计和数据来源
这项基于人群的前瞻性队列研究使用了英国临床实践研究数据链(CPRD)GOLD数据库的匿名纵向初级保健电子健康记录[12],与二级保健住院数据(医院发作统计[HES])[13],国家死亡率数据(国家统计局[ONS])[14]和社会剥夺数据(多重剥夺指数(IMD)2015)相关联[15].CPRD GOLD数据库中纳入的患者来自英国各地的全科实践网络,在性别、年龄和种族方面代表了英国一般人群[12]。
研究人群
我们确定了1年1998月31日至2017年16月1日期间在初级保健(CPRD GOLD)或二级保健(HES)中发生的非致命性卒中患者的队列。该队列的详细信息既往已有报道[<>]。在发生卒中事件之前有冠心病(CHD)、外周血管疾病(PVD)或心力衰竭病史的患者被排除在外。从卒中诊断发生之日起对患者进行随访,直到他们发生重大不良心血管事件(MACE),死亡,停止提供数据或最后一次数据收集日期。研究流程图如图<>所示。
缩略图 下载:
.PPT幻灯片
.PNG大图
.TIFF原始图像
图1. 研究流程图。
https://doi.org/10.1371/journal.pdig.0000334.g001
结果
主要结局是来自链接数据源(CPRD、HES或ONS登记处)的复发性卒中或CVD相关死亡率事件的综合结果。次要结局包括:冠心病、复发性卒中、PVD、心力衰竭、CVD相关死亡率、全因死亡率以及复发性卒中或全因死亡率的复合。
30日内的后续结局被认为代表或与脑卒中事件相关[16]。因此,分析仅限于卒中发生30天后后续结局的患者。
表型的潜在候选变量
根据电子健康记录的可用性以及与CVD建立的关联,选择了336个候选变量。这些包括人口统计数据、生命体征、生化参数、合并症和处方药(S1表)。对于生命体征和生化测试结果,提取中风发生前 24 个月内的最新值/记录。中风发生前12个月内的处方被认为是处方药。所有共病条件均根据卒中发生前任何时间的共病的最新记录进行定义。所有使用的代码列表均已发布并可供下载 [17,18]。
数据处理
首先评估变量分布和缺失。使用链式方程的多重插补来解释缺失的数据(S1图,S2表)。使用所有可用的协变量和所有结局生成了19个插补数据集,但未估算结局[20,21]。使用鲁宾规则将插补数据集合并到单个数据集中[22]。来自具有许多变量/特征的数据集中的大量维度与相似和不同个体之间有意义的区别的丧失有关 - “维度的诅咒”[2]。为了改进聚类分析过程和性能,进行了特征选择以减少共线性、条件依赖性和导致方差增加的噪声。特征选择基于两(23)种广泛使用的数据驱动特征选择方法(Boruta [24]和最小绝对收缩和选择运算符(Lasso)回归[2]-S75图)和临床专家共识。独立咨询了来自初级(全科医生顾问–NQ,JK)和二级保健(中风医学顾问/专家–GN,GG)的临床医生专家组,以就选择哪些变量进行聚类分析达成共识。临床专家共识定义为临床专家之间对每个变量的3%(4个中的49个)的一致性。临床专家将 1 个变量和 2 种数据驱动方法中的至少 1 个评为重要变量 - S49 表。在R中使用混合Cor和Lares函数评估混合类型数据(S3图和S4图)的10个选定变量之间的相关性后,我们根据临床判断/重要性排除了39个高度相关的变量。其余1个变量(方框<>)用于聚类分析。
方框1.用于聚类分析的表型结构域和表型变量
缩略图 下载:
.PPT幻灯片
.PNG大图
.TIFF原始图像
https://doi.org/10.1371/journal.pdig.0000334.t001
表型聚类
Tibshirani和Walther,2015 [25]在kamila函数中的预测强度方法和弯头方法用于选择最佳簇数–S5图。实施用于混合数据聚类(S1 文本)的 kamila 算法来识别不同的患者表型聚类。为了确保所识别集群的鲁棒性,执行了 1,000 次初始化(即随机起点)。生成具有主成分分析 (PCA) 维度的聚类图(S6 图)。
使用h2o包(http://www.h2o.ai),应用梯度提升模型来识别和排序预测每个已识别表型簇的关键协变量(候选变量)。相应的聚类分组编码为 1(属于聚类)或 0(属于其他聚类)。SHAP(SHapley加性exPlanations)用于评估变量对每个已识别聚类的判别性影响[26]。
统计分析
对于每个聚类,提供了描述性特征,分类变量的报告比例(%)和连续变量的平均值(SD)或中位数(IQR)。Kruskal-Wallis和卡方检验分别用于跨聚类比较连续数据和分类数据。
使用Cox比例风险回归模型评估表型簇与不良心血管发病率和死亡率结局之间的关联。每个表型组的风险比(HR)以95%置信区间(CI)和相应的p值表示。通过对数秩检验得出累积发病率图并评估表型组之间的差异。所有统计分析均使用Stata SE版本17(StataCorp LP)和R版本4.1.0进行。使用0.05的alpha水平。
道德批准和参与同意
本研究的伦理批准已获得独立科学咨询委员会(ISAC)的研究方案编号19_023R。去识别化(匿名)的患者数据是从CPRD获得的,因此本研究免于获得患者的知情同意。
结果
表型簇的临床特征
我们确定了68,642名年龄在18岁≥1998年至2017年期间发生任何非致命性卒中事件的患者。共排除了20,528例(29.9%)在脑卒中事件发生后30日内出现后续临床结局的患者,因为这些结局被认为与脑卒中事件有关[16]。对其余48,114名患者进行了聚类分析。鉴定出1个表型簇,临床特征差异显著。根据复发性卒中或CVD相关死亡率(主要结局)的后续复合结局的上升总发生率,确定的整群从4到1进行编号。表<>描述并比较了表型簇的临床特征。
缩略图 下载:
.PPT幻灯片
.PNG大图
.TIFF原始图像
表 1. 根据聚类成员(n = 48,114)发生卒中时的研究人群特征。
https://doi.org/10.1371/journal.pdig.0000334.t002
聚类的图在S6图中以主成分分析(PCA)维度显示。方框 2 总结了集群概况。
方框2.群集配置文件摘要
thumbnail 下载:
.PPT幻灯片
.PNG大图
.TIFF原始图像
https://doi.org/10.1371/journal.pdig.0000334.t003
集群的可变重要性
用于识别预测相应表型簇的关键协变量(候选变量)的监督梯度提升模型具有出色的预测准确性 - 对于聚类 0、985、0 和 982,受试者手术曲线下面积 (AUC) 分别为 0.974、0.970、1.2 和 3.4。预测相应表型簇的最常见变量是卒中发生时的年龄、血压、高血压、低密度脂蛋白胆固醇和处方他汀类药物的效力——图2。
thumbnail 下载:
.PPT幻灯片
.PNG大图
.TIFF原始图像
图2. 显示作为每个表型簇核心的临床参数的图。
AKI:急性肾损伤;DBP:舒张压;dm_eye_comp:糖尿病眼科并发症;SBP:收缩压;GFR:肾小球滤过率;HB:血红蛋白;高密度脂蛋白:高密度脂蛋白胆固醇;低密度脂蛋白:低密度脂蛋白胆固醇;HBA1C:糖化血红蛋白;nonRH_aortic:非风湿性主动脉瓣疾病;SMI:严重的精神疾病;TG:甘油三酯;TIA:短暂性脑缺血发作。SHAP 汇总图将特征/变量重要性与特征效应相结合。汇总图上的每个点都是单个的 Shapley 值。y 轴上的位置由要素确定,x 轴上的位置由 Shapley 值确定。颜色表示从低到高的值。要素根据重要性排序。
https://doi.org/10.1371/journal.pdig.0000334.g002
与后续临床结局的关联
在12.60年的中位随访时间(IQR,7.60-16.97年)中,共有24,588例(51.1%)复合复发性卒中或CVD相关死亡结局。复发性脑卒中+CVD相关死亡率在4个表型簇中存在差异,聚类1的发病率最低(15.13例/100人年;95%CI,14.54-15.74),而聚类4的发病率最高(23.17例/100人年,95%CI:22.67-23.69)。第2组随后复发性卒中+CVD相关死亡率的风险显著增加(风险比(HR),1.07;95%CI:1.02-1.12);与聚类 3 相比,第 1 类(HR,20.95;1% 置信区间:14.1–26.4)和第 1 类(HR,29.95;1% 置信区间:26.1–33.1)。在随后的复发性卒中+全因死亡率结局(聚类2:HR,1.07;95%CI,1.03-1.12;聚类3:HR,1.32,95%CI,1.26-1.37;聚类4:HR,1.54;95%CI:1.48-1.60)和复发性卒中结局(聚类2:HR,1.10;95%CI,1.05-1.16;聚类3:HR,1.12, 95% 置信区间,1.06–1.18;第4组:人力资源,1.25;95% 置信区间:1.19–1.32)。
然而,对于随后的冠心病、PVD、心力衰竭、心血管疾病相关和全因死亡率结局,观察到发病率和风险比的不同趋势——图3和表2。与聚类1相比,其他3个聚类中后续冠心病事件的风险显著降低(聚类2:HR,0.49;95%置信区间:0.44-0.55;聚类3:HR,0.64;95%CI,0.56-0.73;聚类4:HR,0.55;95%CI,0.49-0.63)。与聚类 3 相比,其他 1 个簇中观察到后续 PVD 风险的降低相似。
thumbnail 下载:
.PPT幻灯片
.PNG大图
.TIFF原始图像
图3. 已确定的表型簇后续不良结局的发生率。
https://doi.org/10.1371/journal.pdig.0000334.g003
thumbnail 下载:
.PPT幻灯片
.PNG大图
.TIFF原始图像
表 2. 表型簇卒中事故后的后续主要不良结局。
https://doi.org/10.1371/journal.pdig.0000334.t004
对于随后的心力衰竭、CVD相关死亡率和全因死亡率的风险,与第2类相比,第1类的风险显著降低,而第3组和第4组的风险显著增加-表2。不同表型簇中随后心血管发病率和死亡率结局的发生如图4中的Kaplan Meier图所示。
thumbnail 下载:
.PPT幻灯片
.PNG大图
.TIFF原始图像
图4. Kaplan-Meier 按表型簇分层的后续临床结果图。
答:复发性脑卒中和CVD相关死亡率(对数排名p<0.0001);B:复发性脑卒中和全因死亡率(对数排名p<0.0001);C:循环行程(对数秩p<0.0001);D:冠心病(对数排名p<0.0001);E:外周血管疾病(对数秩p<0.0001);F:心力衰竭(对数排名p<0.0001);G:心血管相关死亡率(对数秩p<0.0001);H:全因死亡率(对数排名 p<0.0001)。
https://doi.org/10.1371/journal.pdig.0000334.g004
讨论
这项基于人群的研究使用数据驱动的聚类分析方法探索了卒中患者的表型特征,根据卒中发生时的表型特征确定了四个具有临床意义的患者集群。已确定的表型簇与随后的不良心血管发病率风险和死亡率结局之间存在不同的关系。
在我们的研究中,确定了四个不同且具有临床意义的表型簇。吸烟是影响心血管发病率和死亡率结局的强有力的独立可改变危险因素[27],在第1组和第2组患者中最为普遍。向这一组患者传达吸烟风险和戒烟益处的预防策略可能是促进戒烟和降低后续不良事件风险的有效手段[28]。除第2类外,纳入的其他3组在卒中发生时具有多种长期疾病的患病率以及CVD危险因素。已证明,发生性脑卒中患者通常已有长期疾病[29]。为了最佳地管理这些共病可能产生的动脉粥样硬化作用,以降低随后心血管并发症和死亡结局的风险,包括非药物(即生活方式改变[30,31])和药理学(降压药用于血压管理[32];降脂药物,如他汀类药物用于胆固醇管理[33];用于控制血糖的降糖药[30];抗血小板/抗凝剂治疗心律失常[34])需要根据临床指南优先考虑策略[35]。频繁监测/回顾以确保达到治疗目标非常重要[36]。年龄是一个不可改变的危险因素,是患者集群成员的关键因素。在老年人(典型的第4类人群)中,主动脉疾病、PVD和静脉血栓栓塞的发病率增加,因为与年龄相关的血管结构和功能改变因CVD危险因素暴露时间较长而加剧[37]。
聚类是用于分析大型数据集的常用方法,用于识别数据中的子组数量和每个子组的属性,正如本研究中所做的那样。在包括医疗保健在内的实际应用中分析的数据(来自电子健康记录)主要以连续变量和分类变量的混合为特征。应用于混合数据的更常见方法包括通过将分类变量编码为数字或对变量进行虚拟编码,然后将标准距离方法(例如为连续变量设计的k-means)应用于转换后的数据,以实现聚类目标[38,39]。连续变量也已使用基于区间的分桶法转换为分类变量[40,41]。当数据以这种方式转换时,在原始数据中观察到的相似性可能会丢失[40]。然而,Kamila聚类算法已被证明比任何其他方法都能更好地处理连续数据和分类数据之间的高度不平衡[40,42]。从计算的角度来看,与其他算法相比,Kamila算法在异构数据环境中处理大型数据集(与观测值和变量有关)时提供了最佳性能和最省时的效率,就像我们研究中的情况一样[40,42]。
优势和局限性
据我们所知,这是数据驱动的聚类分析首次旨在识别具有任何中风事件的大型人群中卒中表型。这使我们能够涵盖大范围的中风表型。最重要的是,我们有一个全面的链接数据库,其中包含广泛的临床数据,其中许多变量首次在聚类分析中被探索。
然而,这项研究的局限性值得考虑。首先,该研究并不是要提出新的中风分类,因为集群可能会根据患者特征和可用数据而有所不同。这些结果强调了需要新的多维卒中分类方法来改善患者护理。此外,他们旨在为未来的研究产生假设,这些研究将整合患者的临床和生物学数据,目的是改善中风患者的护理。随着机器学习的巨大进步,聚类分析可以通过多种方式进行[42,43]。然而,在解释聚类分析结果时,相关专家的知识和经验仍然是最好的判断者,因此我们的研究涉及不同的临床专家、临床研究人员和数据专家。在使用作为常规护理的一部分收集的电子健康记录的临床研究中,缺失数据的存在很常见。例如,通常只有在认为患者的健康状况有必要时才要求进行实验室检查。同样,有关BMI或吸烟状况的信息可能无法一致地记录,从而导致数据完整性模式的潜在偏差。为了解决这个问题,在我们的研究中,使用链式方程的多重插补(如方法部分所述)来处理缺失数据,这是任何缺失机制下的首选[19,20]。
影响
聚类分析最适合解决具有相当异质性的疾病状况的多维复杂性,例如中风。基于人群的聚类分析可以提供对疾病模式的进一步了解。此外,患者可以被表型化并分配到特定的集群中,这些集群可能与各种结果的不同风险相关联。根据关于风险和可能反应的现有证据,可以针对特定的表型集群采取不同的治疗策略或干预措施。未来的临床试验设计也可以关注高风险集群或关注集群内的特定方面。
结论
使用对卒中患者广泛的基线临床数据的无监督学习数据驱动的聚类分析,我们确定了四个表型和临床意义的聚类,涉及后续主要不良结局的风险。这些发现强调了卒中患者在后续不良结局方面存在的显著异质性。这为重新审视卒中患者的护理分层以改善患者预后提供了机会。需要在不同的患者队列和人群中进一步探索。
支持信息
其他方法。
显示 1/9: pdig.0000334.s001.docx
跳到无花果共享导航
S1 文本功能选择最小绝对收缩和选择运算符(套索):套索是线性的基于回归的模型,通过对回归系数。L1 惩罚强制系数小于常数。变量选择过程嵌入在这个模型是因为,鉴于 L1 范数的性质,一些系数将被强制为 0,因此从模型中消除。博鲁塔:Boruta 是一种基于森林的随机方法,它迭代地删除被证明在统计上不如随机探针相关的特征,后者是算法在模型中引入的人工噪声变量。卡米拉算法卡米拉算法1是基于模型的 k 均值的改编,用于管理异构(混合)数据集。卡米拉算法从一组质心开始对于连续变量和一组分类变量的参数。对于连续变量,与最近质心的欧氏距离为计算。这组 N 个最小距离用于估计混合物连续变量的分布。对于分类变量,概率计算给定聚类的观察数据。然后使用这两个分量之和的对数似然来求出最多的每个科目的适当集群。基于这个临时分区,质心并更新参数以最好地表示聚类。重复这些步骤,直到群集稳定。最后,多次运行此进程使用不同的初始化执行,分区最大化保留最佳最终可能性的总和。梯度提升模型梯度提升机算法是一种按顺序排列的提升算法组合决策树,以便每个额外的树都训练更多对正确预测数据点的权重放在以前的决策树上分类错误。2简单来说,每棵新树都旨在纠正以前的树。梯度提升机旨在最小化损失函数(a1
测量观测值和预测值之间的差异),方法是将基础学习器模型的序列。找到最小值的常用优化方法梯度是否体面,涉及沿着梯度下降以达到最小值。这梯度提升机背后的关键思想是按顺序添加新的基础学习器模型到集成序列,使得新模型是具有与计算的损失函数梯度的负值的最大相关性使用当前的集成序列预测。沙普(沙普利添加剂外铺)SHAP 是一种解释个人预测的方法,基于游戏理论上最优的沙普利值。SHAP 的目标是解释通过计算每个特征对预测的贡献来实例 X。这SHAP 解释方法从联盟博弈论中计算 Shapley 值。数据实例的特征值充当联盟中的参与者。沙普利价值观指示如何在功能之间公平分配“支出”(=预测)/变量。引用:1Foss AH,Markatou M. kamila:在R和Hadoop中聚类混合类型数据。J 统计软2018;83: 1–44.2弗里德曼·贪婪函数近似:梯度提升机。安统计2001;29: 1189–232.2
1 / 9
下载
无花果分享
S1 文本。 其他方法。
https://doi.org/10.1371/journal.pdig.0000334.s001
(文档)
S1 图 所有具有缺失值的临床变量。
https://doi.org/10.1371/journal.pdig.0000334.s002
(文档)
S2 图 功能选择。
https://doi.org/10.1371/journal.pdig.0000334.s003
(文档)
S3 图 49个选定变量的相关矩阵图。
https://doi.org/10.1371/journal.pdig.0000334.s004
(文档)
S4 图 49个选定变量的排名互相关图。
https://doi.org/10.1371/journal.pdig.0000334.s005
(文档)
S5 图 最佳聚类数。
https://doi.org/10.1371/journal.pdig.0000334.s006
(文档)
S6 图 主成分分析 (PCA) 图。
https://doi.org/10.1371/journal.pdig.0000334.s007
(文档)
S1 表。 所有变量的概述以及各个数据处理步骤中的输入或排除。
https://doi.org/10.1371/journal.pdig.0000334.s008
(文档)
S2 表。 对缺失数据的所有临床变量进行多次插补后的观察值与插补值。
https://doi.org/10.1371/journal.pdig.0000334.s009
(文档)
确认
我们感谢为CPRD GOLD做出贡献的做法。
引用
1.Rajsic S, Gothe H, Borba HH, Sroczynski G, Vujicic J, Toell T, et al.中风的经济负担:关于中风后护理的系统评价。欧洲经济杂志 2019;20: 107–134.密码:29909569
查看文章PubMed/NCBI谷歌学术搜索
2.Prosser J,MacGregor L,Lees KR,Diener HC,Hacke W,Davis S.缺血性中风后早期心脏病发病率和死亡率的预测因子。中风。2007;38: 2295–2302.pmid:17569877
查看文章PubMed/NCBI谷歌学术搜索
3.Joosten SA, Hamza K, Sands S, Turton A, Berger P, Hamilton G. 通过聚类分析证实的轻度至中度阻塞性睡眠呼吸暂停患者的表型。呼吸学。2012;17: 99–107.密码:21848707
查看文章PubMed/NCBI谷歌学术搜索
4.Haldar P, Pavord ID, Shaw DE, Berry MA, Thomas M, Brightling CE, et al.聚类分析和临床哮喘表型。美国呼吸暴击护理医学杂志 2008;178: 218–224.密码:18480428
查看文章PubMed/NCBI谷歌学术搜索
5.Siroux V, Basagan X, Boudier A, Pin I, Garcia-Aymerich J, Vesin A, et al.使用聚类方法识别成人哮喘表型。欧洲呼吸杂志 2011;38: 310–317.密码:21233270
查看文章PubMed/NCBI谷歌学术搜索
6.艾哈迈德 T, 彭西娜 MJ, 舒尔特 PJ, 奥布莱恩 E, 惠兰 DJ, 皮尼亚 IL, 等.通过聚类分析定义的慢性心力衰竭表型的临床意义。J Am Coll Cardiol。2014;64: 1765–1774.pmid:25443696
查看文章PubMed/NCBI谷歌学术搜索
7.Verdonschot JAJ, Merlo M, Dominguez F, Wang P, Henkens MTHM, Adriaens ME, et al.扩张型心肌病患者的表型聚类突出了重要的病理生理差异。欧洲心脏杂志 2021;42: 162–174.密码:33156912
查看文章PubMed/NCBI谷歌学术搜索
8.Seymour CW, Kennedy JN, Wang S, Chang CCH, Elliott CF, Xu Z, et al. 脓毒症新型临床表型的推导、验证和潜在治疗意义。J Am Med Assoc. 2019;321: 2003–2017.密码:31104070
查看文章PubMed/NCBI谷歌学术搜索
9.Fereshtehnejad SM, Romenets SR, Anang JBM, Latreille V, Gagnon JF, Postuma RB.帕金森病的新临床亚型及其纵向进展与其他表型的前瞻性队列比较。神经医学杂志. 2015;72: 863–873.密码:26076039
查看文章PubMed/NCBI谷歌学术搜索
10.Soria D, Garibaldi JM, Ambrogi F, Green AR, Powe D, Rakha E, et al.一种从应用于乳腺癌患者免疫组织化学数据的聚类算法中识别共识类的方法。计算生物学医学 2010;40: 318–330.密码:20106472
查看文章PubMed/NCBI谷歌学术搜索
11.Ahlqvist E, Storm P, K?r?j?m?ki A, Martinell M, Dorkhan M, Carlsson A, et al.成人发病糖尿病的新亚组及其与结果的关联:六个变量的数据驱动聚类分析。柳叶刀糖尿病内分泌。2018;6: 361–369.pmid:29503172
查看文章PubMed/NCBI谷歌学术搜索
12.Herrett E, Gallagher AM, Bhaskaran K, Forbes H, Mathur R, van Staa T, et al. 数据资源概况:临床实践研究数据链 (CPRD)。国际 J 流行病学。2015;44: 827–836.pmid:26050254
查看文章PubMed/NCBI谷歌学术搜索
13.NHS数字。医院发作统计 (HES)。在: NHS 数字 [互联网].2019 [引用日期21-2019-<>]。可用: https://digital.nhs.uk/data-and-information/data-tools-and-services/data-services/hospital-episode-statistics
14.国家统计局。死亡登记数据。在: ONS [互联网].2018 [引用日期21-2019-<>].可用: https://www.ons.gov.uk/peoplepopulationandcommunity/birthsdeathsandmarriages/deaths
15.社区和地方政府部。2015年英国剥夺指数。2015 [引用日期:10年2016月1日] 第11–2015页。可入住: https://www.gov.uk/government/statistics/english-indices-of-deprivation-<>
16.Akyea RK, Vinogradova Y, Qureshi N, Patel RS, Kontopantelis E, Ntaios G, et al. 非致命性卒中发病率和随后主要不良结局的性别、年龄和社会经济差异。中风。2021;52: 396–405.pmid:33493066
查看文章PubMed/NCBI谷歌学术搜索
17.Kuan V, Denaxas S, Gonzalez-Izquierdo A, Direk K, Bhatti O, Husain S, et al.英国国家卫生服务局 308 万人的 4 种身心健康状况的时间顺序地图。柳叶刀手指愈合。2019;1: e63–e77.密码:31650125
查看文章PubMed/NCBI谷歌学术搜索
18.CPRD @ 剑桥。代码列表(黄金)。[引用日期:6年2021月11日]。可用: https://www.phpc.cam.ac.uk/pcu/research/research-groups/crmh/cprd_cam/codelists/v<>/
19.Royston P. 缺失值的多重插补:冰的更新。统计杂志 2005;5: 527–536.
查看文章谷歌学术搜索
20.Kontopantelis E,White IR,Sperrin M,Buchan I.结果敏感多重插补:模拟研究。BMC Med Res Methodol.2017;17: 1–13.密码:28068910
查看文章PubMed/NCBI谷歌学术搜索
21.鲁宾·调查中未响应的多重插补。威利;1987. https://doi.org/10.1002/9780470316696
22.奥特曼 N, 克日温斯基 M.本月维度的诅咒。纳特方法。2018;15: 399–400.密码:29855577
查看文章PubMed/NCBI谷歌学术搜索
23.库尔萨,鲁德尼基·使用博鲁塔包进行功能选择。J 统计软件。2010;36: 1–13.
查看文章谷歌学术搜索
24.Tishbirani R. 通过套索的回归收缩和选择。皇家统计学会杂志。B系列(方法论)。1996.第267–88页。
查看文章谷歌学术搜索
25.Foss AH,Markatou M. kamila:在R和hadoop中聚类混合类型数据。J 统计软件。2018;83: 1–44.
查看文章谷歌学术搜索
26.伦德伯格 SM, 埃里昂 G, 陈 H, 德格雷夫 A, 普鲁特金 JM, 奈尔 B, 等.从本地解释到全球理解,以及可解释的树木 AI。纳特·马赫·英特尔。2020;2: 56–67.密码:32607472
查看文章PubMed/NCBI谷歌学术搜索
27.Mons U, Müezzinler A, Gellert C, Sch?ttker B, Abnet CC, Bobak M, et al.吸烟和戒烟对老年人心血管事件和死亡率的影响:来自OPPORTUNITIES联盟前瞻性队列研究的个人参与者数据的荟萃分析。英国医学杂志。2015;350: 18.pmid:25896935
查看文章PubMed/NCBI谷歌学术搜索
28.邓肯 MS, 弗莱贝格 MS, 格雷维 RA, 昆杜 S, 瓦桑 RS, 廷德尔哈.戒烟与随后心血管疾病风险的关联。JAMA—J Am Med Assoc. 2019;322: 642–650.密码:31429895
查看文章PubMed/NCBI谷歌学术搜索
29.Gallacher KI, Batty GD, McLean G, Mercer SW, Guthrie B, May CR, et al.苏格兰1,424,378名患者全国代表性样本中的中风,多病症和多药治疗:对治疗负担的影响。BMC 医学 2014;12: 1–9.pmid:25280748
查看文章PubMed/NCBI谷歌学术搜索
30.Kernan WN, Ovbiagele B, Black HR, Bravata DM, Chimowitz MI, Ezekowitz MD, et al.预防卒中和短暂性脑缺血发作患者卒中的指南:美国心脏协会/美国卒中协会的医疗保健专业人员指南。中风。2014;45: 2160–2236.密码:24788967
查看文章PubMed/NCBI谷歌学术搜索
31.Billinger SA, Arena R, Bernhardt J, Eng JJ, Franklin BA, Johnson CM, et al.中风幸存者的身体活动和锻炼建议:美国心脏协会/美国中风协会为医疗保健专业人员提供的声明。中风。2014;45: 2532–2553.密码:24846875
查看文章PubMed/NCBI谷歌学术搜索
32.有马 H, 查尔默斯 J, 伍德沃德 M, 安德森 C, 罗杰斯 A, 戴维斯 S, 等.降低目标血压对于预防复发性中风是安全有效的:PROGRESS试验。J 超高血压。2006;24: 1201–1208.pmid:16685221
查看文章PubMed/NCBI谷歌学术搜索
33.富尔彻 J, 奥康奈尔 R, 沃西 M, 恩伯森 J, 布莱克威尔 L, 米海洛娃 B, 等.男性和女性降低LDL疗法的有效性和安全性:对174项随机试验中000 27名受试者的个人数据进行荟萃分析。柳叶 刀。2015;385: 1397–1405.pmid:25579834
查看文章PubMed/NCBI谷歌学术搜索
34.根特·一项关于氯吡格雷与阿司匹林在有缺血事件风险患者 (CAPRIE) 中的随机、盲法试验。柳叶 刀。1996;348: 1329–1339.密码:8918275
查看文章PubMed/NCBI谷歌学术搜索
35.克莱因多夫 DO, 陶菲吉 A, 查图维迪 S, 科克罗夫特 KM, 古铁雷斯 J, 伦巴迪-希尔 D, 等. 2021 预防中风和短暂性脑缺血发作患者中风的指南;美国心脏协会/美国中风协会的指南。中风。2021;52: E364–E467.密码:34024117
查看文章PubMed/NCBI谷歌学术搜索
36.国家卫生与护理卓越研究所。多病症:临床评估和管理。好;2016 [引用日期:1-2021-56]。可用: https://www.nice.org.uk/guidance/ng<>
37.米勒 AP, 哈夫 CM, 鲁宾 GS.老年人的血管疾病。J 杰里亚特心脏。2016;13: 727–732.密码:27899936
查看文章PubMed/NCBI谷歌学术搜索
38.Dougherty J, Kohavi R, Sahami M. 连续特征的监督和无监督离散化。马赫学习程序1995。1995;194–202.
查看文章谷歌学术搜索
39.亨尼格, 廖天明.如何为混合类型变量找到适当的聚类,并将其应用于社会经济分层。J R Stat Soc Ser C Appl Stat. 2013;62: 309–369.
查看文章谷歌学术搜索
40.福斯 A, 马卡托 M, 雷 B, 赫钦 A.用于对混合数据进行聚类的半参数方法。马赫学习。2016;105: 419–458.
查看文章谷歌学术搜索
41.Ichino M, Yaguchi H. 用于混合特征类型数据分析的广义闵可夫斯基度量。IEEE 跨系统人赛博。1994;24: 698–708.
查看文章谷歌学术搜索
42.Preud'homme G, Duarte K, Dalleau K, Lacomblez C, Bresso E, Sma?l-Tabbone M, et al.异构数据聚类方法的头对头比较:仿真驱动的基准。科学代表 2021;11: 1–14.pmid:33603019
查看文章PubMed/NCBI谷歌学术搜索
43.麦克拉克伦·医学研究中的聚类分析及相关技术。统计方法医学研究 1992;1: 27–48.密码:1341650
查看文章PubMed/NCBI谷歌学术搜索