《电子健康记录联邦学习中的数据异质性:重症监护中急性肾损伤和败血症疾病风险预测的案例研究》期刊简介
电子健康记录联邦学习中的数据异质性:重症监护中急性肾损伤和败血症疾病风险预测的案例研究
苏拉杰·拉金德兰,徐振兴,潘伟申,阿纳布·戈什,王飞
发布时间:15 年 2023 月
抽象
随着电子健康记录(EHR)等医疗保健数据的广泛可用性,越来越多的基于数据驱动的方法来改善护理质量。预测建模旨在构建用于预测临床风险的计算模型,是医疗保健分析中一个流行的研究课题。然而,对医疗保健数据隐私的担忧可能会阻碍可推广的有效预测模型的开发,因为这通常需要来自多个临床机构的丰富多样的数据。最近,联邦学习(FL)在解决这一问题方面表现出了希望。但是,来自不同本地参与站点的数据异构性可能会影响联合模型的预测性能。由于急性肾损伤(AKI)和脓毒症在重症监护病房(ICU)患者中的高患病率,基于AI对这些疾病的早期预测是重症监护医学中的一个重要课题。在本研究中,我们以ICU中的AKI和脓毒症发病风险预测为两个示例,探讨数据异质性对FL框架的影响,并比较跨框架的性能。我们使用跨多家医院的 EHR 数据,基于本地、池化和 FL 框架构建了预测模型。本地框架仅使用来自每个站点本身的数据。合并框架合并了来自所有站点的数据。在 FL 框架中,每个本地站点都无法访问其他站点的数据。模型在本地更新,其参数共享到中央聚合器,中央聚合器用于更新联合模型的参数,然后与每个站点共享。我们发现在 FL 框架内构建的模型优于本地对应模型。然后,我们分析了站点和框架之间的可变重要性差异。最后,我们探讨了EHR数据中异质性的潜在来源。人口统计概况、药物使用和站点信息的不同分布导致了数据异质性。
作者摘要
电子健康记录 (EHR) 等大量医疗保健数据的可用性和人工智能 (AI) 技术的进步为构建疾病风险预测预测模型提供了机会。由于医疗保健数据的敏感性,从不同医院收集数据并在组合数据上训练统一的模型具有挑战性。最近的联邦学习 (FL) 展示了通过隐私保护解决分散的医疗保健数据源的前景。但是,FL 框架中的数据异构性可能会影响预测性能。探索数据源的异质性将有助于在FL中建立准确的疾病风险预测模型。在这项研究中,我们以重症监护病房(ICU)中的急性肾损伤(AKI)和败血症预测作为两个例子,探索FL框架中数据异质性对使用多个医院站点的EHR数据预测疾病风险的影响。特别是,基于本地、池化和 FL 框架构建了多个预测模型。本地框架仅使用来自每个站点本身的数据。合并框架合并了来自所有站点的数据。在 FL 框架中,每个本地站点都无法访问其他站点的数据。我们发现在 FL 框架内构建的模型优于本地对应模型。然后,我们分析了站点和框架之间的可变重要性差异。最后,我们探讨了EHR数据中异质性的潜在来源。人口统计资料、药物使用、入院时ICU类型等站点信息的不同分布导致了数据异质性。
数字
Table 1Table 2Table 3图1图2图3Fig 4Fig 5Fig 6Fig 7Fig 8Fig 9Table 1Table 2Table 3图1图2图3
引文: 拉金德兰 S, 徐 Z, 潘 W, 戈什 A, 王 F (2023) 电子健康记录联邦学习中的数据异质性:重症监护中急性肾损伤和败血症疾病风险预测的案例研究。公共科学图书馆数字健康 2(3): e0000117. https://doi.org/10.1371/journal.pdig.0000117
编辑 器: Martin G. Frasch,华盛顿大学,美国
收到: 1月 2022, 10;接受: 2023年15月2023日;发表: <>月 <>, <>
版权: ? 2023 拉金德兰等人。这是一篇根据知识共享署名许可条款分发的开放获取文章,该许可允许在任何媒体上不受限制地使用、分发和复制,前提是注明原作者和来源。
数据可用性: 患者数据是从eICU协作研究数据库中提取的,该数据库是一个多中心重症监护数据库,通过飞利浦医疗保健和麻省理工学院计算生理学实验室(https://eicu-crd.mit.edu/)公开提供。用于分析的处理数据和脚本也可在 https://github.com/surajraj99/Data-Heterogeneity-in-Federated-Learning 获得。
资金: SR要感谢由NIH拨款1T32GM083937资助的计算生物学和医学三机构培训计划(CBM)的支持。ZX、WP、FW 感谢 NSF 1750326、NSF 2212175、NIH R01AG076234、NIH RF1AG072449、Google 教师研究奖和亚马逊机器学习研究奖的支持。资助者在研究设计、数据收集和分析、发表决定或手稿准备方面没有任何作用。
竞争利益: 提交人声明不存在相互竞争的利益。
介绍
急性AKI和脓毒症是1种可能危及生命的临床疾病,使大量ICU患者的治疗、临床轨迹复杂化,并可能加重结局[2-3]。AKI或脓毒症患者的发病率和死亡率通常高于无AKI或脓毒症患者,无论ICU类型(例如,内科、外科或心脏)如何,死亡风险都会增加4倍[5-6]。此外,对于患有这些疾病的患者,ICU内的医疗保健利用率通常更高。例如,AKI合并脓毒症患者通常需要血液透析、正性肌力药物支持或机械通气[<>]。因此,在危重症监护机构早期预测AKI或脓毒症风险有助于早期干预,包括积极进行液体复苏和抗生素治疗,以改善患者结局[<>]。
最近,由于电子健康记录(EHR)数据的广泛可用性和人工智能(AI)的进步,基于机器学习(ML)的疾病风险预测在ICU环境中引起了更多关注[7]。以往关于AKI和脓毒症发病风险预测的研究主要集中在基于单一医院的医学数据建立预测模型[8-13]。然而,建立准确且可推广的疾病风险预测模型需要来自不同患者群体的大量数据[8]。将不同医院的数据收集在一起,并在组合数据上构建统一的风险预测模型,可以提高预测性能。此外,使用多个医院或站点数据而不是单个机构数据可以增加ML模型的可推广性[14]。最近的一项研究表明,创建更具可推广性的模型可以提高算法的公平性,但许多已发布的模型在地理位置和人口统计学中缺乏这种泛化性[15]。然而,由于EHR在患者受保护的健康信息(PHI)方面具有高度敏感性,因此将多个机构的数据汇总在一起具有挑战性[16]。
最近,联邦学习(FL)已成为使用碎片敏感数据构建ML模型的一种有前途的策略[17]。FL 是一种跨多个分散站点训练 ML 模型的机制,这些站点保存本地数据样本而不交换它们 [18]。它构建一个中央聚合器,通过从本地 ML 模型迭代交换模型参数来获取全局 ML 模型的参数。然而,FL框架中的数据异构性可能会影响预测性能[19]。例如,不同的医院有不同的人群,这可能在患者治疗方面具有高度的可变性,例如他们使用的不同药物和他们进行的不同程序。这种异质性尤其影响依赖于患者人口统计学、疾病史和药物的脓毒症和AKI预测模型的性能[20]。AKI和脓毒症也具有高度异质性[21]。这使得使用传统FL策略(如联合平均)构建的模型难以跨临床推广,从而限制了其使用[7,22,23]。已经提出了几种联合架构来减轻其他领域数据异构性的影响,并构建了个性化但全球相关的模型来减轻站点之间的漂移[23],例如与模型无关的元学习(MAML),联合多任务学习和知识蒸馏[24-28]。然而,目前尚不清楚这些数据异质性问题将如何影响临床医学风险预测模型的建立。
为了填补这一研究空白,我们使用来自多个医院站点的EHR数据全面研究了FL框架中数据异质性对预测ICU环境中AKI和败血症发病风险的影响。我们在局部、池化和 FL 设置中构建了多个预测模型。本地设置根据其自己的数据为每个站点构建单独的模型。合并设置构建了一个在所有站点之间共享的全局模型及其合并数据。FL 设置还构建了一个全局模型,其中每个本地站点不与其他站点共享数据,而是在本地更新模型参数,并将更新的模型参数共享到中央聚合器,该聚合器用于更新全局模型参数并与每个站点共享。通过比较从不同设置训练的模型的性能,我们研究了数据异构性如何影响联合风险预测模型。我们还通过分析不同环境和站点的预测因子重要性,探索了EHR数据中异质性的潜在来源。根据患者和医院信息对这些差异进行了对比,以阐明异质性的来源以及它们如何影响不同的预测建模设置。我们研究的整体工作流程如图1所示。
缩略图 下载:
.PPT幻灯片
.PNG大图
.TIFF原始图像
图1. 研究的框架。
在数据准备中,在观察窗口期间提取不同类型的数据,包括实验室测试、药物、生命体征和人口统计,这些数据用于构建患者的档案,以预测他们是否会在预测窗口中患急性肾损伤或败血症。在特征构建和模型训练中,从实验室测试、药物、生命体征和人口统计学中获取个体特征,以基于本地框架、池框架和联合框架三个框架构建预测模型。在每个框架中,使用了两种常见的模型架构,包括逻辑回归和多层感知器。在特征重要性分析和模型性能异质性来源中,探讨了特征重要性异构性、跨模式架构和框架的特征相关性以及模型性能异质性的来源。
https://doi.org/10.1371/journal.pdig.0000117.g001
这项工作对文献的显着贡献如下:
在 ICU 环境中 AKI 和脓毒症发病风险预测的背景下,使用一组 ML 模型对局部、合并和联合环境中的预测性能进行了全面比较。
我们已经确定了AKI和脓毒症风险的重要预测因子,并对它们会影响预测结果进行了详尽的分析。医学专家可以使用这些预测因子来监测ICU患者的AKI和败血症风险,同时考虑自己医院的具体情况。此外,我们还描述了不同医疗站点的特征重要性差异,概述了在不同设置(即本地、池化和联合)中直接比较特征重要性的指标。
我们根据患者人口统计、药物和实验室数据以及医院信息(如可用单元类型)对医院站点之间异质性的潜在来源进行了彻底分析。我们概述了这些异质性来源如何与跨站点和设置得出的不同预测因子重要性相关联。
结果
在当地建立AKI和脓毒症预测模型
根据“方法”部分中指示的纳入和排除标准,从eICU协作研究数据库中提取了21家医院的796,22名AKI患者和0082,7名脓毒症患者的数据。所有患者共享354个独特变量,包括实验室测试,生命体征,人口统计和药物。AKI患者在24小时和48小时观察窗口内被标记,导致AKI预测的两种设置。对于脓毒症,我们根据脓毒症-3临床标准标记患者数据。我们预测患者是否会在发病前6小时患脓毒症,包括发病点。在观察窗口中,实验室测试和生命体征信息通过几个统计数据(最小值、最大值、第一个值和最后一个值)聚合到几个新功能中。设计了三个模型框架,包括本地、池和联合模型体系结构。每个模型体系结构的详细信息在“方法”部分中进行了描述。针对每个框架,探索了包括多层感知器(MLP)和逻辑回归(LR)在内的两种模型架构。用于分析的处理数据和脚本也可在 https://github.com/surajraj99/Data-Heterogeneity-in-Federated-Learning 获得。在配备 1 核 CPU 的 Apple M10 Max 上,本地 LR 模型的平均训练时间为 2.54 ± 0.84 秒,本地 MLP 模型的训练时间为 2.36 ± 0.79 秒。局部性能的大标准偏差是由于不同站点的数据集大小不同。合并的LR和MLP模型分别在18.94秒±0.05秒和19.33±0.06秒内训练。联邦 LR 和 MLP 模型分别在 51.63 秒± 24.26 秒和 58.51 ± 27.45 秒内训练。站点和联合框架内的中央服务器之间的通信成本需要花费大量时间,池框架和联合框架之间的时间差异证明了这一点。通过增加本地站点在每个联合框架上训练模型的纪元数,可以降低这些通信成本。
图2显示了在AKI 24h和48h设置下通过接收器下面积-操作员曲线(AUC)测量的LR和MLP性能。脓毒症预测设置结果可在 S2 文本和 S6 图中找到。我们观察到:
使用局部模型框架时:AKI 24h LR模型在0.680-0.809范围内执行,而MLP模型在0.677-0.821范围内执行。同样,AKI 48h LR模型在0.680-0.809范围内执行,而MLP模型在0.673-0.800范围内执行。脓毒症LR模型在不同站点的表现范围在0.771-0.834之间,而MLP模型的性能范围在0.772-0.829之间。LR和MLP模型在所有预测任务中的表现相似。
使用合并模型框架时:AKI 24h LR 模型在 0.672–0.742 范围内执行,而 MLP 模型在 0.78–0.827 范围内执行。同样,合并的AKI 48h LR模型在0.683-0.744的范围内执行,而MLP模型在0.686-0.755的范围内执行。合并脓毒症LR模型的性能在0.731-0.800之间,而MLP模型的性能范围在0.732-0.793之间。与MLP合并模型相比,LR合并模型与本地模型对应模型相比表现出更一致的性能。
使用联合模型框架时:AKI 24h LR 模型在 0.742–0.834 范围内执行,而 MLP 模型在 0.732–0.839 范围内执行。同样,AKI 48h LR模型在0.722-0.835范围内执行,而MLP模型在0.72-0.833范围内执行。联邦脓毒症LR模型的性能在0.833-0.862之间,而MLP模型的性能范围在0.823-0.861之间。
通常,联合模型的性能优于本地模型和合并模型。合并模型的表现低于本地模型。
缩略图 下载:
.PPT幻灯片
.PNG大图
.TIFF原始图像
图2. 用于 AKI 设置的接收器工作曲线下面积 (AUROC)。
每个图都显示了 AKI 24 小时和 48 小时预测设置的性能。蓝条描述了每个本地站点在其各自站点测试数据上的模型性能。橙色条表示每个本地站点的测试数据的合并模型性能。绿色条表示每个本地站点的测试数据的联合模型性能。
https://doi.org/10.1371/journal.pdig.0000117.g002
脓毒症和AKI预测模型的临床解读
使用Shapley加性解释(SHAP)值,我们研究了每个模型确定为预测的特征的边际效应。图 3 显示了 AKI 预测设置中每个合并模型的前 10 个最重要特征的边际图(SHAP 依赖图)。图 4 显示了 AKI 设置联合模型的 SHAP 依赖关系图。S4 图中提供了所有局部模型的依赖图。脓毒症预测结果可在补充信息和S7图中找到。在配备 1000 核 CPU 的 Apple M1 Max 上计算 10 个样本的 SHAP 值平均需要 1076 ± 52 秒。
缩略图 下载:
.PPT幻灯片
.PNG大图
.TIFF原始图像
图3. 合并模型的前 10 个特征的 Shapley 依赖图。
每个面板都显示了使用合并模型预测 AKI 10 小时或 24 小时排名前 48 位的每个最具影响力特征的边际效应。x 轴给出每个特征的原始值,y 轴给出脓毒症 AKI 24h 或 AKI 48h 的估计优势比(即 SHAP 值)的对数,当特征取某个值时。每个点表示样本的 SHAP 值。用于更平滑地推断所有点的 LOWESS 曲线在所有面板上都以红色绘制。(a, c) 显示合并 MLP 模型的 Shapley 依赖图和 (b, d) 显示合并 LR 模型的 Shapley 依赖图。(a,b)显示AKI 24h的图,(c,d)显示AKI 48h的图。
https://doi.org/10.1371/journal.pdig.0000117.g003
thumbnail 下载:
.PPT幻灯片
.PNG大图
.TIFF原始图像
图4. 联合模型的前 10 个特征的 Shapley 依赖关系图。
每个面板都显示了使用联合模型预测 AKI 10 小时或 24 小时排名前 48 位的每个最具影响力特征的边际效应。x 轴给出每个特征的原始值,y 轴给出脓毒症 AKI 24h 或 AKI 48h 的估计优势比(即 SHAP 值)的对数,当特征取某个值时。每个点表示样本的 SHAP 值。用于更平滑地推断所有点的 LOWESS 曲线在所有面板上都以红色绘制。(a, c) 显示联合 MLP 模型的 Shapley 依赖图和 (b, d) 显示联合 LR 模型的 Shapley 依赖图。(a,b)显示AKI 24h的图,(c,d)显示AKI 48h的图。
https://doi.org/10.1371/journal.pdig.0000117.g004
在AKI 24h设置中,合并MLP模型确定了上次测量的肌酐水平(creatinine_last),上次测量的血细胞比她水平(hematocrit_last),呋塞米,bg_paco2_min,最大钾水平(potassium_max),最低肌酐水平(creatinine_min),上次测量的收缩压(sysbp_last),hemoglobin_first,最低碳酸氢盐水平(bicarbonate_min) ,最后测量的钙水平(calcium_last)是最重要的10个变量。除呋塞米外,所有因素均为实验室检查和生命体征。合并LR模型与合并MLP模型共享几个重要因素,增加了年龄,首次测量的钙水平(calcium_first)和最后测量的血尿素氮水平(bun_last)。值得注意的是,在合并MLP模型中,~4 mg/dL的creatinine_last与AKI 0h风险增加4.1倍相关。在合并 LR 模型中,creatinine_last显示出与合并 MLP 与 AKI 5 小时风险类似的强关系。bun_last测量值为 ~24 mg/dL 与 exp(24.60) = AKI 0 风险增加 2.1 倍相关。在合并 LR 模型中,给予呋塞米后 AKI 2 小时的风险大于 MLP 模型中的 AKI 风险,比值比为 exp(24.24) = 0.1。
在AKI 48h设置中,合并MLP模型识别creatinine_last,hemoglobin_first,bg_paco2_first,potassium_min,bun_last,呋塞米,二氧化碳最大分压(bg_paco2_max),hemoglobin_max,sysbp_last和首次测量的血小板计数(platlet_first) 作为最重要的 10 个变量。除呋塞米外,所有因素均为实验室检查和生命体征。合并LR模型与合并模型共享几个重要因素,增加了平均收缩压和舒张压(meanbp_first)和最低葡萄糖水平(glucose_min)。与 24 小时设置一样,在 48 小时合并 MLP 模型中,~4 mg/dL 的creatinine_last与 exp(0.4) = AKI 风险增加 1.5 倍相关。bun_last测量值大于 ~25 mg/dL 与 AKI 48h 风险增加有关。在合并 LR 模型中,creatinine_last 和 bun_last 表现出与合并 MLP 模型类似的强关系。呋塞米被认为是所有 AKI 设置和模型架构中的重要药物。
对于 AKI 24h 设置,联合 MLP 和 LR 模型认为药物比各自的合并对应药物更重要。联合MLP模型认为重要的药物包括呋塞米,氯化钾,阿司匹林和美托洛尔,而联合LR模型也认为胰岛素很重要。有趣的是,联合MLP模型将患者选择择期手术(择期手术)视为重要特征,尽管AKI 0h风险的增加相对较小(exp(02.1)= 02.24倍)。与 24 小时设置一样,AKI 48h 设置的联合 MLP 和 LR 模型认为药物比各自的合并对应药物更重要。MLP和LR模型都认为阿司匹林和胰岛素的使用是重要因素。用于 48 小时设置的联合 MLP 独特地发现“氧气分压”与“分数吸入氧气”(bg_pao2fio2ratio_min)的最小比率和最大葡萄糖水平 (glucose_max) 是重要因素。局部模型与合并和联合模型共享许多重要因素,描绘了特征值与脓毒症/AKI 风险之间的相似关系(S4 图)。
预测性能的来源 跨模型体系结构、框架和站点的异构性
为了更好地了解不同医院地点和模型框架的特征重要性差异,我们进行了定性分析,研究了模型选择的最重要变量及其在站点之间的患病率。图 5、6 和 7 显示了与 AKI 预测模型中的重要性排名相关的特征,其中 y 轴是将特征视为前 100 个特征(针对特定模型架构)的站点的比例。例如,y 值为 1.0 的要素在所有站点中都被视为重要,而如果要素的 y 值为 0.1429 (1/7),则仅在一个站点上被视为重要。x 轴显示功能的重要性排名,在它被认为重要的站点(即前 100 个)中取平均值(即,如果功能接近 1,则功能更重要)。脓毒症预测设置的结果可在补充信息和 S8 图中找到。
图 5 显示了本地模型的重要特征在站点之间的分布。对于所有设置,都有“普遍重要”和特定于站点的功能(即仅在一部分站点上重要)。AKI的大多数站点(24h和48h)的普遍重要特征包括creatinine_last,creatinine_min,creatinine_max,Ondansteron,glucose_max和urineoutput_sum的管理。但是,本地站点的功能相对重要性是不同的。这种分歧反映在局部模型的依赖图中(S4图)。普遍重要的特征,如creatinine_last、氯化钠的管理等,根据地点的不同,预测诊断具有不同的趋势。
thumbnail 下载:
.PPT幻灯片
.PNG大图
.TIFF原始图像
图5. 跨本地站点在所有本地模型中分发重要特征。
该图显示了所有AKI设置(24小时,48小时)本地模型(MLP和LR)的特征重要性差异。(a,b)显示MLP模型的特征重要性差异。(c,d)显示LR模型的特征重要性。每个点对应于七个模型中至少一个排名前 100 位的最重要特征之一;Y 轴测量将要素标识为前 100 名或“跨站点的通用性”的站点的比例;x 轴测量以“软排名”度量的特征重要性排名的平均值(越接近 1,特征排名越高)。Top-100 是我们用来分析最重要的特征以说明异质性的任意截止值。每个特征还通过跨站点排名的四分位距 (IQR) 进行颜色编码(IQR 越高,站点之间对该特征重要性的分歧就越大)。
https://doi.org/10.1371/journal.pdig.0000117.g005
图 6 显示了合并模型的重要特征在站点之间的分布。与本地模型框架相比,AKI 24h 和 48h 设置的合并模型都具有相对较少的特征,这些特征仅在少数站点很重要。对于混合MLP和LR AKI 24h或48h模型,普遍重要的特征主要包括creatinine_last,potassium_max和creatinine_min。所有 AKI 合并模型都具有对合并模型具有唯一重要的特征(即,这些功能不被视为任何本地站点的前 100 个特征的一部分)。合并MLP AKI 24h模型独特地认为硝酸甘油的给药具有中等重要性。合并的LR AKI 24h模型独特地认为甲氧氯普胺莫匹罗星,利多卡因和race_black的给药稍微重要。合并MLP AKI 48h模型独特地认为氢吗啡酮和bilirubin_last的给药分别具有轻微和中等重要性。合并的LR AKI 48h模型也独特地认为氢吗啡酮和bilirubin_last的给药具有中等重要性。综上所述,这些差异表明,模型之间独特重要特征存在轻微差异。
thumbnail 下载:
.PPT幻灯片
.PNG大图
.TIFF原始图像
图6. 跨本地站点的合并模型中的重要特征分布。
该图显示了所有AKI设置(24小时,48小时)合并模型(MLP和LR)的特征重要性差异。每个点对应于合并模型排名前 100 名的最重要特征之一;y 轴测量站点之间的通用性;X 轴测量功能重要性软排名。
https://doi.org/10.1371/journal.pdig.0000117.g006
图 7 显示了联合模型的重要特征在站点之间的分布。与合并模型一样,与本地模型分析相比,MLP 和 LR 联合模型都具有相对较少的特征,这些特征仅在少数站点中很重要。联合MLP AKI 24h模型与其集合对应模型共享其普遍重要的特征,即将重要性归因于creatinine_last,potassium_max和creatinine_min等。这些功能在联合 LR 架构以及 48 小时设置中普遍重要。一些联合 AKI 模型也具有独特的重要功能。联合MLP AKI 24h模型将右美托咪定的给药视为重要变量。联合LR AKI 48h模型认为去氧肾上腺素的给药略有重要。与合并设置一样,我们可以看到特征重要性之间的差异,这些差异在所有站点上都不被认为是普遍重要的。
thumbnail 下载:
.PPT幻灯片
.PNG大图
.TIFF原始图像
图 7. 跨本地站点的联合模型的重要特征分布。
该图显示了所有 AKI 设置(24 小时、48 小时)联合模型(MLP 和 LR)的特征重要性差异。每个点对应于合并模型排名前 100 名的最重要特征之一;y 轴测量站点之间的通用性;X 轴测量功能重要性软排名。
https://doi.org/10.1371/journal.pdig.0000117.g007
跨模型架构的特征重要性的关联
为了研究模型架构之间特征重要性的差异,我们研究了MLP和LR模型在每个设置和框架中共享的特征的重要性排名之间的相关性。图 8 显示了这些相关性,其中 x 轴和 y 轴分别是特征在 MLP 和 LR 模型中的重要性。在AKI 24h设置中,局部模型与皮尔逊相关系数(PC)的正相关性中等强,范围为0.79–0.84。与本地模型相比,合并和联合 AKI 24h 模型显示出略弱的正相关性 PC = 0.79, 0.77。这些结果表明,在 AKI 设置中,合并模型和联合模型无法成功减少本地模型中存在的 LR 和 MLP 体系结构之间的特征差异。脓毒症预测设置结果可在补充信息和 S9 图中找到。
thumbnail 下载:
.PPT幻灯片
.PNG大图
.TIFF原始图像
图8. AKI 24小时设置的跨模型架构的重要功能比较。
该图显示了MLP和LR模型中重要特征之间的相关性。每个点对应于MLP和LR模型排名前100位的最重要特征之一。y 轴测量特征在 LR 模型中的重要性,而 x 轴测量 MLP 模型中的重要性。阴影部分表示 95% 置信区间。每个比较的PC(皮尔逊相关系数)在每个图的左上角表示。(a) 显示了本地站点的比较,420、252 和 73。(b) 显示合并模型的比较。(c) 显示联合模型的比较。
https://doi.org/10.1371/journal.pdig.0000117.g008
局部特征重要性与非局部框架特征重要性之间的相关性
为了研究本地框架与池框架和联合框架之间异构特征的相关性,我们建立了“唯一重要性评分”(UIS)。对于在一小部分站点中非常重要的特征,统计研究所的得分很大,而对于被认为具有普遍重要性的特征(即在多个站点中很重要的特征),统计研究所的分数很小。换句话说,对于位于图 5、6 和 7 中图的右下角区域的特征,分数很大。统计研究所分数的计算可以在方法部分找到。图 9 显示了 UIS 分数跨框架的相关性。从脓毒症和 AKI 的汇总和联合框架分析中都可以得出类似的结论。本地 UIS 与池化/联合化之间存在很强的正相关关系(PC 范围为 0.84–0.93)。有趣的是,对于所有分析,在UIS分数越高,最佳拟合线的置信度越低。这表明,在局部框架中被认为普遍重要的特征对于合并/联合模型很重要,而仅在一小部分医院中重要的特征被忽略了。
thumbnail 下载:
.PPT幻灯片
.PNG大图
.TIFF原始图像
图 9. 本地框架和池/联合框架之间唯一重要性分数 (UIS) 的相关性。
x 轴是本地模型框架中每个特征的 UIS。y 轴是池/联合模型的 UIS。绘制最佳拟合线,并在顶角显示方程以及皮尔逊相关系数 (p)。阴影区域表示 95% 置信区间。第一列描绘了 MLP 模型的图,而第二列描绘了 LR 模型的图。(a,b)显示脓毒症设置的分析,(c,d)显示AKI 24h设置的分析。(a, c) 显示对合并框架的分析,(b, d) 显示对联合框架的分析。
https://doi.org/10.1371/journal.pdig.0000117.g009
数据异构性的来源
表1和表2分别显示了AKI和脓毒症患者每个站点的人口统计学概况。对于 AKI 和脓毒症,站点显示相似的性别分布,所有站点中略占大多数患者为男性。所有部位的年龄分布也相似,大多数患者年龄在50-75岁之间。患者 BMI 在不同站点相似,大多数患者的 BMI 在 23-34 之间。与其他站点相比,站点 199 的 BMI 小于 23 的患者略少,BMI 大于 34 的患者更多。在这两种情况下,接受择期手术的患者数量存在差异,比例在0.12-0.28之间。患者在不同地点的种族细分方面表现出差异。非裔美国人人口因地点而异,从站点 0 的 02.0/01.199(AKI/败血症)到站点 0 的 3.0/32.243。与其他站点相比,站点 73 的西班牙裔人口相对较多,而站点 122、243、252 和 458 没有西班牙裔患者。所有地点的亚洲人口相似。“其他”种族类别在所有站点中具有最大的个人比例,但该比例在很大程度上取决于站点,范围从0.67-0.98不等。如前所述,所有情况下(AKI 24h、28h和脓毒症)的大多数患者对该病呈阴性。对于 AKI 24h 和 AKI 48h 设置,AKI 阳性患者的比例范围为 0.06/0.08(24h/48h)至 0.1/0.13。对于脓毒症,阳性患者的比例范围为 0.02-0.20。
thumbnail 下载:
.PPT幻灯片
.PNG大图
.TIFF原始图像
表 1. 每个站点的AKI患者的人口统计学特征。
括号中指定的具有某些特征的个人百分比。表1正/负分布与 AKI 48h 设置相关。
https://doi.org/10.1371/journal.pdig.0000117.t001
thumbnail 下载:
.PPT幻灯片
.PNG大图
.TIFF原始图像
表 2. 每个站点脓毒症患者的人口统计学特征。
括号中指定的具有某些特征的个人百分比。
https://doi.org/10.1371/journal.pdig.0000117.t002
表3显示了7家医院的一般站点信息。这些地点位于美国大陆的东北部、中西部和南部。所有站点都很大,有500多张床位。所有站点的患者病房类型都存在差异。站点 420、243、252 和 199 在心胸重症监护病房 (CTICU) 中没有患者。站点252和458在内外科病房(Med-Surg ICU)中没有患者。站点122和199在外科重症监护室(SICU)中没有患者。站点 122、243、458 和 199 在重症监护心胸重症监护室 (CCU-CTICU) 中没有患者。站点 420 和 122 在心胸重症监护室 (MICU) 中没有患者。站点 420、122 和 199 在神经护理病房(神经 ICU)中没有患者。站点 252、199 和 73 在心脏重症监护室(心脏 ICU)中没有患者。在同一单位共享患者的站点之间,比例可能不同。例如,虽然站点 199 和 73 都有患者在 Med-Surg ICU,但站点 88 中 199% 的患者被收治到 Med-Surg ICU,而站点 16 中只有 73% 的患者被收治到Med-Surg ICU。这些站点在患者入院来源方面也存在差异。在医院中,大多数患者要么直接入院,要么从急诊室或手术室入院。值得注意的是,在Site 199,22%的患者从ICU入院进入特殊护理病房(SCU)。在Site 73,没有病人从恢复室入院。综上所述,尽管网站很大,但在单位类型和入场来源方面存在差异。
thumbnail 下载:
.PPT幻灯片
.PNG大图
.TIFF原始图像
表 3. 医院网站信息。
括号中指定的使用百分比/个人。
https://doi.org/10.1371/journal.pdig.0000117.t003
S5 图显示了各站点的药物使用情况。脓毒症和 AKI 设置的所有部位仅使用 22 种药物。进一步的分析表明,即使对于在多家医院使用的药物,每家医院服用药物的患者比例也有很大差异。再加上单位类型的差异,这表明每个医院地点治疗的个体人群明显不同,尽管所有这些医院都有患有AKI和败血症的患者。
讨论
在这项研究中,为了研究数据异质性对FL性能的影响,开发了多个机器学习模型来预测多个ICU环境中AKI和败血症疾病的风险。从eICU协作研究数据库中的七家医院中提取了不同类型的EHR,包括实验室测试,生命体征,人口统计和药物。探讨了三个模型框架,包括本地、池和联合。通过模型性能比较和特征重要性分析评估医院站点间数据异质性的影响。根据患者人口统计、药物使用情况和一般医院属性调查了医院之间的数据异质性来源。
我们的预测模型显示出与最先进的AKI和脓毒症预测研究相当的性能[7]。此外,在我们的结果中,联合模型框架通常优于本地模型框架。然而,这在很大程度上取决于来自不同医院的患者群体的异质性。此外,合并模型与局部模型相比没有太大改进,这可能主要是由于跨站点样本异质性。尽管在我们的调查中,FL的表现优于合并模型,但我们的FL策略是基于联邦平均值的,没有考虑这种跨站点异质性,因此很难证明结论的普遍性。联合模型比合并模型性能更好的一个原因可能是它们的权重分布。与所有设置的合并模型相比,联合模型的权重集中在零附近。接近零的权重越多意味着模型是正则化和更简单的,这可能更好地泛化[29]。
通过比较特征重要性来评估跨站点和框架的预测模型的性能异构性。对于AKI和脓毒症预测任务,预测模型确定的重要变量与先前的研究一致[7]。例如,肌酐和呋塞米暴露与AKI呈正相关,鉴于它们与AKI的临床关联,这并不奇怪。对于相同的模型架构,特征的重要性因站点而异,变量预测关系会发生变化(见图 5、6、7)。“普遍重要的特征”(即在大多数地点被认为非常重要的特征)和“独特重要特征”(即在一小部分地点非常重要的特征)的存在表明,在各地点的相对重要性方面存在分歧。联合框架和池化框架的特征异质性图显示,唯一重要特征的数量减少。这表明这两个框架都能够赋予跨多个站点共享的功能更高的重要性。
我们的研究结果还表明,联合和池化模型在减少LR和MLP架构之间的特征重要性差异方面并不成功,并且池化和联合框架都优先考虑在多个站点中被认为重要的功能(即低UIS),并将重要性降低归因于在一小部分站点中具有独特重要性的功能(即 高 UIS)。这些发现还表明,联合模型可能更善于区分患者级临床、实验室和人口统计信息的关键特征,从而改善风险预测。在重症监护医学领域,这一发现的含义是,在异构数据源中,联合模型更有可能突出可以更好地预测医院、患者和实践特定情况之间的败血症和 AKI 的共同元素,从而突出模型价值的普遍性。然而,因此,与合并或局部模型相比,可能更好地预测医院内AKI和败血症的重要局部特征可能会被忽略,这可能反过来限制这些工具的临床效用,这一发现在AI / ML文献中越来越得到认可。
在我们的分析中,医院和ICU的特征差异是显着的。许多站点没有任何患者入住ICU类型,而其他站点的患者比例很高,例如内科ICU或SICU。在这些医院,不同的地点治疗不同的疾病。因此,治疗方法可能因脓毒症和AKI的病因和性质而异[30]。例如,在心脏 ICU 接受失代偿性心力衰竭治疗且随后发生 AKI 的患者可接受正性肌力支持和呋塞米治疗,而接受 AKI 治疗脓毒性休克的患者可积极补充静脉输液。因此,专门治疗不同病症的不同医院在面对同一疾病时可能具有略有不同的药物治疗方案,这反过来可能是执业医师及其对治疗方案的选择的功能,包括药物、预先指定的方案,甚至更高级别的关于集中医院药房内成本的决定。我们的模型强调了医院药物使用之间的这种假定差异,在模型训练中创造了另一个异质性来源。药物和人口统计学细节的这种异质性在特征异质性图中得到了证明,因为具有较高 UIS 分数的特征往往是药物和人口统计信息。不同的是,实验室检查和生命体征通常是医院普遍重要的特征,可能是因为这些特征在医院之间通常是标准化的。综上所述,由于药物和治疗管理方面的分歧,即使不同地点的人口统计数据相似,地方框架的普遍性也可能受到严重影响。然而,临床医生可能会发现在位点特异性因素中使用,这些因素在联合框架中可能并不明显,只能在局部框架内确定。因此,虽然联合框架可以提供性能提升,但本地框架仍然可以在确定风险预测的重要站点特定因素方面提供临床价值。
局限性
我们的研究有几个局限性。首先,我们主要考虑结构化的临床信息来构建特征。集成非结构化自由文本以构建预测模型可以获得更好的预测性能,并允许预测的可解释性达到新的水平。其次,我们只考虑了LR和MLP来构建基于本地、池化和联合框架的预测模型。其他算法解决方案(如支持向量机)可能具有提高模型性能的潜力。第三,我们主要关注描述FL中数据异质性在疾病风险预测方面的影响。考虑数据协调技术和其他联合技术来缓解问题并提高性能是未来的研究课题之一。此外,实时医疗用途可能需要处理数据异构性同时降低通信成本的联合技术。
方法
道德声明
本研究分析了一个公开的匿名数据库(eICU协作研究数据库),该数据库已获得先前存在的机构审查委员会的批准。数据的收集符合麻省理工学院IRB第0403000206号规定的道德标准以及1964年《赫尔辛基宣言》及其后来的修正案。由于数据库是完全匿名的,因此使用数据不需要正式同意。
数据聚合
患者数据是从eICU协作研究数据库中提取的,该数据库是一个多中心重症监护数据库,通过飞利浦医疗保健和麻省理工学院计算生理学实验室(https://eicu-crd.mit.edu/)公开提供。该数据库包含有关ICU患者临床护理的详细信息。我们调查了三种疾病环境(24h或48h观察窗(OW)AKI和败血症)。AKI(非分级)定义为以下任何一种:血清肌酐 (SCr) 在 0 小时内增加 > = 3.26 mg/dl (> = 5.48 μmol/l),SCr 增加至 > = 1.5 倍基线已知或假定在过去 7 天内发生,或尿量< 0.5 ml/kg/h 持续 6 小时。我们使用累积的OW预测AKI风险(S1图)。我们在OW结束后的24小时内(预测窗口,PW)预测了AKI,仅关注患者住院的前3天(72小时)(最大OW = 48小时)。对于每位患者,我们创建了2对OW/PW,特别是使用OW = 入院后1-24小时(1天),1-48小时(2天)。我们不考虑发病点。对于 AKI 预测实验设置,阳性个案是在预测窗口中诊断为 AKI 的样本,而对照是在预测窗口中未诊断为 AKI 的样本。对于脓毒症预测,我们根据脓毒症-3临床标准标记患者数据。我们预测患者是否会在发病前6小时患脓毒症,包括发病点。对于脓毒症预测实验设置,阳性病例是被诊断为脓毒症的样本。对照是未被诊断为脓毒症的样本。对于未发生脓毒症的患者,从患者住院期间的随机 T 小时时间窗口(T 通常设置为 48 或 24 小时)中选择预测变量值。对于发生脓毒症的患者,选择患者入院内至脓毒症发作前6小时的时间,并提取预测变量值。数据来自七家具有以下ID的医院:420、122、243、252、458、199和73。对于所有三种疾病预测(24h 或 48h AKI 和脓毒症),所有医院站点共享所有特征,包括:一般人口统计信息(8 个变量)、生命体征/实验室测试(29 个变量)和药物(254 种药物)。对于 28 个生命体征和实验室测试,计算最大值、最小值、第一个值和最后一个值。对于尿液,仅计算总和。总的来说,每个医院站点共有 354 个功能可供每位患者使用。
数据处理
对于所有数据集,我们执行了自动化管理过程,概述如下:(1)系统地识别出超过第1和第99个百分位数的数字特征(例如,生命体征/实验室测试和一些人口统计信息)的极值作为异常值。我们将这些值标记为缺失。首先,此步骤将人口统计数据(BMI,年龄)中的值和一些生命体征标记为缺失。通过临床文献对标记为缺失的值进行了调查,以确认它们在生理上是不可能的。先前利用eICU协作研究数据库的研究表明,这些错误是随机的,可以在下游分析中消除[31-32]。(2)我们通过规范化所有数值特征并将二进制特征转换为 1 或 -1 来适当地标准化所有变量。(3)对于所有缺失的测量值,使用链式方程多重插补算法(MICE)。MICE插补可以通过利用数据集中非缺失测量之间的关系来计算缺失信息。由于去除异常值后患者总体分布是保守的(由于被视为异常值的值数量有限),MICE插补也可以提供对这些值的可靠估计[33]。
试验设计
有24个预测任务,包括AKI的48小时和54小时预测以及败血症预测。设计了三个模型框架,包括本地、池和联合模型框架。本地模型框架仅使用来自每个站点本身的数据。合并模型框架合并了来自所有站点的数据。在联合模型框架中,每个本地站点都无权访问其他站点的数据。模型在本地训练,其参数共享给中央聚合器,中央聚合器用于更新全局模型参数,随后将其发送回每个站点。对于每个框架,LR 和 MLP 都用作模型架构,因此总共执行了 7 个任务(3 个特定于站点的(本地)x 2 个预测任务 x 1 个架构 + 3 个池化模型 x 2 个预测任务 x 1 个架构 + 3 个联合模型 x 2 个预测任务 x 4 个架构)。对于所有设置,在训练模型期间使用了五重交叉验证。形状加法解释 (SHAP) 工具用于计算每个任务的特征重要性排名。马尔可夫链类型 <> 排名聚合用于合并所有五个折叠的特征重要性排名。
学习算法
为了研究跨架构异构性的影响,我们专注于两个学习模型:多层感知器(MLP)和逻辑回归(LR)。MLP是一类具有非参数泛函形式的前馈人工神经网络(ANN)[34]。MLP 至少由三层节点组成:输入层、隐藏层和输出层。除输入节点外,每个节点都是使用非线性激活函数的神经元。MLP利用一种称为反向传播的监督学习技术进行训练。它的多层和非线性激活将MLP与线性感知器区分开来。它可以区分不可线性分离的数据。由于MLP是完全连接的,因此一层中的每个节点都以一定的权重连接到下一层中的每个节点[35]。为了实现MLP模型,使用了Python的PyTorch库。PyTorch是基于Torch库的开源机器学习框架,用于计算机视觉和自然语言处理等应用,主要由Facebook的AI研究实验室开发[36]。所有MLP模型都有一个10个单位的隐藏密集层,学习率= 0.001,使用二进制交叉熵损失和随机梯度下降优化。为了减轻班级失衡,使用类权重来惩罚正类不准确的损失。这使得模型能够更加关注正类中的示例,尽管类分布存在偏差[37]。每个模型都训练了 200 个 epoch,批大小为 64。纪元是所有训练数据通过模型所需的迭代总数,而批量大小是模型更新之前每次迭代中处理的样本数[38]。
除了MLP模型之外,我们还实现了LR模型。LR模型具有参数函数形式,并将事件的对数几率表述为自变量的线性组合[39]。LR模型由一个线性层组成,然后是sigmoid激活。与MLP一样,使用了学习率= 0.001,二进制交叉熵损失和随机梯度下降优化。类权重的应用方式与MLP模型类似。为了保持一致性和实现直接比较,所有任务的每个框架的所有模型都是使用相同的体系结构构建的。
由于MLP模型的输出是输入的非线性函数,因此MLP分类的决策边界也是非线性的,这比LR模型提供了更大的灵活性[34]。因此,我们想研究异构性对这两种不同架构的影响。
我们感兴趣的主要模型框架是联邦学习模型。在此模型中,训练在不同的站点进行,并将参数共享到中心位置。为了同时使用 MLP 和 LR 架构创建联合模型,使用了联合平均技术。过程如下:中央聚合器使用随机参数初始化联合模型。该模型被发送到每个站点,然后训练一个纪元。接下来,模型参数被发送回执行联合平均的中央聚合器。然后将来自中央聚合器的更新参数发送回每个站点,并且重复此循环多个时期。联合平均根据可用数据点的数量缩放每个站点的参数,并按图层对所有参数求和。通过这种技术,联合模型没有收到任何原始数据。在每个周期的每个站点执行类加权,以确保本地数据分发信息不会发送到全局服务器。本地服务器模型的所有参数都保持不变,以便进行比较。我们能够通过这种机制执行联邦类加权,因为医院之间的本地数据分布相似。
假设 M 个本地站点,每个站点有 N 个m样本(第 m 个本地站点中的样本数)。 是第 m 个站点的第 n 个样本的权重,是样本的真值标签,即第 m 个站点的第 n 个样本:
基本模型Ω在全局服务器上初始化。在不损失泛化性的情况下,以下步骤假设方程 (1) 描述的 LR 模型。 是样本 X 的预测值n通过参数为 β 的 LR 模型:
(1)
在每个纪元开始时,模型Ω从全局服务器复制到本地站点Ωm:
Ωm使用一个纪元的本地站点数据进行训练。第 m 个站点的损失 (lm) 是使用修正的二元交叉熵计算的,该熵考虑了站点的类权重,由方程 (2) 描述。 是样本的模型预测,BCE() 是二进制交叉熵函数:
(2)
本地模型Ωm通过反向传播和梯度下降进行更新:
所有βm被传输到全局服务器,其中所有β的图层权重m通过方程 (3) 取平均值,为下一个纪元生成更新的全局模型:
(3)
联邦平均的一次迭代的时间复杂度为 O(ZmNm) 对于客户端 m,其中 Zm是模型中的参数数。一次迭代的通信开销为 O(Zm).
评估
我们使用接收器算子曲线下面积(AUROC)来比较整体预测性能,众所周知,该性能对不平衡数据集更稳健。除AUROC外,还计算了准确性,精密度和召回率。除了每个模型的聚合性能指标外,还测量了训练损失和训练/测试 AUROC 历史记录。使用学生的t检验进行显著性检验。每个任务的特征重要性排名是使用 SHAP 计算的。为了更多地关注最具影响力的特征(即排名前 100 的变量),而不会丢失较弱特征的信息,我们通过对原始等级 (r) 应用指数递减函数来分配特征的“软”成员资格,即排名相对于顶部 (s = 100) 有多高,即 f(r) = exp{?r/s}。对于某些顶级特征,生成了 SHAP 依赖图,以说明每个特征对模型所做的预测的影响。局部加权散点图平滑 (LOWESS) 用于将平滑趋势线拟合到依赖图。
为每个模型架构-设置-框架组合计算唯一重要性得分 (UIS)。对于局部模型分析,平均重要性i利杰对于每个功能,J是通过平均所有站点中所述功能的所有软排名来计算的。这是针对每个本地站点上排名前 100 的功能完成的。对于合并分析和联合分析,重要性 (iPJ或我FJ)的每个特征j被设置为所述特征在合并或联合模型中的软排名。在所有模型框架中,每个特征的频率f是通过确定特征是前100个特征的本地站点的比例来计算的。给定 i利杰, iPJ, iFJ和 f:
支持信息
所有脓毒症模型的性能摘要。
显示 1/14: pdig.0000117.s001.docx
跳到无花果共享导航
S1 表。所有脓毒症模型的性能摘要。显示了每个 LR 和 MLP 模型的性能模型框架。捕获四个指标:准确性、AUC、精度和召回率。
1 / 14
下载
无花果分享
S1 表。 所有脓毒症模型的性能摘要。
显示了每个模型框架的 LR 和 MLP 模型的性能。捕获四个指标:准确性、AUC、精度和召回率。
https://doi.org/10.1371/journal.pdig.0000117.s001
(文档)
S2 表。 所有AKI 24h型号的性能摘要。
显示了每个模型框架的 LR 和 MLP 模型的性能。捕获四个指标:准确性、AUC、精度和召回率。
https://doi.org/10.1371/journal.pdig.0000117.s002
(文档)
S3 表。 所有AKI 48h型号的性能摘要。
显示了每个模型框架的 LR 和 MLP 模型的性能。捕获四个指标:准确性、AUC、精度和召回率。
https://doi.org/10.1371/journal.pdig.0000117.s003
(文档)
S1 图 AKI 和脓毒症的预测设置详细信息。
对于 AKI 预测,有两个观察窗口 (2 OW),用于创建 2 个 AKI 预测设置。AKI 设置的观察窗口可以是 24 小时或 48 小时。对于脓毒症预测,观察窗口是从入院到脓毒症发作前 6 小时的整个时间段。
https://doi.org/10.1371/journal.pdig.0000117.s004
(提夫)
S2 图 本地和联合模型的脓毒症训练和测试历史记录。
已显示训练 AUC、测试 AUC 和每个时期(从左到右)的训练损失。(a,c)显示当地历史,其中每种颜色表示不同地点的历史。(b, d) 显示联合模型的历史记录,其中每种颜色显示模型在对该站点的数据进行训练/测试时的历史记录。AKI 设置的训练和测试历史记录显示与脓毒症设置相似的模式。
https://doi.org/10.1371/journal.pdig.0000117.s005
(提夫)
S3 图 AKI 本地和联合模型的 24 小时训练和测试历史记录。
已显示训练 AUC、测试 AUC 和每个时期(从左到右)的训练损失。(a,c)显示当地历史,其中每种颜色表示不同地点的历史。(b, d) 显示联合模型的历史记录,其中每种颜色显示模型在对该站点的数据进行训练/测试时的历史记录。AKI 设置的训练和测试历史记录显示与脓毒症设置相似的模式。
https://doi.org/10.1371/journal.pdig.0000117.s006
(提夫)
S4 图 局部模型的 10 个重要特征的 Shapley 依赖图。
每个面板都显示了所有本地站点模型中用于预测脓毒症、AKI 24h 或 48h 的有影响力的特征的边际效应。所有 7 个站点都绘制在每个面板中,其中每种颜色对应于不同的站点(请参阅图例)。x 轴给出每个特征的原始值,y 轴给出脓毒症 AKI 24h 或 AKI 48h 的估计优势比(即 SHAP 值)的对数,当特征取某个值时。每个点表示样本的 SHAP 值。用于更平滑地推断所有点的 LOWESS 曲线绘制在每个站点的所有面板中。(a、c 和 e) 显示联合 MLP 模型的 Shapley 依赖图,(b、d 和 f) 显示联合 LR 模型的 Shapley 依赖图。(a,b)显示败血症的图,(c,d)显示AKI 24h的图,以及(e,f)显示AKI 48h的图。
https://doi.org/10.1371/journal.pdig.0000117.s007
(提夫)
S5 图 跨本地站点的药物使用情况。
(a,b)显示医院的用药频率。X 轴是医院的数量,y 轴是药物的数量。例如,有~20种药物只出现在1家医院。(c,d)对于在2家或更多医院出现的药物,显示不同医院的药物使用分歧。X轴显示每家医院使用药物的患者比例的标准偏差箱(即,标准差值越大表示分歧越多)。Y 轴显示直方图箱内的药物数量。
https://doi.org/10.1371/journal.pdig.0000117.s008
(提夫)
S6 图 用于脓毒症设置的受试者工作曲线下面积 (AUROC)。
每个图都显示了脓毒症预测设置的性能。蓝条描述了每个本地站点在其各自站点测试数据上的模型性能。橙色条表示每个本地站点的测试数据的合并模型性能。绿色条表示每个本地站点的测试数据的联合模型性能。
https://doi.org/10.1371/journal.pdig.0000117.s009
(提夫)
S7 图 合并和联合脓毒症模型的前 10 个特征的 Shapley 依赖图。
每个面板都显示了使用合并和联合模型预测脓毒症的前 10 名中排名前 <> 位的每个最具影响力的特征的边际效应。x 轴给出每个特征的原始值,y 轴给出特征取特定值时脓毒症估计优势比(即 SHAP 值)的对数。每个点表示样本的 SHAP 值。用于更平滑地推断所有点的 LOWESS 曲线在所有面板上都以红色绘制。(a, c) 显示 MLP 模型的沙普利依赖图和 (b, d) 显示 LR 模型的沙普利依赖图。(a, b) 显示合并模型的绘图,(c, d) 显示联合模型的绘图。
https://doi.org/10.1371/journal.pdig.0000117.s010
(提夫)
S8 图 跨本地站点在所有本地、池和联合模型中分发重要功能。
该图显示了脓毒症设置和模型结构(MLP 和 LR)的特征重要性差异。(a-c) 显示 MLP 模型的特征重要性差异。(d-f) 显示 LR 模型的特征重要性。每个点对应于七个模型中至少一个排名前 100 位的最重要特征之一;Y 轴测量将要素标识为前 100 名或“跨站点的通用性”的站点的比例;x 轴测量以“软排名”度量的特征重要性排名的平均值(越接近 1,特征排名越高)。Top-100 是我们用来分析最重要的特征以说明异质性的任意截止值。在(a,d)中,每个特征也由跨站点的排名的四分位距(IQR)进行颜色编码(IQR越高,站点之间对该特征的重要性的分歧就越大)。(b, e) 显示合并模型的最重要特征。(c, f) 显示联合模型的最重要功能。
https://doi.org/10.1371/journal.pdig.0000117.s011
(提夫)
S9 图 脓毒症设置跨模型架构的重要特征比较。
该图显示了MLP和LR模型中重要特征之间的相关性。每个点对应于MLP和LR模型排名前100位的最重要特征之一。y 轴测量特征在 LR 模型中的重要性,而 x 轴测量 MLP 模型中的重要性。阴影部分表示 95% 置信区间。每个比较的PC(皮尔逊相关系数)在每个图的左上角表示。(a) 显示了本地站点的比较,420、252 和 73。(b) 显示合并模型的比较。(c) 显示联合模型的比较。
https://doi.org/10.1371/journal.pdig.0000117.s012
(提夫)
S1 文本。 缩写。
https://doi.org/10.1371/journal.pdig.0000117.s013
(文档)
S2 文本。 脓毒症预测设置的验证。
https://doi.org/10.1371/journal.pdig.0000117.s014
(文档)
引用
1.Zeng X., McMahon G. M., Brunelli S. M., Bates D. W., Waikar S. S. 住院个体中AKI定义的发病率,结局和比较。密码:24178971
查看文章PubMed/NCBI谷歌学术搜索
2.李承晚, 但丁 R, 爱泼斯坦 L, 等.使用临床与索赔数据的美国医院脓毒症的发病率和趋势,2009-2014 年。贾马。2017;318(13):1241–1249.密码:28903154
查看文章PubMed/NCBI谷歌学术搜索
3.程鹏,Waitman Lemuel R.,胡勇,刘梅,预测不同时间范围内的住院急性肾损伤:多早和准确?见:AMIA年度研讨会论文集,第2017卷,2017年,第565页。密码:29854121
查看文章PubMed/NCBI谷歌学术搜索
4.西摩, 刘VX, Iwashyna TJ, et al.脓毒症临床标准评估:脓毒症和脓毒性休克的第三种国际共识定义(脓毒症-3)。贾马。2016;315(8): 762–774.密码:26903335
查看文章PubMed/NCBI谷歌学术搜索
5.Alobaidi R., Basu R. K., Goldstein S. L., Bagshaw S. M. 败血症相关的急性肾损伤。肾脏病学研讨会。2015;35(1), 2–11.pmid:25795495
查看文章PubMed/NCBI谷歌学术搜索
6.文森特 J. L., 佩雷拉 A. J., 格里森 J., 贝克 D.脓毒症的早期管理。临床和实验急诊医学。2014;1(1), 3–7.密码:27752546
查看文章PubMed/NCBI谷歌学术搜索
7.宋X, 于阿斯, 凯勒姆, 怀特曼, 马塞尼, 辛普森, 等.用于急性肾损伤预测的可解释人工智能模型的跨站点可移植性。自然通讯.2020;11(1).密码:33168827
查看文章PubMed/NCBI谷歌学术搜索
8.Sarnowski A,Hodgson L.普通医院人群急性肾损伤预后预测模型的系统评价:方法学。2020;
查看文章谷歌学术搜索
9.科伊纳 JL, 凯里 KA, 埃德尔森 DP, 楚尔佩克 MM.机器学习住院患者急性肾损伤预测模型的开发*。重症监护医学。2018;46(7):1070–7.密码:29596073
查看文章PubMed/NCBI谷歌学术搜索
10.Churpek MM, Carey KA, Edelson DP, Singh T, Astor BC, Gilbert ER, et al.急性肾损伤机器学习风险评分的内部和外部验证。美国医学会网络开放。2020;3(8).pmid:32780123
查看文章PubMed/NCBI谷歌学术搜索
11.Wong A, Otles E, Donnelly JP, Krumm A, McCullough J, DeTroyer-Cooley O, et al.在住院患者中广泛实施的专有脓毒症预测模型的外部验证。美国医学会内科。2021;密码:34152373
查看文章PubMed/NCBI谷歌学术搜索
12.Reyna M, Prajwal Shashikumar S, Moody B, Gu P, Sharma A, shamim nemati, et al.从临床数据早期预测脓毒症:2019 年心脏病学挑战中的 PHYSIONET/计算。2019年心脏病学计算会议(CinC)。2019;
查看文章谷歌学术搜索
13.阎美, 古斯塔德, 尼特罗·使用临床文本进行脓毒症预测、早期检测和识别机器学习:系统评价。美国医学信息学协会杂志。2021;29(3):559–75.
查看文章谷歌学术搜索
14.杨珍妮,安德鲁·索尔坦 大卫·“跨医疗保健环境的机器学习通用性:来自多站点 COVID-19 筛查的见解。” NPJ 数字医学 5,第 1 期 2022;1–8.
查看文章谷歌学术搜索
15.Singh H,Mhasawade V,Chunara R.死亡率风险预测模型的普遍性挑战:对多中心数据库的回顾性分析。公共科学图书馆数字健康。2022;1(4):e0000023。密码:36812510
查看文章PubMed/NCBI谷歌学术搜索
16.谢勒 MJ, 爱德华兹 B, 雷纳 GA, 马丁 J, 帕蒂 S, 科特罗苏 A, 等.医学中的联邦学习:在不共享患者数据的情况下促进多机构合作。科学报告。2020;10(1).
查看文章谷歌学术搜索
17.徐莹, 马玲, 杨芳, 陈茹, 马珂, 杨军, 等.用于基于 CT 的 COVID-19 诊断的协作式在线 AI 引擎。medRxiv预印本于19年2020月32511484日在线发布。密码:<>
查看文章PubMed/NCBI谷歌学术搜索
18.徐杰、格利克斯伯格·本杰明、苏畅、沃克·彼得、卞江和王飞。“医疗保健信息学的联邦学习。”医疗保健信息学研究杂志5,第1期。2021;1–19.密码:33204939
查看文章PubMed/NCBI谷歌学术搜索
19.李天,安妮特·库马尔·萨胡·阿米特·塔尔沃卡,史密斯弗吉尼亚。“联邦学习:挑战、方法和未来方向。”IEEE 信号处理杂志 37,第 3 期。2020;50–60.
查看文章谷歌学术搜索
20.久野T, 三上T, 佐桥Y, 沼泽Y, 铃木M, 野间S, 等.经皮冠状动脉介入治疗后急性肾损伤的机器学习预测模型。科学报告。2022;12(1).密码:35031637
查看文章PubMed/NCBI谷歌学术搜索
21.香 M, 科伊纳 JL.脓毒症、慢性肾脏疾病和其他合并症在发生急性肾损伤的患者中纠缠。肾脏病学研讨会。2015;35(1):23–37.密码:25795497
查看文章PubMed/NCBI谷歌学术搜索
22.Vagliano I,Chesnaye NC,Leopold JH,Jager KJ,Abu-Hanna A,Schut MC.用于预测急性肾损伤的机器学习模型:系统评价和批判性评估。临床肾脏杂志。2022;15(12):2266–80.密码:36381375
查看文章PubMed/NCBI谷歌学术搜索
23.Tan AZ, Yu H, Cui L, Yang Q. 迈向个性化联邦学习.IEEE Transactions on Neural Networks and Learning Systems.2022;1–17.pmid:35344498
查看文章PubMed/NCBI谷歌学术搜索
24.丁志, 武天, 陈新, 道明, 张华.具有拉普拉斯正则化的联邦多任务学习的新外观和收敛率。IEEE Transactions on Neural Networks and Learning Systems.2022;1–11.
查看文章谷歌学术搜索
25.邢华, 肖孜, 曲萌, 朱志, 赵斌.用于多任务时间序列分类的高效联合蒸馏学习系统。IEEE Transactions on Instrumentation and Measurement.2022;71:1–12.
查看文章谷歌学术搜索
26.Zhou P, Lin Q, Loghin D, Ooi BC, Wu Y, Yu H. 异构网络上的通信高效去中心化机器学习。2021 IEEE 第 37 届数据工程国际会议 (ICDE).2021;
查看文章谷歌学术搜索
27.克劳森 MG, 穆克海伯 D, 阿雷瓦洛 AR, 林 BD, 曼特纳 S, 拉纳 A, 等.生物医学数据的联邦学习应用的系统综述。公共科学图书馆数字健康。2022;1(5).密码:36812504
查看文章PubMed/NCBI谷歌学术搜索
28.维德 A, 贾拉丹基 SK, 徐 J, 滕 S, 库马尔 A, 李 S, 等.电子健康记录的联合学习,以改善COVID-19住院患者的死亡率预测:机器学习方法。JMIR医学信息学。2021;9(1).密码:33400679
查看文章PubMed/NCBI谷歌学术搜索
29.斯米尔诺夫 EA,铁木辛哥 DM,安德里安诺夫 SN。ImageNet 分类的正则化方法与深度卷积神经网络的比较。AASRI Procedia。2014;6:89–94.
查看文章谷歌学术搜索
30.比尔吉利B.,哈利洛奥卢M.,西内尔·脓毒症和急性肾损伤。土耳其麻醉学和复活杂志。2014;42(6), 294–301.
查看文章谷歌学术搜索
31.刘旭, 杜蒙蒂埃, 胡平, 刘春, 杨文, 毛志, 等.用于早期预测老年多器官功能障碍综合征患者死亡率的临床可解释机器学习模型:一项国际多中心回顾性研究。老年学杂志:A辑,2022年;
查看文章谷歌学术搜索
32.金海, 阮海, 金琪, 坦比 S, 杰拉夫罗默 T, 宋恩, 等.心脏骤停后轨迹预测的计算特征:早期生理时间序列的重要性。麻醉重症监护和疼痛医学。2022;41(1):101015.密码:34968747
查看文章PubMed/NCBI谷歌学术搜索
33.郭皓, 金振华.统计数据准备:管理缺失值和异常值。韩国麻醉学杂志。2017;70(4):407.pmid:28794835
查看文章PubMed/NCBI谷歌学术搜索
34.Dreiseitl S,Ohno-Machado L.逻辑回归和人工神经网络分类模型:方法论综述。生物医学信息学杂志。2002;35(5–6):352–9.pmid:12968784
查看文章PubMed/NCBI谷歌学术搜索
35.陶德·多层感知器(MLP)。用于模拟土地变化情景的地理方法。2017;451–5.
查看文章谷歌学术搜索
36.Ketkar N, Moolayil J. pytorch简介.使用 Python 进行深度学习。2021;27–91.
查看文章谷歌学术搜索
37.交叉熵[互联网]。CrossEntropyLoss—PyTorch 1.13 文档。[引用日期2022年8月<>日]。可用: https://pytorch.org/docs/stable/generated/torch.nn.CrossEntropyLoss.html.
38.佩德利茨 W, 陈 S-M.深度学习:概念和架构。湛:施普林格;2020.
39.托尔斯 J, 默勒 WJ.逻辑回归。贾马。2016;316(5):533.
查看文章谷歌学术搜索