免费医学论文发表-门诊就诊中尿培养阳性的简约预测模型的开发和验证
抽象
尿培养通常被认为是检测尿液中是否存在细菌的金标准。由于培养成本高昂,通常需要 24-48 小时,因此临床医生通常依赖尿液试纸测试,这比培养便宜得多,并且可以立即提供结果。尽管易于使用,但尿液试纸试验可能缺乏敏感性和特异性。在本文中,我们使用了一个真实世界的数据集,该数据集由 17,572 名接受尿培养的门诊患者组成,这些患者于 2015 年至 2021 年间在阿拉伯联合酋长国阿布扎比的一家大型多专科医院收集。我们开发并评估了一个简单的尿培养阳性预测模型,该模型基于从患者就诊的生命体征、病史和试纸结果中选出的十个特征的最小输入集。在 5,339 次相遇的测试集中,简约模型在预测细菌≥计数时实现了 0.828 的受试者工作特征曲线下面积 (AUROC)(95% CI:0.810-0.844) 105CFU/ml,优于仅使用试纸特征的模型,其AUROC 为0.786(95%CI:0.769-0.806)。我们提出的模型可以很容易地部署在护理点,突出了它在提高临床工作流程效率方面的价值,特别是在资源匮乏的环境中。
作者摘要
尿培养检测通常有助于在各种临床环境中及早检测尿液中的细菌。尽管尿培养检测在临床决策中很重要,但由于需要较长的等待时间,因此会增加医务人员的成本和负担。在这项工作中,我们提出了一种低成本的机器学习模型,以提供对即时尿培养结果的实时预测。所提出的方法基于一个简单的模型,该模型需要最少的特征集,使其易于在实际临床环境中实施。通过在阿布扎比的真实门诊数据上开发和验证该模型,我们发现我们的模型优于临床基线。我们的研究结果强调了机器学习模型通过提供及时预测来优化临床工作流程效率的潜力。
数字
Table 4Fig 4图1图2表1Table 2Table 3Fig 3Table 4Fig 4图1图2表1
引文: Ghosheh GO, St John TL, Wang P, Ling VN, Orquiola LR, Hayat N, et al. (2023) 开发和验证门诊就诊中阳性尿培养的简约预测模型。PLOS 数字健康 2(11): 编号:E0000306。 https://doi.org/10.1371/journal.pdig.0000306
编辑 器: 纳达夫·拉波波特, 以色列内盖夫本古里安大学
收到: 2022年9月30日;接受: 2023年6月22日;发表: 11月 1, 2023
版权所有: ? 2023 Ghosheh et al.这是一篇根据知识共享署名许可条款分发的开放获取文章,该许可允许在任何媒体上不受限制地使用、分发和复制,前提是注明原作者和来源。
数据可用性: 根据数据提供商的规定和当地法规,出于隐私问题,数据不能公开共享。阿布扎比克利夫兰诊所的研究伦理委员会为符合匿名数据访问标准的研究人员提供数据。欲了解更多信息,请联系Helen Sun(SunH@clevelandclinicabudhabi.ae)。
资金: 这项工作得到了NYUAD城市网络互动中心(CITIES)的支持,该中心由Tamkeen根据NYUAD研究所奖CG001(F.E.S,G.O.G,P.W.和VNL)资助,以及由Tamkeen资助的NYUAD人工智能与机器人中心(CAIR)根据NYUAD研究所奖CG010(FES)。资助者在研究设计、数据收集和分析、发表决定或手稿准备方面没有任何作用。
利益争夺: 作者宣称不存在任何利益冲突。
介绍
长期以来,尿培养一直用于检测尿液中是否存在特定微生物。通常用于有泌尿系统症状的患者,主要是为了评估尿液中是否存在细菌。尿培养结果阳性被认为是诊断和治疗某些感染(如尿路感染(urinary tract infection, UTI)的金标准[1,2]。 尽管尿培养普遍存在,但并不总是必要的,诊断管理寻求安排此类检查的最佳实践[3]。获得尿培养检测结果的过程也很耗时,并且依赖于检查员的经验,而这些经验可能并不总是容易获得。
尿液试纸测试是一种床旁 (POC) 测试,其中用化学品处理过的试纸浸入尿液样本中。然后条带改变颜色以指示某些物质的浓度[4]。尽管disptick检测很受欢迎且易于使用,但往往缺乏敏感性和特异性,这限制了其在临床实践中预测尿培养结果的最佳应用[5]。考虑到与处理尿培养测试相关的成本,POC 非常需要一个预测模型来帮助临床医生做出决策。
一些现有的研究调查了尿培养结果的预测,大多数方法依赖于使用尿液分析结果作为预测变量。例如,[6]使用自动尿液分析系统的结果来构建一个模型,该模型可以预测住院患者和门诊患者的尿培养结果。另一个例子是[7],作者建立了一个系统,用于预测尿液流式细胞术在大量紧急情况下产生的尿培养结果。虽然有用,但这些模型中的大多数都依赖于使用特定尿液分析技术收集的数据,而这些数据可能并不总是在不同的临床机构中可用。虽然以前的研究重点是预测急诊科的尿培养结果[7]或住院和门诊就诊的一般队列[6],但许多尿培养是在门诊环境中进行的,例如在初级保健或择期就诊中,临床决策通常在POC做出。此外,以前的工作没有调查其他现成信息的使用,例如既往疾病和手术、患者人口统计学和合并症,这些信息可以通过试纸结果来增强,以预测尿培养结果。
为此,我们开发了一种基于机器学习的简约模型,用于预测门诊就诊中尿培养阳性结果。我们提出的模型可以根据试纸结果的最小特征集和电子病历中现成的信息来预测尿培养结果。我们使用在阿拉伯联合酋长国 (UAE) 的阿布扎比克利夫兰诊所 (CCAD) 收集的观察性回顾性数据来训练和评估该模型。与单独使用试纸结果相比,我们选择最小特征集的数据驱动方法在预测尿培养结果方面有显着改进,证明了它在支持门诊环境中 POC 决策方面的潜力,而不会增加工作人员的负担。用例以及模型开发和评估管道的概述如图 1 所示。为了允许我们提议的工作的可重复性和外部验证,我们在 https://github.com/nyuad-cai/Parsimonious-Model-PUC 上提供了我们的代码。
缩略图 下载:
.PPTPowerPoint 幻灯片
.PNG放大图像
.TIFF原始图像
图 1. 所提模型的概述。
(a) 在这张图中,我们举例说明一个门诊就诊的例子。在评估患者的症状后,临床医生可能会在等待尿培养结果时进行尿液试纸测试。我们提出的简约模型可以在培养结果之前做出预测,为决策过程提供信息。(b) 在该图中,我们总结了模型开发过程。我们首先提取特征,对数据进行预处理,然后开发三个具有所有特征的预测模型(原始模型)、具有前十个预测特征的预测模型(简约模型)和仅具有量油尺特征的预测模型(量油尺模型)。
https://doi.org/10.1371/journal.pdig.0000306.g001
材料与方法
数据
我们检索了 2015 年 3 月至 2021 年 3 月期间在 CCAD 收集的匿名数据,CCAD 是一家位于阿联酋阿布扎比的多专科大型医院,拥有初级、二级和三级护理设施。这项回顾性研究得到了CCAD机构审查委员会(参考编号:A-2019-054)和纽约大学阿布扎比分校(参考编号:HRPP-2020-173)的批准。由于该研究被确定为豁免,因此不需要知情同意。我们根据TRIPOD指南报告该研究。该清单显示在 S1 文件中。
为了定义患者队列,我们与临床专家合作设计了纳入和排除标准。我们仅包括门诊就诊,不包括代表住院的所有其他就诊。数据集所在机构的门诊环境涵盖初级、二级和三级护理。由于该研究侧重于成年患者,因此我们排除了在接触开始时未满 18 岁的患者的遭遇。我们还仅包括与尿培养相关的遭遇,因为我们使用尿培养结果来定义模型的输出。最后,我们进行时间性患者拆分,以获得 2015 年至 2019 年间记录的一组训练遭遇,以及 2020 年至 2021 年之间记录的一组测试遭遇。我们使用训练集进行模型开发,使用测试集进行模型评估。所有结果都报告在测试集上。
输入功能
人口统计学和生命体征测量。
为了定义模型的输入特征,我们首先提取在每次相遇开始时收集的数据:人口统计信息和生命体征测量值。人口统计学特征包括患者年龄(数字)和生理性别(二元)。生命体征测量均为数字,包括六个变量:脉搏、呼吸频率、血氧饱和度、体温、收缩压和舒张压。如果缺少生命体征测量值,我们会进行平均插补。
患者病史。
首先,我们定义并提取四个二元特征来明确表示患者的合并症:癌症、糖尿病、高血压和高脂血症,其中 1 表示存在合并症,否则为 0。癌症在患者就诊数据中被明确记录为二元特征。我们使用国际疾病分类 (ICD)-10 代码提取每次就诊的其他三种情况,这些代码记录在患者以前的任何就诊中,可能是门诊或其他。ICD-10 代码汇总在 S2 文件中。
接下来,我们使用之前任何遭遇中记录的所有 ICD-10 代码提取患者的病史。我们根据疾病类型的高级分类对ICD-10代码进行分组[9],得出22个二元特征。同样,我们根据自定义医院代码对以前手术的历史记录进行分组,其中每组都指示手术类型。此过程会产生 34 个二进制特征,每个特征代表一个唯一的过程组。如果患者以前没有在医院遇到过,我们会将所有患者病史特征设置为 0。
尿液试纸结果。
对于我们数据集中的每次遭遇,我们提取在同一次遭遇中收集的任何相关尿液试纸结果。根据临床专业知识和临床文献[1,10–12],我们确定了三种感兴趣的物质作为我们模型的输入特征:亚硝酸盐、白细胞酯酶和血红蛋白。然后,我们通过解决拼写错误和不一致来清理数据。缺失值被显微镜尿液分析的结果所取代,如果在同一次接触中可用。我们将一热编码应用于最终的分类特征,但亚硝酸盐除外,我们认为亚硝酸盐是二元特征(正/负)。没有尿液试纸或显微镜分析记录的遭遇被分配了每个相应特征的训练集中最常见的值。我们报告所有输入特征的统计分布,包括数值特征的均值和标准差以及分类特征的分布计数。
地面实况标签
我们模型的目标是预测尿培养是否可能产生细菌因子[1]。为此,我们处理尿液培养结果以定义真实标签。每个尿培养结果都与样本采集时间、结果时间和总结样本培养结果的半结构化文本相关联。阳性样本通常通过明确提及细菌病原体的显著生长来描述[13]。描述还可以指示每毫升菌落形成单位的数量 (CFU/ml)。国际指南使用不同的阈值来确认诊断[14–16]。因此,我们定义了两个标签来代表阳性尿培养:≥ 104CFU/ml 和 ≥ 105CFU/ml,后者更明确,是这项工作的主要结果。如果没有细菌的显着生长,我们假设培养是阴性的。每次相遇最终都有两个二进制输出标签,每个细菌计数阈值一个。
预测建模
模型开发。
我们为每个输出标签开发了三个多变量逻辑回归模型。使用多变量逻辑回归的动机是它相对简单,并且通常与其他更复杂的机器学习模型具有可比性,所有这些都有助于在POC中轻松部署[17\u201220]。第一个模型定义为“原始模型”,用于处理所有输入要素。然后,我们进行SHapley加性解释(SHAP)分析,以确定精简模型的前十个特征[21]。SHAP值基于博弈论方法,用于计算每个特征对最终模型预测的贡献[22]。每个特征的 SHAP 值表示输入变量的相对重要性及其对预测的影响。虽然最常用作模型可解释性方法,但SHAP值可以用作特征选择方法,以识别最具预测性的特征[23]。为了衡量每个特征的重要性,我们使用整个总体的平均绝对 SHAP 值。
然后,使用原始模型确定的十个最具预测性的特征,我们为每个输出标签训练一个新模型,我们称之为简约模型。简约模型是由对低成本模型的需求驱动的,这些模型可以很容易地在实践中部署[24]。作为临床基线,我们仅使用尿液试纸特征训练另一组模型。我们认为该模型是一个强有力的临床基线,因为先前的研究强调了试纸结果在预测尿培养结局方面的有效性[1]。
为了训练所有描述的模型,我们在训练集上执行 5 倍交叉验证随机超参数搜索。超参数包括惩罚类型、正则化强度、优化器和最大迭代次数,搜索范围列在 S3 文件中。我们根据最高的平均交叉验证性能选择最佳超参数,然后用于拟合最终模型。
模型评估。
我们根据受试者工作特征曲线下面积 (AUROC) 和精确召回率曲线下面积 (AUPRC) 评估测试集上的最终模型,并可视化相关曲线。AUROC总结了该模型区分正样本和负样本的能力[25],而AUPRC则说明了其在考虑类别不平衡时的性能[26]。我们还报告了校准斜率和截距方面的模型校准。校准反映了模型的概率预测在多大程度上反映了真实标签的真实分布[27,28]。 我们评估了整个人群、女性和男性以及两个年龄组的模型表现。所有结果均以置信区间报告,使用自举法计算,迭代1000次[29]。我们使用 Python(版本 3.7.3)和 scikit-learn(版本 1.1.1)执行所有实验。
结果
患者队列
应用纳入和排除标准的结果如图2所示。最终训练集包括 12,113 次独特遭遇和 8,147 名独特患者,而最终测试集包括 5,339 次独特遭遇和 4,057 名独特患者。在表1中,我们总结了患者队列的特征。我们观察到,年龄和性别在训练集和测试集中的分布相似,训练集中的平均年龄为 49.1 ± 17.6 岁,女性占 58.8%,测试集中的平均年龄为 49.2 ± 17.0 岁,女性占 50.0%。基于≥ 10 的尿培养阳性率5训练集和测试集的CFU/mL阈值分别为13.7%和14.4%。我们还观察到女性尿培养阳性的发生率高于男性,训练组为 9.7% vs 4.0%,测试组为 10.5% vs 4.0%。同样,在老年人群中观察到更高的发病率,训练集为 10.2% vs 3.5%,测试集为 10.9% vs 3.6%。在表2中,我们总结了人口统计学特征、生命体征测量、合并症和试纸结果的分布。表 3 总结了其他患者病史特征的分布。
缩略图 下载:
.PPTPowerPoint 幻灯片
.PNG放大图像
.TIFF原始图像
图 2. 纳入和排除标准的流程图。
我们应用包含和排除标准来获得用于模型开发的训练集和用于模型评估的测试集。在图中,n 表示唯一遭遇的次数,p 表示唯一患者的数量,因为一个独特的患者可以有多次遭遇。
https://doi.org/10.1371/journal.pdig.0000306.g002
缩略图 下载:
.PPTPowerPoint 幻灯片
.PNG放大图像
.TIFF原始图像
表 1. 患者队列摘要。
我们描述了训练集和测试集患者队列的特征。这里,n 代表数字,std 代表标准差,% 是百分比。我们还报告了真实标签在患者亚组中的分布情况。
https://doi.org/10.1371/journal.pdig.0000306.t001
thumbnail 下载:
.PPTPowerPoint 幻灯片
.PNG放大图像
.TIFF原始图像
表 2. 输入要素概述。
跨训练集和测试集的模型输入特征摘要,其中数字特征显示平均值和标准差 (std),分类特征(如合并症和尿液试纸特征)显示数字 (n) 和百分比 (%)。
https://doi.org/10.1371/journal.pdig.0000306.t002
thumbnail 下载:
.PPTPowerPoint 幻灯片
.PNG放大图像
.TIFF原始图像
表 3. 用作训练模型的输入特征的 ICD 代码组和程序代码组的摘要,分别在训练集和测试集中的计数(遭遇数)和百分比。
https://doi.org/10.1371/journal.pdig.0000306.t003
绩效评估
我们比较了最佳原始模型与所有输入特征的性能,将精简模型与前者通过SHAP分析确定的前十个特征进行比较,以及仅使用试纸模型的性能。≥ 10 测试集的性能结果5CFU/ml在图3中可视化为图3A受试者工作特征曲线,图3B,精确召回曲线和图3C校准曲线。 在表 4 中,我们总结了所有具有 95% 置信区间的指标。
thumbnail 下载:
.PPTPowerPoint 幻灯片
.PNG放大图像
.TIFF原始图像
图 3. 测试集上的性能曲线。
图3A显示了真实标签≥的原始模型、简约模型和量油尺模型的受试者工作特征曲线、图3B精确召回曲线和图3C校准曲线 105CFU/毫升。
https://doi.org/10.1371/journal.pdig.0000306.g003
thumbnail 下载:
.PPTPowerPoint 幻灯片
.PNG放大图像
.TIFF原始图像
表 4. 测试集的性能评估结果。
我们报告了受试者工作特征曲线下面积 (AUROC)、精确召回曲线下面积 (AUPRC) 以及校准斜率和截距的性能结果。显示了总体人群和患者亚组的结果。所有结果均以95%置信区间报告,使用1000次迭代的自举计算[29]。
https://doi.org/10.1371/journal.pdig.0000306.t004
使用 ≥ 105CFU/ml 阈值,原始模型在所有患者亚组中均达到最佳性能,AUROC 为 0.831 (0.816, 0.846) AUROC,AUPRC 为 0.542 (0.508, 0.578) AUPRC。简约模型与原始模型的结果相当,总体中只有 10 个特征,AUROC 为 0.828 (0.810, 0.844) AUROC,AUPRC 为 0.550 (0.511, 0.593)。另一方面,性能最差的型号是仅量油尺型号,AUROC 为 0.786 (0.769, 0.806) AUROC 和 0.484 (0.445, 0.522) AUPRC。在整个总体中的两个标签中,我们注意到所有模型都经过了良好的校准,斜率在0.906和0.951之间,截距在0.045和0.069之间,如图3C中的校准曲线所示。我们包括使用 104在 S4 文件中。
在比较女性和男性患者亚组的表现时,我们观察到所有模型在男性中实现了更高的AUROC,但在女性中实现了更高的AUPRC。例如,简约模型在女性亚组中实现了 0.767 AUROC,而在男性亚组中实现了 0.868 AUROC。这意味着该模型可以更好地区分男性亚组中的正类和负类。另一方面,在≥ 10 中,简约模型在女性亚组中实现了 0.575 AUPRC,而男性亚组的 AURPC 为 0.4865CFU/ml标签,这与两个亚组之间类别不平衡的差异有关。我们还比较了两个年龄亚组的模型表现:< 40 岁和 ≥ 40 岁。我们注意到,这些模型在两个群体中具有可比性。
我们还对测试集中记录的 UTI ICD 代码的遭遇进行了亚组分析,这相当于 137 次遭遇。在该亚组中,该模型的AUROC为0.806(0.714,0.882 95% CI),AUPRC为0.587(0.432,0.760 95% CI)。
功能重要性
图 4 显示了用于开发简约模型的原始模型的前十个预测特征及其平均绝对 SHAP 值,这表明它们对模型预测的重要性。对于≥ 105CFU/ml 标签,前十大特征是:白细胞酯酶试纸检测阴性、患者性别、患者年龄、血红蛋白试纸检测阴性、消化系统既往疾病、亚硝酸盐试纸检测阳性、+3 白细胞酯酶试纸检测、既往微生物学检查、泌尿生殖系统既往疾病和既往超声检查。同样,对于≥ 104CFU/ml 标签,前十大特征包括以前的尿液可订购,但不包括以前的超声程序。完整的功能列表及其相应的 SHAP 值显示在 S5 文件中。精简设置中多变量逻辑回归模型的最终系数和截距显示在 S6 文件中。我们还进行了一项分析,其中我们改变了精简模型中包含的特征的数量,并观察到通过使用 10 个特征,该模型保持了与使用完整特征集训练的原始模型相当的性能。此分析的结果显示在 S7 文件中。为了了解预测如何应用于患者级别,我们展示了 S8 文件中示例遭遇的 shap 分析。
thumbnail 下载:
.PPTPowerPoint 幻灯片
.PNG放大图像
.TIFF原始图像
图 4. 原始模型的事后特征重要性。
显示分配给每个输入要素的平均 SHAP 值的条形图。
https://doi.org/10.1371/journal.pdig.0000306.g004
讨论
本研究的主要贡献在于,我们提出、开发和实施了一个数据驱动的框架,用于预测门诊就诊中的尿培养,并使用真实世界的数据集对其进行评估。我们特别专注于开发一种低成本的简约模型,该模型可以在 POC 中轻松使用。我们使用了在阿联酋阿布扎比一家大型多专科医院收集的数据集。仅使用 10 个特征,简约模型在 ≥ 10 的总总体中实现了 0.828 AUROC5CFU/ml标签,这是指导临床决策的常用阈值[1,30]。为了了解 AUROC 是否适合临床实践,我们提供了关于我们的简约模型在不同临界值 S9 文件中的敏感性和特异性的额外结果,我们将这种选择留给临床判断。
我们还研究了SHAP分析在原始模型中识别的特征的相关性。正如临床证据所支持的那样,我们用于开发简化模型的前十个特征确实与尿培养结果相关。例如,既往消化系统疾病和泌尿生殖系统既往疾病与尿液感染的发生有很强的相关性[31–34]。SHAP分析还显示,既往的超声成像和微生物学检查也可预测结局,这可能与既往感染或需要腹部影像学检查的一般健康问题有关[35,36]。 其他已确定的特征包括性别、年龄和选定的试纸结果,这些结果也被证明与既往研究的尿培养结果有关[37–39]。总体而言,我们注意到前十大特征与患者人口统计学(十分之二)、特定的先前诊断或程序(十分之四)和试纸结果(十分之四)有关,这些都可以很容易地收集和/或从数字电子健康记录系统获得。这意味着考虑到其低成本特性,简约模型可以很容易地部署在现有的医院系统中。
我们的研究有几个优点。据我们所知,我们的工作是第一个开发和验证阿联酋人群尿培养阳性预测模型的研究,而所有其他相关模型都是针对美国或欧洲人群开发的[40\u201243]。我们专注于门诊就诊,而不是特定的患者亚组。然而,由于患者人口统计学、表型变异、跨医疗系统的实践,甚至同一机构内长期实践的差异,应谨慎对待这项工作在其他门诊环境中的可推广性[44]。这凸显了模型验证在外部队列中的重要性。
另一个优势是,精简模型在两个菌落计数标签上都取得了与原始模型相当的性能,并且明显优于仅试纸模型。与其他使用更复杂的机器学习模型或更昂贵的特征(如遗传或血液生物标志物)的研究相比,该模型可以很容易地部署在POC上进行实时预测[40,45]。 通过使用多变量逻辑回归,我们的模型还提供了可解释性,因为临床医生可以参考分配给每个输入特征的模型系数或 SHAP 值,以了解其对模型预测的重要性。
虽然我们的工作重点是预测尿培养结果,但我们相信所提出的模型可以在需要及时尿培养结果的各种临床场景中提供帮助。除了有助于诊断出现UTI症状的患者外,在泌尿外科和内镜操作之前进行尿培养,例如植入泌尿假体、泌尿生殖器活检和主动结石干预,以避免术后感染并发症[46–48]。此外,尿培养用于疑似膀胱癌患者的鉴别诊断[49],因为许多首发症状与UTI重叠。其他依赖尿培养的专科包括妇产科,在首次产前检查时对孕妇进行尿培养,以检查无症状菌尿(通常易诱发UTI)和严重的肾脏感染,如肾盂肾炎[50]。这些信息在尿培养不容易获得的情况下特别有用,因此有可能改善资源分配和临床工作流程效率。
我们打算将我们提出的模型作为临床工作流程中的额外工具和信息来源,就像其他预测模型一样。一般来说,预测模型有望在识别风险最高的患者或在不容易获得尿培养的情况下提供帮助方面提供最大益处,因此主要用于操作目的和资源分配。我们注意到,阴性或阳性预测的影响可能因当地指南、患者病史、与疑似疾病相关的主诉、鉴别诊断或患者监测尿培养背后的动机而异。需要进一步的研究来评估该模型将如何影响临床决策,例如前瞻性研究,并在 Kappen 等人的工作中总结了一些经验教训。[51]。
我们也承认我们的研究有几个局限性。首先,在调查模型在患者亚组中的表现时,我们观察到女性和男性亚组之间的表现差距。其他尿液试纸检测的临床研究也发现了这一差距,其中尿液试纸在男性中的诊断准确性高于女性[52]。另一方面,另一项研究观察到,XGboost模型在预测女性亚组急诊科疑似尿路感染方面具有更高的性能[53]。这表明未来的工作可以侧重于在女性和男性之间开发更公平的模型[52]。
这项工作的另一个局限性是同一患者多次遭遇之间可能存在的依赖性,因为我们的独特遭遇多于独特的患者。未来,我们计划研究混合效应逻辑回归模型[54],以解释样本之间的任何依赖关系。尽管逻辑回归模型很简单,但我们也没有研究更复杂的机器学习方法,这些方法可以带来更好的性能结果,这是未来工作的一个领域。最后,这是一项单中心回顾性研究,因为无法访问其他基于门诊的数据集。未来,我们有兴趣进行一项多中心回顾性研究,以及一项前瞻性验证研究,以评估模型在真实环境中的性能。
值得一提的是,有一项专门针对尿路感染诊断的相关研究领域,如[42]。由于缺乏关于患者主诉症状的数据,我们无法获得明确的感染诊断标签,而这些症状通常是确诊所必需的。我们的模型与相关研究中的模型没有可比性,因为我们专注于尿培养结果的预测。我们也不依赖ICD代码,因为它们用于计费目的,因此可能会很嘈杂。考虑到我们专注于一般门诊患者队列,我们认为我们的模型仍然可以用于疑似尿路感染的患者,尽管其使用应符合诊断管理,因为依赖尿培养结果可能导致误诊和不必要的抗生素[3,55].此外,不同级别护理机构之间的模型可运输性通常取决于需要根据尿培养结果做出的决策类型,以及需要多快做出决策。这需要进一步研究实施科学以及预测算法在健康和医学复杂决策框架中的作用[56]。
支持信息
TRIPOD 声明。
显示 1/9: pdig.0000306.s001.png
跳到无花果共享导航
https://ndownloader.figstatic.com/files/43009232/preview/43009232/preview.jpg
1 / 9
下载
无花果份额
S1 文件。 TRIPOD 声明。
https://doi.org/10.1371/journal.pdig.0000306.s001
(巴布亚新几内亚)
S2 文件。 用于定义合并症的 ICD-10 代码。
包括的 ICD 代码范围,用于从以前的患者就诊中提取合并症。
https://doi.org/10.1371/journal.pdig.0000306.s002
(PDF格式)
S3 文件。 超参数搜索。
在交叉验证的超参数搜索期间考虑的值,以选择最终参数来训练多变量逻辑回归模型。
https://doi.org/10.1371/journal.pdig.0000306.s003
(PDF格式)
S4 文件。 使用 10 的结果4截止阈值。
使用 10 对测试集的性能评估结果4截止阈值。我们报告了受试者工作特征曲线下面积 (AUROC)、精确召回曲线下面积 (AUPRC) 以及校准斜率和截距的性能结果。显示了总体人群和患者亚组的结果。所有结果均以 95% 的置信区间报告,该置信区间使用 1,000 次迭代的自举计算得出。
https://doi.org/10.1371/journal.pdig.0000306.s004
(PDF格式)
S5 文件。 简洁模型和 SHAP 值的输入特征。
包含的特征列表及其 SHAP 值,用于确定它们在简化模型中的包含。
https://doi.org/10.1371/journal.pdig.0000306.s005
(PDF格式)
S6 文件。 简约模型的参数。
基于多变量逻辑回归的简约模型的最终系数。
https://doi.org/10.1371/journal.pdig.0000306.s006
(PDF格式)
S7 文件。 在简洁模型中改变特征数量时的性能。
在训练和测试具有顶部 x 特征的简约模型时,受试者工作特征曲线 (AUROC) 的性能,精确召回曲线下面积 (AUPRC),其中 x 迭代减小。
https://doi.org/10.1371/journal.pdig.0000306.s007
(PDF格式)
S8 文件。 HTML SHAP 分析。
此补充文件采用 HTML 格式,可用于通过 SHAP 分析检查与模型预测相关的特征重要性。
https://doi.org/10.1371/journal.pdig.0000306.s008
(htm)
S9 文件。 简约模型的敏感性和特异性分析。
该表显示了不同临界风险点的敏感性、特异性、TN、FP、FN 和 TP 的混淆矩阵。通过调整警报阈值对逻辑回归模型预测进行二值化,以在测试集上实现近似 x 的灵敏度,其中 x 在表中称为“风险切点”。
https://doi.org/10.1371/journal.pdig.0000306.s009
(PDF格式)
确认
我们要感谢 Waqqas Zia 和纽约大学阿布扎比分校的高性能计算 (HPC) 团队的支持。我们还要感谢阿德南·阿拉图姆博士和拉尼娅·拉巴比迪博士的有益讨论。
引用
1.施米曼 G、克尼尔 E、格布哈特 K、马泰奇克 MM、悍马-普拉迪尔 E.尿路感染的诊断:系统评价。Deutsches ?rzteblatt International.2010;107(21):361.PMID:20539810
查看文章PubMed/NCBI公司Google 学术搜索
2.徐 R, 迪贝尔 N, 卡萨尔斯 R, 杜塔 R, 米尔扎扎德 M.新的淘金热:对当前和正在开发的尿路感染诊断工具的回顾。诊断。2021;11(3):479.PMID:33803202
查看文章PubMed/NCBI公司Google 学术搜索
3.Claeys KC、Trautner BW、Leekha S、Coffey K、Crnich CJ、Diekema DJ 等人。 最佳尿培养诊断管理实践——专家改良德尔菲程序的结果。临床传染病。2022;75(3):382–389.PMID:34849637
查看文章PubMed/NCBI公司Google 学术搜索
4.德维莱 WL、伊泽曼斯 JC、范杜恩 NP、贝泽默 PD、范德温特 DA、博特 LM。尿试纸试验有助于排除感染。准确性的荟萃分析。BMC 泌尿科。2004;4(1):1–14.PMID:15175113
查看文章PubMed/NCBI公司Google 学术搜索
5.Mambatta AK, Jayarajan J, Rashme VL, Harini S, Menon S, Kuppusamy J. 试纸测定在预测尿路感染方面的可靠性。家庭医学和初级保健杂志。2015;4(2):265.PMID:25949979
查看文章PubMed/NCBI公司Google 学术搜索
6.Kim D, Oh SC, Liu C, Kim Y, Park Y, Jeong SH. 通过数字尿流形态分析自动尿液分析预测尿培养结果。科学报告。2021;11(1):1–8.PMID:33727643
查看文章PubMed/NCBI公司Google 学术搜索
7.Müller M、Seidenberg R、Schuh SK、Exadaktylos AK、Schechter CB、Leichtle AB 等。开发和验证不同的决策工具,以预测尿液流式细胞术参数的尿培养生长。PLoS 一。2018;13(2):e0193255.PMID:29474463
查看文章PubMed/NCBI公司Google 学术搜索
8.柯林斯 GS、Reitsma JB、Altman DG、Moons KG。用于个体预后或诊断的多变量预测模型 (TRIPOD) 的透明报告:TRIPOD 声明。英国外科杂志。2015;102(3):148–158.
查看文章Google 学术搜索
9.Hirsch J, Nicola G, McGinty G, Liu R, Barr R, Chittle M, et al. ICD-10:历史和背景。美国神经放射学杂志。2016;37(4):596–599.PMID:26822730
查看文章PubMed/NCBI公司Google 学术搜索
10.Wise KA, Sagert LA, Grammens GL. 尿白细胞酯酶和亚硝酸盐测试作为预测尿培养结果的辅助手段。检验医学。1984;15(3):186–187.
查看文章Google 学术搜索
11.用于检测菌尿的白细胞酯酶和亚硝酸盐测试的实验室评估。临床微生物学杂志。1985;21(5):840–842.PMID:3998118
查看文章PubMed/NCBI公司Google 学术搜索
22 分钟Cannon HJ Jr、Goetz ES、Hamoudi AC、Marcon MJ。儿童尿液标本的快速筛查和微生物学处理。诊断微生物学和传染病。1986;4(1):11–17.PMID:3510805
查看文章PubMed/NCBI公司Google 学术搜索
23 分钟权 JH、福松 MK、杜 H、罗比切克 A、彼得森 LR。实验室报告的尿培养菌落计数对住院患者尿路感染诊断和治疗的影响。美国临床病理学杂志。2012;137(5):778–784.PMID:22523217
查看文章PubMed/NCBI公司Google 学术搜索
24 分钟罗伯茨 KB,沃尔德 ER。UTI 的诊断:重新审视菌落计数标准。小儿科。2018;141(2).PMID:29339563
查看文章PubMed/NCBI公司Google 学术搜索
25 分钟Coulthard MG. 通过细菌菌落计数定义尿路感染:以 100,000 个菌落/ml 为最佳阈值。小儿肾脏病学。2019;34(10):1639–1649.PMID:31254111
查看文章PubMed/NCBI公司Google 学术搜索
16.Hay AD、Birnie K、Busby J、Delaney B、Downing H、Dudley J 等。NHS和研究实验室对尿路感染进行微生物学诊断。在:幼儿尿路感染的诊断 (DUTY):一项诊断性前瞻性观察性研究,旨在推导和验证用于诊断患有急性疾病的初级保健儿童尿路感染的临床流程。NIHR期刊图书馆;2016.
17.Ghosheh GO、Alamad B、Yang KW、Syed F、Hayat N、Iqbal I 等。COVID-19 患者并发症的临床预测系统:第一波大流行期间的开发和验证回顾性多中心研究。基于智能的医学。2022;6:100065.PMID:35721825
查看文章PubMed/NCBI公司Google 学术搜索
28 分钟Nusinovici S, Tham YC, Yan MYC, Ting DSW, Li J, Sabanayagam C, et al.Logistic回归在预测主要慢性疾病方面与机器学习一样好。临床流行病学杂志。2020;122:56–69.PMID:32169597
查看文章PubMed/NCBI公司Google 学术搜索
29 分钟Lynam AL、Dennis JM、Owen KR、Oram RA、Jones AG、Shields BM 等。在临床环境中,逻辑回归与优化的机器学习算法具有相似的性能:应用于年轻人 1 型和 2 型糖尿病的区分。诊断和预后研究。2020;4(1):1–10.
查看文章Google 学术搜索
20.Christodoulou E、Ma J、柯林斯 GS、Steyerberg EW、Verbakel JY、Van Calster B.一项系统评价显示,与逻辑回归相比,机器学习在临床预测模型中没有性能优势。临床流行病学杂志。2019;110:12–22.PMID:30763612
查看文章PubMed/NCBI公司Google 学术搜索
11 分钟伦德伯格 SM, Lee SI.解释模型预测的统一方法。在:Guyon I、Luxburg UV、Bengio S、Wallach H、Fergus R、Vishwanathan S 等人,编辑。神经信息处理系统进展 30.Curran Associates, Inc.(柯伦联合公司);2017 年,第 4765–4774 页。
12 分钟Messalas A, Kanellopoulos Y, Makris C. 具有 shapley 值的模型不可知性可解释性。在:2019年第10届信息,情报,系统和应用国际会议(IISA)。IEEE的;2019 年,第 1-7 页。
23.Marcílio WE, Eler DM.从解释到特征选择:评估 SHAP 值作为特征选择机制。在:2020 年第 33 届 SIBGRAPI 图形、图案和图像会议 (SIBGRAPI)。IEEE的;2020 年,第 340-347 页。
24.Razavian N、Major VJ、Sudarshan M、Burk-Rafel J、Stella P、Randhawa H 等人。一种经过验证的实时预测模型,可为住院的 COVID-19 患者提供有利的结果。NPJ数字医学。2020;3(1):1–13.PMID:33083565
查看文章PubMed/NCBI公司Google 学术搜索
25.Janssens ACJ, 马滕斯 FK.对现代方法的反思:重新审视 ROC 曲线下的面积。国际流行病学杂志。2020;49(4):1397–1403.PMID:31967640
查看文章PubMed/NCBI公司Google 学术搜索
26.斋藤 T, Rehmsmeier M.在不平衡数据集上评估二元分类器时,精确召回图比 ROC 图提供更多信息。PloS 一。2015;10(3):e0118432.PMID:25738806
查看文章PubMed/NCBI公司Google 学术搜索
27.Harrell FE Jr, Lee KL, Mark DB.多变量预后模型:开发模型、评估假设和充分性以及测量和减少错误方面的问题。医学统计学。1996;15(4):361–387.PMID:8668867
查看文章PubMed/NCBI公司Google 学术搜索
18 分钟Nixon J, Dusenberry MW, Zhang L, Jerfel G, Tran D. 深度学习中的测量校准。在:CVPR研讨会。第 2 卷;2019.
29.DiCiccio TJ, Efron B. Bootstrap 置信区间。统计科学。1996;第189-212页。
查看文章Google 学术搜索
30.Winkens R, Nelissen-Arets H, Stobberingh E. 尿液滑坡在日常练习条件下的有效性。家庭实践。2003;20(4):410–412.PMID:12876111
查看文章PubMed/NCBI公司Google 学术搜索
31.怀特塞德 SA、拉兹维 H、戴夫 S、里德 G、伯顿 JP。泌尿道微生物组——超越感染的作用。自然评论泌尿科。2015;12(2):81–90.PMID:25600098
查看文章PubMed/NCBI公司Google 学术搜索
32.Hibbing ME、Conover MS、Hultgren SJ。尿路感染与自主神经系统之间未被探索的关系。自主神经科学。2016;200:29–34.PMID:26108548
查看文章PubMed/NCBI公司Google 学术搜索
33.妮可·勒。老年和住院患者的尿路感染。泌尿外科的当前观点。2002;12(1):51–55.PMID:11753134
查看文章PubMed/NCBI公司Google 学术搜索
34.Wood DP Jr、Bianco FJ Jr、Pontes JE、Heath MA 等。原位新膀胱患者尿培养阳性的发生率和意义。泌尿外科杂志。2003;169(6):2196–2199.PMID:12771748
查看文章PubMed/NCBI公司Google 学术搜索
35.Brook I. 微生物学和腹部感染的管理。消化系统疾病和科学。2008;53(10):2585–2591.PMID:18288616
查看文章PubMed/NCBI公司Google 学术搜索
36.Browne R, Zwirewich C, Torreggiani W. 成人尿路感染的成像。欧洲放射学补充剂。2004;14(3):E168–E183。PMID:14749952
查看文章PubMed/NCBI公司Google 学术搜索
37.Woodford HJ, George J. 住院老年人尿路感染的诊断和管理。美国老年医学学会杂志。2009;57(1):107–114.PMID:19054190
查看文章PubMed/NCBI公司Google 学术搜索
38.Rocha JL, Tuon FF, Johnson JR. 性别、药物、虫子和年龄:在广泛抗菌素耐药性的时代,合理选择门诊尿路感染的经验性治疗。巴西传染病杂志。2012;16(2):115–121.PMID:22552451
查看文章PubMed/NCBI公司Google 学术搜索
39.Foxman B. 尿路感染流行病学:发病率、发病率和经济成本。《美国医学杂志》,113,5-13;2002年PMID:12113866
查看文章PubMed/NCBI公司Google 学术搜索
40.Heckerling PS, Canaris GJ, Flach SD, Tape TG, Wigton RS, Gerber BS. 基于人工神经网络和遗传算法的尿路感染预测因子.国际医学信息学杂志。2007;76(4):289–296.PMID:16469531
查看文章PubMed/NCBI公司Google 学术搜索
41.Kanjilal S, Oberst M, Boominathan S, Zhou H, Hooper DC, Sontag D.促进单纯性尿路感染门诊抗菌药物管理的决策算法。科学转化医学。2020;12(568).PMID:33148625
查看文章PubMed/NCBI公司Google 学术搜索
42.Taylor RA, Moore CL, Cheung KH, Brandt C. 使用机器学习预测急诊科的尿路感染。PloS 一。2018;13(3):e0194085.PMID:29513742
查看文章PubMed/NCBI公司Google 学术搜索
43.M?ller JK, S?rensen M, Hardahl C. 基于机器学习的住院期间获得尿路感染风险预测:一项回顾性队列研究。PloS 一。2021;16(3):e0248636.PMID:33788888
查看文章PubMed/NCBI公司Google 学术搜索
44.Futoma J、Simons M、Panch T、Doshi-Velez F、Celi LA。临床研究中的普遍性神话和医疗保健中的机器学习。《柳叶刀》数字健康。2020;2(9):e489–e492。PMID:32864600
查看文章PubMed/NCBI公司Google 学术搜索
45.Burton RJ, Albur M, Eberl M, Cuff SM. 使用人工智能在不影响尿路感染检测的情况下减少诊断工作量。BMC 医学信息学和决策。2019;19(1):1–11.PMID:31443706
查看文章PubMed/NCBI公司Google 学术搜索
46.Vallée M、Cattoir V、Malavaud S、Sotto A、Cariou G、Arnaud P 等。泌尿外科围手术期感染风险:术前多种微生物尿培养的管理。系统评价。由法国泌尿外科协会传染病委员会提供。Progrès en urologie.2019;29(5):253–262.PMID:30962140
查看文章PubMed/NCBI公司Google 学术搜索
47.妮可 LE、布拉德利 S、科尔根 R、赖斯 JC、谢弗 A、胡顿 TM。美国传染病学会成人无症状菌尿诊断和治疗指南。临床感染性疾病。2005;第643-654页。PMID:15714408
查看文章PubMed/NCBI公司Google 学术搜索
48.Wollin DA、Joyce AD、Gupta M、Wong MY、Laguna P、Gravas S 等。抗生素的使用以及结石病感染并发症的预防和管理。世界泌尿外科杂志。2017;35:1369–1379.PMID:28160088
查看文章PubMed/NCBI公司Google 学术搜索
49.法林 KB。膀胱癌的危险因素、诊断和治疗。执业护士。2017;42(3):26–33.PMID:28169964
查看文章PubMed/NCBI公司Google 学术搜索
50.MacLean A.妊娠期尿路感染。国际抗菌剂杂志。2001;17(4):273–277.PMID:11295407
查看文章PubMed/NCBI公司Google 学术搜索
61 分钟Kappen TH、van Klei WA、van Wolfswinkel L、Kalkman CJ、Vergouwe Y、Moons KG。评估预测模型的影响:经验教训、挑战和建议。诊断和预后研究。2018;2(1):1–11.PMID:31093561
查看文章PubMed/NCBI公司Google 学术搜索
52.Middelkoop S, van Pelt L, Kampinga G, Ter Maaten J, Stegeman C. 性别对急诊科尿液试纸和自动尿液分析诊断尿路感染性能的影响。欧洲内科杂志。2021;87:44–50.PMID:33775508
查看文章PubMed/NCBI公司Google 学术搜索
53.罗肯肖布 P、吉尔 MJ、麦克纳尔蒂 D、卡罗尔 O、弗里曼特尔 N、沙尔克罗斯 L。机器学习在电子健康记录中的应用能否指导急诊科疑似尿路感染的抗生素处方决策?medRxiv。2022;第 2022-09 页。
查看文章Google 学术搜索
54.Hedeker D.混合效应多项式逻辑回归模型。医学统计学。2003;22(9):1433–1446.PMID:12704607
查看文章PubMed/NCBI公司Google 学术搜索
55.Sinawe H, Casadesus D. 尿培养。在:StatPearls [互联网]。2020;.
56.Hunink MM、Weinstein MC、Wittenberg E、Drummond MF、Pliskin JS、Wong JB 等。健康和医学决策:整合证据和价值观。剑桥大学出版社;2014.