免费医学论文发表-诊断怀疑偏差和机器学习:打破脓毒症检测的意识僵局
抽象
许多早期预警算法是临床评估和诊断测试的下游,这意味着当临床医生未能怀疑疾病并且未能安排适当的测试时,它们可能没有用处。根据这些算法如何处理缺失的数据,它们甚至可以仅仅因为测试数据从未被排序而指示“低风险”。我们考虑了在繁忙的急诊科(emergency department, ED)进行诊断性检查之前,在分诊时识别脓毒症的预测方法。一种算法使用“平淡的临床数据”(几乎每个患者在分诊时都可以获得数据)。第二种算法增加了三个在分类访谈后要回答的“是/否”问题。回顾性地,我们研究了 2014-16 年间来自单个急诊室的成年患者,分为训练 (70%) 和测试 (30%) 队列,以及 2016-2018 年间来自四个急诊室患者的最终验证队列。脓毒症是根据 Rhee 标准定义的。研究预测因素是人口统计学和分诊生命体征(从医院 EMR 下载);既往病史;和辅助查询(由图表审阅者回答,他们对除分类说明和初始 HPI 以外的所有数据都不知情)。我们使用贪婪前向特征选择开发了 L2 正则化逻辑回归模型。训练组、测试组和验证队列中分别有 1164 名、499 名和 784 名患者。平淡无奇的临床数据模型分别产生了 ROC AUC 的 0.78 (0.76-0.81) 和 0.77 (0.73-0.81),用于训练和测试,在四家医院验证中范围为 0.74-0.79。第二个模型包括辅助查询,在四家医院验证中产生 0.84 (0.82-0.87) 和 0.83 (0.79-0.86),范围为 0.78-0.83。第一种算法不需要临床医生的输入,但产生了中等性能。第二个显示出卓越性能的趋势,尽管需要额外的用户努力。这些方法是临床评估和诊断测试下游预测算法的替代方案。对于医院预警算法,应考虑各种方法的偏倚性和可用性。
作者摘要
医院的预测算法通常依赖于诊断测试的结果作为患者是否患有严重和意外疾病的预测指标。由于以下原因,这种算法的强大预测性能可能会产生误导:除非医生已经对患者有一定程度的担忧,否则他们可能不会下令进行适当的诊断测试,因此如果医生已经怀疑正确的诊断,则数据将可用,但在医生忽视正确诊断的情况下则不可用。在这篇手稿中,我们考虑了脓毒症的早期识别,并探索了避免对诊断测试的任何依赖的两种替代策略:使用每个患者都应该可用的“平淡”数据,以及使用一些客观的“是/否”问题,这些问题可能会在生命体征异常的患者身上得到回答,为预测算法提供额外的信息。
数字
Table 4Fig 1Fig 2表1表2表3Table 4Fig 1Fig 2表1表2表3
引文: Prasad V, Aydemir B, Kehoe IE, Kotturesh C, O'Connell A, Biebelberg B, et al. (2023) 诊断怀疑偏差和机器学习:打破脓毒症检测的意识僵局。PLOS 数字健康 2(11): 编号:E0000365。 https://doi.org/10.1371/journal.pdig.0000365
编辑 器: Luis Filipe Nakayama,麻省理工学院,美国
收到: 2023年1月26日;接受: 2023年9月11日;发表: 11月 1, 2023
版权所有: ? 2023 Prasad et al.这是一篇根据知识共享署名许可条款分发的开放获取文章,该许可允许在任何媒体上不受限制地使用、分发和复制,前提是注明原作者和来源。
数据可用性: 本研究结果所依据的数据可在此处向公众访问:https://github.com/mgh-cdtl。申请团队将积极支持广泛数据共享的请求,具体取决于我们机构对共享去识别化临床数据和/或研究软件的现行规则和要求。
资金: 这项工作部分得到了国防科学与工程研究生奖学金(副总裁)、麻省理工学院-麻省理工学院战略大挑战伙伴关系(ATR、MRF 和 TH)以及 CRICO 风险管理基金会(ATR、MRF)和 Nihon Kohden Corporation(ATR、MRF 和 TH)的资助。资助者在研究设计、数据收集和分析、发表决定或手稿准备方面没有任何作用。
利益争夺: 我已经阅读了该杂志的政策,这篇手稿的作者有以下相互竞争的利益:研究人员 ATR、MRF 和 TH 拥有与脓毒症患者管理 (#WO2016133928A1) 相关的专利,该专利已授权给 Nihon Kohden Corporation。这些相互竞争的利益不会改变对PLOS关于共享数据和材料的政策的遵守。
介绍
大量工作集中在用于自动识别疾病的机器学习(ML)算法上[1],尽管采用速度通常比预期的要慢[2,3]。脓毒症检测是一个典型的课题,因为早期识别可以实现早期治疗和更好的结局[4]。
许多报道描述了有前途的脓毒症检测算法[5],但前瞻性表现一再不足[6,7]。该资深作者进一步撰写了一篇此类报告[7]的社论,指出脓毒症检测算法使用抗生素医嘱作为关键的预测输入,具有较强的回顾性表现,但由于纳入偏倚,前瞻性表现较差[8]。当研究预测因子也是定义结局的决定性因素时,就会发生合并偏倚[9]。种群漂移是被引用为未来表现下降的第二个因素[10]。
第三个潜在因素没有得到太多关注:诊断怀疑偏倚。一般来说,住院患者的预测算法对诊断测试的结果进行分类。然而,某些诊断性检查可能要等到临床医生对患者进行评估、怀疑诊断性诊断并安排适当的检查后才能进行[11]。在多份报告中,这种诊断测试的可用性与疾病有关——与实际诊断结果无关——因为临床医生正是因为他们关心患者而进行测试。生命体征检查的频率、[12]血液检查的频率[13]和半夜送血检查都与疾病相关[14]。相反,如果没有先验诊断问题,临床医生可能无法及时进行检测,而在这种情况下,预测模型的决策支持可能最有用。
这给依赖诊断测试数据的早期预警算法带来了重大挑战。根据算法处理缺失数据的方式,只要没有诊断数据表明其他情况,算法就可以指示患者风险较低。然后,临床医生可能会观察到算法错误的“低风险”预测,采取错误的保证,从而进一步延迟适当的测试。換句話說,臨床醫生和電腦之間可能會出現意識僵局:一個反饋回路,強化了對方無法懷疑正確的診斷。在这种情况下,预警算法实际上比没有更糟糕,因为它会主动强化临床医生在诊断判断中的错误。一篇包含107种预测算法的综述文章发现,这些算法都没有考虑到所谓的“信息性观察”(即,当诊断性观察的存在与否不是随机的时),意识僵局的风险可能很普遍[1]。
我们的目标是探索一种用于过度拥挤的急诊科 (ED) 脓毒症识别的预测算法,在急诊科 (ED) 中,许多患者在进行任何评估或测试之前可能需要等待很长时间。在这种情况下,理想的脓毒症预测算法不会是诊断测试的下游;相反,理想的算法将提供早期识别应接受早期评估和/或治疗的患者,而无需等待诊断测试完成。既往报道发现,脓毒症患者在急诊科就诊时症状不明确,无明显生命体征异常,这些患者最容易延迟抗生素治疗[15,16]。
在回顾已发表的文献时,我们没有发现广泛接受的最佳实践来最大限度地减少早期预警算法的诊断怀疑偏倚。我们的团队决定探索两种策略。第一种是只依赖“平淡无奇的临床数据”,这些数据元素应该在分诊时几乎每个患者身上都可用,而不管临床医生是否怀疑疾病。第二种策略涉及“辅助查询”,其中将提示临床医生回答简短、客观的问题,以增加平淡无奇的医院数据。这两种策略都不需要诊断测试结果。在本报告中,我们通过开发示例性算法来探索这些策略,并讨论它们的操作影响。
结果
患者群体
从间隔 1 开始,我们总共分析了 1,663 名患者,其中 1,164 名 (70%) 构成了训练集,而 499 名 (30%) 被保留为保留测试集。从间隔 2 开始,我们研究了另外 784 名患者(16 名患者因缺少基本生命体征(即体温或 RR)而被排除在外)。表1和表2提供了来自马萨诸塞州总医院(MGH)的受试者的受试者特征,按间隔和非脓毒症与脓毒症病例进行细分。来自其他医院的受试者的受试者特征可在 S1 文件中找到。通过图表审查确定的各种参数的 Cohen's kappa 中位数为 0.76(四分位距 0.68 至 0.85)。
缩略图 下载:
.PPTPowerPoint 幻灯片
.PNG放大图像
.TIFF原始图像
表 1. 患者特征。
值以中位数(四分位距)或队列比例表示。
https://doi.org/10.1371/journal.pdig.0000365.t001
缩略图 下载:
.PPTPowerPoint 幻灯片
.PNG放大图像
.TIFF原始图像
表 2. 急诊科表现和结果的特征。
值以中位数(四分位距)或队列比例表示。
https://doi.org/10.1371/journal.pdig.0000365.t002
模型组成
参数选择后,Bland 模型由 9 个生理和人口统计学变量组成(分诊血氧饱和度 [SpO2];高温;低温;收缩压;格拉斯哥昏迷量表评分;冲击指数;呼吸频率;性;年龄)。
参数选择后,基本模型包含与Bland模型相同的参数(只是不再包含低温);基本模型还包括对三个辅助查询中每个查询的回答,以及患者是否至少患有一种主要合并症的单一真假指标。
参数选择后,完整模型由 24 个变量组成:年龄;十种不同的既往病史状况;五种症状;六种生命体征;以及现病史中的两个要素。
有关这些研究参数的其他详细信息和描述,请参阅 S1 文件。有关该模型的其他技术细节也见第一作者的博士论文[17]。
模特性能
ROC AUC如表3所示。提供以下观察结果:
qSOFA 的 ROC AUC 趋势低于所有研究模型。这对于每个队列和子队列都很明显。在某些情况下,qSOFA 的 95% 置信区间 (CI) 低于研究模型的 95% CI;
平淡模型的 ROC AUC 通常低于基本模型和完整模型;
尽管输入参数较少,但基本模型产生的 ROC AUC 与完整模型相似;
总体而言,对于每个模型,ROC AUC在所有队列和子队列中都是相似的。换言之,在表3的每一列中,ROC AUCs总体上是一致的。
缩略图 下载:
.PPTPowerPoint 幻灯片
.PNG放大图像
.TIFF原始图像
表 3. 通过四个研究预测模型在急诊时识别脓毒症的受试者工作特征曲线下面积 (ROC AUC)。
https://doi.org/10.1371/journal.pdig.0000365.t003
有关模型性能的更多详细信息,请参见S1文件和第一作者的博士论文[17]。
表 4 提供了基本模型的诊断测试特征,探索了在一个较低阈值(即较高灵敏度)和一个较高阈值(即较高特异性)下的诊断测试性能。较低的阈值旨在提供脓毒症筛查,即敏感性> 80%。较高的阈值旨在表明可能(>50% PPV)患有脓毒症的患者。表 4 中显示的结果表明,基本模型可能更适用于分诊时的脓毒症筛查,而不是对哪些患者实际患有脓毒症进行分类。具体而言,使用阈值 0.2 的测试特征≥筛查测试是令人鼓舞的,而当使用高特异性阈值 ≥ 0.6 对患者进行分类时,测试特征更差,包括弱 F1 评分。
thumbnail 下载:
.PPTPowerPoint 幻灯片
.PNG放大图像
.TIFF原始图像
表 4. 使用对生命体征进行分类的基本模型的诊断测试特征。
https://doi.org/10.1371/journal.pdig.0000365.t004
对与健康社会决定因素相关的偏见进行审计
在基本模型输出与脓毒症之间关系的多变量分析中,种族/民族和性别是非显著的预测因子,即 p > 0.05,表明基本模型对积极预测或消极预测没有统计学显着的全球偏差作为种族/民族或性别的函数。检查基本模型在高灵敏度和高特异性临界值下的预测准确性,与非白人/西班牙裔或非男性患者相关的预测误差没有增加。S1 文件中提供了此偏差审核的其他详细信息。
讨论
诊断怀疑偏倚是分析院内临床数据的早期预警机器学习算法的理论风险。根据它们处理缺失数据的方式,这种算法可以在诊断测试不足的情况下简单地预测“低风险”。然后,临床医生可能会因为算法的虚假保证而延迟测试,从而引发“诊断僵局”。在这种情况下,预测算法可能会加剧诊断延迟,并且比没有更糟糕。
诊断怀疑偏倚可能是大多数现有脓毒症早期识别算法的固有风险,因为几乎所有算法都使用实验室数据和重复生命体征测量作为输入[5]。此外,一篇综述文章发现,107 种临床预测算法中有 0 种考虑了“信息性观察”(即,当诊断性观察的存在与否不是随机的时),[1] 这表明该主题通常被低估。在一篇论文中,Delahanty等人。报道称,预测 ED 脓毒症的 ROC AUC 为 0.93 至 0.97,令人印象深刻。以下是 Delahanty 等人的算法如何处理缺失数据:
“[我们]用极值(-9,999)替换了未观察到的数据点。根据我们的经验,表示缺少特征的极值比其他处理未观察到数据的方法产生更好的性能。[18]
换句话说,当临床医生还没有怀疑脓毒症足以发送乳酸时,该算法就会估算出-9,999的乳酸结果。这可能接近于一种预测算法,即如果临床医生没有检查乳酸,则患者一定没有脓毒症。这种假设可能会带来更好的表现,但在临床医生有足够的关注度来安排检查之前,它无助于识别脓毒症。
在本报告中,我们探索了不依赖于临床怀疑和诊断测试的预测算法。我们开发了布兰德模型,该模型仅依赖于几乎所有患者在分诊时可用的数据。不出所料,仅使用平淡的数据作为模型的输入,产生了中等的预测性能(ROC AUC 0.77;95% CI:MGH 验证数据集中的 0.68-0.84)。Horng 等人描述的类似生命体征加人口统计学脓毒症预测模型。表现也不尽如人意(ROC AUC 0.67)[19]。总体而言,基于如此有限的输入数据的模型似乎只能提供非特异性性能。实际上,这种模型将转化为频繁的误报和/或灵敏度差的某种组合。也许平淡数据算法的最佳用途是建议临床医生何时应考虑发送额外的诊断测试,以获得更好的预测性能(例如,“考虑发送血清乳酸以筛查脓毒症”或“考虑在接下来的一小时内重新检查生命体征”)。
如果平淡无奇的医院数据过于非特异性,我们评估的另一种方法是使用客观的“是/否”辅助查询。这些查询类似于传统的临床决策规则。例如,肺栓塞的 PERC 规则会提出客观问题,例如患者是否有单侧腿部肿胀。原则上,使用可以在会审时客观回答的辅助查询可以在不依赖诊断测试的情况下实现更好的算法性能。事实上,我们发现我们的“基本模型”在所有队列中都趋向于改善AUC(注意:在这篇探索性论文中,我们没有正式评估这些差异的统计学意义)。
值得注意的是,基于较高的 ROC AUC,Essential 模型和 Bland 模型在随机队列中表现更好。相比之下,当数据集补充了其他潜在的脓毒症病例时,即低血压和抗生素治疗的患者,ROC AUC 有恶化的趋势,特别是对于仅根据分诊生命体征预测脓毒症的 Bland 模型。[注:这可能是因为选择低血压和抗生素治疗的ED患者产生了两个相关的子队列:i)真正的脓毒症患者;ii) 在急诊室接受细菌感染治疗但最终不符合脓毒症正式 Rhee 标准的低血压患者。在数据集补充了大量出现脓毒症但不符合脓毒症标准的患者后,分类器预测脓毒症可能更具挑战性。
值得注意的是,所有研究模型均明显优于qSOFA评分,qSOFA评分是拯救脓毒症运动推荐的检测算法[20]。脓毒症预测的改进为减少抗生素给药延迟提供了前景,这与我们机构的死亡率降低有关[21]和一系列其他报道[22]。
预测算法的另一个关键问题是数据集偏移[10]。当输入参数与预测结果之间的关系随时间变化时,就会发生数据集偏移。从本质上讲,数据集偏移代表了对早期数据集的一种过度拟合形式。我们观察到,我们复杂的“完整模型”的预测性能确实从训练集下降到保持测试集。另一方面,尽管两年过去了,新的EMR的推出以及美国CMS SEP-1质量措施的出现,但更简单的基本模型在测试与验证方面表现出一致的性能[23]。这说明了一句老话,即模型复杂性的增加会增加过度拟合和降低外部效度的风险。
最后,对于任何预测模型,重要的是要考虑与健康的社会决定因素相关的偏差,包括种族/民族和性别。尽管研究性预测模型的输入似乎是客观的数据点,但在测量此类诊断数据的准确性方面存在公认的偏倚[24],包括涉及脉搏血氧饱和度[25]和体温的种族偏倚[26]。为此,我们评估了基本模型与种族/民族和性别之间是否存在任何独立的关联,作为脓毒症的预测因子,但没有发现任何关联。我们也没有发现非白人/西班牙裔或非男性患者更有可能在预测中出现“错误”。另一方面,我们最初的纳入标准(见图1)仍有可能导致上游受试者选择存在某种形式的偏倚,并且李承晚脓毒症标准的数据中可能存在偏倚。
thumbnail 下载:
.PPTPowerPoint 幻灯片
.PNG放大图像
.TIFF原始图像
图 1. 选择要包含在 Interval-1 中的遭遇。
来自 Interval-1 的受试者包括随机选择的受试者以及符合 CMS SEP-1 脓毒症标准的其他患者。我们排除了 n = 20 次重复的遭遇。使用李承晚脓毒症标准确定脓毒症的存在与否。急诊科急诊科;心率,心率;ICU,重症监护室;麻省总医院;qSOFA,快速序贯器官衰竭评估;SBP,收缩压;SEP-1,医疗保险和医疗补助服务中心严重败血症/感染性休克束性能测量;SIRS,全身炎症反应综合征。* n = 57 次随机选择的脓毒症遭遇。
https://doi.org/10.1371/journal.pdig.0000365.g001
还有其他潜在的限制需要考虑。首先,我们只评估了一个使用贪婪前向特征选择的逻辑回归模型。我们的目的是仅根据分诊时可用的信息(即生命体征和一些访谈问题)来探索脓毒症预测的可行性,以避免对诊断检测结果的任何依赖。我们在两个多年时间间隔和四家不同的医院中探索了这些示例性分类器。该分析为分类器性能建立了原理验证和基准。未来的研究应考虑其他分类方法,并考虑如何进一步优化性能,特别是对于“高特异性”阈值。其次,尽管我们纳入了来自四家医院的患者,包括两家城市医疗中心和两家社区医院,但我们的患者都来自一个地理区域。正如文献所表明的,脓毒症预测算法的性能在不同环境中可能会有所不同。第三,我们随机选择的队列中不包含很大比例的脓毒症患者,因此我们根据其他EMR查询标准(如方法部分所述)人为地添加了其他可能患有脓毒症的患者。我们寻找其他脓毒症患者的标准可能存在偏倚,即额外的脓毒症患者并不能真正代表实际的脓毒症患者。值得注意的是,真正的随机子队列(包括真正随机选择的脓毒症患者)的 ROC AUC 至少同样好,这表明添加这些额外的脓毒症患者的任何偏倚在最坏的情况下都是一个次要因素。第四,我们的辅助查询问题是由盲法图表审查者回答的,而不是实际的临床医生治疗患者。在实践中,临床医生可能会遭受“弹出式疲劳”,无法准确响应辅助查询。如果使用优化的触发条件进行最小化,也许辅助查询将是最实用的;尽可能保持简单;如果已经有足够的数据可用,则禁止显示。当脓毒症风险升高时,可以使用平淡模型触发辅助问题弹出。
总之,依赖于怀疑依赖性输入的算法可能会在尚未怀疑脓毒症时提供虚假的保证,从而可能导致检测和诊断的延迟。在以前的许多报告中,这种潜在的偏见似乎被低估了。我们提出了两种替代方法来避免这种风险。虽然这两种选择都可能有一些缺点(仅使用平淡的医院数据的算法具有非特异性性能;辅助查询的弹出式疲劳),但它们可能比对患者有潜在伤害的有偏见的算法更可取。本分析旨在作为案例研究,以提高对诊断怀疑偏倚的认识,并说明解决该问题的潜在策略。
方法
设置和参与者
在当地 IRB 的批准下,本研究是在根据 US 45CFR46.116(d) 放弃知情同意的情况下进行的。我们回顾性研究了在我们医疗系统的急诊室接受治疗的成人(≥18岁)患者。如果患者在急诊室住院期间的任何时间记录了以下任何一项,则患者符合条件:收缩压 [SBP] < 100 mmHg;心率 [HR] > SBP(即“休克指数”为正);qSOFA 得分 ≥ 1;[20] 2 个或更多 SIRS 标准;[27] 或从急诊室入院重症监护病房。这是为生命体征异常相对较轻和/或进入 ICU 的患者群体选择的,无论生命体征如何。
受试者被选为间隔 1(2014 年 4 月 1 日至 2016 年 3 月 31 日)进行单一城市学术教育。我们从 Interval-1 中随机选择了 750 名患者。鉴于该随机队列中纳入的脓毒症患者比例较小,我们增加了更多的脓毒症患者:我们纳入了更多符合CMS SEP-1脓毒症标准的患者(涉及ICD-9出院诊断;该团队之前已分析过该队列)[21]。Interval-1 的样本量是通过蒙特卡罗模拟先验确定的,以获得足够的统计功效来估计受试者工作特征曲线下的面积 (ROC AUC) +/- 0.05。来自 Interval-1 的受试者被随机细分为训练队列(来自 Interval-1 的 70% 患者)和测试队列(来自 Interval-1 的 30% 患者)。Interval-1 的主题选择如图 1 所示。
在初步开发和测试研究性脓毒症预测模型后,我们寻求对多个医疗中心进行额外的前瞻性验证,包括第二个城市学术急诊室和两个社区医院急诊室,所有这些中心都公开报告了脓毒症护理指标接近州和国家平均水平(参见 S1 文件中报告的每家医院的特征).我们研究了 Interval-2,它在 Interval-1 结束后立即开始,并跨越了两年(2016 年 4 月 1 日至 2018 年 3 月 31 日)。我们从四家医院的急诊科中随机选择了100名受试者。鉴于该随机队列中纳入的脓毒症患者比例很小,我们增加了更多的脓毒症患者。对于 Interval-2,我们不再能够随时访问 ICD-9 代码,因为我们的机构在 2016 年切换到了新的电子数据仓库系统。因此,为了确定脓毒症可能性高的队列,我们选择了 100 名在急诊就诊期间某个时间记录的低血压患者,这些患者也接受了急诊科抗生素治疗。Interval-2 的样本量,即总共 800 名受试者,是根据我们可用的人力资源进行图表审查的实用选择的。Interval-2 的主题选择如图 2 所示。
thumbnail 下载:
.PPTPowerPoint 幻灯片
.PNG放大图像
.TIFF原始图像
图 2. 选择包含在 Interval-2 中的遭遇。
来自 Interval-2 的受试者包括随机选择的受试者以及在急诊就诊期间某个时间记录到低血压并在急诊室接受抗生素治疗的其他患者。一些患者缺少计算基本模型所需的数据,因此被排除在外。使用李承晚脓毒症标准确定是否存在脓毒症。BWH,布莱根妇女医院;急诊科急诊科;心率,心率;ICU,重症监护室;麻省总医院;NSMC,北岸医疗中心;NWH,牛顿韦尔斯利医院;qSOFA,快速序贯器官衰竭评估;SBP,收缩压;SEP-1,医疗保险和医疗补助服务中心严重败血症/感染性休克束性能测量;SIRS,全身炎症反应综合征。*来自脓毒症随机选择队列的遭遇:MGH:n = 7;BWH:n = 6;NWH:n = 1;NSMC:n = 2。
https://doi.org/10.1371/journal.pdig.0000365.g002
变量
Interval-2 受试者无法获得 ICD-9/ICD-10 数据。因此,研究结果,即脓毒症的存在与否,是使用李承晚脓毒症标准确定的,[28]该标准只需要临床数据。我们一致地将李氏脓毒症标准应用于 Interval-1 和 Interval-2 的所有受试者。
对于研究预测因子,我们分析了通常可用于每个ED患者的“平淡的临床数据”(对生命体征进行分类;人口统计学;以及EMR中列出的既往病史元素)。我们还评估了分诊记录中描述的个体症状和现病初始病史(initial history of present disease, HPI)。最后,我们分析了对“辅助查询”的回答,这些回答是对简单、客观问题的是/否回答:
是否有疲劳或精神状态改变的报告?
在到达急诊室之前(例如,从门诊转诊)是否有对细菌感染的担忧?
是否有“细菌感染症状复合体”(BISC)的报告?如果患者至少有一种局部症状(例如胸痛、腰痛或腿痛)和至少一种全身/炎症症状(例如发热或化脓),则 BISC 标准为阳性。对于任何生命体征异常的患者,BISC标准对脓毒症具有特异性,但不敏感[29]。有关 BISC 标准的其他详细信息,请参见 S1 文件。
S1 文件中提供了研究预测因子的详细列表。
数据来源/测量
生命体征、人口统计、实验室、医院用药、医院结果和临床医生笔记以电子方式从医院电子数据仓库下载,该仓库存档电子病历 (EMR) 中的数据。为了确认下载数据的有效性,对于每个参数,至少随机审查了 20 个病例,并与 EMR 中显示的受试者临床数据进行了比较,以确认完全一致,包括相关时间戳。
随后对生命体征进行后处理。从训练集中,我们确定了单调关联饱和的生命体征截止值,并在这些点上剪裁变量的值,确定训练集中每个参数的饱和度截止值。对于体温,我们分别创建了体温过高和体温过低的变量。有关后处理的更多详细信息,请参阅 S1 文件。此外,我们还计算了“脉压”(收缩压减去舒张压)和“休克指数”(心率与收缩压的比值)。
对于辅助查询,我们进行了盲图审查。首先,我们以电子方式分离了分诊记录和急诊科临床医生的HPI的文本,并将记录按随机顺序放置。两名经过独立培训的评价员对所有其他信息(例如,截至日期、诊断结果、结局和任何后续临床文件)不知情,审查了分诊记录和 HPI。每位研究者都填写了基于网络的数据输入表[30,31],其中包括是否存在各种症状,并在审查临床文件后对三个“辅助查询”的回答进行了编码。对填写完好的数据输入表格进行比较,并在需要时由第三位摘要员解决分歧。Cohen 的 kappa 是针对审阅者编码的参数计算的。
生物统计学分析
我们开发了三种研究性脓毒症预测模型,使用不同的候选预测因子特征集:
“布兰德模型”的候选预测因子仅限于平淡无奇的医院数据,即患者的年龄和初始生命体征;该算法可以自动应用于所有分诊患者;
接下来,我们开发了“基本模型”,该模型使用与布兰德模型相同的候选预测因子;以及存在任何主要慢性合并症的单一二元指标;以及三个二进制辅助查询;
最后,我们开发了“完整模型”,该模型允许使用所有研究性平淡无奇的医院数据元素,包括细粒度的过去病史数据元素和从分诊记录和临床医生 HPI 的图表审查中提取的细粒度数据元素。“完整模型”的目的是根据分诊时可用的所有临床数据,确定脓毒症的预测上限。
这些模型中的每一个都使用训练队列中的脓毒症和非脓毒症患者(70% 的受试者来自 Interval-1)进行训练。每个模型都开发为L2正则化逻辑回归模型,使用贪婪的前向特征选择方法,逐个添加候选特征以优化ROC AUC。
每个研究模型都应用于训练、测试和验证队列(除了完整模型未应用于验证队列,因为我们机构在 2016 年更改了 EMR 系统,包括 2014-2016 年与 2016-2018 年期间特定病史元素的表示方式的变化)。
使用DeLong方法计算每个ROC AUC的95%CI[32]。对于这项探索性研究,没有进行正式的生物统计学假设检验。我们还将qSOFA评分应用于每个队列,作为比较。我们探索了“基本模型”在分类器的两个特定阈值下的诊断测试性能(敏感性、特异性和 F1 评分):一个“高灵敏度”阈值旨在以牺牲一些假阳性为代价对脓毒症进行高灵敏度筛查,以及一个“高特异性”阈值,旨在识别统计学上可能患有脓毒症的患者。
我们审核了可能与健康的社会决定因素相关的偏倚结果,包括种族-民族和性别:对于Inteval-2中的所有受试者,我们通过多变量分析评估了基本模型与结局(即败血症)之间的关系是否与种族/民族(非白人或西班牙裔)或性别独立相关。此外,我们评估了模型的错误预测是否与种族/民族和性别有关。我们对“高灵敏度”和“高特异性”阈值重复此操作。S1 文件中提供了此审核的其他详细信息。
支持信息
补充方法包括处理源自 EMR 的连续变量的详细信息;“辅助查询”的判定方法;以及主要合并症的判定方法。
跳到无花果共享导航
1补充的mAterials (s增效methods 和results)诊断怀疑偏见和机器学习:打破意识脓毒症检测的死锁瓦雷什·普拉萨德1,2, 巴图赖·艾德米尔3, 伊恩E.基霍3, 查亚·科图雷什3, 阿比盖尔·奥康奈尔3, 布雷特·比贝尔伯格3,王洋3, 詹姆斯·林奇2,4,杰里米·佩皮诺3,迈克尔·菲尔宾3, 托马斯·赫尔特1,2,4, 安德鲁·赖斯纳31哈佛-麻省理工学院健康科学与技术项目,麻省理工学院,剑桥,麻萨诸塞州,美利坚合众国。2麻省理工学院医学工程与科学研究所,剑桥,M阿萨丘塞特,美利坚合众国。3马萨诸塞州波士顿总医院急诊医学科阿萨丘塞特,美国美国。4麻省理工学院电气工程与计算机科学系剑桥, M阿萨丘塞特,美利坚合众国。
2内容1.补充的m乙醚1.1.源自 EMR 或从中计算的连续变量变量。1.2.裁决”一个uxiliaryqueries酒店”1.3.裁决m阿约尔c病症2.补充的results2.1.其他医院的受试者特征2.2.模型组成(其他详细信息)2.3.对与健康社会决定因素相关的偏见进行审计3.引用
下载
无花果份额
S1 文件。 补充方法包括处理源自 EMR 的连续变量的详细信息;“辅助查询”的判定方法;以及主要合并症的判定方法。
补充结果包括其他医院的受试者特征;有关模型组成的其他详细信息;以及基本的模型误差分析。
https://doi.org/10.1371/journal.pdig.0000365.s001
(PDF格式)
引用
1.Goldstein BA、Navar AM、Pencina MJ、Ioannidis JP。使用电子健康记录数据开发风险预测模型的机遇和挑战:系统评价。J Am Med Inform Assoc. 2017;24(1):198–208.Epub格式 2016/05/18.PMID:27189013;PubMed Central PMCID:PMC5201180。
查看文章PubMed/NCBI公司Google 学术搜索
2.达文波特 T, 卡拉科塔 R.人工智能在医疗保健领域的潜力。未来健康杂志 2019;6(2):94–8.Epub格式 2019/08/01.PMID:31363513;PubMed Central PMCID:PMC6616181。
查看文章PubMed/NCBI公司Google 学术搜索
3.Shortliffe EH,塞普尔韦达 MJ。人工智能时代的临床决策支持。贾马。2018;320(21):2199–200.Epub格式 2018/11/07.PMID:30398550。
查看文章PubMed/NCBI公司Google 学术搜索
4.埃文斯 L、罗兹 A、阿尔哈扎尼 W、安东内利 M、库珀史密斯 CM、弗朗西斯 C 等。拯救脓毒症运动:2021 年脓毒症和脓毒性休克管理国际指南。重症监护医学 2021;47(11):1181–247.Epub格式 2021/10/03.PMID:34599691;PubMed Central PMCID:PMC8486643。
查看文章PubMed/NCBI公司Google 学术搜索
5.Fleuren LM、Klausch TLT、Zwager CL、Schoonmade LJ、Guo T、Roggeveen LF 等。用于脓毒症预测的机器学习:诊断测试准确性的系统评价和荟萃分析。重症监护医学 2020;46(3):383–400.Epub 20200121。PMID:31965266;PubMed Central PMCID:PMC7067741。
查看文章PubMed/NCBI公司Google 学术搜索
6.Topiwala R, Patel K, Twigg J, Rhule J, Meisenberg B. 机器学习方法早期脓毒症识别临床表现特征的回顾性观察性研究。暴击护理探索。2019;1(9):e0046.Epub格式 2020/03/14.PMID:32166288;PubMed Central PMCID:PMC7063939。
查看文章PubMed/NCBI公司Google 学术搜索
7.Wong A、Otles E、Donnelly JP、Krumm A、McCullough J、DeTroyer-Cooley O 等。在住院患者中广泛实施的专有脓毒症预测模型的外部验证。2021 年美国医学会实习生;181(8):1065–70.Epub格式 2021/06/22.PMID:34152373;PubMed Central PMCID:PMC8218233。
查看文章PubMed/NCBI公司Google 学术搜索
8.辛格·脓毒症观察:2021 年 6 月 22 https://twitter.com/kdpsinghlab/status/1407208997065723904 [引用于 2023 年 7 月 5 日] [推文]。可从: @kdpsinghlab.
9.Kea B, Hall MK, Wang R. 识别诊断测试研究中的偏差第 2 部分:解释和验证指标测试。新兴医学杂志 2019;36(8):501–5.Epub 20190620。PMID:31221671;PubMed Central PMCID:PMC6693499。
查看文章PubMed/NCBI公司Google 学术搜索
10.Finlayson SG、Subbaswamy A、Singh K、Bowers J、Kupke A、Zittrain J 等。人工智能的临床医生和数据集的转变。N Engl J Med. 2021;385(3):283–6.Epub 格式 2021/07/15.PMID:34260843;PubMed Central PMCID:PMC8665481。
查看文章PubMed/NCBI公司Google 学术搜索
11.Agniel D, Kohane IS, Weber GM. 由于医疗保健系统内的过程导致电子健康记录数据的偏差:回顾性观察研究。英国医学杂志。2018;361:K1479。Epub格式 2018/05/02.PMID:29712648;PubMed Central PMCID:PMC5925441。
查看文章PubMed/NCBI公司Google 学术搜索
22 分钟柯林斯 SA、卡托 K、阿尔伯斯 D、斯科特 K、斯泰森 PD、巴肯 S 等人。护理文件与患者死亡率之间的关系。Am J Crit Care。2013;22(4):306–13.Epub格式 2013/07/03.PMID:23817819;PubMed Central PMCID:PMC3771321。
查看文章PubMed/NCBI公司Google 学术搜索
13.Pivovarov R, Albers DJ, Sepulveda JL, Elhadad N. 识别和减轻 EHR 实验室测试中的偏差。J Biomed 通知。2014;51:24–34.Epub格式 2014/04/15.PMID:24727481;PubMed Central PMCID:PMC4194228。
查看文章PubMed/NCBI公司Google 学术搜索
24 分钟阿尔伯斯DJ,Hripcsak G.人类健康数据研究的统计动力学方法:解决实验室数据中的人口尺度昼夜变化。Phys Lett A. 2010 年;374(9):1159–64.Epub格式 2010/06/15.PMID:20544004;PubMed Central PMCID:PMC2882798。
查看文章PubMed/NCBI公司Google 学术搜索
15.Filbin MR、Thorsen JE、Lynch J、Gillingham TD、Pasakarnis CL、Capp R 等。急诊科分诊时脓毒症筛查的挑战和机遇。科学代表 2018;8(1):11059.Epub格式 2018/07/25.PMID:30038408;PubMed Central PMCID:PMC6056466。
查看文章PubMed/NCBI公司Google 学术搜索
16.Filbin MR、Thorsen JE、Zachary TM、Lynch JC、Matsushima M、Belsky JB 等。抗生素延迟和分诊后 1 小时抗生素需求的可行性:急诊科脓毒症质量改进数据库分析。Ann Emerg Med. 2020 年;75(1):93–9.Epub格式 2019/09/29.PMID:31561998。
查看文章PubMed/NCBI公司Google 学术搜索
17.Prasad V. 从临床健康数据中学习,为脓毒症急诊科护理提供实时决策支持 [论文].剑桥(美国):麻省理工学院;2019.
18.Delahanty RJ, Alvarez J, Flynn LM, Sherwin RL, Jones SS. 开发和评估机器学习模型,用于早期识别有脓毒症风险的患者。Ann Emerg Med. 2019 年;73(4):334–44.Epub 20190117。PMID:30661855。
查看文章PubMed/NCBI公司Google 学术搜索
19.霍恩 S、桑塔格 DA、哈尔彭 Y、杰尼特 Y、夏皮罗 NI、内森森 LA。使用机器学习在急诊科分诊时为脓毒症临床决策支持创建自动触发器。PLOS一。2017;12(4):e0174708.PMID:28384212
查看文章PubMed/NCBI公司Google 学术搜索
20.Singer M、Deutschman CS、Seymour CW、Shankar-Hari M、Annane D、Bauer M 等。脓毒症和脓毒性休克(脓毒症-3)的第三项国际共识定义。贾马。2016;315(8):801–10.Epub格式 2016/02/24.PMID:26903338;PubMed Central PMCID:PMC4968574。
查看文章PubMed/NCBI公司Google 学术搜索
11 分钟Filbin MR、Lynch J、Gillingham TD、Thorsen JE、Pasakarnis CL、Nepal S 等。首发症状可独立预测脓毒性休克的死亡率:以前未测量的混杂因素的重要性。Crit Care Med. 2018 年;46(10):1592–9.Epub 格式 2018/07/03.PMID:29965833。
查看文章PubMed/NCBI公司Google 学术搜索
12 分钟斯特林 SA、米勒 WR、普赖尔 J、普斯卡里奇 MA、琼斯 AE。抗生素治疗时机对严重脓毒症和脓毒性休克结局的影响:系统评价和荟萃分析。2015 年 Crit Care Med.43(9):1907–15.PMID:26121073;PubMed Central PMCID:PMC4597314。
查看文章PubMed/NCBI公司Google 学术搜索
13 分钟质量测量伙伴关系。严重脓毒症和感染性休克:管理包 [互联网]。俄亥俄州:巴特尔纪念研究所;2021 [更新于 2021 年 12 月 1 日;引用于 2023 年 8 月 14 日]。可从: https://p4qm.org/measures/0500.
14 分钟Mbakwe AB, Lourentzou I, Celi LA, Wu JT. 健康人工智能的公平性指标:我们还有很长的路要走。EBioMedicine的。2023;90:104525.Epub 20230314。PMID:36924621;PubMed Central PMCID:PMC10114188。
查看文章PubMed/NCBI公司Google 学术搜索
15 分钟Wong AI、Charpignon M、Kim H、Josef C、de Hond AAH、Fojas JJ 等。按种族和民族分析脉搏血氧饱和度和动脉血氧饱和度测量值之间的差异以及与器官功能障碍和死亡率的关联。JAMA Netw 公开赛。2021;4(11):e2131674.Epub 20211101。PMID:34730820;PubMed Central PMCID:PMC9178439。
查看文章PubMed/NCBI公司Google 学术搜索
16 分钟Bhavani SV、Wiley Z、Verhoef PA、Coopersmith CM、Ofotokun I. 住院患者使用时间与口腔温度测量检测发烧的种族差异。贾马。2022;328(9):885–6.PMID:36066526;PubMed Central PMCID:PMC9449792。
查看文章PubMed/NCBI公司Google 学术搜索
17 分钟Bone RC、Balk RA、Cerra FB、Dellinger RP、Fein AM、Knaus WA 等。脓毒症和器官衰竭的定义以及脓毒症创新疗法的使用指南。ACCP/SCCM共识会议委员会。美国胸科医师学会/重症监护医学学会。胸。1992;101(6):1644–55.Epub格式 1992/06/01.PMID:1303622。
查看文章PubMed/NCBI公司Google 学术搜索
18 分钟李承晚 C、丹特斯 R、爱泼斯坦 L、墨菲 DJ、西摩 CW、Iwashyna TJ 等。2009-2014 年美国医院脓毒症的发病率和趋势,使用临床与索赔数据。贾马。2017;318(13):1241–9.PMID:28903154
查看文章PubMed/NCBI公司Google 学术搜索
29.Biebelberg B、Prasad V、Lynch JC、Nepal S、Filbin MR、Heldt T 等。细菌感染症状复杂标准:根据现病史预测脓毒症。学术急诊医学学会年会;2020年5月;虚拟位置 (COVID-19) 2020.第S195页。
查看文章Google 学术搜索
30.哈里斯 PA、泰勒 R、Minor BL、Elliott V、费尔南德斯 M、奥尼尔 L 等人。REDCap 联盟:建立一个由软件平台合作伙伴组成的国际社区。J Biomed 通知。2019;95:103208.Epub 格式 2019/05/13.PMID:31078660;PubMed Central PMCID:PMC7254481。
查看文章PubMed/NCBI公司Google 学术搜索
31.哈里斯宾夕法尼亚州、泰勒 R、蒂尔克 R、佩恩 J、冈萨雷斯 N、康德 JG。研究电子数据采集 (REDCap) - 一种元数据驱动的方法和工作流程,用于提供转化研究信息学支持。J Biomed 通知。2009;42(2):377–81.Epub 格式 2008/10/22.PMID:18929686;PubMed Central PMCID:PMC2700030。
查看文章PubMed/NCBI公司Google 学术搜索
32.德隆ER,德隆DM,克拉克-皮尔逊DL。比较两条或多条相关受试者工作特征曲线下的面积:非参数方法。生物测定学。1988;44(3):837–45.PMID:3203132。
查看文章PubMed/NCBI公司Google 学术搜索