孕期最佳分娩方式:使用国家生命统计数据进行个性化预测
卡尔·舒尔茨,凯莉·盖瑟 ,科温·齐格勒 ,托米斯拉夫·厄本,贾斯汀·德雷克 ,拉德克·布科夫斯基
发布时间:2022 年 12 月 29 日
抽象
在美国,剖腹产分娩约占美国每年所有分娩的 32%。各种危险因素和并发症可能导致护理人员和患者在分娩开始前提前计划剖宫产。然而,剖宫产的一个非平凡亚群 (~25%) 是计划外的,发生在尝试初步分娩后。不幸的是,通过计划外剖宫产分娩的患者增加了孕产妇发病率和死亡率,并提高了新生儿重症监护的入院率。为了开发旨在改善分娩和分娩健康结果的模型,这项工作旨在探索使用国家生命统计数据来量化基于22种产妇特征的计划外剖宫产的可能性。机器学习技术用于确定有影响力的特征、训练和评估模型,以及根据可用的测试数据评估准确性。根据大型训练队列(n = 6,530,467 出生)的交叉验证结果,梯度提升树算法被确定为表现最佳,并在两个预测场景的大型测试队列(n = 10,613,877 出生)上进行评估。受试者工作特征曲线下面积为0.77或更高,召回得分为0.78或更高,所得模型得到良好校准。结合特征重要性分析来解释为什么某些母体特征会导致个体患者的特定预测,开发的分析管道提供了额外的定量信息,以帮助决定是否提前计划剖宫产,对于分娩期间计划外剖宫产风险较高的女性来说,这是一个更安全的选择。
作者摘要
在美国,剖腹产分娩几乎占美国每年所有分娩的三分之一。虽然许多剖宫产计划在分娩开始前进行,但一部分是由分娩期间的并发症引起的,发生在初次尝试分娩之后。不幸的是,这些计划外的剖腹产增加了孕产妇和新生儿的发病率和死亡率。这项工作利用重要的统计数据来开发预测模型,根据22种产妇特征量化计划外剖宫产的风险。对多个衍生模型进行了基准测试,以确定临床实用模型,该模型也显示出高校准精度。最终,该模型可用于在决定是否提前计划剖腹产的决策过程中提供定量帮助,对于分娩期间遇到计划外剖宫产的高风险女性来说,这是一个更安全的选择。
引文: 舒尔茨 KW、盖瑟 K、齐格勒 C、乌尔班 T、德雷克 J、布科夫斯基 R (2022) 怀孕期间的最佳分娩方式:使用国家生命统计数据进行个性化预测。公共科学图书馆数字健康 1(12): e0000166. https://doi.org/10.1371/journal.pdig.0000166
编辑 器: 纳达夫·拉波波特, 以色列内盖夫本古里安大学
收到: 6月 16, 2022;接受: 11月 20, 2022;发表: 12月 29, 2022
版权: ? 2022 舒尔茨等人。这是一篇根据知识共享署名许可条款分发的开放获取文章,该许可允许在任何媒体上不受限制地使用、分发和复制,前提是注明原作者和来源。
数据可用性: 用于完成此分析的原始数据可从CDC的生命统计在线门户(https://www.cdc.gov/nchs/data_access/vitalstatsonline.htm)公开下载。用于完成此分析的已开发的 Python 实用程序和 Jupyter 笔记本可通过 GitHub (https://github.com/utkoomie/delivery-mode) 获得。
资金: 作者没有为这项工作获得具体资金。
竞争利益: 作者声明没有竞争利益。
介绍
根据CDC的数据,在过去十年中,美国约32%的活产是通过剖宫产进行的[1]。在这些剖腹产中,大约 25% 发生在尝试阴道分娩的初步分娩后。总的来说,这些计划外剖腹产每年占约300,000名新生儿。不幸的是,计划外剖腹产还会导致孕产妇发病率和死亡率增加2-3倍,同时胎儿结局降低[2-7]。为了潜在地帮助改善与出生相关的发病率并为患者和护理人员提供更多信息,这项工作旨在开发和测试机器学习模型,以使用CDC发布的国家生命统计数据预测计划外剖腹产的概率。模型的潜在输入特征是根据领域知识选择的,以考虑两个预测场景时间帧:第一个发生在 1圣孕期(怀孕 <14 周),第二个发生在妊娠末期,此时有重要的附加信息。
本分析考虑的数据由CDC每年发布[8],并提供所有美国出生(每年约400万新生儿)的重要统计信息。值得注意的是,对2003年首次引入的美国出生证明的更改促进了当前工作中提出的分析计划外剖腹产的能力。特别是,2003年美国标准活产证明的形式引入了额外的复选框,以表征分娩和分娩方法,包括指示是否尝试分娩的标志(记录在CDC公布的数据中为ME_TRIAL)。结合分娩信息的方法,我们可以因此将剖腹产分为分娩或非分娩变体,其中分娩变体被假定为计划外剖腹产。
尽管这一出生证明变更是在2003年引入国家层面的,但各州的报告采用率在几年内缓慢增加,新的统计数据首先出现在2005年开始的CDC数据中。通过解析和分析CDC数据中的报告标志,我们记录了图1中修订证书的采用增长,该证书考虑了2005年至2017年美国居民的所有出生情况(请注意,2017年是CDC发布与经期相关的出生信息的最近一年)。2005年,在报告的出生中,只有30.7%采用了经修订的出生证;到2011年,这一比例大幅增加到85%以上,并从2014年开始超过95%。基于这种观察到的报告趋势以及将给定年份的大多数出生纳入分析的动机,我们将本文中的进一步讨论限制在2011-2017年间使用修订后的出生证明报告的出生。请注意,本分析中考虑的数据的统计概述由CDC逐年发布[9-15]。
缩略图 下载:
.PPT幻灯片
.PNG大图
.TIFF原始图像
图1. 美国居民每年出生总数的历史以及2003年修订出生证明的采用增长。
每年显示的百分比突出显示了向CDC报告的使用修订后的出生证明的出生比例。
https://doi.org/10.1371/journal.pdig.0000166.g001
感兴趣的主要结局
这项工作的主要预测结果是计划外(分娩)剖腹产。我们根据对两个可用的CDC变量的检查来区分分娩和非分娩剖腹产:ME_TRIAL和RDMETH_REC。ME_TRIAL变量仅用于指示是否尝试分娩,而RDMETH_REC变量对应于(修订的)分娩方法重新编码,用于描述阴道分娩或剖腹产。RDMETH_REC及其分类的潜在值如下[16]:
1 ? 阴道(不包括既往剖腹产后的阴道分娩)
2 ? 既往剖腹产后阴道
3 ? 初次剖腹产
4 ?重复剖腹产
5 ?阴道(如果既往剖腹产未知)
6 ?剖腹产(如果既往剖腹产未知)
9 ? 未说明
使用这两个变量对出生进行分箱的逻辑如图 2 所示,并定义了用于后续机器学习分析的起始分析队列。特别是,我们认为由阴道分娩和计划外剖腹产组成的分娩组构成了监督机器学习分类问题的基础。非劳动(计划)剖腹产被排除在分析队列之外。
缩略图 下载:
.PPT幻灯片
.PNG大图
.TIFF原始图像
图2. 通过检查CDC数据中包含的两个变量,开始对所有尝试的阴道分娩进行队列识别。
https://doi.org/10.1371/journal.pdig.0000166.g002
建模变量
母亲、父亲和婴儿的各种数据元素包含在 CDC 发布的出生数据中。对于此分析,我们将潜在的建模变量限制为最多 22 个母体特征,并根据它们的可用性时间将它们分为两大类:t早预测方案包括 1 期间已知的项目圣孕期,而术语场景包括在分娩和分娩时或附近已知的其他项目。表 1 显示了所考虑的分箱变量的完整列表,以及简要说明及其数值数据类型。从表1中可以看出,包括与母亲的种族和西班牙裔血统有关的两个分类特征。表 2 中使用 CDC 提供的分类进一步扩展了这些特征的编码。
缩略图 下载:
.PPT幻灯片
.PNG大图
.TIFF原始图像
表 1. 机器学习模型考虑的CDC重要统计数据中的变量,用于对两种预测场景的交付模式进行分类:t早变量在 1 期间已知圣孕期,而术语变量在分娩和分娩时间附近是已知的。
https://doi.org/10.1371/journal.pdig.0000166.t001
缩略图 下载:
.PPT幻灯片
.PNG大图
.TIFF原始图像
表 2. 对母亲种族和西班牙裔的分类特征进行编码。
https://doi.org/10.1371/journal.pdig.0000166.t002
结果
使用多种机器学习算法和参数特征集进行了比较研究,以评估国家生命统计出生数据中包含的产妇特征是否可用于充分预测计划外剖腹产。第一次分析是在训练集上进行的,该训练集包括使用2011-2013年修订的出生证明向CDC报告的出生。图2的逻辑用于限制培训队列,仅包括已知分娩试验的分娩。该研究的其他纳入标准是仅限于单胎分娩、头颅表现,并排除具有所需建模特征缺失值的出生。图3A显示了多步骤数据过滤过程的摘要,指示由6,530,467出生组成的最终训练队列的组装。在尝试分娩的约6.5M分娩中,10.7%(700,943)最终通过计划外剖腹产分娩,并形成了评估多种监督机器学习配置的积极类别。
缩略图 下载:
.PPT幻灯片
.PNG大图
.TIFF原始图像
图3. 应用于CDC数据的数据过滤概述,以得出分析队列,用于(A)培训和(B)测试应用于分娩的机器学习分类方法。
https://doi.org/10.1371/journal.pdig.0000166.g003
表 3 显示了使用具有三种不同机器学习算法和不同数量的输入特征的训练集的多个十倍交叉验证过程的比较分类性能指标。早和 t术语预测方案。还包括在商用服务器上获得的执行运行时。AdaBoost和XGBoost被认为在这种不平衡的分类问题上表现更好,AUC分数为76%或更高,召回得分为77%或更高(当使用至少10个特征参数时)。XGBoost被认为在所有情况下都能提供更好的(更低的)Brier分数。
thumbnail 下载:
.PPT幻灯片
.PNG大图
.TIFF原始图像
表 3. 使用来自公共 CDC 数据和机器学习模型的不同数量的输入特征的交付模式分类性能,使用训练集的十倍交叉验证(结果使用来自 t 的变量组合早和 t术语预测方案时间帧)。
提供了来自五个指标的评分结果(平均值 ±2σ)以及每个交叉验证练习的执行运行时。
https://doi.org/10.1371/journal.pdig.0000166.t003
根据训练队列的交叉验证结果,XGBoost 的梯度提升树算法接下来用于针对 CDC 在 2014-2017 年期间报告的出生组成的大型测试队列进行后续验证。图3B显示了到达测试队列的相应数据过滤过程,该队列表示由10,613,877名新生儿组成的队列。测试队列中计划外剖腹产的比例略低(10.1%)。在训练数据集中 XGBoost 交叉验证结果的分类性能指导下,根据特征重要性选择考虑了四个建模输入子集,选择了以下建模配置进行评估: 来自 t 的 15 个特征早和 20 个特征来自术语建模方案。这些计数被选为通常观察到评分指标性能稳定状态的最小特征数。
通过计算 SHapley 加性解释 (SHAP) 值确定的 XGBoost 模型中的 20 个最重要的特征在图 4 中突出显示了早和 t术语场景。在这两种情况下,最有影响力的四个特征都是活产顺序、孕前体重指数、母亲年龄和先前的剖腹产指标。在 t术语在这种情况下,怀孕期间的体重增加也被视为有影响力的 5千最重要的功能。
thumbnail 下载:
.PPT幻灯片
.PNG大图
.TIFF原始图像
图4. 使用XGBoost对训练集的前20个最具影响力特征的CDC输入的SHAP值影响:(A)t早情景变量,(B) t术语方案变量。
这些图中的母体建模变量来自CDC生命统计数据字段,并在表1和表2中进一步描述。
https://doi.org/10.1371/journal.pdig.0000166.g004
图 5 显示了每年(总共四年)应用于测试队列的经过训练的 XGBoost 模型的评分结果。早和 t术语场景。除了计算 AUC、准确性、召回率、F1 和 Brier 分数的原始指标外,还显示了每年的模型可靠性曲线。结果每年都非常一致,可靠性曲线表明良好的模型校准(每个可靠性曲线中显示的虚线为完美校准的模型提供了参考)。请注意,原始分类器概率是根据不平衡比率调整的,这确实会导致最大校准概率的上限在 70-80% 之间。
thumbnail 下载:
.PPT幻灯片
.PNG大图
.TIFF原始图像
图5. XGBoost模型的分类器性能使用2011年至2013年的出生进行训练,并在随后的2014年至2017年进行评估。
评分指标包括 AUC(ROC 曲线下面积)、准确性、召回率、Brier 损失和 F1 以及用于评估预测校准的可靠性曲线:(A) 使用来自 t 的前 15 个最有影响力的参数的结果早预测情景,(B) 使用来自 t 的 20 个最有影响力的变量的结果术语.
https://doi.org/10.1371/journal.pdig.0000166.g005
为了帮助解释经过训练的XGBoost模型以进行单个预测,图6显示了SHAP值特征对多个测试队列样本的概率预测的影响。早场景。特别是,图6A提供了最高概率样本()和6个最有影响力的特征值,这些特征值推动这次分娩的计划外剖腹产概率明显高于所有预测的平均概率值。除了这位母亲之前多次剖腹产外,高体重指数(BMI ≥ 40)以及孕前糖尿病和高血压也有助于高概率预测。请注意,CDC记录的bmi_r值对应于六个不同的BMI范围,如下所示:
体重不足 1 ? (< 18.5)
正常 2 ? (18.5–24.9)
3 ?超重 (25.0–29.9)
4 ?肥胖 I (30.0–34.9)
5 ?肥胖 II (35.0–39.9)
6 ?极度肥胖 III (≥ 40)
thumbnail 下载:
.PPT幻灯片
.PNG大图
.TIFF原始图像
图6. 高低危患者计划外剖腹产个体模型预测的SHAP值特征影响早预测方案。
这些解释图中的母体建模变量来自CDC生命统计数据字段,并在表1和表2中进一步描述。请注意,根据 CDC 编码,值 bmi_r = 6 对应于 BMI 值≥ 40,而 bmi_r = 1 对应于 BMI 值< 18.5。布尔特征用 1.0 表示真,0.0 表示假。
https://doi.org/10.1371/journal.pdig.0000166.g006
相比之下,最低概率样本()显示在图6B中,突出显示了5个最具影响力的特征值,这些特征值大大降低了计划外剖腹产的概率预测,明显低于平均值。没有剖腹产的多胞胎、低体重指数(BMI ≤ 18.5)和年龄小被认为会降低这位母亲计划外剖腹产的可能性。临床上认为,既往有过一次或多次剖腹产可降低阴道分娩的可能性[17]。为了检查没有先验剖腹产的分娩的特征影响,图6C中还显示了一个额外的高概率示例。在这种情况下,高体重指数,孕前高血压和糖尿病再次导致更高的计划外剖腹产概率()。
讨论
目前的研究旨在通过量化尝试阴道分娩后意外剖腹产的个体风险,为怀孕期间的最佳分娩方式开发一个预测模型。在临床上,这种预测工具的动机是帮助决策过程,为被确定为计划外剖腹产风险较高的患者提供和考虑选择性剖腹产。选择使用疾病预防控制中心的国家生命统计数据的好处和动机是,它包括多年来所有美国出生的全面,几乎完整的样本。因此,该数据集包含大量样本,用于在大量目标人群中训练和评估多个模型,在这种情况下开发模型可以最大程度地降低过度拟合的风险,同时最大限度地提高捕获个体变异的可能性。
目前关于分娩方式的惯例促进了大多数患者的阴道分娩。部分原因是,与所有剖腹产(计划分娩和计划外分娩)相比,阴道分娩的孕产妇死亡率和发病率较低。事实上,这种观点反映在目前关于产妇要求剖腹产的指南中[18,19]。然而,计划内剖腹产与计划外剖腹产的风险状况不同,大约十分之一的尝试阴道分娩的女性最终由于母体或胎儿指征而在分娩期间通过计划外剖腹产分娩。与阴道分娩相比,这些计划外剖腹产不仅对母亲和婴儿来说风险更大,而且与分娩前选择性计划的剖腹产相比也是如此。特别是,与选择性计划剖腹产相比,计划外剖腹产的孕产妇死亡和并发症风险高2倍,围产期死亡率和发病率高2-5倍[2-7,20]。因此,显然需要使关于交付方式的决定个性化。对于那些在分娩时有计划外剖腹产的高风险女性来说,在分娩开始前进行计划剖腹产可能是更安全的选择。
关于选择分娩方式的更详细的临床指导主要针对既往剖腹产的患者。例如,之前对19个学术医疗中心的约12K名女性进行了分析,以开发一种计算器,预测剖宫产后阴道分娩成功概率(VBAC)[21]。相比之下,目前的工作考虑了模型开发和测试期间的所有分娩,并使用CDC数据利用了更大的队列进行模型开发,更重要的是,模型验证(在当前工作中,n≈6.5M出生用于训练,n≈10.6M出生用于测试)。
最近的机器学习方法被用于预测阴道分娩成功[22]。该出版物使用入院分娩单位时和分娩第一阶段的可用信息来预测阴道分娩的发生。因此,本研究针对不同的临床情况,以及排除或限制分娩前决策选择的情况,例如选择性剖宫产。此外,这项研究是在来自单个中心的目标人群样本中进行的,限制了研究结果的普遍性,进一步受到计划外剖宫产率低的限制,大约是美国观察到的一半。此外,由此产生的内部验证结果校准显示,风险被严重高估。相比之下,当前工作中展示的校准结果在大范围内的风险范围内非常好,这对于决策环境至关重要。
交叉验证结果(表3从本文考虑的三种不同机器学习分类算法中的最佳结果显示,对于t早使用 15 个建模特征的预测方案。t术语在采用20个建模特征的情况下,观察到AUC和召回得分分别为78%和77%的预测情景。在2014-2017年的多个外部验证年份中,对2011-2013年的出生进行最终的XGBoost模型训练,产生了与原始k折交叉验证几乎相同的AUC和召回率分数。特别是,AUC得分在77-79%之间下降。早和 t术语而召回得分在78-79%之间。从2014年到2017年,结果也非常一致。在考虑分类不平衡后,在对照测试队列进行评估时,生成的模型也被认为具有出色的校准特性。良好的校准性能是任何潜在临床模型的重要要求,因为它反映了模型的预测概率估计真实正确性可能性的程度[23]。
根据这些结果,我们得出结论,在延长出生证明数据的国家生命统计数据中确实有足够的信息,可以有效预测最佳分娩方式。在分析中,在对t术语预测方案(T 的 36 个特征)早场景)。对于XGBoost的提升梯度树方法,我们计算了SHapley加性解释(SHAP)值[24],以根据图4中前20个特征对模型输出的平均影响来计算特征重要性。与现有的VBAC预测模型类似,母亲的年龄和起始体重指数被视为当前模型中的重要预测特征。除了活产/总产顺序和既往剖腹产次数外,其他变量来自早构成前 10 个最具影响力特征的场景包括mbrace_2(表示种族 = 黑人)、cig_0(怀孕前吸烟)、pwgt_r(怀孕前体重)和umhisp_1(表示墨西哥西班牙裔血统)。在怀孕结束时可用的三个附加功能被视为在平均模型影响方面排名前 10 位。术语预测情景,即wtgain_rec(体重增加)、组合(胎龄)和previs_rec(产前检查次数)。
总之,这项工作为最佳交付方式开发了一个个性化的预测模型,为有关最安全的交付方式的决策创造了临床上有用的帮助,并证明了国家生命统计数据与机器学习技术相结合对此类分析的有用性。考虑了几种分类器,XGBoost 的梯度提升机器变体被选为性能最佳。该模型的一个特殊优势在于汇总了大量风险因素组合和保护特征的预测能力,而不是仅仅依赖于少数观察到平均影响的特征。此外,风险因素和保护特性的大量组合提供了出色的预测准确性,在多个测试年度的外部验证期间获得的校准良好的结果证明了这一点。由此产生的模型是怀孕初期的双管齐下的目标使用场景(t早)和接近分娩和分娩的时间(t术语),允许在怀孕期间的两个时间点进行个性化的风险预测和反馈。此外,该模型可通过交互式前端实施到临床实践中,以评估个体化风险并权衡与怀孕前和怀孕期间不同风险因素相关的影响。
方法
对于这项工作,分析工具链使用自定义Python 3.x应用程序,该应用程序旨在首先解析CDC逐年发布的原始数据文件并将其加载到Pandas数组中[25]。CDC发布的CDC出生文件有配套的用户指南,其中详细说明了每年可用的变量及其在平面ASCII数据文件中的物理位置(列)。不幸的是,感兴趣的变量的位置不一定每年都一致,必须小心考虑这些微妙的变化。此外,许多变量还具有单独的报告标志,用于指示是否使用修订版(2003年)的活产证明报告出生[26]。必须查询这些报告标志以获取感兴趣的相关变量,以确认分析期间的数据可用性。为了允许对 CDC 变量和报告标志进行灵活的运行时描述,此处开发的分析管道代码利用 INI 样式输入文件来记录每年的变量位置。下面突出显示了包含在 t 中的 bmi_r 变量的输入描述的一个示例节早预测场景如表1所示。
[疾病预防控制中心/变量索引/bmi_r]
len = 1
类型 = 整数
2011 = 533
2012 = 533
2013 = 533
2014 = 287
2015 = 287
2016 = 287
2017 = 287
2011_flag = 576
2012_flag = 576
2013_flag = 576
2014_flag = 282
2015_flag = 282
2016_flag = 282
2017_flag = 282
上面的语法提供了有关 bmi_r 位置的信息,指示 2011–2013 年位于列号 533 中的 1 的整数字段长度。但是,从 2014 年开始,位置更改为第 287 列,并一直保留到 2017 年。为此变量的报告标志的位置提供了类似的信息,该标志也会在 2014 年更改字段位置。使用这种灵活的输入解析描述,我们适应了对基础CDC文件格式的年度更改,最终组装了2011年至2017年的大型聚合数据集,其中包括使用修订后的出生证明格式报告的超过2500万出生。
在CDC数据解析过程中出现的另一个微妙之处涉及2011-2017年报告年度母亲桥接种族的一致性可用性和定义。特别是,mbrace 变量的允许值在 2014 年显着减少,仅包含 4 个种族标识符值,而之前在 2011-2013 年定义了 18 个标识符。幸运的是,2014 年还引入了额外的种族重新编码变量,我们发现了一个新变体 (mrace15),与原始变量有足够的重叠。此新变量的种族标识值与以前的 mbrace 值相同,但桥接多个种族的识别方式除外。在mrace15中,单个分类用于识别多个种族,而原始mbrace变量将母亲的桥接种族划分为四个变体。为了得出本文所考虑的所有分析年份的一致种族名称,我们将 2011-2014 年存在的桥接多个种族选项折叠成一个标记,并在以后几年结合使用 mrace15。
解析并加载相关CDC数据后,使用图2中确定的逻辑组装起始分析队列。应用进一步过滤以将分析限制在有分娩尝试和头颅表现的单胎分娩。缺少表 1 中的建模变量的出生也从分析中删除,过滤过程每个步骤的特定数据计数包含在图 3 中。请注意,在由于缺少数据而丢弃的记录中,wtgain_rec是较大的贡献者之一,4.2%的合格出生从培训队列中下降,3.5%从测试队列中下降。吸烟指标(cig_n)对训练队列中缺失数据的贡献也更大,4.8%的合格出生被丢弃。这种报告的cig_n患病率在后期显着改善,在测试队列中只有0.6%的合格出生下降。筛选后,将应用两个额外的数据转换,为后续的分类训练和评估做准备。首先,表 1 中突出显示的两个分类特征是单热编码的,这将建模状态空间增加到最多 41 个特征。其次,从原始CDC数据中解析的六个是/否文本风险因素转换为二进制对应物;它们应用于变量名称后附加_bool后缀的rf_ppterm、rf_cesar、rf_diab、rf_phyp、rf_ghyp和rf_gest。
从机器学习的角度来看,分娩模式分析是一个监督学习问题,其二元输出类对应于分娩是阴道分娩(类 = 0)还是通过计划外剖腹产(类 = 1)。与医学中经常遇到的情况一样,输出类的分布不平衡,2011-2017年CDC数据中阳性类中观察到的数据样本中有10.3%不平衡。为了测试分类技术的适用性,使用训练队列通过交叉验证来训练和评估三种不同的算法。其中包括AdaBoost [27],这是一种元估计器,它结合了来自一系列弱学习器的加权预测;XGBoost [28],一个优化的梯度提升库;和补朴素贝叶斯[29],经典朴素贝叶斯分类器的更新变体,更适合不平衡数据集。在所有情况下,我们利用scikit-learn[30]接口来训练,交叉验证,评分评估和预测。
鉴于我们的计划外剖腹产分类变量中存在的不平衡,在训练阶段必须格外小心地对样本进行适当的加权,并且我们在“平衡”模式下利用scikit的compute_sample_weight函数来计算与班级频率成反比的单个样本权重。然后将这些权重作为输入提供给每个底层分类器 fit() 方法。我们选择了这种方法而不是抽样[31],以避免忽略训练期间可用的大多数样本(出生)。
特征选择结果也在交叉验证的上下文中使用训练集进行评估,并根据两个子特征的重要性计算前 5、10、15 和 20 个子特征的分类性能。早和 t术语场景(表 3)。为了选择子特征,所考虑的三种机器学习算法中的每一种首先针对具有所有可用特征的整个训练集进行训练。然后,根据分类器,以两种方式之一计算每个输入的特征重要性。对于XGBoost,特征顺序是使用对模型输出的平均SHAP值[24]影响来确定的。对于其他两个分类器,scikit-learn中利用了feature_importances方法,该方法使用基尼重要性对模型特征进行排序[32]。然后将最重要特征的子集用于十倍交叉验证,以评估模型性能,并增加每种算法的特征计数。请注意,XGBoost 的并行(线程)功能在 44 个内核上被利用来减少执行时间。其他分类器在scikit-learn中没有并行实现,并且是串行执行的。根据交叉验证获得的结果,我们将 XGBoost 确定为所考虑算法的最佳性能,并为 t 选择了 15 个特征的模型配置。早和 T 的 20 个特征术语用于针对测试队列的后续评估(因为添加其他功能后未观察到评分指标的改善)。
图 5 中显示的验证结果是使用 XGBoost 获得的,通过对训练队列中的 n = 6,530,467 个样本(2011-2013 年期间的出生)进行训练,并针对来自测试队列的 n = 10,613,877 个样本(2014-2017 年期间的出生)进行测试。使用 sklearn.metrics 类提供的标准分类评分例程,针对测试队列的年度子集计算五个评分指标。使用每个分类器predict_proba方法计算测试样本的预测概率。通过将预测模型概率的直方图计算到最多 10 个箱中,并将每个箱内的平均概率与箱内样本的真阳性比例进行比较来生成可靠性(模型校准)曲线 [33]。请注意,虽然考虑的最大箱计数为 10,但我们限制最高箱至少具有 100 个样本。
在评估模型校准时,需要额外的处理来调整结果分类器概率输出,以解释计划外剖腹产的不平衡患病率。在这种情况下,我们假设训练和测试群体之间存在类似的先验,并使用从训练队列()中观察到的不平衡比率将原始分类概率(p)调整为校准概率(p′),如下所示[34]:
(1)
然后使用此计算获得的更新概率分布来生成图5中包含的可靠性曲线。请注意,通过方程 1 应用的变换确实限制了最大可能的分类器概率,因此,在可靠性曲线中看到的最大平均概率为 ~73%。
为了询问经过训练的XGBoost模型对个体出生预测的特征影响,我们利用了SHAP库提供的force_plot实用程序[35]。图6显示了使用这种方法的三个示例(两个高概率和一个低概率),尽管可以为任何预测生成类似的图,以帮助解释哪些母体特征导致个体患者的概率预测。
请注意,用于完成此分析的原始数据可从CDC的生命统计在线门户公开下载。相关活产数据来自2005年至2017年与出生-婴儿死亡数据相关的分母文件。这些文件的未压缩大小总计约为 50GB。
用于完成此分析的配套 Python 实用程序和 Jupyter 笔记本可通过 GitHub [36] 获得。所有分析都是使用开发的源代码文件完成的,这些文件从位于德克萨斯州高级计算中心(TACC)的计算资源的原始CDC出生文件开始。数据分析环境使用 Docker [37] 进行容器化,并在运行 OpenHPC [38] 的 Linux HPC 集群中执行,每节点有 64GB 的内存。请注意,GitHub 存储库中还包含一个独立的 Dockerfile,它定义了具有所有必需的计算模块和 Jupyter 支持的 Python 分析平台。
确认
作者希望感谢卡姆登·安德伍德(Camden Underwood),他在德克萨斯大学公共卫生学院的实习中对CDC数据进行了探索性分析。我们还要感谢妇女健康部数据分析小组的同事Dave Semeraro,Ayat Mohammed和Jordyn Pike在分析讨论期间的反馈。
引用
1.Martin JA,Hamilton BE,Osterman MJK,Driscoll AK,Drake P.出生:2017年最终数据。国家生命统计报告。2018;67:8.
查看文章谷歌学术搜索
2.Karlstrom A,Lindgren H,Hildingsson I.没有记录医学指征的剖腹产后的母婴结局:瑞典病例对照研究的结果。比约格。2013;120(4):479–86;讨论 486.密码:23316937
查看文章PubMed/NCBI谷歌学术搜索
3.Pallasmaa N, Ekblad U, Aitokallio-Tallberg A, Uotila J, Raudaskoski T, Ulander VM, et al.芬兰的剖宫产:孕产妇并发症和产科危险因素。妇产学报扫描. 2010;89(7):896–902.密码:20583935
查看文章PubMed/NCBI谷歌学术搜索
4.维拉尔 J, 卡罗利 G, 扎瓦莱塔 N, 唐纳 A, 沃伊迪拉 D, 法恩德斯 A, 等.与剖宫产相关的孕产妇和新生儿个体风险和益处:多中心前瞻性研究。英国医学杂志。2007;335(7628):1025.密码:17977819
查看文章PubMed/NCBI谷歌学术搜索
5.Hager RM, Daltveit AK, Hofoss D, Nilsen ST, Kolaas T, Oian P, et al.剖宫产并发症:发生率和危险因素。美国妇产科杂志. 2004;190(2):428–34.密码:14981385
查看文章PubMed/NCBI谷歌学术搜索
6.Hall MH,Bewley S.孕产妇死亡率和分娩方式。柳叶 刀。1999;354(9180):776.pmid:10475219
查看文章PubMed/NCBI谷歌学术搜索
7.van Ham MAPC,van Dongen PWJ,Mulder J.剖腹产的母亲后果。剖宫产术中和术后10年孕产妇并发症的回顾性研究。欧洲妇产科生殖生物学杂志. 1997;74(1):1–6.密码:9243191
查看文章PubMed/NCBI谷歌学术搜索
8.疾病控制和预防中心,在线生命统计;2019. https://www.cdc.gov/nchs/data_access/vitalstatsonline.htm#Births.
9.马丁 JA、汉密尔顿 BE、文图拉 SJ、奥斯特曼 MJ、马修斯 TJ。出生人口:2011年最终数据。国家生命统计代表 2013;62(1):1–69.pmid:24974591
查看文章PubMed/NCBI谷歌学术搜索
10.马丁 JA, 汉密尔顿 BE, 奥斯特曼 MJ, 科廷 SC, 马修斯 TJ.出生人数:2012年最终数据。国家生命统计代表 2013;62(9):1–68.
查看文章谷歌学术搜索
11.马丁 JA, 汉密尔顿 BE, 奥斯特曼 MJ, 科廷 SC, 马修斯 TJ.出生人口:2013年最终数据。国家生命统计代表 2015;64(1):1–65.密码:25603115
查看文章PubMed/NCBI谷歌学术搜索
12.汉密尔顿 BE, 马丁 JA, 奥斯特曼 MJ, 科廷 SC, 马修斯 TJ.出生人口:2014年最终数据。国家生命统计代表 2015;64(12):1–64.
查看文章谷歌学术搜索
13.马丁 JA,汉密尔顿 BE,奥斯特曼 MJ,德里斯科尔 AK,马修斯 TJ。出生人口:2015年最终数据。国家生命统计代表 2017;66(1):1.密码:28135188
查看文章PubMed/NCBI谷歌学术搜索
14.Martin JA,Hamilton BE,Osterman MJK,Driscoll AK,Drake P.出生:2016年最终数据。国家生命统计代表 2018;67(1):1–55.密码:29775434
查看文章PubMed/NCBI谷歌学术搜索
15.Martin JA,Hamilton BE,Osterman MJK,Driscoll AK,Drake P.出生:2017年最终数据。国家生命统计代表 2018;67(8):1–50.
查看文章谷歌学术搜索
16.疾病控制和预防中心。2011年关联出生/婴儿死亡公共使用文件用户指南;2011. ftp://ftp.cdc.gov/pub/Health_Statistics/NCHS/Dataset_Documentation/DVS/periodlinked/LinkPE11Guide.pdf.
17.Curtin SC,Gregory K,Korst L,Uddin S.阴道和剖腹产分娩的孕产妇发病率,根据以前的剖腹产史:出生证明的新数据,2013年。国家生命统计报告:来自疾病控制和预防中心、国家卫生统计中心、国家生命统计系统。2015;64(4):1–13.密码:26046963
查看文章PubMed/NCBI谷歌学术搜索
18.ACOG委员会第761号意见:应产妇要求剖腹产。妇产科. 2019;133(1):e73–e77.
查看文章谷歌学术搜索
19.比克D.剖腹产。临床指南。全国妇幼保健合作中心:循证护理的世界观。2004;1(3):198–199.密码:17163898
查看文章PubMed/NCBI谷歌学术搜索
20.Sobhy S, Arroyo-Manzano D, Murugesu N, Karthikeyan G, Kumar V, Kaur I, et al.低收入和中等收入国家孕产妇和围产期死亡率以及与剖宫产相关的并发症:系统评价和荟萃分析。柳叶 刀。2019;393(10184):1973–1982.密码:30929893
查看文章PubMed/NCBI谷歌学术搜索
21.Grobman WA, Lai Y, Landon MB, Spong CY, Leveno KJ, Rouse DJ, et al.开发用于预测剖宫产后阴道分娩的列线图。妇产科。2007;109(4):806–812.密码:17400840
查看文章PubMed/NCBI谷歌学术搜索
22.Guedalia J, Lipschuetz M, Novoselsky-Persky M, Cohen SM, Rottenstreich A, Levin G, et al.使用机器学习模型的实时数据分析显著提高了对成功阴道分娩的预测。美国妇产科杂志. 2020;223(3):1–437.邮编:32434000
查看文章PubMed/NCBI谷歌学术搜索
23.郭璞, 普莱斯, 孙萍, 温伯格.关于现代神经网络的校准。在:第34届机器学习国际会议论文集-第70卷。JMLR。组织;2017.第1321–1330页。
24.伦德伯格,李思。解释模型预测的统一方法。在:Guyon I,Luxburg UV,Bengio S,Wallach H,Fergus R,Vishwanathan S等,编辑。神经信息处理系统的进展 30.柯伦联合公司;2017.第4765–4774页。
25.McKinney W. Python 中用于统计计算的数据结构。在:范德沃尔特S,米尔曼J,编辑。第九届蟒蛇科学会议论文集;2010.第51–56页。
26.疾病控制和预防中心。美国标准活产证明;2003.
27.弗洛因德·在线学习的决策理论概括和提升应用。计算机与系统科学学报.1997;55(1):119–139.
查看文章谷歌学术搜索
28.Chen T, Guestrin C. XGBoost: A Scalable Tree Boost System.在:第22届ACM SIGKDD知识发现和数据挖掘国际会议论文集。KDD '16。美国纽约州纽约:ACM;2016.第785–794页。
29.Rennie JDM, Shih L, Teevan J, Karger DR. 解决朴素贝叶斯文本分类器的糟糕假设。在:第二十届机器学习国际会议国际会议论文集。ICML'03.美国农业爱协会出版社;2003.第616–623页。
30.Pedregosa F, Varoquaux G, Gramfort A, Michel V, Thirion B, Grisel O, et al. Scikit-learn: Machine Learning in Python.机器学习研究杂志。2011;12:2825–2830.
查看文章谷歌学术搜索
31.甘甘瓦尔诉不平衡数据集的分类算法概述。国际新兴技术与先进工程杂志。2012;2(4):42–47.
查看文章谷歌学术搜索
32.布雷曼L.分类和回归树。劳特利奇;2017.
33.Niculescu-Mizil A,Caruana R.用监督学习预测良好的概率。在:第22届机器学习国际会议论文集。含碳化合物;2005.第625–632页。
34.Dal Pozzolo A, Caelen O, Johnson RA, Bontempi G. 使用欠采样校准概率以进行不平衡分类。在:2015年IEEE计算智能研讨会系列。IEEE;2015.第159–166页。
35.伦德伯格 SM, 奈尔 B, 瓦维拉拉 MS, 霍里贝 M, 艾塞斯 MJ, 亚当斯 T, 等.用于预防手术期间低氧血症的可解释机器学习预测。自然生物医学工程。2018;2(10):749.密码:31001455
查看文章PubMed/NCBI谷歌学术搜索
36.笔记本和配套代码,用于利用国家生命统计数据调查怀孕期间的最佳分娩方式;2022. https://github.com/utkoomie/delivery-mode.
37.Merkel D. Docker:用于一致开发和部署的轻量级Linux容器。Linux J. 2014;2014(239).
查看文章谷歌学术搜索
38.Schulz K, Baird R, Georgiou Y, Kurtzer G, Simmel D, and Nirmala Sundararajan TS, et al. Cluster Computing with OpenHPC.在:HPC系统专业人员研讨会的论文集。高性能系统专业 '16;2016.