《免费医学论文发表-用于识别埃塞俄比亚已婚/同居妇女计划生育需求未满足预测因素的机器学习建模:来自绩效监测和问责 (PMA) 调查 2019 年数据集的证据》期刊简介
免费医学论文发表-用于识别埃塞俄比亚已婚/同居妇女计划生育需求未满足预测因素的机器学习建模:来自绩效监测和问责 (PMA) 调查 2019 年数据集的证据
抽象
未满足的避孕药具需求是影响孕产妇和儿童健康的全球公共卫生问题。减少未满足的需求可以通过防止意外怀孕来降低流产或生育的风险。计划生育需求未得到满足是监测计划生育方案的常用指标。这项研究旨在根据最近的PMA 2019调查数据,使用先进的机器学习模型来确定计划生育需求未得到满足的预测因素。该研究使用PMA Ethiopia 2019横断面家庭和女性调查的二手数据进行,该调查于2019年9月至2019年12月进行。对5819名女性的总加权样本使用了八个机器学习分类器,并使用绩效指标进行评估,以预测和识别使用Python 3.10版本软件未满足的计划生育需求的重要预测因素。应用数据准备技术(例如删除异常值、处理缺失值、处理不平衡类别、特征工程和数据拆分)来平滑数据以进行进一步分析。最后,使用Shapley加性解释(SHAP)分析来确定未满足需求的主要预测因子,并解释预测因子对模型输出的贡献。随机森林是最好的预测模型,通过十倍交叉验证,在平衡训练数据上具有 85% 的准确率和 0.93 的曲线下面积。基于随机森林模型的SHAP分析显示,丈夫/伴侣不赞成使用计划生育、家庭成员数量、妇女教育是主要的、来自阿姆哈拉地区以及以前在医疗机构提供,是埃塞俄比亚计划生育需求未得到满足的最重要预测因素。这项研究的结果表明,在实施旨在减少埃塞俄比亚未满足的计划生育需求的卫生政策时,可能会考虑各种社会文化和经济因素。尤其应强调丈夫/伴侣参与计划生育会议,因为这对妇女对避孕药具的需求有重大影响。
作者摘要
这项研究旨在确定导致埃塞俄比亚妇女计划生育需求未得到满足的关键预测因素。训练了8种机器学习算法,随机森林模型最准确,曲线下面积得分为0.93,准确率为85%。使用SHAP特征重要性方法确定了前十个预测因子,丈夫/伴侣不赞成,小学教育,来自阿姆哈拉地区,以前在医疗机构分娩,中等财富分位数是关键因素。生活在较低家庭成员的妇女也增加了计划生育需求未得到满足的可能性。计划生育需求得不到满足可能导致意外怀孕、母亲和儿童的负面健康结果以及经济和社会后果。它还会影响人口增长率,因为妇女生育的孩子可能比她们选择生育的多,从而给资源带来压力并导致经济不稳定。为了有效解决未满足的需求,必须考虑妇女的教育水平、家庭数量、居住地区和分娩地点。强调丈夫/伴侣参与计划生育会议至关重要,因为这对妇女对避孕药具的需求产生重大影响。
数字
Fig 3Fig 4Fig 5图1表1表2Table 3Table 4Fig 2Fig 3Fig 4Fig 5Fig 1Table 1Table 2
引文: Kebede SD,Mamo DN,Adem JB,Semagn BE,Walle AD (2023) 用于识别埃塞俄比亚已婚/同居妇女计划生育需求未满足预测因素的机器学习建模:来自绩效监测和问责 (PMA) 调查 2019 年数据集的证据。公共科学图书馆数字健康 2(10): e0000345. https://doi.org/10.1371/journal.pdig.0000345
编辑 器: 袁来,清华大学,中国
收到: 4月 4, 2023;接受: 八月 11, 2023;发表: 10月 17, 2023
版权所有: ? 2023 凯贝德等人。这是一篇根据知识共享署名许可条款分发的开放获取文章,该许可允许在任何媒体上不受限制地使用、分发和复制,前提是注明原作者和来源。
数据可用性: 当前研究中分析的数据集可在 https://www.pmadata.org/data/request-access-datasets 的“行动性能监控”存储库中找到。
资金: 作者没有为这项工作获得具体资金。
竞争利益: 提交人声明不存在相互竞争的利益。
背景
当育龄妇女(无论是已婚还是同居)即使想停止或推迟生育也不使用任何形式的避孕措施时,就会发生计划生育需求未得到满足[1]。未满足需求是一种基于权利的标准,用于评估一个国家的卫生系统和社会条件对女性所声明的延迟或限制生育偏好的反应程度[2]。它还表明生殖健康方案在满足妇女对计划生育服务的需求方面取得了成功。
避孕药具需求未得到满足是全球公共卫生问题,对孕产妇和儿童健康产生重大影响。意外妊娠至足月的女性不太可能寻求产前保健和分娩援助,从而导致孕产妇死亡率增加[3]。此外,与想要的孩子相比,不想要的怀孕儿童不太可能被母乳喂养,并且更容易发育迟缓[4],这增加了他们的儿童死亡风险。因此,减少未满足的需求可以通过防止意外怀孕来降低流产或生育的风险。
2017年,非洲计划生育需求未得到满足的已婚或同居育龄妇女比例最高,为44%。相比之下,所有其他地区的女性比例较低,只有25%的女性计划生育需求未得到满足[5]。此外,全世界每10名已婚或同居妇女中就有1名以上对计划生育的需求未得到满足;在非洲,五分之一的妇女计划生育需求未得到满足。在撒哈拉以南非洲地区,未满足的计划生育需求的总体患病率为23.70%,未满足的间隔和限制需求分别占15.81%和7.9%[6]。多项研究结果还报道,埃塞俄比亚计划生育需求未得到满足[7-9]。根据埃塞俄比亚人口与健康调查(EDHS)报告,计划生育的总需求随着时间的推移而增加,目前约58%的15-49岁已婚女性表示2016年对计划生育有需求[10]。目前已婚妇女中有36%使用避孕方法,要么间隔(22%),要么限制生育(14%)。然而,未满足的需求仍然很高,为22.3%,亚的斯亚贝巴(11%)和奥罗米亚地区(29%)。
未满足的计划生育需求是监测计划生育计划的几个常用指标之一,包括改善孕产妇健康的千年发展目标(MDG)[11]。它也仍然是可持续发展目标(SDG)中确保到2030年普遍获得性和生殖保健服务的主要指标之一。尽管预计一些地区会有所减少,但预计到2030年,全球未满足的计划生育需求仍将保持在10%以上。预计东非的降幅最大,预计到2030年,未满足的需求将从22%降至16%[5]。埃塞俄比亚政府还设定了一个目标,即到2025年将获得计划生育方法的妇女人数增加一倍[12],目标是到2030年将未满足的计划生育需求从22%减少到17%。使用先进的机器学习分析确定未满足的计划生育需求的预测因素对于实现这些国际和国家目标至关重要。
未满足的需求有时被解释为由于供应限制或财务成本而无法获得避孕用品的证据[11]。然而,有许多社会人口学、孕产妇相关和服务相关预测因素可以预测妇女为什么不使用避孕药具,例如居住地、妇女年龄、妇女和丈夫的教育程度、财富状况、同居年龄、卫生保健决策、过去12个月内到过卫生机构就诊、通过媒体了解计划生育方法、均等情况、五岁以下儿童人数、家庭规模、 并了解计划生育方法[6,13,14]。以前的研究已经解决了计划生育的未满足需求,其中大多数使用EDHS 2016调查数据并应用了逻辑回归等经典统计模型。本研究旨在通过(a)分析最近的2019年行动绩效监测(PMA)研究,确定对未满足避孕需求相关性的新见解;(b)应用更灵活的非线性机器学习方法来对数据进行建模;(c)应用SHAP值[15]来确定重要的预测因子。
方法
研究设计
该研究是使用PMA埃塞俄比亚2019年横断面家庭和女性调查的二手数据进行的。PMA-埃塞俄比亚是一个为期五年(2019-2023)的项目,与亚的斯亚贝巴大学,约翰霍普金斯大学和联邦卫生部合作实施,由三个不同的研究活动组成,例如对15-49岁妇女的年度横断面调查,对目前怀孕或最近分娩的妇女进行纵向调查, 以及卫生设施的年度服务提供点调查[16]。这项横断面调查于2019年9月至2019年12月进行。
来源和研究人群
所有15-49岁的已婚妇女或与埃塞俄比亚有伴侣同住的妇女。
样本量
该分析中的样本量被加权以调整无响应和选择概率的变化。此外,使用的样本仅限于调查期间已婚或与伴侣同居的妇女的答复。因此,分析仅限于5819名育龄妇女的加权样本。
研究变量
因变量。
未满足的计划生育需求是因变量,分为两类,即“未满足的需求”和“没有未满足的需求”。
预测变量。
未满足需求的预测指标包括社会人口和经济特征,如居住地、妇女年龄、地区、教育水平、财富状况和媒体访问。生殖健康和计划生育服务特征,如曾经怀孕、第一次性行为的年龄、曾经使用过计划生育方法、曾经在卫生机构分娩、伴侣/丈夫对计划生育的感觉、知道任何可用的避孕方法以及伴侣被告知不使用计划生育需求的预测因素。
数据处理和分析。
本研究使用基于郭玉峰机器学习7步的现有文献中使用的一般框架来预测未满足的计划生育需求。该框架描述了监督机器学习中的七个步骤,具体如下:数据收集、数据准备、模型选择、模型训练、模型评估、参数调优和预测 [17, 18]。机器学习(ML)算法在Python 3.10.2中使用Jupyter Notebook通过scikit-learn和XGBoost包实现。
数据源/集合。
本研究的数据集可在PMA调查网站上找到,并可在正式请求时获得。数据中包括5819名育龄妇女的加权样本。
数据准备/预处理。
数据清理、特征工程和数据拆分是本研究中使用的数据准备技术。
数据清理包括检测和删除异常值、处理缺失值以及处理数据中结果变量的不平衡类别。数据集中自变量的缺失值通过“CALIBERrfimpute”R包进行插补。CALIBERrfim插补是一种使用链式方程多变量插补(MICE)和随机森林构建的插补机制,允许通过从条件分布中采样进行多次插补[19]。为了避免ML模型偏向多数类(本研究中没有未满足的需求),使用合成少数过采样技术(SMOTE)[20](一种随机过采样技术)平衡训练数据。SMOTE的工作原理是通过在特征空间中的少数类样本之间进行插值来创建类似于少数类的合成示例(新观测值),而不是创建现有示例的精确副本。然而,在过度采样后,合成样品和原始样品之间仍然存在不可避免的重叠或相似性。为了比较SMOTE生成的合成数据和现有数据分布的相似性或差异性,我们应用了Kolmogorov-Smirnov(KS)测试(来自scipy.stats的kstest函数)。根据Kolmogorov-Smirnov检验结果(KS检验统计量为0.71125,p值= <0.001),我们有强有力的证据反对原假设,表明综合观测值和现有观测值的分布存在显着差异。
使用Pandas get_dummies方法实现了One-Hot-Encode技术,将分类变量编码为虚拟变量,每个类别作为单独的变量编码为0或1,以分别指示存在和不存在。应用SHAP特征重要性评估预测变量与结果变量之间的关系,并选择对预测未满足的计划生育需求具有最高重要性的自变量。最后,将整个数据分为训练和测试,随机分配80%的数据用于模型训练,20%用于调整训练的模型。但是对训练数据使用了十倍交叉验证方法来训练模型。10 倍将所有观测值分成 10 个大小相等的样本组,称为折叠,9 折用于训练模型,然后 1 折用于重复测试 10 次。因此,十倍交叉验证性能度量值是在此循环中计算的值的平均值。
型号选择。
本研究的预测任务是二元分类,因为未满足的计划生育需求是一个分类变量,具有“未满足的需求”和“没有未满足的需求”两个类别。因此,流行的分类算法,如逻辑回归(LR),随机森林(RF),K近邻(KNN),人工神经网络,支持向量机(SVM),朴素贝叶斯,极限梯度提升(XGBoost)和AdaBoost用于此分析。我们应用了八种机器学习算法,因为它们具有不同的优势和劣势,比较多个模型使我们能够探索各种算法和技术,帮助我们为问题领域选择最合适的模型。
模型训练。
所选分类器使用平衡和非平衡数据进行训练,并通过十倍交叉验证比较其性能。经过比较,选择最佳预测模型,调整其超参数,并使用平衡的训练数据进行训练,以便对看不见的测试数据进行最终预测。
模型评估。
模型评估是在训练模型后执行的,以根据其学习确定模型在以前未见过的测试数据上的表现。通过分类精度和受试者工作特征曲线下面积(AUC)分数等常用指标比较所选分类器的性能。此外,接收器工作特征(ROC)曲线用于可视化ML模型的性能。
超参数优化。
首先,所有模型都使用scikit-learn包定义的默认超参数进行训练。模型选择后,通过Optuna框架调整最佳模型的超参数[21]。Optuna 的工作原理是将超参数优化表述为最小化或最大化目标函数(例如精度)的过程,该过程将一组超参数作为输入,并使用贝叶斯框架更好地了解最优值的概率,并避免对搜索中非执行参数的组合进行不必要的计算。该框架比传统的超参数调优技术(如网格搜索和随机搜索)更高效、更灵活,后者都采用明确的用户定义的超参数,并仅通过这些超参数优化模型。
预测。
预测是将投入生产的最终训练模型应用于其预期目标,其中将根据选定的预测变量估计结果变量。在这项研究中,未满足的计划生育需求是根据分析期间确定的主要预测因素确定的。因此,妇女的计划生育需求能否得到满足,将通过具有特定准确性的最佳分类器来确定。
使用Shapley加性解释(SHAP)的模型解释/解释
Shapley加性解释(SHAP)分析基于博弈论来解释/解释任何机器学习模型的预测,无论是全局还是局部[15]。在机器学习研究中,由于高性能模型(通常是基于树的模型)的“黑盒”性质,很少看到对它们的解释和解释。SHAP 分析背后的基本概念是计算每个预测变量对结果变量预测结果的边际贡献。在这项研究中,我们将SHAP分析应用于两个目的:
对于特征选择,因为 SHAP 全局可解释性提供了基于 Shapley 值的特征重要性的统一度量,通过量化每个特征对预测的贡献并将其聚合到整个总体来计算。各种研究人员将SHAP作为一种特征选择机制,结果表明,使用SHAP值特征选择方法的机器学习具有更好的分类性能和模型可解释性[22-25]。
通过绘制每个样本的特定特征的聚合 Shapley 值来解释每个预测变量对未满足需求预测的影响。在这里,我们可以解释特定特征是否会增加或减少女性计划生育需求未得到满足的可能性。
此外,瀑布图用于解释每个特征对预测正类(即未满足的需求)的贡献。在瀑布图中,x 轴表示将样本分类为“未满足需求”类的概率,而 y 轴显示自变量及其对该特定样本的相应特征值。每个要素的贡献由瀑布图中的水平条表示。正贡献(红色条)表示特征增加了样本属于正类的可能性。负贡献(蓝色条)表示样本属于正类的可能性降低。通过分析 SHAP 瀑布图,我们可以深入了解不同特征在确定特定样本的分类结果时的相对重要性和方向性。
最后,图1给出了整体数据准备和分析过程。
缩略图 下载:
.PPT幻灯片
.PNG大图
.TIFF原始图像
图1. 应用的数据准备和分析计划的概述流程图。
https://doi.org/10.1371/journal.pdig.0000345.g001
道德批准和参与同意
PMA埃塞俄比亚的调查项目已通过合法注册授予使用数据的许可。使用的数据可通过PMA网站(https://www.pmadata.org/data/request-access-datasets)在公共领域获得,并且可以在创建帐户后根据合理要求访问。
结果
参与者的特点
社会人口和经济特征。
四分之三(72.92%)的妇女是农村居民,2 303名(39.57%)是26至35岁的年龄组。大多数参与者约42.93%是穷人,48.12%没有受过教育,62.94%没有媒体。关于受访者的区域分布,大多数妇女来自奥罗米亚州(39.48%),其次是阿姆哈拉州(23.08%),约19.83%来自南方各族人民共和国。其余地区占研究总人口的17.61%(表1)。
缩略图 下载:
.PPT幻灯片
.PNG大图
.TIFF原始图像
表 1. 受访者的社会人口和经济特征。
https://doi.org/10.1371/journal.pdig.0000345.t001
生殖健康和计划生育服务特点。
在全部受访者中,有5397名(92.75%)有怀孕史,约4222名(73.64%)女性在18岁之前开始。超过一半的受访者(54.40%)从未使用过任何计划生育方法,大约一半的妇女(49.13%)从未在卫生机构分娩。关于她们的伴侣/丈夫对使用FP的感觉,大多数妇女(62.60%)得到了丈夫/伴侣的批准(表2)。
缩略图 下载:
.PPT幻灯片
.PNG大图
.TIFF原始图像
表 2. 受访者生殖健康和计划生育服务特点。
https://doi.org/10.1371/journal.pdig.0000345.t002
机器学习分析结果
平衡数据。
SMOTE过采样技术从少数类别(即未满足的需求)中产生了2782个额外的综合观测值,以平衡结果变量的不平衡分布。结果,未满足需求状态的总体分布情况从873个未满足需求变为3 655个未满足需求;将每个类中的 3655 提供给两个类别的对称分布,以构建可靠的预测模型。
模型性能比较。
经过模型选择和训练,采用分层10倍交叉验证ML模型曲线得分下的平均准确率和平均面积来比较预测模型的性能,以预测未满足的计划生育需求。对不平衡训练数据进行分层10倍交叉验证比较分类器后,逻辑回归是最佳模型,准确率为80.7%,ROC曲线下面积为0.63。然而,由于结果变量的不平衡类性质,该结果可能不可靠,这可能会使模型偏向多数类。为了避免这种有偏差的模型构建,在使用SMOTE过采样技术平衡训练数据后进行了ML模型比较。因此,随机森林是最好的预测模型,准确率为84.8%,ROC曲线下面积为0.92(表3)。
thumbnail 下载:
.PPT幻灯片
.PNG大图
.TIFF原始图像
表 3. 通过对训练数据进行十倍交叉验证进行模型比较。
https://doi.org/10.1371/journal.pdig.0000345.t003
随机森林的超参数调优。
尽管scikit-learn为所有模型(包括随机森林)提供了一组合理的默认超参数,但不能保证它是针对某个问题的最佳选择。为了最大限度地提高随机森林的性能,超参数包括森林中的决策树数量(n_estimators)、拆分节点时每棵树考虑的特征数量(max_features)、拆分内部节点所需的最小样本数(min_samples_split)、叶节点所需的最小样本数(min_samples_leaf), 从自变量中提取样本数量以训练每棵树(max_samples)使用分层 10 倍交叉验证在给定搜索空间上进行 100 次试验进行优化。scikit-learn 设置的默认超参数和我们优化的超参数如表 4 所示。
thumbnail 下载:
.PPT幻灯片
.PNG大图
.TIFF原始图像
表 4. 随机森林模型的默认和最佳调优超参数。
https://doi.org/10.1371/journal.pdig.0000345.t004
最后,通过10倍交叉验证,在平衡训练数据上使用这些调优超参数创建随机森林模型,准确率为85%,曲线下面积为0.93。
功能选择。
本研究使用与模型无关的SHAP全局特征重要性来选择计划生育需求未满足的主要预测因素。此技术检查所有数据中每个预测变量的平均绝对 SHAP 值,从而量化特征对预测的未满足需求状态的贡献。图 2 说明了使用优化的随机森林模型的前十个因素的 SHAP 全局重要性得分。预测变量根据其对结果变量预测的影响按降序排序,平均绝对 SHAP 值较高的特征更具影响力。结果显示,预测计划生育需求未得到满足的最重要因素是丈夫/伴侣不赞成使用计划生育(Husband_feelingonFpUse_3)、家庭成员人数(num_HH_members)、妇女教育是首要的(education_level_1)、来自阿姆哈拉地区(region_3)、以前在卫生机构提供(deliv_facility_ever_1)和中等财富分位数(wealth_status_1)是妇女计划生育需求未得到满足的最重要预测因素。 此外,来自阿法尔(region_2)和奥罗米亚(region_4)、中等及以上妇女教育(education_level_2)和36至49岁年龄组(age_category_3)也是计划生育需求未得到满足的重要预测因素。如图所示,红色和蓝色占据了每个类水平矩形的一半。这意味着每个特征对未满足需求(标签 = 1)和无未满足需求(标签 = 0)情况的分类具有相同的影响(图 2)。
thumbnail 下载:
.PPT幻灯片
.PNG大图
.TIFF原始图像
图2. 优化随机森林模型的 SHAP 全局重要性图。
Husband_feelingonFpUse_3=丈夫/伴侣不赞成使用计划生育,num_HH_members=家庭成员人数,education_level_1=妇女教育是小学,region_3=阿姆哈拉地区,deliv_facility_ever_1=以前在卫生机构分娩,wealth_status_2=中等财富分位数,region_4=奥罗米亚州,education_level_2=中等及以上妇女教育,age_category_3=36至49岁, region_2 = 阿法尔地区。
https://doi.org/10.1371/journal.pdig.0000345.g002
模型解释/解释。
蜂群图用于提供变量如何影响模型对所有数据的预测的丰富概述。图 3 通过绘制每个样本的特定预测因子的 Shapley 值,显示了每个预测因子对模型输出(即未满足需求状态预测)的影响分布。此蜂群图上的点表示与未满足需求状态相关的特征的 Shapley 值,从而深入了解结果变量上前十个特征中每个特征的重要性和关联性。图中的红色和蓝色色调表示每个预测变量的较高值和较低值。垂直线右侧的点(0 SHAP 值)增加了未满足需求的可能性,而左侧减少了未满足需求的可能性(图 3)。除num_HH_members变量外的所有变量都是具有两个类别的分类变量,因此红线表示编码为 1(高值)的类别,蓝色表示编码为 0(低值)的类别。因此,丈夫/伴侣不赞成使用计划生育(Husband_feelingonFpUse_3年),妇女教育是初级教育(education_level_1年),来自阿姆哈拉地区(region_3年),以前在卫生机构提供(deliv_facility_ever_1年)和中等财富分位数(wealth_status_2年),增加了计划生育需求未得到满足的可能性。关于家庭成员的数量(num_HH_members),生活在成员很少的家庭中的妇女增加了计划生育需求未得到满足的可能性(图3)。
thumbnail 下载:
.PPT幻灯片
.PNG大图
.TIFF原始图像
图3. 蜂群图,按优化的随机森林模型生成的平均绝对 SHAP 值排名。
Husband_feelingonFpUse_3=丈夫/伴侣不赞成使用计划生育,num_HH_members=家庭成员人数,education_level_1=妇女教育是小学,region_3=阿姆哈拉地区,deliv_facility_ever_1=以前在卫生机构分娩,wealth_status_2=中等财富分位数,region_4=奥罗米亚州,education_level_2=中等及以上妇女教育,age_category_3=36至49岁, region_2 = 阿法尔地区。
https://doi.org/10.1371/journal.pdig.0000345.g003
最后,利用瀑布图分别对图4和图5中第一次和第二次观测值的模型预测进行了解释。在图 4 中,瀑布图以 x 轴上模型输出的期望值 (E[f(X)] = 0.5) 开始,这表示在考虑任何特征贡献之前对给定样本的初始预测。此基线预测通常是数据集的平均值或最常见的预测。
thumbnail 下载:
.PPT幻灯片
.PNG大图
.TIFF原始图像
图4. 瀑布图显示第一个观测值的预测。
https://doi.org/10.1371/journal.pdig.0000345.g004
thumbnail 下载:
.PPT幻灯片
.PNG大图
.TIFF原始图像
图5. 显示第二个观测值预测的瀑布图。
https://doi.org/10.1371/journal.pdig.0000345.g005
对于给定的观测值,如果高于此值(E[f(X)])的模型输出对应于正类(即未满足的需求),而低于此值的分数对应于负类(“没有未满足的需求”)。因此,对于第一个观测值,正贡献(红色)和负贡献(蓝色)的组合将期望值输出移动到最终模型输出(f(x) = 0.69),分类为正类(未满足需求)。因此,家庭中有8名成员(8 = num_HH_members),不在卫生机构分娩(0 = deliv_facility ever_1),丈夫不赞成使用计划生育(0 = husband_feelingonFpUse_3),以及财富状况不富裕(0 = wealth_status_2)增加了该特定妇女计划生育需求未得到满足的可能性。而在过去12个月内参加计划生育咨询(1=attendedFPcounsel_last12month_1),年龄在36至49岁(1=age_category_3),在18岁以后开始性行为(1=ageAtFirstSex_1),教育水平是主要的(1=education_level_1),以及在过去12个月内有卫生工作者访问(1=visitedByHW_last12month_1),降低了该妇女计划生育需求未得到满足的可能性(图4)。
同样,对于第二个观测值,正贡献(红色)和负贡献(蓝色)的组合将期望值输出(E[f(x)] = 0.5)移动到分类为正类(未满足需求)的最终模型输出(f(x) = 0.01)。这意味着此观察结果有 (1.0–0.001) 99% 的概率没有未满足的需求(负类)。对于这个特殊的妇女,来自亚的斯亚贝巴(1=region_10),中等及以上教育水平(1=education_level_2),年龄在36至49岁之间(1=age_category_3),财富状况丰富(1=wealth_status_2),丈夫批准使用计划生育(1=husband_feelingonFpUse_3),18岁以后开始性行为(1=ageAtFirstSex_1), 家庭中有6名成员(6=num_HH_members),在21至30岁开始使用计划生育(1=age_at_first_fp_use_2),在卫生机构分娩(1=deliv_facility_ever_1)降低了计划生育需求未得到满足的可能性(图5)。
讨论
这项研究旨在确定埃塞俄比亚计划生育需求未得到满足的关键预测因素。为此,通过十倍交叉验证,在平衡和不平衡的训练数据上训练了八个机器学习分类器。这八个分类器模型的性能通过分类准确性和AUC分数进行了比较。因此,在通过SMOTE重采样技术平衡的数据中训练的模型比在不平衡数据上训练的模型产生更高的准确性和AUC分数。在对不平衡训练数据进行预测建模的第一阶段,逻辑回归的表现优于其他分类器,准确率为 80.7%,AUC 得分为 0.63。然而,在平衡训练数据的模型构建的第二阶段,随机森林的表现远远优于逻辑回归,准确率为 84.8%,AUC 得分为 0.92。因此,随机森林是最好的预测模型,在优化其最佳超参数后进行了进一步的分析。超参数调优随机森林在平衡数据上的精度为 85%,曲线下面积为 0.93。
基于RF模型的SHAP分析显示,丈夫/伴侣不赞成使用计划生育、家庭成员数量、妇女教育是主要的、来自阿姆哈拉地区以及以前在医疗机构提供的,是埃塞俄比亚计划生育需求未得到满足的最重要预测因素。最后,应用SHAP模型解释来解释每个预测因子如何影响未满足的计划生育需求。
根据SHAP模型解释,丈夫/伴侣不赞成妇女使用计划生育增加了计划生育需求未得到满足的可能性。这一发现与在埃塞俄比亚奥罗米亚州托克库塔耶区进行的一项研究一致[26],该研究报告称,丈夫不赞成使用计划生育的妇女更有可能有未满足的计划生育需求。埃塞俄比亚的其他研究也报告说,伴侣对计划生育没有支持态度的女性更有可能出现计划生育需求未得到满足[27,28]。 这可能是由于丈夫/伴侣缺乏认识,或者他们听到的关于计划生育副作用的神话和错误信息导致他不赞成妻子/伴侣使用计划生育方法。因此,让男性伴侣参加避孕咨询会议并让男性参与生殖健康的战略可以提高避孕药具的利用率,同时通过限制丈夫不赞成使用避孕药具来减少未满足的需求。
生活在成员较少的家庭中增加了妇女计划生育需求得不到满足的可能性。在巴基斯坦进行的一项研究的结果支持了这一结果,该研究发现,在儿童数量较少的家庭中,计划生育需求未得到满足的可能性更高[29]。这也与巴基斯坦[30]和印度尼西亚[31]的其他研究结果一致。它表明,随着家庭成员数量的增加,可能参与生育决定的妇女和其他家庭成员可能会更加相信计划生育方法的有用性。
这项研究还表明,妇女受教育是首要的,增加了计划生育需求未得到满足的可能性。这一结果与在撒哈拉以南非洲进行的一项研究一致,该研究报告称,已完成初等教育的受访者对限制和间隔的未满足需求更高[6]。这可能是因为只受过初等教育的妇女可能不知道在哪里可以找到避孕方法以及何时使用它们。
计划生育需求未得到满足的另一个主要预测因素是妇女生活的地区。那些来自阿姆哈拉地区的妇女更有可能出现计划生育需求未得到满足的情况。这一发现得到了在阿姆哈拉地区不同地区进行的各种横断面研究的支持[27,32-34]。这可能是由于多种因素的综合作用,包括文化规范、获得避孕措施的机会以及缺乏有关计划生育选择的教育,因为大多数受访者是农村居民。
这项研究还表明,以前在卫生机构分娩的妇女更有可能出现计划生育需求未得到满足的情况。对此的可能解释可能是,在保健机构寻求产妇服务时,可能没有向妇女提供有关计划生育方法的适当健康信息。这也表明,由于问题的多层面性质,提供设施并不能保证妇女对避孕药具的需求得到满足。此外,证据还显示埃塞俄比亚卫生系统存在巨大能力差距,难以提供高质量的常规分娩和分娩护理服务[35]。
研究的局限性和优势
使用黑盒机器学习模型(如随机森林)的最大挑战是失去轻松解释结果和驱动预测结果的因素的能力。为了减轻机器学习结果由于其黑盒性质而具有解释局限性的事实,研究人员使用额外的分析来确定预测因子如何增加或减少未满足的避孕需求。研究人员使用SHAP等技术的组合来分析每个预测因子的相对重要性,并深入了解每个因素如何对模型的预测做出贡献。这使他们能够更好地了解模型的预测如何受到不同因素的影响。
虽然 SHAP 解释提供了对单个预测或案例的宝贵见解,但它们捕获模型整体行为或模式的能力受到限制,因为 SHAP 解释的局部性质限制了它们提供模型全局理解的能力。
结论
这项研究的目的是确定导致妇女计划生育需求未得到满足的关键预测因素。为了预测未满足的需求,训练了八种机器学习算法,并根据其准确性和曲线下面积评估了它们的性能。使用十倍交叉验证,随机森林模型最准确,AUC 为 0.93,准确率为 85%。采用SHAP特征重要性法确定计划生育需求未满足的十大预测因子,并探讨其影响。最后,SHAP分析确定了丈夫/伴侣不赞成使用计划生育,妇女教育是初级的,来自阿姆哈拉地区,以前在医疗机构提供,以及中等财富分位数的关键因素,这些因素增加了计划生育需求未得到满足的可能性。此外,家庭成员人数较少的妇女增加了计划生育需求得不到满足的可能性。这表明,不仅妇女的某些特征(如教育、地区和财富)与计划生育需求未得到满足的可能性更高有关,而且某些外部因素(如丈夫或伴侣的不赞成)也是如此。这表明需要采取一种考虑到所有这些因素的办法,以便有效地解决未满足的计划生育需要。这一点尤其重要,因为计划生育需求未得到满足的妇女更有可能经历意外怀孕,这可能导致母亲和孩子的负面健康结果。此外,计划生育需求未得到满足也可能产生经济和社会后果,因为这可能导致妇女的经济机会减少,并可能加剧两性不平等。计划生育需求未得到满足也会对人口增长率产生影响。当妇女无法获得计划生育服务时,她们生育的孩子可能比她们本来选择的要多。这可能导致人口快速增长,从而对资源造成压力并导致经济不稳定。因此,在执行旨在减少埃塞俄比亚计划生育未得到满足需求的保健政策时,必须考虑到妇女的教育水平、家庭数量、居住地区和分娩地点。此外,应强调丈夫/伴侣参与计划生育会议,因为这对妇女对避孕药具的需求有重大影响。
确认
我们感谢PMA调查项目,该项目提供了数据访问授权的许可,使我们能够进行研究。如果没有Python社区,这种分析是不可能的。Python 社区开发了大量开源库和框架,可用于快速轻松地构建数据分析管道。如果没有这些工具,执行此分析将更加困难和耗时。
引用
1.Bradley S.E.K.等人,修订未满足的计划生育需求,载于《国土安全部分析研究》第25号。2012年,ICF国际:美国马里兰州卡尔弗顿。
2.指标元数据注册表详细信息。可用: https://www.who.int/data/gho/indicator-metadata-registry/imr-details/3414.
3.Ayele W.和Tesfaye H.,计划生育和方案选择未满足需求的趋势和决定因素,埃塞俄比亚:对2000年、2005年和2011年人口和健康调查的进一步分析。2013年:ICF国际。
查看文章谷歌学术搜索
4.责任S.,妇女,社会和全球堕胎。纽约:艾伦·古特马赫学院,1999年。
5.联合国,《2017年世界计划生育-经济和社会事务部人口司重点》,编辑。2017年:纽约。
查看文章谷歌学术搜索
6.Teshale A.B.,与撒哈拉以南非洲未满足的计划生育需求相关的因素:多级多项式逻辑回归分析。公共科学图书馆一号,2022 年。17(2):第 e0263885 页。密码:35143584
查看文章PubMed/NCBI谷歌学术搜索
7.Dingeta T.等人,埃塞俄比亚东部年轻已婚妇女未满足的避孕需求。开放获取避孕杂志,2019 年。10:第89-101页。密码:31908548
查看文章PubMed/NCBI谷歌学术搜索
8.Gebrecherkos K.等人,埃塞俄比亚北部提格雷厄立特里亚难民营育龄妇女对现代避孕措施未满足的需求和相关因素:横断面研究。BMC Res Notes, 2018.11(1):第851页。密码:30509324
查看文章PubMed/NCBI谷歌学术搜索
9.Girma Garo M.等人,埃塞俄比亚东部比绍夫图镇目前已婚育龄妇女计划生育需求未得到满足和相关因素。公共科学图书馆一号,2021 年。16(12):第 e0260972 页。密码:34871318
查看文章PubMed/NCBI谷歌学术搜索
10.中央统计局——CSA/埃塞俄比亚和ICF,《2016年埃塞俄比亚人口与健康调查》。2017年,CSA和ICF:埃塞俄比亚亚的斯亚贝巴。
11.公共卫生概览——未满足的避孕需求。可用: http://web.worldbank.org/archive/website01213/WEB/0__CO-17.HTM.
12.FMOH,卫生部门转型计划二(HSTP II)2020/21–2024/25。2021年,FMOH。
13.Hailemariam A.和Haddis F.,影响埃塞俄比亚南部国家、民族和人民地区未满足的计划生育需求的因素。埃塞俄比亚卫生科学杂志, 2011.21(2):第77–89页。密码:22434988
查看文章PubMed/NCBI谷歌学术搜索
24米Tadele A.,Abebaw D.和Ali R.,埃塞俄比亚所有育龄妇女计划生育需求未得到满足的预测因素。避孕与生殖医学,2019年。4(1):第 1–9 页。密码:31171978
查看文章PubMed/NCBI谷歌学术搜索
25米Lundberg S.M.和Lee S.-I.,解释模型预测的统一方法。神经信息处理系统进展,2017 年。30.
查看文章谷歌学术搜索
26米Zimmerman L.等人,PMA-埃塞俄比亚协议:生殖,孕产妇和新生儿健康的横断面和纵向数据的新数据源。大门打开研究,2020年。4:第126页。密码:33150302
查看文章PubMed/NCBI谷歌学术搜索
27米Kebede S.D.等人,使用埃塞俄比亚人口与健康调查2016数据集预测埃塞俄比亚育龄妇女避孕药具中断:机器学习方法。BMC 医学信息学与决策,2023 年。23(1):第9页。pmid:36650511
查看文章PubMed/NCBI谷歌学术搜索
28米Rawat S.等人,机器学习和数据可视化技术在保险部门决策支持中的应用。国际信息管理数据洞察杂志,2021 年。1(2):第100012页。
查看文章谷歌学术搜索
19.Shah A.D.等人,使用小鼠插补缺失数据的随机森林和参数插补模型的比较:口径研究。美国流行病学杂志,2014 年。179(6):第764–774页。密码:24589914
查看文章PubMed/NCBI谷歌学术搜索
10米Chawla N.V.等人,SMOTE:合成少数过度采样技术。人工智能研究杂志, 2002.16:第321-357页。
查看文章谷歌学术搜索
11米Akiba T., et al. Optuna:下一代超参数优化框架。第 25 届 ACM SIGKDD 知识发现和数据挖掘国际会议论文集。2019.
查看文章谷歌学术搜索
12米Gebreyesus Y.等人,用于数据中心优化的机器学习:使用Shapley加法解释(SHAP)的特征选择。未来互联网,2023 年。15(3):第88页。
查看文章谷歌学术搜索
23.刘玉等,基于SHAP值特征选择的帕金森病诊断.生物控制论与生物医学工程, 2022.42(3):第856–869页。
查看文章谷歌学术搜索
14米马西里奥·从解释到特征选择:评估 SHAP 值作为特征选择机制。2020年第33届SIBGRAPI图形,图案和图像会议(SIBGRAPI)。2020.
查看文章谷歌学术搜索
25.Zacharias J.等人,设计一种基于可解释人工智能的特征选择方法。电子市场,2022 年。32(4):第2159–2184页。
查看文章谷歌学术搜索
26.在通用汽车,Desta H.O.和Bala E.T.,埃塞俄比亚奥罗米亚州Toke Kutaye区已婚育龄妇女计划生育需求未得到满足的相关因素。国际生殖医学杂志,2021 年。2021年:第5514498页。
查看文章谷歌学术搜索
27.Genet E.,Abeje G.和Ejigu T.,阿姆哈拉地区阿维区Dangila镇行政部门目前已婚妇女计划生育需求未得到满足的决定因素;横断面研究。生殖健康,2015年。12(1):第42页。密码:25962743
查看文章PubMed/NCBI谷歌学术搜索
18米Mechal N.等人,在埃塞俄比亚亚的斯亚贝巴圣保罗医院千禧医学院随访的心血管疾病妇女未满足的避孕需求和相关因素:一项横断面研究。避孕医学,2022 年。7(1):第6页。密码:35545796
查看文章PubMed/NCBI谷歌学术搜索
29.Asif M.F.和Pervaiz Z.,巴基斯坦已婚妇女计划生育需求未得到满足的社会人口决定因素。BMC 公共卫生,2019 年。19(1):第1226页。密码:31488094
查看文章PubMed/NCBI谷歌学术搜索
30.Ahmed S.,Khan A.和Khan A.A.,巴基斯坦计划生育需求未得到满足的政策和方案影响。J Pak Med Assoc, 2013.63(4 增刊 3):第 S16–20 页。pmid:24386725
查看文章PubMed/NCBI谷歌学术搜索
31.Wilopo S.A.等人,印度尼西亚产后妇女计划生育需求未满足的水平,趋势和相关性:2007-2015。BMC 女性健康,2017 年。17(1):第120页。密码:29179744
查看文章PubMed/NCBI谷歌学术搜索
32.Tegegn M.,Arefaynie M.和Tiruye T.Y.,埃塞俄比亚Dessie镇延长产后妇女对现代避孕药具的未满足需求和相关因素。避孕生殖医学,2017 年。2:第21页。密码:29201426
查看文章PubMed/NCBI谷歌学术搜索
33.Molla G.和Belete H.,阿姆哈拉东北部Kobbo woreda目前已婚妇女计划生育需求未得到满足及其决定因素。埃塞俄比亚生殖健康杂志,2011年。5(1).
查看文章谷歌学术搜索
34.Worku S.A.,Ahmed S.M.和Mulushewa T.F.,埃塞俄比亚阿姆哈拉州Debre Berhan镇育龄妇女计划生育需求未得到满足及其相关因素。BMC Res Notes, 2019.12(1):第143页。密码:30876437
查看文章PubMed/NCBI谷歌学术搜索
35.Bayou N.B.等人,埃塞俄比亚政府医院分娩和分娩护理的结构质量:描述性分析。BMC 怀孕分娩,2022 年。22(1):第523页。密码:35764981
查看文章PubMed/NCBI谷歌学术搜索