免费论文-使用机器学习分析埃塞俄比亚病历中的肺癌风险因素
抽象
癌症是一个广义的术语,指的是可以影响人体任何部位的各种疾病。为了尽量减少癌症死亡人数并制定适当的减轻癌症传播的卫生政策,科学支持的癌症原因知识至关重要。因此,在这项研究中,我们使用基于决策树的排名算法分析了导致高度严重癌症病例的肺癌风险因素。该特征相关性排名算法通过使用拆分点来计算数据集每个特征的权重,以提高检测精度,并根据决策树上为其发生的观察值数对每个风险因素进行加权。咳血、空气污染和肥胖是九种肺癌中最严重的危险因素,体重分别为39%、21%和14%。我们还提出了一个机器学习模型,该模型使用极端梯度提升(XGBoost)来检测肺癌患者的肺癌严重程度。我们使用埃塞俄比亚亚的斯亚贝巴Tikur Ambesa(黑狮)医院的1000名肺癌患者和465名无肺癌患者的数据集来评估所提出的模型的性能。所提出的癌症严重程度检测模型对于测试数据集分别实现了 98.9%、99% 和 98.9% 的准确率、精密度和召回率。这些发现可以帮助政府和非政府组织做出与肺癌相关的政策决定。
作者摘要
肺癌已成为埃塞俄比亚死亡的主要原因之一。肺癌风险因素因地而异,因为它取决于人们的社会文化活动。在这项研究中,我们从埃塞俄比亚亚的斯亚贝巴的肺癌患者的医疗记录中检查了肺癌风险因素。数据包含872名女性和593名男性的医疗记录。使用决策树确定研究区域中肺癌的关键风险变量。我们发现咳血是肺癌的主要危险因素之一,体重为0.39。特征重要性 0.39 表示特征在检测模型中占整体决策的 39%。此外,空气污染和肥胖是肺癌最重要的危险因素,相关性权重分别为0.21和0.14。这意味着这些风险因素导致或表明研究区域中的大多数肺癌病例。这三个因素占研究区域肺癌分析的74%。此外,我们使用XGBoost分类器从风险因素中检测肺癌严重程度,并且实验产生了显着的检测结果。
数字
Fig 6Table 5Table 6Fig 1Table 1Fig 2Table 2Table 3Fig 3Fig 4Fig 5Table 4Fig 6Table 5Table 6Fig 1Table 1Fig 2
引文: 恩达利 D,阿贝贝 WT (2023) 使用机器学习分析埃塞俄比亚医疗记录中的肺癌风险因素。公共科学图书馆数字健康 2(7): e0000308. https://doi.org/10.1371/journal.pdig.0000308
编辑 器: 陆浩成,国立阳明交通大学,台湾
收到: 28 年 2023 月 23 日;接受: 2023月 19, 2023;发表: <>月 <>, <>
版权所有: ? 2023 恩达利,阿贝贝。这是一篇根据知识共享署名许可条款分发的开放获取文章,该许可允许在任何媒体上不受限制地使用、分发和复制,前提是注明原作者和来源。
数据可用性: 这项研究工作的数据集和源代码可在GitHub(https://github.com/demekeendalie/cancer)上在线公开获得。
资金: 作者没有为这项工作获得具体资金。
竞争利益: 提交人声明不存在相互竞争的利益。
1. 简介
癌症是一种复杂多样的疾病;其发生模式因潜在癌症危险因素(如环境和生活方式因素)的差异而异[1]。根据研究,由于人口快速增长、预期寿命延长、采用不健康的生活方式以及生殖模式的变化,经济转型国家的癌症呈上升趋势[2]。埃塞俄比亚的癌症患病率正在迅速增加,77年每年估计有352,2022例新发癌症病例[3]。癌症负担是使用亚的斯亚贝巴基于人群的癌症登记处估算的。因此,乳腺癌(31.5%)和宫颈癌(14.1%)是女性中最常见的两种癌症,而结直肠癌(10.6%)和非霍奇金淋巴瘤(10.2%)是男性中最常见的恶性肿瘤[4]。
肺癌是全球癌症死亡的主要原因,每年造成1万人死亡。只有8%的肺癌病例报告在低收入和中等收入国家。据估计,埃塞俄比亚所有癌症中有20.1%涉及肺部[5]。研究发现了肺癌的几个危险因素[5]。埃塞俄比亚的一些主要肺癌危险因素包括吸烟、饮酒、被动吸烟、空气污染、肺癌家族史(遗传风险)、胸痛和饮食[6]。本研究旨在使用数据挖掘算法来确定与其严重程度级别关系最强的肺癌风险因素,并建立一个模型来预测肺癌风险因素记录的严重程度水平。下面列出了与本研究相关的一些工作。
埃塞俄比亚的作者试图确定癌症症状和风险因素。例如,[8]中的作者使用经过验证的癌症意识测量(CAM)方法进行了基于人群的面对面访谈。利用多阶段抽样技术共招募了600名成年人(315名男性和285名女性)。一个开放式问题和十个封闭式问题被用来测试对癌症的认识。使用了12个开放式问题和80个封闭式问题。使用逻辑回归分析研究了社会人口学地位与癌症体征、症状和风险因素意识之间的关联。根据封闭式问题回答,大多数受访者(7.82%)将持续疲倦归类为癌症症状,将饮酒(5.<>%)归类为癌症风险。
[9]的作者提出了一种机器学习模型,用于预测延迟BC诊断的因素。在这项研究中,四种机器学习算法,包括极端梯度提升(XGBoost),随机森林(RF),神经网络(NNs)和逻辑回归(LR),用于检查630名确诊BC女性的数据。BC诊断延迟的最重要因素是城市居住、乳腺疾病史、其他合并症、首次分娩年龄、未生育和已婚。然而,癌症危险因素的重要性取决于其与严重程度的相关性[10]。
[11]的研究考虑了这两种疾病的14种不同的可能风险因素,其重要性从吸烟和超重到饮用过热的饮料。在某些地区,肥胖已成为癌症和心血管疾病心血管疾病的更大风险因素,其中一些不同因素的研究结果与其对疾病负担的影响呈正相关。
[12]的工作讨论了使用来自不同类别的风险因素,如流行病学、放射学和生物标志物,以针对将从新引入的筛查方式中受益最大的人群。使用低剂量计算机断层扫描(LDCT)筛查肺癌已被添加到高危人群可用的诊断工具库中。虽然发现了许多肺结节,但只有一小部分是早期肺癌。其中绝大多数是各种类型的良性病变。虽然诊断检查很耗时,但不可否认的好处源于(I)早期肺癌诊断(分期转移);以及(II)允许实施不限于胸部肿瘤学的预防措施的其他发现。
在[13]中,作者提出了一个预测结直肠癌(CRC)风险发生率的模型。临床癌症研究营养数据库用于驱动和验证基于年龄和扩展健康生活方式指数组成部分预测CRC风险的模型。基于 CatBoost、LightGBM 和梯度提升模型的软投票分类器提供了更高的性能,平均准确度为 0.6583 ± 0.054。
现在,数据推动的决策比以往任何时候都多。基于数据的决策对于在许多领域工作的政府和非政府组织至关重要。[14]它揭示了他们数据中隐藏的知识。卫生部门需要数据驱动的判断[15]。因此,本研究的主要目标是使用肺癌患者的医疗记录和接受肺癌检测的健康个体的信息作为对照,以数据驱动决策哪些肺癌风险因素与研究领域特别相关。本研究使用决策树算法对医院病历中的风险因素进行排序。XGBoost机器学习用于构建预测肺癌严重程度的模型。最后,本研究为以下问题提供了答案:
哪个风险因素导致研究区域中大多数肺癌病例?
如何使用机器学习模型检测肺癌的严重程度?
本研究的整个工作组织如下:第2部分涵盖了用于实现研究目标的材料和方法。第 3 部分是关于实验和分析结果的。最后,第4节讨论了本研究的结论和未来方向。
2. 材料和方法
肺癌风险因素分析和癌症严重程度检测模型的过程包括数据收集、模型评估和使用各种评估指标的模型验证。所提出的肺癌严重程度检测模型的高级描述如图1所示。该架构包括癌症患者的人口统计、病史和习惯数据集等组件;预处理组件,例如缺失值填充、特征相关性计算和选择;模型训练;和评估组件。
缩略图 下载:
.PPT幻灯片
.PNG大图
.TIFF原始图像
图1. 所提出的癌症严重程度检测模型的架构。
https://doi.org/10.1371/journal.pdig.0000308.g001
以下是所提出的方法的每个组件的描述。
2.1. 道德声明批准
该研究得到了吉马大学卫生研究所机构审查委员会的批准,我们获得了Tikur Ambesa(黑狮)医院行政部门和单位负责人的许可。参与者被告知研究的目的,参与的好处以及他们随时停止的权利。我们没有在数据收集表和报告中包含参与者的姓名或其他个人信息。
2.2. 数据集描述
本研究使用的数据是根据埃塞俄比亚亚的斯亚贝巴Tikur Ambesa医院的患者病历汇编而成的。病历是包含以下信息的文件:(1)病史,(2)PE的结果,(3)实验室测试报告,(4)特殊检查的结果和结论,(5)顾问的发现和诊断,(6)负责医生的诊断,(7)治疗说明,包括药物,外科手术,放射, 和物理治疗,以及(8)医生、护士和其他人员的进展记录[16]。
This study includes medical records, including demographic information, habits, and medical histories of 1000 lung cancer patients with different severity levels and 465 healthy individuals who were checked for lung cancer. The quality and quantity of data found in their medical records are used to select participants for the study. There are 15 significant risk factors in the hospital setting; however, medical professionals classify 11 of the 15 as highly likely to be major risk factors for lung cancer. The severity of lung cancer is categorized into three levels, namely low, medium, and high, depending on the stage of the disease in the patient [17]. The risk factors were obtained from the medical records of the hospital. The data set contains the medical records of 872 women and 593 men. Participants in the study range in age from 14 to 73 years old. The total number of people in each of the four groups is shown in Table 1 below.
thumbnail Download:
PPTPowerPoint slide
PNGlarger image
.TIFF原始图像
表 1. 每类肺癌严重程度下的患者数量。
https://doi.org/10.1371/journal.pdig.0000308.t001
我们使用数字代码来表示从病历中获得的个体危险因素的值[218]。肺癌严重程度水平是我们的检测模型中的因变量,由每个风险因素的程度决定。下面的图2描述了肺癌每个危险因素的归一化值分布。
缩略图 下载:
.PPT幻灯片
.PNG大图
.TIFF原始图像
图2. 数据集中每个属性的值分布。
https://doi.org/10.1371/journal.pdig.0000308.g002
这些特征是导致埃塞俄比亚不同严重程度的肺癌的风险因素。该研究的目标或因变量是肺癌严重程度水平(低、中、高和健康)。为了使用任何学习模型处理数据,我们将肺癌严重程度水平转换为整数,将低转换为 0,将中转换为 1,将高转换为 2。三是我们赋予健康人的级别。本研究中使用的所有学习模型都使用这些严重性级别作为分类或预测变量。
2.3. 填充缺失值
本研究中收集的信息被清理和审查,以查找异常值、错误和缺失。丢失数据是几乎每个真实数据集中的常见问题。缺失值定义为有关缺失变量的信息。缺失值的问题在于,无法根据数据进行正确的分析,并且从具有缺失值的数据集中得出的结论可能是错误的[19]。本研究中考虑的风险因素如下表2所示,以及每个风险因素(列)的漏值数量。
thumbnail 下载:
.PPT幻灯片
.PNG大图
.TIFF原始图像
表 2. 每个风险因素中缺失值的数量。
https://doi.org/10.1371/journal.pdig.0000308.t002
如表2所示,我们在不到4%的记录中发现了缺失值,因此可以删除那些具有缺失值的行[19]。由于消除会减少数据量,因此我们使用了插补方法,该方法可以更好地评估数据的集中趋势。我们使用每个属性值的模式来填充数据集 [20] 中的缺失值。我们使用模式来填充数据集中的缺失值,因为我们数据集中的所有属性都是分类的。使用模式值插补缺失数据适用于数值和分类数据[21]。我们检查了变化前后每个属性值的平均值和中位数,它们的差异不显著。
2.4. 功能选择
通过删除不相关、冗余或噪声特征从原始特征中选择一小部分相关特征称为特征选择[22]。并非所有属性或要素对于分类或检测问题都同样重要。然而,特征选择通常会导致更好的学习准确性、更低的计算成本和更好的模型可解释性。在计算每个属性之间的关系之前,我们计算它们的偏斜值。表3显示了每个风险因素的偏度值的结果。
thumbnail 下载:
.PPT幻灯片
.PNG大图
.TIFF原始图像
表 3. 每个肺癌风险因素的偏斜值。
https://doi.org/10.1371/journal.pdig.0000308.t003
以下是根据偏斜值 [23] 确定数据分布的经验法则:
? 如果偏度小于 -1 或大于 1,则分布高度偏斜。
? 如果偏度介于 -1 和 -0.5 之间或介于 0.5 和 1 之间,则分布为中等偏斜。
? 如果偏度在 -0.5 和 0.5 之间,则分布近似对称。
根据经验法则,只有年龄具有适度的偏斜值;其他被归类为近端对称。因此,我们使用相关系数来确定肺癌风险因素之间的关系。
相关系数衡量两个变量之间关系的强度[24]。相关系数可以用均值和期望值来表示:
(1)
其中fi是特征i,E是期望值,t是目标变量,σfi是fi的标准差,σt是目标变量t的标准差。 图3描述了本研究中研究的每个风险因素之间的相关性。因此,我们评估了上面表2中列出的属性的重要性。我们只选择了与目标属性或肺癌严重程度水平相关系数较高的那些。下面图 3 中的热图用各种深浅不一的颜色替换数字,如右侧的比例所示。较浅的像元具有较高的相关值。观察因变量(严重程度级别)与其他自变量之间的关系,我们可以看到酒精使用、遗传风险、肥胖、被动吸烟和咳血具有最强的正相关性,而年龄和性别则没有。
thumbnail 下载:
.PPT幻灯片
.PNG大图
.TIFF原始图像
图3. 每个风险因素之间的相关性,包括因变量。
https://doi.org/10.1371/journal.pdig.0000308.g003
-0.2和0.2之间的相关系数表明,两者在正向和负向上的依赖性水平不显著[25]。根据这一点,删除相关系数介于 0.2 和 -0.2 之间的属性不会影响给定学习模型的分类或预测性能。因此,在根据上述危险因素确定肺癌的严重程度时,我们没有考虑患者的年龄或性别。
2.5. 训练测试拆分
训练-测试拆分模块用于估计所提出的学习算法的性能。它涉及将数据集分为两个子集。第一个子集用于拟合模型,第二个子集在进行预测并将结果与预期值进行比较后提供给模型。机器学习中没有全球公认的分裂率[26]。然而,训练:80%,测试:20%是最常用的拆分百分比[27]。因此,我们在整个实验中使用了80/20的训练测试分流比。这意味着 80% 的数据集用于训练模型,20% 用于测试训练的模型。
2.6. 学习模型
2.6.1. 极端梯度提升。
在本节中,我们将讨论我们在癌症严重程度检测系统中使用的机器学习方法。XGBoost分类器被选为我们提出的癌症严重程度检测。XGBoost是一种基于决策树的集成机器学习算法,它在对已知数据集进行分类之前使用梯度提升算法[28]。促使我们选择 XGBoost 的两个激励因素是模型性能和执行速度。与其他梯度提升实现相比,XGBoost 非常快 [29]。下面提供了XGBoost的数学解释。XGBoost由几个分类和回归树(CART)组成。根据CART,可以使用熵的概念建立基本的决策树。CART的目标是基尼系数[30]:
(2)
其中 a 是我们选择的属性之一,V 是 a 的尺度,v 是 a 的值之一,D 是数据集,P 代表概率,K 是标签尺度。直观地说,基尼系数反映了数据集中两个样本具有不同标签的可能性。此外,这是构建单个树的原则。XGBoost 的目标是减少残差。残差是实际值和预测值之间的差值。
2.6.2. K-最近邻 (KNN)。
KNN 是一种监督式机器学习方法,通常用于分类和回归应用。它是一种非参数算法,这意味着它不会对数据的基础分布做出任何假设。KNN 算法首先记住完整的训练数据集。提交新数据点进行分类或回归时,该算法会根据某个距离度量在训练数据集中搜索 K 最近邻,其中 K 是用户定义的值。欧几里得距离是最常用的距离度量,但也可以使用其他距离度量[31]。
2.6.3. 支持向量机。
支持向量机 (SVM) 是一种用于分类和回归问题的监督机器学习技术。线性分类器查找最能将输入点划分为各自类的超平面。SVM 算法查找超平面,该超平面最大化了不同类(称为支持向量)中两个最近数据点之间的裕度。SVM 算法的数学公式如下:给定一个 n 点训练数据集 D,SVM 方法尝试定位超平面,这会将数据点拆分为各自的类。在这种情况下,w 是权重向量,b 是偏置项。超平面可以表示如下[32]:
(3)
SVM 算法旨在最大化裕量,同时最小化分类误差。
2.6.4. 多层感知器。
多层感知器(MLP)是一种人工神经网络,通常用于监督学习任务,如分类和回归。它由多层互连的神经元组成,其中每个神经元都是一个处理单元,它接收来自前一层的输入并将其输出到下一层[33]。
MLP 架构通常由输入层、一个或多个隐藏层以及输出层组成。输入层接收输入数据,随后由隐藏层处理以形成网络的输出。输出图层生成网络的最终输出、分类任务的类标注或回归任务的数值。MLP 的数学公式是:设 X 是 n x p 维度的输入数据矩阵,其中 n 是数据点的数量,p 是输入特征的数量。设 Y 是维度 n x q 的输出数据矩阵,其中 q 是输出类或值的数量。设 W 为大小 p x m 权重矩阵,其中 m 是第一个隐藏层中的神经元数量。设 V 为维度 m x q 权重矩阵,其中 q 是输出类或值的数量。设 b1 是第一个隐藏层的大小 m x 1 偏置向量。设 b2 为输出层的偏置向量,大小为 q x 1。第一个隐藏层的输出是 [34]。
其中 f 是激活函数,通常是非线性函数,例如 sigmoid 或双曲正切函数。输出层的输出可以计算为 ,其中 softmax 是用于将网络输出转换为输出类上的概率分布的函数。
2.7. 评估指标
用于分析埃塞俄比亚导致癌症的危险因素的模型可以从检测准确性、精密度、召回率、支持度和置信度等方面进行测量[35]。以下是本研究中使用的性能度量:
准确性:它可以定义为正确预测的数量,作为所有预测的比率。我们可以使用混淆矩阵和以下公式轻松计算它:
(4)
精度:正确正预测占总正预测的比例。它也被称为阳性预测值。
(5)
召回:正确分类的阳性样本占阳性样本总数的比例由召回表示。同样,特异性定义为正确分类的阴性样本与总阴性样本的比例。
(6)
其中,真阳性 (TP):当数据点的实际类和预测类为 1 时。真阴性 (TN):当数据点的实际类和预测类均为 0 时,就是这种情况。误报 (FP):当数据点的实际类为零,而数据点的预测类为 1 时,就是这种情况。假阴性(FN):当数据点的实际类别为36,而预测的数据点类别为零时,就是这种情况[<>]。
3. 实验结果与讨论
该实验的主要目标是从导致癌症的风险因素中检测癌症疾病的严重程度。本研究中的所有实验都是在具有16 GB RAM,Core i5和Windows 10操作系统的计算机上进行的。读取文件、建模和呈现结果的源代码是用Python编写的,本研究中使用的机器学习算法的超参数使用gird搜索调整策略进行了调整。
3.1. 风险因素分析
在开发癌症严重程度检测模型之前,让我们计算并确定埃塞俄比亚最具影响力的癌症风险因素。特征对癌症严重程度水平的显著性是使用提高癌症严重程度检测测量性能的分割点计算的,并通过节点处理的观测值数量进行加权[37]。特征重要性是使用决策树的节点和用于构建树的特征构建的。在给定要素上为每个节点分配一个具有适当分割条件值的分割点。这些值将用于使用以下公式 [38] 计算重量:
(7)
其中 Qj表示其分割点使用特征 j 的节点集,split(n) 表示节点 n 的给定分割条件的值(取决于树类型)。应该注意的是,树中未使用的特征不包括在排名中,因此权重为 0。特征相关性由使用基尼分裂标准的决策树计算。基尼杂质是测量节点杂质的最流行和最常用的技术之一,计算公式为[39]:
(8)
考虑到有 n 个类,这里是每个类的成功概率平方和,给出如下:
(9)
然后,图4描述了每个癌症风险因素在检测研究区域中癌症严重程度方面的重要性。
thumbnail 下载:
.PPT幻灯片
.PNG大图
.TIFF原始图像
图4. 每个肺癌风险因素的重要性。
https://doi.org/10.1371/journal.pdig.0000308.g004
根据图4所示的结果,咳血是肺癌的主要危险因素,因为它与检测严重程度更相关,权重为0.39。特征重要性 0.39 表示特征在检测模型中占整体决策的 39%。此外,空气污染和肥胖是肺癌最重要的危险因素,相关性权重分别为0.21和0.14。这意味着这些风险因素导致或表明研究区域中的大多数肺癌病例。这三个因素(血液咳嗽、空气污染和肥胖)占研究区域肺癌分析决策的 74%。
3.2. 癌症严重程度检测模型
肺癌严重程度检测模型是使用 XGBoost 分类器创建的,其中 80% 的数据大小用于训练,20% 的数据大小用于测试开发的检测模型的检测准确性。该模型将九个属性值作为训练和测试数据,将严重性级别作为训练和测试标签。图5描述了预测和实际的癌症严重程度水平以及预测和实际肺癌严重程度之间的重叠。这意味着所提出的模型正确预测了每个测试实例的水平。
thumbnail 下载:
.PPT幻灯片
.PNG大图
.TIFF原始图像
图5. 测试数据的实际和预测的癌症严重程度级别。
https://doi.org/10.1371/journal.pdig.0000308.g005
此外,使用XGBoost算法开发的所提出的癌症严重程度预测模型使用各种质量指标进行评估,例如准确性,召回率,精度和混淆矩阵。表4显示了该模型的准确性、精密度和召回率,结果表明,所提出的机器学习模型通过使用埃塞俄比亚肺癌患者和健康个体的九个人口统计、习惯和病史来检测肺癌的严重程度。
thumbnail 下载:
.PPT幻灯片
.PNG大图
.TIFF原始图像
表 4. 评估提出的肺癌严重程度检测模型。
https://doi.org/10.1371/journal.pdig.0000308.t004
图6描述了所提出的肺癌严重程度检测模型的三个严重程度水平的混淆矩阵,即0,1,2和3。我们在 293 个实例上测试了模型的性能,并正确预测了 290 个实例。然而,它预测只有三个被医生归类为“低度肺癌”的病例,并且该模型将它们归类为“健康”。
thumbnail 下载:
.PPT幻灯片
.PNG大图
.TIFF原始图像
图6. 训练模型产生的混淆矩阵。
https://doi.org/10.1371/journal.pdig.0000308.g006
此外,我们将提出的癌症严重程度预测模型与机器学习模型(如KNN,SVM和MLP)进行了比较。相同的数据集(我们的数据集)用于比较。当我们反复运行学习模型时,结果各不相同[40]。但是,通过运行模型十次,我们得到了每个评估测量结果的平均值。表5根据三种质量度量比较了每种学习模型。关于三个评估标准,XGBoost优于KNN,SVM和MLP。
thumbnail 下载:
.PPT幻灯片
.PNG大图
.TIFF原始图像
表 5. XGBoost,MLP,KNN和SVM与各种评估指标的比较。
https://doi.org/10.1371/journal.pdig.0000308.t005
每个学习模型错误分类的实例数如下表 6 所示。该表显示了 293 个数据实例(患者)中测试集中的错误分类数。
thumbnail 下载:
.PPT幻灯片
.PNG大图
.TIFF原始图像
表 6. 每个学习模型错误分类的实例数。
https://doi.org/10.1371/journal.pdig.0000308.t006
根据表 6 中的结果,XGBoost 分类器通过将错误百分比降低到 1% 来优于其他机器学习算法。因此,选择XGBoost分类器为研究领域创建肺癌严重程度检测模型。所提出的模型在用于评估其性能的指标质量方面给出了更好的结果。由于数据短缺,这项研究主要集中在使用决策树识别主要的肺癌风险因素,并开发肺癌严重程度水平的预测模型。但是,在未来,我们计划将其扩展到包括癌症分类和每种类型癌症的主要危险因素分析。
4. 结论
在本文中,我们分析了肺癌危险因素,并提出了一种新的肺癌严重程度预测模型。这项研究的数据来自Tikur Ambesa医院的医疗记录存储库,其中包括肺癌患者和465名健康人,他们接受了肺癌检测作为对照。我们使用基于决策树的特征称重策略来确定哪个风险因素在研究区域中占主导地位,并使用XGBoost机器学习算法构建模型来检测医院肺癌患者的严重程度。实验结果表明,粉尘过敏、肥胖、疲劳、饮酒和被动吸烟是研究区域最普遍的危险因素。此外,所提出的癌症严重程度检测模型产生了具有更高检测准确性的可接受结果。因此,这项研究的结果值得用于使用癌症严重程度的不同应用或制定与癌症相关的健康政策。该研究将在未来扩展更多数据,它将成为根据风险因素通知肺癌严重程度的系统的一个组成部分。
确认
作者衷心感谢Dagmawi Solomon博士在获得本研究中使用的数据集方面的帮助。此外,我们感谢吉玛大学对各种资源的支持。
引用
1.Anand P, Kunnumakkara AB, Sundaram C, Harikumar KB, Tharakan ST, Lai OS, et al.癌症是一种可预防的疾病,需要改变生活方式。制药研究[互联网]。2008;25(9):2200–2200.可用: pmid:18626751
查看文章PubMed/NCBI谷歌学术搜索
2.Chimed-Ochir O, Delgermaa V, Takahashi K, Purev O, Sarankhuu A, Fujino Y, et al.蒙古卫生状况:基于《2019年全球疾病负担研究》。BMC Public Health [Internet].2022;22(1):5.可用: pmid:34983445
查看文章PubMed/NCBI谷歌学术搜索
3.Kibret YM,Leka YA,Tekle NF,Tigeneh W.Wolaita Sodo大学医院的癌症模式:埃塞俄比亚南部。公共科学图书馆一号[互联网]。2022;17(10): e0274792.可用: pmid:36201527
查看文章PubMed/NCBI谷歌学术搜索
4.Feuchtner J, Mathewos A, Solomon A, Timotewos G, Aynalem A, Wondemagegnehu T, et al. 亚的斯亚贝巴基于人群的癌症治疗模式,埃塞俄比亚。公共科学图书馆一号[互联网]。2019;14(9): e0219519.可用: pmid:31536505
View ArticlePubMed/NCBIGoogle Scholar
5.Solomon S, Mulugeta W. Diagnosis and risk factors of advantage cancers in Ethiopia. J Cancer Prev [Internet]. 2019;24(3):163–72. Available from: pmid:31624722
View ArticlePubMed/NCBIGoogle Scholar
6.Hailu Tesfaye A, Gebrehiwot M, Aragaw FM, Dessie A. Prevalence and risk factors of chronic respiratory symptoms in public and private school teachers in north-western Ethiopia: results from a multicentre cross-sectional study. BMJ Open [Internet]. 2023;13(4): e069159. Available from: pmid:37045568
View ArticlePubMed/NCBIGoogle Scholar
7.Espina C, Soerjomataram I, Forman D, Martín-Moreno JM. Cancer prevention policy in the EU: Best practices are now well recognized; no reason for countries to lag behind. J Cancer Policy [Internet]. 2018; 18:40–51. Available from: http://dx.doi.org/10.1016/j.jcpo.2018.09.001.
View ArticleGoogle Scholar
8.Tekeste Z, Berhe N, Arage M, Degarege A, Melaku Y, Reynolds A. Cancer signs and risk factors awareness in Addis Ababa, Ethiopia: a population-based survey. Infect Agent Cancer [Internet]. 2023;18(1):1. Available from: pmid:36600261
View ArticlePubMed/NCBIGoogle Scholar
9.Dehdar S, Salimifard K, Mohammadi R, Marzban M, Saadatmand S, Fararouei M, et al. Applications of different machine learning approaches in prediction of breast cancer diagnosis delay. Front Oncol [Internet]. 2023; 13:1103369. Available from: pmid:36874113
View ArticlePubMed/NCBIGoogle Scholar
10.Alaa H, Shah SA. Perception of cancer risk and its associated risk factors among young Iraqis living in Baghdad. Asian Pac J Cancer Prev [Internet]. 2019;20(8):2339–43. Available from: pmid:31450904
View ArticlePubMed/NCBIGoogle Scholar
11.Pallari E, Lewison G. Cardiovascular and cancer risk factors analysis for 2001–2020 from the global research output and European newspapers. Scientometrics [Internet]. 2022;127(9):5159–74. Available from: http://dx.doi.org/10.1007/s11192-022-04465-9.
View ArticleGoogle Scholar
12.Adamek M, Wachu?a E, Szab?owska-Siwik S, Boratyn-Nowicka A, Czy?ewski D. Risk factors assessment and risk prediction models in lung cancer screening candidates. Ann Transl Med [Internet]. 2016;4(8):151. Available from: pmid:27195269
View ArticlePubMed/NCBIGoogle Scholar
13.Qarmiche N, Chrifi Alaoui M, El Kinany K, El Rhazi K, Chaoui N. Soft-Voting colorectal cancer risk prediction based on EHLI components. Inform Med Unlocked [Internet]. 2022;33(101070):101070. Available from: http://dx.doi.org/10.1016/j.imu.2022.101070.
View ArticleGoogle Scholar
14.Fanelli S, Pratici L, Salvatore FP, Donelli CC, Zangrandi A. Big data analysis for decision-making processes: challenges and opportunities for the management of health-care organizations. Manag Res Rev [Internet]. 2022; Available from: http://dx.doi.org/10.1108/mrr-09-2021-0648.
View ArticleGoogle Scholar
15.Tilahun B, Teklu A, Mancuso A, Endehabtu BF, Gashu KD, Mekonnen ZA. Using health data for decision-making at each level of the health system to achieve universal health coverage in Ethiopia: the case of an immunization programme in a low-resource setting. Health Res Policy Syst [Internet]. 2021;19(Suppl 2):48. Available from: pmid:34380496
View ArticlePubMed/NCBIGoogle Scholar
16.Richard F, Leblond DD, Brown M, Suneja JF. History Taking and the Medical Record. New York, NY: McGraw-Hill Education; 2015.
17.Casal-Mouri?o A, Ruano-Ravina A, Lorenzo-González M, Rodríguez-Martínez á, Giraldo-Osorio A, Varela-Lema L, et al. Epidemiology of stage III lung cancer: frequency, diagnostic characteristics, and survival. Transl Lung Cancer Res [Internet]. 2021;10(1):506–18. Available from: pmid:33569332
View ArticlePubMed/NCBIGoogle Scholar
18.Przyby?a P, Brockmeier AJ, Ananiadou S. Quantifying risk factors in medical reports with a context-aware linear model. J Am Med Inform Assoc [Internet]. 2019;26(6):537–46. Available from: pmid:30840055
View ArticlePubMed/NCBIGoogle Scholar
19.Kang H. The prevention and handling of the missing data. Korean J Anesthesiol [Internet]. 2013;64(5):402–6. Available from: pmid:23741561
View ArticlePubMed/NCBIGoogle Scholar
20.Das D, Nayak M, Pani SK. Missing Value Imputation-A Review. Int J Comput Sci Eng [Internet]. 2019;7(4):548–58. Available from: http://dx.doi.org/10.26438/ijcse/v7i4.548558.
View ArticleGoogle Scholar
21.Ribeiro C, Freitas AA. A data-driven missing value imputation approach for longitudinal datasets. Artif Intell Rev [Internet]. 2021;54(8):6277–307. Available from: http://dx.doi.org/10.1007/s10462-021-09963-5.
View ArticleGoogle Scholar
22.Endalie D, Haile G, Taye Abebe W. Feature selection by integrating document frequency with genetic algorithm for Amharic news document classification. PeerJ Comput Sci [Internet]. 2022;8(e961):e961. Available from: pmid:35634124
View ArticlePubMed/NCBIGoogle Scholar
23.Mean Paul T., Median, and Skew: Correcting a Textbook Rule.统计教育杂志。2005;13(2):1–13.
查看文章谷歌学术搜索
24.肖伯 P, 布尔 C, 施瓦特 LA.相关系数:适当使用和解释。Anesth Analg [互联网].2018;126(5):1763–8.可用: pmid:29481436
查看文章PubMed/NCBI谷歌学术搜索
25.Mukaka MM. 统计角:在医学研究中正确使用相关系数的指南。马拉维医学杂志 2012;24(3):69–71.密码:23638278
查看文章PubMed/NCBI谷歌学术搜索
26.Tang C, Wang D, Tan A-H, 苗 C. 基于脑电图的情绪识别,通过快速和强大的特征平滑。在:脑信息学。湛:施普林格国际出版社;2017.第83–92页。
27.约瑟夫·数据拆分的最佳比率。统计肛门数据分钟[互联网]。2022;15(4):531–8.可从:
查看文章谷歌学术搜索
28.XGBoost在不平衡数据中的研究与应用.Int j distrib Sens Netw [Internet].2022;18(6):155013292211069.可用: http://dx.doi.org/10.1177/15501329221106935.
查看文章谷歌学术搜索
29.Ibrahem Ahmed Osman A, Najah Ahmed A, Chow MF, Feng Huang Y, El-Shafie A. 极端梯度提升(Xgboost)模型预测马来西亚雪兰莪州的地下水位。Ain Shams Eng J [互联网].2021;12(2):1545–56.可用: http://dx.doi.org/10.1016/j.asej.2020.11.011.
查看文章谷歌学术搜索
30.王鑫, 陆鑫.基于 Host 的异常检测框架,使用 XGBoost 和 LSTM 用于 IoT 设备。Wirel Commun Mob Comput [Internet]。2020;2020:1–13.可用: http://dx.doi.org/10.1155/2020/8838571.
查看文章谷歌学术搜索
31.特拉巴西 D, 塞拉奥 M, 瓦雷基亚 T, 拉纳沃洛 A, 科波拉 G, 德伊科 R, 等.机器学习方法支持在基于 IMU 的步态分析中检测帕金森病。传感器(巴塞尔)[互联网]。2022;22(10):3700.可用: pmid:35632109
查看文章PubMed/NCBI谷歌学术搜索
32.Roushangar K, Ghasempour R. Kiyoumars Roushangar, Roghayeh Ghasempour, Vols. i: Classic Soft-Computing Techniques.2023;411–22.
查看文章谷歌学术搜索
33.纳斯卡特 J, 西瓦卡马桑达里 G, 贝古姆 AAS.对深度神经网络中使用的不同深度学习算法的研究:MLP SOM 和 DBN。Wirel Pers commun [Internet].2023;128(4):2913–36.可用: pmid:36276226
查看文章PubMed/NCBI谷歌学术搜索
34.Okechukwu D, Onukwuli JO, Ighalo C, Daniel Ezeliora PC.第8章—电絮凝-絮凝法利用铝电极处理城市固体垃圾渗滤液的ANN预测和GA优化。在:计算机辅助智能环境数据工程的当前趋势和进展。学术出版社;2022.第161–83页。
35.马胡姆 R, 伊尔塔扎 A, 纳瓦兹 M, 纳齐尔 T, 马苏德 M, 马哈茂德 A.使用迁移学习(SumVClip)生成汇总视频剪辑的通用框架。在:2021 年穆罕默德·阿里·真纳大学国际计算会议 (MAJICC)。IEEE;2021.
36.van Ravenzwaaij D, Ioannidis JPA.评估临床试验统计证据的不同标准的真假阳性率。BMC Med Res Methodol [Internet].2019;19(1):218.可用: pmid:31775644
查看文章PubMed/NCBI谷歌学术搜索
37.Rengasamy D, Mase JM, Kumar A, Rothwell B, Torres MT, Alexander MR, et al.机器学习模型中的特征重要性:模糊信息融合方法。神经计算[互联网]。2022;511:163–74.可用: http://dx.doi.org/10.1016/j.neucom.2022.09.053.
查看文章谷歌学术搜索
38.周华, 张军, 周毅, 郭鑫, 马轩.一种基于特征权重的决策树特征选择算法.专家系统应用[互联网]。2021;164(113842):113842.可用: http://dx.doi.org/10.1016/j.eswa.2020.113842.
查看文章谷歌学术搜索
39.Laber E,Murtinho L.基尼杂质最小化:通过与k均值问题连接的NP完全性和近似算法。电子笔记理论计算科学[互联网]。2019;346:567–76.可用: http://dx.doi.org/10.1016/j.entcs.2019.08.050.
查看文章谷歌学术搜索
40.拉菲克尔一世,乔杜里·重复测量健康结果的风险预测:分而治之框架。医学信息学解锁。2022;28.
查看文章谷歌学术搜索