用于分析结肠内窥镜图像以检测与肠易激综合征相关的变化的人工智能模型
田畑和久,三原宏 ,南条宗八,伊织元图,安藤孝之,寺本明,藤波遥,安田一郎
发布时间:17 年 2023 月
抽象
IBS 不被认为是一种器质性疾病,下消化道内镜检查通常无异常,但最近在 IBS 患者中报告了生物膜形成、生态失调和组织学微炎症。在这项研究中,我们调查了人工智能(AI)结直肠图像模型是否可以识别与IBS相关的微小内窥镜变化,这些变化通常无法被人类研究人员检测到。根据电子病历确定研究对象,并分为IBS(I组;n = 11),主要便秘的IBS(IBS-C;C组;n = 12)和以腹泻为主的IBS(IBS-D;D组;n = 12)。研究对象没有其他疾病。获得来自IBS患者和无症状健康受试者(第N组;n = 88)的结肠镜检查图像。Google Cloud Platform AutoML Vision(单标签分类)用于构建AI图像模型,以计算灵敏度,特异性,预测值和AUC。分别随机选择N组、I组、C组和D组2479、382、538和484张图像。区分N组和I组的模型的AUC为0.95。I组检测的敏感性、特异性、阳性预测值和阴性预测值分别为30.8%、97.6%、66.7%和90.2%。区分N组、C组和D组的模型的总体AUC为0.83;N组的敏感性、特异性和阳性预测值分别为87.5%、46.2%和79.9%。使用图像AI模型,可以将IBS的结肠镜检查图像与AUC 0.95的健康受试者区分开来。需要前瞻性研究来进一步验证这种外部验证的模型是否在其他机构具有类似的诊断能力,以及它是否可用于确定治疗效果。
作者摘要
本研究报告了用于检测肠易激综合征 (IBS) 的内窥镜图像人工智能 (AI) 模型。IBS患者的内窥镜图像通常没有任何教师数据,因为他们的变化无法被人类观察者检测到。然而,我们研究了使用症状的存在与否作为教师数据的可能性,发现IBS患者的内镜图像可以与健康受试者的图像进行高精度的区分,腹泻型IBS的内镜图像也可以与便秘型IBS的内镜图像区分开来。预计这将通过基于症状的存在与否构建图像AI模型,使NERD和功能性消化不良等其他功能性胃肠道疾病中的内窥镜AI诊断成为可能。此外,这项研究使用无代码深度学习方法,有可能改善临床医生对深度学习的访问。需要进一步的研究来确定实时IBS图像测定以及治疗效果的预测是否可能。
引文: Tabata K, Mihara H, Nanjo S, Motoo I, Ando T, Teramoto A, et al. (2023) 用于分析结肠内窥镜图像以检测与肠易激综合征相关的变化的人工智能模型。公共科学图书馆数字健康 2(2): e0000058. https://doi.org/10.1371/journal.pdig.0000058
编辑 器: 本杰明·盖斯勒,美国马萨诸塞州总医院
收到: 14月 2022, 12;接受: 2023月 17, 2023;发表: <>月 <>, <>
版权: ? 2023 田畑等这是一篇根据知识共享署名许可条款分发的开放获取文章,该许可允许在任何媒体上不受限制地使用、分发和复制,前提是注明原作者和来源。
数据可用性: 本研究中使用的所有图像数据集都可以在 https://doi.org/10.5061/dryad.9s4mw6mkp 找到。已从存储库中删除多个映像,因为数据包含潜在的敏感信息,例如映像中的部分患者 ID。
资金: 作者没有为这项工作获得具体资金。
竞争利益: 提交人声明不存在相互竞争的利益。
介绍
IBS影响约10%的西方人群,患病率逐年增加[1]。IBS患者常出现腹痛和排便习惯改变,但在即刻诊断性检查或下消化道内镜检查中通常无异常[2]。最近的证据表明,西方生活方式的各个方面,如频繁的抗生素治疗,改变微生物群,可能与IBS的发展有关。生物膜形成是一种独特的微生物生长模式[3],多种微生物生物膜与几种胃肠道疾病有关[4,5]。在最近的一项研究中,E.60%的IBS病例可见回肠至升结肠末端的大肠杆菌和格纳维球菌,仔细观察发现生物膜形成区域发生变化[6]。然而,尽管组织学上存在微炎症,但人类研究人员目前无法确定内窥镜图像是否来自IBS患者。
已经开发了成像人工智能模型(AI)来实时检测下消化道病变,并且已经有几种模型在临床上得到应用[7]。复杂的AI模型(例如为成像应用程序开发的模型)需要深度学习算法,并且通常只能使用Python库构建,并且需要编程专业知识。虽然相对较少的医生拥有这样的技能,但诸如Google Cloud Platform(Google Inc. Mountain View,CA )之类的工具可在:http://cloud.google.com/vision/。13 年 2022 月 8 日访问)现在允许在没有此类编程专业知识的情况下构建 AI 模型,因此 AI 模型在医疗领域的应用可能会扩大 [9,10]。事实上,AI在不孕精子病理诊断和耳鼻喉科影像学检查中的应用已有报道[11,<>]。
通常,开发人工智能需要训练数据集,但此类数据集不适用于功能性胃肠道疾病,即使在内窥镜检查中也不会显示异常。但是,在用于开发AI模型的训练数据集中包含其他信息(例如是否存在症状)可以检测到人类观察者无法检测到的结肠微小变化。本研究的目的是确定用于图像分析的AI模型是否可以使用Google云AutoML Vision在实际临床实践中区分不同类型的IBS和健康的结肠镜图像。
材料和方法
伦理学
该研究方案已获得富山大学医院伦理委员会的批准(批准号R2021032)。所有方法均按照相关准则和条例以及《赫尔辛基宣言》进行。伦理委员会接受了研究设计,条件是将声明选择退出政策的文件(伦理委员会免除了同意的需要),任何潜在的患者和/或其亲属都可以拒绝被纳入,并上传到富山大学医院的网站。
对于真实世界的IBS患者,患者不是根据罗马标准确定的,而是根据2010年2020月至10年290月期间为保险目的而记录的疾病名称。这些名称包括“肠易激综合征”(I组),“便秘肠易激综合征”(C组)和“腹泻肠易激综合征”(D组)。根据症状和组织病理学检查结果排除了结直肠癌、炎症性肠病和嗜酸性粒细胞性胃肠炎等其他疾病。然而,不符合诊断标准且正在以各自保险疾病名称进行随访的非特异性炎症细胞浸润病例被纳入相关组。对于有症状的患者,结肠镜检查是排便习惯改变(例如腹泻)检查的一部分,无症状患者接受了结直肠癌筛查。无症状患者包括N组,结肠镜检查图像从内窥镜报告系统获得。图像由奥林巴斯CF-HQ290Z或PCF-H2Z结肠镜的3多名学员或专家在一家机构拍摄。在排除末端回肠、直肠内翻和肛门、窄带或染料扩散图像的正常光图像后,通过多次构建模型提高了模型的准确性。未检测到生物膜。波士顿肠道准备量表(BBPS)上评分为12(即少量残留染色、小块粪便碎片和/或不透明液体,结肠段黏膜清晰可见)和20(结肠段整个黏膜清晰可见,无残留染色、小粪便碎片和/或不透明液体)[40]被雇用。总共使用了5至88张图像,每位患者每个节段(盲肠,升序,横向,降序,乙状结肠和直肠)的区域约有11张图像。N,I,C和D组分别有12,12,2和479名患者,分别使用了382,538,484,100和<>张图像。模型的准确性随着患者数量的增加而增加,但至少 <> 张图像提供了一定程度的准确性。因此,患者数量和所使用的图像被认为足以构建该模型。
在这项研究中,我们使用来自谷歌云平台(GCP)(谷歌公司)的Google Cloud AutoML Vision进行注释和算法生成。在训练数据集中将四个标签定义为第 N、I、C 和 D 组(单标签分类)。产生了区分I组和N组,N组,C组和D组或C组和D组的三个模型。这个过程完全由一名医生(HM)完成。
人工神经网络编程、训练和外部验证
使用Google Cloud AutoML Vision平台从数据集中自动随机选择训练集图像(80%),验证集图像(10%)和测试集图像(10%),用于算法训练过程。由于图像是独立的,因此可以执行外部验证。总共使用了 16 个节点(2 小时)来训练算法。AutoML Vision 提供指标:阳性预测值和对规定阈值的敏感性,以及曲线下面积 (AUC)。对于每个模型,我们还生成了一个混淆矩阵,该矩阵将真实标签与深度学习模式预测的标签交叉引用[8]。使用提取的二元诊断准确性数据,我们创建了一个列联表(混淆矩阵),显示了阈值为 0.5 的特异性计算值。混淆矩阵显示真阳性、假阳性、真阴性和假阴性的结果。每个图像的给定标签的概率表示为 0 到 1 之间的分数。
结果
N 组与 I 组
我们解决的第一个问题是人工智能是否可以将肠易激综合征患者与健康受试者区分开来。IBS被归类为IBS-C,IBS-D和IBS-MIX,但它们在第I组中的百分比尚未确定。在日本,雷莫司琼和利那洛肽分别用于IBS-D和IBS-C,导致D组是服用雷莫司琼的患者,C组是服用利那洛肽的患者,I组是未开具IBS的患者。作为训练、验证和测试图像,N组分别使用1969、255和255张图像,I组分别使用304、39和39张图像。N组内镜检查未显示明显异常的患者与I组患者的比较显示,基于开发的AI模型的自动训练和测试,该算法的平均精度(阳性预测值),准确率和召回率分别为94.6%,88.78%和88.78%(图1)。为每个单独的标签以及整个算法生成精确召回率曲线。我们采用0.5的阈值来产生平衡的精度和召回率。区分N组和I组的模型的AUC和混淆矩阵如表1所示。总AUC为0.95(I组AUC 0.48,N组AUC 0.97),I组检测的敏感性、特异性、阳性预测值和阴性预测值分别为30.8%、97.6%、66.7%和90.23%。我们发现I组和N组的混淆率分别为69%和2%。显示了高IBS评分(图2)和高正常评分(图3)患者的内窥镜检查的代表性图像。
缩略图 下载:
.PPT幻灯片
.PNG大图
.TIFF原始图像
图1.
(A)将I组和N组结肠图像AI模型的精度绘制为召回率的函数。蓝色阴影区域表示曲线下面积 (AUC),蓝点表示可靠性阈值为 0.5 的情况下的值。(B)显示召回(蓝线)和精度(红线)的交集。蓝点和红点表示可靠性阈值设置为 0.5 时的值。
https://doi.org/10.1371/journal.pdig.0000058.g001
缩略图 下载:
.PPT幻灯片
.PNG大图
.TIFF原始图像
图2. 显示了在用于检测组 I 的结肠图像 AI 模型中得分相对较高(0 到 1)的图像。
显示的值对应于分数。
https://doi.org/10.1371/journal.pdig.0000058.g002
缩略图 下载:
.PPT幻灯片
.PNG大图
.TIFF原始图像
图3. 显示了在用于检测 N 组的结肠图像 AI 模型中得分相对较高(0 到 1)的图像。
显示的值对应于分数。
https://doi.org/10.1371/journal.pdig.0000058.g003
thumbnail 下载:
.PPT幻灯片
.PNG大图
.TIFF原始图像
表 1. 结肠的I组和N组模型;AUC 和混淆矩阵。
混淆矩阵显示每个标签在模型中正确分类的频率(预测标签和真标签的一致性)以及与该标签混淆的标签(预测标签和真标签的分歧)。
https://doi.org/10.1371/journal.pdig.0000058.t001
N 组与 C 组和 D 组
接下来,将N组的图像与C组和D组患者的内窥镜检查图像进行比较。作为训练、验证和测试图像,C组分别使用419、51和53张图像,D组分别使用387、48和49张图像。对于这些组,基于自动化训练和测试,算法的平均精度(阳性预测值)、精度和召回率分别为83.2%、77.71%和67.97%(图4)。精度召回曲线和阈值如上所述设置。用于区分组的模型的AUC和混淆矩阵如表2所示。总AUC为0.83(N组为0.90,C组为0.45,D组为0.60),N组的敏感性、特异性和阳性预测值分别为87.5%、46.2%和79.9%。N组、D组和C组的混淆率分别为12%、51%和66%。
thumbnail 下载:
.PPT幻灯片
.PNG大图
.TIFF原始图像
图4.
(A)将N组、C组和D组结肠图像AI模型的精度绘制为召回函数。蓝色阴影区域表示曲线下面积 (AUC),蓝点表示可靠性阈值为 0.5 的情况下的值。(B)显示召回(蓝线)和精度(红线)的交集。蓝点和红点表示可靠性阈值设置为 0.5 时的值。
https://doi.org/10.1371/journal.pdig.0000058.g004
thumbnail 下载:
.PPT幻灯片
.PNG大图
.TIFF原始图像
表 2. 结肠的N,C和D组模型;AUC 和混淆矩阵。
https://doi.org/10.1371/journal.pdig.0000058.t002
C组与D组
在比较C组和D组时,基于自动化训练和测试,算法的平均精度(阳性预测值)、精度和召回率分别为89.75%、87.5%和87.5%(图5)。精度召回曲线和阈值如上所述设置。用于区分组的模型的AUC和混淆矩阵如表3所示。总AUC为0.90(C组为0.87,D组为0.94)。D组和C组的混淆率分别为18%和7%。显示了高IBS-D评分(图6)和高IBS-C评分(图7)患者的内窥镜检查的代表性图像。
thumbnail 下载:
.PPT幻灯片
.PNG大图
.TIFF原始图像
图5.
(A)将C组和D组结肠图像AI模型的精度绘制为召回率的函数。蓝色阴影区域表示曲线下面积 (AUC),蓝点表示可靠性阈值为 0.5 的情况下的值。(B)显示召回(蓝线)和精度(红线)的交集。蓝点和红点表示可靠性阈值设置为 0.5 时的值。
https://doi.org/10.1371/journal.pdig.0000058.g005
thumbnail 下载:
.PPT幻灯片
.PNG大图
.TIFF原始图像
图6. 显示了在用于检测 D 组的结肠图像 AI 模型中得分高(0 到 1)的图像。
显示的值对应于分数。
https://doi.org/10.1371/journal.pdig.0000058.g006
thumbnail 下载:
.PPT幻灯片
.PNG大图
.TIFF原始图像
图 7. 显示了在用于检测 C 组的结肠图像 AI 模型中得分高(0 到 1)的图像。
显示的值对应于分数。
https://doi.org/10.1371/journal.pdig.0000058.g007
thumbnail 下载:
.PPT幻灯片
.PNG大图
.TIFF原始图像
表 3. 结肠的C组和D组模型;AUC 和混淆矩阵。
https://doi.org/10.1371/journal.pdig.0000058.t003
N 组 vs. I 组 + C 组 + D 组
最后,将I、C和D组作为一个整体合并,看看是否可以使用相同的图像将它们与N组区分开来。该算法的平均准确率(阳性预测值)、准确率和召回率分别为81.2%、72.6%和72.6%。
讨论
IBS 患者的内镜图像通常未显示异常。在这项研究中,我们研究了人工智能是否可以检测到与微炎症相关的微小内窥镜变化和其他人类观察者不容易检测到的微环境变化。我们构建了一个无代码AI模型来检测第I组,AUC为0.95,N组具有高特异性。该模型分别针对C组和D组重新创建,AUC略低,为0.83,表明C组和D组可以相互区分。当重新创建AI模型以区分两者时,AUC为0.90,大于两组和健康受试者之间的差异。N组与I组+C组+D组的模型略低于N组与I组,这表明I组,C组和D组在图像方面可能是不同的群体。据我们所知,这是第一个可以在内窥镜图像中检测IBS的AI模型。需要进一步调查以确定AI是否可以差异检测组织学异常,生物膜的存在和/或结直肠腔的变形。由于该模型不是根据细分构建的,因此尚不清楚特定细分是否对诊断有更大或更小的贡献。在这里,我们假设用于计算IBS分数的任何细分都适合该细分。此模型的优点是它独立于段返回 IBS 分数。初步结果表明,乙状结肠的差异最大,但在得出有关不同节段的诊断价值的结论之前,还需要进一步的详细研究。
此模型有几个限制。首先,IBS诊断不是由罗马标准定义的,而是由为保险目的而记录的疾病名称定义的。然而,罗马IV标准并不总是在临床实践中使用,因此该模型应该是准确的,因为它是为临床实践中的人工智能使用而设计的。其次,C组和D组的患者可能分别接受了利那洛肽和雷莫司琼的治疗。第三,在为训练数据集选择图像时,未考虑年龄、性别和治疗反应。第四,GCP AutoML Vision 中的最小样本量为 100 张图像,但理想情况下需要 1,000 多张图像。此外,由于训练、验证和测试图像来自相同的患者群体,即使使用了非常不同的图像,结果也需要使用独立的患者队列进行验证。GCP AutoML Vision 不允许在训练阶段以损失与纪元或精度与纪元图的形式进行迭代优化,因此很难确认模型是否收敛在最佳路径上。最后,研究组包括治疗前后的病例以及有和没有治疗反应的病例。
使用Google Cloud AutoML Vision的主要优点是它不需要编码专业知识,并且可以轻松地与数据集一起使用来构建AI模型。本研究中使用的无代码深度学习方法有可能改善临床医生获得深度学习的机会[8,9]。其他研究小组已经报道了使用自动化、无编码深度学习方法进行的医学图像分类和耳鼻喉科诊断[10,11]。存在许多深度卷积神经网络(CNN)架构[13]。2014年,GCP AutoML Vision的前身模型GoogLeNet赢得了国际图像AI竞赛ImageNet大规模视觉识别竞赛(ILSVRC),并以低计算成本实现了高精度[14]。后来,基于优化神经网络架构本身的神经架构搜索的理论背景,GCP AutoML 能够生成高质量的图像分类模型,即使是那些没有机器学习专业知识的人。对于放射图像,Resnet可以构建超过1层的深度神经网络,比使用GoogLeNet获得的结果更好[000]。基于Resnet的Microsoft Azure是否比GCP AutoML Vision更好地构建无代码内窥镜图像AI模型是未来研究的主题。
同时,人工神经网络(ANN)AI分类器用于区分IBS模型患者与健康对照的内窥镜特征尚不清楚,因为当前的模型本质上是一个黑匣子。然而,一个可解释的AI模型正在变得可用[16],并且通过添加一个功能来显示有助于评分的重要区域,确定哪些内窥镜特征是IBS的特征应该是可能的。
我们已经确认,基于AI的算法也适用于基于症状的诊断。这种算法可能能够检测其他功能性胃肠道疾病(例如功能性消化不良和非糜烂性胃食管反流病)的内窥镜图像差异。IBS的AI模型的准确性预计将根据内窥镜和内窥镜的光源设置而有所不同,并且是否应在其他设施中达到相同的精度。总之,在这里我们描述了一种人工智能模型的开发,该模型不需要编码经验,并且可以将I组,C组和D组与结肠镜检查图像区分开来。基于症状存在与否构建AI模型可能是诊断功能性胃肠道疾病的新方法。
确认
我们感谢富山大学医院医疗器械管理中心的医学工程技术人员Ayaka Maeda,Masaya Hiraki,Shun Kuraishi和Kenji Ogawa在收集和组织图像方面的支持。
这项研究的摘要在日本神经胃肠病学会第23届年会上发表。
引用
1.Enck P, Aziz Q, Barbara G, Farmer AD, Fukudo S, Mayer EA, et al.肠易激综合征。Nat Rev Dis Primers.2016;2:16014.pmid:27159638;PubMed Central PMCID:PMC5001845。
查看文章PubMed/NCBI谷歌学术搜索
2.Mearin F, Lacy BE, Chang L, Chey WD, Lembo AJ, Simren M, et al. 肠道疾病.胃肠。2016. pmid:27144627.
查看文章PubMed/NCBI谷歌学术搜索
3.班威尔JG,霍华德R,库珀D,科斯特顿JW。给大鼠喂食植物血凝素凝集素(菜豆)后的肠道微生物菌群。应用环境微生物。1985;50(1):68–80.pmid:4026292;PubMed Central PMCID:PMC238575。
查看文章PubMed/NCBI谷歌学术搜索
4.Baumgart DC,Carding SR.炎症性肠病:原因和免疫生物学。柳叶 刀。2007;369(9573):1627–40.噗嗤:17499605。
查看文章PubMed/NCBI谷歌学术搜索
5.Maier L, Pruteanu M, Kuhn M, Zeller G, Telzerow A, Anderson EE, et al.非抗生素药物对人体肠道细菌的广泛影响。自然界。2018;555(7698):623–8.pmid:29555994;PubMed Central PMCID:PMC6108420。
查看文章PubMed/NCBI谷歌学术搜索
6.Baumgartner M, Lang M, Holley H, Crepaz D, Hausmann B, Pjevac P, et al. 粘膜生物膜是肠易激综合征和溃疡性结肠炎的内镜特征。胃肠。2021;161(4):1245–56 e20.pmid:34146566;PubMed Central PMCID:PMC8527885。
查看文章PubMed/NCBI谷歌学术搜索
7.Kudo SE, Misawa M, Mori Y, Hotta K, Ohtsuka K, Ikematsu H, et al. 人工智能辅助系统改善了结直肠肿瘤的内窥镜识别。临床胃肠醇肝醇。2020;18(8):1874–81 e2.pmid:31525512。
查看文章PubMed/NCBI谷歌学术搜索
8.Faes L, Wagner SK, Fu DJ, Liu X, Korot E, Ledsam JR, et al.由没有编码经验的医疗保健专业人员进行医学图像分类的自动化深度学习设计:可行性研究。柳叶刀数字健康。2019;1(5):e232–e42.pmid:33323271。
查看文章PubMed/NCBI谷歌学术搜索
9.埃亚科罗特。用于多模态医学图像分类的无代码深度学习。纳特·马赫·英特尔 2021 年。
查看文章谷歌学术搜索
10.伊藤Y, 宇永美M, 山部F, 三井Y, 中岛K, 长尾K, 等.一种利用自动化机器学习进行基于约翰森评分的睾丸组织病理学分类的方法。科学代表 2021;11(1):9962.pmid:33967273;PubMed Central PMCID:PMC8107178。
查看文章PubMed/NCBI谷歌学术搜索
11.Livingstone D, Chau J. 使用计算机视觉进行耳镜诊断:一种自动化的机器学习方法。喉镜。2020;130(6):1408–13.pmid:31532858。
查看文章PubMed/NCBI谷歌学术搜索
12.Lai EJ, Calderwood AH, Doros G, Fix OK, Jacobson BC.波士顿肠道准备量表:一种有效且可靠的结肠镜检查研究仪器。胃肠内膜。2009;69(3 Pt 2):620–5.pmid:19136102;PubMed Central PMCID:PMC2763922。
查看文章PubMed/NCBI谷歌学术搜索
13.汗 A, 苏海尔 A, 扎胡拉 U, 库雷希 AS.对深度卷积神经网络最新架构的调查。人工智能评论。2020;53(8):5455–516.
查看文章谷歌学术搜索
14.Ioffe S,Szegedy C.批量规范化:通过减少内部协变量偏移来加速深度网络训练。在:弗朗西斯B,大卫B,编辑。第32届机器学习国际会议论文集;机器学习研究论文集:PMLR;2015.第448–56页。
查看文章谷歌学术搜索
15.阿南达 A, 颜 KH, 卡拉巴格 C, 特尔-萨尔基索夫 A, 阿隆索 E, 雷耶斯-阿尔达索罗 CC. 正常和异常 X 线照片的分类和可视化;十一种卷积神经网络架构的比较。传感器(巴塞尔)。2021;21(16).pmid:34450821;PubMed Central PMCID:PMC8400172。
查看文章PubMed/NCBI谷歌学术搜索
16.Quellec G,Al Hajj H,Lamard M,Conze PH,Massin P,Cochener B. ExplAIn:用于糖尿病视网膜病变诊断的解释性人工智能。医学图像分析. 2021;72:102118.pmid:34126549。
查看文章PubMed/NCBI谷歌学术搜索