免费医学论文发表-利用 ChatGPT 的开放获取版本来增强临床意见
抽象
随着 ChatGPT 等大型语言模型 (LLM) 的出现,生成式人工智能 (GAI) 与临床医学的集成变得越来越可行。本研究旨在评估免费提供的 ChatGPT-3.5 生成复杂鉴别诊断的能力,并将其输出与发表在《新英格兰医学杂志》(NEJM) 上的马萨诸塞州总医院的病例记录进行比较。向 ChatGPT-3.5 提供了 40 条病例记录,促使它提供鉴别诊断,然后将其缩小到最可能的诊断。结果显示,42.5%的病例最终诊断被纳入ChatGPT-3.5的原始鉴别列表中。缩小范围后,ChatGPT 在 27.5% 的病例中正确确定了最终诊断,与之前使用常见主诉的研究相比,准确性有所下降。这些发现强调了进一步研究 LLM 在临床场景中的能力和局限性的必要性,同时强调了 GAI 作为增强临床意见的潜在作用。预计 ChatGPT 等 GAI 工具的增长和增强,医生和其他医护人员可能会在产生鉴别诊断方面获得越来越多的支持。然而,持续的探索和监管对于确保GAI安全有效地融入医疗保健实践至关重要。未来的研究可能会寻求比较较新版本的 ChatGPT,或与集成这种 GAI 技术的医生一起调查患者的治疗效果。了解和扩展 GAI 的能力,特别是在鉴别诊断方面,可能会促进创新并提供额外的资源,尤其是在医疗领域服务不足的地区。
作者摘要
长期以来,将人工智能(AI)整合到临床医学中一直是一个技术目标。自 2022 年 11 月发布以来,ChatGPT 越来越受欢迎,引发了人们对其在加强患者护理方面的熟练程度的质疑。人工智能已经证明了它能够以相当于医学生的水平回答多项选择题和考试。它在涉及常见主诉的场景中也表现出色。然而,ChatGPT 参与高级临床对话和提供困难患者诊断的能力在很大程度上尚未得到探索。在这项研究中,我们通过提供来自新英格兰医学杂志 (NEJM) 的 40 份临床病例报告,研究了 ChatGPT-3.5 生成复杂鉴别诊断的能力。总体而言,ChatGPT-3.5 在 27.5% 的时间内准确识别了正确的鉴别诊断。随着我们向医生可以利用人工智能作为临床工具的医疗领域过渡,这项研究强调了 ChatGPT 的局限性和潜力。我们强调,需要定义人工智能能力,以确保其安全地集成到医疗实践中,并倡导生成式人工智能在患者护理中的持续开放可及性。
数字
图1图1图1
引文: Tenner ZM、Cottone MC、Chavez MR (2024) 利用 ChatGPT 的开放获取版本来增强临床意见。PLOS 数字健康 3(2): 编号:E0000355。 https://doi.org/10.1371/journal.pdig.0000355
编辑 器: Jennifer N. Avari Silva,美国圣路易斯华盛顿大学
收到: 2023年8月21日;接受: 2024年1月11日;发表: 2月 5, 2024
版权所有: ? 2024 Tenner et al.这是一篇根据知识共享署名许可条款分发的开放获取文章,该许可允许在任何媒体上不受限制地使用、分发和复制,前提是注明原作者和来源。
数据可用性: 所有相关数据都在手稿中。
资金: 作者没有为这项工作获得任何具体资金。
利益争夺: 提交人声明不存在相互竞争的利益。
介绍
自 20 以来第世纪以来,关于将人工智能 (AI) 集成到医生推理中的研究和推测一直在进行中。1987年,Schwartz等人断言,“在我们制定真正可靠的[医疗保健]咨询计划之前,必须解决重大的智力和技术问题”[1]。虽然临床问题解决的模型已经被描述了很多年,但直到最近,技术才发展到足以研究人工智能在临床医学中的作用。OpenAI 的 ChatGPT(Generative Pre-trained Transformer)是世界上第一个广泛使用的大型语言模型 (LLM) 之一,它使用数十亿个参数来生成用户知情的文本。在医疗保健领域,这种生成式人工智能(GAI)包含广泛的医学知识,可以根据用户的需求进行定制,从协助医学生解决美国医学执照考试(USMLE)问题到为肿瘤学家创建具有治疗选择的下一代测序报告[2,3].自 ChatGPT 发布以来,专业人士开始通过突破其在医学知识中的极限来评估 ChatGPT 的价值;然而,随着技术的不断发展,必须探索ChatGPT在患者护理中的作用,以最好地展示和指导卫生专业人员如何使用人工智能[4,5]。
ChatGPT 在 USMLE 考试中取得了与三年级医学生相当的及格分数 [2]。这一成就为该模型在医学教育中的潜在应用打开了大门,作为医学院的互动工具和对临床思维的整体支持。放射学和病理学在 GAI 研究中受到了极大的关注,其工作重点是增强 LLM 以更好地理解图像和检测癌症。尽管没有接受过任何一门学科的专门培训,但“ChatGPT几乎通过了没有图像的放射学委员会式考试”,并证明了“[解决]病理学中的高阶推理问题”的准确性[6,7]。阿里等人。等人确定了ChatGPT在神经外科口腔委员会考试中表现出色的能力,同时强调了使用多项选择考试来评估神经外科医生在患者护理方面的专业知识的局限性[8]。尽管 ChatGPT 已被证明在从一系列选项中进行选择是有效的,但 LLM 在临床管理中的作用已被强调为需要进一步研究的领域。
反映医学生的进展,下一个合乎逻辑的步骤是评估聊天机器人提出鉴别诊断的能力。这些是临床医学的基础,ChatGPT 在产生医学上合理的鉴别诊断方面的熟练程度在很大程度上仍未得到探索。Hirosawa 等人确定 ChatGPT 可以成功地为常见的主诉创建全面的诊断列表 [9]。此外,Rao 等人评估了 ChatGPT 对医疗环境中经常遇到的问题进行鉴别诊断的能力,发现“LLM 在做出最终诊断方面表现出最高的性能,准确率为 76.9%”[10]。之前的研究在评估 ChatGPT 通过多项选择题考试的能力方面做得非常出色,并为标准首席主诉提供高精度的鉴别诊断;然而,必须检查ChatGPT在更复杂的临床场景中的可推广性[11]。
为了全面评估 GAI 和 LLM 在复杂医学推理中的潜力,我们进行了一项研究,以评估免费提供的 ChatGPT-3.5 提供马萨诸塞州总医院病例记录差异的能力,发表在《新英格兰医学杂志》(NEJM) 上。我们的研究采用了一种独特的方法,利用期刊确定的临床病例报告来建立新的医学或生物学理解,从而进一步评估聊天机器人的语言能力。在我们完成研究时,ChatGPT-3.5 的知识截止日期为 2021 年 9 月。因此,我们研究了 ChatGPT 使用临床推理来诊断 2022 年病例报告的能力,避免依赖其搜索功能来查找已发表的文章。本研究的主要目的是评估免费提供的 ChatGPT-3.5 在生成复杂鉴别诊断方面的熟练程度。我们打算将聊天机器人的完整诊断列表和最终诊断与 NEJM 病例报告的已发布鉴别诊断进行比较。我们的假设假设是,ChatGPT-3.5 生成的鉴别诊断百分比将在大约 50% 的时间内与病例报告的 NEJM 最终诊断相匹配。通过阐明 ChatGPT 在提供鉴别诊断方面的潜力,我们建议未来的临床问题解决案例考虑利用 GAI 作为增强的临床意见。
方法
我们将 2022 年发表在《新英格兰医学杂志》(NEJM) 上的马萨诸塞州总医院的 40 份病例记录提交给 ChatGPT-3.5。“鉴别诊断”标题之前的所有文字都包括在内,不包括数字。ChatGPT 最初被提示“提供与以下临床病例的鉴别诊断”的指令。在生成完整的鉴别诊断列表后,我们进一步询问:“您能否将鉴别诊断范围缩小到最可能的诊断?随后,我们记录了 NEJM 中引用的最终诊断是否包含在 ChatGPT 的完整鉴别诊断列表中。此外,我们注意到 ChatGPT 的“最有可能的诊断”是否与 NEJM 中记录的最终诊断一致。
结果
在提交给 ChatGPT-3.5 的 40 个案例中,有 23 个案例 (57.5%) 未在其原始差异列表中考虑。ChatGPT 生成的原始差异列表的平均长度为 7±2 种可能的诊断,从高 12 种到低 3 种不等。差分的长度似乎是随机的。在 17 例 (42.5%) 中,ChatGPT 确实将最终诊断纳入了其原始鉴别列表中。在缩小差异列表后,ChatGPT 在 11 例 (27.5%) 中正确识别了最终诊断,在 6 例 (15%) 中排除了正确诊断。这些结果如图1所示。
thumbnail Download:
PPTPowerPoint slide
PNGlarger image
TIFForiginal image
Fig 1. Flowchart of the 40 case records of the Massachusetts General Hospital that were published in the NEJM after being presented to ChatGPT.
https://doi.org/10.1371/journal.pdig.0000355.g001
Discussion
生成式人工智能 (GAI) 和大型语言模型 (LLM) 在临床医学中的作用是一个快速发展的研究领域。评估 ChatGPT (v3.5) 在患者护理范围内的潜力和局限性对于确定如何以及在何处最好地利用它至关重要。我们决定专注于 ChatGPT 的免费版本,以确保尽可能多的受众能够使用这项技术。将《新英格兰医学杂志》(NEJM)的 40 条病例记录提交给 ChatGPT,使我们能够更深入地研究 LLM 在医疗保健中的作用,特别是研究它们在对复杂患者表现进行鉴别诊断方面的成功率。ChatGPT 在 27.5% 的时间内准确地识别出正确的鉴别诊断。值得注意的是,据报道,ChatGPT在出现常见主诉的临床小插曲时,差异列表准确率超过80%[9]。然而,当我们使用NEJM病例报告从普通主诉到复杂临床病例的难度增加时,这种准确性下降了50%以上。
此外,我们的结果可以与Kanjee等人进行比较。al.,作者利用 NEJM 临床病理学会议作为具有挑战性的医疗案例。他们对 Chat GPT-4 的评估“在 64% 的挑战性病例中提供了正确的诊断,在 39% 的病例中提供了最高诊断”。值得注意的是,我们对ChatGPT开放获取版本的评估在将诊断纳入鉴别诊断时低了约20%,在选择最终诊断时低了12%[12]。GPT-4还与医学期刊读者进行了比较,以评估其解决复杂临床病例的能力,因为它正确诊断了57%的病例[13]。我们的研究显示诊断百分比略低于 Kanjee 和 Eriksen,引发了关于 GPT-3.5 与 GPT-4 临床能力的讨论。GPT-3.5 的开放获取方面对研究仍然很重要,鼓励它在医学界使用,而无需对 GAI 进行财务投资。建立 ChatGPT 的基线限制允许未来对其增长和发展进行比较,并确保在患者护理中谨慎使用。此外,它可以提供有关如何最好地调整 ChatGPT 设置以更好地识别其获得最高分的类别的见解。
在不久的将来,医生和其他医护人员可能会在一个最新的研究期刊和电子病历直接链接到类似聊天软件的世界中执业。随着 GAI 即将加入的这些内容,我们预计其在开发鉴别诊断方面将继续增长。因此,对于医学领域来说,更好地理解这些信息变得越来越重要。在初级保健和专科环境中,GAI为医生提供了一种新的媒介,可以培养新的想法,考虑新的诊断,并在可能不容易获得“同事”时咨询“同事”,尤其是在农村地区[14]。
未来的研究可能会从我们的基线发现中扩展。例如,较新版本的 ChatGPT-3.5 没有知识截止日期,而是能够从互联网上提取最新信息。较新版本的 ChatGPT 与 ChatGPT-3.5 相比如何?当他们的医生将 ChatGPT 整合到他们的护理中时,患者是否会体验到更好的结果?除其他外,这些问题需要通过进一步的实验来阐明。然而,在 ChatGPT 成为医生实践中的新工具之前,必须继续定义和描述其能力,以确保安全和适当地依赖 GAI。我们强烈主张科技公司始终如一地提供免费版本的生成式人工智能。这种可及性不仅最大限度地利用了其,而且还促进了创新,特别是在医学领域。
引用
1.Schwartz WB, Patil RS, Szolovits P. 医学中的人工智能。大众医学 Soc;1987 年,第 685-8 页。
2.Gilson A、Safranek CW、Huang T、Socrates V、Chi L、Taylor RA 等。ChatGPT在美国医执照考试中表现如何?大型语言模型对医学教育和知识评估的影响。JMIR Med 教育 2023;9:e45312。
3.汉密尔顿 Z、纳法赫 N、Reizine NM、温伯格 F、Jain S、Gadi VK 等。ChatGPT 生成的 NGS 报告的相关性和准确性以及癌基因驱动的 NSCLC 的治疗建议。美国临床肿瘤学会;2023.
4.豪格 CJ,德拉赞 JM。人工智能和机器学习在临床医学中的应用,2023 年。新英格兰医学杂志。2023;388(13):1201–8.PMID:36988595
查看文章PubMed/NCBI的Google 学术搜索
5.艾森巴赫 G.ChatGPT、生成式语言模型和人工智能在医学教育中的作用:与 ChatGPT 的对话和论文征集。JMIR Med 教育 2023;9:e46885。PMID:36863937
查看文章PubMed/NCBI的Google 学术搜索
6.巴亚纳 R、克里希纳 S、布莱克尼 RR。ChatGPT 在放射学委员会式检查中的表现:对当前优势和局限性的见解。放射学。2023:230582. PMID:37191485
查看文章PubMed/NCBI的Google 学术搜索
7.Sinha RK, Roy AD, Kumar N, Mondal H, Sinha R. ChatGPT 在协助解决病理学高阶问题方面的适用性。治愈。2023;15(2).
查看文章Google 学术搜索
8.Ali R、Tang OY、Connolly ID、Fridley JS、Shin JH、Zadnik Sullivan PL 等。ChatGPT、GPT-4 和 Google Bard 在神经外科口腔板准备题库上的表现。medRxiv的。2023:2023.04. 06.23288265.PMID:37306460
查看文章PubMed/NCBI的Google 学术搜索
9.Hirosawa T, Harada Y, Yokose M, Sakamoto T, Kawamura R, Shimizu T. 生成式预训练 Transformer 3 聊天机器人生成的鉴别诊断列表的诊断准确性,用于具有常见主诉的临床小插曲:一项试点研究。国际环境研究与公共卫生杂志。2023;20(4):3378.PMID:36834073
查看文章PubMed/NCBI的Google 学术搜索
10.Rao A、Pang M、Kim J、Kamineni M、Lie W、Prasad AK 等。评估 ChatGPT 在整个临床工作流程中的效用。medRxiv的。2023:2023.02.21.23285886. PMID:36865204
查看文章PubMed/NCBI的Google 学术搜索
11.Rajkomar A, Dean J, Kohane I. 医学中的机器学习。新英格兰医学杂志。2019;380(14):1347–58.PMID:30943338
查看文章PubMed/NCBI的Google 学术搜索
12.Kanjee Z, Crowe B, Rodman A. 生成式人工智能模型在复杂诊断挑战中的准确性。贾玛。2023;330(1):78–80.PMID:37318797
查看文章PubMed/NCBI的Google 学术搜索
13.Eriksen AV, M?ller S, Ryg J. 使用 GPT-4 诊断复杂的临床病例。NEJM 人工智能。2024;1(1):AIp2300031.
查看文章Google 学术搜索
14.巴拉斯 M, Ing EB.用于眼科诊断的对话式 AI 模型:ChatGPT 和 Isabel Pro 鉴别诊断生成器的比较。JFO 开放眼科。2023:100005.
查看文章Google 学术搜索