医学文章-深度学习在数字病理学全玻片图像分析中的重现性
克里斯蒂娜·费尔,马赫纳兹·穆罕默德,大卫·莫里森,奥格尼恩·阿兰杰洛维奇,彼得·凯,大卫·哈里斯-伯蒂尔
发布时间:2022 年 12 月 2 日
抽象
对于在医学研究或临床实践中广泛采用的方法,它需要具有可重复性,以便临床医生和监管机构对其使用充满信心。机器学习和深度学习在可重复性方面存在一系列特殊的挑战。用于训练模型的设置或数据的微小差异可能会导致实验结果的巨大差异。在这项工作中,仅使用相关论文中提供的信息重现了来自Camelyon大挑战的三种表现最佳的算法,然后将结果与报告的结果进行比较。看似微小的细节被发现对性能至关重要,但在尝试实际复制之前很难理解它们的重要性。我们观察到,作者通常很好地描述了其模型的关键技术方面,但在数据预处理方面未能保持相同的报告标准,而数据预处理对可重复性至关重要。作为本研究及其发现的重要贡献,我们引入了一个可重复性清单,该清单将基于组织病理学ML的工作中需要报告的信息制成表格,以使其可重复。
作者摘要
对于在医学研究或临床实践中大量使用的方法,它需要能够被复制,以便人们可以信任它。机器学习和深度学习在这方面存在一些挑战。例如,模型训练方式的微小变化可能会导致实验结果发生重大变化。这使得研究人员必须足够详细地报告他们如何做事,以便他们的实验结果可重复。在这项工作中,我们研究了用于数字病理学图像分析的三种不同算法。我们试图仅使用他们论文中报告的信息来重现它们。我们确认,即使是微小的细节也是必不可少的。作者通常不会报告复制其工作所需的所有细节。我们还创建了一个需要报告的清单,以帮助其他研究人员使他们的工作可重复。
引文:费尔 C、穆罕默德 M、莫里森 D、阿兰杰洛维奇 O、凯 P、哈里斯-比尔蒂尔 D (2022) 数字病理学全玻片图像分析中深度学习的可重复性。公共科学图书馆数字健康 1(12): e0000145. https://doi.org/10.1371/journal.pdig.0000145
编辑 器:桑杰·阿内贾, 耶鲁大学医学院:美国耶鲁大学医学院
收到:5月 13, 2022;接受:十月 13, 2022;发表:12月 2, 2022
版权:? 2022 费尔等人。这是一篇根据知识共享署名许可条款分发的开放获取文章,该许可允许在任何媒体上不受限制地使用、分发和复制,前提是注明原作者和来源。
数据可用性:这项研究是根据来自Camelyon 16和17大挑战的数据进行的。这些数据可在大挑战网站上找到https://camelyon17.grand-challenge.org/Data/,并在CC0下提供。
资金:这项工作得到了数字诊断人工智能研究工业中心(iCAIRD)的支持,该中心由Innovate UK代表英国研究与创新(UKRI)[项目编号:104690]资助,部分由苏格兰首席科学家办公室资助。资助者在研究设计、数据收集和分析、发表决定或手稿准备方面没有任何作用。
竞争利益:提交人声明不存在相互竞争的利益。
1 引言
数字病理学是一个快速发展的医学成像领域。现代数字扫描仪允许以高分辨率(每像素高达160 nm)捕获组织标本,称为全玻片图像(WSI)。一旦样本以数字方式获得,大型显示器就可以取代显微镜,临床医生之间的协作可以远程完成,评估程序的增强和自动化变得可行[1]。
在自动WSI评估的方法中,基于机器学习的计算机视觉技术已被广泛研究[2]。然而,对于在临床和研究环境中广泛采用的方法,其结果必须是一致且可重复的。机器学习研究在这方面正在经历一场被广泛讨论的危机[3]。诸如训练数据的不可访问性、方法不明确以及结果的选择性报告等问题导致研究人员无法重现他人的工作或验证其结果[3]。这既减缓了该领域的进展,而且在将技术转移到研究环境之外时也存在很大问题。
由于这些持续存在的问题,机器学习出版机构引入了旨在提高可重复性的政策。例如,在2019年,神经信息处理系统(NeurIPS)会议引入了一个包含三个组成部分的可重复性计划:期望所有被接受论文的代码提交政策,社区成员负责复制已接受论文的可重复性挑战,以及可重复性最佳实践清单[4]。
即使数字病理学越来越依赖于机器学习技术,这些问题在该领域仍未得到充分解决。在本文中,我们报告了我们尝试独立重现三种已发表的算法,用于识别乳腺癌淋巴结组织的全玻片图像中的肿瘤。基于这一经验,我们确定了这些研究报告中的常见弱点和遗漏,提出了评估数字病理学中机器学习方法可重复性的清单,并根据每篇论文对其进行评分。我们的目的是衡量该领域内可重复性的当前状态,并建立作者可以在出版前应用的最佳实践。
2 背景
2.1 重现性术语
尽管在文献中广泛存在,但术语“可重复性”的使用通常相当宽松,甚至更成问题的是,不同的作者以不同的方式理解[5]。一个流行的术语选择是计算机协会采用的术语[6,7]。它提供以下定义:
可重复性(相同的团队,相同的实验设置):研究人员可以可靠地重复自己的计算。
可重复性(不同的团队,相同的实验设置):一个独立的小组可以使用作者的人工制品获得相同的结果。
可复制性(不同的团队,不同的实验设置):一个独立的小组可以使用独立开发的不同工件获得相同的结果。
在机器学习的背景下,将数据和计算机代码分开的实验工件是有用的。我们希望能够讨论在问题域的新数据上测试系统时一致的结果,以及重写系统的计算机代码(由原始作者或独立团队)时一致的结果。为了解决这些问题,我们将使用上述定义的变体,引入在代码和/或数据更改时复制研究的术语。类似的定义在Broman等人[8]和Raff [9]中也有发现。本文中使用的定义如下:
计算可重复性(相同的代码,相同的数据):使用相同的输入数据和原始研究中使用的相同代码重现论文结果的能力。
独立可重复性(不同的代码,相同的数据):使用相同的输入数据和基于论文中的描述独立开发的代码重现论文结果的能力。
可复制性(不同的代码,不同的数据):在相同类型的新输入数据上使用论文中描述的技术并获得相同科学发现的能力。
2.2 重现性最佳实践
随着机器学习在医学研究中的应用越来越广泛,对可重复性最佳实践的需求变得更加迫切。在解决这个问题时,一些作者建议采用通用的编程框架和容器[10,11],而另一些作者则建议以确保提交的工作可重复的方式构建医学图像分析挑战[12]。为了评估数字病理学中可重复性的质量,Li等人[13]独立复制了一篇分析整个幻灯片图像的论文,得出的结论是其结果具有广泛的可重复性。我们的工作有助于理解数字病理学中可重复性挑战的性质和建立最佳实践。
2.3 选择转载的论文
在研究可重复性时,谨慎的做法是查看一组都解决相同问题的论文。通过这样做,可以识别常见的重现性问题,而无需考虑不同目标引入的方法变化。方法上的差异是意料之中的,或者工作不会新颖,但至少所有作者都在尝试同样的事情。
在WSI分析中,如果我们整理为Camelyon 16和17挑战所做的工作,则可以获得这样的语料库[14,15]。这些挑战由荷兰奈梅亨的拉德邦德大学医学中心组织,提供了从乳腺淋巴结中提取的WSI数据集,并为参与的研究人员设定了各种任务。Camelyon 16侧重于玻片水平分析,Camelyon 17侧重于患者水平。针对这些挑战提交的工作的摘要和讨论可以在Bejnordi等人[16]和Bandi等人[17]中找到。我们发现所有被审查的算法都采用了大致相似的技术方法,我们在方法部分3中进行了描述。有关概述,请参见图 1。
缩略图 下载:
.PPT幻灯片
.PNG大图
.TIFF原始图像
图1.Camelyon算法的一般结构。
https://doi.org/10.1371/journal.pdig.0000145.g001
会议决定,复制三篇论文将是一个足够的样本量,同时仍然保持实用性,我们应该选择表现最好的作品,因为它们可能对未来的工作影响最大。应用这些标准,我们选择了:
获胜的算法提交给Camelyon 16挑战[18]。
Lee等人的一篇论文[19],他们是Camelyon 17排行榜[20]上领先算法的作者。
刘等人的一篇论文[21]在2020年6月检索时对Camelyon 16的报告结果最好。
WSI分析和诊断的自动化存在几个重大挑战[22]。Camelyon数据集中的WSI约为110, 000×50, 000像素,每个使用约2GB的存储空间。与 ImageNet 数据集的图像 [23] 相比,每个图像的大小约为 1.5 GB,比 WSI 小几个数量级,考虑到当前可用的硬件计算资源,直接应用现代计算机视觉算法在 WSI 上是不切实际的。为了解决这个问题,WSI 通常会被缩减采样到更实际的大小或分解成更小的补丁。
整个幻灯片图像也受到许多独特伪影的影响。不同的实验室在提取、切割、固定、染色和扫描组织时可能会使用略有不同的技术。这些差异会导致组织颜色和结构的变化。此外,组织通常只能占据图像的一小部分,这可能导致在处理时浪费计算资源。我们选择的每篇论文都以相似但不同的方式解决这些问题。
为简单起见,从这里开始,三篇选定论文中概述的算法将分别称为王算法[18],Lee算法[24]和刘算法[21]。
2.4 清单
我们提出了一个清单,参见第4.2节,其中包含可用于提高整个载玻片图像分析中的独立再现性的必要信息。我们发现,对于大多数论文,深度学习技术都有足够详细的描述,但数据预处理和后处理步骤却没有。我们提出的独立重现性检查表涵盖了整个玻片图像分析中实验程序的所有部分。
为了以有原则的方式创建清单,我们试图遵循波音工程师Dan Boorman[25]建议的指导方针。这些在这里解释:
暂停点 - 应该有一个明确的暂停时间并查阅清单。
快速 - 完成时间应少于 60 秒,并且有 5-9 个不容错过的项目。
对现有知识的补充——列表中的每个项目都应该作为专家的触发器,简短而简洁地提醒该做什么,而不是替代专业知识。
现场测试和更新 - 应根据这些经验定期使用和更新清单。
作为这些准则的补充,希金斯等人。AL提出了清单的分类法[26],将它们分为:
过程性 - 用于无法记忆步骤的长、复杂或关键任务。
准备 - 在进行活动之前必须就地的一组事情。
解决问题 - 在对出错的问题进行故障排除时要问的问题列表。
预防 - 旨在阻止严重错误的发生。
在制定我们的清单时,我们确保它遵循这些准则并适合本分类法。
3 方法
在复制论文时,所报告方法的某些部分对于获得相同的结果和确认假设可能至关重要,而其他部分可能不太重要。一些报告的细节可能对结果完全没有影响。为了提出一个可以帮助数字病理学可重复性的检查清单,我们独立复制了每篇论文,并确定了任何可能影响复制的缺失信息。
本实验的三篇选定论文遵循如图1所示的类似结构,尽管单个算法可能会省略或组合概述的一些步骤。
所选论文的架构每个步骤的详细实现和获得的结果可以在S1 文本中找到。有十二个步骤,它们是:
系统规格:对所使用的硬件和软件平台进行技术描述。
数据集拆分:将数据拆分为训练集/有效集/测试集,分别用于训练、验证和测试算法。
染色归一化:减少来自不同实验室的染色WSI的颜色和强度变化。
组织分割:从WSI的背景中提取前景组织以进行进一步处理。
补丁提取:从WSI中选择适合馈送到CNN的任意大小的补丁。
补丁标签:使用 WSI 的注释标记提取的补丁。
补丁扩充:通过应用不同的增图技术来增加用于训练补丁分类器的补丁数据集的大小。
补丁分类:将 CNN 应用于 WSI 的补丁以单独对补丁进行分类。
硬负挖掘:将以前模型中错误分类的补丁添加或替换到训练数据集,并重新训练 CNN。
热图生成:将补丁分类器的输出概率转换为图形表示(热图),其中热图中的每个像素值表示概率。
幻灯片分类:将切片级结果聚合为玻片级结果,通常使用根据从热图中提取的特征进行训练的分类器。此步骤通常包括对热图应用各种启发式方法,以便在分类之前提取特征。
病变检测:使用热图在整个载玻片图像中定位单个病变。
患者分类:结合具有多个WSI的患者的幻灯片级别分类结果以获得诊断。
报告的指标:报告用于评估算法性能的指标以及评估算法的数据。
一般来说,每个步骤都有多种方法可以处理。为了准确地再现每篇论文,不仅需要知道使用了什么方法,还需要知道算法每个步骤所必需的多个参数的细节。
使用这种架构来重现概述的论文,使我们能够评估缺少哪些信息,并制定可重复性的清单。第4节列出了这一评估的结果,同时比较了文件中报告的业绩与重新执行时取得的业绩。
3.1 道德声明
这项工作已获得圣安德鲁斯大学计算机科学学院伦理委员会的批准。批准代码:CS15610。
4 结果
首先,在本节中,我们介绍了已发表的论文中算法方法中每个步骤的可重复性的评估结果。因此,我们给出了方法每个步骤的评级原因,以及在重新实现中做出的决策以填补缺失的信息。
其次,在本节中,我们将公布的结果与重新实现的结果进行比较。
4.1 使用重现性检查表进行评估
本节给出了使用重现性检查表评估每篇论文的结果。表1提供了图1所示一般架构的每个步骤的摘要评估。这些评估的原因在Wang等人[18]的论文第4.1.1节、Lee等人[19]的第4.1.2节和Liu等人[21]的第4.1.3节中有详细说明。这些部分还讨论了为解决论文描述中的差距或由于标准化实现而发生的任何差异而做出的任何假设。
缩略图 下载:
.PPT幻灯片
.PNG大图
.TIFF原始图像
表 1.评估为可重复性提供的信息的充分性。
https://doi.org/10.1371/journal.pdig.0000145.t001
在表1的摘要评估中:红色背景表示没有关于该步骤的信息。绿色背景颜色表示已提供所需的所有信息。黄色表示提供了一些信息,但在重新实施时需要一些假设。不适用于每张论文的步骤标记为“NA”。应该注意的是,如果只缺少次要信息(通常是包版本),则可以将步骤评估为绿色。
以下是对这些评估如何进行的描述。我们只包括对评估有一些有趣看法的步骤。任何不存在的步骤都应假定已正确报告并准确重新实施。
4.1.1 王算法评估。
提交给Camelyon 16挑战的获胜算法是由Wang等人[18]。应该注意的是,该算法的其他细节包含在Bejnordi等人[16]中,并且是补充细节。
系统规格和软件 - 红色。在Wang等人[18]或Bejnordi等人[16]中都没有提供有关硬件或软件平台的信息。重现时,S1 文本的通用体系结构部分中概述的硬件和软件平台被认为是可接受的选择。
数据集拆分 - 红色。没有提供关于如何或是否将幻灯片拆分为训练集和验证集的信息。对于复制,训练集和验证集之间的比例为80:20,因为它与Liu等人[21]的论文中的分割相匹配,并且没有其他信息可以继续。拆分在幻灯片级别应用,如S1 文本的常见体系结构部分所述。
染色归一化 - 黄色。Wang等人的论文中没有提到染色归一化[18]。然而,在Bejnordi等人[16]提供的补充细节中,描述了两种方法:方法I,无染色归一化,以及方法II,应用全玻片图像颜色标准化器(WSICS)染色归一化[27]。WSICS 是一种基于模板的规范化技术,补充详细信息没有说明使用了什么模板或如何选择模板。是否应用了污渍归一化存在歧义,如果是,技术很清楚,但缺少关键参数,因此被评为黄色。由于不清楚Wang等人[18]中报告了哪种方法,因此在重新实施中省略了染色归一化,这应该与Bejnord等人报告的方法相匹配[27]。
修补程序提取 - 黄色。目前尚不清楚使用什么技术进行补丁提取,例如,补丁是从随机位置还是在非相交网格上提取的。论文和补充信息指出了不同的补丁大小:Wang等人[18]指出它们是256x256,Bejnordi等人[16]指出它们是224×224。对于贴片采样策略,没有给出关于它们是否在载玻片之间平衡或是否通过替换提取的详细信息。由于这些缺失的信息片段,补丁提取被评为黄色。重新实现使用常规网格,使用大小为 256 × 256 的补丁,然后裁剪为 224 × 224,因为随机裁剪被声明为应用于每个补丁的增强之一。假设从256×256到224×224的裁剪解释了报告方法的差异。
贴片标签 - 红色。Wang等人[18]中的描述不清楚补丁上的哪个区域必须被注释多边形覆盖才能被标记为该类注释。由于缺乏信息,在复制S1 文本的通用架构部分中概述的补丁标记策略时,被认为是可接受的选择。
斑块增强 - 黄色。Wang等人[18]没有提到斑块增强,但是在Bejnordi等人[16]中,随机旋转被陈述,但没有给出参数,因此被评为黄色。在重新实现中,从 0、90、180 或 270 度中选择随机旋转。
修补程序分类 - 绿色。缺少软件平台的详细信息、使用的 GPU 数量以及使用的任何并行性的详细信息。不指定这些细节并不妨碍重现算法,尽管它们在报告的最终值中可能有很小的变化。由于Wang等人[18]描述的算法仍然可以复制,因此被评为绿色。
硬负挖矿 - 红色。据称进行了硬负挖矿,但缺乏硬负挖矿的细节。因此,在复制中,假设所有假阳性补丁都添加到训练集中,并使用先前训练的权重重新训练模型。以前的权重用于利用现有模型的迁移学习并最大限度地提高性能。考虑到发现的误报数量,将它们添加到训练集中被认为不会显着破坏数据集的平衡,这似乎是最直接的方法。
热图生成 - 红色。没有给出如何从补丁概率生成热图的详细信息,因此被评为红色。目前尚不清楚是否使用了重叠的补丁,如果是,则通过补丁的重叠程度以及如何解决重叠区域中的不同概率。由于没有给出更复杂的细节,因此在复制中使用了最简单的方法,即非重叠补丁的规则网格。
全玻片分类 - 黄色。使用随机森林算法根据从热图中提取的特征对整个幻灯片图像进行分类。但是,没有给出随机森林超参数的详细信息或报告软件包,因此被评为黄色。在复制中,scikit-learn的随机森林分类器是使用其默认的超参数进行训练的。假设默认值是因为从其他研究中获取超参数似乎并不明智,因为假设任何研究都会为自己的目的调整超参数。scikit-learn 随机森林分类器的文档中指出,默认值可能导致过度拟合。在实现原始模型时,在这种情况下的方法是执行超参数搜索以确定最佳设置。从已发表的文献重新实现时,应指定这些参数,因此这不是必需的。由于没有其他信息来自默认参数被认为是可接受的,如果这些参数是关键的,则应在已发表的论文中指定它们。
报告的指标 - 黄色。Wang等人[18]的论文报告了补丁级别结果,但不清楚这是在平衡数据集上还是数据集中的所有补丁上。也不清楚是否为验证集的测试集报告了此准确性。对于玻片分类和病变检测,Wang等人[18]和Bejnordi等人[16]报告的值略有不同,我们假设第一个报告有效,第二个报告在测试。由于补丁指标不明确,报告的指标被归类为黄色。
4.1.2 李算法评估。
2021 年 1 月的 Camelyon 17 排行榜 [20] 上的主要算法在 [28] 中进行了描述,同一团队发布了一个结果更好的替代版本,因为 [19] 值得注意的是,为了重现性,本文包含该算法的更多详细信息。本文被选中转载。作为挑战的一部分,该团队还提供了额外的补充信息[24]。
系统规格和软件 - 红色。任何出版物均未提供有关硬件或软件平台的信息[19,24,28]。在复制硬件和软件平台时,S1 文本的通用体系结构部分中概述的被认为是可接受的选择。
数据集拆分 - 黄色。给出的信息是每个训练/验证和测试集的补丁数。没有关于分割是在贴片,载玻片还是患者级别上进行的,以及如何在Camelyon 16和17载玻片之间分配的信息。为了复制Camelyon 16的所有幻灯片,只有Camelyon 17的带有注释的幻灯片用于培训。Camelyon 16在幻灯片级别拆分,Camelyon 17在患者级别拆分,以训练和验证集。
染色归一化 - 红色。给出的唯一信息是GAN用于污渍归一化。没有足够的信息对他们使用的技术做出合理的假设,因此在重新实施污渍归一化时尚未完成。
组织分割 - 红色。没有提供关于组织分割的信息。假设组织分割是必要的,通过丢弃幻灯片中不包含任何有用信息的部分来帮助提高实施效率。在重新实现中,应用了Liu等人[21]中概述的相同分割方法。
修补程序提取 - 黄色。目前尚不清楚使用什么技术进行贴片提取。据说补丁是随机提取的,没有交集,没有详细说明如何实现。没有给出提取补丁的级别,也没有给出如何从幻灯片或类中采样补丁的详细信息。给出了训练、验证和测试集的补丁大小和补丁数量。重新实现在大小为 256 × 256 的规则网格上对补丁进行采样,以确保没有重叠的补丁,然后从这些补丁中随机采样。最后,将采样的斑块裁剪为240×240。由于没有给出从哪个级别提取补丁的信息,在重新实现中,我们提取了零级补丁,因为在零级提取的补丁是最高分辨率的,这也与Wang等人[18]和Liu等人[21]所做的相匹配。在重新实现中,假设有一个 50:50 的拆分来平衡类。
贴片标签 - 红色。Lee 等人 [19] 中没有描述补丁上的哪个区域必须被注释多边形覆盖才能用该注释类进行标记。由于缺乏信息,在复制时,S1 文本的通用架构部分中概述的补丁标记策略被认为是可接受的选择。
修补程序分类 - 黄色。没有提供执行补丁分类所需的所有细节,特别是缺少运行训练的周期数、批量大小和损失函数。在重新实现中为这些参数选择的值是 Wang 算法或 Liu 算法中可用的这些方法的最简单版本。软件平台的细节、使用的 GPU 数量和所使用的任何并行性也缺失,但是不指定这些细节并不妨碍重现算法,尽管它们在报告的最终值中可能有很小的变化。
硬负挖矿 - 黄色。Lee等人[19]的论文没有具体说明通过硬负挖掘将多少补丁添加到他们的初始训练数据集中。此重新实现的初始训练数据集有 45,000 个正常补丁。当在重新实施中进行硬负挖掘时,发现了 450,000 个误报补丁。将所有这些补丁添加到初始训练数据集中将改变正在进行的训练的规模以及正常补丁和肿瘤补丁之间的平衡。假设如果论文的作者发现了这么大的变化[19],那么它就会在论文中报告,也许要么发现更少的假阳性补丁,要么只添加了发现的补丁的子集以维持训练数据集的规模和平衡。决定添加重新实现中发现的所有 450,000 个补丁不是一个明智的方法。因此,发现的概率最高的 45,000 个补丁被添加到初始训练数据集中。为了在硬负挖掘后使用新的训练数据集重新训练网络,可以从 ImageNet 权重或第一个训练模型的权重初始化网络。由于Lee等人[19]中没有说明执行了哪一个,因此假设使用来自第一个训练模型的权重来利用迁移学习。
热图生成 - 红色。Lee 等人 [19] 指出,补丁在热图中表示为一个像素,但由于没有足够的关于如何提取补丁的信息,因此不清楚热图是如何生成的。在复制中,使用了最简单的方法,即非重叠斑块的规则网格。
全玻片分类 - 黄色。Lee等人[19]指出DBScan用于寻找肿瘤簇,但没有说明使用的参数。给出了从DBSscan发现的3个最大的肿瘤簇中的每一个中提取的7个特征的列表,这总共产生了21个特征。但是,据说使用了24个功能,因此缺少一些信息。在重新实现中,使用了 21 个功能,对于 DBScan,使用了默认参数。
对于分类,Lee等人[19]指出他们使用了XGBoost,但没有给出参数。由于不清楚哪些载玻片用于训练和验证,以及用于补丁级别分类的训练和验证集是否与幻灯片级别分类一致,因此存在进一步的混淆。在重新实现中,Camelyon 17 的训练和验证集是在患者级别创建的,训练集中有 62% 的患者,对应于训练中的 310 张幻灯片。这种划分在整个斑块分类、载玻片分类和患者分类中保持一致。
由于每个患者有多个载玻片,因此由于它们的相似性,建议将患者的所有载玻片都在同一组中。在Lee等人的论文中[19],补丁分类,幻灯片分类和患者级别分类有不同的拆分,这似乎不能保持补丁,幻灯片和患者级别分类阶段之间训练和验证集中幻灯片的一致性。在重新实现中,决定确保一致性,以便在不同分类阶段之间移动时不会意外地混合训练集和验证集。
患者水平检测 - 黄色。Lee等人[19]明确指出了从玻片级分类到患者级分类的方法,但是如前所述,拆分数据的过程尚不清楚。因此,我们在此分类阶段使用了与补丁和幻灯片级别分类相同的集合。
报告的指标 - 黄色。Lee 等人 [19] 中明确说明了报告的指标,但是由于 4.1.2 中所述的拆分不清楚,因此不清楚这些指标是在哪些数据集上报告的。
4.1.3 刘算法评估。
选择的第三篇论文是在2020年初检索时给出最佳结果的论文。刘等人[21]的这篇论文是最终被选中复制的论文,因为它在Camelyon 16上报告了最好的结果。
系统规格和软件 - 绿色。使用的GPU的数量和类型由Liu等人给出[21],使用的软件平台是TensorFlow。在重新实现中,我们使用了相同数量的 GPU,但类型不同。假设 GPU 架构不太可能对实验结果产生重大影响。重新实现使用了PyTorch,PyTorch和TensorFlow之间存在一些差异,但从方法论的角度来看,预计这些库是可以互换的。
数据集拆分 - 黄色。用于将幻灯片分配到训练集或验证集的方法在Liu等人[21]中没有给出。在重新实现中,两组之间的比例保持不变,并将载玻片随机分类到这两组。在没有提供其他信息的情况下,随机拆分是一种合理的方法。
组织分割 - 黄色。没有说明应用组织分割的放大倍数水平。在重新实施中,组织分割在5级进行,与Wang等人的水平相同[18]。给出了组织分割的所有其他信息,并在重新实施中应用了相同的信息。
修补程序提取 - 黄色。Liu等人[21]清楚地说明了贴片的大小和提取的水平,不清楚的是使用的贴片数量,如何从载玻片中采样并在类别之间平衡。本文介绍了一种补丁抽样方法,旨在避免偏向具有更多补丁的幻灯片。但是,根据附录中规定的补丁数量及其补丁大小,这意味着他们正在使用所有可用的补丁,这意味着不需要采样。在重新实现中,训练集中的补丁数设置为 10,000,000,验证集为 1,250,000。这是一个类似的数量级,但很难从原始系统中知道确切的数字。选择这些补丁时应用了类似的加权抽样方法,而不是使用所有可用的补丁。鉴于不确定性,这可能是原始项目和复制品之间结果差异的来源。
修补程序分类 - 黄色。Liu等人[21]中对补丁分类器的描述相当全面,但是缺少用于确定训练何时完成的损失函数和标准。在我们的重新实现中,使用了交叉熵损失,因为这与原始的GoogLeNet架构一起使用[29]。该模型训练了 15 个 epoch,如果验证准确性在 5 个 epoch 内没有提高,则会提前停止。使用的模型权重是精度最高的纪元,发现这是第二个纪元。
4.2 基于贴片的全玻片图像分析重现性检查表
根据我们对论文的评估,我们能够得出我们的可重复性清单。将其放在背景部分中讨论的分类法中,很明显,它旨在防止可能损害已发表研究质量的关键错误。由于我们的清单涵盖了研究论文中应包含的信息,因此我们建议暂停点是在提交研究论文和相关代码之前,但要及时在提交截止日期之前解决任何遗漏。该清单还可以在程序上使用,以确保以正确的详细程度记录实验,例如,模型的所有超参数都被写下来或存储在数据库中。我们的清单有 12 个项目,超过了建议的最多 9 个项目,但是这是为了权衡手头任务的全面性。这些项目很短,旨在充当触发器。由于本清单是一项提案,因此很明显,它需要在本文范围之外进行实地测试和更新,我们希望研究人员在自己的工作中使用它,并将他们的经验反馈给我们。我们打算在今后的工作中使用它。
为了使您的工作可独立复制,请确保您已报告以下所有必需的详细信息:
系统经过训练和测试的硬件和软件平台。
数据源及其访问方式。
如何将数据拆分为训练集、验证集和测试集。
幻灯片如何或是否规范化。
如何从幻灯片中删除背景和任何伪影。
如何从映像中提取修补程序以及应用的任何数据增强。
补丁的标记方式。
补丁分类器是如何训练的,包括技术、架构和超参数。
如何训练玻片分类器,包括预处理、技术、架构和超参数。
如何进行病变检测。
如何训练患者分类器,包括预处理、技术、架构和超参数。
与所有任务相关的所有指标。
4.3 性能指标比较
下表显示了转载论文中报告的性能指标以及我们重新实现的结果。不适用于特定数据集或任务的结果将列为 NA。特定任务或数据集缺少的结果列为 -。
Wang等人[18]的论文报告了表2中GoogLeNet模型的补丁级别结果,其补丁分类准确率为98.4%,目前尚不清楚这是在平衡数据集上还是数据集中的所有补丁上。重新实现的补丁分类结果基于平衡数据集,准确率为 80.5%。
缩略图 下载:
.PPT幻灯片
.PNG大图
.TIFF原始图像
表 2.王论文原文与再实施结果对比.
https://doi.org/10.1371/journal.pdig.0000145.t002
Wang等人[18]报告的结果给出了玻片分类任务的AUC为0.925。在c [16]中报告的HMS和MIT方法I的结果为0.923,载玻片分类任务的置信区间为(0.855-0.977)。
Wang等人[18]报告的结果为病变定位任务打分0.7051分。
Bejnordi等人[16]报告的HMS和MIT方法I的结果为0.693,病变识别任务的置信区间为(0.600-0.819)。
作者将补丁级别结果报告为“补丁级分类器在验证和测试补丁中分别显示 0.99 和 0.98 ROC、PR-AUC。验证补丁集中的最佳阈值为 0.58,这是为最高 F1 分数选择的。有了这个最佳阈值,验证集中的准确性、召回率、特异性和精密度分别为 0.99、0.98、0.99 和 0.99”。
虽然这些结果已经说明,但从论文中不清楚这些补丁是来自Camelyon 16幻灯片,Camelyon 17幻灯片还是两者的组合。也不清楚他们是否使用了幻灯片中的所有补丁或以某种方式采样,例如创建一个平衡的子集。对于幻灯片上的所有补丁,将报告Camelyon 17的重新实现结果。
载玻片级结果在Lee等人[24]中报告为“验证玻片和整个500张玻片的玻片级准确度分别为0.92和0.924”。目前还不清楚这篇论文测试的500张幻灯片是从哪里来的。
未报告病变水平结果。幻灯片水平的结果在论文Lee等人[24]中报告为“整个500张幻灯片的kappa分数为0.96”。Camelyon 17排行榜[20]给出的患者kappa评分为0.9570。
不报告修补程序级别结果。对于玻片级结果,Liu等人[21]报告的AUC在验证集上为99.0,在测试集上为96.7。在复制品中,Camelyon 16验证集的AUC为98.6%,测试集的AUC为71.8%。
Liu等人[21]报道的病变水平结果显示,使用40倍放大倍率的单个Inception V3网络的验证集上的FROC为98.1,测试集的FROC为87.3。在重现中,验证集的 FROC 为 49.9%,测试集的 FROC 为 3.0%。
5 讨论
在本节中,我们将讨论两件事,首先是信息缺失时发生的问题,其次是这种缺失信息对每篇论文结果的影响。一般来说,应该注意的是,如果没有控制许多其他变量的广泛实验,就很难理清任何单个缺失信息对结果的影响。例如,如果有关修补程序提取和热图生成的信息都丢失,则并不总是清楚哪个导致与报告结果的差异。
5.1 信息缺失引起的问题
5.1.1 数据分布不匹配。
在不同的输入数据上训练的相同算法可能会导致非常不同的输出预测。特别是,每个类的样本比例和每个类内的数据多样性的差异会极大地改变结果。数据的平衡和多样性受管道中多个阶段的影响。这些问题会影响斑片分类、玻片分类和病变检测。
如何将数据集拆分为验证集和测试集可能会导致原始试验和重新实现之间的数据分布差异。对于如何在类之间提取和平衡补丁也是如此。补丁增强还可以通过应用不同的增强(如旋转和翻转)来增加少数类的样本数,从而帮助平衡数据集。因此,其中任何一项中缺少信息都可能导致经过训练的分类器的性能发生变化。例如,某些样本可能比其他样本更难分类,如果训练集的这些样本较少,则不太可能很好地推广到包含许多此类样本的测试集。
硬负挖掘通过改变训练集的分布来提高性能,向算法展示更多导致混淆的样本,教会分类器更好地区分这些样本。因此,缺少有关硬负挖掘过程的信息可能会影响模型如何推广到测试集。例如,添加或替换样本的不同方式将导致原始训练集和重新实现之间的训练集分布差异。
如果载玻片来自不同的实验室,则实验室之间染色方案的差异可能导致载玻片的颜色分布差异。染色归一化通过将每个图像转换为相同的颜色范围来弥补这一点。或者,贴片增强可以使用颜色增强来补偿,以增加训练集的多样性。由于缺少信息而导致的染色归一化或颜色增强的差异意味着分类器可以在不代表验证和测试集的数据集上进行训练。
5.1.2 分割和标签的不确定性。
如果幻灯片的区域在重新实现和原始论文中标记不同,这可能会导致分类性能发生变化。这可能会受到差异的影响,因为贴片标记和组织分割方法中的信息缺失。
将贴片标记为肿瘤所需的贴片中的肿瘤像素量将使训练贴片分类器变得更容易或更难。例如,如果贴片中只有几个像素需要肿瘤才能将该贴片标记为肿瘤,则可以预期,与贴片中大量像素是肿瘤像素时相比,贴片分类步骤中存在更多的噪声和不确定性。
组织分割不良会导致两个问题。首先,它可以排除可能含有肿瘤的组织。其次,包括额外的背景,这可能会给训练过程带来噪音。这两者都会在一定程度上影响斑块级别分类器结果,但它们对切片和病变级别分类的影响会更大。组织中的内部孔是组织结构的一部分,具有诊断意义。不同的分割方法可能包括或排除这些区域,因此可能导致不同的分类精度。
5.1.3 模型收敛差异
缺少信息可能会导致图面和幻灯片分类模型的模型收敛方式存在差异。补丁和幻灯片分类器可以过度拟合到数据,或者它们可能拟合不足或收敛到局部最小值。
在这里,我们专注于概述论文中缺少的补丁分类参数的影响,例如,如果缺少网络架构细节,这将产生巨大影响,但这里不讨论,因为这些参数已经很好地指定了。知道何时停止网络训练是复制性能的关键参数,因为它将直接影响网络的过度拟合或欠拟合。通过不指定其他参数,例如损失函数、优化器、批量大小,这些更有可能导致网络收敛到原始论文的不同局部最小值。
整张幻灯片分类依赖于从热图中提取的特征来对每张幻灯片进行分类。与补丁分类非常相似,缺乏有关所采用的机器学习技术及其超参数的详细信息可能导致模型拟合过度或不足,或者模型收敛到与报告不同的局部最小值。
5.1.4 处理补丁分类缺陷。
玻片分类和病变检测可以直接从完美的斑块分类中推断出来。然而,不完善的补丁分类需要更复杂的处理来弥补。可以进行热图生成、特征提取和病变检测,以克服不完善的斑块分类。当这些步骤中的任何一个没有被很好地描述时,重新实施时引入的差异会降低有效性。现在将在以下段落中更详细地讨论这一点。
热图是幻灯片、患者和病变水平结果的基本起点,因此如何生成热图是这些结果性能的关键。热图的生成方式取决于在执行推理时如何提取补丁。请注意,一组补丁可用于训练模型,然后将模型应用于另一组以生成热图。所需的其他关键信息是如何解决重叠补丁之间的概率差异。例如,对同一位置的多个色块求平均值可以减少热图中的噪声,提取不同大小或步幅的色块将为热图提供不同的分辨率。
此外,如何提取热图中的信息,以了解用于载玻片和患者分类的算法的性能。提取对下游任务无用的特征可能会增加数据的噪声,相反,不提取重要特征可能意味着信息丢失。两者都使幻灯片分类任务更加困难。
请注意,基于多实例学习(MIL)的组织病理学切片分类的弱监督方法,例如Sudharshan等人评估的方法[30],不一定需要生成热图。相反,他们将每张幻灯片或幻灯片的一部分视为特征的“袋子”,并根据幻灯片级别标签训练分类器。从WSI中提取这些特征并聚合这些特征取决于具体方法。我们对未来的工作感兴趣,以扩展我们的方法和清单以涵盖这些内容。
病变水平检测依赖于了解如何从热图中准确选择病变,识别真实病变并丢弃噪声。这分两步完成:Blob 检测和 Blob 评分。有许多方法可以执行这些步骤中的每一个,如果没有所用算法的详细信息,则不清楚如何复制它们。不同的斑点检测算法可能导致斑点过多或过少,评分方法的差异会使区分真病变和假病变变得更加困难。
5.1.5 数据泄露,保持子集之间的分离。
正如布索拉等人所讨论的。[31],数据泄漏是WSI分析中的一个重大问题。例如,如果数据集没有在患者级别划分为训练集和测试集,那么信息可能会在研究人员没有意识到的情况下从一个训练泄漏到另一个测试。如果训练集和测试集包含任何相同的数据,则评估将无法代表模型泛化到目标域的能力。如果训练集和验证集包含任何相同的数据,则模型可能会过度拟合。当数据不相同但相似到足以引起问题时,可能会发生类似的效果。例如,来自同一患者的两张幻灯片可能非常相似,如果在数据集的不同拆分中使用,则会导致过度拟合或评估不佳。
为了防止数据泄漏并保持子集之间的分离(每个患者有多个载玻片),必须在流程开始时将载玻片拆分为患者级别的训练集、验证集和测试集。在我们的研究中,没有一篇论文包含足够的信息来了解原始结果是否因这些影响而产生偏差。在我们的重新实现中,我们小心翼翼地避免在子集之间共享数据,并且我们的结果不太可能受到数据泄漏的影响。
5.1.6 用于结果比较的数据集的定义。
为了比较结果,您需要知道您正在比较以相同方式对相同数据计算的相同测量值。例如,如果报告了准确性,则了解在哪个数据集上测量了准确性(例如验证或测试)以及如何创建该数据集(是通过对幻灯片中的所有修补程序进行采样来创建的,还是为训练而创建的平衡集)至关重要。缺少此信息时,您最终可能会比较不同数据集上的相同指标,从而得出不同的结果。
5.2 对缺失信息重新实施的影响
5.2.1 王.
表2显示了[18]中报告的结果和重新实现的结果的比较。在补丁分类结果中可以看到明显的差异。在重新实施中,补丁分类的准确性比论文中报告的值低15%。首先,我们不知道我们是否在比较同一数据集上的指标。其次,数据集拆分、污点归一化、补丁增强和硬负挖掘都会影响数据分布,这可能会影响补丁分类,原因见第5.1.1节,如表1所示,Wang等人对这些区域的规定很差[18]。
此外,在玻片级分类过程中,观察到一个主要差异,如表2所示,其中模型未能从验证集推广到测试集。测试集上的结果或多或少是随机的。如表1所示,在补丁提取、热图生成和整个载玻片分类中缺少信息,由于第5.1.4节中所述的原因,这些可能会影响切片分类结果,也可能是由于数据分布的差异影响了切片分类。另一种可能性是,用于幻灯片级分类的随机森林分类器对特定的超参数很敏感,并且由于本文中未说明这些参数,因此可能会出现重要差异。
表2所示的病变水平结果大约是论文报道的一半。在病变水平的结果中,重新实现会在预测中看到更多的误报。这是补丁分类精度较低(如上所述)的结果。病变识别过程对孤立的假阳性斑块预测非常敏感,将每个病变计为单独的病变。结果,斑块分类精度的微小差异增加了病变的平均假阳性率,从而使ROC曲线下的面积减少了近一半。
5.2.2 李.
Lee等人[19]报告的结果与重新实现的结果的比较如表3所示。很难弄清楚结果报告在哪些数据集上,如表1中的评级所示。因此,我们不知道我们是否在原始论文和重新实现的相同数据集上比较相同的结果。
thumbnail 下载:
.PPT幻灯片
.PNG大图
.TIFF原始图像
表 3.李论文的原始结果和重新实现结果的比较。
https://doi.org/10.1371/journal.pdig.0000145.t003
如第5.1.1节所述,补丁分类受数据分布的影响,数据分布受数据集分裂、污渍归一化和硬负挖掘的影响,如表1所示,Lee等人对这些区域的指定很差[19]。或者,如表1所示,缺少有关贴片标记和组织分割的信息可能会影响第5.1.2节中所述的贴片分类结果。最后如表1所示,Lee等人[19]中未说明补丁分类参数,差异将影响第5.1.3节中所述的结果。所有这些原因都可能导致重新实现中的补丁分类精度比原始补丁低得多。
如表3所示,我们无法重新实现Lee等人报告的玻片水平结果[19]。除了上一段讨论的补丁级别分类问题外,热图生成、特征提取和全玻片分类也缺乏信息,如表1所示。由于第 5.1.4 节中所述的原因,这些会影响玻片级别结果。因此,缺失的信息会影响患者级别分类结果,这些结果应建立在补丁和幻灯片级别之上,在将重新实现的患者级别分类结果的性能与原始结果进行比较时可以看到这一点。此外,如表1所示,由于报告的指标没有明确规定,特别是用于患者级别分类的数据集,这可能会影响患者级别结果,如5.1.5中所述。
5.2.3 刘.
Liu等人[21]中报告的结果与重新实现的结果的比较如表4所示。如表4所示,Liu等人[21]报告的载玻片分类结果与验证集接近,但与测试集不符。这可能是由于Liu等人[21]中的验证和测试集之间的数据分布不同以及重新实现。Liu等人[21]中没有完全指定补丁分类参数,因此由于第5.1.3节中所述的原因,这可能会影响结果。
thumbnail 下载:
.PPT幻灯片
.PNG大图
.TIFF原始图像
表 4.刘论文原文与再实施结果对比.
https://doi.org/10.1371/journal.pdig.0000145.t004
病变级别分类导致重新实施很差,因为检测到大量噪声作为病变,从而产生大量误报。这可能是因为我们的补丁分类不如Liu等人[21]的结果。这是由于上一段所述的原因。
5.3 限制和未来工作
这项工作包含一些重要的限制。就计算资源而言,独立复制此类工作既耗时又昂贵。这些一直是本研究中的限制因素。由于我们只复制了三篇论文,这限制了我们得出有关该领域结论的能力。但是,我们相信从论文和清单中提取的管道可以应用于Camelyon挑战赛的许多其他论文。在独立转载之前,无法知道这些论文中还存在哪些其他可重复性问题。
同样,管道和清单很可能适用于该领域的广泛工作,但其适用范围目前尚不清楚,应成为未来工作的重点。如背景部分所述,对清单成功至关重要的因素之一是它们经过测试和更新。这既适用于我们的管道,也适用于我们的清单,将是它们成功并使其更广泛适用的关键。我们希望将来我们可以通过将研究从更广泛的方法纳入其他已发表的研究中来显着扩大这项工作的范围。
本文重点介绍了从论文中报告的方法中报告的信息和细节中独立复制实验时出现的问题。然而,缺乏可重复性也可能是由于最初较差的实验设计。拉什迪等。AL [32] 讨论了计算病理学背景下的监督机器学习研究设计。他们建议通过在训练制度中引入交叉验证过程来减少模型过度拟合。我们认为这是可重复性的另一个方面,在未来的工作中评估可能会很有趣。
6 结论
通常,管道的后期阶段(例如热图生成和补丁分类)包含更多详细信息,因此更容易重现。然而,管道数据准备阶段的细节报道较少。重要的是要理解,尽管所有这些论文都使用相同的数据集(Camelyon16和Camelyon17),但在分布式数据集和准备训练CNN的数据之间有很多选择。这些选择导致结果的质量差异很大,建议对系统的后期阶段(如分类)给予同等关注。如果没有准确的数据准备细节,就很难正确重现工作。报告数据预处理步骤的详细信息与报告模型及其参数一样重要。
从上述论文的结果来看,出现了以下趋势:对数据集拆分和补丁提取技术的描述不明确导致的问题,结果报告不明确(特别是报告结果的哪些数据子集),模型在训练期间如何停止以防止过度拟合和欠拟合,使用的数据集越大,结果越好, 论文解释得越好,结果就越好。
在撰写诸如这些论文之类的技术工作时,似乎在可读性和正确复制报告工作所需的完整性之间存在着紧张关系。只有通过使用大量的补充材料,例如详细的附录和发布代码,才有可能解决这个问题。发布者、编辑和评论者应了解这些相互冲突的要求。一些研究人员也可能不愿发表所需的细节,以保护商业利益。
在进行这种分析的过程中,发现仅使用已发表论文中提供的信息很难且几乎不可能重现相同的结果。看似微小的细节可能对复制至关重要,在尝试重现它们之前很难知道它们的重要性。4.2中提供了一个清单,可以帮助作者撰写未来的论文,以便包括可重复性的所有必要步骤。
支持信息
S1 文本中包含三种算法的实现和重新实现的完整详细信息。我们重新实现这三种算法的源代码可在以下 DOI:10.5281/zenodo.7014475 中找到。我们还将重新实现的许多功能分解到一个名为Wsipipe的开源Python包中,该包可在以下DOI:10.5281 / zenodo.7060584中找到。
补充材料。
跳到无花果共享导航
深度学习在数字病理学整体中的可重复性幻灯片图像分析 - 补充材料克里斯蒂娜·费尔1Y, 马赫纳兹·穆罕默德1Y, 大卫·莫里森1Y*, 奥格涅·阿兰杰洛维奇1,彼得·凯2, 大卫·哈里斯-伯蒂尔1,1圣安德鲁斯大学计算机科学学院, 圣安德鲁斯, 英国2籼稻实验室,美国新墨西哥州阿尔伯克基Y这些作者对这项工作做出了同样的贡献。*dm236@st-andrews.ac.uk1 Camelyon算法的一般结构:详细说明Camelyon算法的一般结构包括以下处理步骤:系统规格应指定使用的硬件和软件。这包括:所用硬件的技术描述(例如 CPU、GPU、RAM)和运行项目的软件平台及其版本(例如PyTorch,Tensorflow和列表)的包及其版本)。数据集拆分两个Camelyon 16和17数据集具有不同的训练和测试集,但没有唯一定义的验证集。为了能够验证性能算法 在训练时,验证集必须与训练集分离。这种拆分是在Camelyon 16的幻灯片级别完成的,因为每位患者只有一张幻灯片,并且Camelyon 17 的患者级别,因为每位患者有 5 张幻灯片可用。自在幻灯片级别进行预测,通常会发生另一个机器学习步骤以将补丁级别结果聚合到幻灯片级别预测。在玻片级别拆分数据或患者级别,防止补丁级别的训练集和验证集之间的数据泄漏培训以及幻灯片级培训。污渍归一化染色用于突出组织的重要特征以及增强组织对比度。多个步骤中的小变化染色过程会导致生成的WSI中颜色的变化。颜色的变化阻碍了基于自动机器学习的性能诊断。污渍归一化将颜色变换应用于 WSI 以标准化所有幻灯片到一个标准参考颜色范围。此步骤并不总是适用,颜色可以使用增强代替或以及染色归一化。组织分割WSI的大约10%是组织,其余大部分是纯白色背景。避免在处理WSI不包含有用的信息,组织部分与背景。组织区域和背景之间存在很大的对比。因此,大多数方法应用某种形式的简单分割算法来排除背景以减少进一步经历的图像量加工。组织分割通常发生在更高的缩略图上10月 27, 20221/18
图像金字塔的水平而不是全分辨率的整个幻灯片图像,使其成为更快、更高效。补丁提取由于WSI的尺寸很大,计算的局限性卷积神经网络 (CNN) 可以的资源和输入大小处理,WSI的组织区域应分成适合处理的较小斑块由CNN提供,例如256×256像素。有许多参数可以确定这是如何实现。它通常是在图像的最低级别,最高分辨率下完成的。这也可以在其他或多个级别完成。补丁可以在常规网格上创建,以各种步幅或从组织区域内随机。还有更多与被归类为肿瘤的斑块相比,不含肿瘤的斑块。因此,大多数论文以某种方式将数据集从每个可能的补丁减少到每个类的一些指定数量或比率,以提供更平衡的训练数据。贴片标签提取的补丁需要标记。最简单的方法是肿瘤或正常应用于整个贴片。或者,使用提供注释以显示哪些像素是肿瘤,哪些像素是正常的。一个然后根据其像素的百分比被标记为肿瘤瘤。研究人员应用不同的方法来计算需要多少补丁注释为肿瘤,以便将整个贴片归类为肿瘤。补丁增强在将修补程序传递到分类器之前可以进行增强。有各种各样的技术应用于例如,旋转、镜像、颜色抖动、缩放。补丁分类然后将补丁通过基于监督的CNN进行学习每个修补程序的标签的分类器。硬负挖矿硬负挖掘是一种用于丰富数据集的技术具有难以分类的样本,以便下游分类器接触更困难的案例,并更好地学习如何处理它们。指定至关重要如何丰富数据集,无论是通过替换还是补充现有样本,如何选择样本,以及使用样本的百分比。热图生成然后通过经过训练的分类器,以给出组织每个部分包含肿瘤的概率。然后重建这些图像以给出一个图像,其中每个像素值代表该补丁的概率。载玻片分类然后通过设置一个或多个阈值来发现肿瘤对于概率。这些肿瘤的位置和大小导致 FROC用于比较 Camelyon 16 中算法的度量之一。各种然后将肿瘤区域的测量值计算为一组新特征。这每张幻灯片的特征测量值与原始分类一起使用应用于载玻片训练整个玻片分类器,常用分类算法使用是随机森林和提升。Camelyon 16的整个幻灯片分类是二元,为每张幻灯片提供肿瘤或正常分类。此过程提供AUC 用于比较 Camelyon 16 中的算法。整张玻片分类Camelyon 17是多类的,给出了无,ITC,微观或宏观肿瘤分类每张幻灯片。此过程为我们提供了用于比较算法的幻灯片级精度在卡梅里昂 17.27月 2022, <>2/18
下载
无花果分享
S1 文本。补充材料。
Camelyon算法的一般结构:详细说明和实现细节。
引用
1.Dimitriou N, Arandjelovi? O, Caie PD. 用于全玻片图像分析的深度学习:概述。医学前沿。2019;6:264.密码:31824952
查看文章PubMed/NCBI谷歌学术搜索
2.邓淑, 张鑫, 闫文, 一世, 常春, 范蕃, 等.数字病理学图像分析中的深度学习:一项调查。医学前沿。2020;第1-18页。密码:32728875
查看文章PubMed/NCBI谷歌学术搜索
3.Hutson M. 人工智能面临可重复性危机。科学。2018;359(6377):725–726.pmid:29449469
查看文章PubMed/NCBI谷歌学术搜索
4.Pineau J, Vincent-Lamarre P, Sinha K, Larivière V, Beygelzimer A, d'Alché Buc F, et al. 提高机器学习研究中的可重复性(来自NeurIPS 2019重现性计划的报告);2020.
5.巴尔巴拉。可重复研究的术语。arXiv预印本arXiv:180203311。2018;.
6.普莱瑟·可重复性与可复制性:一个混乱术语的简史。神经信息学前沿。2018;11:76.密码:29403370
查看文章PubMed/NCBI谷歌学术搜索
7.计算机协会。工件审查和徽章版本 1.1;2020.https://www.acm.org/publications/policies/artifact-review-and-badging-current.
8.布罗曼 K, 切廷卡亚-伦德尔 M, 努斯鲍姆 A, 帕乔雷克 C, 彭 R, 图雷克 D, 等.向资助机构建议支持可重复的研究。在:美国统计协会。第2卷;2017.
9.拉夫·朝着量化独立可重复的机器学习研究迈出了一步。在:神经信息处理系统的进展;2019.第5485–5495页。
查看文章谷歌学术搜索
10.Bizzego A, Bussola N, Chierici M, Maggio V, Francescatto M, Cima L, et al.使用 DAPPER 评估 AI 算法在数字病理学中的可重复性。公共科学图书馆计算生物学。2019;15(3):e1006269.pmid:30917113
查看文章PubMed/NCBI谷歌学术搜索
11.Jansen C,Schilling B,Strohmenger K,Witt M,Annuscheit J,Krefting D.用于病理图像中癌症检测的深度学习应用的可重复性和性能。在:2019年第19届IEEE ACM集群,云和网格计算国际研讨会(CCGRID);2019.第621–630页。
12.Maier-Hein L, Eisenmann M, Reinke A, Onogur S, Stankovic M, Scholz P, et al.为什么生物医学图像分析竞赛的排名应该谨慎解释。自然通讯。2018;9(1):1–13.密码:30523263
查看文章PubMed/NCBI谷歌学术搜索
13.用于数字病理学应用的深度学习算法中的可重复性:使用 CAMELYON16 数据集的案例研究。在:医学成像 2021:数字病理学。卷 11603.国际光学与光子学会;2021. 第 1160318 页。
14.卡梅里昂16.卡梅里昂16挑战赛;2016. 可用自:https://camelyon16.grand-challenge.org.
15.卡梅里昂17.卡梅里昂17挑战背景;2017. 可用自:https://camelyon17.grand-challenge.org/background.
16.Bejnordi BE, Veta M, Van Diest PJ, Van Ginneken B, Karssemeijer N, Litjens G, et al.用于检测乳腺癌女性淋巴结转移的深度学习算法的诊断评估。贾马。2017;318(22):2199–2210.
查看文章谷歌学术搜索
17.Bandi P, Geessink O, Manson Q, Van Dijk M, Balkenhol M, Hermsen M, et al.从检测单个转移到患者水平的淋巴结状态分类:CAMELYON17挑战。IEEE医学成像交易。2018;38(2):550–560.
查看文章谷歌学术搜索
18.王 D, 科斯拉 A, 加尔格亚 R, 伊尔沙德 H, 贝克 AH.用于识别转移性乳腺癌的深度学习。arXiv预印本arXiv:160605718。2016;.
19.患者水平乳腺癌转移的自动分类;2017.
20.卡梅里昂17.卡梅里昂 17 排行榜;2017. 可用自:https://camelyon17.grand-challenge.org/evaluation/challenge/leaderboard/.
21.刘 Y, 加德帕利 K, 诺鲁兹 M, 达尔 GE, 科尔伯格 T, 博伊科 A, 等.在千兆像素病理学图像上检测癌症转移。arXiv预印本arXiv:170302442。2017;.
22.Komura D,Ishikawa S.用于组织病理学图像分析的机器学习方法。计算和结构生物技术期刊。2018;16:34–42.密码:30275936
查看文章PubMed/NCBI谷歌学术搜索
23.邓 J, 董 W, Socher R, 李 LJ, 李 K, Fei-Fei L. Imagenet:一个大规模的分层图像数据库。在:2009年IEEE计算机视觉和模式识别会议。IEEE;2009.第248–255页。
24.Lee S, Oh S, Choi K, Kim SW. 患者水平乳腺癌转移的自动分类.2019;.
25.Gawande A. Checklist 宣言,(HB)。企鹅图书印度;2010.
26.希金斯怀,布尔曼DJ。波音技术期刊 分析检查表与其他流程、方法和工具相结合时的有效性,以降低高危活动中的风险。2016;.
27.Bejnordi BE, Litjens G, Timofeeva N, Otte-H?ller I, Homeyer A, Karssemeijer N, et al.全玻片组织病理学图像的染色特异性标准化。IEEE医学成像交易。2015;35(2):404–415.密码:26353368
查看文章PubMed/NCBI谷歌学术搜索
28.患者水平乳腺癌转移的自动分类;2016.https://camelyon17.grand-challenge.org/evaluation/results/.
29.塞格迪 C, 刘 W, 贾 Y, Sermanet P, Reed S, Anguelov D, et al.更深入地进行卷积。在:IEEE计算机视觉和模式识别会议论文集;2015.第1–9页。
30.Sudharshan PJ,Petitjean C,Spanhol F,Oliveira LE,Heutte L,Honeine P.组织病理学乳腺癌图像分类的多实例学习。具有应用程序的专家系统。2019;117:103–111.
查看文章谷歌学术搜索
31.Bussola N,Marcolini A,Maggio V,Jurman G,Furlanello C.AI滑倒瓷砖:数字病理学中的数据泄漏。在:模式识别国际会议。斯普林格;2021.第167–182页。
32.Rashidi HH,Tran NK,Betts EV,Howell LP,Green R.病理学中的人工智能和机器学习:监督方法的现状。学术病理学。2019;6:2374289519873088.密码:31523704
查看文章PubMed/NCBI谷歌学术搜索