从透射光电影中无监督地发现动态细胞表型状态-核心期刊杂志-厦门论文发表
阮福,钱丽缇,金黛,小雷蒙德·莫纳特 ,帕梅拉·贝克尔 ,郝元奎
出版日期: 2021年12月30日
抽象
识别异质群体中的细胞表型状态,以及阐明其切换动力学,是现代生物学中的核心挑战。传统的单细胞分析方法通常仅提供间接的静态表型读数。另一方面,透射光图像提供直接的形态学读数,并且可以随着时间的推移获得,为动态细胞表型状态识别提供丰富的数据源。在这里,我们描述了一个端到端的深度学习平台UPSIDE(无监督表型状态IDEntification),用于从透射光电影中发现细胞状态及其动力学。UPSIDE使用变分自动编码器架构来学习潜在单元表示,然后将其聚类以进行状态识别,解码以进行特征解释,并跨电影帧链接以进行转换速率推断。使用UPSIDE,我们在异质数据集中确定了不同的血细胞类型。然后,我们分析了患者来源的急性髓系白血病细胞的电影,从中我们确定了干细胞相关的形态状态以及往返这些状态的过渡率。UPSIDE开辟了透射光电影的使用,用于系统地探索生物学和医学中的细胞状态异质性和动力学。
作者简介
人体包含数百种不同的细胞类型,每种细胞类型都有独特的身份和功能。识别这些细胞身份和功能状态是当代生物学中的巨大挑战之一。我们通过开发UPSIDE来应对这一挑战,UPSIDE是一种机器学习方法,用于从时间分辨的活细胞成像数据中发现细胞类型和细胞状态,从而提供丰富详细的信息来源。UPSIDE的主要区别特征包括能够在没有先验知识的情况下直接从明场图像中学习细胞类型定义特征;以及可视化和解释这些机器学习特征的能力,以了解为什么选择它们。UPSIDE可以区分不同的人类血细胞类型,尽管它们在视觉上相似,并且可以使用形态线索来识别和跟踪细胞状态。在一个与疾病相关的例子中,我们使用UPSIDE来鉴定患者来源的急性骨髓性白血病细胞中的干细胞样和更成熟的细胞亚群,并确定这些细胞类型相互转化的速度。UPSDIDE 提供了一种通用工具,用于无偏倚地鉴定和分析异质细胞群中的细胞类型和状态转换。
数字
Fig 4Fig 5Fig 6Fig 1Fig 2Fig 3Fig 4Fig 5Fig 6Fig 1Fig 2Fig 3
引文:Nguyen P,Chien S,Dai J,Monnat RJ Jr,Becker PS,Kueh HY(2021)从透射光电影中无监督地发现动态细胞表型状态。PLoS Comput Biol 17(12):e1009626。https://doi.org/10.1371/journal.pcbi.1009626
编辑 器:James Gallo,布法罗大学 - 纽约州立大学,美国
收到:二月 3, 2021;接受:十一月 9, 2021;发表:十二月 30, 2021
版权所有:? 2021 阮等人。这是一篇根据知识共享署名许可协议条款分发的开放获取文章,该许可证允许在任何媒体上不受限制地使用,分发和复制,前提是注明原始作者和来源。
数据可用性:UPSIDE 管道可在https://github.com/KuehLabUW/UPSIDE。为本研究生成的成像数据可在此处获得生物图像档案:https://www.ebi.ac.uk/biostudies/BioImages/studies/S-BIAD187。
资金:这项研究部分由美国国立卫生研究院(NIH)独立途径奖5R00HL119638(H.Y.K.),NIH / NHLBI拨款R01HL146478(H.Y.K),Tietze基金会干细胞科学家奖(H.Y.K.),NIH / NCI癌症中心支持拨款P30CA015704(H.Y.K.和P.S.B)资助;和NIH / NCI奖P01CA077852(到R.M.资助者在研究设计,数据收集和分析,出版决定或手稿准备方面没有任何作用。
相互竞争的利益:我已阅读该期刊的政策,本手稿的作者有以下竞争利益:P.S.B.获得艾伯维,百时美施贵宝,卡迪夫肿瘤学,辉瑞,SecuraBio,Glycomimetics,Invivoscribe,JW Pharmaceutical,Novartis的研究经费;并且是CVS Caremark的顾问委员会成员。
这是一篇PLOS计算生物学方法论文。
介绍
细胞以动态方式在不同的表型状态之间维持和切换。识别这些状态并理解它们相互转换的基础和动力学是生物学中的核心挑战。现代单细胞分析方法,如单细胞RNA测序和多参数流式细胞术或质量细胞术[1–5],被广泛用于定义异质群体中的细胞状态;虽然功能强大,但这些方法提供了细胞表型的不完整读数,并且通常不报告稳定性或过渡动态。透射光显微镜图像直接揭示了细胞形态,并在历史上形成了从细胞生物学到神经科学等不同领域识别细胞类型和细胞状态的基础[6,7]。然后,这些图像可以在连续的延时间隔和长时间内获得,具有最小的光毒性,并且无需事先标记或遗传操作。由此产生的活细胞电影可以揭示有关这些细胞表型状态动态的其他信息。
传统上,细胞表型是通过对透射光或电子显微图像的视觉检查和解释来鉴定的。然而,现代机器学习的出现正在实现细胞形态的高通量自动分析,并为使用深度学习从这些成像数据集中系统,无偏地提取动态细胞形态状态开辟了可能性[8,9]。然而,目前的工具在执行此类分析的能力方面仍然有限。首先,目前用于细胞图像分析的深度学习管道严重依赖预定知识来生成分类训练数据集,或者依赖于大量启发式公式来捕获细胞形状和形态的多样性[10–13]。当用最少或没有先入为主的信息检查新的生物过程时,如果没有人工干预和特征选择,研究人员可能很难确定重要的标签是什么。其次,当前的机器学习管道生成的特征通常不容易解释。各种无监督方法可以从复杂数据中生成降维表示,包括主成分分析(PCA),对抗性自动编码器[14],生成对抗网络[15,16]和自我监督深度学习方法[9,17]。然而,这些方法在产生可解释的形态特征的能力方面受到限制,这些特征允许进一步研究和理解机器识别的细胞状态。最后,目前的电影分析方法无法以自动化,系统的方式从活细胞电影中推断出状态转换动态[18]。细胞状态转变通常从单个细胞的轨迹中观察到;然而,尽管最近取得了进展[19],但目前的跟踪算法通常仍然需要相当大的参数调整和手动纠错来生成细胞轨迹[20]。
在这里,我们提出了一种端到端的深度学习方法,用于从活细胞的明场电影中阐明细胞表型状态及其动力学。这种方法称为UPSIDE(用于无监督表型状态IDEntization),旨在促进无监督发现细胞表型状态,阐明定义这些状态的形态特征以及状态转换动力学的推断。UPSIDE直接从明场图像中分割细胞,然后利用变分自动编码器架构(VAE)[21]来学习直观的潜在特征,这些特征可以聚类以揭示不同的形态状态,也可以解码以提取人类可解释的含义。为了证明UPSIDE的使用和多功能性,我们首先分析了不同血细胞类型的集合的静态图像,以确定区分这些不同细胞类型的形态特征。然后,我们分析了急性髓系白血病(AML)患者的白血病细胞的实时成像电影,以确定与干性相关的形态学上不同的细胞状态,并确定与这些状态之间的过渡速率。这些结果表明了UPSIDE作为从大型时间分辨成像数据集中无偏向探索细胞状态及其动力学的工具的实用性。
结果
UPSIDE平台的描述
UPSIDE被设计成一个多功能的机器学习管道,用于无监督探索透射光图像中的细胞形态状态,以及随后从电影中阐明它们的过渡动力学(图1A,参见方法部分,了解管道的详细说明)。在该管道中,首先使用卷积神经网络对细胞进行分割,该卷积神经网络将未标记细胞的明场图像转换为用于分割的细胞质的合成荧光图像[22]。该神经网络使用一组细胞质染色的细胞图像进行训练(S1图)。这种方法允许网络自主定制其参数,并适应各种不同的单元类型,以便在没有人为输入的情况下优化性能。死细胞和其他碎片通过卷积分类器从已识别的细胞亚图像中消除,该卷积分类器在手动识别为死亡或存活的同一数据集的细胞上训练(S2图)。
thumbnail 下载:-核心期刊杂志-厦门论文发表
个人电脑幻灯片
巴新放大图片
断续器原始图像
图 1.UPSIDE 工作流程的说明。
(A)单个细胞直接从明场图像和深度学习UNET架构中分离出来,以预测合成荧光图像23.然后对分割的单元格进行预处理以生成单独的蒙版和纹理图像,然后用于同时训练两个变分自动编码器(VAE)。然后,这两个 VAE 学习的形状和纹理编码被连接起来并用于下游数据分析。(B)然后将编码的潜在向量解码为形状和纹理图像,以帮助解释编码的特征。
https://doi.org/10.1371/journal.pcbi.1009626.g001
然后,UPSIDE使用变异自动编码器(VAE)架构学习已识别的活细胞的形态学特征。为了提高UPSIDE对学习真正的细胞状态或细胞类型定义形态特征的敏感性,我们在分析管道中纳入了两个计算程序。首先,我们旋转单元格以垂直对齐其主轴,然后反射它们以确保相同的左右偏斜,以确保单元格编码对旋转和反射变换不变。其次,我们并行训练了两个VAE,一个采用二进制细胞掩码,另一个采用包含细胞纹理特征的归一化灰度图像(参见方法)。我们这样做是为了确保成像细胞的形状和纹理形态特征都充分用于特征编码。然后使用系数Ω对学习的蒙版和纹理编码进行称重,然后串联以进行后续聚类和降维。我们注意到,Ω可以根据应用进行调整,以捕获形状和纹理特征对潜在细胞异质性的相对重要性。
然后使用鲁汶方法[23]对细胞的潜在表示进行聚类,并使用均匀流形和投影算法(UMAP)[24]在2D平面上表示。最后,掩模和纹理矢量通过改变特定特征或特征组的大小进行解码,然后在可观察的图像空间中生成合成图像(图1B)。这种方法允许在视觉上显示潜在特征,以供人工检查和解释。
UPSIDE揭示了异质性血细胞类型之间的形态学特征的区别
我们首先测试了UPSIDE在由多种血细胞类型组成的混合数据集中学习细胞类型定义形态特征的能力。为了测试UPSIDE能力的极限,我们选择了四种细胞类型,尽管它们具有不同的大小,形状和纹理特征,但它们在总体形态上相似(图2A和S3A):小鼠T细胞白血病系(Scid.ADH2),小鼠巨噬细胞系(Raw246.7),人类急性髓系白血病细胞系(Kasumi-1)和原发性患者衍生的人急性髓系白血病干细胞(CD34CD38 AML LSC)。捕获来自每个细胞群的明场图像,并使用上述神经网络对细胞进行分割。然后将分割细胞的图像裁剪混合在一起,并使用UPSIDE的VAE(S4A图)编码到潜伏空间中。为了量化UPSIDE的性能,我们设计了一个细胞类型同质性评分,它反映了相同类型的细胞在其潜在空间中聚集成在一起的紧密程度(参见方法部分)。我们针对Ω的不同值运行此数据集的VAE,以优化学习的掩码和纹理编码的相对权重,以实现四种细胞类型(S5A和S5B图和方法部分)的最大平均同质性得分。该参数指定形状和纹理对表型状态识别的相对重要性,从而提供使UPSIDE适应依赖于不同类型区分特征的细胞类型和问题分析的能力。为了将VAE的性能与其他深度学习方法进行比较,我们用几种替代架构重复了这种分析,例如普通的自动编码器(AE)[25],具有潜在维度编码的对抗性自动编码器,经过训练以拟合正态分布或混合高斯分布[14](分别为1xAAE和4xAAE)和ClusterGAN架构[ 26](ClusGAN)(参见方法部分)。+-
thumbnail 下载:
个人电脑幻灯片
巴新放大图片
断续器原始图像
图 2.UPSIDE区分异质人群中形态学上不同的血细胞类型。
(A)将四种不同血细胞类型的图像混合在一起并通过UPSIDE工作流程。生成的形状和纹理图像用于训练并发 VAE。输出潜在编码相互相对加权,串联,然后使用 UMAP 投影到 2D 平面上。(B) 点图显示了由 UPSIDE 创建的 2D UMAP 空间投影的每种细胞类型的分布。(C) 使用鲁汶聚类算法将VAE生成的编码分组到不同形态聚类中的2D UMAP投影。列出了来自不同簇的代表性明场细胞裁剪图像。比例尺表示5 μ米(D)每个簇内的细胞类型分数组成。对每种细胞类型的固定数量的细胞进行采样,并从该合并群体中计算出簇状细胞类型组成。
https://doi.org/10.1371/journal.pcbi.1009626.g002
VAE优于这些其他方法,与对抗性自动编码器相比,同质性得分高出约6%,与PCA相比高出9%,比ClusterGAN架构高出26%(S5C图)。对抗性自动编码器的性能优于普通编码器,尽管比VAE差,可能是因为在训练鉴别器以将潜在编码完美地适应所需的分布方面存在困难。令人惊讶的是,ClusGAN架构的表现最差,可能是由于无法始终如一地生成直接的、正则化的编码表示。尽管与其他架构相比,VAE具有优异的性能,但其最大同质性得分仍明显低于单位(约0.7,S5C图),表明学习后潜空间中存在一定程度的细胞类型混合。这并不出乎意料,因为某些细胞类型-特别是AML LSC和SCID.adh2C2细胞-在某些情况下看起来视觉相似甚至无法区分,并且无法通过仅从明场图像中观察到的形态特征来区分。尽管如此,这些比较表明,VAE架构特别适合学习细胞类型辨别的形态特征。
为了进一步可视化和分析潜伏空间中细胞的表示,我们使用UMAP算法[24](图2B)将VAE的编码投影到二维空间中。从UMAP投影中,我们发现细胞类型在这个二维空间中在很大程度上隔离成不同的区域(图2B)。Raw264.7巨噬细胞占据的区域与其他三种细胞类型占据的区域有很大不同,反映了它们明显不同的大小和形状分布。其他三种细胞类型占据了部分重叠的区域,反映了这些细胞之间形态的更大相似性(S3A图)。有趣的是,原代人类AML干细胞(由其CD34CD38表面标记表型鉴定)与Scid.ADH2区域的部分重叠,这表明一些Scid.ADH2细胞看起来与AML对应物非常相似。尽管有这些重叠,但这些区域所占据的二维空间中仍有大量区域仅包含一种细胞类型,这表明存在形态特征,这些特征将这三种细胞类型中的每一种细胞类型与另一种细胞类型区分开来,并允许它们在混合群体中被识别。+-
为了理解驱动这个潜伏空间中细胞类型分离的形态特征,我们使用鲁汶方法对潜伏空间中的细胞表示进行聚类,然后可视化细胞和定义每个簇的形态属性。鉴定出八个簇,每个簇富集不同的细胞类型(图2C,2D和S3B)。簇C1-3高度富集Raw264.7巨噬细胞,吞噬细胞大于其祖细胞。簇C4和C8对于Kasumi-1细胞高度富集,这些细胞是含有深色颗粒的圆形轮廓细胞,这是这些细胞的独特可区分,可观察到的特征。C5簇富集用于Scid.ADH2细胞,这些细胞也是圆形的,但缺乏颗粒。簇C6和C7富集LSCs和Scid.ADH2细胞,两者都很小且缺乏颗粒。与C6簇细胞相比,C7簇中的细胞具有更暗的内部和不太明确的细胞边界,这表明它们更平坦,并且可能更具底物粘附性。这些簇内的形态差异表明在单个细胞类型中存在不同的形态亚态。
为了解释和可视化在潜空间中将细胞分成不同组的形态特征,我们对来自不同簇的细胞的平均潜在空间表示进行了分层聚类(图3A)。该分析表明,每个形态学细胞簇都与一组特定的潜伏特征相关联,其数量级高于群体平均值。为了解码这些潜在的特征,我们将它们转换回视觉空间中的合成图像(图3B和3C,顶部)。首先,我们通过对数据集中的所有单元格进行平均来生成平均蒙版或纹理向量。然后,从这些平均向量中,我们有选择地增加感兴趣的特征(或特征组)的大小,以生成新的向量。然后,使用VAE解码器模块,我们将特征夸大的矢量和平均矢量转换为合成图像以进行解释。
thumbnail Download:
PPTPowerPoint slide
巴新放大图片
断续器原始图像
图 3.细胞类型特异性形态特征可以通过解码潜伏空间细胞表征来解释。
(A) 不同细胞簇的潜在形状和纹理特征的平均 z 得分的聚类图(有关如何计算 z 评分值,请参见方法部分)。(B) 对每个形态簇具有最高 z 评分的五个掩模特征进行解码和可视化。插图:聚类图显示数据集中具有最高标准变异的 40 个掩模要素的相关系数矩阵。比例尺表示5 μm.(C)单个纹理特征根据其彼此之间的相关性(插图和聚类图)聚类为八组(T1-T8)。将每组解码为明场差分图像进行解释(参见方法)。比例尺表示 5 μ米。
https://doi.org/10.1371/journal.pcbi.1009626.g003
我们首先检查了每个形态定义星团的五个最丰富的掩模特征的合成解码图像(图3B,底部)。簇C1-4包含具有大圆形轮廓的大型细胞。正如预期的那样,簇C2包含具有许多细长掩模特征的细长细胞。相比之下,簇C5-8包含更小的细胞,这些细胞富含代表小的圆形轮廓细胞形状的特征。这些掩模特征通常与单个簇中发现的细胞的大小和形状一致(图2C)。
与掩码潜在特征不同,潜在空间中的单个纹理特征不容易被此数据集解释。然而,由于沿着单个纹理尺寸的投影大小在不同的组中彼此密切相关(图3C插图)与单个掩模尺寸的投影大小(图3B,插图)相反,图像空间中可观察的纹理特征可能不是由单个潜在特征编码,而是由相关的潜在特征组编码。因此,为了可视化这些可观察的特征,我们通过同时增加相关潜在特征组来生成特征主导的向量。我们还计算了表示特征夸张的解码图像与平均纹理解码图像之间的差异的图像,以获得更好的可视化效果。从这些合成的差异图像中,我们观察到两个整体纹理图案组:一个具有较暗的细胞内部(T3,T6),表明形态更平坦;另一个具有较轻的细胞边缘(T1,T2,T4,T5),表明形态不太平坦(图3C)。较暗的单元内部特征组在簇 C7 和 C8 中强烈富集,而较浅的单元边缘组在聚类 C1 和 C3 中显著存在。集群 C2、C4、C5 和 C6 似乎在所有这些群体中均具有中等富集。
综上所述,这些结果揭示了UPSIDE如何通过大小,形状和独特的纹理特征将细胞分成不同的形态簇。这种能力可以在聚类C3和C4中轻松看到,其中可以根据其细胞边缘纹理特征来区分相似大小和轮廓的细胞。具有相似纹理特征的细胞也可以使用其他特征进行区分,例如,卡斯特C7和C8都富含深色细胞内部纹理,但与簇C7细胞的平均大小不同于聚类C8中的细胞。这些结果表明,UPSIDE可以以无监督的方式产生有意义的学习形态特征,并且这些特征可以有效地解码为图像以帮助可解释性。这种能力使UPSIDE能够通过简单地观察细胞随时间推移来提取有价值的形态特性,而无需事先操作或人为注释。
UPSIDE揭示了患者来源的白血病细胞中形态学上不同的细胞状态
LSC在AML疾病传播和耐药性中起着关键作用[27,28]。LSC和其他AML细胞亚群通常通过颗粒含量和细胞表面标记物的细胞染色的组合以及它们的基因表达特征来识别和表征[29,30]。所有这些分类方法都可以通过透射光成像和分析进一步扩展,以提供有关白血病细胞类型和状态的补充信息,这些信息不容易通过更传统的分类方法获得。特别是,随着时间的推移和响应药物治疗而解决表型状态的活细胞电影可以为细胞异质性和反应提供独特的见解,从而更好地为治疗决策提供信息。
为此,我们利用UPSIDE来分析在细胞因子条件下培养的促进扩增和分化的原代人LSCs,并使用明场成像进行拍摄(图4A,左)。我们直接从一名成年AML患者中分离出CD34CD38白血病干细胞[27,31,32]。该人群与化疗耐药性和持续性疾病有关+-32,并可能作为耐药细胞的储库,为化疗后复发提供燃料。为了分析这些分选细胞的自我更新和分化动态,我们随后用IL-6和血小板生成素(TPO)培养LSCs以诱导分化,或用芳烃受体抑制剂(AhRi)UM729和SR1培养LSCs以维持干度并抑制分化[33–35]。然后,我们以高时间分辨率在明场通道中拍摄这些细胞约4天(3分钟间隔,图4A)。为了确定观察到的细胞形态状态,干性和分化之间的关系,我们还在培养物中添加了荧光标记的抗CD34和抗CD38抗体,并每小时拍摄荧光图像以跟踪这些标记物在成像细胞中的表达(图4A,右上)。这种原位抗体标记允许实时可视化细胞表面标记蛋白表达,对细胞活力的影响最小[36]。UPSIDE非常适合促进这些类型的时间过程分析和基于图像的分析:明场成像的使用消除了对荧光报告基因工程的需求,从而允许对初级患者来源的细胞样品进行更广泛的分析。它还将细胞光毒性降至最低,从而能够以高时间分辨率进行长期细胞观察。
thumbnail 下载:
个人电脑幻灯片
巴新放大图片
断续器原始图像
图 4.UPSIDE从患者来源的AML白血病细胞中识别干细胞相关的形态状态。
(A)来自急性髓系白血病患者的LSCs(CD34CD38)在有或没有AhR抑制剂(UM729和StemRegnin1)的细胞因子中培养约5天(左)。每3-5分钟拍摄一次明场图像。原位加入αCD34-APC和αCD38-PE抗体,每小时采集一次荧光图像(右上)。静止帧显示AML细胞的代表性延时图像(右下角)。比例尺表示 10 μm.(B) UMAP 2D 投影的 UPSIDE 生成的潜在空间像元表示。使用鲁汶聚类算法识别单个形态簇,然后根据它们在潜伏空间中彼此之间的接近度手动分组(见S6B图)。还显示了来自每个簇的代表性细胞图像。比例尺表示 10 μm.(C) Clustergram 显示每个形态簇的潜在掩码和纹理编码的 Z 评分。(D)每种形态状态下四个最丰富的特征的解码图像。纹理特征使用在解码单元格周围放大的差异贴图进行可视化。(E) 计算每个像元的面积、偏心率和边缘强度,并将其映射到 UMAP 潜空间表示。(F) CD34和CD38水平被映射到UMAP上。(G)小提琴图显示了CD34和CD38表达水平在不同形态簇中的分布(左)。(H)直方图显示每个形态簇的CD34水平与CD38水平的对比(右图)。+-
https://doi.org/10.1371/journal.pcbi.1009626.g004
由此产生的延时图像揭示了观察到的细胞形态的相当大的异质性,这些细胞的大小,形状和纹理不同,正如它们与透射光图像的对比所观察到的那样(图4A,右;S1电影)。为了更好地理解这种形态异质性,我们将这些图像输入到UPSIDE管道中。为了最大限度地减少批量效应,我们在一次编码运行中分析了所有时间点的细胞,包括使用和不使用AhRi处理的细胞。我们分割了细胞,然后使用UPSIDE的单独形状和纹理VAE(S4B图)进行编码。然后,我们使用鲁汶方法(S6图)对潜伏空间中细胞的聚类表示进行聚类。基于潜在空间中的接近度,我们进一步将我们获得的一些聚类组合成更大的聚类。为了在二维空间中可视化这些聚类,我们使用均匀流形近似和投影算法(UMAP)将这些潜在表示投影到二维平面上。此投影揭示了离散聚类的位置及其重叠区域。在这种二维可视化中,一些细胞簇显示出与其他细胞簇相当大的边界重叠,反映了VAE编码的潜在特征的连续性。此外,成像的细胞在有或没有AhRi处理的情况下占据了所有簇(S7图),尽管这些群体中细胞的分布在两种条件之间有所不同,可能反映了AhRi处理对细胞状态的结果。
为了深入了解驱动细胞编码分离成不同簇的特征,我们对每组的平均细胞编码进行了分层聚类(图4C),然后解码了每组中z得分最高的特定掩码或纹理特征,以生成特征夸张的合成图像,如上所述(图3B和3C).这些合成图像突出了重要的形态特征,这些特征在簇内的细胞之间显示相干性,但在不同簇中的细胞之间有所不同(图4D和S7和S8)。相干形态特征的例子包括大小,一些具有较小的细胞(簇C1,C2),而另一些具有较大的细胞(簇C6,C7,C8);细胞伸长率或偏心率,一些簇显示更圆的细胞图谱(簇C1,C8),而另一些簇具有更细长的细胞(簇C2和C7);以及更精细的形态特征的存在,例如来自细胞体的细胞质突起(簇C6和C7)。另一个重要的形态学特征是从明场图像中观察到的细胞边缘的对比度,这表明细胞在其培养表面上的扁平化程度。一些簇的边缘(C1,C2和C6)具有较弱对比度的细胞,表明扁平的形态,而其他簇的细胞具有更强的边缘对比度(C3,C8),与更圆,更不扁平的外观一致(S7图)。总之,这些结果揭示了在不同形态状态下发现的细胞的独特,定义的形态特征。
为了验证解码特征中的这些差异确实反映了不同簇中细胞之间的系统形态差异,我们计算了细胞面积,偏心率和边缘强度 - 由细胞梯度图像的最大值定义 - 然后将这些量绘制到潜在空间的2D投影上(图4E).事实上,不同细胞簇占据的区域具有面积,偏心率和边缘强度值与解码的细胞图像中通常观察到的一致:簇C1-3位于具有小细胞区域的区域,而簇C6,C7和C8位于具有较大细胞区域的区域。簇C2和C7中的细长细胞驻留在具有高偏心率的区域,而簇C3和C4中具有较暗细胞边缘的细胞驻留在具有高边缘强度的区域。总之,这项分析表明,UPSIDE可以阐明细胞的定义形状和纹理特征,这些特征可以在人群中变化。
不同的形态状态与不同程度的干性相关-核心期刊杂志-厦门论文发表
上述不同形态状态下的细胞可能表现出不同程度的AML细胞干或分化。为了验证这个想法,我们研究了这些形态状态与CD34和CD38表达水平之间的关系,它们共同决定了这些细胞的干性。为此,量化了每个细胞的CD34和CD38表达水平,并将它们映射到AML细胞学习潜伏维度的2D投影上(图4F和4H)。我们还在对数-对数轴上生成了这些标记的2D热图,既适用于单个簇内的细胞,也适用于所有细胞(图4H,右;和S8B图,左)。从这项分析中,我们确定了干细胞状态(CD34CD38)或更成熟状态(CD34CD38)的细胞富集的形态簇。具体而言,形态簇C1和C2富集为干细胞群(CD34CD38)。这些簇中的细胞在圆度上有所不同,但均匀地小,与干细胞的静止性质一致。值得注意的是,这些细胞在2D培养表面上也是平坦的,可能反映了造血干细胞中细胞粘附蛋白的高表达水平[37]。相比之下,形态簇C6,C7和C8对于成熟细胞群(CD34CD38)最丰富。这些细胞均匀地较大,与分化程度更高的细胞的较大尺寸一致,但具有不同的形状和平坦度。形状和底物粘附的这种多样性可能反映了在这些体外分化条件下可能出现的多种分化细胞类型。一致地,当我们门控处于干态(CD34CD38)或成熟状态(CD34CD38)的细胞并分析它们的形态簇组成时,我们发现与成熟状态(CD34CD38)相比,更不成熟的(CD34CD38)细胞群具有更高的C1和C2细胞分数,但较低的C6,C7和C8细胞级分(S8B图,右)。总之,该分析揭示了与AML中不同程度的干性或成熟度相关的不同形态特征。+--++--++--++--+
细胞形态状态的群体动态
为了深入了解处于不同形态状态的细胞的群体动态,我们研究了不同簇中的细胞数量如何随时间进化,无论是否抑制与AhR抑制剂(AhRi;图5A和S9A)。在没有AhRi的情况下,为干细胞状态富集的细胞簇(簇C1和C2)逐渐耗尽,而那些富集为更成熟的细胞(簇C8)的细胞簇扩增,与LSC随着时间的推移成熟为更多分化的细胞一致。正如预期的那样,AhRi处理相对于未处理的条件增加了干细胞富集(C1和C2)簇的大小,同时减小了成熟细胞富集的簇的大小(簇8)。这反映了AhRi在维持干细胞自我更新方面的已知作用。无论AhRi是否存在,处于中间形态状态(簇C3-7)的细胞部分都基本保持不变,这表明AhR抑制可能会影响中间状态的转变而不会驱动特定结果。同时,CD34水平下降,而CD38水平随着时间的推移而增加,随着AhRi的加入,这些变化变得不那么明显(图5B和S9B)。总之,这些结果为LSC自我更新和分化的群体动力学提供了见解,以及这些动态如何受到调节自我更新的药理化合物的影响。
thumbnail 下载:
个人电脑幻灯片
巴新放大图片
断续器原始图像
图 5.已识别形态状态的种群动态。
(A)具有(右)或不具有(左)AhR抑制剂(上图)的每个形态簇的群体分数随时间变化的动态。每个聚类在文化的最后一个时间点之间的人口分数贡献(底部)。使用卡方检验对具有和不使用AhR抑制剂的群体分数进行比较,以评估AhRi处理与细胞簇身份之间的依赖性。**: p < 0.001, *: p <0.05 (B) UMAP 在存在或不存在 AhRi 的情况下,显示不同时间点的 CD34 和 CD38 表达水平。
https://doi.org/10.1371/journal.pcbi.1009626.g005
平行实验用于进一步探索反映LSCs成熟的形态变化。我们与活体成像实验同时培养LSCs(CD34CD38),并在三天后分析它们表达CD34,CD38和CD123,另一种常见的LSC标志物[38](S9C图)。与未处理的样品相比,用AhRi处理的细胞显示出更高的CD34和CD123表达。另一方面,在未经处理的样本中,CD38表达幅度较高,表明该群体的分化更大。值得注意的是,一群细胞同时表达CD38和CD34;该结果表明,这些标记的表达可能不是相互排斥的。AhRi处理的细胞的平行活体成像实验显示,与未处理的对应物相比,大圆形细胞形态簇的扩增速度较慢(图5A和S9A)。总之,这些结果表明,使用UPSIDE识别的不同细胞形态状态确实反映了处于不同成熟状态的白血病细胞。+-
通过细胞连锁分析推断形态状态转变
上面分析的明场电影的高时间分辨率使得能够从帧到帧跟踪单个细胞,并与UPSIDE一起推断白血病细胞在不同形态状态之间过渡的速率。值得注意的是,这种分析可以在不产生长细胞轨迹的情况下推断速率,由于所研究的AML细胞的快速细胞运动,这尤其具有挑战性。在这里,我们开发了一个分析例程,以自动推断明场电影的转换率。特别是,这种支持UPSIDE的分析消除了生成单个细胞轨迹的需要,这些轨迹通常容易出错,并且需要大量的手动干预。我们根据相邻帧的接近度将相邻帧中的单元格配对在一起。然后,我们使用上面的VAE确定了链接细胞对的形态状态(参见方法部分),并根据具有特定初始和最终形态状态的连锁细胞对的频率计算状态转换概率(图6A)。通过对所有可能的形态状态对重复计算,我们得到了一个矩阵,描述了不同形态状态之间的转移概率(图6B,左)。
thumbnail 下载:
个人电脑幻灯片
巴新放大图片
断续器原始图像
图 6.通过细胞连锁分析计算形态状态转移概率。
(A)在连续时间点上发现的靠近的细胞对是链接的(左)。细胞连锁以及链接细胞的指定形态状态用于计算所有状态之间的转移概率。(B)热图显示所有形态聚类之间的转移概率矩阵(左);图像蒙太奇显示了从培养物中识别出的代表性细胞轨迹(右图)。比例尺表示10 μ m.(C)每个形态簇的连接细胞的细胞速度分布。(D)图显示了每个形态簇的平均细胞速度与平均细胞偏心率的关系。
https://doi.org/10.1371/journal.pcbi.1009626.g006
该分析表明,细胞在很大程度上以高度动态和可逆的方式在不同形态状态之间过渡,但表现出反映潜在长期分化趋势的状态过渡偏好。过渡概率通常在~0.05到0.5(/3分钟帧)之间(S1表),这意味着过渡时间尺度为数十分钟或更短。然而,这些概率并不均匀,但对于特定的跃迁却更高,使得处于不同状态的细胞数量随时间逐渐变化。具体来说,处于最不成熟状态(C1和C2)的细胞,如CD34和CD38表达所定义(见上文),倾向于在这些状态内相互转换,或者优先切换到一些更中间的状态(C5和C6)。相比之下,处于更中间状态(C3,C4和C5)的细胞倾向于切换到更成熟的状态之一(C6,C7和C8),尽管它们也以较低的概率转换回未成熟状态(例如C3→C1;C5 → C2)。有趣的是,中间状态似乎以更动态的方式相互转换,使得这些中间状态随着时间的推移保持相同状态的概率低于未成熟(C1和C2)或更成熟(C6,C7和C8)状态的概率。最后,具有最成熟状态(C6,C7和C8)的细胞倾向于保持在这些状态内,并且与其他细胞群相比,更稳定地维持这些状态。当在潜在空间的UMAP投影上使用平均矢量场可视化过渡时,观察到类似的成熟轨迹(S10C图)。这些向量场从最不成熟的状态(C1和C2)发出,流经中间状态(C3-C5),然后收敛于最成熟的状态(C6-C8)。此外,这些向量流的大小在未成熟和中间状态(例如C1,C3和C4)中较高,但对于成熟状态(C6和C8)较低,这与在过渡矩阵中观察到的这些状态的稳定性一致。在跟踪单个细胞时,也直接观察到轨迹稳定性的差异;成熟细胞(从状态C7和C8开始的细胞)倾向于保持相同的状态(图6B右侧,轨道1和4),而更多的未成熟细胞(C1,C3和C5)是高度动态的,在连续帧之间从一种状态快速切换到另一种状态(图6B,轨道2和3)。总之,这些数据表明细胞在交替形态状态之间快速且可逆地过渡,但以偏倚的方式进行,使得它们从更多的干细胞相关状态(C1和C2)发展到更成熟的细胞状态(C8)。
这些动态形态态转变的基础是什么?我们拍摄的AML细胞在培养表面上快速移动(S1电影),并在移动时极化;因此,一些观察到的形态状态转变可以反映从静止状态到运动状态的转变。为了验证这一假设,我们通过计算每种状态的连续帧之间的位移,推导出了不同形态状态下细胞的瞬时速度(图6C)。从这项分析中,我们发现具有细长形态的细胞,例如处于C2,C4,C5和C7状态的细胞,与其他状态相比显示出更高的运动速度。一致地,瞬时速度和细胞偏心率之间存在很强的相关性,平均了单个簇中所有细胞(图6D)。因此,尽管形态转变概率因分化而存在偏差,但转变本身涉及静止状态和移动状态之间的快速切换(图6B,左,轨道2-3)。
如果上面计算的形态状态转移概率偏向于细胞分化的方向性,那么当细胞受到调节干细胞分化和自我更新的扰动时,它们就会发生变化。为了测试是否属于这种情况,我们对用AhR分化抑制剂处理的细胞重复了这种状态转变分析(S10A图和S1表)。在AhRi存在的情况下,向分化程度更高的状态(C6,C7和C8)的过渡概率降低,同时进入中间细胞状态(C3,C4和C5)的过渡概率增加。这表明AhRi通过将细胞停滞在中间状态来阻止从干细胞相关形态状态到与成熟细胞相关的形态状态的运动。一致地,单细胞跟踪分析表明,在没有AhRi的情况下,细胞通常从中间状态(C5)迅速过渡到更成熟的状态(C8),但是当AhRi存在时,细胞会停滞在中间状态(C5)(S10B图)。因此,这些观察表明,细胞分化动力学的变化可以影响细胞在不同形态状态之间转变的概率。
讨论
在这项研究中,我们开发了一个深度学习平台UPSIDE,用于无监督探索透射光电影中的动态细胞形态状态。使用UPSIDE,我们在异质性血细胞类型集合中鉴定了可区分的细胞形态特征和状态。我们发现,UPSIDE VAE学习架构在识别每种细胞类型中独特的形态特征方面优于其他可比较的方法。我们通过揭示原发性人AML患者来源的白血病细胞的形态状态进一步证明了我们方法的实用性,这些细胞显示出不同程度的干性,分化和细胞迁移性。最后,UPSIDE解决了潜在特征可解释性的问题,这是分析深度卷积网络最具挑战性的方面之一,可以更直观地洞察学习的潜在形态特征。
UPSIDE将能够在单细胞水平上分析AML白血病干细胞对化疗的动态反应。AML耐药性带来了重大的临床挑战,因为大多数患者最终发展为复发性疾病。越来越多的证据表明,AML中的白血病干细胞群构成了耐药亚群,这些亚群在药物治疗中幸存下来并最终导致复发性疾病[28,39]。许多研究已经在单细胞水平上分析了这些干细胞群的基因组和转录组学特征[40,41],然而,连续监测单细胞分化和耐药性动态的单细胞分析方法可以产生从这些快照测量中不容易获得的额外信息。为此,可以通过明场延时成像捕获数百个药物治疗或方案时间过程的大规模筛选[42,43]。然后,UPSIDE可以用作一种无偏的方法,以调查和指定与治疗反应,持久性或耐药性相关的重要形态特征,作为细胞类型,细胞状态和治疗的函数。
更一般地说,UPSIDE具有许多优点,有助于从未标记细胞的显微镜电影中无偏倚地探索和发现动态细胞表型。由于UPSIDE不需要基因标记,识别或跟踪细胞,因此它可以很容易地应用于各种细胞类型,包括原代细胞和患者样本。此外,透射成像的光毒性降低,允许长时间进行高时间分辨率成像,允许在很宽的时间尺度上分析动态过渡。最后,UPSIDE的无监督性质使其特别适合在没有事先特征选择或基础生物学知识的情况下分析新系统,因为VAE架构能够自学区分特征。将来,UPSIDE与基于图像的细胞分选技术(例如[44])的整合将允许分离具有明确形态特征的细胞进行下游分析,从而为询问不同表型状态的分子基础打开了大门。
方法
道德声明
人类血液和骨髓样本是通过华盛顿大学/弗雷德哈钦森癌症研究中心癌症联盟机构审查委员会批准的协议的书面知情同意获得的。这些样本在实验室中去除了识别。
实验技术
细胞系。
将Kasumi-1,Scid.ADH2和RAW246.7细胞系培养在37°C和5%CO下培养Eagle的最小必需培养基(DMEM),不含10%胎牛血清(FBS)的酚红,青霉素链霉素 - 谷氨酰胺(Gibco 10378016)2(ThermoFisher)在成像前2天。对于5个细胞类型成像实验,将每个细胞系在同一96孔玻璃底板的单独孔中成像。AML211 CD34CD38亚群在"分化培养基条件"下培养2天,然后与细胞系同时成像。+-
患者来源的白血病细胞培养。
原发性急性髓系白血病样本(AML211)由Pamela Becker实验室提供。该研究是在机构审查委员会Fred Hutchinson癌症研究中心的批准下进行的。这些样本是从AML患者那里获得的,并附有书面的知情同意书。
冷冻保存的AML细胞在"长期骨髓(LTBM)培养基"[Iscove的改良Dulbecco培养基(IMDM)与谷氨酰胺和HEPES(Mediatech.)中解冻。Inc, Manassas, VA),15%胎牛血清(HyClone,Logan,UT),15%马血清(VWR),50μMβ-巯基乙醇(Sigma),0.043%单硫基甘油(Sigma)],洗涤两次以除去DMSO,然后在LTBM中培养50U / ml DNase以分解和游离活细胞,如果块在37°C和5%CO下存在21小时。然后将细胞在LTBM中用10ng / ml重组人干细胞因子(SCF)在37°C下培养2天。对于细胞分选和流式细胞术分析,细胞接受了淋巴细胞分离培养基(Mediatech.Inc, Manassas, VA)去除死细胞,并用CD34(ThermoFisher 17-0349-42),CD38(ThermoFisher 12-0388-41)和CD45(VWR 10758-692)染色,用于流式细胞术分析和FACS Aria(BD生物科学,加利福尼亚州圣何塞)的分选。
将AML211样品中分选的CD45CD34CD38亚群培养在"分化培养基条件"(改编自(Klco等人,2013))中培养,该条件由Eagle的最小必需培养基(DMEM),不含10%FBS的无酚红,青霉素 - 链霉素 - 谷氨酰胺(Gibco 10378016),100ng / ml重组小鼠SCF(Prepotech 250-03),50μMβ-巯基乙醇(Sigma M6250),10 ng / ml重组人IL-3(Prepotech 200-03),20ng / ml重组人IL-6(Prepotech 200-06), 10 ng / ml重组人TPO(Prepotech 300-18),10ng / ml重组人Flt3-Ligand(Prepotech 300-19)或"维持培养基条件"(改编自(Pabst等人,2014)),其包含极少量必需培养基(DMEM),不含苯酚红的10%FBS,青霉素 - 链霉素 - 谷氨酰胺(Gibco 10378016),100ng / ml重组小鼠SCF(Prepotech 250-03),50μMβ-巯基乙醇(Sigma M6250),20ng / ml重组人IL-3(Prepotech 200-03),),50 ng / ml重组人Flt3-配体(Prepotech 300-19),1μM UM729(STEMCELL Technologies 72332)和500 nM StemRegenin-1(STEMCELL Technologies 72342)。将细胞在玻璃底(Mattek)96孔培养板的处理过的聚苯乙烯(康宁)上培养,该板用33.33μg/ ml Retronectin(Takara T202)涂覆过夜。++-
对于成像分化测定,将CD34人单克隆抗体(4H11),APC(eBioscience 17-0349-42)和CD38人源单克隆抗体(HB7),PE(eBioscience 12-0388-41)加入培养基中。用明场每3-5分钟对细胞进行成像,用荧光灯照相60分钟,持续4天。我们注意到图像通道中存在低水平的荧光信号,从而导致这些细胞中的背景水平为非零。
图像采集。
在倒置显微镜平台徕卡DMi8(徕卡显微系统)上进行延时成像。所有图像采集均使用40X空气物镜进行。使用激光二极管照明器LDI(89 North)捕获荧光图像。
图像分析
UPSIDE计算管道旨在从延时明场图像中分析细胞的形态多样性。该方法由四个主要模块组成:1)无标签预测,2)图像分割,3)活细胞分类,以及4)无监督特征学习。以下部分进一步详细地介绍了每个模块。
无标记成像和图像分割。-核心期刊杂志-厦门论文发表
UPSIDE利用无标记成像方法从明场(BF)图像中识别细胞。在这里,我们采用了Ounkomol及其同事[22]描述的基于U-net的深度学习技术,从捕获的BF图像中预测细胞质的荧光图像。为了完成这个任务,我们分析了~103用CellTrace紫罗兰细胞增殖染料(ThermoFisher C34557)染色的细胞以标记其细胞质。该细胞数足以在细胞预测中实现最大性能,这是通过使用不同细胞数的训练运行确定的(S1C图)。通过捕获大约300-400张BF图像及其相应的细胞质荧光图像来获得训练数据。然后将这些数据用于训练预测细胞质的模型。这两个模型随后用于预测主延时明场图像堆栈的荧光图像。使用ictrack软件对预测的细胞质图像进行对象分割[20]。为了证明该软件的性能,我们通过ictrack对约1000个分割对象进行了采样,并通过将这些分割的物体与预测的荧光图像进行比较作为参考来手动评估其分割精度。根据其预测的荧光信号正确识别的物体被认为是正确分割的,而那些过度分割或分割不足的物体被认为是不正确的分割。我们注意到,很大一部分不正确分割的物体(7%)对应于死细胞或细胞聚集体,然后在随后的活死分类步骤中将其删除(S2B图)。
活细胞分类。
然后通过分类器喂入鉴定出的细胞作物,将活细胞与死细胞和其他碎片分开,以便通过UPSIDE进行分析。我们执行了这个额外的分类步骤,因为死细胞和其他非细胞物体在形状、大小和质地方面存在变化(S2B图),这可能会影响活细胞形态特征的编码。尽管存在这些担忧,但我们发现UPSIDE聚类的结果并未受到一小部分(7%)死细胞(S2C和S2D图)存在的显着影响。
我们为这个分类任务构建了一个卷积神经网络(S11图):
为了获得该网络的训练数据,大约10000个明场细胞作物被手动注释为"活的"或"死的"。该网络经过了大约10,000步的训练,并用Adam优化器计算了交叉熵损失46用于权重和偏差学习:
(1)
其中f(X)是给定细胞作物X的预测类,y是其正确的标签。然后将剩余的已鉴定细胞作物喂入经过训练的分类模型。被归类为"死亡"的作物被丢弃,"活"作物被用于进一步分析。
无监督特征学习。
UPSIDE中的形态学特征学习依赖于变分自动编码器架构(VAE)[21]来执行特征提取。使用两个信息片段来训练VAE:1)细胞的整体形状和2)边界掩码内的细胞纹理。预测的细胞追踪细胞紫罗兰色信号用于生成细胞形状裁剪。执行以下图像预处理步骤以最大限度地减少细胞作物之间的微不足道的变化:
对象重新居中
对象旋转方向为 90o.然后,所有细胞裁剪图像都会相应地重新缩放,以消除由于旋转而导致的图像尺寸膨胀。
对象的垂直和水平像素密度分别重新定向到顶部和右侧
为了获得纹理表示,将单元蒙版内的明场像素值分布比例调整为零均值和单位变化。然后,它们被线性缩放为0和1之间,以方便使用VAE学习。边界外的所有像素值都设置为 0.5。
使用形状和纹理的预处理图像裁剪来训练两个单独的VAE。整体架构如下所述(S12图)。
VAE 的损失函数是重建损失和 Kullback-Leibler 背离损失之间的加权组合:
(2)
其中 A 是常量,并且γ在 0 和 1 之间变化。如前所述[21],γ的最佳值是通过测试不同的值来确定的,并手动检查生成的解码图像以确定输出图像相对于其原始图像的准确性和多样性。此外
(3)
(4)
用于细胞形状特征提取的 VAE 首先训练了约 100000 步,而用于纹理特征提取的 VAE 首先训练了约 200000 步。然后使用经过训练的细胞形状提取的权重和偏差将电影中获得的所有细胞作物编码为100个元素载体。这些矢量使用 UMAP [ 24 ] 投影到2D平面上。具有缺陷形状的细胞作物使用ictrack中的细胞术2功能门控。然后将剩余的作物用于分别训练VAE的细胞形状和纹理。之后,将细胞裁剪编码为 100 个元素的形状向量和 100 个元素的纹理向量。每个细胞作物的潜在向量由形状和纹理贡献之间的加权串联表示:
(5)
然后使用鲁汶聚类算法对细胞作物的编码潜伏维进行聚类。
为了生成合成图像,编码的单元格条形码和算术变化被视为z并直接输入解码器。
可比较的深度学习架构。
除了利用变分自动编码器架构来学习成像数据集中的潜在维度之外,我们还测试了其他一些深度学习架构,以将其性能与我们当前的方法进行比较:
普通自动编码器 (AE) [25]
在此体系结构中,每个处理过的形状或纹理都通过一系列卷积层和完全连接的神经网络层馈送,以生成维度为 100 的潜在向量。神经网络层的组织如下(S13图)。
AE 的损失函数为:
(6)
用于细胞形状特征提取的AE首先训练了约100000步,而用于纹理特征提取的AE首先训练了约200000步。每个细胞作物的潜在向量由形状和纹理贡献之间的加权串联表示:
(7)
对抗式自动编码器[14]
在此体系结构中,每个处理过的形状或纹理都通过一系列卷积层和完全连接的神经网络层馈送,以生成维度为 100 的潜在向量。然后使用鉴别器将潜在维数正则化,该鉴别器将维数空间强制为单位高斯分布(1x AAE)或四个混合高斯分布(4x AAE)。神经网络层的组织如下(S14图)。
VAE 的损失函数包括:
(8)
(9)
其中z真正是从正态高斯分布 (1X AAE) 或混合 4 高斯分布采样的 100 个元素向量,每个高斯的平均值为 -1、-0.5、0.5 和 0.5,标准差为 1 (4X AAE)。
用于细胞形状特征提取的AAE首先训练了约100000步,而用于纹理特征提取的AAE首先训练了约200000步。每个细胞作物的潜在向量由形状和纹理贡献之间的加权串联表示:
(10)
集群甘[26]
此体系结构携带一个编码器,该编码器将生成的图像转换为潜在维度,然后强制匹配最初用于制作图像的相同起始潜在代码。这是一个半监督架构,需要事先预先确定特定数量的类。为了将其转换为无监督方法,我们删除了类模块,使GAN能够从正态分布中提取数据,而无需one-hot类向量输入。生成器,编码器和鉴别器的神经网络组织如下(S15图)。
用于训练的损失函数在前面已经描述过[26]。我们将细胞裁剪输入到ClusterGAN的编码器模块中,以生成潜在维度,以便与其他架构进行比较分析。
首先训练了~100000步的细胞形状特征提取,而纹理特征提取首先训练了~200000步。每个细胞作物的潜在向量由形状和纹理贡献之间的加权串联表示:
(11)
算法和定量分析
邻居相似性评分。
制定该指标是为了估计四种细胞类型的编码空间中每种细胞类型的分组的同质性程度。具体而言,邻域相似度得分HC对于给定的单元格,类型 C的定义如下:
(12)
其中E(·) 表示期望值,或像元类型C内所有像元的平均值,N指定与给定像元最接近的预定数量的最近像元。我们注意到,N值的变化不会显着影响评分HC (S5D 图)。此外,对于每个相邻的像元i, n我= 0 如果i的恒等式是C,并且n我否则 = 0。
潜在维度 z 得分计算。
Z 得分Zf,c聚类C的特定特征f定义为聚类C中该特征的值的平均值与完整数据集的值之间的折线差:
(13)
在这里,μf,C是聚类C中所有像元的特征 f 的平均值,μf、σf是数据集上特征f的均值和标准差。-核心期刊杂志-厦门论文发表
成对细胞追踪算法。
构建成对单元跟踪算法是为了确保给定的成对单元从一帧到另一帧的链接的有效性。为了实现这一目标,我们对给定的细胞对被认为是"有效的"制定了严格的要求。具体而言,有关帧 t 中所有单元格的链接算法如下所示:
这里, Nt表示帧t中所有检测到的单元格的集合;d(a,b)表示单元格a和b之间的欧几里得距离,并表示帧t?1中单元格a到帧t中所有单元格之间的一组欧几里得距离。D0是给定像元与同一帧中其他像元之间的最小距离,以便将此像元考虑用于链接分析。可以通过计算数据集中所有像元之间的平均距离并将值设置为D来轻松设置它0大于此平均值。参数D1表示潜在配对像元与初始像元之间可以远离的最大距离。通过手动检查细胞运动可以很容易地确定:通过手动检查电影中细胞之间的行进距离,用户可以期望细胞在相邻时间点之间可以合理地行进多远。
细胞簇之间的转换概率。
为了估计已识别的形态簇随时间变化的过渡动态,我们确定单元格X从时间 t 的簇i过渡到时间t +1 时一组簇k∈C中的另一个簇j的概率,如下所示:
(14)
其中f伊杰是从聚类i到聚类j的转换次数。
支持信息
使用 UNET 架构进行可靠的无标记细胞预测。
显示 1/17: pcbi.1009626.s001.tif
跳到无花果共享导航
https://ndownloader.figstatic.com/files/32407424/preview/32407424/preview.jpg
1 / 17
下载
无花果共享
S1 图使用 UNET 架构进行可靠的无标记细胞预测。
(A)来自细胞类型数据集(上图)和急性髓系白血病数据集(下图)的明场图像训练的模型的样本图像。比例尺表示20 μ米(B)皮尔逊相关系数,用于测量地面真实荧光图像和预测合成图像之间的相关性。星号 (*) 表示每个数据集的模型性能的理论上限。这样的模型可以完美地预测每个细胞的荧光水平,但无法预测仪器产生的荧光噪声。(请参阅21详细方法)。(C) Pearson 相关系数,用于使用不同细胞数进行训练的无标记预测。(D)ictrack软件(左)和样品分割物体的分割性能及其明场和预测的荧光图像(右)。比例尺表示 5 μ米。
https://doi.org/10.1371/journal.pcbi.1009626.s001
(TIF)
S2 图卷积单元分类器经过训练以从数据集中删除死单元格。
所选细胞的明场作物使用卷积分类器分类为"活"或"死",该卷积分类器经过训练,可使用手动标记的数据集识别死细胞。(A)分类为"活"或"死"的代表性细胞作物。比例尺表示10 μ米(B)接收器工作特性(ROC)曲线,用于测量经过训练的分类器的预测性能。AUC:曲线下的面积。(C)从约1000个分割对象中正确分类的活细胞的比例。(D)UMAP图显示了细胞群潜伏编码的聚类(顶部),其中100%确认的活细胞,97%确认的活细胞和100%确认的活细胞具有未学习的变异自动编码器,其中神经元层的权重具有随机权重。还显示了来自每个已识别簇的样本细胞图像(底部)。
https://doi.org/10.1371/journal.pcbi.1009626.s002
(TIF)
S3 图UPSIDE分析的四种血细胞类型的图像。
(A)来自四种血细胞类型Raw264.7,Kasumi-1,Scid-ADH2和AML LSC的代表性图像。(B)来自八种不同形态簇的代表性图像,这些簇由Louvain聚类鉴定,这些簇簇来自每种细胞类型的UPSIDE生成的潜伏载体。比例尺表示 5 μ米。
https://doi.org/10.1371/journal.pcbi.1009626.s003
(TIF)
S4 图同时训练细胞类型数据集的形状(蒙版)和纹理变分自动编码器。
细胞类型数据集(A)和急性髓系白血病数据集(B)模型的重建和Kulback-Leibler发散(KLD)损失。
https://doi.org/10.1371/journal.pcbi.1009626.s004
(TIF)
S5 图比较使用不同数据编码方法获得的细胞类型同质性评分。
(A)细胞类型同质性评分,定义为与目标细胞相同类型的N个最接近的相邻细胞的平均分数,在所有细胞上取平均值,测量不同细胞类型在潜伏空间中的分离程度。(B) 对于由 VAE 或 PCA 方法生成的编码,以不同的相对掩码权重贡献获得的 4 种细胞类型的平均最近邻得分 (H)。(C) 最大最近邻分数(H麦克斯) 用于 VAE、PCA 和其他替代深度学习架构。H麦克斯定义为蒙版和纹理贡献的所有权重组合中最高的平均最近邻分数。VAE:变分自动编码器,4x AAE:具有潜在维度训练以拟合 4 混合高斯分布的对抗性自动编码器,1x AAE:具有潜在维度的对抗自动编码器,经过训练以拟合正态分布,Clus GAN:删除了一个热编码分量模块的集群生成对抗自动编码器,PCA:主分量分析。(D)VAE的细胞类型同质性评分,使用不同数量的邻居N计算。UMAP投影显示VAE(右)的地面真实(左)和预测的聚类,用于两种细胞类型,AML白血病干细胞(LSC)和Raw264.7巨噬细胞。
https://doi.org/10.1371/journal.pcbi.1009626.s005
(TIF)
S6 图使用鲁汶方法在潜伏空间中聚集AML细胞形态。
(A) 从组合的 AML 数据集中学习的蒙版和纹理编码的 2D UMAP 投影。每个单元格都根据所有数据集的原始鲁汶聚类结果进行着色。(B)鲁汶方法定义的形态群的z评分的聚类图。具有密切相关的z评分模式的组被合并成更大的形态学集群。
https://doi.org/10.1371/journal.pcbi.1009626.s006
(TIF)
S7 图来自每个分组形态簇的细胞的图像和 UMAP 投影。
(A)不同形态簇中细胞的代表性免疫力。比例尺表示 10 μm. (B) 2D UMAP 投影,这些投影来自组合 AML 数据集的潜在空间编码,分为 + 和 - AhRi 条件。
https://doi.org/10.1371/journal.pcbi.1009626.s007
(TIFF)
S8 图解码图像空间中每个形态簇的四个最丰富的掩模和纹理特征。
(A)解码的纹理图像伴随着未变焦的像素差分贴图。比例尺表示10 μ米(B)热图,显示培养90小时后AML LSC中CD34和CD38表达的分布(左图)。CD34CD38和CD34CD38群体的每个已鉴定形态簇的分数组成。+--+
https://doi.org/10.1371/journal.pcbi.1009626.s008
(TIF)
S9 图AML细胞中形态状态和CD34和CD38水平的时间演变。
(A)在不存在(左)或存在AhRi(中)的情况下处于不同形态状态的细胞的群体分数。最后一个时间点时每个簇中细胞的群体分数(右)。使用卡方检验对不同形态状态的终点群体分数进行比较,包括使用和不使用AhRi处理。**: p < 0.001。(B) 来自指定时间点的单元格的 UMAP。除非另有说明,否则细胞不用AhRi处理。颜色代表不同时间点的CD34和CD38表达水平。(C)对培养80小时的患者来源AML细胞的CD34,CD38和CD123表达水平进行流式细胞术分析,无需成像。
https://doi.org/10.1371/journal.pcbi.1009626.s009
(TIF)
S10 图具有或不具有AhR抑制剂的AML细胞形态簇之间的过渡动力学。
(A)具有和没有AhRi的已识别形态状态之间的转移概率矩阵,以及显示这两个条件之间差异的矩阵(右);显示两个重复项(顶部和底部)。(B)没有(顶部)或带有(底部)AhRi培养的单细胞的代表性轨迹。比例尺表示 10 μm. (C) 占据 2D 形态 UMAP 空间的像元的平均过渡幅度(圆形、右)和方向性(矢量、左)。过渡幅度计算为特定 umap 区域内所有跃迁的平均幅度,过渡方向性计算为该区域内所有像元的净过渡向量。
https://doi.org/10.1371/journal.pcbi.1009626.s010
(TIFF)
S11 图用于活细胞分类的卷积分类器神经网络的架构。
https://doi.org/10.1371/journal.pcbi.1009626.s011
(TIF)
S12 图用于细胞形状和纹理学习的卷积变分自动编码器架构。
https://doi.org/10.1371/journal.pcbi.1009626.s012
(TIF)
S13 图用于细胞形状和纹理学习的卷积香草自动编码器(AE)的架构。
https://doi.org/10.1371/journal.pcbi.1009626.s013
(TIF)
S14 图用于细胞形状和纹理学习的卷积对抗自动编码器(AAE)架构。-核心期刊杂志-厦门论文发表
https://doi.org/10.1371/journal.pcbi.1009626.s014
(TIF)
S15 图clusterGAN的生成器、编码器和鉴别器模块的架构,用于单元形状和纹理学习。
https://doi.org/10.1371/journal.pcbi.1009626.s015
(TIF)
S1 表。成对跟踪分析中不同形态聚类之间的转移概率。
https://doi.org/10.1371/journal.pcbi.1009626.s016
(英文)
S1电影。培养的AML细胞的代表性延时明场电影。
https://doi.org/10.1371/journal.pcbi.1009626.s017
(MP4)
确认
我们感谢Chek Ounkomol,Gregory Johnson和Molly Maleckar在无标签图像分割和深度学习架构设计方面的建议。我们也感谢Kueh实验室成员对手稿的讨论和反馈。
引用
1.鲍姆加思 N, 罗德勒 M.用于免疫表型的多色流式细胞术的实用方法。免疫学方法杂志。2000;243: 77–97.pmid:10986408
查看文章PubMed/NCBI谷歌学术搜索
2.查普曼GV.流式细胞术仪器。免疫学方法杂志。2000;243: 3–12.下午:10986402
查看文章PubMed/NCBI谷歌学术搜索
3.Jaitin DA, Kenigsberg E, Keren-Shaul H, Elefant N, Paul F, Zaretsky I, et al.大规模平行的单细胞RNA-Seq,用于无标记地将组织分解为细胞类型。科学。2014;343: 776–779.pmid:24531970
查看文章PubMed/NCBI谷歌学术搜索
4.Qiu X, Hill A, Packer J, Lin D, Ma Y-A, Trapnell C. 单细胞mRNA定量和普查差异分析。自然方法。2017;14: 309–315.pmid:28114287
查看文章PubMed/NCBI谷歌学术搜索
5.龚璇, 赵毅, 蔡姗, 傅姗, 杨超, 张 S, 等. 使用探针ESI质谱法进行单细胞分析:在细胞和亚细胞水平上检测代谢物。肛门化学. 2014;86: 3809–3816.pmid:24641101
查看文章PubMed/NCBI谷歌学术搜索
6.卡哈尔 SR y.一般解剖学手册:细菌学基础。莫亚;1905.
7.弗莱明 W,.Zellsubstanz Kern und Zelltheilung.莱比锡: F.C.W. 沃格尔;1882.
8.Zaritsky A, Jamieson AR, Welf ES, Nevarez A, Cillay J, Eskiocak U, et al.可解释的深度学习揭示了无标记活细胞图像中的细胞特性,这些图像可预测高度转移性黑色素瘤。单元系统。2021年[引用于2021年7月15日]。pmid:34077708
查看文章PubMed/NCBI谷歌学术搜索
9.姚K, 罗奇曼ND, 孙SX.使用深度学习对低分辨率图像进行细胞类型分类和无监督形态表型分析。科学报告。2019;9: 13467.pmid:31530889
查看文章PubMed/NCBI谷歌学术搜索
10.Buggenthin F, Buettner F, Hoppe PS, Endele M, Kroiss M, Strasser M, et al.通过深度学习对造血谱系选择的前瞻性鉴定。Nat 方法。2017;14: 403–406.pmid:28218899
查看文章PubMed/NCBI谷歌学术搜索
11.Eulenberg P, K?hler N, Blasi T, Filby A, Carpenter AE, Rees P, et al.使用深度学习重建细胞周期和疾病进展。自然通讯。2017;8: 463.下午:28878212
查看文章PubMed/NCBI谷歌学术搜索
12.Bhaskar D, Lee D, Knútsdóttir H, Tan C, Zhang M, Dean P, et al.一种形态学特征提取和无监督细胞分类的方法。生物Rxiv.2019;623793.
查看文章谷歌学术搜索
13.Carpenter AE, Jones TR, Lamprecht MR, Clarke C, Kang IH, Friman O, et al.CellProfiler:用于识别和量化细胞表型的图像分析软件。基因组生物学。2006;7: R100.下午:17076895
查看文章PubMed/NCBI谷歌学术搜索
14.Makhzani A, Shlens J, Jaitly N, Goodfellow I, Frey B. Adversarial Autoencoders.arXiv:151105644 [cs].2015年[引用2019年4月30日]。可供应: http://arxiv.org/abs/1511.05644
查看文章谷歌学术搜索
15.Schlegl T, Seeb?ck P, Waldstein SM, Schmidt-Erfurth U, Langs G. 无监督异常检测与生成对抗网络指导标记发现。arXiv:170305921 [cs].2017年[引用于2019年5月31日]。可供应: http://arxiv.org/abs/1703.05921
查看文章谷歌学术搜索
16.Salimans T, Goodfellow I, Zaremba W, Cheung V, Radford A, Chen X. 改进的 GAN 训练技术.arXiv:160603498 [cs].2016年[引用2019年5月31日]。可供应: http://arxiv.org/abs/1606.03498
查看文章谷歌学术搜索
17.Lu AX, Kraus OZ, Cooper S, Moses AM.学习具有成对细胞内嵌的单细胞显微镜图像的无监督特征表示。PLOS计算生物学。2019;15: e1007348.下午:31479439
查看文章PubMed/NCBI谷歌学术搜索
18.Held M, Schmitz MHA, Fischer B, Walter T, Neumann B, Olma MH, et al.细胞识别:高通量活细胞成像中的时间分辨表型注释。自然方法。2010;7: 747–754.下午:20693996
查看文章PubMed/NCBI谷歌学术搜索
19.Moen E, Borba E, Miller G, Schwartz M, Bannon D, Koe N, et al.利用深度学习在活细胞成像实验中实现准确的细胞追踪和谱系构建。生物Rxiv.2019;803205.
查看文章谷歌学术搜索
20.吴健, 马玉英, 梅塔 A, 萧淑, 欧文 B, 皮斯 S, 等.随机表观遗传开关控制T细胞谱系承诺的动态。Singh H,Chakraborty AK,Howard M,编辑。电子生活。2018;7: e37851.pmid:30457103
查看文章PubMed/NCBI谷歌学术搜索
21.Kingma DP,Welling M.自动编码变分贝叶斯。arXiv:13126114 [cs, stat].2013年[引用于2019年8月9日]。可供应: http://arxiv.org/abs/1312.6114
查看文章谷歌学术搜索
22.Ounkomol C, Seshamani S, Maleckar MM, Collman F, Johnson GR. 来自透射光显微镜的三维荧光图像的无标记预测。Nat 方法。2018;15: 917–920.pmid:30224672
查看文章PubMed/NCBI谷歌学术搜索
23.Blondel VD,Guillaume J-L,Lambiotte R,Lefebvre E.大型网络中社区的快速展开。2008年[引用2020年5月31日]。
查看文章谷歌学术搜索
24.McInnes L,Healy J,Melville J. UMAP:用于降维的均匀流形近似和投影。arXiv:180203426 [cs, stat].2018年[引用于2019年8月8日]。可供应: http://arxiv.org/abs/1802.03426
查看文章谷歌学术搜索
25.Ballard D. Neural Networks中的模块化学习。新浪网.1987.
26.Mukherjee S, Asnani H, Lin E, Kannan S. ClusterGAN: 生成对抗网络中的潜在空间聚类.arXiv:180903627 [cs, stat].2019年[引用2020年11月3日]。可供应: http://arxiv.org/abs/1809.03627
查看文章谷歌学术搜索
27.邦内特 D, 迪克 JE.人类急性髓系白血病被组织成起源于原始造血细胞的层次结构。Nat Med. 1997;3: 730–737.pmid:9212098
查看文章PubMed/NCBI谷歌学术搜索
28.石川F,吉田S,斋藤Y,Hijikata A,北村H,田中S等。化疗耐药性人AML干细胞位于骨髓内骨区内并植入。自然生物技术。2007;25: 1315–1321.pmid:17952057
查看文章PubMed/NCBI谷歌学术搜索
29.Ho JM, Dobson SM, Voisin V, McLeod J, Kennedy JA, Mitchell A, et al. CD200表达标志着人类AML中的白血病干细胞。血液广告 2020;4: 5402–5413.pmid:33147339
查看文章PubMed/NCBI谷歌学术搜索
30.Kaufmann KB, Garcia-Prat L, Liu Q, Ng SWK, Takayanagi S-I, Mitchell A, et al.干性筛查显示C3orf54 / INKA1是人类白血病干细胞潜伏期的促进剂。血。2019;133: 2198–2211.下午:30796022
查看文章PubMed/NCBI谷歌学术搜索
31.Roshal M, Chien S, Othus M, Wood B, Fang M, Appelbaum F, et al.CD34 + CD38low或阴性成髓细胞的比例,但不是侧群频率,预测新诊断的急性髓系白血病患者对诱导治疗的初始反应。白血病。2013;27: 728–731.下午:22926686
查看文章PubMed/NCBI谷歌学术搜索
32.Plesa A, Chelghoum Y, Mattei E, Labussière H, Elhamri M, Cannas G, et al.在急性髓系白血病中启动后CD34 + CD38-造血干细胞的动员。世界J干细胞。2013;5: 196–204.pmid:24179607
查看文章PubMed/NCBI谷歌学术搜索
33.Pabst C, Krosl J, Fares I, Boucher G, Ruel R, Marinier A, et al.鉴定支持人类白血病干细胞活体外活性的小分子 。自然方法。2014;11: 436–442.下午:24562423
查看文章PubMed/NCBI谷歌学术搜索
34.Fares I, Chagraoui J, Gareau Y, Gingras S, Ruel R, Mayotte N, et al.嘧啶吲哚衍生物是人类造血干细胞自我更新的激动剂。科学。2014;345: 1509–1512.下午:25237102
查看文章PubMed/NCBI谷歌学术搜索
35.Boitano AE, Wang J, Romeo R, Bouchez LC, Parker AE, Sutton SE, et al. 芳烃受体拮抗剂促进人造血干细胞的扩增.科学。2010;329: 1345–1348.pmid:20688981
查看文章PubMed/NCBI谷歌学术搜索
36.Coutu DL,Schroeder T.通过长期实时成像探测细胞过程 - 历史问题和当前解决方案。细胞科学学报. 2013;126: 3805–3815.pmid:23943879
查看文章PubMed/NCBI谷歌学术搜索
37.希利L,梅G,盖尔K,格罗斯维尔德F,格里夫斯M,恩维尔T。干细胞抗原CD34起到造血细胞粘附的调节剂的作用。美国国家会。1995;92: 12240–12244.下午:8618877
查看文章PubMed/NCBI谷歌学术搜索
38.Mony U,Jawad M,Seedhouse C,Russell N,Pallis M.在定义的微环境中具有干细胞表型的原代AML细胞体外模型中对FLT3抑制的抗性。白血病。2008;22: 1395–1401.pmid:18509353
查看文章PubMed/NCBI谷歌学术搜索
39.Ding L, Ley TJ, Larson DE, Miller CA, Koboldt DC, Welch JS, et al.全基因组测序揭示的复发性急性髓系白血病的克隆进化。自然界。2012;481: 506–510.pmid:22237025
查看文章PubMed/NCBI谷歌学术搜索
40.van Galen P, Hovestadt V, Wadsworth Ii MH, Hughes TK, Griffin GK, Battaglia S, et al.单细胞RNA-Seq揭示了与疾病进展和免疫相关的AML层次结构。细胞。2019;176: 1265–1281.e24.pmid:30827681
查看文章PubMed/NCBI谷歌学术搜索
41.Miles LA, Bowman RL, Merlinsky TR, Csete IS, Ooi AT, Durruthy-Durruthy R, et al.骨髓恶性肿瘤克隆进化的单细胞突变分析。自然界。2020;587: 477–482.pmid:33116311
查看文章PubMed/NCBI谷歌学术搜索
42.Kubben N, Brimacombe KR, Donegan M, Li Z, Misteli T.一种基于成像的高内涵筛选管道,用于系统鉴定抗早衰化合物。方法。2016;96: 46–58.pmid:26341717
查看文章PubMed/NCBI谷歌学术搜索
43.Lee DW, Choi Y-S, Seo YJ, Lee M-Y, Jeon SY, Ku B, et al. 微柱/微孔芯片平台上抗癌药物疗效的高通量筛选(HTS)。肛门化学. 2014;86: 535–542.pmid:24199994
查看文章PubMed/NCBI谷歌学术搜索
44.Hasle N, Cooke A, Srivatsan S, Huang H, Stephany JJ, Krieger Z, et al.高通量、基于显微镜的分选,用于剖析细胞异质性。分子系统生物学。2020;16: e9442.pmid:32500953
查看文章PubMed/NCBI谷歌学术搜索-核心期刊杂志-厦门论文发表