《使用变分自编码器潜伏空间算术从细胞形态学读数预测药物多药理学-厦门论文杂志期刊发表》期刊简介
使用变分自编码器潜伏空间算术从细胞形态学读数预测药物多药理学-厦门论文杂志期刊发表
袁乐周,尚塔努·辛格,安妮·卡彭特,格雷戈里·佩伊
出版日期: 2022年02月25日
抽象
变分自动编码器 (VAE) 是一种机器学习算法,可用于生成压缩且可解释的潜在空间。这些表示是从各种生物医学数据类型生成的,可用于生成逼真的模拟数据。然而,标准的普通VAE存在纠缠和无信息的潜在空间,这可以使用其他类型的VAE(如β-VAE和MMD-VAE)来缓解。在这个项目中,我们评估了VAE学习从细胞图像中提取的细胞形态特征的能力。我们在细胞形态学读数上训练和评估了这三种VAE变体 - Vanilla VAE,β-VAE和MMD-VAE,并探索了每个模型的生成能力,以使用称为潜伏空间算术(LSA)的方法预测化合物多药理学(药物与多个靶标的相互作用)。为了测试该策略的泛化性,我们还使用相同的化合物扰动的基因表达数据训练了这些VAE,发现基因表达提供了互补的信息。我们发现β-VAE和MMD-VAE解开了形态信号,并揭示了一个更容易解释的潜在空间。我们可靠地模拟了某些化合物的形态学和基因表达读数,从而预测了受已知多药理学化合物扰动的细胞状态。推断特定药物机制的细胞状态可以帮助研究人员开发和识别靶向疗法,并在未来对脱靶效应进行分类。
作者简介
我们训练机器学习算法,从细胞形态学读数中识别药物活性模式。这些算法被称为变分自动编码器(VAE),是无监督的,这意味着它们不需要输入数据以外的任何其他信息来学习。我们训练并系统地评估三种不同类型的VAE,每种VAE都能学习不同的模式,并记录性能和可解释性的权衡。在综合评估中,我们了解到一种称为潜空间算术(LSA)的方法可以预测与多种靶标和机制相互作用的化合物的细胞状态,这是一种众所周知的现象,称为药物多药理学。重要的是,我们使用称为L1000的基因表达测定法训练其他VAE,并将性能与细胞形态学VAE进行比较。基因表达和细胞形态是细胞建模的两种最常见的数据类型。我们发现,建模细胞形态需要截然不同的VAE参数和架构,而且重要的是,数据类型是互补的。他们预测不同化合物的多药理学。我们的基准测试和公开可用的软件将使未来的VAE建模改进成为可能,我们的药物息肉学预测表明,我们可以对药物中潜在的脱靶效应进行建模,这是药物发现管道中的重要一步。
引文: Chow YL,Singh S,Carpenter AE,Way GP(2022)使用变分自编码器潜伏空间算术从细胞形态学读数中预测药物息肉药理学。PLoS Comput Biol 18(2):e1009888。https://doi.org/10.1371/journal.pcbi.1009888
编辑 器: Jason M. Haugh,北卡罗来纳州立大学,美国
收到: 十一月 12, 2021;接受: 二月 1, 2022;发表: 二月 25, 2022
版权所有: ? 2022 周等人。这是一篇根据知识共享署名许可条款分发的开放获取文章,该许可允许在任何媒体上不受限制地使用,分发和复制,前提是注明原始作者和来源。
数据可用性: 在 https://github.com/broadinstitute/cell-painting-vae,可以找到用于下载和处理数据,训练所有VAE以及重现本文中所有结果和数字的所有脚本和计算环境。所有单元格绘制数据和处理脚本均可在 https://github.com/broadinstitute/lincs-cell-painting。L1000 数据可在 figshare: https://doi.org/10.6084/m9.figshare.13181966。
资金: A.E.C.和S.S.得到了美国国立卫生研究院(https://www.nih.gov/)R35 GM122547(A.E.C.)的支持。资助者在研究设计,数据收集和分析,出版决定或手稿准备方面没有任何作用。
相互竞争的利益: 作者宣布不存在相互竞争的利益。
1. 引言
变分自动编码器(VAE)是一种生成模型,可以生成逼真的模拟数据[1]。作为无监督模型,VAE是数据驱动的,通过重建输入数据而不是像传统监督神经网络那样通过最小化分类误差来学习。VAE 将数据压缩为低维表示形式,然后将其解码回原始维度。压缩的下维空间通常被称为"潜在空间"。
所谓的"香草"VAE(即最初制定的VAEs[1])最大限度地减少了重建和Kullback-Leibler(KL)发散之和的损失。KL发散是一个正则化术语,它鼓励潜在空间最好地接近数据生成函数,这通常会改善模型解释和数据模拟。Vanilla VAE是变分自动编码器的标准选择,为生成式深度学习模型的使用提供了重要基础。然而,研究人员最近确定了需要改进的领域,因此修改了VAE的损失功能以克服这些问题。例如,修改KL发散项的贡献会鼓励解开潜在空间特征,如β-VAE[2]。另一种变体,即所谓的InfoVAE或MMD-VAE,用最大平均差(MMD)取代KL发散项,以提高模型在潜在空间中存储更多信息的能力[3]。
最近,VAEs已经成功地训练了各种生物医学数据模式,例如来自不同测定细胞系扰动和患者来源组织[5-8],DNA甲基化[9]和细胞图像像素[10,11]的不同测定的批量和单细胞基因表达数据[4]。β-VAEs已被用于产生单细胞RNA-seq数据的解缠潜在表示[12]。同样,MMD-VAEs有助于在质量细胞术和RNAseq的单细胞数据分析中保留潜伏空间中的信息[13]。我们只训练了vanilla-VAE,β-VAE和MMD-VAEs,而不是其他VAE变体和其他生成模型架构,例如生成对抗网络(GAN),因为已知我们使用的三种VAE变体可以促进潜在的空间可解释性。
VAE和其他生成模型的一个强大应用是能够使用称为潜在空间算术(LSA)的方法模拟有意义的新样本。LSA是一种相对简单的方法,在其平均潜空间表示中使用特定样本组的一系列加法和减法来生成包含通过算术捕获的特定模式的合成样本。例如,LSA已使用深度卷积生成对抗网络(DCGAN)模型进行,以生成新的面部表示,在LSA实验中生成逼真但合成的图像:戴眼镜的男性图像 - 不戴眼镜的男性图像+不戴眼镜的女性图像=戴眼镜的女性图像[14]。同样,LSA使用在荧光显微镜图像上训练的生成模型CytoGAN预测了细胞图像在细胞核尺寸增加和β管蛋白量增加的情况下的外观[15]。
由于VAE在这些不同数据集上的成功,我们试图确定VAE是否也可以使用细胞形态学读数(而不是直接在图像上)进行训练,并进一步进行算术运算以预测新的治疗结果。我们使用CellProfiler[16]导出细胞形态读数,该读数测量细胞的大小,结构,质地和强度,并使用这些读数来训练所有模型。为了了解VAE建模能力如何比较不同数据类型,我们还在另外两个数据集上训练和评估了VAE:1)相同的细胞形态数据,但使用所有重复而不是折叠的扰动特异性特征,以及2)相同扰动的基因表达数据。对于我们的两个细胞形态学数据集,我们使用了来自药物再利用中心的10,368个药物谱的细胞绘画实验的公开可用的细胞形态学读数[17]。我们的基因表达数据来自与L1000测定法测量的相同扰动,该测定法量化了978个标志性基因的mRNA转录本丰度[18]。我们在每个数据集上训练了Vanilla VAE,β-VAE,MMD-VAE和主成分分析(PCA),以比较它们在重建,潜在空间可解释性和预测这些数据集的多药理学表示方面的表现(图1)。了解VAE架构在形态学表示建模中的行为将有助于我们解释形态学系统生物学的各种信号。表征药物MOAs是了解药物如何工作以及监测和开发新疗法的关键步骤[19]。
缩略图 下载:
个人电脑幻灯片
巴新放大图片
断续器原始图像
图 1. 我们的变异自动编码器(VAE)实施框架,应用于确定细胞的表型。
一种应用是预测用具有两种作用机制(MOA)的化合物处理的细胞的表型,给定用具有每种单一MOA的化合物处理的细胞的表型(右下角)。VAE 将输入数据编码到较低维的潜在空间中,然后将表示形式解码回原始数据维度。我们的数据包含588个形态特征的测量值,每个特征均为用给定化合物处理的每个细胞群的平均值。在扫描以选择最佳超参数(请参阅方法)之后,我们将潜在空间维度设置为 10 个维度。香草VAE通过最小化重建和KL发散损失来学习。我们测试的其他 VAE 变体可最大限度地减少损失函数,这些函数鼓励分离特征,从而促进可解释性、数据模拟并实现有意义的 LSA。
https://doi.org/10.1371/journal.pcbi.1009888.g001
2. 结果
2.1 在细胞形态学读数上训练变分自动编码器
我们使用代表A549肺癌细胞形态学读数的数据训练了我们的无监督学习模型,这些细胞在6个剂量中用药物再利用中心的1,571种化合物扰动治疗。具体来说,我们使用来自基于集成网络的细胞特征库(LINCS)的处理的Cell Paint共识签名(5级数据)[20]。这些药物中的许多药物都有其分子靶标和作用机制(MOA)的注释。我们将输入数据分为80%的训练,10%的验证和10%的测试数据,并通过板平衡,并使用超opt执行贝叶斯超参数优化[21]。
使用最佳超参数,我们训练了三种类型的VAE:Vanilla VAE,β-VAE和MMD-VAE,并与随机排列的数据相比,观察到真实数据中跨纪元的损失较低(通过独立洗牌每列的行,从而消除特征之间的所有相关性)。这表明我们的VAE已经通过了解特征之间的相关性来学习数据分布,因为当我们删除相关结构时,性能会更差(S1图)。我们在Cell Painting复制配置文件(4级数据)和L1000数据集(S2和S3 Figs)中观察到了类似的趋势。我们为 github 存储库中的所有配置文件提供潜在空间嵌入,https://github.com/broadinstitute/cell-painting-vae [22]。
每个 VAE 变体都通过最小化不同的损失函数来学习,这些函数提供不同的约束并学习不同的潜在空间表示(有关详细信息,请参阅方法)。在训练β-VAE时,我们观察到太高β会导致信息不足的潜在空间。解码器没有充分利用潜在代码来重建输入样本。另一方面,太低β导致纠缠的潜在空间,降低了解释潜在空间特征和执行LSA实验的能力。因此,我们通过使用一种降低模拟数据和真实数据之间相似性的方法确定了最佳β(参见方法)。模拟数据点的能力需要重建和解缠的平衡,因此找到导致最佳模拟的β的最佳值可能会提高LSA实验的性能。
接下来,我们分析了经过训练的VAE重建单个样本和模拟数据的能力。在二维均匀流形近似和投影(UMAP)[23]嵌入中,我们观察到真实数据与重建和模拟数据重叠,这表明我们的模型能够可靠地近似底层形态数据生成函数(图2)。重建和模拟的数据都没有跨越完整的原始数据分布,但与β和MMD-VAE相比,Vanilla-VAE中更受限制。基于重建损耗(MSE)和地球移动距离,β-VAE在Cell Paint数据中表现最佳,并且与随机洗牌基线相比,所有架构在大多数情况下的表现都要好得多(表1)。我们的VAE还能够类似地重建和模拟细胞涂装4级和L1000级数据(S4图)。我们还观察到VAE重建样本的能力与解缠特征之间的权衡,如改进的重建,但与Vanilla VAE相比,β-VAE中的潜在空间特征相关性更高(S5图)表明了这一点。
缩略图 下载:-厦门论文杂志期刊发表
个人电脑幻灯片
巴新放大图片
断续器原始图像
图 2. 在测试集中为 Cell Painting 5 级共识签名嵌入原始数据、重建数据和模拟数据的二维 UMAP 嵌入。
我们仅使用原始测试集数据拟合 UMAP,并将重建和模拟的数据转换为此空间。我们通过从与潜在空间具有相同维度的单位高斯采样来模拟数据,使用与测试集中的样本相同的点数。
https://doi.org/10.1371/journal.pcbi.1009888.g002
缩略图 下载:
个人电脑幻灯片
巴新放大图片
断续器原始图像
表 1. 均方误差(MSE)和土方距离,使VAE能够重建细胞绘画和L1000型材。
我们将这些值与从随机模型得出的结果进行比较。通过取每个样品的土方移动距离的平均值来计算土方移动距离。我们在括号中加上土方移动距离的95%百分位数范围(最低0.05,最高0.95)。请注意,由于我们的模型要求我们以不同的方式规范化Cell Paint和L1000输入数据(请参阅方法),因此无法跨数据模式比较指标。
https://doi.org/10.1371/journal.pcbi.1009888.t001
我们还分析了VAE重建特定CellProfiler特征的能力。正如预期的那样,我们观察到方差较低的特征更容易重建(S6图)。对于所有VAE变体,我们发现性能多样性,许多特征重建得近乎完美,而其他特征的重建效果较差。DNA通道是重建效果最好的,而AGP图像通道是重建最差的,尽管这种关系并不显著(DNA
2.2 解读细胞画潜空间特征表示
作为训练的一部分,VAE 使用输入要素的不同组合来生成制图表达。特别是在我们的数据中,这些所谓的"表示"本质上是形态特征的不同组合,可以最好地从输入的Cell Paint数据中捕获信号。为了便于解释和理解所有形态特征对每个潜在空间特征的贡献,我们执行了以下过程:1)模拟来自一个潜在空间特征的+3个活动标准差,同时将所有其他潜在特征固定为零,2)模拟来自同一潜在空间特征的活动-3个标准差,同时将所有其他特征固定为零, 3)通过经过训练的解码器传递这两个极端的单一潜在特征潜在空间,以及4)从彼此中减去这两个重建。实际上,该过程系统地牵涉到每个潜在空间特征中最具影响力的形态特征。这种方法类似于研究特定的VAE权重矩阵(类似于PCA"载荷"),但它不需要我们设置一个阈值来定义每个潜在特征的显着形态特征贡献。
正如预期的那样,我们观察到,与我们的Vanilla VAE和基线PCA相比,我们的β-VAE在各种形态特征组中学到了更活跃的潜伏特征。我们还注意到,与β-VAE不同,10个特征中的5个编码的信息很少,我们的MMD-VAE中的所有列都是活跃的,这表明一个信息更丰富的潜在空间,它使用更广泛的形态特征类别(S7图)。
专注于MMD-VAE特征,我们观察到许多单独的潜在空间特征编码特定的图像通道和细胞室(图3)。例如,潜伏特征 0 最强编码的 Nuclei-Mito 特征(源自细胞核的形态特征,特别是来自线粒体荧光标记物的特征)、特征 1 最强编码的细胞质-DNA 以及特征 2 最强编码的 Nuclei-AGP 和 Nuclei-DNA 特征。MMD-VAE能够以无偏的方式隔离这些特定信号,这提供了证据,证明每个图像通道和隔室编码独特的信息,并且这些特征可用于解释未来的扰动机制。
thumbnail 下载:
个人电脑幻灯片
巴新放大图片
断续器原始图像
图 3. 研究CellProfiler特征组(通过隔室和图像通道)对单个MMD-VAE潜伏空间特征的贡献。
树状图表示应用于行和列的分层聚类分析算法。每种颜色表示每个 CellProfiler 特征组对按列归一化的给定潜在空间特征的平均贡献(有关完整详细信息,请参阅方法)。
https://doi.org/10.1371/journal.pcbi.1009888.g003
2.3 利用潜伏空间算术预测多药细胞状态
药物再利用中心已经注释了LINCS细胞绘画数据集中几乎所有化合物扰动特征的作用机制(MOA)[17,20]。MOA代表了实验衍生的分类,表明化合物最可能的生物学机制。许多化合物用单个MOA注释,但这些化合物中约有14%(214 / 1570)用两个MOA注释(使用"A∩B"的形式表示),表明已知的多药理学;有证据表明,该化合物至少通过两个独立的机制途径起作用,即使对于上市药物也是如此[19,24]。总的来说,Cell Painting数据集包括84个不同的MOA。
我们预测,从潜在空间("A"—"D")的平均MOA"A"中减去平均DMSO将使我们能够获得标有MOA"A"的配置文件的基本潜在空间信息。然后,添加具有MOA "B"的轮廓的潜在空间值的平均表示将使我们能够获得标记为MOA"A∩ B"的息肉药理学轮廓的压缩表示。然后,我们可以通过VAE解码器传递这种潜在表示,以获得具有"A ∩B"细胞状态的预测细胞。综上所述,我们的潜在空间算术方程假设是"A"——"D"+"B"="A∩B"。我们使用所有数据(包括训练和测试集)执行了这些分析,因为我们的测试集不包含足够的样本多样性来执行LSA。
为了评估LSA性能,我们计算了预测值和实际"A∩B"之间的L2距离。具有未洗牌MOA的VAE的平均L2距离低于随机数据,低于原始输入维度,低于PCA,表明平均而言,VAE更擅长预测多药理细胞状态(图4和S8)。在不同的VAE架构中,MMD-VAE在所有数据集中表现最佳。在使用Pearson相关性测量MOA相似性时,我们观察到了类似的结果(S9图)。重要的是,我们还观察到MOAs的可预测性有所提高,这些MOAs与平均细胞绘画特征值的距离更大,这表明MOA在具有更独特的表型时更容易预测,进一步支持我们揭示真正的多药理细胞状态的能力,而不仅仅是预测几乎没有表型的细胞状态(S10图)。
thumbnail 下载:
个人电脑幻灯片
巴新放大图片
断续器原始图像
图 4. 对于三种不同的VAE架构,PCA和原始输入空间,用已知的多药学("A ∩ B")作用机制(MOA)注释的真实和预测轮廓之间的平均L2距离(越低越好)。
我们显示了两个 LINCS 数据集中真实数据和随机数据的结果。为了实现更有意义和可解释的视图,我们对每个数据集的L2距离进行了归一化。每个点表示在特定数据集上使用特定模型执行 LSA 时的平均 L2 距离(值在每个数据集中归一化)。
https://doi.org/10.1371/journal.pcbi.1009888.g004
2.4 评估具体的息肉药理学MOA预测
使用细胞涂装5级VAE模型,我们比较了特定息肉药理学MOA的LSA性能。对于每个多药学MOA"A ∩ B",我们计算了一个z分数,比较了1)真实和预测的"A ∩ B"细胞状态之间的L2距离与2)来自随机置换输入数据的"A ∩ B"细胞状态的实数和十个预测之间的L2距离分布(参见方法)。我们也使用皮尔逊相关性重复了这一过程。这些指标表明,对于大多数MOA,我们预测的多药理学状态优于随机状态(S11图)。L2 距离的高测试统计量和 Pearson 相关性的低检验统计量表明,由于注释不正确、非加性或协同处理效果,或者无法在细胞绘画数据中捕获低渗透表型,无法预测特定的 MOA"A ∩ B"。与L1000基因表达谱相比,我们观察到基因表达和形态测定是互补的,但也预测了许多相同的多药理学MOA(图5),这与最近的工作一致[25]。
thumbnail 下载:-厦门论文杂志期刊发表
个人电脑幻灯片
巴新放大图片
断续器原始图像
图 5. MMD-VAE 的 L1000 与细胞绘画 MOA 性能的散点图,排除了异常值(>3 个标准值)。
性能由预测和实际配置文件之间的 L2 距离之间的测试分数以及 L2 距离随机 MOA 10 次之间的分布决定。顶部 — 所有"A ∩ B"组合;底部 - 只有带有标签的前 5 个"A ∩ B"。
https://doi.org/10.1371/journal.pcbi.1009888.g005
我们方法的一个局限性是,我们的训练数据中的样本被注释了许多与LSA实验中使用的样本相同的MOA,这可能会将信息泄漏到我们的评估集中并人为地夸大性能。为了预测MOA的实际应用,我们需要知道我们可以预测培训集从未见过的MOA。因此,对于每个LSA评估,我们删除了注释为前五个最佳预测MOA的化合物,以及作为MOA组合一部分的单个MOA(即,如果MOA"A"或MOA"B"位于前5个最佳预测范围内∩,则也去除了用MOA"A"或MOA"B"注释的化合物)。然后,我们针对所有 VAE 类型重新训练了 VAE。我们观察到,虽然有时MOA表现出性能下降,但总的来说,这五个MOA仍然是所有MOA中预测最好的(S12A图)。这揭示了两件事:首先,它表明VAE是稳定的;当我们重新训练模型时,相同的MOA仍然被很好地预测。其次,它表明VAE不需要看到特定的细胞状态被用特定MOA注释的化合物扰动来预测它们的细胞状态,我们确实没有过度拟合数据。
我们还在移除了具有MOA注释的化合物后重新训练了所有模型,这些化合物以中间性能预测。具体来说,我们删除了五个MOA,这些MOA的中间分数高于一个标准差,优于随机。总体而言,这些中间数据点的性能下降幅度大于高绩效数据点,但每个MOA的整体性能保持一致,特别是在我们的β-VAE(S12B图)中。尽管顶级MOA保留了信号,但性能较低的MOA经历了一些信号损失,这表明中级绩效MOA更容易受到训练数据组合变化的影响,需要更多的数据或不同的建模方法。
最后,我们进行了两项分析,以更具体地了解LSA性能。首先,我们评估了MOA再现性(从VAE重建)和MOA可预测性(通过LSA实验)之间的相关性。我们通过比较原始和重建的"A∩B"MOA之间的中位数成对相关性来计算MOA再现性,并且我们计算了MOA可预测性,作为LSA实验中真实和预测的"A∩B"MOA之间的相关性。我们观察到MOA再现性和MOA可预测性之间存在很强的相关性(Pearson r = 0.8)(S13图), 这是预期的;我们更可重复地捕获的MOA被更可靠地建模和预测。其次,我们试图根据MOA的类型(抑制剂,拮抗剂,激动剂和其他)是否有任何LSA性能差异。虽然表现最佳的MOA都是抑制剂,但我们没有观察到MOA类型之间的显着差异(S14图)。
3. 讨论
细胞形态学提供了一个未被充分探索的系统生物学视角,即患病和扰动的细胞状态。目前扩展这一研究途径的一个瓶颈是缺乏可推广的,富有表现力的,广泛可用的和可解释的形态特征表示。在这里,我们使用VAE来模拟数千个扰动细胞状态的细胞形态表示。我们确定VAE可以在细胞形态学读数上进行训练,而不是直接使用它们来源的细胞图像。这个决定伴随着各种权衡。与细胞图像相比,由图像分析工具(例如CellProfiler)提取的细胞形态学读数是一种更易于管理的数据类型;数据更小,更易于分发,分析和存储成本低得多,训练速度更快[16]。然而,一些生物学信息可能会丢失,因为这些工具可能无法测量所有形态信号。所谓的基于图像的分析管道也会丢失信息,本质上是将固有的单单元数据聚合到批量共识签名[26]。尽管如此,我们成功地使用VAE从CellProfiler衍生的细胞绘画数据表示中模拟了细胞形态学读数,并且我们通过模拟逼真的数据,通过推导出有意义且解缠不清的形态学表征以及预测某些化合物中的多药理学来证明这些表征的强大功能。
使用细胞形态学读数,我们训练了三种不同的VAE架构,每种架构都有不同的优缺点。正如预期的那样,与Vanilla VAE相比,我们观察到β-VAE模型的建模能力有所提高,如重建损失和数据模拟改进所表明的那样。同样,通过使用MMD-VAEs,它将KL发散项替换为计算所有潜在特征而不是每个单个特征的完整分布的发散项,我们实现了比普通VAE更好的重建。然而,MMD-VAE未能模拟所有细胞形态模式,其他VAE变体成功捕获了这些模式。通过在由同一组化合物扰动产生的L1000基因表达读数上训练这些VAE变异,我们观察到与基于Cell Painting图像的数据进行训练相比,最佳超参数存在巨大差异[4,18]。这些观察结果表明,KL发散惩罚强烈影响细胞形态学建模能力,并且通过模拟其他生物医学数据类型(如基因表达)所吸取的经验教训不一定直接转化为细胞形态学[27]。
因为我们可以使用L1000读数获得相同的扰动,所以我们能够比较细胞形态学和基因表达结果。我们发现,两种模型在预测息肉药理学时都捕获了互补的信息,这与比较不同技术信息内容的更深入研究相似[25]。我们没有在本项目中探讨多模态数据集成,因为在最近的其他出版物中已经更详细地探讨了这一点[28,29]。然而,将多模态数据与CycleGAN或其他风格传输算法等模型集成,可能会让我们对未来预测息肉药学的能力更有信心[30]。
通过对潜在空间特征的深入检查,我们观察到MMD-VAE学习了最翔实的表示(与香草和β-VAE相比),有趣的是,它使用了来自所有类别的细胞绘画读数的信息。细胞绘画测定使用六种不同的荧光染色剂来标记八种细胞器:细胞核,内质网,核仁,细胞质RNA,肌动蛋白,高尔基体,质膜和线粒体[31]。随后,图像分析人员使用软件对细胞进行分割,以区分细胞核和细胞质,并测量所有五个荧光通道中每个细胞区室的广泛手工设计的经典图像特征[31]。虽然存在其他用于分割细胞和提取形态特征的新兴方法,其中一些基于深度学习[32],但我们使用的配置文件中手工设计的经典特征仍然更常见,并且是目前最直接可解释的。目前尚不确定是否所有细胞绘画荧光染料都编码重要的非冗余信息,或者是否可以在更简单的显微镜检测中获取一些信息[33]。在这里,我们提供的证据表明,不同的染色剂确实编码了独立的生物信号,本质上是无监督的MMD-VAE解开这些群体。然而,我们对嵌入潜在空间表征中的生物信号的看法仍然有限;潜在的空间特征可能是编码形态特征,这些特征超出了我们量化的单个特征类别(例如Cells-AGP),并且代表了在细胞区间之间和跨图像通道相互作用的高阶生物过程。然而,我们的最佳潜在空间维度仅包含10个特征,通常远远少于基因表达等其他模式[20,34,35]。
当药物与多个靶标相互作用时,就会发生多药理学,这是药物发现的一个具有挑战性的方面,对于设计更有效和毒性更低的化合物非常重要[36]。使用生成模型的既定属性[14],我们在所谓的潜空间算术(LSA)实验中测试了我们的三个VAE变体,以预测多药理学细胞状态。我们的结果表明,与PCA和阴性对照基线相比,LSA对MMD-VAE架构效果最好。MMD-VAE允许解开纠缠和有意义的潜在代码,从而支持LSA性能。虽然与实际数据相比,我们使用随机随机洗牌模型的所有MOA的LSA性能仅略好,但有几种可能的解释。首先,MOA注释通常是嘈杂的,不可靠的,并且随着科学家产生有关化合物的新知识,它们会随着时间的推移而变化[37]。然而,药物再利用中心MOA注释是记录最充分的资源之一,因此其他因素,如不同的剂量浓度和非添加剂效应,也可能导致某些化合物组合的LSA性能较弱[17]。细胞绘画读数也可能没有捕获某些在其他形式中具体表现出来的MOA。事实上,我们观察到使用基因表达读数可以更好地预测某些息肉学靶标组合。最后,我们观察到LSA仅在某些MOA组合上表现良好,大多数MOA组合与其洗牌控制的差异可以忽略不计。因此,虽然VAEs模型在Cell Painting数据和LSA中可解释的潜在空间可以作为预测息肉药理学的基线,但其他数据集直接收集有关一组扩展的息肉细胞状态的数据,将能够训练更准确的预测模型[38]。将来,通过预测推断的多药理学的细胞状态,我们还可以使用正交模型(例如[39])推断毒性,并模拟两种化合物如何相互作用的机制。
4. 结论
细胞是生命的基石,当它们受到干扰时,它们会发生变化。有许多方法可以测量,描述和解释这些细胞如何变化。在我们的分析中,我们发现从显微镜图像中得出的形态细胞状态可以通过VAE无监督学习进行建模,以揭示生物学见解。我们发现,我们的几个VAE模型可以重建和模拟形态学数据,对地面真实扰动细胞状态具有高保真度。在分析潜在代码时,我们发现每个潜在空间特征编码了细胞绘画特征的不同组合。这些特征表示在不同的VAE中是唯一的,MMD-VAE编码了细胞绘画通道和细胞室特征组的最大信息。我们的VAE模型不仅能够模拟具有多个靶标的化合物的形态,还能够模拟基因表达细胞状态。具体来说,我们模拟了这些多药理学细胞状态,比随机洗牌和PCA对照更好。几种多药理学细胞状态的表现优于其他状态,对于基因表达和形态学测量的不同MOA组合,具有不同的性能。未来,我们可以使用无监督学习和机制预测来解释不同生物学模式中的细胞状态机制,预测未知的MOA,并表征药物发现和治疗中潜在的脱靶效应。我们在位于 https://github.com/broadinstitute/cell-painting-vae [22] 的开源 GitHub 存储库中提供所有软件、数据和结果。
5. 方法
5.1 数据采集
此前,作为基于集成网络的细胞特征库(LINCS)联盟的一部分,麻省理工学院布罗德研究所和哈佛大学的Connectivity Map团队在六种不同剂量下对A549细胞进行了1,515种不同的药物扰动。他们使用L1000和细胞绘画分析测定法测量了细胞对这些扰动的反应。我们下载了公开可用的LINCS Cell Painting数据集[20]和公开可用的LINCS L1000数据[18]。
简而言之,Cell Painting是一种荧光显微镜检测方法,使用一组六种无偏染料来标记DNA含量,核子,细胞质RNA,内质网(ER),肌动蛋白,高尔基体,质膜和线粒体[31,40]。简而言之,L1000是一种基于珠子的基因表达测定法,用于测量mRNA表达[18]。
5.2 数据处理
对于细胞绘画测定,我们之前使用CellProfiler应用了图像分析管道。以前,我们使用CellProfiler来分割和测量单个细胞的形态特征[16]。然后,我们应用了基于图像的分析管道,其中我们按每次重复的剂量将单个细胞聚集并归一化为化合物谱[26]。我们执行了特征选择,将最初的 1,789 个特征缩小到 584 个特征。我们使用四个标准进行功能选择。我们移除了具有低方差的要素、已列入黑名单的要素、具有缺失值的要素以及具有极高异常值的要素。列入黑名单的特征是那些已知在先前实验中引起问题的特征,极端异常值特征是那些与平均值的值大于15个标准差的特征[41]。这一程序产生了所谓的"4级"配置文件。为了形成"5级"共识特征,我们将4级复制特征折叠为表示复合剂量特征的单个特征。有关完整的处理详细信息,请参阅 https://github.com/broadinstitute/lincs-cell-painting。我们通过对细胞绘画执行0-1归一化来进一步处理细胞绘画数据,因为并非所有特征都在同一尺度上,我们不希望不同的尺度影响特定特征的预测能力。
对于L1000,我们使用先前处理的978个"地标"基因作为我们的输入特征。我们没有包括所有推断的基因,因为这可能会用冗余信息使我们的VAE过载。有关完整的处理详细信息,请参阅 [18]。
作为机器学习模型的输入,我们将数据拆分为80%的训练,10%的验证和10%的测试集,按板分层用于细胞绘画,按细胞系分层用于L1000。实际上,此过程在数据拆分之间均匀分布化合物和MOA。
5.3 变分自动编码器实现
标准 Vanilla VAE [1] 将两个损失函数之和的损失降至最低:重建(通过均方误差 (MSE))和 Kullback-Leibler (KL) 发散。KL 散度鼓励潜在空间样本遵循多元高斯分布。
在β-VAE中,我们将KL发散项乘以常数β[2]。这样做的目的是在潜在代码中实现更大的解缠。我们确定β值的方法将在下一节"5.4训练过程"中介绍。
然而,β-VAEs仍然受到两个主要问题的困扰。首先是"信息偏好属性",如果KL发散项太高,所有z值都将接近前一个p(x),导致在潜空间中编码的有用信息很少。第二个问题是,如果正则化项不够强,我们会得到所谓的"纠缠"潜在表示。β-VAE中的这些权衡导致了最大均值差异(MMD)-VAE的发展,其中科学家将KL发散项完全替换为最小化平均最大差异的项[3]。具体而言,MMD强制聚合的z分布朝向先验而不是每个单独的z(如vanilla和β-VAE),这允许单个z值偏离先前并更灵活地编码信息[42]。此外,就像我们使用β来调整KL发散项的大小一样,我们使用λ来调整MMD-VAE的MMD正则化项的大小。我们使用内核嵌入技巧[43]有效地计算了MMD。
我们对所有 VAE 架构和数据集都使用了 Adam 优化器,并对所有中间层使用了泄漏整流线性激活函数 (Leaky ReLU)。每个模型都是一个两层VAE,这意味着编码器和解码器都有一个隐藏层。此隐藏层具有 250 个用于单元绘制的节点和 500 个用于 L1000 的节点(由输入要素数量的大约一半确定)。
5.4 确定β-VAE中的β
原始的β-VAE论文解释了如何选择β。它指出,如果我们标记了数据,我们应该使用解缠指标。但是,在我们数据未标记的情况下,"通过目视检查每个潜在单位z的遍历对像素空间中生成的图像(x|z)的影响,可以找到β的最佳值。但这也不适用于我们的情况,因为我们没有使用图像。
因此,我们提出了一种确定β的新方法,方法是通过从均匀分布中采样来测量原始训练集和模拟数据点之间的相似性,这是VAE生成模型中的传统方法。为了模拟接近数据原始分布的数据点,VAE 需要在重建和解缠之间取得平衡。它需要良好的重建,因为我们希望模拟数据看起来像真实数据。但我们也需要解开纠缠,因为我们通过从先前的多元高斯采样来模拟数据点,因此VAE受益于KL发散项,该项使z值更接近该分布。
这种方法可能并不完美,并且偏向于低于最优β。这是因为虽然模拟数据受益于一个解缠的潜在空间,但只要潜在代码与前一个代码大致一致,模拟就会是不错的。另一方面,执行LSA还要求每个功能彼此独立;我们需要能够独立调整功能以生成新的看不见的配置文件。因此,此方法确定的β可能低于执行 LSA 的最佳值。尽管如此,使用这种方法仍然会给我们带来比随机选择更好的β。此外,在实践中,我们观察到不同的β对交叉验证性能的影响相对较小。
具体来说,在我们的β优化方法中,我们通过计算原始训练数据与相同数量的模拟数据点之间的Hausdorff距离来测量相似性[44]。因为模拟数据点需要重建和解开的平衡(由β控制),如果我们要用不同的β值多次训练模型,我们会观察到中间β将导致最低的豪斯多夫距离。对于 L1000,β = 40 是最佳的。我们发现,对于我们的 Cell Painting 数据集(级别 4 复制配置文件和级别 5 共识签名),β < 1 是最佳的(单元格绘制级别 5 为 0.3,级别 4 为 0.06)。因此,通过这种方式,我们对细胞绘画的β-VAE的实现与β-VAE的原始概念不同,在β >1中,您可以增加β >以实现解开。对于所有三个数据集,KL背离项的大小(乘以β后)介于总损失(MSE + KLD)的10-30%之间(CP5 0.79/2.37 = 33%,CP4:0.12/0.76 = 15%,L1000:133/1330 = 10%)。
我们首先根据最初的训练观察结果(latent_dim = 50,learning_rate = 0.001,encoder_batch_norm = True,batch_size = 128,epochs = 50)选择一组合理的超参数来保持恒定,然后在许多训练会话中调整β。在确定最佳β(最低豪斯多夫距离)后,我们在超参数扫描期间将此值用作常量,以确定其他超参数的最佳值。
我们使用相同的超参数来训练我们的Vanilla VAE和MMD-VAE。这是因为数据在不同的VAE变体之间保持不变,因此相同的超参数也可能表现良好。此外,由于超参数会对训练性能产生重大影响,因此保持它们一致将是比较这些模型的最佳方法。此外,对于我们测试的许多超参数组合,我们没有观察到交叉验证性能有太大差异。在训练MMD-VAE时,我们首先尝试使用Hausdorff距离方法来找到λ的最优值。但是,增加 λ 对模拟数据没有太大影响,即使我们增加的 λ 远大于 1。因此,我们决定仅通过选择一个大值来选择 λ,该值仍能产生稳定的训练曲线。对于单元格绘画级别 5,此值为 1000,对于单元格绘画级别 4,则为 10,000,对于 L1000,则为 10,000,000。对于所有三个数据集,MMD项的大小(乘以λ后)介于总损失(MSE + MMD)的74-98%之间(CP5:11.07/14.99 = 74%,CP4:14.39/14.75 = 98%,L1000:1948/2514 = 77%)。正则化项的这一比例比β-VAE中的比例要高得多。这种增加MMD-VAE中正则化幅度而几乎没有负面后果的能力是MMD-VAE的一个属性,因为它们的损失函数允许它们在其潜在空间中编码信息,即使正则化项很高。
5.5 超参数优化
使用Keras Tuner,我们对所有三个数据集执行贝叶斯超参数优化,以选择最佳学习速率(1e-2,1e-3,1e-4,1e-5),批大小(32到512,增量为32),潜在维度(5到150,增量为5)和编码器批量归一化(真,假)为两层VAE(表2和S15图)。 对于单元格绘制级别 5 的数据,最佳潜在维度 10 令人惊讶,因为它意味着 10 个特征足以对细胞绘制配置文件进行编码。
thumbnail 下载:-厦门论文杂志期刊发表
个人电脑幻灯片
巴新放大图片
断续器原始图像
表 2. 每个数据集的性能最佳模型的超参数组合。
https://doi.org/10.1371/journal.pcbi.1009888.t002
5.5 细胞画潜伏空间特征解读
最佳细胞绘画5级VAE模型具有10个潜在空间特征。将所有其他潜在空间特征保持在0,我们一次操作一个特征,将+3个标准差与-3个标准差的重建进行比较。由于 p(x) 的σ为 1,因此我们对每个潜在空间特征使用值 3 和 -3。为了比较重建,我们取了两个重建之间差异的绝对值。此输出表示哪些原始单元格绘画特征对单个潜在空间特征的重建贡献最大。我们对所有 10 个潜在空间特征重复了此过程。
5.6 预测息肉细胞状态的潜在空间算术(LSA)方法
我们将 Cell Painting 数据集的所有 50,303 个 4 级和 10,368 个 5 级共识配置文件以及 118,050 个 L1000 配置文件转换为潜在空间,然后按其 MOA 注释对它们进行分组。我们使用了药物再利用中心MOA注释[17]。为了进行LSA,我们首先需要过滤化合物,以仅包括与我们的假设相容的化合物。具体来说,我们只包括满足以下规则的化合物。我们只保留了一个或两个MOA注释的化合物。此外,对于只有一个注释MOA的组,我们仅当它对应于至少一组用两个MOA注释的化合物时才保留它。也就是说,如果有一个组具有MOA"A",则只有当有另一个组具有MOA"A ∩ B"或"A ∩ B"时,我们才会保留该组。"∩"符号表示该化合物具有两种机制的证据。我们还保留了DMSO配置文件(阴性对照),它缺少MOA注释。我们需要保留这个群,因为它是我们LSA方程假设的一部分("A"—"D"+"B"="A∩B")。
对于每个组,我们计算了每个潜在空间特征的平均值,为每个MOA组合提供了长度为10的向量。我们纳入了所有注释化合物的所有剂量,以计算平均潜伏空间特征。然后,对于数据中每个现有的"A ∩ B",我们使用LSA方程对MOA "A","B"和"D"组执行向量加法和减法,使我们能够获得"A ∩ B"的预测潜在空间表示。然后,我们将此预测解码为"A ∩ B"的重建表示,并将此表示与原始的真实数据表示进行比较。MOA 的原始表示是通过对所有要素采用该 MOA 的轮廓的平均值来实现的。该比较是通过计算每种MOA组合的L2距离或Pearson相关性来完成的(见结果)。
为了确定LSA方法是否与随机随机随机对照显着不同,我们随机随机洗牌所有MOA标签,包括DMSO标签,并执行相同的LSA实验。这导致实际 MOA 标签的平均轮廓与在随机轮廓上执行 LSA 的预测轮廓之间的 L2 距离的第二次分布。我们执行了 10 次这种随机排列,以获得随机预测的代表性分布,因此我们的控制分布比未洗牌分布大 10 倍。
为了与阴性对照基线进行比较,我们使用主成分分析(PCA)对10个主成分进行了相同的LSA程序。我们还使用原始数据维度执行了 LSA,没有任何降维。
为了确定我们的VAE可以预测的最佳MOA,我们计算了每个MOA组合的z得分指标。具体而言,对于给定的多药理学MOA"A∩ B",我们比较了两个值:1)预测的细胞状态和地面真实细胞状态之间的L2距离和2)来自随机洗牌的阴性对照的十个细胞状态预测和地面真实细胞状态之间的L2距离的分布。同样,我们使用皮尔逊相关而不是L2距离重复了这一过程。该评估独立测量每个息肉药物MOA"A∩B"的性能,并描述了与随机相比,真实数据的LSA可以预测细胞状态的效果如何。除了计算 z 得分之外,我们还计算了 Cell Painting 和 L1000 的 p 值,并将单样本 z 检验应用于地面实况和随机置换分布。
5.7 计算再现性
本文中用于下载和处理数据、训练所有VAE以及重现所有结果的所有脚本和计算环境都可以在 https://github.com/broadinstitute/cell-painting-vae 中找到[22]。
支持信息
使用细胞绘制 5 级数据(复制配置文件)训练的三个 VAE 模型的训练曲线。
显示 1/15: pcbi.1009888.s001.tiff
跳到无花果导航
https://ndownloader.figstatic.com/files/34184429/preview/34184429/preview.jpg
1 / 15
下载
无花果
S1 图 使用细胞绘制 5 级数据(复制配置文件)训练的三个 VAE 模型的训练曲线。
我们以三种VAE变体显示了真实和随机数据的训练和验证曲线:(a)Vanilla VAE,(b)β-VAE和(c)MMD-VAE。随机数据的 MMD-VAE 训练曲线表明它是不稳定的。我们认为,造成这种情况的一个重要原因是,与最优的 Beta 或 Vanilla VAE 相比,最优 MMD-VAE 具有更高的正则化项,这更加强调形成正态潜伏分布。强制 VAE 将随机分布一致地编码为正态分布的潜在分布将是困难的,因此可能会导致跨纪元的训练曲线振荡。
https://doi.org/10.1371/journal.pcbi.1009888.s001
(TIFF)
S2 图 使用细胞绘制 4 级数据(复制配置文件)训练的三个 VAE 模型的训练曲线。
我们以三种VAE变体显示了真实和随机数据的训练和验证曲线:(a)Vanilla VAE,(b)β-VAE和(c)MMD-VAE。
https://doi.org/10.1371/journal.pcbi.1009888.s002
(TIFF)
S3 图 使用 L1000 5 级数据训练的三个 VAE 模型的训练曲线(复制配置文件)。
我们以三种VAE变体显示了真实和随机数据的训练和验证曲线:(a)Vanilla VAE,(b)β-VAE和(c)MMD-VAE。
https://doi.org/10.1371/journal.pcbi.1009888.s003
(TIFF)
S4 图
测试集中 [A] Cell Painting 4 级重复配置文件和 [B] L1000 级别 5 共识配置文件的原始、重建和模拟数据的二维 UMAP 嵌入。我们仅使用原始测试集数据拟合 UMAP,并将重建和模拟的数据转换为此空间。我们通过从与潜在空间具有相同维度的单位高斯采样来模拟数据。我们模拟了与测试集中的样本相同的点数。
https://doi.org/10.1371/journal.pcbi.1009888.s004
(TIFF)
S5 图 在细胞绘画5级共识特征上训练的VAE的潜在空间特征成对相关热图。
较低的相关性表明潜伏空间中的解缠。我们显示了所有三种 VAE 变体的热图:Vanilla VAE、β-VAE 和 MMD-VAE。
https://doi.org/10.1371/journal.pcbi.1009888.s005
(TIFF)
S6 图 比较三个 VAE 变体中细胞绘画 5 级输入数据的特征方差与特征重建。
我们按图像通道和隔间对特征类别进行分层。
https://doi.org/10.1371/journal.pcbi.1009888.s006
(TIFF)
S7 图 细胞形态学VAE潜伏空间贡献由细胞普罗费尔体特征.
在训练过程中,VAE 学习表示输入特征的潜在空间嵌入。在这里,我们系统地孤立地修改每个潜在空间特征(通过模拟每个潜在特征+/- 3个标准偏差,通过解码器,并减去原始数据;请参阅方法以获取完整的详细信息)。每个方块表示重建的极端潜在特征模拟之间的均值差。CellProfiler特征通过五个成像通道和AreaShape特征代表三个不同的细胞区室。VAE架构中的每个潜在特征都捕获了CellProfiler特征的不同组合。我们显示了所有三个VAE变体(Vanilla VAE,β-VAE和MMD-VAE)以及PCA模型的前10个组件的热图。
https://doi.org/10.1371/journal.pcbi.1009888.s007
(TIFF)
S8 图 潜在空间算术的全L2距离分布,用于预测多药理学。
我们进行了潜伏空间算术来预测多药理化合物的细胞状态。这使我们能够计算出随机和真实数据的预测和实际之间的L2距离,对应于每个MOA。我们为所有三个数据集和所有三个 VAE 变体生成了分布。
https://doi.org/10.1371/journal.pcbi.1009888.s008
(TIFF)
S9 图 真实值和预测值之间的相关性。
对于三种不同的VAE架构,PCA和原始输入空间,用已知的多药理学("A ∩ B")作用机制(MOA)注释的真实和预测轮廓之间的平均皮尔逊相关性(更高更好)。我们使用5级细胞绘画输入数据进行LSA预测。
https://doi.org/10.1371/journal.pcbi.1009888.s009
(TIFF)
S10 图 MOA 可预测性与特征距离的比较。
散点图,用于可视化 MOA 可预测性(- 对数值 p 值)与该 MOA 与细胞绘制级别 5 MMD-VAE 中平均像元绘制特征值之间的距离之间的关系。Y 轴上的值越高表示可预测性越高,X 轴上的值越高,表示 L2 距离所有剖面图的平均值。
https://doi.org/10.1371/journal.pcbi.1009888.s010
(TIFF)
S11 图 将真实 MOA 单元状态与 10 个随机随机随机洗牌的 LSA 排列进行比较,用于单元格绘制 5 级数据的 LSA z 得分分布。
蓝线居中为 0。L2 距离图蓝线左侧的所有 MOA 的预测都优于随机,皮尔逊相关图中蓝线右侧的所有 MOA 的预测都优于随机。红线表示所有 z 得分的平均值,因此 L2 距离的平均值越低越好,皮尔逊相关性的平均值越高越好。
https://doi.org/10.1371/journal.pcbi.1009888.s011
(TIFF)
S12 图 "五个省略"MOA 实验表明,在没有某些化合物的情况下,学习能力很强。
原始息肉药理学MOA预测潜在空间性能与重新训练VAE后的性能相比,前五个MOA组合被遗漏了。轴表示 LSA 实验中真实多药理细胞状态和洗牌细胞状态之间 L2 距离的 -log10 p 值。红色点代表我们从y轴上的模型中省略的多药理学MOA。
https://doi.org/10.1371/journal.pcbi.1009888.s012
(TIFF)
S13 图 MOA的再现性和可预测性。
MOA再现性(真实和重建MOA之间的中位数成对相关性)与MOA可预测性(LSA实验中真实和预测MOA之间的相关性)之间的强相关性。
https://doi.org/10.1371/journal.pcbi.1009888.s013
(TIFF)
S14 图 MOA化合物类别与MOA的可预测性之间没有关联。
https://doi.org/10.1371/journal.pcbi.1009888.s014
(TIFF)
S15 图 可视化使用 Hiplot 在细胞绘制 5 级数据上训练的双层 VAE 的超参数优化结果。
每行表示单个超参数组合。我们分别在最后两列中显示了训练和验证损失。
https://doi.org/10.1371/journal.pcbi.1009888.s015
(TIFF)-厦门论文杂志期刊发表
确认
我们要感谢Rachel Gesserman和Michael Mavros对Broad Summer Scholars Program(BSSP)的支持和协调。我们感谢Paul Clemons就药物再利用中心的作用机制进行的讨论。
引用
1.Kingma DP,Welling M.自动编码变分贝叶斯。arXiv [stat.ML].2013. 适用: http://arxiv.org/abs/1312.6114v10
查看文章谷歌学术搜索
2.Higgins I, Matthey L, Pal A, Burgess C, Glorot X, Botvinick M, et al. beta-VAE: Learning Basic Visual Concepts with a Constrained Variational Framework.2016年[引用于2021年8月16日]。可供应: https://openreview.net/pdf?id=Sy2fzU9gl
查看文章谷歌学术搜索
3.Zhao S, Song J, Ermon S. InfoVAE: Balanceing Learning and Inference in Variational Autoencoders.AAAI人工智能会议论文集.2019. 第5885–5892页.
查看文章谷歌学术搜索
4.Xue Y, Ding MQ, Lu X. 学习用深度生成模型编码细胞对系统扰动的反应。NPJ系统生物学应用2020;6:35。pmid:33159077
查看文章PubMed/NCBI谷歌学术搜索
5.Lotfollahi M, Wolf FA, Theis FJ.scGen预测单细胞扰动反应。Nat 方法。2019;16: 715–721.pmid:31363220
查看文章PubMed/NCBI谷歌学术搜索
6.Rampá?ek L,Hidru D,Smirnov P,Haibe-Kains B,Goldenberg A. Dr.VAE:通过药物扰动效应建模改进药物反应预测。生物信息学。2019;35: 3743–3751.pmid:30850846
查看文章PubMed/NCBI谷歌学术搜索
7.Lopez R, Regier J, Cole MB, Jordan MI, Yosef N. 单细胞转录组学的深度生成建模。Nat 方法。2018;15: 1053–1058.pmid:30504886
查看文章PubMed/NCBI谷歌学术搜索
8.Way GP,Greene CS.使用变分自动编码器从癌症转录组中提取生物学相关的潜伏空间。Pac Symp Biocomput.2018;23.可用: 下午 https://pubmed.ncbi.nlm.nih.gov/29218871/:29218871
查看文章PubMed/NCBI谷歌学术搜索
9.Levy JJ, Titus AJ, Petersen CL, Chen Y, Salas LA, Christensen BC.MethylNet:一种用于DNA甲基化分析的自动化和模块化深度学习方法。BMC 生物信息学。2020;21: 1–15.pmid:31898485
查看文章PubMed/NCBI谷歌学术搜索
10.Lafarge MW,Caicedo JC,Carpenter AE,Pluim JPW,Singh S,Veta M.通过无监督表示学习捕获单细胞表型变异。医学成像与深度学习国际会议 - 全文轨道。2018. 可用: https://openreview.net/pdf?id=HyxX96_xeN
查看文章谷歌学术搜索
11.Ternes L, Dane M, Gross S, Labrie M, Mills G, Gray J, et al. ME-VAE: Multi-Encoder Variational AutoEncoder,用于控制单细胞图像分析中的多个转换特征。2021.
查看文章谷歌学术搜索
12.金梅尔JC.解开单细胞RNA-seq实验的潜在表征。生物Rxiv.2020. p. 2020.03.04.972166.
查看文章谷歌学术搜索
13.Zhang C. 使用MMD变异自动编码器进行单细胞数据分析,以获得更翔实的潜在表示。生物Rxiv.2019. 第613414页.
查看文章谷歌学术搜索
14.Radford A, Metz L, Chintala S. 无监督表示学习与深度卷积生成对抗网络.2015. 可用: http://arxiv.org/abs/1511.06434
查看文章谷歌学术搜索
15.Goldsborough P,Pawlowski N,Caicedo JC,Singh S,Carpenter A. Cytogan:细胞图像的生成建模。生物Rxiv.2017.
查看文章谷歌学术搜索
16.McQuin C, Goodman A, Chernyshev V, Kamentsky L, Cimini BA, Karhohs KW, et al. CellProfiler 3.0: 下一代生物学图像处理.PLoS Biol. 2018;16: e2005970.下午:29969450
查看文章PubMed/NCBI谷歌学术搜索
17.Corsello SM, Bittker JA, Liu Z, Gould J, McCarren P, Hirschman JE, et al.药物再利用中心:下一代药物库和信息资源。Nat Med. 2017;23: 405–408.pmid:28388612
查看文章PubMed/NCBI谷歌学术搜索
18.Subramanian A, Narayan R, Corsello SM, Peck DD, Natoli TE, Lu X, et al.下一代连接地图:L1000 平台和前 1,000,000 个配置文件。细胞。2017;171: 1437–1452.e17.下午:29195078
查看文章PubMed/NCBI谷歌学术搜索
19.Chandrasekaran SN, Ceulemans H, Boyd JD, Carpenter AE.用于药物发现的基于图像的分析:是否应进行机器学习升级?Nat Rev Drug Discov.2021;20: 145–159.pmid:33353986
查看文章PubMed/NCBI谷歌学术搜索
20.Natoli T, Way G, Lu X, Cimini B, Logan D, Karhohs K, et al. broadinstitute/lincs-cell-painting: LINCS Cell Painting 数据集的完整发布。2021.
查看文章谷歌学术搜索
21.Bergstra J,Yamins D,Cox D.制作模型搜索的科学:视觉架构数百个维度中的超参数优化。在:Dasgupta S,McAllester D,编辑。第30届机器学习国际会议论文集.亚特兰大,佐治亚州,美国:PMLR;2013. 第115–123页.https://doi.org/10.1161/CIRCULATIONAHA.113.003334 pmid:24077170
22.Chow YL,Way G. broadinstitute/cell-painting-vae:用于药物多药理学预测的可重复软件。用于药物多药学预测的可重复软件。2021.
查看文章谷歌学术搜索
23.McInnes L,Healy J,Melville J. UMAP:用于降维的均匀流形近似和投影。arXiv [stat.ML].2018. 可用: http://arxiv.org/abs/1802.03426
查看文章谷歌学术搜索
24.Proschak E,Stark H,Merk D.多药理学设计:药物化学家对多目标化合物的看法。医学化学学报. 2019;62: 420–444.pmid:30035545
查看文章PubMed/NCBI谷歌学术搜索
25.Way GP, Natoli T, Adeboye A, Litichevskiy L, Yang A, Lu X, et al.形态学和基因表达谱分析为绘制细胞状态提供了补充信息。生物Rxiv.2021. p. 2021.10.21.465335.
查看文章谷歌学术搜索
26.Caicedo JC, Cooper S, Heigwer F, Warchal S, Qiu P, Molnar C, et al.用于基于图像的细胞分析的数据分析策略。Nat 方法。2017;14: 849–863.pmid:28858338
查看文章PubMed/NCBI谷歌学术搜索
27.杨KD, Belyaeva A, Venkatachalapathy S, Damodaran K, Katcoff A, Radhakrishnan A, et al.使用自动编码器在单细胞成像和测序数据之间进行多域转换。纳特公社。2021;12: 1–10.pmid:33397941
查看文章PubMed/NCBI谷歌学术搜索
28.Caicedo JC, Moshkov N, Becker T, Yang K, Horvath P, Dancik V, et al.从表型特征和化学结构预测化合物活性。生物Rxiv.2021. p. 2020.12.15.422887.
查看文章谷歌学术搜索
29.Haghighi M,Singh S,Caicedo J,Carpenter A.28,000种遗传和化学扰动中细胞的高维基因表达和形态学谱。生物Rxiv.2021. p. 2021.09.08.459417.
查看文章谷歌学术搜索
30.朱俊妍,朴T,伊索拉P,埃夫罗斯AA。使用周期一致的对抗网络进行不成对的图像到图像转换。arXiv [cs.CV]. 2017.可供应: http://arxiv.org/abs/1703.10593
查看文章谷歌学术搜索
31.Bray M-A, Singh S, Han H, Davis CT, Borgeson B, Hartland C, et al. Cell Painting,一种基于高内涵图像的测定,用于使用多重荧光染料进行形态学分析。Nat Protoc.2016;11: 1757–1774.pmid:27560178
查看文章PubMed/NCBI谷歌学术搜索
32.Lucas AM, Ryder PV, Li B, Cimini BA, Eliceiri KW, Carpenter AE.用于生物图像分割的开源深度学习软件。摩尔生物细胞。2021;32: 823–829.下午:33872058
查看文章PubMed/NCBI谷歌学术搜索
33.Ounkomol C, Seshamani S, Maleckar MM, Collman F, Johnson GR. 来自透射光显微镜的三维荧光图像的无标记预测。Nat 方法。2018;15: 917–920.下午:30224672
查看文章PubMed/NCBI谷歌学术搜索
34.周伟, 阿尔特曼 RB.由独立成分分析确定的数据驱动的人类转录组学模块。BMC 生物信息学。2018;19: 1–25.下午:29291722
查看文章PubMed/NCBI谷歌学术搜索
35.Way GP,Zietz M,Rubinetti V,Himmelstein DS,Greene CS.使用多个潜在空间维度压缩基因表达数据学习互补生物学表征。基因组生物学. 2020;21: 109.pmid:32393369
查看文章PubMed/NCBI谷歌学术搜索
36.Reddy AS,张S.多药理学:未来的药物发现。专家 Rev Clin Pharmacol.2013;6: 41–47.pmid:23272792
查看文章PubMed/NCBI谷歌学术搜索
37.Cox MJ, Jaensch S, Van de Waeter J, Cougnaud L, Seynaeve D, Benalla S, et al.1,008个小分子的故事:在报告细胞系中通过活细胞成像进行表型分析。科学代表2020;10:13262。pmid:32764586
查看文章PubMed/NCBI谷歌学术搜索
38.Caldera M, Müller F, Kaltenbrunner I, Licciardello MP, Lardeau C-H, Kubicek S, et al.映射细胞扰动的扰动网络。纳特公社。2019;10: 5140.下午:31723137
查看文章PubMed/NCBI谷歌学术搜索
39.Way GP, Kost-Alimova M, Shibue T, Harrington WF, Gill S, Piccioni F, et al.使用基于图像的形态学分析预测细胞健康表型。摩尔生物细胞。2021;32: 995–1005.pmid:33534641
查看文章PubMed/NCBI谷歌学术搜索
40.Gustafsdottir SM, Ljosa V, Sokolnicki KL, Anthony Wilson J, Walpita D, Kemp MM, et al.多重细胞学分析测定,以测量不同的细胞状态。PLoS One.2013;8: e80999.pmid:24312513
查看文章PubMed/NCBI谷歌学术搜索
41.方式 G. 块列表功能 — 单元格探查器。2020.
查看文章谷歌学术搜索
42.野生CM。强大的力量伴随着糟糕的潜在代码:VAE中的表征学习(第2点)。在:迈向数据科学[互联网]。2018年5月7日[引用于2021年8月17日]。可供应: https://towardsdatascience.com/with-great-power-comes-poor-latent-codes-representation-learning-in-vaes-pt-2-57403690e92b
查看文章谷歌学术搜索
43.赵S.关于信息最大化变分自动编码器(InfoVAE)的教程。[引用于2021年8月17日]。可供应: https://ermongroup.github.io/blog/a-tutorial-on-mmd-variational-autoencoders/
查看文章谷歌学术搜索-厦门论文杂志期刊发表
44.比尔桑 T, 蒂巴 D.自迪米特里·庞培引入设定距离以来的一百年。IFIP国际信息处理联合会。波士顿:克鲁沃学术出版社;2006. 第35–39页.