《免费医学论文-使用特征选择和阈值基因集评分的单细胞RNA测序数据的监督细胞表面受体丰度估计策略》期刊简介
免费医学论文-使用特征选择和阈值基因集评分的单细胞RNA测序数据的监督细胞表面受体丰度估计策略
抽象
准确估计单细胞转录组学数据的细胞表面受体丰度对于细胞类型和表型分类以及细胞间相互作用定量的任务非常重要。我们之前开发了一种名为SPECK(使用基于CKmeans的聚类阈值的表面蛋白丰度估计)的无监督受体丰度估计技术,以解决与准确丰度估计相关的挑战。在那篇论文中,我们得出结论,与仅使用单细胞RNA测序(scRNA-seq)数据的比较无监督丰度估计技术相比,SPECK与测序转录组和表位的细胞索引(CITE-seq)数据的一致性有所提高。在本文中,我们概述了一种新的监督受体丰度估计方法,称为STREAK(使用调整距离和cKmeans阈值的基于基因集测试的受体丰度估计),该方法利用从联合scRNA-seq/CITE-seq训练数据中学习的关联和阈值基因集评分机制来估计scRNA-seq靶数据的受体丰度。我们使用两种评估方法在代表四种人类和小鼠组织类型的六个联合scRNA-seq/CITE-seq数据集上使用两种评估方法来评估STREAK相对于无监督和监督的受体丰度估计技术。我们得出的结论是,STREAK优于其他丰度估计策略,并提供了一个更具生物学可解释性和透明度的统计模型。
作者摘要
在这里,我们概述了我们最近开发的监督受体丰度估计技术STREAK(使用调整距离和cKmeans阈值的基于基因集测试的受体丰度估计),该技术利用从联合scRNA-seq/CITE-seq数据中学习的共表达关联来执行近似丰度估计。更具体地说,STREAK通过利用这些表达关联来开发加权成员基因集来发挥作用,这些基因集在基因集评分程序之后进行下一个阈值化。这些阈值分数设置为估计丰度曲线。
我们使用两种不同的评估方法验证 STREAK 相对于无监督和监督估计方法,其中包括交叉验证和交叉训练策略,以及大约四种不同的组织类型,包括外周血单核细胞、间皮细胞、单核细胞和淋巴组织。我们得出的结论是,STREAK通过相对更具生物学可解释性和透明度的统计模型优于比较受体丰度估计方法,该模型由VAM(方差调整马氏距离测量)可定制的基因集评分程序促进。
数字
Fig 11Fig 12Fig 13图1表1表2Fig 2Fig 3Fig 4Fig 5Fig 6Fig 7Fig 8Fig 9Fig 10Fig 11Fig 12Fig 13图1表1表2
引文: Javaid A,Frost HR (2023) STREAK:使用特征选择和阈值基因集评分的单细胞 RNA 测序数据的监督细胞表面受体丰度估计策略。公共科学图书馆计算生物学19(8): e1011413. https://doi.org/10.1371/journal.pcbi.1011413
编辑 器: 埃琳娜·帕帕莱奥, 丹麦癌症协会研究中心
收到: 6月 2022, 7;接受: 2023月 21, 2023;发表: <>月 <>, <>
版权: ? 2023 爪哇,弗罗斯特。这是一篇根据知识共享署名许可条款分发的开放获取文章,该许可允许在任何媒体上不受限制地使用、分发和复制,前提是注明原作者和来源。
数据可用性: 所有相关数据都在手稿及其支持信息文件中。请参阅我们的 Github 存储库,了解相关的 STREAK 包,网址为 [https://github.com/azkajavaid/STREAK]。
资金: 这项工作由美国国立卫生研究院拨款R35GM146586,R21CA253408,P20GM130454和P30CA023108资助。资助者在研究设计、数据收集和分析、发表决定或手稿准备方面没有任何作用。没有作者从任何资助者那里获得薪水。
竞争利益: 提交人声明不存在相互竞争的利益。
介绍
单细胞RNA测序(scRNA-seq)技术,如10X Chromium系统[1],现在可以经济高效地分析从单个组织样本中解离的数万个细胞中的基因表达[2,3]。通过scRNA-seq捕获的转录组学数据使研究人员对构成复杂组织(如肿瘤微环境或大脑)的细胞类型和表型有了前所未有的了解。单细胞转录组学还可以促进细胞间信号传导的表征[4]以及共调控遗传模块和基因调控网络的鉴定[5]。这些细胞类型/表型鉴定和细胞间相互作用分析任务的关键要素是准确估计受体蛋白丰度。虽然有时可以通过直接受体蛋白测量,但在scRNA-seq分析之前通过基于荧光激活细胞分选(FACS)的[6]富集或通过联合scRNA-seq/CITE-seq(通过测序对转录组和表位进行细胞索引)[7]分析,大多数单细胞数据集仅捕获基因表达值。对于此类数据,可以使用监督方法(即,利用在联合转录组/蛋白质组学训练数据上学习的关联的方法)或无监督方法(即,从目标scRNA-seq数据生成估计而不参考训练模型的方法)生成受体丰度估计值。
估计受体丰度的常见无监督方法使用相关mRNA转录本的表达作为受体蛋白的代表。虽然这种方法是合理的,但由于scRNA-seq数据的显著稀疏性,它通常会导致低质量的估计[8]。来自Zheng等人的FAC分选免疫细胞的scRNA-seq数据很好地说明了这种稀疏性问题[1],该数据发现很大一部分细胞没有可检测到的转录本表达,其相应的受体在这些细胞中正表达,例如,只有20%的CD19 + B细胞表达CD19转录本。
为了克服scRNA-seq稀疏性,标准的生物信息学工作流程使用受体转录物在大群体或细胞簇中的平均表达来估计受体蛋白丰度。尽管基于聚类的分析可以缓解稀疏性,但它有两个主要限制。首先,它假设受体丰度在给定簇中的所有细胞中是均匀的,忽略了簇异质性中潜在的显着性。其次,它只产生少量独立的受体丰度估计(每个簇一个),这限制了对不同受体联合分布的洞察力。单细胞转录组学的一个关键优点是样本量的急剧增加,每个细胞提供不同的表达谱。这些大样本量可以显着改善对基因表达值的边际和联合分布的估计。为了支持受体丰度的无簇估计,我们最近开发了使用基于CKmeans的聚类阈值(SPECK)方法的表面蛋白丰度估计。SPECK使用scRNA-seq数据的低秩重建,然后对重建的基因表达值进行基于聚类的阈值,以生成受体转录物的非稀疏估计。虽然SPECK方法明显优于直接使用受体转录本的幼稚方法和基于比较降低秩重建(RRR)的丰度估计策略,但对于几种生物学上重要的受体,例如蛋白质丰度与转录本表达不密切相关的受体(例如CD69)的准确性较差[9].对于这些受体,需要一种监督方法,可以利用联合转录组/蛋白质组学数据来鉴定与蛋白质丰度最密切相关的基因表达特征。
现有的受体丰度估计监督方法包括cTP-net(使用深度神经网络进行单细胞转录组到蛋白质预测)[10]和PIKE-R2P(基于蛋白质 - 蛋白质相互作用网络的知识嵌入,图形神经网络用于单细胞RNA到蛋白质预测)[11]。cTP-net在联合scRNA-seq/CITE-seq训练数据上使用多分支深度神经网络(MB-DNN),为目标scRNA-seq数据生成细胞水平的表面蛋白丰度估计值。虽然使用cTP-net生成的丰度估计值与相应的蛋白质测量值高度相关,但目前仅支持选择24种免疫表型标记/受体。此外,由于cTP-net使用在相同的免疫细胞群(即外周血单核细胞(PBMC),脐带血单核细胞(CBMC)和骨髓单核细胞(BMMC))上训练的深度学习模型通过迁移学习进行估计,因此可能无法捕获特定于单个数据集或更广泛地推广到非免疫相关表面标志物的基因表达模式。PIKE-R2P使用基于蛋白质-蛋白质相互作用(PPI)的图神经网络(GNN)与先验知识嵌入集成来估计受体丰度值。该方法假设由于基因表达调控机制可能在蛋白质之间共享,因此这种相似性可用于产生蛋白质 - 蛋白质相互作用,然后可以在GNN中利用。与cTP-net一样,PIKE-R2P仅限于对一小群10个受体的模型预测结果进行分析和评估。基于神经网络的模型(如PIKE-R2P和cTP-net)的第二个重要限制是,通过训练过程检索到的权重通常不够透明或生物学可解释,无法由医生手动微调。
鉴于SPECK等无监督方法的性能问题以及现有监督估计技术(如cTP-net)的支持、推广性和适用性有限,需要替代受体丰度估计方法。在这里,我们提出了一种用于scRNA-seq数据的细胞水平受体丰度估计的新型监督方法,称为STREAK(使用调整距离和cKmeans阈值的基于基因集测试的受体丰度估计),该方法利用从联合scRNA-seq/CITE-seq训练数据中学习的共表达关联对目标scRNA-seq数据进行阈值基因集评分。我们在代表大约五种不同组织类型的六个数据集上验证了 STREAK,并将其性能与无监督的受体丰度估计技术(如 SPECK 和标准化 RNA 转录本计数)以及监督方法进行了比较。除了利用从cTP-net等单独训练数据集中学习的训练关联的监督受体丰度估计技术外,我们还根据随机森林(RF)和支持向量机(SVM)算法评估STREAK,这些算法是在与目标数据相同的联合scRNA-seq/CITE-seq训练数据的一小部分独立细胞子集上进行训练的。后者与RF和SVM模型的监督比较是由最近的一项研究推动的,该研究分析了基于树的集成方法和神经网络的性能,发现RF在受体丰度估计任务中比神经网络具有更好的性能[12]。我们不与 PIKE-R2P 进行比较,因为虽然 Github 上存在初始实现,但上游包依赖项没有充分记录。我们使用Spearman秩相关系数评估估计的受体丰度谱与CITE-seq ADT数据之间的所有比较。总体而言,我们观察到STREAK相对于六个分析数据集的比较方法具有更好的性能,这突出了我们提出的估计方法的准确性和可推广性。此外,由于STREAK允许为随后的基因集评分指定自定义基因权重,因此作为一种可解释和适应性强的受体丰度估计策略具有巨大的临床实用性。
材料和方法
条纹方法概述
STREAK使用从联合基因表达和蛋白质丰度数据中学习的训练关联对靶scRNA-seq数据进行受体丰度估计(见图1)。这些关联用于构建加权受体成员基因集,每个受体的集合包含其标准化和重建的scRNA-seq表达值与CITE-seq蛋白丰度最密切相关的基因(参见流程图 1)。接下来在基因集评分步骤中利用加权基因集为每个受体生成细胞特异性评分。最后,将阈值机制应用于结果分数,并将估计丰度估计值设置为该阈值输出(参见流程 2)。
缩略图 下载:
.PPT幻灯片
.PNG大图
.TIFF原始图像
图1.
STREAK示意图,步骤(1)对应于训练共表达分析,步骤(2)对应于基因集评分以及随后的聚类和阈值,以实现细胞特异性估计的受体丰度谱。
https://doi.org/10.1371/journal.pcbi.1011413.g001
算法 1条纹算法(受体基因集构建)
Require: —scRNA-seq training counts
Require: —CITE-seq training counts
Ensure: —Gene sets weighted membership matrix
??Normalization and RRR of training data
1:
??Co-expression analysis
2: for i ← 1 to h do ?? Associations between scRNA-seq and CITE-seq training data
3: ?for j ← 1 to n do
4: ?
5: ?ry ← rank(XtP[, i])
6: ? ??? Pearson correlation on rank data (i.e., Spearman rank correlation)
7: ?end for
8: end for
Algorithm 2 STREAK Algorithm (Receptor abundance estimation)
Require: —scRNA-seq target counts
Require: —Gene sets weighted membership matrix
Ensure: —Estimated abundance profiles
??Normalization and RRR of target data
1:
??Gene set scoring and thresholding
2: for k ← 1 to h do
3: ?topGenes ← names(A[1 : 10, k])
4: ?topGenesWeights ← A[1 : 10, k]
5: ? 前 10 个共表达最多的基因
6:vamOut←vam(testRRR,基因。权重 = 顶部基因权重,γ = T,中心 = F) ? 基因集评分
7: vamCDF ← vamOut[“cdf.value”]
8: vamSqDist ← vamOut[“distance.sq”]
9: ckRes ← Ckmeans.1 d.dp(vamSqDist, k = c(1 : 4)) ? 细胞特定平方距离的聚类
10: numCluster ← ckRes[“cluster”]
11: valCenters ← ckRes[“centers”]
12: 如果长度(价值中心) > 1 则
13: minVal ← 其中(valCenters = min(valCenters))
14: minNum ← which(numCluster = minVal)
15: vamCDF[minNum] ← 0 ? 细胞特异性基因集评分的阈值
16:如果结束
17: SR← vamCDF
18:结束
受体基因集构建
为了生成所有支持的受体的加权基因集,我们对联合scRNA-seq/CITE-seq训练数据进行了共表达分析。然而,重要的是要注意,STREAK使用的加权基因集可以使用替代方法生成,例如,根据先前的生物学知识手动指定。本文所用训练过程的第一步生成,一个秩k重建的1× n 训练 scRNA-seq 基质 XtR保持 m 中 n 个基因的对数归一化基因表达计数1细胞。scRNA-seq数据的RRR是使用来自rsvd R包[13]的随机SVD算法进行的,该算法基于SPECK论文[9]中提出的秩选择程序,该程序利用非中心样本主成分的标准差变化率来计算估计的秩k。类似的 m1× h CITE-seq 计数矩阵 X卫生纸从联合scRNA-seq/CITE-seq训练数据使用中心对数比(CLR)变换进行归一化。对数归一化和CLR变换均使用修拉[14-17]进行。在归一化和RRR之后,和 X卫生纸基质用于定义每个H支持的受体的基因集,每个受体的集合包含其重建表达值的基因与来自X的相应受体的标准化CITE-seq值具有最大的正Spearman秩相关性卫生纸.秩相关值也用于定义每组中基因的正权重。对于本文报告的结果,使用了10的基因集大小。
受体丰度估计
单细胞基因集评分。
给定h靶受体的加权基因集,我们使用阈值单细胞基因集评分机制来生成受体丰度估计值。对于一个米2× n 矩阵 XR保存 m 的 scRNA-seq 数据2细胞和n基因,我们首先进行归一化和RRR以输出m2× n 矩阵 .接下来,我们使用方差调整马氏体(VAM)基因集评分[18]方法计算每个h靶受体的细胞水平评分。
执行 VAM 方法需要两个输入矩阵:
: 一米2× n scRNA-seq 靶基质,包含 n 个基因的正归一化和 RRR 计数(以 m 为单位)2 cells.
A: a n × h matrix that captures the weighted annotation of n genes to h gene sets, i.e., gene sets for each of the h receptor proteins. If gene i is included in gene set j, then element ai,j holds the gene weight, otherwise, ai,j is not defined.
VAM outputs a m2× h 矩阵 M,用于保存 m 的细胞特异性平方修饰马氏距离2细胞和 H 基因集,以及 M2× h 矩阵 S,用于保存 m 的细胞水平分数2细胞和H基因集。矩阵 M 和 S 的计算详述如下(有关更多详细信息,请参见 VAM 论文 [18])。
技术方差估计:首先使用修拉方差分解方法计算保持每个基因技术方差的长度n载体,用于对数归一化或SCTransform归一化数据[19]。或者,可以将元素设置为每个基因的样本方差,假设观察到的每个基因的边际方差完全是技术性的。
修正马氏距离计算:给定 M,a m2× h矩阵的修正马氏距离的平方值,M的每一列k(包含基因集k的细胞水平平方距离)计算为: 其中g对应于基因集k的大小,Xk是 m2× 包含与集合 k 的成员相关的 g 列的 g 矩阵(即 A 的列 k 的 g 元素具有非零值),Ig是一个 G × G 恒等矩阵,包含与集合 K 中的 G 基因相关的元素。为了优先考虑权重大的基因,载体的元素除以 A 的 k 列的相应元素。这种修饰将缩小具有大权重的基因的有效方差,从而导致更大的马氏距离。修改的马氏距离还重新计算在一个版本上,其中每列的行标签是随机排列的,该版本捕获了H0中的归一化和RRR表达值仅与技术方差无关。十p从而表示行排列版本和 Mp表示 m2× h 矩阵,包含根据 X 计算的平方修正马氏距离p.
伽马分布拟合:伽马分布单独拟合到 M 的每一列中的非零元素p使用最大似然法。或者,伽马分布可以直接拟合在 M 上,以减轻生成 X 的计算成本p和米p.
细胞特异性评分计算:细胞水平的基因集评分(矩阵 S)定义为 M 中每个元素的伽马累积分布函数 (CDF) 值。
一维聚类和阈值。
在生成细胞特异性平方距离、基质 M 和细胞特异性基因集评分(基质 S)后,我们使用 Ckmeans.1 d。来自 Ckmeans.1d.dp v3.3.3 [20, 21] 的 dp 算法,用于对 M 执行一维聚类。M的每一列k,保存基因集k的细胞特异性平方距离,与<>到<>之间的计算簇数进行聚类。如果鉴定出多个簇,则对应于类似矩阵 S 中 k 的最小值簇索引的所有非零细胞特异性基因集评分都设置为零。保留了与最小值聚类的索引对应的所有零值,以及对应于k的高值聚类索引的剩余非零值和零值。如果仅鉴定出一个M的基因集k簇,则不执行阈值,并且保留S的基因集k的类似细胞特异性基因集评分作为估计丰度谱。
Evaluation
Datasets.
Comparative evaluation of STREAK was performed on six publicly accessible joint scRNA-seq/CITE-seq datasets generated on approximately four human and one mouse tissue types: 1) the Hao et al. [14] human PBMC dataset (GEO [22] series GSE164378) contains 161,764 cells profiled using 10X Chromium 3’ with 228 TotalSeq A antibodies, 2) the Unterman et al. [23] human PBMC dataset (GEO series GSE155224) contains 163,452 cells profiled using 10X Chromium 5’ with 189 TotalSeq C antibodies, 3) the 10X Genomics [24] human extranodal marginal zone B-cell tumor/mucosa-associated lymphoid tissue (MALT) dataset contains 8,412 cells profiled using 10X Chromium 3’ with 17 TotalSeq B antibodies, 4) the Lakkis et al. [25] human blood monocyte and dendritic cell dataset profiled with 238 antibodies, 5) the Ma et al. [26] malignant peritoneal mesothelioma (MPEM) dataset profiled with 46 antibodies and 6) the Gayoso et al. [27] mus musculus dataset (GSE150599) profiled with 102 mouse antibodies. Hao data was generated on PBMC samples obtained from eight volunteers enrolled in a HIV vaccine trial [28, 29], with age ranging from 20 to 49 years. In comparison, the PBMC samples for the Unterman data were obtained from 10 COVID-19 patients and 13 matched controls with a mean age of 71 years. The two PBMC datasets thus consisted of different underlying patient populations with varying age ranges. All six scRNA-seq/CITE-seq datasets were processed using Seurat v.4.1.0 [14–17] in R v.4.1.2 [30].
我们使用两种方法进行方法评估。首先,我们使用5倍交叉验证策略,其中我们利用来自六个联合scRNA-seq/CITE-seq数据集中的每一个的细胞子集作为训练数据,并利用同一数据集的第二个不同子集作为目标数据。这种方法适用于分析场景,其中仅捕获来自原始较大细胞群的细胞子集的联合scRNA-seq/CITE-seq数据,这些细胞群仅提供scRNA-seq数据。鉴于第一种情况,可以通过将具有scRNA-seq/CITE-seq联合训练数据的较小细胞亚群上学到的关联映射到仅具有scRNA-seq数据的较大群体来估计受体丰度水平。我们的第二个评估策略使用交叉训练方法来学习和评估不同数据集上的关联。后一种方法用于学习Hao数据的关联并评估Unterman数据,适用于以下情况:可以利用从一个联合scRNA-seq/CITE-seq数据中学习的共表达模式来对另一个与第一个数据具有相同组织类型但仅包含量化的scRNA-seq表达谱的不相交数据集进行受体丰度估计。对于交叉验证和交叉训练方法,使用Spearman秩相关性量化靶scRNA-seq数据的估计受体丰度值与来自同一关节的类似ADT转录本之间的一致性,靶scRNA-seq/CITE-seq数据用于测量估计丰度值的相对等级之间的关系[31]。
比较方法。
STREAK与现有的无监督和基于监督学习的受体丰度估计技术进行了评估。除了标准化的RNA转录方法外,SPECK是唯一评估的无监督受体丰度估计方法,因为它以前的表现优于比较无监督技术MAGIC(基于马尔可夫亲和力的细胞图插补)[32]和ALRA(自适应阈值低秩近似)[33]。所有比较方法详述如下。
标准化RNA转录本:使用修拉对数归一化程序[14-17]对scRNA-seq计数基质相关的RNA转录本进行归一化,并设置为估计的受体丰度。
SPECK: scRNA-seq count matrix was normalized, RRR and thresholded with the speck function from the SPECK v0.1.1 R package [34]. Receptor abundance was set to this estimated output.
cTP-net: Estimation was performed on the scRNA-seq count matrix with the cTPnet function and default parameters using cTP-net v1.0.3 R package [10]. Receptor abundance was set to this estimated output. The scRNA-seq matrix was not denoised with the SAVER-X package since cTP-net maintainers note that cTP-net can predict protein abundance relatively accurately without denoising. Denoising using SAVER-X was additionally not performed due to the associated high time complexity for large datasets and pending Python package dependency updates required by the SAVER-X package maintainers.
Random Forest (RF): A random forest model was trained using the randomForest function with default parameters from the randomForest v4.7-1.1 R package [35]. Model training leveraged the top 10 genes whose normalized expression values from the scRNA-seq component of the scRNA-seq/CITE-seq joint training data had the largest positive Spearman rank correlation with the receptor’s normalized ADT values from the corresponding CITE-seq component of the same joint training data. This trained RF model was applied to the target scRNA-seq data to generate estimated receptor abundance values.
Support Vector Machines (SVM): A SVM model was trained using the svm function with default parameters from the e1071 v1.7.13 R package [36]. Similar to the random forest approach detailed above, scRNA-seq expression from top 10 genes with normalized scRNA-seq expression values most correlated with corresponding ADT values from a joint scRNA-seq/CITE-seq dataset was applied to the target scRNA-seq data to generate measures of estimated receptor abundance.
Benchmark setup.
Each of the cross-validation and cross-training evaluation approaches had a distinct benchmark setup. For the cross-validation approach, five individual subsets of different sizes were selected from each dataset to get a 20–80 train-test split where 20% of total cells were used as training data and 80% of cells were used as test data. The number of cells used in the training and test subsets and the number of total cells (i.e., sum of cells from the training and target data subsets) for each dataset are indicated in Tables 1 and 2 for the cross-validation approach. Evaluation using the PBMC cross-training strategy was performed on gene sets trained on a subset of 5,000 cells from the Hao data. Each trained subset was evaluated on five subsets of 5,000, 7,000 and 10,000 cells and one subset of 50,000 cells from the Unterman data.
thumbnail Download:
PPTPowerPoint slide
PNGlarger image
TIFForiginal image
Table 1. Joint scRNA-seq/CITE-seq datasets used for method evaluation.
https://doi.org/10.1371/journal.pcbi.1011413.t001
thumbnail Download:
PPTPowerPoint slide
PNGlarger image
TIFForiginal image
Table 2. Number of cells in individual training and target data subsets and total number of cells for each of the six datasets for the 5-fold cross-validation evaluation approach.
https://doi.org/10.1371/journal.pcbi.1011413.t002
Lower and upper cell count limits for the cross-validation approach were individually determined for each dataset. For the Hao data, the upper limit of 60,000 total cells (i.e., 12,000 training cells and 48,000 target cells) was determined by the capacity to perform RRR on 16 CPU cores without any virtual memory allocation errors. For the Unterman data, the upper limit of 50,000 total cells (i.e., 10,000 training cells and 40,000 target cells) was determined by the total number of cells in the CITE-seq assay (50,438 cells). For the MALT data, the upper limit of 8,410 total cells (i.e., 1,682 training cells and 6,728 target cells) was similarly determined by the total number of cells in the analogous CITE-seq assay (8,412 cells). The upper limit of 50,000 target cells for the cross-training approach was determined by the total number of cells in the CITE-seq assay corresponding to the Unterman data (50,438 cells).
From the initial 228 antibodies included in the Hao data, antibodies mapping to multiple HGNC (HUGO Gene Nomenclature Committee) [38] symbols or antibodies with their HGNC symbols not present in the feature/gene names corresponding to the scRNA-seq matrix were removed. Final assessment was performed for 217 antibodies for each subset of the Hao data as evaluated with the 5-fold cross-validation strategy. From the initial 200 antibodies included in the Unterman data, antibodies mapping to multiple HGNC symbols and mouse/rat specific antibodies were removed, resulting in 168 antibodies. Since assessment was performed for a varying number of cells, antibodies not expressed in smaller cell groups were dropped, resulting in assessment of either 167 or 168 antibodies for the Unterman data as evaluated with the cross-validation strategy. From the initial 17 antibodies included in the MALT data, three mouse/rat specific antibodies (IgG2a, IgG1 and IgG2b control) were removed. Final assessment was performed on 14 antibodies for the MALT data. For the cross-training approach, 124 antibodies, overlapping between the 217 antibodies from the Hao data and the 168 antibodies from the Unterman data, were assessed.
Results
STREAK generates receptor abundance estimates that are highly correlated with CITE-seq data
We first quantified the proportion of abundance profiles that have the highest Spearman rank correlation with the corresponding CITE-seq measurements when estimated using STREAK, SPECK or the normalized RNA method for the 5-fold cross-validation approach. We performed this computation for five different cell subsets of the Hao training and target data ranging from 1,000 training and 4,000 target cells to 12,000 training and 48,000 target cells and for four subsets of training and target cells ranging from 1,000 training and 4,000 target cells to 10,000 training and 40,000 target cells for the Unterman data and from 1,000 training and 4,000 target cells to 1,682 training and 6,728 target cells for the MALT data. We visualized each set of proportion estimates using a collective figure for all datasets, including Hao, Unterman, MALT, Monocytes, MPEM and Mouse Spleen and Lymph Nodes datasets, combined as indicated by Figs 2 and 3 as well as via separate graphical representations for each dataset as displayed by S5A, S5B and S5C Fig for the Hao, Unterman and the MALT datasets, respectively. Overall, the results indicate that the percentage of receptors for which the STREAK estimates have high rank correlations with analogous CITE-seq data are considerably larger than the corresponding percentage for SPECK or the normalized RNA approach for each of the Hao, Unterman and MALT datasets.
thumbnail Download:
PPTPowerPoint slide
PNGlarger image
TIFForiginal image
Fig 2.
Percentage of receptors for which a given technique (STREAK, SPECK, normalized RNA transcript, Random Forest or Support Vector Machines) generates estimates with the highest average rank correlation with the associated CITE-seq data over five subsets of training data consisting of 12,000 cells from the Hao dataset, 10,000 cells from the Unterman data, 1,682 cells from the MALT data, 3,940 cells from the Mouse Spleen data, 7,422 cells from the Monocytes data and 994 cells from the MPEM dataset.
https://doi.org/10.1371/journal.pcbi.1011413.g002
thumbnail Download:
PPTPowerPoint slide
PNGlarger image
TIFForiginal image
图3.
给定技术(STREAK、SPECK、标准化 RNA 转录本、随机森林或支持向量机)生成与相关 CITE-seq 数据具有最高平均排名相关性的估计值的受体百分比。结果是在cTP-net方法支持的受体子集上计算的。
https://doi.org/10.1371/journal.pcbi.1011413.g003
除了与图4所示的现有无监督受体丰度估计策略进行比较外,我们还将STREAK与监督丰度估计方法(如cTP-net和RF模型)进行了比较,并类似地量化了每种技术产生的估计丰度与CITE-seq数据高度相关的受体比例。我们同样量化了所有数据集组合的比较,如图5和图6所示,以及单个数据的比较。S5D-S5F图显示了STREAK和cTP-net之间的比较,而S5G-S5I图分别显示了HAO,Unterman和MALT数据集的STREAK和RF模型之间的比较。这两组数字都清楚地表明,使用STREAK估计的丰度剖面中有很大一部分与相应的CITE-seq数据高度相关,这证实了STREAK在所有数据集和训练子集大小中总体表现优于cTP-net和RF模型的说法。
thumbnail 下载:
.PPT幻灯片
.PNG大图
.TIFF原始图像
图4.
给定的无监督丰度估计技术(STREAK,SPECK和标准化RNA转录本)生成与相关CITE-seq数据具有最高平均秩相关性的估计的受体百分比。
https://doi.org/10.1371/journal.pcbi.1011413.g004
thumbnail 下载:
.PPT幻灯片
.PNG大图
.TIFF原始图像
图5.
给定监督丰度估计技术(STREAK、随机森林和支持向量机算法)生成与相关 CITE-seq 数据具有最高平均排名相关性的估计值的受体百分比。
https://doi.org/10.1371/journal.pcbi.1011413.g005
thumbnail 下载:
.PPT幻灯片
.PNG大图
.TIFF原始图像
图6.
给定监督丰度估计技术(STREAK、cTP-net 以及随机森林和支持向量机算法)生成的估计值的受体百分比,与具有定义 cTP-net 表达的受体子集的相关 CITE-seq 数据具有最高的平均排名相关性。
https://doi.org/10.1371/journal.pcbi.1011413.g006
接下来,我们将STREAK与交叉训练评估策略的无监督和监督受体丰度估计方法进行了比较,如图7所示。我们观察到基于STREAK的受体丰度估计值与CITE-seq数据相对于使用SPECK,标准化RNA方法,cTP-net和RF模型生成的估计值的一致性有所改善。虽然STREAK在交叉训练评估方法中的相对性能优势比交叉验证策略更具增量,但结果仍然强调了STREAK始终如一地生成比比较方法更准确的丰度估计的能力。STREAK的相对性能对三个主要评估数据集(PBMC Hao,PBMC Unterman和10X Genomics MALT)和两种评估策略的训练和测试数据集大小相对不敏感,这一事实进一步强调了这种方法在受体丰度估计方面的稳健性。
thumbnail 下载:
.PPT幻灯片
.PNG大图
.TIFF原始图像
图7.
使用STREAK,SPECK,标准化RNA方法,cTP-net或使用交叉训练评估方法估计的CITE-seq数据和丰度谱之间具有最高平均Spearman秩相关性的受体百分比(图1A-1C)。这些图的水平轴表示根据 Unterman 数据评估的目标像元数。
https://doi.org/10.1371/journal.pcbi.1011413.g007
除了使用评估策略评估与CITE-seq数据最相关的受体比例的评估策略评估STREAK,当使用STREAK,SPECK,标准化RNA转录本,cTP-net方法以及RF和SVM算法(如使用条形图显示)估计时,我们还使用相关相关散点图评估STREAK。图8和图9显示了STREAK对角线(y = x)以上的受体与PBMC Hao和小鼠脾脏数据集的其余比较方法的指示百分比。总体而言,我们观察到在所有子图中,很大比例的受体都高于y = x线,这表明STREAK提供了比比较方法更准确的受体丰度估计。在PBMC Unterman,MALT,Monocytes和MPEM数据集中发现了类似的模式,如S1-S4图所示。
thumbnail 下载:
.PPT幻灯片
.PNG大图
.TIFF原始图像
图8.
PBMC Hao 数据的相关性与相关散点图。每个点对应于最大样本量 217 个受体中的一个受体。黄土(局部估计散点图平滑)函数用于平滑条件均值。单个相关性是使用斯皮尔曼排名相关性指标计算的。
https://doi.org/10.1371/journal.pcbi.1011413.g008
thumbnail 下载:
.PPT幻灯片
.PNG大图
.TIFF原始图像
图9.
小鼠脾脏数据的相关性与相关性(使用 Spearman 秩相关指标计算)散点图。每个点对应于最大样本量为107个受体的受体。
https://doi.org/10.1371/journal.pcbi.1011413.g009
STREAK作为为特定受体选择最佳丰度估计策略的工具
在检查了CITE-seq数据与使用STREAK和比较方法在不同训练和测试数据集大小中估计的相应丰度概况之间的总体排名相关性趋势之后,我们检查了所有六个数据集(包括Hao,Unterman,MALT,单核细胞,MPEM和小鼠脾脏和淋巴结)的选定训练/测试拆分组的排名相关性的个体趋势。对于 5 倍交叉验证评估方法,我们分别使用 12,000/48,000、10,000/40,000、1,682/6,728、7,422/29,690、994/3,975 和 3,940/15,758 个细胞的训练/测试分裂训练和评估了使用 STREAK、SPECK、标准化 RNA 方法、cTP-net 和 RF 模型估计的丰度值。我们使用热图可视化了估计丰度值与CITE-seq数据之间的排名相关性。星号文本格式用于指示其基于条纹的估计值与每个图中类似的CITE-seq数据具有最高排名相关性的受体。图10和11分别显示了CITE-seq数据和使用所有无监督和监督估计方法(STREAK,SPECK,RNA,cTP-net,RF和SVM)为Hao和小鼠脾脏和淋巴结数据集生成的丰度曲线之间的这些相关性。这些数字以及相应的S13-S16图表明,与其他估计策略相比,使用STREAK估计的丰度值与类似的CITE-seq数据具有相对较高的个体排名相关性。
thumbnail 下载:
.PPT幻灯片
.PNG大图
.TIFF原始图像
图10.
CITE-seq 数据与使用 STREAK 估计的受体丰度值之间的平均排名相关性,以及使用 5 倍交叉验证方法评估的所有比较方法,用于训练由来自 Hao 数据的 12,000 个细胞组成的数据。星号文本格式用于表示在所有评估方法中,STREAK 估计值与相应的 CITE-seq 数据具有最高相关性的受体。渐变色阶的限制由所有比较方法的最小和最大平均相关值组合确定。
https://doi.org/10.1371/journal.pcbi.1011413.g010
thumbnail 下载:
.PPT幻灯片
.PNG大图
.TIFF原始图像
图11.
CITE-seq 数据与使用 STREAK 估计的受体丰度值之间的平均排名相关性,以及使用 5 倍交叉验证方法评估的比较方法,用于训练由小鼠脾脏数据集中的 3,940 个细胞组成的数据。
https://doi.org/10.1371/journal.pcbi.1011413.g011
我们类似地可视化了CITE-seq数据和受体丰度谱之间的排名相关性,使用从Hao数据中的5,000个细胞子集中学习的共表达关联以及比较无监督和监督丰度估计方法,该方法对来自Unterman数据的50,000个细胞子集进行评估交叉训练方法。这些结果显示在图 12 中,表明虽然使用 5 倍交叉验证方法评估的 STREAK 性能优于使用交叉训练方法时的性能,但 STREAK 的性能明显优于交叉训练方法的无监督技术。因此,虽然使用从用于目标估计的相同联合scRNA-seq/CITE-seq数据集的子集中学习的经过训练的关联是最佳的,但利用来自独立scRNA-seq/CITE-seq数据集的关联仍然有用,该数据集在与目标数据相同的组织类型上测量。
thumbnail 下载:
.PPT幻灯片
.PNG大图
.TIFF原始图像
图12.
CITE-seq 数据与使用 STREAK 估计的丰度值之间的平均排名相关性,并使用交叉训练方法评估的交叉训练方法对来自 Hao 数据的 5,000 个细胞子集进行评估,并在来自 Unterman 数据的 50,000 个细胞子集上进行评估。
https://doi.org/10.1371/journal.pcbi.1011413.g012
除了这些相关热图作为评估估计受体丰度值的策略的实际优势外,还可以利用它们来帮助确定特定受体的最佳丰度估计方法。如热图所示,虽然STREAK为大多数受体提供了最佳估计,但并非在所有情况下都是最佳的。例如,对于SPECK(ρ = 14.0),估计的CD754丰度曲线与Hao数据的相应CITE-seq值之间的秩相关性高于STREAK(ρ = 0.744)(见图10)。同样,与STREAK(ρ = 301.0)相比,Hao数据的CD105丰度谱与相应的CITE-seq值之间的秩相关性高于标准化RNA转录本(ρ = 0.078)。同样,当根据监督丰度估计技术评估条纹时,Hao数据中基于cTP-net的CD45RA受体谱与相应的CITE-seq值(ρ = 0.720)比基于条纹的丰度谱(ρ = 0.708)更相关(见图10)。因此,这些图为用户提供了为特定受体选择最佳丰度估计方法的实用指导。
条纹阈值机制比简单的基因集评分具有相当大的优势
我们的下一个分析评估了基因集评分和阈值步骤对STREAK表现的独特贡献。为此,我们将VAM直接生成的基因集评分(即CDF值)与STREAK使用的阈值VAM评分进行了比较。图13A、13B和13C分别表示使用HAO、Unterman和MALT数据集的STREAK和VAM估计时,与类似CITE-seq数据具有高秩相关性的受体比例,如使用5倍交叉验证方法评估。总体而言,与直接使用VAM评分相比,使用STREAK估计的受体中,除Hao数据的1,000个细胞训练子集外,所有数据集和每个训练子集大小的CITE-seq值与CITE-seq值具有更高的秩相关性。这一结果强调了阈值在进一步提高估计的受体丰度谱与基于VAM的集合评分之外的类似CITE-seq数据的一致性方面的重要贡献。
thumbnail 下载:
.PPT幻灯片
.PNG大图
.TIFF原始图像
图13.
基因集评分与阈值敏感性分析检查 CITE-seq 数据与使用 STREAK(即通过基因集评分进行估计然后阈值)或 VAM(即仅使用基因集评分进行估计)估计的丰度值之间具有最高平均秩相关性的受体的频率 使用 5 倍交叉验证方法进行评估,指示的训练数据范围为 1,000 至 12,000 个细胞 对于 Hao 数据(图 13A) 1,000 到 10,000 个细胞Unterman数据(图13B)和MALT数据的1,000至1,682个细胞(图13C)。
https://doi.org/10.1371/journal.pcbi.1011413.g013
STREAK 对训练数据子集大小和基因集大小都相对不敏感
在评估了基因集评分和阈值步骤对STREAK表现的个体贡献之后,我们实施了敏感性分析,以检查训练数据大小对交叉训练评估方法的STREAK表现的影响。为了实现这一目标,我们使用由5,000、7,000、10,000、20,000和30,000个细胞组成的联合scRNA-seq/CITE-seq Hao训练数据构建的共表达关联,评估了针对SPECK,标准化RNA转录本,RF模型和cTP-net的STREAK。每组经过训练的关联在 Unterman 数据的 5,000、7,000 和 10,000 个细胞的五个子集和 50,000 个细胞的子集上进行评估。S7A–S7E 图绘制了使用 STREAK、SPECK 或标准化 RNA 转录本估计丰度时与 CITE-seq 数据具有最高秩相关性的受体比例,并对 Hao 数据的 5,000、7,000、10,000、20,000 或 30,000 个细胞进行训练。同样,当使用STREAK和cTP-net估计时,S8A-S8E图表示与CITE-seq数据具有最高秩相关性的受体的类似比例,而S9A-S9E图可视化了从Hao数据中从5,000,7,000,10,000,20,000和30,000个细胞子集中学习的共表达关联训练的RF模型的等效结果。这些结果表明,STREAK 的相对性能在所有训练单元子集中都是一致的,从而强调了 STREAK 对交叉训练评估策略的训练数据大小的鲁棒性。
我们随后的检查评估了STREAK对基因集大小的敏感性。我们使用来自前 5、5、10、15、20 和 25 个最相关的 scRNA-seq 转录本与 CITE-seq 数据的训练关联,对 Hao 数据和 30 倍交叉验证评估策略进行了分析。S10 图量化了使用 STREAK 估计与使用 SPECK 或标准化 RNA 方法估计时与 CITE-seq 数据具有高秩相关性的受体比例。同样,S11 Fig比较了使用STREAK与cTP-net估计时与相应CITE-seq数据具有最高相关性的受体比例,而S12 Fig比较了STREAK与RF模型的这一比例。所有三个图都强调,STREAK通常对基因集大小不敏感,并且在5至30个基因的基因集大小范围内始终优于比较评估策略。
讨论
在本文中,我们详细介绍了一种新颖的监督受体丰度估计方法STREAK,该方法首先使用scRNA-seq/CITE-seq联合训练数据学习基因表达和蛋白质丰度数据之间的关联,然后利用这些关联对目标scRNA-seq数据进行阈值基因集评分。我们使用两种评估策略在代表四种不同组织类型和两种生物体的六个联合scRNA-seq/CITE-seq数据集上评估该方法,其中包括人类PBMC Hao,PBMC Unterman,MALT,单核细胞,MPEM和小鼠脾脏和淋巴结。我们将STREAK的性能与无监督丰度估计技术(如SPECK和标准化RNA方法)以及监督方法(如cTP-net,RF和SVM)进行了比较。该评估表明,对于大多数分析的受体,STREAK丰度估计值比产生的替代技术更准确,正如估计丰度曲线与相关CITE-seq数据之间的Spearman秩相关性所评估的那样。
与神经网络或基于集合的监督受体丰度估计技术相比,STREAK的一个关键优势是用于细胞水平估计的加权基因集易于解释和定制。研究人员可以轻松添加或删除基因,并调整经验衍生集的权重,或定义全新的基因集以反映特定的生物学知识或更好地适应给定组织类型或环境中预期的基因表达模式。
STREAK的一个局限性是受体基因集构建通常需要访问联合scRNA-seq/CITE-seq训练数据,这些数据理想地在与靶scRNA-seq数据相同的组织类型(和相似的生物学条件下)上测量。一个相关的限制是,该基因集构建步骤的计算成本很高,因为它需要将每个CITE-seq ADT转录本与scRNA-seq表达基质中的每个基因进行比较。虽然如果用户愿意手动定义受体基因集,则可以避免这两种限制,但我们预计访问实验训练数据对于创建大多数受体蛋白的准确估计是必要的。我们目前针对 STREAK 的 R 包实现可在 CRAN [39] 上找到。该软件包支持 STREAK 算法的基因集构建和受体丰度估计组件。此外,还可以修改基因集构建功能,以使用Spearman秩相关性以外的指标计算共表达关联。
简而言之,我们概述了一种新的监督受体丰度估计方法,该方法利用转录组学和蛋白质组学数据之间的联合关联,使用阈值细胞水平的基因集评分生成丰度估计。与其他无监督和监督丰度估计技术相比,STREAK方法可产生更准确的丰度估计,并有可能显着提高下游单细胞分析任务的性能,例如细胞分型/表型和细胞间信号估计。
支持信息
S1 图——
显示 1/16: pcbi.1011413.s001.tiff
跳到无花果共享导航
Sorry we could not load your data.
1 / 16
下载
无花果分享
S1 图
PBMC Unterman 数据的相关性与相关散点图。每个点对应于来自 167 个受体样本大小的受体。
https://doi.org/10.1371/journal.pcbi.1011413.s001
(蒂夫)
S2 图
MALT 数据的相关性与相关散点图。每个点对应于来自 14 个受体样本大小的受体。
https://doi.org/10.1371/journal.pcbi.1011413.s002
(蒂夫)
S3 图
单核细胞数据的相关性与相关散点图。每个点对应于来自 252 个受体样本大小的受体。
https://doi.org/10.1371/journal.pcbi.1011413.s003
(蒂夫)
S4 图
MPEM 数据的相关性与相关性散点图。每个点对应于来自 46 个受体样本大小的受体。
https://doi.org/10.1371/journal.pcbi.1011413.s004
(蒂夫)
S5 图
CITE-seq 数据与丰度谱之间具有最高平均 Spearman 秩相关性的受体频率使用 STREAK、SPECK 和标准化 RNA 方法或 cTP-net 或 RF 进行 5 倍交叉验证方法估计,Hao 数据(S1A、S000D、S12G)的训练数据范围为 000,5 至 5,5 个细胞,Unterman 数据为 1,000 至 10,000 个细胞(S5B, S5E,S5H)和1,000至1,682个细胞用于MALT数据(S5C,S5F,S5I)和来自Hao数据的5,000个细胞用于交叉训练评估方法(S5J,S5K,S5L)。5 折交叉验证评估图 (S5A-S5I) 的水平轴表示用于训练的细胞数,而交叉训练评估图的水平轴 (S5J-S5L) 表示从 Unterman 数据评估的目标细胞数。
https://doi.org/10.1371/journal.pcbi.1011413.s005
(蒂夫)
S6 图
CITE-seq 数据与丰度谱之间具有最高平均 Spearman 秩相关性的受体百分比,使用 STREAK、SPECK 和标准化 RNA 方法或 cTP-net 或 RF 进行 5 倍交叉验证方法,来自 Hao 数据的 5,000 个细胞用于交叉训练评估方法(S6A、S6B、S6C)。这些图的水平轴 (S6A-S6C) 表示从 Unterman 数据评估的目标细胞数量。
https://doi.org/10.1371/journal.pcbi.1011413.s006
(蒂夫)
S7 图
训练数据敏感性分析检查 CITE-seq 数据与使用 STREAK、SPECK 和标准化 RNA 转录本估计的丰度值之间具有最高平均秩相关性的受体的频率,使用交叉训练方法评估 Hao 训练数据由 5,000 (S7A)、7,000 (S7B)、10,000 (S7C)、20,000 (S7D) 和 30,000 (S7E) 细胞组成。每个图的水平轴表示从 Unterman 数据评估的目标像元数。
https://doi.org/10.1371/journal.pcbi.1011413.s007
(蒂夫)
S8 图
训练数据敏感性分析,通过交叉训练策略检查CITE-seq数据和使用STREAK和cTP-net估计的丰度值之间具有最高平均排名相关性的受体的频率。
https://doi.org/10.1371/journal.pcbi.1011413.s008
(蒂夫)
S9 图
训练数据敏感性分析,检查 CITE-seq 数据与使用 STREAK 和 RF 模型通过交叉训练策略估计的丰度值之间具有最高平均秩相关性的受体的频率。
https://doi.org/10.1371/journal.pcbi.1011413.s009
(蒂夫)
S10 图
基因集大小敏感性分析检查 CITE-seq 数据与使用 STREAK、SPECK 和标准化 RNA 转录本估计的丰度值之间具有最高平均秩相关性的受体的频率,使用 5 倍交叉验证方法进行评估,指示的训练数据范围为 1,000 至 12,000 个细胞,Hao 数据和基因集大小由 5 组成, 10、15、20、25 和 30 个基因。
https://doi.org/10.1371/journal.pcbi.1011413.s010
(蒂夫)
S11 图
使用5倍交叉验证方法对CITE-seq数据和使用STREAK和cTP-net估计的丰度谱进行基因集大小敏感性分析,Hao数据的训练数据范围为1,000至12,000个细胞,基因集大小由5、10、15、20、25和30个基因组成。
https://doi.org/10.1371/journal.pcbi.1011413.s011
(蒂夫)
S12 图
使用5倍交叉验证方法对CITE-seq数据和使用STREAK和RF模型估计的丰度谱进行基因集大小敏感性分析,Hao数据的训练数据范围为1,000至12,000个细胞,基因集大小由5、10、15、20、25和30个基因组成。
https://doi.org/10.1371/journal.pcbi.1011413.s012
(蒂夫)
S13 图
CITE-seq 数据与使用 STREAK 估计的受体丰度值之间的平均排名相关性,以及使用 5 倍交叉验证方法评估的比较方法,用于训练由来自 Unterman 数据集的 12,000 个细胞组成的数据。
https://doi.org/10.1371/journal.pcbi.1011413.s013
(蒂夫)
S14 图
CITE-seq 数据与使用 STREAK 估计的受体丰度值之间的平均排名相关性,以及使用 5 倍交叉验证方法评估的比较方法,用于训练由来自 MALT 数据集的 1,682 个细胞组成的数据。
https://doi.org/10.1371/journal.pcbi.1011413.s014
(蒂夫)
S15 图
CITE-seq 数据与使用 STREAK 估计的受体丰度值之间的平均排名相关性,以及使用 5 倍交叉验证方法评估的比较方法,用于训练由来自单核细胞数据集的 7,422 个细胞组成的数据。
https://doi.org/10.1371/journal.pcbi.1011413.s015
(蒂夫)
S16 图
CITE-seq 数据与使用 STREAK 估计的受体丰度值之间的平均排名相关性,以及使用 5 倍交叉验证方法评估的比较方法,用于训练由 MPEM 数据集中的 994 个细胞组成的数据。
https://doi.org/10.1371/journal.pcbi.1011413.s016
(蒂夫)
确认
我们要感谢达特茅斯盖泽尔医学院的支持性环境,在那里进行了这项研究。
引用
1.郑国兴, 特里 JM, 贝尔格莱德 P, 里夫金 P, 本特 ZW, 威尔逊 R, 等.单细胞的大规模并行数字转录分析。自然通讯.2017;8(1):14049.密码:28091601
查看文章PubMed/NCBI谷歌学术搜索
2.Tang F, Barbacioru C, Wang Y, Nordman E, Lee C, Xu N, et al. 单细胞的mRNA-Seq全转录组分析。自然方法。2009;6(5):377–382.密码:19349980
查看文章PubMed/NCBI谷歌学术搜索
3.Tirosh I, Izar B, Prakadan SM, Wadsworth MH, Treacy D, Trombetta JJ, et al.通过单细胞RNA-seq解剖转移性黑色素瘤的多细胞生态系统。科学。2016;352(6282):189–196.pmid:27124452
查看文章PubMed/NCBI谷歌学术搜索
4.Armingol E,官员A,Harismendy O,Lewis NE.破译基因表达中的细胞间相互作用和通信。自然评论遗传学。2021;22(2):71–88.密码:33168968
查看文章PubMed/NCBI谷歌学术搜索
5.哈克 A, 恩格尔 J, 泰希曼 SA, 伦伯格 T.用于生物医学研究和临床应用的单细胞RNA测序实用指南。基因组医学。2017;9(1):75.密码:28821273
查看文章PubMed/NCBI谷歌学术搜索
6.邦纳华盛顿,胡利特人力资源,斯威特RG,赫尔岑贝格洛杉矶。荧光活化细胞分选。科学仪器审查。1972;43(3):404.pmid:5013444
查看文章PubMed/NCBI谷歌学术搜索
7.Stoeckius M, Hafemeister C, Stephenson W, Houck-Loomis B, Chattopadhyay PK, Swerdlow H, et al.在单个细胞中同时测量表位和转录组。自然方法。2017;14(9):865–868.密码:28759029
查看文章PubMed/NCBI谷歌学术搜索
8.L?hnemann D, K?ster J, Szczurek E, McCarthy DJ, Hicks SC, Robinson MD, et al.单细胞数据科学的十一大挑战。基因组生物学。2020;21(1):31.pmid:32033589
查看文章PubMed/NCBI谷歌学术搜索
9.Javaid A,Frost HR. SPECK:单细胞RNA测序数据的细胞表面受体丰度估计的无监督学习方法。生物信息学;2022. 可用: http://biorxiv.org/lookup/doi/10.1101/2022.10.08.511197.
查看文章谷歌学术搜索
10.周孜, 叶琦, 王军, 张旷.通过深度神经网络从单细胞转录组进行表面蛋白插补。自然通讯.2020;11(1):651.密码:32005835
查看文章PubMed/NCBI谷歌学术搜索
11.Dai X, Xu F, Wang S, Mundra PA, Zheng J. PIKE-R2P:基于蛋白质-蛋白质相互作用网络的知识嵌入与图神经网络,用于单细胞RNA到蛋白质预测。BMC生物信息学。2021;22(增刊6).密码:34078261
查看文章PubMed/NCBI谷歌学术搜索
12.Xu F, Wang S, Dai X, Mundra PA, Zheng J. 从单细胞多模态组学数据预测表面蛋白丰度的集成学习模型。方法。2021;189:65–73.密码:33039573
查看文章PubMed/NCBI谷歌学术搜索
13.Erichson NB, et al. Randomized Matrix Deposts using R. Journal of Statistical Software.2019;89(11):1–48.
查看文章谷歌学术搜索
14.郝萍, 郝 S, 安徒生-尼森 E, 莫克 WM, 郑 S, 巴特勒 A, 等.多模态单细胞数据的集成分析。细胞。2021;184(13):3573–3587.e29.密码:34062119
查看文章PubMed/NCBI谷歌学术搜索
15.Stuart T, Butler A, Hoffman P, Hafemeister C, Papalexi E, Mauck WM, et al. 单细胞数据的综合整合.细胞。2019;177(7):1888–1902.e21.密码:31178118
查看文章PubMed/NCBI谷歌学术搜索
16.Butler A,Hoffman P,Smibert P,Papalexi E,Satija R.整合不同条件,技术和物种的单细胞转录组数据。自然生物技术。2018;36:411–420.pmid:29608179
查看文章PubMed/NCBI谷歌学术搜索
17.Satija R,Farrell JA,Gennert D,Schier AF,Regev A.单细胞基因表达数据的空间重建。自然生物技术。2015;33(5):495–502.pmid:25867923
查看文章PubMed/NCBI谷歌学术搜索
18.方差调整马氏体双(VAM):一种快速准确的细胞特异性基因集评分方法;第20页。
19.Hafemeister C,Satija R.使用正则化负二项式回归的单细胞RNA-seq数据的归一化和方差稳定。基因组生物学。2019;20(1):296.密码:31870423
查看文章PubMed/NCBI谷歌学术搜索
20.Song M, Zhong H. 高效的加权单变量聚类绘制了人类癌症中杰出的失调基因组区。生物信息学。2020;36(20):5027–5036.pmid:32619008
查看文章PubMed/NCBI谷歌学术搜索
21.Wang H, Song M. Ckmeans.1d.dp: 通过动态规划在一维中优化k均值聚类。R期刊。2011;3(2):29.密码:27942416
查看文章PubMed/NCBI谷歌学术搜索
22.埃德加 R, 多姆拉切夫 M, 拉什 AE.基因表达综合:NCBI基因表达和杂交阵列数据存储库。核酸研究。2002;30(1):207–210.密码:11752295
查看文章PubMed/NCBI谷歌学术搜索
23.Unterman A, Sumida TS, Nouri N, Yan X, Zhao AY, Gasque V, et al.单细胞多组学揭示了进行性 COVID-19 中先天性和适应性免疫系统的不同步。自然通讯.2022;13(1):440.密码:35064122
查看文章PubMed/NCBI谷歌学术搜索
24.来自 MALT 肿瘤的 10k 个细胞——具有一组 TotalSeq-B 抗体的基因表达;。可用: https://www.10xgenomics.com/resources/datasets/10-k-cells-from-a-malt-tumor-gene-expression-and-cell-surface-protein-3-standard-3-0-0.
25.Lakkis J, Schroeder A, Su K, Lee MYY, Bashore AC, Reilly MP, et al.一种多用途深度学习方法,用于CITE-seq和单细胞RNA-seq数据集成与细胞表面蛋白预测和插补。自然机器智能。2022;4(11):940–952.pmid:36873621
查看文章PubMed/NCBI谷歌学术搜索
26.Ma X,Somasundaram A,Qi Z,Hartman D,Singh H,Osmanbeyoglu H. SPaRTAN,用于将细胞表面受体连接到转录调节因子的计算框架。核酸研究。2021;49(17):9633–9647.密码:34500467
查看文章PubMed/NCBI谷歌学术搜索
27.Gayoso A, Steier Z, Lopez R, Regier J, Nazor KL, Streets A, et al.使用totalVI对单细胞多组学数据进行联合概率建模。自然方法。2021;18(3):272–282.密码:33589839
查看文章PubMed/NCBI谷歌学术搜索
28.Elizaga ML, Li SS, Kochar NK, Wilson GJ, Allen MA, Tieu HVN, et al.在一项随机对照临床试验中,通过电穿孔接种 IL-1 质粒 DNA 的 HIV-12 多抗原 pDNA 疫苗的安全性和耐受性,在健康志愿者中用重组水泡性口炎病毒 HIV Gag 疫苗增强。公共图书馆一号。2018;13(9):e0202753.密码:30235286
查看文章PubMed/NCBI谷歌学术搜索
29.Li SS, Kochar NK, Elizaga M, Hay CM, Wilson GJ, Cohen KW, et al. DNA 启动增加 T 细胞对水疱性口炎病毒 HIV 疫苗的反应频率,并通过白细胞介素-8 质粒 DNA 特异性增强 CD12+ T 细胞反应。临床和疫苗免疫学。2017;24(11):e00263–17.密码:28931520
查看文章PubMed/NCBI谷歌学术搜索
30.R:用于统计计算的R项目;。可用: https://www.r-project.org/.
31.肖伯 P, 布尔 C, 施瓦特 LA.相关系数:适当使用和解释。麻醉和镇痛。2018;126(5):1763–1768.密码:29481436
查看文章PubMed/NCBI谷歌学术搜索
32.Dijk Dv, Sharma R, Nainys J, Yim K, Kathail P, Carr AJ, et al. 使用数据扩散从单细胞数据中恢复基因相互作用。细胞。2018;174(3):716–729.e27.密码:29961576
查看文章PubMed/NCBI谷歌学术搜索
33.林德曼, 赵 J, 鲁利斯 M, 比莱茨基 P, 弗拉维尔 RA, 纳德勒 B, 等.单细胞RNA-seq数据的零保留插补。自然通讯.2022;13(1):192.密码:35017482
查看文章PubMed/NCBI谷歌学术搜索
34.Javaid A,Frost HR. SPECK:使用降低秩重建和聚类阈值估计受体丰度;2022. https://CRAN.R-project.org/package=SPECK.
35.Liaw A, Wiener M. Classification and Regression by randomForest.R 新闻. 2002;2(3):18–22.
查看文章谷歌学术搜索
36.Meyer [aut D, cre, Dimitriadou E, Hornik K, Weingessel A, Leisch F, et al. e1071: 统计部杂项职能, 概率论组 (原: E1071), TU Wien;2023. 可用自: https://CRAN.R-project.org/package=e1071.
37.Gayoso A, Steier Z, Lopez R, Regier J, Nazor KL, Streets A, et al.使用totalVI对单细胞多组学数据进行联合概率建模。自然方法。2021;18(3):272–282.密码:33589839
查看文章PubMed/NCBI谷歌学术搜索
38.Tweedie S, Braschi B, Gray K, Jones TEM, Seal R, Yates B, et al. Genenames.org: 2021 年的 HGNC 和 VGNC 资源。核酸研究。2021;49(D1):D 939–D946.密码:33152070
查看文章PubMed/NCBI谷歌学术搜索
39.Javaid A,Frost HR. STREAK:使用特征选择和基因集评分估计受体丰度;2022. https://CRAN.R-project.org/package=STREAK.