医学论文发表-应用于负反馈基因调控的建模保真度水平和参数推断设置的系统比较
阿德里安·库利尔,普拉尚特·辛格,马克·斯特洛克 ,安德烈亚斯·海兰德
发布时间:2022 年 12 月 15 日
抽象
基因调控网络的定量随机模型是研究细胞调控的重要工具。这样的模型可以在许多不同的保真度级别上制定。一个实际的挑战是确定使用哪种模型保真度以获得准确且具有代表性的结果。选择很重要,因为连续更高保真度的模型伴随着快速增加的计算成本。在某些情况下,详细程度显然是由所研究的问题驱动的。然而,在许多情况下,许多模型备选办法在质量上可能与现有数据一致,这取决于数据的数量和观测的性质。在这里,一个重要的区别是,我们是否有兴趣推断模型的真实(但未知)物理参数,或者它是否足以捕获和解释可用数据。从计算的角度来看,情况变得复杂,因为推理必须是近似的。大多数情况下,它基于无似然近似贝叶斯计算(ABC),在这里确定使用哪些汇总统计数据,以及需要多少数据才能达到所需的精度水平,都是困难的任务。最终,所有这些方面——模型保真度、可用数据和推理的数值选择——都以复杂的方式相互作用。在本文中,我们开发了一个计算管道,旨在系统地评估各种真实已知参数的推理准确性。然后,我们用它来探索负反馈基因调控的推理设置。特别是,我们比较了详细的空间随机模型、基于粗粒度隔室的多尺度模型和标准的良好混合模型,跨多个数据场景和多个参数推断的数值选项。实际上,此管道可以用作在收集实验数据之前指导建模人员的初步步骤。通过训练高斯过程来近似距离函数值,我们能够大幅降低运行管道的计算成本。
作者摘要
计算模型在现代生物学中起着至关重要的作用,通常用于将理论与数据进行比较。这些模型可以采用不同的形式,并且通常在模型细节和模拟它们所需的计算资源之间进行权衡。此外,必须选择如何将模型输出与具有几种不同距离指标的可用数据进行比较。模型和距离指标的选择也可能受到可用数据量的影响。因此,决定如何最好地从可用的实验数据中推断模型参数是一个具有挑战性的问题。在本文中,我们开发了一个计算管道,旨在系统地评估各种真实已知参数的推理准确性。为了证明其用途,我们将其应用于经过充分研究的基因调控模型。特别是,我们比较了简单模型、中等复杂度模型和复杂模型,用于多个数据场景和多个参数推断的数值选项。我们相信这条管道可以作为在收集实验数据之前指导科学家的第一步。这可以防止实验学家收集不必要的昂贵实验数据,或者建模人员花费大量的计算资源来模拟多余的复杂模型。
引文: 库利尔 A、辛格 P、斯特罗克 M、海兰德 A (2022) 应用于负反馈基因调控的建模保真度水平和参数推断设置的系统比较。公共科学图书馆计算生物学18(12): e1010683. https://doi.org/10.1371/journal.pcbi.1010683
编辑 器: 佩德罗·门德斯, 美国康涅狄格大学医学院
收到: 1月 17, 2022;接受: 2022 年 10 月 25 日;发表: 12月 15, 2022
版权所有: ? 2022 库利尔等人。这是一篇根据知识共享署名许可条款分发的开放获取文章,该许可允许在任何媒体上不受限制地使用、分发和复制,前提是注明原作者和来源。
数据可用性: 该研究的所有代码和生成的数据均可在 https://github.com/prasi372/PipelineforParameterInference 获得。用于某些实验的数据取自Hofmann H,Kafadar K,Wickham H.(2011),并在 https://github.com/Aratz/MultiscaleCompartmentBasedModel/tree/master/data 以a.json文件的形式公开提供。
资金: 这项工作由瑞典研究委员会(2015-03964至AH),eSSENCE战略合作eScience和NIH NIH / 2R01EB014877-04A1(至AH)资助。资助者在研究设计、数据收集和分析、发表决定或手稿准备方面没有任何作用。
竞争利益: 提交人声明不存在相互竞争的利益。
1 引言
数学建模是研究单细胞基因调控网络(GRN)的重要工具。这些模型存在于许多保真度级别上,从确定性常微分方程 (ODE) 到离散随机良好混合模型,再到详细的空间随机模型。在实践中,数学模型的选择具有主观因素,选择取决于所研究的问题、可用数据和计算预算。
有许多研究显示,建模者模拟了不同保真度水平的模型,以研究相同的生物系统。通常,这些研究具有相同的目的,即捕获定性属性或相对粗粒度的汇总统计数据,这两者原则上都可以由任何模型捕获。一种普遍研究的生物系统是Hes1负反馈系统。该系统产生振荡动力学,被认为为胚胎发生过程中体细胞的分割提供了一个时钟[1]。该系统催生了不同生物保真度水平的模型,包括由常微分方程 [2]、延迟微分方程 [3、4]、偏微分方程 (PDE) [5]、随机微分方程 [6] 和空间随机模拟 [7].这些模型用于模拟Hes1系统,目的是产生Hes1蛋白和信使RNA(mRNA)的振荡动力学,周期约为2小时。所有模型都能够产生所需的振荡行为,但在常微分方程的情况下,必须引入额外的中间反应。这种各种建模方法的部署并非Hes1细胞内途径所独有,事实上,其他表现出振荡动力学的途径,包括p53信号通路[8,9]和NF-κB通路[10],在为捕获简单的汇总统计而生成的模型的保真度方面具有类似的多样性。在这些研究中,尚不清楚仅凭数据是否需要更高的保真度模型。在细胞内建模空间之外,在癌症建模空间中有许多类似的研究,这些研究使用不同保真度的模型来捕获肿瘤生长时间序列数据。这些模型通常是常微分方程或偏微分方程,甚至是基于代理的模型,在计算费用和模型复杂性方面存在巨大差异[11]。不过,目前尚不清楚现有数据是否以及何时明确地激励了一种方法而不是另一种方法。一个核心问题是,开发模型的目的是从实验数据中推断参数值,还是为了预测系统的某些未来状态而开发的。在后一种情况下,有些人认为,只要模型是系统的良好预测因子,精确的参数值可能不太值得关注,甚至可能采用生物学上不可行的值[12]。
在某些情况下,手头的问题显然会激发空间模型而不是混合良好的空间模型,例如,如果我们要研究膜受体的位置和数量对信号级联中下游信号传导的影响。然而,在原则上可以使用各种不同保真度的模型来解决问题的情况下,当选择是由观察到的数据驱动的时,情况就不太清楚了。特别是,定量实验观察通常是“良好混合”的,例如细胞中总蛋白质或mRNA计数的时间序列数据,或来自荧光激活细胞分选(FACS)的大型细胞群的分布数据。一个有趣的问题是,在哪种情况下,即使观测在本质上更粗粒度,也会有动机使用高保真空间模型。这个问题可能在很大程度上取决于建模的目标是什么,例如,目标仅仅是捕获数据中的定性趋势,还是目标确定与真实生化和物理参数(如扩散常数和动力学速率常数)在定量上非常一致的模型参数?从根本上说,这是一个难以解决的问题,因为缺乏基本事实(对于模型和参数)。但是,如果有足够的计算能力,我们可以扫描可能参数的空间,并评估假设参数为基本事实(合成数据)的推理将如何执行。虽然真正的后验分布遥不可及,但我们仍然可以分析估计的后验与各种模型选择和各种类型的观测的真实参数的关系。在本文中,我们开发了这样一个计算管道,其中我们使用高保真空间模型(使用 Smoldyn [13] 模拟)生成合成的地面真实数据,用于各种可能的真实参数(控制扩散程度有限的动态),然后系统地比较空间模型、良好混合模型和粗粒度多尺度模型的推理任务。
但是,由于有必要使用无似然或基于模拟的近似推理,因此除了模拟器和可用数据量的问题外,还有几个数值考虑因素来实现准确推理。特别是,使用最广泛的方法ABC严重依赖于所选的距离度量和汇总统计。最后,需要同时研究模型保真度、数据和参数推断的数值选择。ABC需要大量可能昂贵的模拟,这一事实成为这种大规模研究的实际障碍。在这里,我们训练高斯过程(GP)近似距离度量值,并以这种方式能够显着降低运行管道的计算成本。
虽然理想情况下,模型将使用足够丰富的实验数据进行约束,但在实践中,可用数据的数量和类型通常存在限制。细胞功能的建模需要对各种分子种类进行灵敏的测量,例如mRNA和蛋白质。对于在细胞内水平捕获的数据,通常需要在时间序列的丰富性、重复次数和捕获的空间信息级别之间进行权衡。传统上使用的群体平均技术,如蛋白质印迹、北方印迹和酶联免疫吸附测定(ELISA),无法捕获单细胞水平的重要细节。质谱(MS)等更现代的技术通常缺乏检测单个细胞中存在的少量蛋白质的灵敏度[14,15];然而,MS的最新进展在发现单细胞蛋白质组方面取得了进展[16]。流式细胞术和质质细胞术(例如CyTOF)可以检测单细胞中的蛋白质,但开发用于定量的样品标准品已被证明具有挑战性[17]。近年来,开发了数字邻近连接测定(dPLA)。dPLA能够直接对单个哺乳动物细胞中的蛋白质和mRNA拷贝数进行数字测量[18]。在dPLA中,数字PCR(dPCR)用于定量一对称为PLA探针的寡核苷酸标记抗体检测到的蛋白质。先前发表的PLA方法能够同时对单细胞进行多重蛋白质和mRNA测量。但值得注意的是,它们的定量聚合酶链反应(qPCR)读数限制了测量的灵敏度[19]。使用dPCR读数可显著提高分辨率和检测限[20],从而可以直接定量单个哺乳动物细胞中的蛋白质拷贝数。这一进展,加上使用dPCR进行mRNA定量,可以同时测量mRNA和蛋白质,尽管时间分辨率较低(每10分钟捕获一次读数)[21]。所有这些实验技术都有不同的成本,并且可能需要不同水平的经验来收集,因此重要的是要知道何时捕获了足够的数据以保证使用更复杂的模型。为此,在这项研究中,我们使用了一个合成数据集,该数据集模拟了实验可能的前沿,即在单个细胞水平上同时捕获各种细胞和时间点的mRNA和蛋白质拷贝数数据,以解决需要多少数据才能保证更高保真度模型的问题。
越来越多的研究调查了存在不同类型数据下的参数推断。在[6]中,证明了随机微分方程的MCMC方法提供了实用的算法,即使在时间序列数据粗糙的情况下,也能估计简单动态调节和信号系统的参数。此外,据报告,如果能够获得高质量的时间分辨数据,还可以获得有关随机建模参数和种群规模的信息。在[22]中,Kursawe等人研究了使用顶点模型对细胞力学和图像数据进行参数推断的性能。他们表明,通过对观测数据进行多次实现来估计噪声对于可靠推断至关重要。Harrison等人[23]量化了噪声和数据密度对后验估计的影响,并将ABC与粒子马尔可夫链蒙特卡罗法(pMCMC)进行了比较。他们表明,在适用的情况下,pMCMC表现更好,尽管ABC更通用,更容易并行化。
关于ABC产生的后验分布的有效性存在一些疑问[24,25]。具体来说,尽管它们是逆问题适定性的基本要求,但可识别性[26]和充分性[27]在实践中可能无法实现。然而,这不一定是故事的结局。首先是因为可以证明一些更简单的模型的可识别性[28],其次是因为仍然可以从已知真正解决方案的模型中获得见解[29]。
在本文中,我们表明这种方法对于ABC确实是可行的。我们提出了一种计算管道来评估ABC在不同场景下的准确性。具体来说,我们评估ABC在整个参数空间中的性能,同时使用高斯过程来近似模拟数据和观测数据之间的距离度量值,从而降低成本。然后,我们分析所得后验分布相对于真实参数的准确性。然后,我们可以对不同的模型、汇总统计甚至数据集(例如,在测量蛋白质或测量mRNA时)重复此过程,并确定哪种设置可提供最佳性能。然后,该初步分析可用于指导从业者选择模型和设计实验。与其他指导建模者和优化实验的分析方法相反[30,31],我们的方法是纯粹的计算,不需要从模型公式中推导出分析公式的能力。因此,可以使用任意高复杂度的模型。通过这种方法,我们可以回答以下问题:
达到给定的推理精度水平需要多少数据?
如果目标是识别参数,则哪些特征值得在实验中测量?
哪种建模保真度合适?
应使用哪种汇总统计数据或距离度量?
我们通过基于不同保真度的三个模型的规范负反馈基因调控网络基序的不同场景来举例说明此过程。
2 结果
在下文中,我们关注的是无似然推理,特别是当观察到的数据来自负反馈基因调控的高保真空间随机模型时,不同的建模保真度水平、数据量和推理设置如何影响我们准确推断参数的能力。在数学术语中,设置如下:设y(d)是一个随机变量/过程,代表来自实验方案d的观测数据,设θ是希望基于y估计的生物物理参数的向量。正如我们在本手稿中定义的那样,模型是 θ 和 y 之间的随机映射 f(取自模型族 F),即 y = f(θ)。ABC 允许通过对近似后验分布进行采样来近似求解逆问题以估计 θ π 美国广播公司 (θ ∣ f, g(y), d),其中 g(y) 是从 y 派生的汇总统计量的向量。在方法部分,我们详细介绍了所考虑的模型。
2.1 系统参数推理评估的计算流水线
鉴于我们希望能够使用高度复杂的模型,通常不可能依靠先验数学分析来确定ABC对于给定设置的有效性。例如,关于系统可识别性的信息通常无法通过数值近似,除非有随机模型的精确解,并且需要实证研究数值可识别性。但是,我们可以使用在整个参数空间中采样的合成观测数据来系统地评估ABC的性能。鉴于高计算成本,我们使用基于高斯过程的近似方案。这使得在用各种配置的ABC推断参数之前,只生成一次数据。
我们开发了一个由两个主要部分组成的管道,一个数据生成步骤和一个参数推理步骤。图1说明了这些部件是如何组合的。从先验分布开始,我们首先使用最高模型保真度(图1A)模拟一个参数点的地面实况数据,然后使用用于贝叶斯推理的模型生成先验的整个参数范围的模拟数据(图1B)。然后,我们使用这些数据来近似观测(以最高保真度生成的合成数据)和模拟数据之间的距离。然后使用此近似距离图(图1C)执行参数推断,而无需在此过程中模拟更多数据(图1D)。
缩略图 下载:
.PPT幻灯片
.PNG大图
.TIFF原始图像
图1. 基于高斯过程的参数推理流水线.
使用所有其他模拟数据集 (B) 训练基于一个合成数据集 (A) 的距离度量值映射。然后在pyABC中使用此距离度量图(C)来推断使用ABC-SMC(D)的合成数据集的参数,即通过这种方式,我们避免了使用昂贵的模拟在ABC推理点期间对其他数据点进行采样。
https://doi.org/10.1371/journal.pcbi.1010683.g001
然后,可以使用来自参数空间不同区域的合成观测数据集多次执行整个管道。核心思想是生成一次数据,然后首先将其重用为合成观测数据,然后作为训练数据来近似ABC中使用的距离度量。因此,相同的数据集可以在各种配置中重复使用,例如,使用不同的汇总统计数据或通过根据轨迹或时间样本的数量对数据进行子采样。这反过来又产生了许多后验分布,可以与真实参数进行比较。通过系统地测量后验分布与真实已知参数之间的差异,我们可以建立误差图,显示参数空间中推理性能更好或更差的区域。
分析从各种模型组合、汇总统计数据和数据量中获得的误差图,可以深入了解哪种组合在与实验数据一起使用时或多或少可能表现良好。我们相信,当真实参数和模型未知时,此管道可以用作校准推理管道的预处理步骤,假设我们相信最高保真度的模型从根本上说是我们考虑的模拟器现实的最佳表示。正如我们将展示的,该管道旨在确定用于系统生物学项目中给定数据集的适当模型保真度。
在下文中,我们使用上述管道来研究推断参数的不同场景。我们首先在第 2.2 节中详细介绍用于生成数据的模型,然后在第 2.3 节中详细说明我们如何测量后验误差。然后,我们研究时间采样密度,通量和观察到的物种(蛋白质,mRNA或两者)方面的数据量如何影响准确性,以及在什么情况下,我们显然受益于使用更高的空间模型保真度,这是由数据驱动的。然后,我们研究每个模型在参数空间中表现最佳的位置,以及模型和距离指标的哪种组合总体上提供了最佳结果。
2.2 计算实验设计——GRN模型、合成数据生成和距离度量
在[32]中,我们研究了由Hes1 GRN驱动的负反馈基序,其中基因通过负反馈环抑制其自身的表达:mRNA在细胞核中转录并扩散到细胞质中,在那里它被翻译成蛋白质。然后这些蛋白质扩散回细胞核并抑制基因。这个过程如图2所示。mRNA产生的时刻与蛋白质扩散回细胞核并与基因结合的时刻之间的延迟倾向于产生基因表达水平的振荡。这些化学反应在公式1-5中描述,而它们的参数总结在表1中。
缩略图 下载:
.PPT幻灯片
.PNG大图
.TIFF原始图像
图2. 本文研究的遗传基序草图。
位于细胞核中心的基因转录mRNA。然后mRNA从细胞核扩散到细胞质中,在那里它被翻译成蛋白质。然后这些蛋白质扩散回细胞核,在那里它们抑制基因的表达。
https://doi.org/10.1371/journal.pcbi.1010683.g002
缩略图 下载:
.PPT幻灯片
.PNG大图
.TIFF原始图像
表 1. 基本参数如 [32] 所示。
使用贝叶斯推理估计的参数以灰色突出显示,并且在合成数据集中变化了几个数量级。参数 μ、κ 和 γ 通过将它们乘以一个公共变量 χ 来同时变化。这个变量和扩散常数是要推断的目标。
https://doi.org/10.1371/journal.pcbi.1010683.t001
使用三种方法来模拟该网络:第一种方法包括基于Smoluchowski扩散限制方程的详细粒子模型。我们使用广泛使用的软件Smoldyn [13]来模拟模型,因此在本文中我们将其简称为Smoldyn。第二种方法是来自[32]的廉价多尺度近似。在这里,细胞几何形状分为两个隔室(细胞质和细胞核),它们本身被认为是混合良好的。然后使用Smoluchowski模型的命中时间分析得出这两个隔间之间的转换速率,从而捕获一些空间效应。该模型使用标准 SSA 进行模拟,称为基于隔间的模型 (CBM)。最后,认为整个单元混合良好,并使用SSA模拟模型(WMM)。请注意,我们在基因和蛋白质之间的关联反应中使用扩散限制反应速率,因此所有三个模型都明确涉及所有物理常数,从而可以直接比较。对于所有SSA模拟,我们使用StochSS工具套件中的软件Gillespy2[33,34]。
我们的目标是系统地评估用ABC推断的参数估计的质量,这取决于三个模型中的哪一个用于模拟数据,以及可用的数据量。我们使用 pyABC Python 包中提供的 ABC 的 Sequential Monte-Carlo (SMC) 变体 [35]。对于 χ,先验设置为介于 0.25 和 16 之间,对于扩散常数,先验设置为介于 0.0039 和 16 之间的对数均匀分布。对于每个设置,我们从用Smoldyn生成的256个不同的合成数据集中推断参数(即,我们从扩散常数χ参数空间的16×16网格中采样),并将后验分布与真实参数进行比较。这为我们提供了从强扩散限制制度到良好混合制度的系统推理性能图。
我们考虑了三个距离指标来衡量候选粒子与观测数据之间的差异:
首先,我们考虑四种常见的汇总统计量,即轨迹的平均值、最小值、最大值和标准差。然后,我们获取所有轨迹和两个物种的期望值,并使用 L 计算模拟数据和合成数据之间的距离2规范。此设置表示建模者手动制定的第一个设置。我们将此设置称为幼稚统计信息。
其次,我们使用小节 4.2 中描述的 AS 算法选择最佳汇总统计量。所选统计数据为:低于平均值的最长行使价、高于平均值的最长行使价、平均绝对变化、最大值、最小值和方差。距离的计算方法如上面的 1 所示。我们将此设置称为优化统计信息。
第三,在[36]之后,我们观察每个物种和每个时间点的分子计数分布,即我们根据每个时间点的观测轨迹计算累积密度函数(CDF)的直方图密度近似值,然后计算两个数据集之间的平均柯尔莫果洛夫距离在这些分布上。我们将此设置称为柯尔莫果洛夫距离。
这里使用的数据取自以前的研究[32],并以.json文件的形式在 https://github.com/Aratz/MultiscaleCompartmentBasedModel/blob/master/data/data.zip GitHub上公开提供。所有使用的代码都可以在 GitHub 上找到 https://github.com/prasi372/PipelineforParameterInference。对于每对扩散和反应性系数,数据集包含64个轨迹,超过100个时间样本,适用于系统中两种感兴趣的物种(即mRNA和蛋白质),以及三个模型中的每一个。在每个模拟开始时使用燃烧期,以确保所有轨迹与初始条件无关。
在本研究中详述的数据场景中,管道分别针对每个模型(WMM、CBM 和 Smoldyn)运行,然后针对我们的 256 个合成数据集中的每一个运行。图3说明了这个过程。每个设置总共执行 768 个推理。在每种情况下,我们都会改变每次使用的数据量和距离度量。所有计算都在Rackham上运行,Rackham是由乌普萨拉高级计算科学多学科中心(UPPMAX)提供的高性能计算集群。每个节点由两个 2.2 GHz 和 128 GB 内存的 10 核至强 E5–2630 V4 处理器组成。运行一个设置的管道(即 256 × 3 个推理)大约需要 200 个核心小时。具体来说,这是生成结果的成本,如图4所示。我们强调,只有通过使用高斯过程来近似模拟数据和观测数据之间的距离度量值,才能执行我们的管道。
thumbnail 下载:
.PPT幻灯片
.PNG大图
.TIFF原始图像
图3. 所执行的计算实验的图示。
对于不同的数据场景以及距离度量和数据量的每种组合,我们使用所有 256 个合成数据集作为观察数据以及三个模型中的每一个来执行管道。
https://doi.org/10.1371/journal.pcbi.1010683.g003
thumbnail 下载:
.PPT幻灯片
.PNG大图
.TIFF原始图像
图4. 扩散系数(D,y 轴)和反应系数(χ,x 轴)不同组合的预期对数误差热图。
(A)中给出的结果基于汇总统计数据,而(B)中给出的结果基于柯尔莫果洛夫距离。每个热图的标题对应于所使用的模型保真度。在使用汇总统计时,煤层气的表现几乎与Smoldyn一样好。当使用柯尔莫果洛夫距离时,Smoldyn 的性能优于其他两种型号。
https://doi.org/10.1371/journal.pcbi.1010683.g004
2.3 根据距离度量,详细的空间模型也可以由非空间观测激发
在本节中,我们使用完整的观察数据集(在 100 个时间点采样的 64 条轨迹)比较三个距离指标中每个模型保真度的参数推断性能。
在已知真实参数的情况下(例如,在所考虑的检验问题中),可以计算估计参数和真实参数之间的误差,或者报告它们是否在给定的置信区间内。
由于所考虑的参数空间跨越几个数量级,计算均值后验参数中的相对误差意义不大,即当真实参数在量级上接近描述参数空间的下限时,相对误差趋于较大,而如果真实参数接近描述参数空间的上限, 相对误差将接近 1。相反,我们使用以下公式报告关于后验的预期对数错误:这里 θ
°是真实参数,是包含估计后验的样本集。因此,我们根据真实参数的数量级比较估计值。该措施还惩罚了宽后部,其预期误差将比较紧的后部更大。这种准确性和不确定性的组合指标使我们能够比较每个实验和每个模型中执行的 256 个推理。通过预期的对数误差指标强制执行的更严格的后验分布的偏好还允许识别参数空间中的参数推断不太可能准确产生真实参数的区域。我们注意到没有理想的错误指标,所考虑的指标的优点和局限性应根据具体情况决定使用。总之,所选的误差度量值采用较小的值进行推理,其后验值在正确的预期参数点周围很紧,并且随着后验的偏差和扩散而增加(推理质量较低)。图 4 显示了所有三个模型的预期对数错误图、朴素统计量和柯尔莫果洛夫距离。为了进行比较,我们还研究了使用常用的均方根误差(RMSE)代替预期的对数误差,并在S6图中显示了RMSE图。 虽然存在数量差异,但相同的总体趋势仍然存在。我们强调,管道的用户应确认他们的结果不是某个特定错误指标的人工制品,并应检查结论与多个错误指标的一致性。
从图 4 可以看出,与使用 WMM 相比,使用 Smoldyn 作为模拟器时,即使在参数空间的混合良好区域,我们获得的推理性能要好得多,无论是使用朴素统计集还是柯尔莫戈夫距离。我们还看到,将柯尔莫果洛夫距离与详细的空间模拟器结合使用可提供最佳的整体推理质量。这回答了我们最初的一个问题——在执行参数推断时,最佳做法是使用具有明确空间细节的模型,即使实验观察更粗粒度。观测的性质和采用的距离度量在这里有很大的影响:当使用汇总统计而不是柯尔莫果洛夫距离时,CBM导致与Smoldyn大致相同的推理质量,这表明该模型能够捕获对统计数据的关键空间影响。我们还清楚地看到了整个参数空间中推理质量的变化 - 简而言之,某些区域比其他区域更容易推断,对于某些区域,即使对于最佳配置,预期的日志误差也高得令人无法接受(2 个数量级或更多)。特别是,由于数据集大小,即使在这些地区使用真实数据模型,我们也无法准确识别参数。我们建议计算这种类型的误差图也将有助于使用真实实验数据开发模型 - 如果推断的参数落在地图误差较大的区域,则很好地表明在解释结果时需要小心。在一个选定的案例中(具有朴素统计的混合良好的模型),我们通过在 32 个随机选择的合成数据集上运行具有真实模型的 ABC 来估计 GP 代理引起的推理误差。图4中给出的结果±10变化了17%。
尽管图 4 中的误差图提供了推理误差最低的区域的详细视图,但详细程度使得难以定量比较两个模型。例如,在图4中,不清楚Smoldyn与CBM相比有多准确。因此,在比较两种不同设置的结果时,我们构建了一个增强的箱形图,称为“Boxen 图”。与仅显示四分位数的常规箱形图相反,扩展箱形图还显示接下来的 2 个n-上四分位数上方和下四分位数以下的分位数,从而可以更好地查看尾值的分布[37]。图5说明了这种可视化技术。通过以这种方式表示误差,我们在参数空间中交换局部信息,以便更轻松地进行全局比较。
thumbnail 下载:
.PPT幻灯片
.PNG大图
.TIFF原始图像
图5. 当与朴素统计、优化统计和柯尔莫果洛夫距离指标一起使用时,分别是 WMM(蓝色)、CBM(黄色)和 Smolydn(绿色)模型的预期对数误差的盒形图。
向模型添加更多细节时,通常会有收敛性,尽管对于给定模型,没有指标始终比其他指标更准确。
https://doi.org/10.1371/journal.pcbi.1010683.g005
在这里,我们还使用优化的统计数据显示结果。尽管它们确实改进了合成数据集的推理,而使用朴素汇总统计量已经很准确(图4),但总体而言,它们并没有带来推理质量的显着提高,并且在某些情况下还会导致比朴素集更差的性能。这说明了选择良好统计数据的挑战。
对于 WMM,推理质量不依赖于所使用的距离指标,这表明模型误差占主导地位。当谈到柯尔莫果洛夫距离时,我们看到从WMM到CBM的距离略有改进,事实上,基于汇总统计数据的距离指标超过了CBM的柯尔莫果洛夫距离。这可以根据CBM的近似特性来理解:在[32]中,我们表明,当使用汇总统计时,CBM可以比使用柯尔莫果洛夫距离更好地近似Smoldyn。与WMM相比,使用建立信任措施有了重大改进。然而,当谈到斯莫尔丁时,柯尔莫果洛夫距离在很大程度上优于幼稚和优化的汇总统计数据。事实上,这是在大多数参数空间上以可接受的精度推断参数的唯一情况。这表明,与基于汇总统计的指标相比,此距离对异常值更可靠。因此,当与精确模型相结合时,该距离能够在推断参数时产生更准确的结果。
最后,我们对粗粒度模型替代方案的推理准确性与局部近似质量进行了评论。在[32]中,我们表明,当使用汇总统计时,CBM可以在整个研究中考虑的整个参数空间中准确地近似Smoldyn。当使用柯尔莫果洛夫距离时,我们表明它仅在参数空间的左上半部分非常精确,即当扩散高而化学反应缓慢时。无论使用哪种距离度量,WMM 仅在参数空间的左上半部分准确。检查图 4 并将其与 [32] 中的图 3 进行比较,我们可以看到推理的准确性并不直接取决于粗粒度模型在真实参数位置的精度,即当粗粒度模型不是很好的近似时,推理可以相对准确,即使粗粒度模型 一个很好的近似值。话虽如此,我们仍然可以看到,当使用更详细的模型时,无论使用的距离指标如何,参数推断都会变得更加准确。
总而言之,这表明准确的推理不仅取决于粗粒度模型在真实参数下与详细空间模型的拟合程度,还取决于它在参数空间上对完全详细模型的全局拟合程度。
2.4 具有柯尔莫果洛夫距离的类似FACS的数据能够区分低保真度和高模型保真度,即使对于粗时间样本也是如此
在本节中,我们比较了三种模型在荧光活化细胞分选(FACS)等设置中的参数推断方面的性能。流式细胞术是一种特别强大的工具,因为它允许研究人员快速准确地从含有活细胞的异质液体混合物中获取与许多参数相关的群体数据。流式细胞术广泛应用于生命和生物医学科学领域,可用于研究人员需要快速分析液体培养基中大量松散细胞的任何场景。FACS与传统流式细胞术的不同之处在于,它允许对单个细胞或细胞群进行物理分离和随后的收集[38]。FACS可用于建立携带转基因的细胞系,富集特定细胞周期阶段的细胞,或在单个细胞水平上研究整个群体的转录组,基因组或蛋白质组等应用。
为了模拟FACS实验装置,我们遵循[36]的方法。在[36]中,测量是定期进行的。对于给定的间隔,计算观测分布和模拟分布之间的科洛莫果洛夫距离,并报告所有测量的平均距离。我们的数据集总共包含 100 次时间测量(每 10 分钟一次)。我们将此数据集缩减为仅包含 12、6 和 3 个测量值。然后,我们使用每个模型在每个粗略数据集上运行推理管道。预期的日志错误在图 6 中报告。
thumbnail 下载:
.PPT幻灯片
.PNG大图
.TIFF原始图像
图6. 将时间样本数从 3 增加到 100 时基于柯尔莫果洛夫距离的预期对数误差的 Boxen 图。
盒图的颜色对应于使用的时间样本数,颜色越浅对应于较少的时间点。当使用Smoldyn时,误差才会大幅减小,这表明模型误差是WMM和CBM情况下的限制因素。
https://doi.org/10.1371/journal.pcbi.1010683.g006
引人注目的是,我们发现,虽然Smoldyn的误差最低,但在使用WMM或CBM时,减少可用数据量的影响很小,这表明模型误差是限制因素。尽管CBM的误差水平低于WMM,但随着样本数量的增加,它并没有改善,这再次表明该模型无法准确捕获数据。换句话说,与 100 个样本相比,3 个样本在所考虑的参数空间中的误差分布没有统计学上的显着改善。增加时间样本的数量只对Smoldyn有一定的影响。总体而言,本节的结果表明,只有在有足够的计算能力来使用详细模型的情况下,使用更多的时间样本才有意义。
我们还研究了减少每个时间点样本数量的影响,如[39]。我们在 S5 图中展示了其结果。我们发现,当使用柯尔莫果洛夫距离时,减少每个时间点的样本数量会产生更大的影响 - 最明显的是与CBM和Smoldyn模型结合使用时,精度大幅降低。
2.5 蛋白质测量对于推理准确性比mRNA测量更重要
根据时间和/或预算限制,研究人员可以访问mRNA数据,蛋白质数据或mRNA和蛋白质数据。虽然一些动力学模型已被用于仅使用mRNA数据推断网络[40],但其他模型则受到mRNA和蛋白质数据的限制[41]。然而,据我们所知,mRNA和/或蛋白质数据对模型推断的相对重要性尚未得到充分研究。
在本节中,我们使用三种不同的距离度量来比较三个模型在三个不同数据场景中的性能。在数据方面,我们比较仅使用mRNA数据,仅使用蛋白质数据或同时使用mRNA和蛋白质数据。在距离测量方面,我们比较了朴素统计、优化统计和柯尔莫果洛夫距离度量。我们在图 7 中介绍了本节的发现。
thumbnail 下载:
.PPT幻灯片
.PNG大图
.TIFF原始图像
图 7. 基于所有三个距离指标(如x轴所示)使用所有物种(蓝色),仅蛋白质(橙色)或仅mRNA(灰色)时的预期对数误差的Boxen图。
Smoldyn模型用于此比较。仅使用 RNA 往往会降低推理的准确性。S2图显示了CBM和WMM的相同图。
https://doi.org/10.1371/journal.pcbi.1010683.g007
分析使用Smoldyn模拟的数据,我们发现仅测量mRNA水平的准确性低于仅测量蛋白质水平或同时测量mRNA和蛋白质水平。我们还发现,收集mRNA和蛋白质数据只有在与柯尔莫果洛夫距离结合使用时才有益。相比之下,我们发现使用WMM或CBM模拟的数据在所有三个数据场景中显示所有三个距离指标之间几乎没有差异(S2图)。这里的结果表明,模型误差是推理准确性的限制因素,如果只能使用WMM或CBM模型,则仅测量一个物种就足够了。这些结论对于我们选择的相对真实参数是有效的——如果另一个基线集感兴趣,则需要重新运行推理管道以确认 mRNA 与蛋白质测量的相对重要性。我们想指出的是,这里对参考值的特定选择是出于先前对Hes1 GRN的研究,其中观察到参数导致空间模拟在定性和定量上与实验数据一致[7]。
3 讨论
在这篇手稿中,我们建立了一个计算管道,以系统地研究ABC在模型选择方面的性能,观测数据的性质和数量,以及我们将真实数据和模拟数据与ABC进行无可能性推理(即距离度量)的比较方式。我们将这个管道应用于负反馈调节的规范模型和几个实验驱动的数据场景。我们表明,该管道可用于揭示模型、数据量和距离指标的哪些组合有望导致最准确的推理结果的见解。
在分析参数空间上的推理误差时,可以确定根据实验数据执行推理最有可能准确的区域。使用完整的观测值集(64 条轨迹,每条轨迹有 100 个等距时间观测值),我们发现使用最详细的模型(如预期的那样)和柯尔莫果洛夫距离(与汇总统计相反)进行参数推断总体上最准确。
我们试图使用模拟驱动的推理管道回答的一个关键问题是,在哪种推理条件下,我们能够看到使用完整空间模型 (Smoldyn) 的明显优势。由于真正的合成数据是用 Smoldyn 生成的,我们预计,如果推理条件允许,使用该模拟器应该会带来卓越的推理精度。在我们的实验中,我们观察到,当同时使用朴素和优化的汇总统计量时,使用Smoldyn比WMM模型有明显的好处(图5)。令人惊讶的是,当使用这些汇总统计数据时,与包含模拟的一些空间特征的更简单的多尺度隔间模型相比,使用 Smoldyn 没有显着优势。然而,当分布数据与柯尔莫果洛夫距离度量而不是平均值一起使用时,只有完全详细的空间模型才能利用数据中的信息(图5和S4图)。
从实验的角度来看,我们试图使用我们的管道回答的另一个有趣的问题是,是否需要观察mRNA,蛋白质或两者,以最小化参数推断误差。为了回答这个问题,我们针对负反馈模型的特定情况进行了实验,并观察到仅测量mRNA水平会导致最高的参数推断误差。仅测量蛋白质通常与测量两种物种一样准确,除非使用Smoldyn和Kolmogorov距离,在这种情况下,观察这两个物种的增益相对较小。
我们考虑了两组汇总统计量,一组是朴素池,由建模者在第一次尝试推理时可能选择的典型统计量组成,另一组是通过从更大的时间序列特征池中选择最先进的汇总统计量获得的一组统计数据。与天真选择的统计相比,这些优化的汇总统计并没有显示出重大改进,这突出表明统计选择是一个具有挑战性的问题。当然,可能存在一组表现更好的统计数据。然而,在我们的实验中,柯尔莫果洛夫距离方法给出了更可靠的结果。在这里,使用柯尔莫果洛夫距离来比较汇总统计数据(而不是取预期)显示了空间模型的收益,标准柯尔莫果洛夫距离测量仍然导致更准确的结果,参见 S4 图。一个有趣的未来方向是与一类新兴的方法进行比较,这些方法通过训练回归模型[42]来预测后验平均参数[43-45]来自动学习良好或最优的统计数据。这种方法在候选池中甚至可能不存在最佳汇总统计量以供选择的情况下特别有用,但伴随着需要大量训练数据(形式为 -y、θ 的对)才能获得回归模型的开销。
在我们使用的如此大一部分参数空间上执行管道,只有在评估候选粒子的差异时,通过使用高斯过程来近似距离度量值,才能在计算上易于处理。事实上,如[32]所示,使用WMM或CBM推断单个合成数据集的参数需要10到100个核心小时,而使用Smoldyn运行ABC的下限估计范围为780到4635核心小时,具体取决于参数值。显然,在大量合成数据集以及距离指标和数据量方面的各种配置上运行此过程在计算上是无法处理的。相比之下,使用高斯过程近似推断一个数据集的参数花费了不到一个核心小时,包括训练高斯过程的时间。当然,使用这种近似值存在一些错误,应监控此错误以将其与其他来源区分开来。在S1图中,我们查看了J?rvenp??等人[46]定义的效用,并表明它是相对恒定的,这表明我们的结果在参数空间上是一致的。在某些选定情况下,甚至可以通过在少数选定情况下使用完整模型运行 ABC 来估计此误差。一旦确信 GP 相当准确,管道可用于扫描模型、汇总统计数据和观测数据集的其他配置。
执行此管道仅应被视为选择参数推理中涉及的组件的预备步骤。校准设置并收集实验数据后,可以使用常规ABC,前提是模拟模型的计算成本不会太高。
在这项研究中,当涉及到生物物理现实主义时,我们使用最高保真度模型作为基本事实的代表。这使我们能够比较不同的模型保真度。当试图将管道结果外推到真实的实验条件下时,重要的是要记住,在实践中,真实的实验数据会比模拟数据更嘈杂,首先是因为每个模型都是错误的(尽管其中一些是有用的,正如引用所说),然后因为即使模型是现实的准确表示,由于实验协议的限制,总会有测量噪声。在这里,我们选择了“完美的合成数据”,以使数值设置的解释和模型比较更容易,尽管我们注意到使用测量误差模型重复数值实验是可能和有趣的。通过这种方式,还可以研究与噪声鲁棒性相关的不同设置和场景(例如汇总统计与柯尔莫果洛夫距离)。
在使用真实实验数据的推理场景中,“真实”参数是未知的,并且由于模型误差未知,因此很难验证参数推断。如简介中所述,建模者通常会偏爱一种模型类型。正如我们的研究表明,将不同的模型相互比较,特别是比较不同的推理策略可能很重要。
贝叶斯参数推理是一种有效的技术,用于查找参数空间中类似于观测数据的区域。如果参数可识别,则估计的参数将与“true”参数相对应。然而,仅对有限类别的模型才有可能显示可识别性[47]。我们的方法提供了一种替代方案,可以在贝叶斯推理的上下文中量化由于模型选择、汇总统计或缺乏数据而导致的潜在误差。
最后,我们注意到,在这项工作中,我们有兴趣使用模型来准确学习底层模型参数。对于给定的一组观测数据和给定的数值推理设置,很明显,建模者应该倾向于计算成本最低的模型,从而产生良好的参数推断。这里要注意的是,由于无似然推理的实际方面,如果粗粒度近似仅在真实参数点准确是不够的,它需要在整个先验分布的支持过程中准确。鉴于真参数在实践中是未知的,这意味着我们要么需要一些关于真实参数将落在哪些制度中的先验知识(在这种情况下,我们可以使用像我们这样的管道来建议对不同模型选择的推理的稳定性),要么我们需要寻求全局准确的近似。我们强调这个问题不同于典型的基于ABC的贝叶斯模型选择问题,在贝叶斯模型选择问题中,我们试图对不同的模型使用模拟器来计算模型生成观测数据的概率。在该设置中,我们允许模型采用“错误”的物理参数值,只要该模型配置能够生成接近观测数据的轨迹。我们计划在未来的工作中应用我们开发的管道来更详细地研究这方面。
4 方法
4.1 化学动力学的随机模型
单细胞中的随机化学动力学可以在各种保真度下建模,从随机微分方程到详细的粒子模型[48]。然而,先验地选择建模保真度级别并不总是那么容易。特别是,包含有关分子在整个细胞中分布的空间细节的模型可以揭示新的见解,但计算成本显着增加[49]。
一个流行的建模框架是化学主方程(CME)[50]。在CME形式主义中,系统由状态向量x表示,其中每行代表给定物种的分子计数。n种和m个反应系统的概率分布由主方程的解给出:
(6)
其中 x 是系统的状态向量,a我(x) 和 ν我分别是反应 i 和 x 的倾向和随机向量0是系统在时间 t 的状态0.
不幸的是,在大多数实际情况下,以数字方式解决CME是棘手的。然而,使用吉莱斯皮的随机模拟算法(SSA)[51]可以生成CME的实现。CME的一个基本假设是细胞内的分子混合良好,即反应之间有足够的时间使分子均匀地扩散到细胞中。换句话说,CME不包括有关每个分子位置的空间细节。
在[32]中,我们提出了一种将一定程度的空间细节纳入CME框架的技术。通过将细胞划分为隔室并计算这些隔间之间的转换率,我们能够包含一些空间信息并近似更详细的模型,而计算成本仅略有增加。
CME的另一个更标准的推广包括空间细节是反应扩散主方程(RDME)[52,53]。在RDME框架中,空间被离散化为小体素。假设每个体素都混合良好,并且反应只能在属于同一体素的分子之间发生。此外,分子可以扩散到相邻的体素,具体取决于离散化的几何形状和扩散速率。
其他更详细的方法跟踪每个分子在连续空间中的位置。例如,在Smoluchowski扩散限制模型中,分子在空间中扩散遵循菲克第二定律:
(7)
其中r是分子的位置,D是分子的扩散常数,p是分子位置的概率分布。然后将分子建模为硬球体,在碰撞时以给定的概率发生反应。在一般情况下求解斯莫卢霍夫斯基方程是一个开放问题。规避此问题的一种方法是离散化时间,并依靠近似值来确定两个分子何时碰撞并可能引发化学反应。这种方法用于例如Smoldyn[13]。另一种方法是在保护域中分离成对的分子或单个分子,其中Smoluchowski方程可以使用格林函数反应动力学解析求解。这是例如eGFRD中使用的方法[54]。
这些方法之间有一个明确的数学层次结构[48,55]。事实上,众所周知,在无限扩散的极限下,空间方法将向CME收敛。然而,在实践中,很难确定扩散是否“足够快”,以使CME成为受审查的化学系统的有效近似值。使用更详细的模型会更准确,但代价是计算成本更高。平衡这两个方面是建模中的一个关键问题。
在之前的一项研究中[32],我们考虑了三个随机模型,包括不同层次的细节,并比较了它们在[7]中提出的Hes1系统背景下的准确性方面如何相互关联。在第 2 节中,我们将使用相同的模型来说明我们的管道如何使用在贝叶斯参数推理设置中比较这些模型。
4.2 无似然贝叶斯推理
给定一个数学模型 y = f(θ),参数推断的目标是将 f 拟合到观察到的数据 y o,即估计参数 θo产生模拟数据 y模拟 = f(θo) 使得 y模拟 = yo.由于模型f是随机的,实际上相等条件过于严格,永远无法完全满足。通常,相等条件被涉及阈值的宽松形式所取代。此外,我们注意到,对于除了非常简单的学术兴趣模型之外的所有模型,对应于f的似然函数要么不可用,要么在计算上不切实际。因此,参数估计必须利用观测数据以无可能性的方式进行,并访问仿真模型f。
在无似然设置中,最流行的参数估计方法系列是近似贝叶斯计算(ABC)[56]。ABC 参数推断从参数 θ 上的先验分布 p(θ) 的规范开始,表示参数搜索空间。然后,ABC抑制采样算法对θ模拟~ p(θ),并模拟 y模拟 = f(θ模拟).模拟时间序列 y模拟现在必须与 Y 进行比较o验证两个时间序列是否足够接近,即距离是否 d(y0, y模拟) ≤ε,其中ε是用户指定的接受阈值,d 是距离度量,在实践中通常选择为欧几里得距离。如果是这样,则视为接受,否则被拒绝。重复此样品-模拟-比较剔除采样周期,直到获得足够数量的接受样品。然后,接受的样本集形成估计的后验分布p(θ|yo),解决参数推理问题。
时间序列 y 之间的比较o和 y模拟通常以 k 个低维汇总统计量 S = S 来执行 1(y), ...,Sk(y)或时间序列的特征(例如,统计时刻)。这是由于在比较丰富的高维时间序列时维度的诅咒([56]的第5章中有详细讨论)。
汇总统计量选择是一个经过充分研究的问题,并且存在从 m 个总统计量的候选池中选择 k 个信息统计量的方法。该主题的彻底处理可以在[27,56]中找到。选择汇总统计量的一种动机良好的方法是基于近似充足性(AS)的概念[57]。如果添加统计量 S 就足够了新增功能到 S 不会改变近似的后验 p(θ|yo).AS算法以随机顺序[58]启动不同统计量的测试,因此在这项工作中,我们将多次重复汇总统计量选择,以计算每个统计量的选择频率。最常选择的统计信息将在参数推理过程中使用。可供选择的候选统计资料库包括每个物种的以下统计/特征。
- 值之和
- 绝对能量
- 平均绝对变化
- 均值变化
-中位数
-意味 着
-长度
-标准差
- 偏度
-峰度
- 低于平均值的最长走向
- 高于平均值的最长走向
- 最大值的最后位置
- 最大位置的第一个位置
- 最小值的最后位置
- 最小值的第一个位置
-最大
-最低
因此,总共有36个候选统计数据可供选择 - 每个物种mRNA和蛋白质18个(参见第2.2节中的模型定义)。
4.3 无似然参数推断的高斯过程
ABC通常需要缓慢收敛到估计的后验,并且可能需要数千次模拟才能提供可靠的估计。当模拟成本高昂时,当我们需要执行许多这样的推理计算时,这可能代表严重的计算瓶颈。在这项研究中,我们设置了尽可能小的成本,以便我们可以在较宽的先前范围和许多推理设置上重复参数推理实验。
高斯过程是高斯概率分布的推广,因此可以被认为是函数 f(x) 上的分布。分布使用均值函数 μ(x) 和(正半定)协方差函数 k(x, x′) 指定,其中配对 (x, x′) 涵盖训练集中所有可能的数据点对。均值函数μ通常设置为常数,而核函数 k 用于强制执行某些先验信念(例如,通过平方指数核函数的平滑度)。
在[46]中,J?rvenp??等人描述了如何使用高斯过程来近似模拟数据和观测数据之间的距离度量值或差异,并演示了当模拟成本太高而无法直接用于推理算法时,如何使用这种技术来有效地推断参数。在这里,我们使用类似的方法,并训练高斯过程模型作为代理项,以近似和替换模拟数据和观测数据之间的距离度量值(我们考虑的每个模拟模型一个)。因此,代理模型也间接地近似于仿真模型。
我们使用 Scikit-learn [59] 设置高斯过程,并将核设置为有理二次核和白色核之间的和:其中 l 是控制相关强度的长度尺度超参数,α是尺度混合超参数,而γ
噪声表示白噪声量。训练过程使用 L-BFGS-B 算法最大化对数边际似然,以优化超参数。训练数据来自之前的研究[32],由512个样本组成。
管道可以总结如下:
我们训练高斯过程来近似合成、观察数据和模拟数据之间的距离度量值。
pyABC 使用此代理距离来评估候选粒子。在此过程中不会执行额外的模拟。
高斯过程不仅估计参数空间中给定点的距离度量的平均值,而且还估计该值的不确定性。在我们的例子中,这很重要,因为ABC中粒子接受的随机方面。具体来说,根据来自该粒子的模拟数据,可以接受或拒绝相同的粒子,特别是如果它来自随机模型。因此,通过使用高斯过程对测量距离周围的随机变化进行建模,我们可以重现这一方面。
当然,GP 代理人的代价是近似误差。由于我们不知道真正的后验分布,并且由于使用完整模型执行ABC在计算上是昂贵的(对于最详细的模型来说甚至是难以处理的),因此很难量化这种近似对我们的结果的影响。参考读者[60],讨论GP近似误差在无似然参数推理问题的背景下的影响。J?rvenp?? et al. jarvenpaa2018Gaussian引入了一种效用度量来量化高斯过程的拟合优度。尽管从绝对值来看,这个原始数字不是很有启发性,但它可以用来比较近似在不同配置下的表现。在我们所有的实验中,该实用程序从未与误差图上显示的模式相关联(参见S1图),这表明它对推理误差的影响很小。
总之,通过使用这个近似距离,我们可以大大降低运行ABC的计算成本,而不管用于模拟数据的模型如何。特别是,即使是计算成本太高而无法像ABC那样使用的详细模型也可以插入到我们的管道中。这使得在使用更简单的模型时可以根据准确性方面可以实现的目标设置基线。
支持信息
使用WMM(左)、CBM(中)和Smoldyn(右)的柯尔莫果洛夫距离时计算模型实用程序的热图。
显示 1/7: pcbi.1010683.s001.pdf
跳到无花果共享导航
很抱歉,我们无法加载您的数据。
1 / 7
下载
无花果分享
S1 图 使用WMM(左)、CBM(中)和Smoldyn(右)的柯尔莫果洛夫距离时计算模型实用程序的热图。
y 轴显示模型实用程序如何随扩散常数变化,x 轴显示模型实用程序如何随反应常数变化。所有轴都以对数刻度显示,颜色条也是如此。总体而言,模型实用程序与图 4 中所示的误差估计值无关。
https://doi.org/10.1371/journal.pcbi.1010683.s001
(英文)
S2 图 Boxen 图显示了 WMM(顶行)和 CBM(底行)的预期对数误差的比较,对于所有三种不同的距离指标,以及仅测量蛋白质水平(橙色)、仅测量 mRNA 水平(灰色)或两者(蓝色)时的预期对数误差。
总的来说,与使用Smoldyn的情况相反,没有观察到太大的差异(见图7)。
https://doi.org/10.1371/journal.pcbi.1010683.s002
(英文)
S3 图 基于优化统计数据显示 WMM(左)、CBM(中)和 Smoldyn(右)的预期日志错误的热图。
y 轴显示预期对数误差如何随扩散常数变化,x 轴显示它如何随反应常数变化。该误差略低于仅使用基本汇总统计数据时。
https://doi.org/10.1371/journal.pcbi.1010683.s003
(英文)
S4 图 基于期望值或基于分布的距离测量比较。
当通过具有多个轨迹的数据集的汇总统计来比较模拟数据和真实数据时,最直接和最常见的方法是计算每个轨迹的统计数据,然后比较真实数据和模拟数据的预期值。这是主手稿在使用汇总统计时所做的。作为更精细的替代方案,我们还可以使用柯尔莫果洛夫距离(柯尔莫果洛夫统计)比较汇总统计数据。这需要计算每个时间点统计数据的直方图 CDF,然后获取真实数据和观测数据之间的柯尔莫果洛夫距离。可以看出,这种方法在使用Smoldyn模拟器时是有利的,但是它不会像直接比较主手稿中的拷贝数那样低误差(柯尔莫果洛夫距离)。然而,对于煤层气模型,采取分配措施会导致更高的误差。
https://doi.org/10.1371/journal.pcbi.1010683.s004
(英文)
S5 图 Boxen 图显示了使用汇总统计量(顶行)或柯尔莫果洛夫距离(bottow 行)与 64 个模拟轨迹(深蓝色)或 4 个模拟轨迹(浅蓝色)比较所有三个模型的预期对数误差。
通常,使用柯尔莫果洛夫距离时,增加数据的粒度效果更大,因为CBM和Smoldyn的精度都有所提高。
https://doi.org/10.1371/journal.pcbi.1010683.s005
(英文)
S6 图 主手稿中图 4 中的数据用均方根误差 (RMSE) 绘制,而不是预期的对数误差指标。
虽然存在数量差异,但总体趋势仍然存在。
https://doi.org/10.1371/journal.pcbi.1010683.s006
(英文)
S1 文本。 汇总统计定义。
对所使用的每个汇总统计信息的说明。
https://doi.org/10.1371/journal.pcbi.1010683.s007
(英文)
确认
我们感谢瑞典国家计算基础设施(SNIC)通过乌普萨拉高级计算科学多学科中心(UPPMAX)在项目2019/8-227下提供的计算资源。
引用
1米平田 H, 吉浦 S, 大冢 T, 别所 Y, 原田 T, 吉川 K, 等.由负反馈环调节的bHLH因子Hes1的振荡表达。科学。2002;298(5594):840–843.密码:12399594
查看文章PubMed/NCBI谷歌学术搜索
2米Bernard S, ?ajavec B, Pujo-Menjouet L, Mackey MC, Herzel H. 建模转录反馈环:Gro/TLE1在Hes1振荡中的作用。皇家学会哲学学报A:数学,物理和工程科学。2006;364(1842):1155–1170.密码:16608701
查看文章PubMed/NCBI谷歌学术搜索
3米和尚纳。由转录时间延迟驱动的Hes1,p53和NF-κB的振荡表达。当前生物学。2003;13(16):1409–1413.密码:12932324
查看文章PubMed/NCBI谷歌学术搜索
4米Jensen M,Sneppen K,Tiana G.蛋白质Hes1基因表达的持续振荡和时间延迟。二月信。2003;541(1-3):176–177.密码:12706840
查看文章PubMed/NCBI谷歌学术搜索
5米牧师M,Ptashnyk M,Sturrock M.基因调控网络模型中的Hopf分叉:分子运动引起振荡。应用科学中的数学模型和方法。2015;25(06):1179–1215.
查看文章谷歌学术搜索
6米苍鹭EA, 芬肯施泰特 B, 兰德达.动态转录调控的贝叶斯推理;Hes1系统作为案例研究。生物信息学。2007;23(19):2596–2603.pmid:17660527
查看文章PubMed/NCBI谷歌学术搜索
7米斯特洛克 M, 海兰德 A, 马扎维诺斯 A, 牧师马.Hes1基因调控网络的空间随机建模:内在噪声可以解释胚胎干细胞分化的异质性。英国皇家学会界面杂志。2013;10(80):20120988.密码:23325756
查看文章PubMed/NCBI谷歌学术搜索
8米埃利亚什 J, 迪米特里奥 L, 克莱兰博特 J, 纳塔里尼 R.p53在单细胞中的动力学:基于生理学的常微分方程和反应扩散偏微分方程模型。物理生物学。2014;11(4):045001.密码:25075792
查看文章PubMed/NCBI谷歌学术搜索
9米斯特洛克 M, 特里 AJ, 希罗迪马斯 DP, 汤普森 AM, 牧师 MA.Hes1和p53-Mdm2细胞内信号通路的时空建模。理论生物学杂志。2011;273(1):15–31.pmid:21184761
查看文章PubMed/NCBI谷歌学术搜索
10米威廉姆斯RA,蒂米斯J,Qwarnstrom EE。NF-KB信号通路的计算模型。计算。2014;2(4):131–158.
查看文章谷歌学术搜索
11米恩德林 H,牧师 M AJ。肿瘤生长和治疗的数学建模。当前的制药设计。2014;20(30):4934–4940.密码:24283955
查看文章PubMed/NCBI谷歌学术搜索
12米古腾昆斯特 RN, 瀑布 JJ, 凯西 FP, 布朗 KS, 迈尔斯 CR, 塞斯娜 JP.系统生物学模型中普遍草率的参数敏感性。公共科学图书馆计算生物学. 2007;3(10):e189.pmid:17922568
查看文章PubMed/NCBI谷歌学术搜索
13米Andrews SS,Addy NJ,Brent R,Arkin AP.使用Smoldyn 2.1对细胞生物学进行详细模拟。公共科学图书馆计算生物学. 2010;6(3):e1000705.密码:20300644
查看文章PubMed/NCBI谷歌学术搜索
14米Aebersell R,Mann M.基于质谱的蛋白质组学。自然界。2003;422(6928):198–207.密码:12634793
查看文章PubMed/NCBI谷歌学术搜索
15米Schirle M,Heurtier MA,Kuster B.通过一维PAGE和液相色谱串联质谱分析人类细胞系的核心蛋白质组。分子和细胞蛋白质组学。2003;2(12):1297–1305.密码:14532353
查看文章PubMed/NCBI谷歌学术搜索
16米Budnik B,Levy E,Harmange G,Slavov N. SCoPE-MS:单个哺乳动物细胞的质谱法量化细胞分化过程中蛋白质组异质性。基因组生物学。2018;19(1):1–12.密码:30343672
查看文章PubMed/NCBI谷歌学术搜索
17米Bendall SC, Simonds EF, Qiu P, El-ad DA, Krutzik PO, Finck R, et al.人造血连续体中差异免疫和药物反应的单细胞质控细胞术。科学。2011;332(6030):687–696.pmid:21551058
查看文章PubMed/NCBI谷歌学术搜索
18米Albayrak C, Jordi CA, Zechner C, Lin J, Bichsel CA, Khammash M, et al.单个哺乳动物细胞中蛋白质和mRNA的数字定量。分子细胞。2016;61(6):914–924.密码:26990994
查看文章PubMed/NCBI谷歌学术搜索
19米达尔曼尼斯 S, 加兰特 CJ, 马里内斯库 VD, 尼克拉松 M, 塞格曼 A, 弗拉穆拉基斯 G, 等.同时多重测量单细胞中的RNA和蛋白质。细胞报告。2016;14(2):380–389.密码:26748716
查看文章PubMed/NCBI谷歌学术搜索
20米Whale AS, Huggett JF, Cowen S, Speirs V, Shaw J, Ellison S, et al.微流控数字PCR和常规定量PCR测量拷贝数变异的比较。核酸研究。2012;40(11):e82–e82.密码:22373922
查看文章PubMed/NCBI谷歌学术搜索
21米林 J, 乔迪 C, 孙 M, 范潘 H, 德雷曼 N, 阿巴西亚尼克 MF, 等.单细胞中蛋白质和mRNA的超灵敏数字定量。自然通讯。2019;10(1):1–10.pmid:31391463
查看文章PubMed/NCBI谷歌学术搜索
22米库尔萨维 J, 贝克 RE, 弗莱彻股份公司.近似贝叶斯计算揭示了重复测量对于参数化基于细胞的生长组织模型的重要性。理论生物学杂志。2018;443:66–81.密码:29391171
查看文章PubMed/NCBI谷歌学术搜索
23米哈里森·朱,贝克·时间采样分辨率对生物输运模型参数推断的影响.公共科学图书馆计算生物学。2018;14(6):e1006235.密码:29939995
查看文章PubMed/NCBI谷歌学术搜索
24米罗伯特CP,Cornuet JM,Marin JM,Pillai NS。对近似贝叶斯计算模型选择缺乏信心。美国国家科学院院刊.2011;108(37):15112–15117.密码:21876135
查看文章PubMed/NCBI谷歌学术搜索
25米Sunn?ker M, Busetto AG, Numminen E, Corander J, Foll M, Dessimoz C. 近似贝叶斯计算。公共科学图书馆计算生物学. 2013;9(1):e1002803.密码:23341757
查看文章PubMed/NCBI谷歌学术搜索
26米麦克拉伦、尼科尔森·什么可以估计?可识别性、可估计性、因果推理和病态逆问题。arXiv预印本arXiv:190402826。2019;.
27米Prangle D. 近似贝叶斯计算中的汇总统计量。arXiv预印本arXiv:151205633。2015;.
28米布朗宁 AP, 沃恩 DJ, 伯雷奇 K, 贝克 RE, 辛普森 MJ.系统生物学中随机微分方程模型的可识别性分析。皇家学会界面杂志。2020;17(173):20200652.密码:33323054
查看文章PubMed/NCBI谷歌学术搜索
29米麦克林·当眼见为实:数学如何指导我们对测量和实验的解释。细胞系统。2017;5(2):92–94.密码:28837815
查看文章PubMed/NCBI谷歌学术搜索
30米沃恩DJ,贝克RE,辛普森MJ。使用实验数据和信息标准来指导数学生物学中反应扩散问题的模型选择。数学生物学通报.2019;81(6):1760–1804.密码:30815837
查看文章PubMed/NCBI谷歌学术搜索
31米福克斯、芒斯基·基于有限状态投影的费舍尔信息矩阵方法,用于估计信息和优化单细胞实验。公共科学图书馆计算生物学。2019;15(1):e1006365.pmid:30645589
查看文章PubMed/NCBI谷歌学术搜索
32米库利尔 A, 海兰德 S, 海兰德 A.使用命中时间分析的基于随机基因调控网络的多尺度区室模型。化学物理学报.2021;154(18):184105.密码:34241042
查看文章PubMed/NCBI谷歌学术搜索
33米Jiang R, Jacob B, Geiger M, Matthew S, Rumsey B, Singh P, et al.StochSS Live中的流行病学建模!生物信息学。2021;.
34米Drawert B, Hellander A, Bales B, Banerjee D, Bellesia G, Daigle BJ Jr, et al.随机模拟服务:弥合计算专家和生物学家之间的差距。公共科学图书馆计算生物学。2016;12(12):e1005220.密码:27930676
查看文章PubMed/NCBI谷歌学术搜索
35米Klinger E, Rickert D, Hasenauer J. pyABC: 分布式, 似然无推理.生物信息学。2018;34(20):3591–3593.密码:29762723
查看文章PubMed/NCBI谷歌学术搜索
36米利拉奇·噪声中的信号:使用荧光直方图和随机模拟有效推断随机基因调控模型。生物信息学。2013;29(18):2311–2319.密码:23821649
查看文章PubMed/NCBI谷歌学术搜索
37米Hofmann H, Kafadar K, Wickham H. 字母值图:大数据的箱线图。had.co.nz;2011.
38米Julius M,Masuda T,Herzenberg L.证明抗原结合细胞是用荧光激活细胞分选仪纯化后产生抗体的细胞的前体。美国国家科学院院刊.1972;69(7):1934–1938.密码:4114858
查看文章PubMed/NCBI谷歌学术搜索
39米Vo HD,Fox Z,Baetica A,Munsky B.使用多保真模型估计随机基因表达的贝叶斯估计。物理化学学报 B. 2019;123(10):2217–2234.pmid:30777763
查看文章PubMed/NCBI谷歌学术搜索
40米Matsumoto H, Kiryu H, Furusawa C, Ko MS, Ko SB, Gouda N, et al. SCODE:一种来自分化过程中单细胞RNA-Seq的有效调控网络推理算法。生物信息学。2017;33(15):2314–2321.密码:28379368
查看文章PubMed/NCBI谷歌学术搜索
41米Schwanh?usser B, Busse D, Li N, Dittmar G, Schuchhardt J, Wolf J, et al.哺乳动物基因表达控制的全球定量。自然界。2011;473(7347):337–342.pmid:21593866
查看文章PubMed/NCBI谷歌学术搜索
42米Fearnhead P, Prangle D. 构建近似贝叶斯计算的汇总统计量:半自动近似贝叶斯计算。《皇家统计学会杂志》:B辑(统计方法)。2012;74(3):419–474.
查看文章谷歌学术搜索
43米?kesson M, Singh P, Wrede F, Hellander A. 卷积神经网络作为近似贝叶斯计算的汇总统计量。IEEE / ACM Transactions on Computational Biology and Bioinformatics。2021;.
44米通过深度神经网络进行近似贝叶斯计算的学习汇总统计量.中国统计.2017;27(4):1595–1618.
查看文章谷歌学术搜索
45米Wiqvist S, Mattei PA, Picchini U, Frellsen J. 用于学习近似贝叶斯计算中汇总统计的部分可交换网络和体系结构。在:机器学习国际会议;2019.第6798–6807页。
46米J?rvenp?? M, Gutmann MU, Vehtari A, Marttinen P, et al.近似贝叶斯计算中的高斯过程建模,以估计细菌中的水平基因转移。应用统计年鉴。2018;12(4):2228–2251.
查看文章谷歌学术搜索
47米辛普森 MJ, 贝克 RE, 维塔德罗 ST, 麦克拉伦 OJ.细胞侵袭时空模型的实用参数可识别性。皇家学会界面杂志。2020;17(164):20200055.pmid:32126193
查看文章PubMed/NCBI谷歌学术搜索
48米吉莱斯皮DT,海兰德A,佩佐尔德LR。观点:化学动力学的随机算法。化学物理学报.2013;138(17):05B201_1.密码:23656106
查看文章PubMed/NCBI谷歌学术搜索
49米伯雷奇 K, 伯雷奇 PM, 莱尔 A, 马尔克斯-拉戈 T, 尼古拉 DV.用于活细胞中动态过程的空间建模的随机模拟。在:生物分子电路的设计和分析。斯普林格;2011.第43–62页。
50米吉莱斯皮·数值模拟偶联化学反应随机时间演变的通用方法。计算物理学报.1976;22(4):403–434.
查看文章谷歌学术搜索
51米吉莱斯皮·偶联化学反应的精确随机模拟。物理化学杂志。1977;81(25):2340–2361.
查看文章谷歌学术搜索
52米Elf J,Doncic A,Ehrenberg M.细胞内信号传导中的介观反应扩散。在:生物,生物物理和生物医学系统中的波动和噪声。卷 5110.国际光学与光子学会;2003.第114–124页。
53米Stundzia AB, Lumsden CJ.偶联反应-扩散过程的随机模拟。计算物理学报.1996;127(1):196–207.
查看文章谷歌学术搜索
54米Sokolowski TR, Paijmans J, Bossen L, Miedema T, Wehrens M, Becker NB, et al. eGFRD 在各个维度。化学物理学报.2019;150(5):054108.pmid:30736681
查看文章PubMed/NCBI谷歌学术搜索
55米Smith S,Grima R.空间随机细胞内动力学:建模方法综述。数学生物学通报.2019;81(8):2960–3009.密码:29785521
查看文章PubMed/NCBI谷歌学术搜索
56米Sisson SA, Fan Y, Beaumont M. 近似贝叶斯计算手册.中国共产党出版社;2018.
57米Joyce P, Marjoram P. 近似足够的统计和贝叶斯计算。遗传学和分子生物学中的统计应用。2008;7(1).
查看文章谷歌学术搜索
58米努内斯·马,秃顶DJ。关于近似贝叶斯计算汇总统计量的优化选择。遗传学和分子生物学中的统计应用。2010;9(1).密码:20887273
查看文章PubMed/NCBI谷歌学术搜索
59米Pedregosa F, Varoquaux G, Gramfort A, Michel V, Thirion B, Grisel O, et al. Scikit-learn: Machine learning in Python.机器学习研究杂志。2011;12:2825–2830.
查看文章谷歌学术搜索
50米Jarvenp?? M. 用于样本高效近似贝叶斯计算的高斯过程代理方法。阿尔托大学出版物系列,论文 121/2020。2020;.