《免费医学论文发表-将定制的递归神经网络与贝叶斯实验设计相结合,以优化微生物群落功能》期刊简介
免费医学论文发表-将定制的递归神经网络与贝叶斯实验设计相结合,以优化微生物群落功能
抽象
微生物组与其环境动态相互作用,以执行可利用的功能,例如产生有价值的代谢物和降解有毒代谢物,在人类健康,农业和环境清理中具有广泛的应用。开发计算模型来预测关键细菌种类和环境因素以构建和优化这些功能对于加速微生物群落工程至关重要。然而,有一个未知的相互作用网络决定了这些系统的高度复杂和动态行为,这排除了基于已知机制的模型的开发。相比之下,完全数据驱动的机器学习模型可以产生物理上不切实际的预测,并且通常需要大量的实验数据来学习系统行为。我们开发了一个物理约束的递归神经网络,该网络保留了模型的灵活性,但仅限于产生物理一致的预测,并表明它可以在预测某些实验测量的物种丰度和代谢物浓度方面优于现有的机器学习方法。此外,我们提出了一种闭环贝叶斯实验设计算法,通过选择同时最大化信息增益和靶向微生物群落功能的实验条件来指导数据收集。使用生物反应器案例研究,我们展示了如何使用所提出的框架来有效地导航大型设计空间,以确定最佳操作条件。所提出的方法提供了一种灵活的机器学习方法,专门用于通过寻求探索和利用社区功能的信息实验的顺序设计来优化微生物组靶功能。
作者摘要
微生物组所发挥的功能具有巨大的希望,可以解决社会面临的重大挑战,从改善人类健康到促进植物生长。为了设计它们的特性,需要灵活的计算模型来预测微生物组响应关键环境参数的时间变化行为。在考虑微生物组的自下而上的设计时,可能的群落数量随着生物数量和环境因素的数量呈指数级增长,这使得导航微生物组功能景观具有挑战性。为了克服这些挑战,我们提出了一个物理受限的微生物组机器学习模型和一个闭环的贝叶斯实验设计框架,以有效地导航可能的社区和环境因素的空间。
数字
Fig 4Fig 5图1图2图3Fig 4Fig 5图1图2图3
引文: 汤普森 JC,萨瓦拉 VM,冒险操作系统 (2023) 将定制的递归神经网络与贝叶斯实验设计相结合,以优化微生物群落功能。公共科学图书馆计算生物学19(9): e1011436. https://doi.org/10.1371/journal.pcbi.1011436
编辑 器: 克里斯托斯· 希腊 克佩里
收到: 23月 2022, 16;接受: 2023月 29, 2023;发表: <>月 <>, <>
版权: ? 2023 汤普森等人。这是一篇根据知识共享署名许可条款分发的开放获取文章,该许可允许在任何媒体上不受限制地使用、分发和复制,前提是注明原作者和来源。
数据可用性: 重现结果所需的所有代码和数据均可从 github.com/VenturelliLab 获得。
资金: 这项研究得到了陆军研究办公室(ARO)的资助,拨款号为W911NF1910269(OSV),美国国立卫生研究院的资助号为R35GM124774(OSV)和R01EB030340(OSV)。资助者在研究设计、数据收集和分析、发表决定或手稿准备方面没有任何作用。
竞争利益: 提交人声明不存在相互竞争的利益。
1 引言
微生物群落具有执行多种功能的潜力,包括将富含碳的废物转化为有价值的化合物的能力[1,2],进行生物固氮以提高农业产量[3],从环境中解毒废物[4],以及调节脊椎动物宿主表型[5].然而,由于相互作用机制未知以及观察和量化此类系统各个方面的能力有限(例如组成群落成员使用和生产的代谢物),自下而上设计微生物群落以执行所需功能是一项重大挑战。此外,用于优化微生物组靶功能的物种和环境因素的设计空间很大,难以系统地导航。开发模型,从数据预测群落的时间行为,并确定环境条件和预测具有优化功能的物种组合,已成为指导微生物组工程的有希望的途径[6]。
由于微生物组具有较大的设计空间,因此高通量实验与计算建模相结合对于自下而上地理解和工程微生物群落非常有效[7-9]。预测系统行为的数学模型已成为理解复杂生物过程的重要工具[10],最近的研究已成功应用模型引导方法来理解和优化微生物群落功能[5,9]。 由于未知的相互作用以及对这些相互作用的机制的有限理解,从第一性原理开发微生物组模型很困难[11]。因此,可以从实验数据中了解微生物物种在不同环境中如何相互作用的机器学习方法是解决这一限制的令人信服的方法。神经网络是灵活的机器学习模型,可以预测一类系统的复杂行为[12]。特别是递归神经网络(RNN)是强大的神经网络架构,可以利用多变量时间序列数据来学习动态行为[13]。例如,Baranwal等人[14]表明,RNN可以比标准生态模型更准确地模拟微生物群落动态,这些模型受到一组严格假设的限制,例如广义Lotka-Volterra(gLV)模型。除了提高物种生长动态的预测性能外,该模型还能够准确预测给定物种丰度初始概况的健康相关代谢物的产生。此外,与其他机器学习方法相比,针对食物过敏分类量身定制的人类肠道微生物组组成数据的时间序列测量训练的RNN模型实现了最佳的预测准确性[15]。
虽然高度灵活,但将机器学习模型(如RNN)应用于物理系统的关键限制包括不切实际的预测(例如负物种丰度)和大量用于训练的实验数据。当训练数据集(即用于构建模型的数据)不足以约束模型以匹配系统行为时,机器学习模型能够做出不切实际的预测。物理约束的机器学习模型对于生物系统建模特别有希望[16],因为这些约束可以潜在地提高模型推断的能力,超越训练集中探索的制度,尽管数据有限或嘈杂[17,18]。 例如,在计算生物学领域,神经网络已与机械常微分方程(ODE)模型一起使用,用于系统识别生物系统中实验未观察到的变量的隐藏动力学[19]。除了包含物理约束之外,优化实验数据信息内容的实验设计策略还可以减少训练预测模型所需的数据量。
收集用于通知机器学习模型的数据需要测量系统属性,这通常既耗时又昂贵。因此,选择一组信息丰富的实验对于开发捕获系统属性的模型至关重要,同时最大限度地减少执行实验所花费的时间和资源[20]。为了实现这一目标,确定一组最小化模型预测不确定性或参数估计不确定性的最佳实验已被广泛用于优化生物系统研究实验的信息内容[21-24]。贝叶斯实验设计自然地整合了先前观察到的数据,以告知新实验条件的选择。这可以实现顺序策略,该策略使用所有先前收集的数据来为模型拟合、实验设计和数据采集的未来迭代提供信息。这些方法使用采集功能,旨在量化信息内容并在潜在的实验集下预测系统性能。一种广泛使用的采集函数称为预期信息增益(EIG),它量化了实验设计对模型参数估计的预期程度[24-26]。虽然EIG提供了一个原理采集函数来设计新的实验条件,但对于非线性模型进行分析计算通常很棘手,并且当使用蒙特卡罗采样[27]等近似方法时,评估的计算成本可能很高。
虽然贝叶斯实验设计的大多数应用都集中在进行实验以完善模型,但实验设计策略很少用于系统生物学领域,目的是寻求优化系统特性的条件(例如生产有价值的化合物或病原体抑制)用于目标应用。然而,贝叶斯实验设计可以定制,以提供一个强大的面向目标的框架,该框架可以利用一类灵活的模型来提出实验条件,这些条件具有减轻模型不确定性和优化系统性能的双重目标[25,28]。 例如,贝叶斯优化是一种闭环实验设计技术,其目的是有效地优化系统特性,并已用于从合成生物学[29]到航空航天工程[30]的许多领域。贝叶斯优化通常使用非参数高斯过程模型直接从实验数据预测系统性能。虽然高斯过程模型提供了一种自然且计算上易于处理的方法来构建采集函数[31],但它们无法轻松模拟多元系统的动态行为[32]。另一种广泛使用的面向目标的实验设计策略称为响应面方法,该方法提出实验以构建性能函数,该函数经过优化以找到最佳操作条件。然而,这种方法通常仅限于线性模型[33],实验设计基于严格定义的结构[34]。
我们通过开发和应用物理约束的RNN架构来解决微生物群落模型指导实验设计中的差距,该架构旨在预测微生物群落动态和目标功能(例如特定代谢物的生产)以响应环境输入。该模型在使用由独特的人类肠道群落(> 10 种物种)组成的实验数据预测物种丰度和代谢物浓度方面优于其他代表性机器学习方法。有了这个模型,我们提出了一个闭环的贝叶斯实验设计框架来优化微生物群落功能,该框架利用信息理论方法来选择一组实验条件,这些条件共同利用系统功能并填补模型中的知识空白。我们证明了整个框架的能力,可以最大限度地减少必要的实验数量,以确定最佳操作条件,从而使用机械多物种微生物群落模型最大限度地提高所需代谢物的产量。据我们所知,我们的框架是第一个集成顺序贝叶斯实验设计以使用基于RNN的模型优化动态系统行为的框架。此外,我们提出了一种新的RNN架构,专门用于捕获微生物组行为和处理微生物组数据。
2 结果
2.1 利用物理约束的递归神经网络设计微生物群落
机器学习模型可以为物理系统生成物理上不切实际的预测。为了解决这一限制,我们提出了微生物组递归神经网络(MiRNN),这是一种改进的RNN架构,消除了预测物理上不切实际的物种丰度和代谢物浓度的可能性(S1图)。我们利用贝叶斯推理方法进行参数估计、超参数优化和预测不确定性的量化。模型引导的方法用于识别一组实验条件,这些条件共同最大化不同实验设计和设计目标的信息内容。我们的闭环框架允许选择一组集体信息的最佳实验条件,而不是选择单个实验条件,从而实现高通量实验的设计。所提出的方法如图1所示。在设计阶段,MiRNN 与采集函数 f 相结合,根据预测结果和来自所有可能实验条件空间的预期信息增益 (EIG) 对实验设计进行排名,表示为 。获取函数由两部分组成,一部分量化实验设计的预期利润(即开发),另一部分量化实验设计的信息内容(即探索)。对排名最高的设计进行测试,以在测试阶段生成实验数据。生成的数据用于在学习阶段更新 MiRNN 模型。更新后的模型用于设计下一个实验,完成设计、测试、学习 (DTL) 周期。DTL 循环可以重复,直到收敛或实现所需目标。
缩略图 下载:
.PPT幻灯片
.PNG大图
.TIFF原始图像
图1. 微生物组递归神经网络(MiRNN)学习系统动力学并提出新的设计。
(设计)实验设计空间,表示为 ,是一组单独的实验条件 q,其中特定条件可以是,例如,群落中的一组物种或资源的初始集中。MiRNN对一组实验条件q的结果预测由采集函数f评估,该函数平衡了实验设计的预期信息增益(EIG)及其预期利润,以评估实验设计的最优性。 (测试)最优实验设计q*定义了一组实验观察的实验条件。在测试阶段收集这些条件的测量值。(学习)在测试阶段收集的数据以及之前收集的所有数据都用于拟合更新的 MiRNN 模型。一旦拟合到新获取的数据,更新的MiRNN模型就可以在设计阶段再次使用,以完成设计,测试,学习周期。
https://doi.org/10.1371/journal.pcbi.1011436.g001
2.2 微生物组递归神经网络(MiRNN)模型与无约束递归神经网络的比较
合成和天然微生物组的微生物组数据通常很少,这意味着根据系统发育分辨率,群落样本中没有大多数分类群[35]。MiRNN 中嵌入的约束旨在在预测微生物群落动态时考虑这种稀疏性。MiRNN镜像基于递归神经网络的模型[14],将已知物种丰度的初始条件作为输入,并以自回归的方式预测未来的时间点。这涉及在每个时间步进行预测,而这些时间步又是预测下一个时间步的模型输入。因此,重要的是,该模型不会在任何步骤错误地预测缺失物种的出现,因为该误差可能会传播到后续时间点的预测中。为了防止物理上不切实际的预测,MiRNN包括一个约束,该约束迫使零丰度物种在以后的时间点保持零,以及一个整流线性单位(ReLU)输出激活,以确保物种和代谢物预测是非负的。相比之下,完全不受约束的模型可以预测负物种丰度和代谢物浓度或最初不存在的物种的自发出现(S2图)。
为了证明约束的效用,我们将MiRNN与无约束RNN进行了比较,后者不包括防止缺席物种出现的约束(图2A)。所有其他方面,包括ReLU输出激活和训练算法(算法1),在两个模型之间完全相同。我们构建了20个物种竞争10个资源的地面真实生物反应器模型(方法),并考虑了三个不同的模拟数据集:(1)50个可能物种中的5个随机选择的20个群落组合(最稀疏),(2)50个可能物种中的10个的20个组合(中等稀疏性),以及(3)50个可能物种中的15个的20个组合(最稀疏)。对于每个群落组合,在130小时的时间跨度内模拟地面实况模型,每26小时观测一次物种丰度,总共5个时间点测量(图2B)。为了研究 MiRNN 和 RNN 模型的预测性能差异,我们进行了 10 倍交叉验证,将数据随机划分为 10 个独特的样本集,对 9 个子集进行训练,对剩余子集进行测试,然后对训练和测试数据的每种组合重复,以便所有样本都接受保留测试。由于数据子集的分区是随机的,因此我们在5个试验中重复了交叉验证,以评估预测性能的变化。我们注意到,预测性能的评估仅考虑最初存在的物种的预测,因此对缺席物种的预测不会偏向模型预测性能的基准而偏向于MiRNN。在所有三个数据集中,MiRNN在预测物种丰度的平均皮尔逊相关性和RMSE方面都优于RNN(图2C和2D)。随着稀疏性的降低,这两个模型都变得越来越准确,突出了微生物组数据中稀疏性的模型的重要性。这些结果表明,在未来的时间步长中限制缺失的物种保持零提高了MiRNN对最初存在的物种的预测准确性,使MiRNN专门用于处理稀疏的微生物组数据。
缩略图 下载:
.PPT幻灯片
.PNG大图
.TIFF原始图像
图2. MiRNN 的预测能力优于使用一系列稀疏水平的模拟数据的无约束 RNN 模型。
(一)MiRNN 架构与标准 RNN 的比较,其中以蓝色突出显示的约束阻止模型预测物种的自发出现。(二)模拟数据生成示意图,表明使用地面实况计算生物反应器模型来模拟 130 小时内的物种丰度,每隔 26 小时测量一次物种丰度。(三)根据预测和测量值之间所有物种的平均皮尔逊相关系数 (R),比较物种预测中的 RNN(绿色)和 MiRNN(橙色)性能。在 10 次试验中运行 5 倍交叉验证后,条形和误差条的高度对应于预测性能的中位数和四分位数范围,其中样本在每次试验中随机洗牌。(四)与图(c.)相同,只是显示了RMSE而不是Pearson相关性。
https://doi.org/10.1371/journal.pcbi.1011436.g002
微生物组产生和降解无数代谢物,这些代谢物介导与组成社区成员的相互作用,并可以利用这些代谢物为我们所用。为了测试MiRNN随时间推移预测物种丰度和代谢物浓度的能力,我们评估了模型对实验数据的预测性能,其中测量了25种不同且普遍的人类肠道物种的绝对丰度以及四种主要健康相关代谢物(乙酸盐,丁酸盐,乳酸和琥珀酸盐)的浓度随时间推移[9, [14](图3A)。特别是,肠道微生物群产生的丁酸盐对人类健康和疾病有益,包括促进结肠稳态[36,37]和预防代谢紊乱[38]。预测代谢物浓度(如丁酸盐)作为初始丰度函数的能力可以为下一代定义的细菌疗法的设计提供信息。为了测试我们模型的预测能力,我们使用了一个实验数据集,该数据集由95个成员群落的25个独特子集组成,这些子集在体外以相等的物种比例接种。每16小时测量一次物种丰度和代谢物浓度,共48小时,以表征群落组装和代谢物动力学。
缩略图 下载:
.PPT幻灯片
.PNG大图
.TIFF原始图像
图3. 使用实验数据,MiRNN 的预测能力优于无约束 RNN 模型。
(一)实验示意图,其中从一组95种与健康相关的人类肠道细菌中选择25个独特的微生物联盟。接种后,在16小时内每隔48小时测量物种丰度和代谢物浓度。(二)MiRNN 架构与标准 RNN 的比较,其中以蓝色突出显示的约束阻止模型预测物种的自发出现。(三)根据预测和测量值之间的皮尔逊相关系数比较RNN和MiRNN在物种预测中的性能。在 20 次试验中运行 10 倍交叉验证后,条形和误差条的高度对应于预测性能的中位数和四分位数范围,其中样本在每次试验中随机洗牌。(四)与图(c.)相同,只是显示了代谢物预测性能。(五)MiRNN 预测代谢物浓度的代表性时间变化,其中测量值显示为点,平均预测值显示为线,不确定区域显示± 1 个标准差。
https://doi.org/10.1371/journal.pcbi.1011436.g003
为了研究 MiRNN 和 RNN 模型预测性能的差异(图 3B),我们进行了 10 次 20 倍交叉验证的试验,将数据随机划分为 20 个独特的样本集,对 19 个子集进行训练,并对其余子集进行测试。对训练和测试数据的每种组合重复此操作,以便所有样本都接受保留测试。在保留的数据中,最初存在的物种丰度的MiRNN预测显示,21个物种中有25个物种的皮尔逊相关性中位数高于无约束RNN(图3C),表明物理约束的结合显着提高了模型预测物种丰度的能力(符号检验,p < 1 × 10?3,n = 25)。虽然该约束不直接影响代谢物浓度的预测,但MiRNN在乙酸盐和琥珀酸盐的预测中优于RNN。MiRNN和RNN对乳酸和丁酸盐的预测性能相似,在3种代谢物中表现出最高的预测性能(图1D)。代表性轨迹显示了每种代谢物与测量值相比的预测分布(平均值±3个标准差)(图<>E)。
我们还将MiRNN的预测性能与消费者资源(CR)模型[39]和Baranwal等人开发的长短期记忆(LSTM)模型进行了比较[14]。LSTM模型先前被证明可以使用图2中提供的相同数据准确预测群落动态和代谢物谱。CR 模型的实现详细信息在 S1 附录中提供。虽然CR模型提供了与MiRNN相同的物理约束,但它缺乏机器学习方法的灵活性,因为它假设物种动态完全由恒定的竞争率和资源代谢物共享决定。与 MiRNN 类似,由于神经网络架构,LSTM 提供了比 CR 模型更大的灵活性。基于神经网络的模型的灵活性由隐藏层的数量和维度决定,Baranwal等人选择LSTM具有具有4096个节点的单个隐藏层,以预测物种丰度和代谢物浓度。对于本研究中的所有分析,MiRNN 和 RNN 使用具有 16 个单元的单个隐藏层。因此,Baranwal等人提出的LSTM应用于具有25种物种和4种代谢物的系统时,包含的参数要多几个数量级(nθ= 67, 735, 581) 比 MiRNN 和 RNN (nθ= 1, 245),从而提供了更大的灵活性。然而,LSTM模型中的大量模型参数使得执行用于训练MiRNN和RNN模型的贝叶斯参数推理方法[40]具有挑战性,因为这需要计算昂贵的任务,即反转维数等于参数数平方的矩阵[12]。因此,需要开发近似贝叶斯推理的替代方法[40,41],以将LSTM模型应用于贝叶斯优化或实验设计。 虽然 MiRNN 在 20 倍交叉验证的数据上没有优于 LSTM,但 MiRNN 在 22 个物种中的 25 个物种中显示出更高的皮尔逊相关性中位数(符号检验,p < 1 × 10?4,n = 25)并且与CR模型相比,所有四种代谢物(S3图)。为了确定减小训练数据的大小是否有利于更简单的CR模型,我们扫描了从1到70个样本的一系列训练大小,发现所有机器学习方法在这个范围内都优于CR模型(S4图)。总之,MiRNN 的灵活性和物理约束的结合提高了机械 CR 模型和无约束 RNN 模型的性能。此外,减少机器学习方法的参数数量使贝叶斯推理方法易于处理,从而使系统方法能够确定模型预测不确定性并优化实验设计。
我们评估了保留数据的MiRNN预测不确定性的质量,因为识别知之甚少的条件的能力对于选择旨在填补模型中知识空白的信息丰富的实验设计至关重要。对保留测试数据的对数似然的评估是一种广泛使用的方法,用于证明模型使用预测不确定性来捕获预测误差变化的能力[42,43]。 简而言之,当接近测量值的预测的模型预测不确定性较小时,以及当模型预测不确定性对于远离测量值的预测较大时,保留数据的对数似然(方程3)会更高(S5图)。我们使用零模型比较了保留数据的对数似然,其中每个预测中的不确定性是使用固定方差Σy,使用方程 9 给出的条件相关模型预测方差的对数似然。Σ 的固定估计y使用期望最大化算法(S1附录)计算,该算法反映了训练数据上模型预测误差的协方差。从这个意义上说,Σy是对可归因于测量噪声的方差的最佳猜测。测量噪声引起的不确定性不能通过收集更多数据来降低,被称为随机不确定性,而可以通过收集更多数据最小化的不确定性被称为认识不确定性[44],两者都被模型预测的不确定性捕获。因此,预测的不确定性反映了与每个实验条件相关的不确定性程度(例如,根据来自不同微生物物种联盟的信息,模型可能对代谢物浓度具有不同程度的确定性)。对于 10 项随机 k 折叠试验,使用预测方差的保留数据的对数似然平均大于使用固定方差的对数似然(S5 图)。使用模型预测不确定性的对数似然的增加表明,与仅考虑概率不确定性的模型相比,同时考虑概率不确定性和认识不确定性可以改善模型预测分布的估计。为不太了解的实验条件分配更大不确定性的能力是能够有效探索高维实验设计空间的关键属性。
2.3 生物反应器中微生物群落对关键代谢物生产的优化
在生物反应器中培养的混合微生物群落具有许多生物加工应用,包括农业废物的价值化[45],从富含碳的废物流中生产中链脂肪酸[1],以及生产生物塑料作为石油基塑料的替代品[46,47]。优化这些功能需要操纵过程控制变量,如基物进料速率、进料成分、pH和气体交换[48]。尽管大多数生物工艺应用都涉及单个生物,但微生物联盟有几个优点。这些优势包括能够通过利用不同的代谢生态位和分工将各种可用营养素转化为有价值的化合物[49,50],以及靶标功能对环境扰动(如入侵)的鲁棒性[51-53]。
资源(即营养物质)是操纵微生物群落代谢的关键控制旋钮。因此,我们考虑选择不同的资源组合以及将含有这些资源的饲料添加到含有5个成员微生物群落的补料分批生物反应器的速率,以最大限度地产生有价值的代谢物(例如中链或长链脂肪酸[1])。虽然我们的建模框架通常适用于其他反应器操作模式,例如连续培养,但我们选择研究补料分批操作,以突出该模型捕获资源和生物量的强烈时间依赖性变化的能力。分批进料操作涉及将底物送入反应器,而无需从反应器中排放任何内容。这反过来又会产生反应器体积、电池密度和产物浓度的时间变化。此示例演示了 MiRNN 在静态(资源选择)和动态(馈给速率选择)的控制输入方面优化多维系统的能力。作为基本事实系统,我们模拟了嵌入在补料分批生物反应器模型中的改进的消费者资源模型[54],该模型假设代谢物生产的生长相关动力学(即代谢物产生速率与物种生长速率成正比)[55]。物种相互作用受到对有限资源的竞争的支配。真实地面模型的控制方程为 其中 r 是反应堆中资源集中的向量,r
f是饲料中资源浓度的载体,S是利用资源子集的物种的载体,D是资源降解率的载体,g是每个物种生存所需的最低生长速率的载体,m是代谢物浓度,y米/秒是屈服系数的向量,kd是代谢物降解速率,[C]ij是物种I消耗资源J的速率,u(t)表示进料加入生物反应器的速率。方法中提供了有关真实模型参数规范和模拟数据生成的详细信息。由于争夺有限的资源,引入不同的资源组合将决定物种丰度的时间变化。MiRNN 的目标是模拟物种生长 s(t) 和代谢物浓度 m(t),并确定 7 种资源的最佳组合,以及随时间推移应添加进料的速率 u*(t),以最大化目标代谢物的总量,评估为代谢物浓度乘以 130 小时批量操作结束时的反应器体积(图 4A 和 4B).每隔 26 小时进行一次模拟测量,在 5 小时的批处理操作模拟中,每种资源选择的测量结果为 130 次。对于每种可能的资源组合,我们考虑了 20 种可能的饲料配置文件,结果为 20 × (27? 1) = 2, 540 种可能的资源和进给速率配置以及 5 × 2, 540 = 12, 700 个实验条件,包括 5 次测量时间(S1 附录)。使用一般低通量生物反应器系统进行详尽探索的这种可能的实验条件是不可行的。因此,有必要开发战略性地导航实验设计空间的方法。
thumbnail 下载:
.PPT幻灯片
.PNG大图
.TIFF原始图像
图4. 优化资源和进料速度,以最大限度地提高产品。
(一)要优化的补料分批生物反应器示意图,其中进料流的速率和进料中的资源存在(描绘为黄色和粉红色形状)都可以调整,以最大限度地提高产量。产生有价值的代谢物(橙色星星)的物种(绿色形状)与不产生代谢物的物种竞争资源。(二)该图显示了 MiRNN 模型的输入,包括物种丰度、代谢物浓度、资源浓度和时间点 t ? 1 的进料速率。该模型预测下一个时间步t的物种丰度和代谢物浓度。预测的物种丰度和代谢物浓度用作预测下一个时间步长的输入。(三)将勘探和开发(蓝色)与纯开采(绿色)、纯勘探(橙色)和随机抽样(紫色)相结合的实验设计策略之间终点代谢物浓度的预测性能(皮尔逊相关系数)的比较。实线显示截至每个 DTL 循环(x 轴)的最佳记录生产(y 轴)的中位数,不确定性区域显示通过 30 个试验计算的四分位距,每个试验都有随机的初始实验设计。(四)拟议勘探和开采(蓝色)与纯开采(绿色)、纯勘探(橙色)和随机抽样(紫色)之间的代谢物最大化(显示 30 项试验的中位数和四分位数范围)的比较。
https://doi.org/10.1371/journal.pcbi.1011436.g004
我们比较了四种不同实验设计策略(随机抽样、纯探索最大化信息含量、纯开发最大化利润、探索+利用平衡信息含量最大化和利润最大化)的有效性,以找到最大化代谢物产量的生物反应器操作条件。纯勘探策略寻求一组最大化EIG的实验条件,而勘探+开发策略则基于EIG和预测结果评估实验设计。需要优化的变量包括进料流中的资源以及进料随时间添加到生物反应器的速率(图4A和4B)。从在五个随机选择的资源和进给速率配置(25个实验条件,DTL 0)上训练的MiRNN开始,每个实验设计方法用于选择下一组五个资源和进给速率配置,这些配置将构成下一个实验设计(DTL 1)。我们强调,与传统的贝叶斯优化方法在每个周期中选择单个实验条件相比,所提出的算法在每个实验周期中选择一批集体信息丰富的实验条件。从每个DTL循环收集的数据用于更新模型(流程1),然后用于设计下一个DTL循环,直到完成五个DTL循环,总共测试了30个资源和进给速率配置文件(150个实验条件)。此过程重复 30 次,每次在 DTL 0 中使用不同的随机选择的五个资源和进料速率配置文件集。
在每一轮训练之后,将终点代谢物浓度的模型预测与所有2,540种可能的资源和进给率曲线的地面真实值进行比较,以衡量模型学习系统行为的程度(图4C和S6图)。纯探索策略在对来自第一个实验设计的数据进行训练后会产生最准确的模型性能,而纯开发策略会导致模型预测性能下降,因为对设计空间的狭窄区域中的冗余实验条件进行采样。每个实验设计策略的生产水平表明,与随机抽样策略相比,所有模型指导的方法(开发+勘探、开采和勘探)都导航到更高的代谢物生产操作条件。结合开发和勘探的模型指导实验设计策略优于纯开发(图4D),根据双尾配对t检验(n = 1),在设计周期0017(p = .2),0128(p = .3),0024(p = .4),0031(p = .5)和0203(p = .30)中代谢物产量显着更高。在对截至DTL 2收集的所有数据进行训练后,开发+勘探策略的终点代谢物浓度的中位预测性能在不同策略中不是最高的(R = 0.735)。然而,在下一个设计周期(DTL 3)中鉴定的代谢物产量中位数接近最佳(0.227 g)。这意味着模型不必在整个设计空间内高度精确,以便用于寻求最佳操作条件。
MiRNN随时间推移预测代谢物浓度和物种丰度的能力可以为物种丰度与系统功能之间的关系提供有用的见解。这与传统的贝叶斯优化方法形成鲜明对比,在传统的贝叶斯优化方法中,模型(例如高斯过程)将用于直接从资源选择和饲料概况中预测代谢物的产生。为了说明物种丰度的预测如何提供见解,我们可以分析MiRNN对物种丰度和代谢物产量的预测,以预测最大化代谢物产量。MiRNN预测了高代谢物产量和物种相对较高的生长2 (S7 图),表明物种2产生代谢物。这与真实数据模型相匹配,其中产生目标代谢物的唯一物种是2, ().模型预测与地面真实系统之间的这种一致性表明,当地面真相未知时,分析不同实验条件下系统行为的MiRNN预测可以提供有意义的见解。
3 讨论
尽管微生物组具有潜力,但由于可能的微生物联盟和环境投入(例如资源)的巨大设计空间,微生物组的自下而上的设计仍然是一个挑战。此外,驱动社区行为的机制通常未知,排除了基于第一原理的预测计算模型的开发。在这项工作中,我们提出了微生物组递归神经网络(MiRNN);一种物理受限的RNN模型,用于从数据中预测物种相互作用的动态并预测目标群落功能。我们使用近似贝叶斯推理策略来计算后验参数分布,从而可以量化模型预测的不确定性并评估潜在实验设计的信息内容。MiRNN能够从先前获取的数据中学习微生物群落动态并评估实验设计的信息内容,从而使顺序设计-测试-学习策略能够有效地寻求优化群落功能的实验条件(图1)。
最近的研究强调了需要一种迭代(闭环)设计-测试-学习策略来构建计算模型,从而能够有效地探索和利用生物系统[56,57],特别是微生物群落[58,59]。为此,我们引入了第一个物理约束的机器学习模型来预测微生物群落的动态,并表明结合物理约束显着提高了模型使用实验数据预测物种丰度和代谢物浓度的能力。此外,尽管模型参数数量减少了14,50倍以上,但该模型的预测性能仍与先前开发的LSTM模型[000]相当(S3图)。当我们分析LSTM和MiRNN对训练数据大小的敏感性时,我们发现,在获得更多实验数据的情况下,物种丰度的预测性能继续提高(S4图),这表明需要实验设计策略来选择训练机器学习模型所需的信息量最大的数据。为此,与 LSTM 相比,MiRNN 的模型参数减少使得贝叶斯推理技术的使用更容易用于量化模型预测不确定性和评估实验设计的信息内容。模型预测不确定性用于主动学习[60,61],贝叶斯优化[31]和强化学习[48]。该框架与以前大多数关于生物系统最佳实验设计的工作不同[21,22,24],因为它利用模型不确定性来选择一组实验条件来优化感兴趣的功能(开发和探索),而不是设计实验的唯一目的是完善模型(探索)。 我们的结果表明,虽然纯探索策略是改进模型预测的最佳方法,但它不能有效地寻求优化系统目标的条件。然而,与单独开发相比,所提出的将探索与开发相结合的实验设计策略减少了寻找最佳条件所需的实验数量(图4C和4D)。
所提出的方法的局限性在于它依赖于几个近似值来快速选择实验设计,例如假设高斯后验参数和预测分布。然而,我们的模型是真实地面系统的近似值,尽管对系统结果的预测不完美,但该模型仍然能够识别最佳实验条件(图4)。因此,我们预计在大多数应用中,对实验设计信息内容的近似估计就足够了。然而,确定我们提出的实验设计框架的有效性,以优化已知条件分布为非高斯分布的系统[62]可能是未来工作的领域。MiRNN和任何基于神经网络的模型的局限性在于,它为提取有关系统的新知识提供了有限的可解释性。为了解决这个问题,从训练模型中提取意义的方法,如局部可解释模型不可知解释(LIME)[63],已被用于推导应用于微生物群落的类似建模框架中的变量之间的关系[14]。或者,不同实验条件下的模型预测可用于收集机制见解。例如,在我们的生物反应器案例研究中,在实验条件下分析模型预测,从而优化了代谢物的产生,正确地表明物种2负责产生目标代谢物(S7图)。此外,离散时间模型(如RNN)的限制是要求以一致的时间间隔对时间序列数据进行采样,这在以不同时间分辨率进行时间序列测量的生物数据集中通常不是这种情况。为了克服这一限制,可以将时间间隔作为模型的附加特征包括在内,或者可以在未来的工作中探索连续时间模型,例如神经常微分方程[64]。
我们的框架能够使用闭环贝叶斯实验设计策略优化微生物群落功能。我们的方法能够结合时间相关的输入(例如生物反应器的进料速率)作为调节系统行为的潜在控制。我们注意到,尽管该约束是为了模拟物理上一致的细菌生长而纳入的,但相同的模型可以应用于表现出自催化行为的其他化学反应网络。为了优化合成微生物群落,我们设想该框架的未来应用包括选择微生物物种和资源(例如纤维),以加速发现产生有益代谢物并显示出对环境扰动的鲁棒性的细菌疗法。此外,我们可以将此框架应用于微生物物种和环境条件的设计,以增加生物固氮以促进植物生长[65],以及通过改善来自农业废物流的中链脂肪酸和生物塑料等有价值的化学品的生产来设计微生物联盟。
4 方法
4.1 微生物组递归神经网络(MiRNN)模型
RNN 是灵活的机器学习模型,可用于直接从多变量时间序列数据中学习复杂的动态模型。在这项工作中,我们提出了微生物组递归神经网络(MiRNN),如图5所示,这是一个修改的RNN,旨在学习和预测微生物群落的动态行为。S1 图显示了显示激活函数和前馈神经网络架构的模型架构的更详细描述。具体来说,MiRNN架构旨在学习物种丰度和代谢物的动态轨迹,给定一组潜在的时间依赖性输入,并编码约束,以防止预测负物种丰度或代谢物浓度并防止物种自发出现。
thumbnail 下载:
.PPT幻灯片
.PNG大图
.TIFF原始图像
图5. 微生物组递归神经网络架构。
时间步长 t ? 1 的 RNN 输入包括物种丰度状态、代谢物浓度、对照输入以及存储先前步骤信息的潜在载体,其维度决定了模型的灵活性。每个 MiRNN 模块的输出是预测的系统状态和下一个时间步长 t 的潜在向量。为了避免以前不存在的物种在物理上不切实际地出现,如果前一个时间步的物种丰度为零,则约束前馈神经网络 (FFNN) 输出零值物种丰度。
https://doi.org/10.1371/journal.pcbi.1011436.g005
我们定义一个由索引 t = 0, ..., n 给出的时间范围τ.时间 t 处的物质浓度表示为 。时间t处代谢物的浓度用 表示。t 处的控件(输入)的值由 给出。MiRNN 模型的动态演变由以下形式的映射给出:
(1)
这里,是时间 t 处潜在变量的向量,也是模型参数的向量。潜在变量在时间上传播来自先前状态的信息。增加潜在变量向量的维数会增加模型的复杂性和灵活性,并且可以通过最大化模型证据来使用训练数据进行选择。对于本研究中的所有分析,我们设置了nh= 16。我们注意到,步骤 t ? 1 和 t 中的控制都被输入到模型演化中,以考虑在控制中遇到强烈的时间依赖性变化的可能性。RNN 的输出是预测的系统状态和步骤 t 处的潜在向量。
架构的模型参数集由权重和偏差 θ = {W 组成呵呵, b呵呵, W伊赫, W河, b河, h0},这是从数据中学习的。MiRNN 架构旨在防止以前不存在的微生物物种在物理上不切实际地出现;这是通过引入一个逻辑块来完成的,如果前一个时间步的丰度为零,则将物种丰度设置为零。训练模型后,将整流线性单元激活函数应用于模型输出,以使状态向量严格为非负。重要的是,必须根据训练数据中的最大值将数据缩放到介于 12 和 <> 之间的值,以便零丰度物种保持为零。这与标准化特征相反,标准化特征通过减去平均值并除以每个输入的标准偏差来预处理输入数据 [<>],因为这种方法不保留零值特征。通过除以每个输入的最大值来预处理数据,可以使用约束,并允许 ReLU 激活以消除应用逆向缩放转换后出现负值模型输出的可能性。
在实验设计的背景下,控制轨迹t, t = 0, ..., nτ和初始状态 s0和米0是我们可以操纵以影响状态轨迹演变的变量,st(种)和米t(代谢物) t = 1, ..., nτ.观测(测量)变量称为输出或可观测值;在这里,我们假设可以测量物种丰度和代谢物浓度,并将整组输出变量封装在载体中。在实验设计上下文中,操作的变量称为设计变量。我们将设计变量的特定选择称为实验条件,其由变量q表示我.我们将实验设计定义为一组 n 个实验条件,q = {q1, ..., qn}.我们将整组 m 表示为 m ≥ n 个可能的实验条件为 。
4.2 贝叶斯估计与不确定性量化
我们使用贝叶斯框架从设计的实验中估计模型的参数,并量化给定此类实验的模型预测的不确定性。我们假设我们有一个初始实验设计q和相关实验条件q我索引为 i = 1, ..., n 每个都有相应的观测输出 y(q我).来自实验设计的整个可用数据集 q 定义为集合 。我们假设输出观测值被随机噪声污染,如下所示:
(2)
实验条件 q 下的 MiRNN 输出预测在哪里我,是 MiRNN 参数,ε是具有概率密度的噪声随机变量。矩阵 Σy描述噪声的方差(这是一个超参数,可以手动定义,也可以从数据推断(S1 附录))。我们假设多个实验中的随机噪声是独立且相同分布的(i.i.d),因此模型似然由下式给出:
(3)
先验过参数由下式给出,其中先验协方差(对角矩阵),是膨胀/放气此协方差的可调超参数向量(S1 附录)。根据贝叶斯定理,后验参数分布与似然和先验的乘积成正比。后验密度的模式提供了模型参数的最大后验 (MAP) 估计值,并通过最小化后验密度相对于 θ 的负对数获得,
(4)
我们使用牛顿方法以数值方式求解。α在似然函数中添加先验会鼓励参数估计值的稀疏性,如果参数估计值足够大[12,66]。
为了量化参数估计的不确定性,有必要获得它们的后验密度。在这里,我们使用所谓的拉普拉斯近似;这假设后验密度是以θ为中心的高斯密度地图(q) 的协方差由负对数后验的黑森矩阵的逆给出,近似为:
(5)
其中 是模型关于其参数的导数矩阵(称为灵敏度矩阵),由下式给出:
(6)
梯度的计算是使用 Python 67 使用 JAX [3] 的自动微分来执行的。我们在这里注意到,方程 5 给出的 Hessian 矩阵是全秩,因为包含了对角先验精度矩阵。任何实验条件下输出的后验预测分布通过后验参数分布的边缘化发现为:
(7)
获得 (7) 的解析表达式需要对模型预测相对于 θ 周围的参数进行线性化地图(q) 获得线性高斯模型 [12],
(8)
跟
(9)
这些表达式突出了设计变量q如何传播数据,估计值的计算θ地图(q),并最终影响模型预测的不确定性。因此,重要的是得出系统程序来确定此类实验。
4.3 快速贝叶斯实验设计优化信息内容和系统结果
贝叶斯实验设计方法使用来自先前实验设计的信息,q(l),为告知下一个实验设计的选择,q(L+1).一种常用的策略是找到q(L+1)最大化预期信息增益(EIG),该增益由参数后验和当前参数分布之间的预期Kullback-Leibler散度量化[25,61],
(10)
使用方程 8 给出的模型预测分布并假设后验分布是高斯分布,EIG 可以近似为 (见 S1 附录)
(11)
对于线性高斯模型,最大化方程方程 11 的实验设计被称为贝叶斯 D-最优 [25],因为它们最大化了预期后验精度矩阵的行列式。类似地,D最优实验设计通常根据费舍尔信息矩阵(FIM)的行列式[68]来选择,由下式给出
(12)
尽管在实践中被广泛使用[23,69-71],但基于最大化方程11或12的实验设计方法在计算上可能很昂贵,因为它们需要评估维度为n的矩阵的行列式θ× nθ.如果实验设计由单个实验条件组成,则q(L+1),已经表明[25,61]对于线性高斯模型,最大化EIG的条件等价于由于以下恒等式(S1附录)而最大化预测协方差行列式的条件,
(13)
由于通常 ny << nθ,找到最大化预测方差的实验条件是寻找贝叶斯 D 最优条件的计算有效方法;然而,在实验设计应用中,通常希望评估一组n>1实验条件的信息内容。因此,我们提出了一个表达式,我们证明它等价于方程 11(S1 附录),它推广方程 13 以计算 n 个条件的信息内容,
(14)
其中方程 14 中的矩阵逆可以使用伍德伯里矩阵恒等式有效地计算,
(15)
使用 Eqs 14 和 15,我们可以通过避免计算维数为 n 的矩阵的行列式,有效地近似具有 n 个实验条件的实验设计的 EIG θ× nθ赞成计算 n 个矩阵的行列式和逆矩阵,每个矩阵的维度为 ny× ny (S8 图)。
在这项工作中,我们的目标是找到最大化信息内容并优化感兴趣的利润函数的实验。因此,我们定义了一个获取函数,该函数考虑了实验结果的预测利润[25]以及EIG,
(16)
其中 fP(q(l), q(L+1))量化下一个设计的预测利润(例如,每个实验中产生的产品总量)。利润函数是 MiRNN 模型的隐式函数(即,使用 MiRNN 模型预测利润)。函数 EIG(q(l), q(L+1))量化设计Q的信息内容(L+1)),并使用方程 14 和 15 近似。该参数修改了对利润或信息内容的强调,并且可以自动调整以选择新的实验条件,如第 4.4 节所述。给定先前观察到的实验设计 q(l)以及一组可以测试的所有可能的实验条件,我们的目标是选择下一个设计,以便最大化采集函数:
(17)
我们注意到最优实验q*(L+1)根据最佳预测性能(如模型预测的那样)获得;因此,这些需要在实际实验系统中进行测试以获得新的输出。这使我们能够获得一个顺序实验设计框架,在该框架中,我们的目标是逐步完善模型以最大化利息的利润函数。
算法 1:顺序贝叶斯实验设计
要求:、fP, l.max
l ← 0
而 l < l.max 做
{估计模型参数均值和协方差}
??
??
{设计下一个实验}
??
{收集新数据,附加到现有数据}
??
问(l)← {q(l), q(L+1)}
l ← l + 1
结束时
4.4 贪婪算法寻找最优实验设计
寻找最佳的下一个设计 q*(L+1)需要对集合进行详尽搜索(特别是当设计变量是分类变量时)。然而,正如预期的那样,穷举枚举将需要计算 f(q(l), q(L+1)) (这可能在计算上令人望而却步)。因此,我们实现了一种贪婪搜索算法,该算法在实践中运行良好。需要强调的是,实验设计框架的最终目标是最大化利润函数(而不仅仅是完善模型);因此,它以更有针对性的方式搜索实验,并且可以在没有完美预测模型的情况下提高利润。贪婪算法通常被用作优化实验设计的近似方法[22]。给定下一个设计中要包含的条件总数,nq(L+1),搜索首先找到最大化利润函数的实验条件。与 q(L+1)初始化为 >,通过确定
(18)
其中 w我设置为较小的初始值(例如 .0001)并逐渐增加,直到 。该过程将继续,直到选择所需数量的条件。
4.5 真实生物反应器模型参数规范
模型的控制方程由下式给出,其中r是反应堆中资源浓度的向量,r
f是饲料中资源浓度的载体,S是消费物种的载体,D是资源降解速率的载体,g是每个物种生存所需的最低生长速率的载体,m是代谢物浓度,y米/秒是屈服系数的向量,kd是产品降解速率,[C]ij是物质 I 消耗资源 j 的速率,u(t) 表示进料添加到反应器的速率。
需要指定的模型参数包括 C、d、g、y米/秒和 kd.模型的消费者资源组件及其参数的规范是 [54] 中提出的模型的修改版本。物种-资源交互系数矩阵的确定方法是首先指定物种依赖资源的概率,pS/R,对于模拟设置为 .6。浓度参数矩阵(表示为 Θ)确定物种对资源浓度的依赖程度,其中 [Θ′]
I,J~ 均匀(0, 1) 概率为 pS/R否则为零。相互作用系数矩阵从正态分布中采样,参数由下式给出 代谢物降解速率的所有元素d和所需最小资源量g均设置为01.<>。产品的降解速率,k
d,设置为 .005。代谢物产率系数指定为y米/秒= [0, .5, 0, 0, 0],因为物种二依赖于最少的资源数量。此规范非常重要,因此源中的最佳资源集不仅仅是包含所有资源。每个模拟条件下的每个输出都被5%的高斯噪声破坏,以模拟实验测量中的变化。
支持信息
MiRNN 模型架构的详细视图。
显示 1/9: pcbi.1011436.s001.tif
跳到无花果共享导航
https://ndownloader.figstatic.com/files/42512187/preview/42512187/preview.jpg
1 / 9
下载
无花果分享
S1 图 MiRNN 模型架构的详细视图。
架构的模型参数集由权重和偏差 θ = {W 组成呵呵, b呵呵, W伊赫, W河, b河, h0}.该约束使用指示函数来确定传入物种丰度向量是否 t?1,大于零。约束的作用是确保如果特定物种在时间 t ? 1 为零,则该物种在时间 t 的模型预测也将为零。LeakyReLU函数用于激活隐藏层,ReLU输出激活函数可确保模型经过训练后模型输出严格为非负值。ReLU 由虚线框勾勒出,表示在训练期间抑制此激活,以惩罚负模型预测。
https://doi.org/10.1371/journal.pcbi.1011436.s001
(提夫)
S2 图 物理上不切实际的物种和代谢物预测的例子。
(一)物种和代谢物丰度不能为负数。(二)如果一个物种最初为零丰度(即不存在),那么它在以后的时间点就不能有正丰度。
https://doi.org/10.1371/journal.pcbi.1011436.s002
(提夫)
S3 图 K折交叉验证性能的比较。
(一)在 20 次试验中进行 10 倍交叉验证后,比较物种丰度的 LSTM(蓝色)、CR(紫色)、RNN(绿色)和 MiRNN(橙色)预测性能(决定系数),每次试验中的样本顺序被洗牌。条形图高度表示预测性能的中位数,误差条表示在 10 次试验中计算的四分位数间距。(二)与面板 a 相同,但比较均方根误差 (RMSE)。(三)在20个试验中进行10倍交叉验证后代谢物浓度测定系数的比较,每个试验中的样品顺序被洗牌。条形图高度表示预测性能的中位数,误差条表示在 10 次试验中计算的四分位数间距。(四)与面板 c 相同,但比较均方根误差 (RMSE)。
https://doi.org/10.1371/journal.pcbi.1011436.s003
(提夫)
S4 图 预测性能对训练大小的敏感性。
绘制了 10 次随机试验中保留样本的中位数和四分位距预测性能,因为训练样本的数量在 1、5、10、15、20、25、30、35、40、45、50、55、60、65、70 个样本范围内增加。(一)物种的平均皮尔逊相关性(R) (b) 物种的平均RMSE(c) 代谢物的平均皮尔逊相关性(d)代谢物的平均RMSE。
https://doi.org/10.1371/journal.pcbi.1011436.s004
(提夫)
S5 图 测试数据对数可能性图示。
使用预测方差与固定方差的检验数据对数似然的比较。当测量值和预测值之间的偏差很大时,相应的高预测方差将改善对数似然性。相反,如果测量值和预测值之间的偏差很小,则较小的方差将改善对数似然。(一)预测方差捕获测量值和预测值之间的变异,导致与面板 (b.) 相比,对数似然更高,其中预测不确定性基于方差的固定估计值。(三)在 20 次试验中执行 10 倍交叉验证后,使用预测协方差(左)和固定协方差(右)比较检验数据对数似然。条形图高度表示中位数测试数据对数似然,误差条表示在 10 个试验中计算的四分位距。
https://doi.org/10.1371/journal.pcbi.1011436.s005
(提夫)
S6 图 改善均方根误差(RMSE)的实验设计策略比较。
将勘探和开发(蓝色)与纯开采(绿色)、纯勘探(橙色)和随机抽样(紫色)相结合的实验设计策略之间终点代谢物浓度的预测性能 (RMSE) 比较。实线显示截至每个 DTL 循环(x 轴)的最佳记录生产(y 轴)的中位数,不确定性区域显示通过 30 个试验计算的四分位距,每个试验都有随机的初始实验设计。
https://doi.org/10.1371/journal.pcbi.1011436.s006
(提夫)
S7 图 最佳实验条件的模型预测(实验1)。
(一)热图显示每个实验条件中包含哪些资源,其中深蓝色表示源流中存在资源。(二)实验设计中的进给速率集。(三)观察每个实验条件下生物反应器中代谢物的产生。(四)实验条件一(实验1)物种预测和不确定性区间(平均值±1个标准差)(e)实验条件一(实验1)代谢物预测和不确定性区间(平均±1个标准差)(f)代谢物产量预测(平均值±1个标准差)与测量值的比较。
https://doi.org/10.1371/journal.pcbi.1011436.s007
(提夫)
S8 图 不同方法的评估时间,以计算近似的信息增益。
EIG 表达式的评估时间比较,其中模型参数的数量 (nθ) 从 0 到 2500 不等,ny是模型输出的数量,n 是设计中的实验条件的数量。
https://doi.org/10.1371/journal.pcbi.1011436.s008
(提夫)
S1 附录。
附录提供了有关数学符号、数据预处理、模型预测性能评估、超参数优化、模型参数和超参数估计算法、实验设计信息函数的论证、实验设计信息函数的快速评估、消费者资源模型的实现以及生物反应器优化实验设计空间规范的更多详细信息。
https://doi.org/10.1371/journal.pcbi.1011436.s009
(英文)
确认
我们要感谢Alfred Hero在这个项目的早期阶段的反馈。
引用
1.Scarborough MJ, Lynch G, Dickson M, McGee M, Donohue TJ, Noguera DR. 通过中链脂肪酸生产增加木质纤维素酒糟的经济价值。生物燃料的生物技术。2018;11(1):1–17.密码:30034526
查看文章PubMed/NCBI谷歌学术搜索
2.Agler MT,Spirito CM,Usack JG,Werner JJ,Angenent LT.反应器微生物组的链伸长:将稀乙醇升级为中链羧酸盐。能源与环境科学。2012;5(8):8189–8192.
查看文章谷歌学术搜索
3.Kaul S,Choudhary M,Gupta S,Dhar MK.工程宿主微生物组用于作物改良和可持续农业。微生物学前沿。2021;12:1125.pmid:34122359
查看文章PubMed/NCBI谷歌学术搜索
4.L?ffler FE,Edwards EA.利用微生物活动进行环境清理。生物技术的当前观点。2006;17(3):274–284.密码:16697178
查看文章PubMed/NCBI谷歌学术搜索
5.Stein RR, Tanoue T, Szabady RL, Bhattarai SK, Olle B, Norman JM, et al.用于免疫系统调节的最佳微生物联盟的计算机引导设计。生活。2018;7:e30916。密码:29664397
查看文章PubMed/NCBI谷歌学术搜索
6.劳森·重组微生物组工程以实现可持续的未来。Msystems。2021;6(4):e00925–21。pmid:34463582
查看文章PubMed/NCBI谷歌学术搜索
7.Venturelli OS, Carr AV, Fisher G, Hsu RH, Lau R, Bowen BP, et al.破译合成人类肠道微生物群落中的微生物相互作用。分子系统生物学。2018;14(6):e8157。密码:29930200
查看文章PubMed/NCBI谷歌学术搜索
8.Hromada S, Qian Y, Jacobson TB, Clark RL, Watson L, Safdar N, et al.负相互作用决定了合成人类肠道群落中艰难梭菌的生长。分子系统生物学。2021;17(10):e10355。密码:34693621
查看文章PubMed/NCBI谷歌学术搜索
9.Clark RL, Connors BM, Stevenson DM, Hromada SE, Hamilton JJ, Amador-Noguez D, et al.合成人肠道微生物组组装和丁酸盐生产的设计。自然通讯。2021;12(1):1–16.pmid:34059668
查看文章PubMed/NCBI谷歌学术搜索
10.Bartocci E, Lió P. 系统生物学的计算建模、形式分析和工具。公共科学图书馆计算生物学。2016;12(1):e1004591。pmid:26795950
查看文章PubMed/NCBI谷歌学术搜索
11.Sanchez-Gorostiaga A, Baji? D, Osborne ML, Poyatos JF, Sanchez A. 高阶相互作用扭曲了微生物联盟的功能景观。公共科学图书馆生物学。2019;17(12):e3000550。密码:31830028
查看文章PubMed/NCBI谷歌学术搜索
12.主教CM,纳斯拉巴迪新墨西哥州。模式识别和机器学习。斯普林格;2006.
13.Goodfellow I, Bengio Y, Courville A. Deep Learning.麻省理工学院出版社;2016.
14.Baranwal M,Clark RL,Thompson J,Sun Z,Hero AO,Venturelli OS。 递归神经网络能够设计多功能合成人类肠道微生物组动力学。电子生活。2022;11:e73870。密码:35736613
查看文章PubMed/NCBI谷歌学术搜索
15.梅特瓦利 AA, 于PS, 雷曼 D, 戴 Y, 芬恩 PW, 帕金斯 DL.利用纵向微生物组分类图谱通过长期短期记忆网络预测食物过敏。公共科学图书馆计算生物学。2019;15(2):e1006693。密码:30716085
查看文章PubMed/NCBI谷歌学术搜索
16.彭 GC, 阿尔伯 M, 布甘扎 特波尔 A, 坎农 WR, 德 S, 杜拉-伯纳尔 S, 等.多尺度建模遇上机器学习:我们能学到什么?工程计算方法档案。2021;28(3):1017–1037.密码:34093005
查看文章PubMed/NCBI谷歌学术搜索
17.Karniadakis GE, Kevrekidis IG, Lu L, Perdikaris P, Wang S, Yang L. 物理知情机器学习.自然评论物理学。2021;3(6):422–440.
查看文章谷歌学术搜索
18.机器学习中知识和数据的整合.arXiv预印本arXiv:220210337。2022;.
19.亚兹达尼 A, 卢 L, 赖西 M, 卡尔尼亚达基斯 GE.系统生物学为深度学习提供了推断参数和隐藏动力学的信息。公共科学图书馆计算生物学。2020;16(11):e1007575。密码:33206658
查看文章PubMed/NCBI谷歌学术搜索
20.Box GE,Lucas H.非线性情况下的实验设计。生物梅特里卡。1959;46(1/2):77–90.
查看文章谷歌学术搜索
21.Bandara S, Schl?der JP, Eils R, Bock HG, Meyer T. 细胞信号模型参数估计的最优实验设计。公共科学图书馆计算生物学。2009;5(11):1–12.密码:19911077
查看文章PubMed/NCBI谷歌学术搜索
22.Gerber GK,Onderdonk AB,Bry L.推断复杂宿主生态系统中微生物的动态特征。公共科学图书馆计算生物学。2012;8(8):1–14.密码:22876171
查看文章PubMed/NCBI谷歌学术搜索
23.沙赫莫罕默迪 A, 麦考利 KB.在基于模型的制药生产实验设计中使用先验参数知识。AIChE 期刊。2020;66(11):e17021。
查看文章谷歌学术搜索
24.Liepe J, Filippi S, Komorowski M, Stumpf MPH. 最大化系统生物学实验的信息内容。公共科学图书馆计算生物学。2013;9(1):1–13.邮编:23382663
查看文章PubMed/NCBI谷歌学术搜索
25.韦尔迪内利一世,卡达内·贝叶斯设计,用于最大化信息和结果。美国统计协会杂志。1992;87(418):510–515.
查看文章谷歌学术搜索
26.德格鲁特·不确定性、信息和顺序实验。数理统计年鉴.1962;33(2):404–419.
查看文章谷歌学术搜索
27.桓桓, 马祖克.基于仿真的非线性系统最优贝叶斯实验设计.计算物理学报.2013;232(1):288–317.
查看文章谷歌学术搜索
28.Chaloner K,Verdinelli I.贝叶斯实验设计:综述。统计科学。1995;10:273–304.
查看文章谷歌学术搜索
29.拉迪沃耶维奇 T, 科斯特洛 Z, 沃克曼 K, G 马丁 H.用于合成生物学的机器学习自动推荐工具。自然通讯。2020;11(1):1–14.密码:32978379
查看文章PubMed/NCBI谷歌学术搜索
30.Lam R, Poloczek M, Frazier P, Willcox KE.贝叶斯优化在航空航天工程中的应用进展。在:2018年AIAA非确定性方法会议;2018.第1656页。
31.利佐特 DJ。实用的贝叶斯优化。阿尔伯塔大学;2008.
32.具有多个响应变量的高斯过程回归.化学计量学和智能实验室系统。2015;142:159–165.
查看文章谷歌学术搜索
33.盒子GE,德雷珀NR。选择响应面设计的基础。美国统计协会杂志。1959;54(287):622–654.
查看文章谷歌学术搜索
34.Gilman J, Walls L, Bandiera L, Menolascina F. 合成生物学实验的统计设计。ACS合成生物学。2021;10(1):1–18.pmid:33406821
查看文章PubMed/NCBI谷歌学术搜索
35.潘爱。微生物组数据的统计分析:稀疏性的挑战。内分泌和代谢研究的当前观点。2021;19:35–40.
查看文章谷歌学术搜索
36.Litvak Y, Byndloss MX, B?umler AJ.结肠细胞代谢塑造肠道微生物群。科学。2018;362(6418):EAAT9076。密码:30498100
查看文章PubMed/NCBI谷歌学术搜索
37.Gasaly N,Hermoso MA,Gotteland M. Butyrate和结肠稳态的微调:对炎症性肠病的影响。国际分子科学杂志。2021;22(6):3061.密码:33802759
查看文章PubMed/NCBI谷歌学术搜索
38.高芳, 吕玉伟, 龙杰, 陈建军, 何建明, 阮晓忠, 等.丁酸盐改善高脂肪饮食诱导的小鼠代谢紊乱和肠道微生物组失调。药理学前沿。2019;10:1040.密码:31607907
查看文章PubMed/NCBI谷歌学术搜索
39.切森·P·麦克阿瑟的消费者资源模型。理论种群生物学。1990;37(1):26–38.
查看文章谷歌学术搜索
40.Fortunato M, Blundell C, Vinyals O. Bayesian 递归神经网络.arXiv预印本arXiv:170402798。2017;.
41.Snoek J, Rippel O, Swersky K, Kiros R, Satish N, Sundaram N, et al.使用深度神经网络的可扩展贝叶斯优化。在:机器学习国际会议。PMLR;2015.第2171–2180页。
42.Hirschfeld L, Swanson K, Yang K, Barzilay R, Coley CW. 使用神经网络进行分子性质预测的不确定性量化。化学信息与建模杂志。2020;60(8):3770–3780.密码:32702986
查看文章PubMed/NCBI谷歌学术搜索
43.Gal Y,Ghahramani Z. Dropout as a Bayesian approximation:表示深度学习中的模型不确定性。在:机器学习国际会议。PMLR;2016.第1050–1059页。
44.Der Kiureghian A, Ditlevsen O. Aleatory or Epistemic?有关系吗?结构安全。2009;31(2):105–112.
查看文章谷歌学术搜索
45.Bouallagui H,Touhami Y,Cheikh RB,Hamdi M.生物反应器在水果和蔬菜废物厌氧消化中的性能。过程生物化学。2005;40(3-4):989–995.
查看文章谷歌学术搜索
46.Varghese S, Dhanraj N, Rebello S, Sindhu R, Binod P, Pandey A, et al.引领和阻碍可持续的微生物生物塑料生产。光化层。2022;305:135390.密码:35728665
查看文章PubMed/NCBI谷歌学术搜索
47.Moralejo-Gárate H, Mar'Atusalihat E, Kleerebezem R, van Loosdrecht M. 从甘油生产生物聚合物的微生物群落工程。应用微生物学和生物技术。2011;92(3):631–639.密码:21674168
查看文章PubMed/NCBI谷歌学术搜索
48.金俊伟, 朴炳杰, 吴泰, 李杰.基于模型的强化学习和预测控制,用于补料分批生物反应器两阶段优化控制。计算机与化学工程。2021;154:107465.
查看文章谷歌学术搜索
49.周 K, 乔 K, 埃德加 S, 斯蒂芬诺普洛斯 G. 在微生物联盟中分配代谢途径可增强天然产物的生产。自然生物技术。2015;33(4):377–383.密码:25558867
查看文章PubMed/NCBI谷歌学术搜索
50.蔡R,吴F,张C,Bewick S,Karig D,YouL.微生物系统中的代谢分工。美国国家科学院院刊.2018;115(10):2526–2531.密码:29463749
查看文章PubMed/NCBI谷歌学术搜索
51.Oleskowicz-Popiel P.设计用于从有机废物进行化学生产的反应器微生物组。生物技术的趋势。2018;36(8):747–750.密码:29395343
查看文章PubMed/NCBI谷歌学术搜索
52.马歇尔CW,LaBelle EV,May HD.微生物组从废物中生产燃料和化学品。生物技术的当前观点。2013;24(3):391–397.密码:23587964
查看文章PubMed/NCBI谷歌学术搜索
53.Shade A, Peter H, Allison SD, Baho DL, Berga M, Bürgmann H, et al.微生物群落抗性和复原力的基础。微生物学前沿。2012;3:417.pmid:23267351
查看文章PubMed/NCBI谷歌学术搜索
54.戈德福德 JE, 卢 N, 巴吉奇 D, 埃斯特雷拉 S, 吉洪诺夫 M, 桑切斯-戈罗斯蒂亚加 A, 等.微生物群落组装的新兴简单性。科学。2018;361(6401):469–474.密码:30072533
查看文章PubMed/NCBI谷歌学术搜索
55.舒勒,卡吉F,德丽莎议员。生物过程工程:基本概念。3. 皮尔逊;2017.
56.福伦、福尔·合成生物学和代谢工程中的计算机、体外和体内机器学习。化学生物学的当前观点。2021;65:85–92.密码:34280705
查看文章PubMed/NCBI谷歌学术搜索
57.Lopatkin AJ,Collins JJ.预测生物学:建模,理解和利用微生物复杂性。自然评论微生物学。2020;18(9):507–520.pmid:32472051
查看文章PubMed/NCBI谷歌学术搜索
58.Lawson CE, Harcombe WR, Hatzenpichler R, Lindemann SR, L?ffler FE, O'Malley MA, et al.设计微生物组的通用原则和最佳实践。自然评论微生物学。2019;17(12):725–741.pmid:31548653
查看文章PubMed/NCBI谷歌学术搜索
59.曾格勒 K, 霍夫莫克尔 K, 巴利加 NS, 贝希 SW, 伯恩斯坦 HC, 布朗 JB, 等.EcoFAB:通过标准化的制造生态系统推进微生物组科学。自然方法。2019;16(7):567–571.密码:31227812
查看文章PubMed/NCBI谷歌学术搜索
60.Cohn DA,Ghahramani Z,Jordan MI.使用统计模型进行主动学习。人工智能研究杂志。1996;4:129–145.
查看文章谷歌学术搜索
61.麦凯 DJ。用于主动数据选择的基于信息的目标函数。神经计算。1992;4(4):590–604.
查看文章谷歌学术搜索
62.Lan F, Saba J, Qian Y, Ross T, Landick R, Venturelli OS. 多个可逆启动子的高通量单细胞测序揭示了细菌群体异质性的强决定因素。生物Rxiv。2022;第 2022–10 页。
查看文章谷歌学术搜索
63.里贝罗,辛格S,格斯特林C.“我为什么要相信你?”解释任何分类器的预测。在:第22届ACM SIGKDD知识发现和数据挖掘国际会议论文集;2016.第1135–1144页。
64.陈 RT, 鲁巴诺娃 Y, 贝当古 J, 杜维诺 DK. 神经常微分方程.神经信息处理系统的进步。2018;31.
查看文章谷歌学术搜索
65.Mahmud K,Makaju S,Ibrahim R,Missaoui A.固氮植物和微生物组研究的当前进展。植物。2020;9(1):97.pmid:31940996
查看文章PubMed/NCBI谷歌学术搜索
66.给我小费。稀疏贝叶斯学习和相关性向量机。机器学习研究杂志。2001;1(六月):211–244.
查看文章谷歌学术搜索
67.Bradbury J, Frostig R, Hawkins P, Johnson MJ, Leary C, Maclaurin D, et al. JAX: Python+NumPy 程序的可组合转换;2018. 可用: http://github.com/google/jax.
68.蒙斯基B,赫拉瓦切克WS,Tsimring LS。定量生物学:理论、计算方法和模型。麻省理工学院出版社;2018.
69.卢特雷尔·在逆问题的数据抽样方案设计中使用跨信息。逆问题。1985;1(3):199.
查看文章谷歌学术搜索
70.加德卡尔,古纳万R,道尔FJ。生物网络模型识别的迭代方法。BMC生物信息学。2005;6(1):1–20.pmid:15967022
查看文章PubMed/NCBI谷歌学术搜索
71.Franceschini G,Macchietto S.基于模型的参数精度实验设计:最新技术。化学工程科学。2008;63(19):4846–4872.
查看文章谷歌学术搜索