使用类似机器学习的方法进行自动参数探索:为生命起源的进化建模提供支持
梁玉珍,余春武,马文涛
出版日期: 2021年12月29日 核心期刊杂志-厦门论文发表
抽象
生命的起源涉及复杂的进化过程。计算机建模是揭示相关机制的一种有前途的方法。然而,由于我们对益生元化学的了解有限,通常很难证明建模的参数设置是合理的。因此,通常,研究以相反的方式进行:探索参数空间以找到这些参数值"支持"假设场景(即,当有足够的知识可用时,将参数对齐留到以后的工作)。手动探索参数空间是一项艰巨的工作(特别是当建模变得复杂时),此外,很难在论文中将其描述为常规的"方法"。在这里,我们展示了可以采用类似机器学习的方法,自动优化参数。通过这种有效的参数探索方法,对生命起源的进化建模将变得更加强大。特别是,基于此,预计可以引入更多接近现实(复杂)的模型,从而理论研究将与该领域的实验研究更紧密地联系在一起 - 希望在我们对生命起源的理解方面取得重大进展。
作者简介
长期以来,人们一直对进化过程感兴趣,通过这些过程,我们星球上的生命可能来自非生命背景。然而,这一领域的实验研究似乎进展缓慢,也许是由于这些过程的复杂化。与此同时,计算机建模已经显示出它揭示所涉及的进化机制的潜力。现在,计算机建模工作的一个主要困难是证明参数设置的合理性 - 因为我们对益生元化学和环境的了解有限。因此,人们倾向于探索参数空间,以寻求有利于假设场景的参数值,并在有足够的知识可用时将参数对齐留到以后的工作中。迄今为止,参数探索通常是手动进行的(在许多情况下是通过反复试验进行的),因此是艰巨和不可预测的。受机器学习算法的启发,我们设计了一种自动的参数探索方法。结果表明,这种方法非常有效,也就是说,可以自动找到有利于生命起源中假设场景的"良好"参数集。预计这种类似机器学习的方法将大大提高我们未来生命起源的进化建模研究的效率。
数字
Fig 7Fig 8Fig 1Fig 2Fig 3Fig 4Fig 5Fig 6Fig 7Fig 8Fig 1Fig 2Fig 3
引文:Liang Y,Yu C,Ma W(2021)使用类似机器学习的方法进行自动参数探索:为生命起源的进化建模提供动力。PLoS Comput Biol 17(12):e1009761。https://doi.org/10.1371/journal.pcbi.1009761
编辑 器:Tamar Schlick,纽约大学,美国
收到:九月 25, 2021;接受:十二月 15, 2021;发表:十二月 29, 2021
版权所有:? 2021 梁等人。这是一篇根据知识共享署名许可协议条款分发的开放获取文章,该许可证允许在任何媒体上不受限制地使用,分发和复制,前提是注明原始作者和来源。
数据可用性:所有相关数据均在稿件及其支持信息中。该方法的源代码可以从以下位置获得:https://github.com/mwt2001gh/automatic-parameter-exploration-in-modeling-the-origin-of-life/blob/main/mlp-e%3D0.2.cpp。该版本对应于图2A中的红线情况。
资金:本研究由国家自然科学基金(第31571367号)(http://www.nsfc.gov.cn号)和湖北省自然科学基金(中国)(第2019CFB685号)(http://kjt.hubei.gov.cn号)资助。资助者在研究设计,数据收集和分析,出版决定或手稿准备方面没有任何作用。
相互竞争的利益:作者宣布不存在相互竞争的利益。
介绍
从益生元化学世界开始,关于生命起源的场景应该包括一系列复杂的过程,化学和进化相结合[1–4]。自米勒和尤里在1950年代的开创性工作[5]以来,实验研究已经为这些过程的化学方面提供了相当多的见解[6-8],然而,所涉及的进化过程,可能已经持续了相当长的时间(例如,几年,几十年,甚至更长),很难在实验室中模仿或研究。幸运的是,理论建模已经证明是处理进化方面的有效方法,例如Eigen关于"超周期"的着名工作[9]。
计算机对生命起源的进化过程进行建模
在早期,生命起源领域的理论建模通常基于化学反应动力学,它推导出一组微分方程来描述目标系统的动力学 - 因此所谓的"微分方程模型"。该模型的大多数参数只是各种反应的速率。微分方程组通常太复杂而无法获得解析解,因此,沿着这条线的原始研究通常只分析模型系统的平衡点[10–12]。通过这样的建模,我们获得的关于相关进化过程的知识是相当有限的。
幸运的是,如果我们能够"看到"模型系统在不同条件下的行为,即理论模仿或模拟,我们也可能意识到进化机制。对于微分方程模型,我们可以通过"数值积分"得到它的"数值解",从而"观察"模型系统的行为。在计算机技术的帮助下,复杂微分方程模型的数值解成为该领域的常规方法,它只是代表了生命起源中"计算机模拟"(或称为"计算机建模")的早期工作[13–18]。后来,另一种计算机模拟也出现了,即所谓的"蒙特卡洛模拟"。其中,建立概率模型,模型系统通过迭代对随机数的抽样"运行"——结果通过对某些关键变量的统计获得,这些变量反映了系统的行为。迄今为止,蒙特卡洛模拟已成为生命起源进化方面理论研究的最重要方法[19-29](这里的参考列表肯定不是完整的)。
参数空间探索的意义
计算机建模的一种正常方法是根据我们对现实的知识设置模型中的参数,并运行模型(进行"模拟")以查看结果,然后,我们可以对目标系统的行为进行预测。然而,由于我们对益生元环境和化学知识的限制,通常很难证明相关建模研究中使用的参数的价值设定是合理的。例如,Miller-Urey实验假设益生元地球的还原大气层[5];然而,这个假定的场景后来在地球化学领域受到质疑[30,31],到目前为止还没有得出明确的结论。
因此,在生命起源领域,计算机模拟研究通常以相反的方式进行:探索模型的参数空间以找出可能支持假设进化过程的参数值。也就是说,当相关的化学或环境知识可用时,我们可能期望稍后评估"有利参数值"的"合法性"。另一方面,如果我们对假设过程有信心,因为它是"合理的"或有"明显的支持证据"(最值得注意的是,例如,"RNA世界"[32–35]),我们可能会根据该过程的"有利参数值"对相关的益生元条件进行一些推断,从而甚至可能提高我们对益生元环境和化学的了解。
在以前的研究中,人们习惯于手动探索参数空间(通常不会在他们的论文中明确提出 - 也许是因为很难描述手动探索的路线),这是一项艰巨的工作,特别是对于包含许多参数的复杂建模(值得注意的是,参数空间随着参数编号呈指数级增长)。因此,该领域的研究人员倾向于采用相当抽象的建模系统(因此涉及较少的参数)-一些研究甚至诉诸于过度简化的模型(例如,所谓的"玩具模型"甚至"人造化学"[36-38]),这似乎与生命起源的现实相关性值得怀疑。尴尬的局面提出了一个紧迫的问题:我们能否以更自动的方式进行参数探索?
机器学习方法的应用
机器学习是一种特殊的计算机算法(称为"主算法"[39]或人工智能算法),寻求自动训练目标模型(或功能),针对各种任务(例如,分类,图像识别和自然语言处理)。特别是机器学习的一个分支"联结主义",使用所谓的"人工神经网络"作为其目标模型[39],从而从基本结构和基本机制上模仿人脑,从而有望实现名副其实的人工智能。后来,这种机器学习的力量被证明与人工神经元网络的"深度"有关,所谓的"深度学习"在各种应用领域取得了巨大的成功[40]。
事实上,机器学习中的模型训练基本上只是为了自动探索参数(通常也有很多参数,例如,在"深度学习"的复杂人工神经元网络中),寻求找到"适当"的参数值,以便模型能够熟练完成目标任务。从中获取灵感,我们问:"我们能以类似的方式自动进行参数探索吗?也就是说,使用进化模型作为目标模型进行训练,我们能否自动探索参数空间,从而找到"适当的参数设置",从而产生我们假设的进化行为?
结果
首先,我们研究了一个来自我们之前的建模研究的案例,该案例与RNA世界情景中的早期进化有关[20]。在这项研究中,我们认为催化核苷酸合成的核酶(核苷酸合成酶核酶,简称"NSR")可能在益生元RNA池中蓬勃发展,因为这种核酶可以在自身周围合成核苷酸,从而有利于其自身的复制。其中,我们手动探索了参数空间,并找出了支持模型系统中NSR繁荣的"适当参数值"[20](图1A显示了一个典型案例)。现在,我们打算根据机器学习的想法自动进行参数探索。
thumbnail 下载:
个人电脑幻灯片
巴新放大图片
断续器原始图像
图 1.NSR分子数在建模中的进化动力学.
(a)NSR传播的典型案例。在步骤1×10接种一个NSR分子4,它在系统中复制并变得繁荣[20]。参数值:PNF = 2×10?4, PNFR = 0.9, PND = 0.01, PRL = 2×10?6,多溴联苯= 1×10?6,PAT = 0.1,PFP = 0.01,PMV = 0.01(请注意,为了进行简要描述,我们省略了模型中未涉及此处参数探索的其他五个参数)。 (b) 我们假设的一个案例是机器学习的起点。在步骤1×10接种100个NSR分子4,并且分子数逐渐减少。参数设置:PNF = 4×10?3, PNFR = 0.02, PND = 1×10?3, PRL = 2×10?5,多溴联苯= 1×10?5,PAT = 0.5,PFP = 0.1,PMV = 1×10 ?3.显然,这样的参数设置不利于NSR的传播。步骤 15×10 处的 NSR 编号4(即这里显示的最后一步)被采用为参考标准 - 即机器学习的目标函数,预计将通过以下自动参数调整(探索)来改进。
https://doi.org/10.1371/journal.pcbi.1009761.g001
模式中共有13个参数[20],这里我们集中讨论其中的8个参数(S1表)进行自动探索。在这项研究中,我们接种了一个NSR分子,看看这些分子是否可以在系统中扩散(通过复制变得繁荣)(图1A)。事实上,接种后一定时间内的NSR分子数量可以作为反映NSR扩散趋势的靶标值。也就是说,通过自动参数调整,这个数字有望增加——就机器学习而言,是"目标函数"。然而,对于机器学习的起点 - 假设具有"不良参数集",一个NSR分子在产生更多后代之前往往会偶然降解(因此没有学习可行性)。因此,我们最初接种了100个NSR分子 - 因此我们看到NSR分子的下降而不是立即灭绝(图1B)。然后,在下降曲线内的参考点处的NSR编号(此处为步骤15×104)被选中并进行自动参数探索,以找到有利于增加该"目标函数"的参数设置。参数设置的改变预计将扭转下降趋势,并最终有利于NSR在系统中的扩散。
这种"机器学习"使用了梯度上升的优化方法 - 参数根据目标函数的最陡峭上升方向同时变化 - NSR数(参见方法)。事实证明,该方法取得了成功,并且在自动调整参数设置的同时,目标NSR数急剧上升(图2)。图2中的子图对应于四个不同的起始参数集;其中,不同颜色的曲线对应于采用不同学习速率的情况。通常,最终目标NSR数字趋向于相似的水平(此处约为3500),较大的学习率意味着更快的学习过程,但在学习过程中波动更大。
thumbnail 下载:
个人电脑幻灯片
巴新放大图片
断续器原始图像
图 2.通过机器学习原理中的自动参数探索来改进目标NSR编号。
目标NSR数是指步骤1.5×10处的NSR分子数5在进化动力学中(见图1B;作为"目标函数")。"e"表示学习速率(右下角子图中的颜色图例适用于整个图形)。一轮学习是指根据最大梯度对所有八个参数进行一轮并行调整(参见方法)。四个子图显示具有不同起始参数值的情况:(a) PNF = 4×10?3, PNFR = 0.02, PND = 1×10?3, PRL = 2×10?5,多溴联苯= 1×10?5,PAT = 0.5,PFP = 0.1,PMV = 1×10 ?3(即,与图1B中的相同);(b) PNF = 4×10?3, PNFR = 0.2, PND = 0.01, PRL = 2×10?5,多溴联苯= 1×10?6, PAT = 0.1, PFP = 1×10?3和PMV = 1×10?4; (c) PNF = 5×10?3, PNFR = 0.2, PND = 0.01, PRL = 1×10?5,多溴联苯= 1×10?5, PAT = 0.05, PFP = 0.01, PMV = 0.01;(d) PNF = 1×10?3, PNFR = 0.01, PND = 1×10?3, PRL = 1×10?5,多溴联苯= 1×10?5, PAT = 0.1, PFP = 1×10?3和PMV = 1×10?3.
https://doi.org/10.1371/journal.pcbi.1009761.g002
图3显示了在学习过程中自动调整八个参数的细节。值得注意的是,尽管具有不同的起始参数集,但最终的"良好参数集"似乎是相似的(请参阅具有不同颜色的曲线)。一般来说,通过学习,参数PRL,PBB,PFP和PNF趋向于相当小的值(这些结果与先前研究中手动探索的结果[20]一致)。 关于其他参数(即PNFR,PAT,PMV,PND)的结果并不那么简单,显示出它们对进化动力学的更复杂的影响。
thumbnail 下载:
个人电脑幻灯片
巴新放大图片
断续器原始图像
图 3.机器学习原理中的参数探索过程中的自动参数调整。
图2A-2D中学习率为0.2的四种情况的参数调整趋势(即图2中由子图中的红线表示)在这里以不同的颜色显示(右下角子图中的图例适用于整个图)。子图的垂直轴表示其名称显示在面板中的相应参数的值(在PFP子图中,Case_b行由Case_d行覆盖)。请注意,这八个概率在实践中在学习轮次中同时进行调整(请参阅方法)。
https://doi.org/10.1371/journal.pcbi.1009761.g003
上面我们演示了机器学习的结果,参数设置有利于在接种100个分子后NSR的增加(图4A显示了大大"改进"的动力学 - 与图1B相比)。事实上,在相同的参数设置下,当最初只接种一个NSR分子时,它也可以在系统中扩散(图4B)-表明我们自动参数探索的成功(事实上,这里大约有800个NSR分子处于最终平衡,显然比我们之前研究的结果更好 - 即图1A中的NSR分子少于300个)。
thumbnail 下载:
个人电脑幻灯片
巴新放大图片
断续器原始图像
图 4.机器学习产生的参数设置有利于NSR和非功能性RNA物种的传播。
参考图2A所示的学习率为0.2(红线)的情况,采用机器学习第200轮设置的参数:PNF = 3.04×10?4, PNFR = 5.51×10?3, PND = 0.0194, PRL = 7.25×10?8, PBB = 6.24×10?8, PAT = 0.0763, PFP = 3.51×10?4, PMV = 4.36×10?5.在步骤 1×104,(a)接种一百个NSR分子;(b) 接种一个 NSR 分子;(c) 接种一百个没有酶活性的对照(Ctrl)分子;(d)接种一个对照分子。
https://doi.org/10.1371/journal.pcbi.1009761.g004
但是,我们注意到一个看起来不正常的细节。在之前的建模研究[20]中,我们假设NSR可能在系统中自然传播,因为这种核酶可以在自身周围积累RNA的构建块,从而有利于其自身的复制。如果是这样,较高的催化速率(对应于较大的PNFR)(参见S1表)应该有利于NSR的扩散。然而,从自动参数调整曲线(图3)中,我们注意到PNFR并没有像预期的那样增加 - 它甚至倾向于降低。这是否意味着在"学习"参数设置下,NSR的催化功能在实践中是没有用的,任何接种到系统中的RNA序列都可以扩散?事实证明,情况就是如此 - 当我们将非功能性RNA序列(对照)而不是NSR接种到系统中时,它也扩散了!(图4C和4D)。
有趣的是,这种异常情况为我们提供了一个机会来进一步展示我们的自动参数探索的强大功能。对于修饰,在将100个NSR分子与100个对照RNA物种的分子接种到系统中时,我们选择它们的分子数(NSR减去对照)之间的差值作为机器学习过程中要改进的目标值。结果,通过机器学习扩大了差异(图5A)。然后,使用学习的参数集,NSR可以在系统中传播,但对照物种不能!(图6)。值得注意的是,在学习的参数集中,PNFR(酶核苷酸合成的速率)明显大于PNF(非酶核苷酸合成的速率):PNFR = 0.036,PNF = 8.36×10 ?7(见图6的图例),与前一对相比:PNFR = 5.51×10?3和PNF = 3.04×10?4(见图4的图例)。也就是说,机器学习最终取得了一个结果,表明NSR由于其酶功能而可能在RNA池中扩散 - 完全支持上述假设思想[20]。
thumbnail 下载:
个人电脑幻灯片
巴新放大图片
断续器原始图像
图 5.采用NSR与对照RNA种类的差异作为目标函数。
参数的起始值与图2A中的起始值相同:即PNF = 0.004,PNFR = 0.02,PND = 0.001,PRL = 2×10?5,多溴联苯= 1×10?5,PAT = 0.5,PFP = 0.1,PMV = 0.001。 学习速率 e = 0.5。这里的目标函数是NSR的数量和对照RNA物种(即NSR-Ctrl)之间的差异(Diff),而不是NSR本身的数量。(a) NSR在命名时起着正常的作用。(b) NSR被假定失去其功能。事实上,在案例b中,NSR(黑色)的曲线几乎被Ctrl(黄绿色)的曲线覆盖,因为它们在整个学习过程中几乎没有区别,而Diff(紫色)的曲线非常接近水平轴。
https://doi.org/10.1371/journal.pcbi.1009761.g005
thumbnail 下载:
个人电脑幻灯片
巴新放大图片
断续器原始图像
图 6.使用NSR和对照分子之间的差异作为目标函数,导致参数集有利于NSR的扩散,而不是对照。
参照图5A所示的案例,采用机器学习第50轮设置的参数:PNF =8.36×10?7, PNFR = 0.036, PND = 3.77×10?3, PRL = 9.89×10?8, PBB = 3.05×10?5, PAT = 0.373, PFP = 2.17×10?5, PMV = 2.89×10?4.在步骤 1×104,(a)接种一百个NSR分子;(b) 接种一个 NSR 分子;(c) 接种一百个没有酶活性的对照(Ctrl)分子;(d)接种一个对照分子(数字符号非常靠近水平轴)。
https://doi.org/10.1371/journal.pcbi.1009761.g006
毫无疑问,这种自动参数探索的强大功能令人印象深刻。那么自然会这样想,这种做法会带来错觉吗?换句话说,自动探索是否"无所不能",能够找到人们想要的任何结果,而不管任何相关的进化机制?在机器学习方面,它有点像"过度拟合"的概念。如果是这样的话,这种方法对于我们研究进化过程的目标来说就毫无意义了。因此,我们选择在建模中"敲除"NSR的功能(即NSR不再催化核苷酸合成),并回到旨在扩大NSR与对照物种之间差异的学习案例。那么没有区别可以"学习"!(图5B)。也就是说,NSR与对照种的上述差异(图5A)确实源于NSR的功能,我们对"过拟合"问题的担忧是没有必要的。
上面我们已经看到,目标函数可以被修改,以服务于参数探索的不同目标。在某种程度上,这说明了当前方法的鲁棒性。事实上,即使我们的学习策略被修改,这种方法也是健壮的。例如,在最初使用的策略中,当一个参数的变化没有带来目标函数的值变化时,在下一轮学习中,它被向上调整 - 实际上,如果它向下调整,机器学习方法仍然有效地导致NSR的增加(S1A图)。此外,关于学习速率,当我们采用乘法策略而不是加法策略(有关详细信息,请参阅方法)时,机器学习仍然有效(S1B和S1C图)。此外,当我们采用坐标上升而不是梯度上升的方法(有关详细信息,请参阅方法)时,机器学习还可以找到有利于NSR扩散的"适当"参数设置(S1D图)。
然后,我们很好奇这里描述的机器学习方法是否可以应用于该领域其他小组的计算机模拟研究,这可能只是作为我们方法的验证测试。Szathmáry及其同事的一项著名研究[19],其中提供了模拟程序的源代码,为我们提供了一个评估这种担忧的机会。这项工作解决了一个关于达尔文进化论在分子水平上合理性的重要问题:没有膜,类似RNA的分子能否进化出更高的效率和更复杂的方向?该研究假设了一个相对抽象的模型,其中RNA样聚合物被称为"复制器"。结果表明,在有限的扩散下,复制器可以进化到更高的效率和保真度(在它们的复制中)。图7A显示了计算机模拟(蒙特卡罗模拟)中这种进化的典型案例,其中监测了系统中复制器的平均长度,标志着进化过程走向复杂性。显然,在这里,这样的平均长度可能只是作为我们机器学习中的目标函数。
thumbnail 下载:
个人电脑幻灯片
巴新放大图片
断续器原始图像
图 7.建模中复制器平均长度的进化动力学.
(a)一个典型案例,展示了原著中的假设场景[19]。系统中复制器的平均长度最初为5(在单体中),并且随着进化过程而显着增加。参数根据原作设置:α一个= 0.1, β一个= 3, γ一个= 200, αB= 0.1, βB= 3, γB= 200, βC= 2, γC= 5(请注意,为清楚起见,我们省略了同一模型中其他四个参数的描述,这些参数不涉及此处的参数探索)。(b) 我们假设的一个案例是机器学习的起点。参数设置:α一个= 0.2, β一个= 2, αB= 0.2, βB= 2, βC= 1,其他三个参数与 (a) 中相同。显然,这样的参数设置并不支持假设的想法[19]——复制器的平均长度几乎没有增加。预计这种情况将通过我们在这里介绍的机器学习原理中的自动参数探索来"改善"。
https://doi.org/10.1371/journal.pcbi.1009761.g007
为了设置机器学习的起点,我们在图7A的情况下更改了几个参数值,其中复制器的平均长度在演化过程中无法增加(图7B)。步骤100×10处的复制器长度4被选为目标函数。然后,我们开始参数探索,以支持复制器长度的增加。学习结果明显成功 - 复制器长度在步骤100×104从5个提高到30个左右(单体残基)(图8A),当学习的参数设置应用于进化模拟时,复制器长度在步骤400×10处达到约354 (图8B)–不低于原始作品的典型情况(图7A)。S2 图示了机器学习过程中的自动参数调整。
thumbnail 下载:
个人电脑幻灯片
巴新放大图片
断续器原始图像
图 8.在机器学习原则上,通过参数探索,复制器的平均长度得到改善。
(a)目标函数是步长 100×10 处复制器的平均长度4,具有学习的起点,在图7B的情况下假设。箭头表示"奇点",表示当复制器总数为零并且假定复制器的平均长度(临时)采用起始值(即5)时的回合。(b) 通过采用第60轮学习参数集来改进进化动力学(参考图7B中的算法),α一个= 0.0727, β一个= 2.57, γ一个= 393, αB= 0.0766, βB= 4.42, γB= 169, βC= 1.88, γC= 3.35。(c) 目标函数是步骤 20×10 处复制器的平均长度4,假设在图7B的情况下具有学习的起点。(d) 通过采用c中第80轮学习时设置的参数,改进了进化动力学(参考图7B中的参数):α一个= 0.0358, β一个= 2.97, γ一个= 452, αB= 0.251, βB= 1.44, γB= 143, βC= 2.22, γC= 1.23。
https://doi.org/10.1371/journal.pcbi.1009761.g008
实际上,按照图7A中的情况,我们可以看到复制器长度直到步骤300?400×10才达到稳定水平。4–因此,目标函数的更好选择似乎是达到此天平后复制器的平均长度(而不是步长 100×10 处的长度4正如我们在学习中采用的那样)。但是,如果是这样,计算负担会大得多。另一方面,我们发现,通过采用(作为目标函数)早期阶段的复制器长度来节省计算负担的进一步意图可能会导致有限的成功 - 例如,步骤20×10的复制器长度4,如果采用,只是改进到15左右(图8C),并且在应用学习的参数设置时,复制器长度只能在步骤400×10处达到18左右的水平。4 (图8D)。显然,在演化的早期阶段针对复制器长度优化的参数值可能不一定与后期阶段与复制器长度相关的最佳参数值一致。
事实上,由于生命起源进化过程的复杂性,计算负担始终是相关建模研究中值得考虑的问题。在这里,这个问题特别值得注意,因为可能需要多轮学习才能实现优化的参数设置。考虑到"时间差距"对于早期目标值来说不能太大,无法表示后一步的目标值(图8),我们设计了一个"渐进式学习"策略。复制器的长度在步骤 10、20、40 和 100×104在机器学习的不同阶段被一个接一个地作为目标函数(S3A图)。从上一阶段学习的参数值设置为下一个学习阶段的起点。该策略被证明是成功的 - 当最终学习的参数设置应用于进化模拟时,复制器长度增加到不小于(这里,甚至高于)不采用渐进策略的情况的水平(S3B图)。显然,通过使用该策略,将显着节省计算成本,同时保持学习的有效性。
讨论
在本研究中,我们证明了机器学习原则上的自动参数探索可用于采用反向方法的计算机建模研究 - 即试图找出有利于特定结果的参数值。如前所述,关于生命起源期间进化过程的计算机建模研究通常采用相反的方法。这主要是由于我们对益生元化学和环境的了解不足,这与参数设置有关。另一方面,为什么认为这种反向方法在这方面特别有效?事實上,生命起源期間的進化非常特徵著從簡單到複雜的傾向,這是自然界中一種特殊而罕見的現象[3,4]。因此,如果得到建模的支持,该区域中任何相关的假设场景(暗示从简单到复杂的演变)都值得我们关注 - 因此,探索有利于场景的参数设置是有价值的。否则,如果从简单到复杂程度的演变是普通的,那么找出支持相关假设场景的参数值就没有多大意义了,因为我们对这种假设有大量的选择——那么,也许我们应该把注意力集中在历史上哪些场景可能真的发生过。如果是这样的话,等待有关益生元化学和环境的证据和知识的积累似乎更有意义 - 然后以传统方式进行计算机建模。
值得注意的是,在我们找到有利于假设场景的最佳参数设置之后,一个明显有用的工作是通过单独改变不同参数来测试它们的影响,特别是查看模型不能很好地支持场景的情况。关于最佳参数设置的详细信息以及通过单独参数调整进行后续测试的结果,将为我们提供线索,使我们能够根据我们现有的益生元化学和环境知识来判断历史上出现这种情况的可能性,或者如果到现在为止我们还没有相关知识,则可以在未来做出这样的判断。这正是我们"反向"计算机建模的重要性所在。
对于自动参数探索,较大的学习率虽然更适合快速学习,但可能会在学习过程中带来不稳定(图2),特别是当接近最优时。实际上,不稳定性与任何优化的常见情况相似。在机器学习中,这个问题的一个常见解决方案是逐步调整学习速率,也就是说,当接近最优时,e会逐渐降低。但在这里,这样的策略(或某些策略)是没有必要的,因为关于生命起源的进化建模研究的参数探索的目的不是寻求纯粹意义上的最优,而是大致了解是否存在有利于假设场景的良好参数集。当然,对于任何在该领域未来工作中寻求绝对最佳的潜在目标,沿着这条线的改进将很容易实现 - 只需基于机器学习领域开发的相关技术[40]。
值得注意的是,对于自动参数学习过程,选择目标函数是关键步骤。不同的目标函数可能导致明显不同的结果。当我们仅选择NSR的分子数作为目标函数(图2)时,结果参数设置可能有利于对照物种的传播以及NSR的传播(图4)。当选择NSR和对照物种之间的差异作为目标函数(图5A)时,得到的参数设置可能有利于NSR的传播,但不利于对照物种的传播(图6)。当复制器的平均长度在步骤100×104被选为目标函数(图8A),所得参数设置在增加演化中的复制器长度方面是令人满意的(图8B)。相反,当复制器的平均长度在步骤20×10时4被选为目标函数(图8C),结果参数设置显然是"不令人满意的"(图8D)- 因为在早期阶段针对复制器长度优化的参数设置并不一定代表在最终平衡时有利于长复制器的参数设置。
为了平衡机器学习的有效性和计算成本,我们设计了一种渐进式学习的策略,其中从前一阶段学到的参数值被设置为下一阶段学习的起点(S3图)。事实上,这种机制涉及"迁移学习"的概念[40],也就是说,学习过程产生的参数集可以被"借出"并用作另一个学习过程的起点,前提是两个学习案例相似或彼此明显相关 ,从而加快后一个学习过程。此外,迁移学习的概念在关于生命起源的整个进化建模领域可能非常有用。如前所述,生命的起源代表了从简单到复杂的非凡发展情景。例如,本研究中使用的两个例子只是在分子水平上处理达尔文进化论,并且相对简单[19,20]。在后期阶段,已经有相当多的建模研究涉及达尔文的进化论,即在"原始细胞"水平上(例如,参见参考文献[21,24,27,28]),这涉及更多的参数。也就是说,由于生命起源期间早期和后期场景之间的内在关系,复杂模型中的一部分参数,即在以前的简单模型中探索过的参数,可能不需要从头开始探索。
除了梯度上升的优化方法外,我们已经证明坐标上升的方法(参见方法)也可以在自动参数探索(S1D图)中起作用,其中参数通过迭代循环逐个探索。然而,在机器学习的原则中,坐标上升不如梯度上升强大,特别是当参数强烈"相互依赖"时。实际上,在这里我们已经观察到参数之间的相互依赖性 - 在自动参数调整期间,某些参数在某些阶段的值增加,而在其他阶段减少(图3和S2)。这种趋势的不一致性表明,一个参数的"更好"值可能取决于正在使用的其他参数的值。因此,预计在这一领域,梯度上升的方法将比坐标上升的方法更可靠 - 特别是对于那些关于生命起源的复杂模型,其中参数之间的相互依赖性可能更为重要。
当然,可能还有其他用于自动参数探索的学习算法。例如,作为 Metropolis 算法的变体,我们可以对参数进行小的随机更改,然后接受所有改进目标函数的移动,并接受以较小的概率降低目标函数的移动,这取决于减少的规模(接受减少到现有值可能会避免永久被困在局部最优值中)。这个想法无疑很有趣。但是Metropolis算法有时在寻找最优值方面效率不高。关于自动参数探索,也许需要对这种方法进行进一步研究才能得出结论。
另一个有趣的想法是应用进化算法。例如,我们可以将研究的参数视为基因型,将目标函数视为表型。有利于改善表型的基因型在引入基因型突变和重组的多轮"繁殖"中迭代选择。然后,从一个"坏"的参数集开始,也许一个有利于假设场景的好参数集可能会在"参数的演变"中逐渐出现。显然,进化算法在自动参数探索方面的有效性和效率(如果有效)也有望在未来得到评估。
无论如何,本研究中展示的机器学习原理中的自动参数探索都是鼓舞人心的。由于搜索"适当"参数的负担较少,预计该领域的研究人员将建立考虑益生元化学更多细节的模型(因此具有更多参数)。因此,从计算机模拟中得出的结果和结论将更与现实相媲美,也更有说服力。那么,也许关于生命起源的科学努力的两个方面,实验和理论,将变得更加交叉引用,相互依存,最终甚至合并 - 从而有望在该领域取得突破。
最后,我们注意到,我们在这里介绍的方法可能具有更广泛的意义。尽管如上所述,反向建模方式在生命起源领域特别重要(且有效),但显然,在其他建模领域,有时我们可能还想知道哪种参数设置会带来明确的兴趣结果,从而倾向于使用相反的方式。那么,在机器学习原则上提出的自动参数探索方法将具有重要意义。
方法
梯度上升
假设参数探索中涉及n个参数:p1、p2, ..., pn,使用这些参数运行的模型(即模拟)的明确结果是O,可以表示为:O =模型{p1、p2, ..., pn}.这个确定的结果,可能代表一个假设的场景,在我们的机器学习中被采用为目标函数,这意味着我们的目标是通过调整p的值来获得O的最大值。1、p2, ..., pn.当然,我们也可以尝试通过修改参数来最小化O,这些参数被称为"梯度下降"。为简洁起见,我们在这里仅描述"上升"的优化方向(对于坐标上升的方法,下面相同)。
首先,我们通过运行具有初始参数值 p 的模型来获得O[0]。 1[0], p2[0], ..., pn[0],其可在此描述为:
(1)
然后,我们开始测试参数对目标函数的影响。我们改变 p的值1到p1[0]*(1+e),其中e表示学习速率 (0
(2)
同样,我们更改其他参数的值并获得:
完成这些操作后,我们开始计算参数变化带来的目标函数的差值:
(3)
然后找出这些差异的最大绝对值:
(4)
基于此,计算下一轮学习的参数值:
(5)
随后,新一轮的学习从上面公式(1)标记的步骤开始,依此类推,迭代。
在该方法中,梯度上升的概念已体现在新一轮中的参数值的确定中。例如,如果参数 (px)可以带来最大的改进目标函数(在公式(2)表示的测试阶段计算,并在公式(3)和公式(4)中判断),在新一轮(如公式(5)所示)中,它将在满量程中向上调整,即px = px*(1+e)。相反,其他改进目标函数潜力较小的参数将根据其潜力按比例进行修改。重要的是,在学习算法中,参数和目标函数的变化方向是相互关联的- 例如,如果参数的增加(px)带来目标函数的降低,在新一轮中(如公式(5)所示),由于△O[0]的符号,它将向下调整x.有关详细信息,可以参考我们的学习算法的源代码(请参阅代码可用性)。无论如何,这里的方法是选择最陡峭的方向,导致目标函数的最大化 - 就数学而言,△O[0]x表示目标函数O相对于p的变化率的变化率x,而包含所有这些相对变化速率的向量仅表示"梯度"。在实践中, △O[0]x/ Max_ abs_△O [0]是变化速率△O[0]的归一化形式x.
值得注意的是,这里我们在两个地方使用"学习率"e",即分别在公式(2)和(5)中使用。然而,从概念上讲,虽然(5)中的那个是名副其实的学习速率,但(2)中的那个实际上只是定义了用于估计梯度的参数的微小变化。对于一个确定性模型(例如,引言中提到的微分方程模型),其中梯度可以通过解析方法确定,在(2)中通常不需要使用e。但对于这里演示的蒙特卡罗模型,我们需要一个"测试速率"来估计梯度。虽然原则上"检测率"和真正的"学习率"不一定相同,但在实践中应该采用类似的量表。例如,当我们想要进行快速学习,从而使用很大的"学习速率"来调整参数时,那么使用非常小的"测试速率"来准确估计梯度(这将带来巨大的计算成本)似乎是不必要的;另一方面,如果我们想进行平稳的学习,从而使用较小的学习率,那么使用相对较大的"测试率"往往不足以估计足够准确的梯度,以便向前迈出有效的学习步骤。因此,为了在实践中简化,我们在这里采用相同的值,并对两个比率使用统一表示。
学习策略的变化
在方法中,测试阶段的"学习方向"将根据上一轮的结果进行调整。例如,当参数 (px)带来了上一轮目标函数的降低,在新一轮的测试阶段,参数将向下调整-即在公式(2)中,实际学习方向可以用p表示x[0]*(1-e),而不是px[0]*(1+e).在特定情况下,当p增加(或减少)时x没有导致目标函数的改变,我们通常假设一个"向上"的方向。但是,当假设"向下"方向时,不会有问题(S1A图)。或者,我们甚至可以通过使用"乘法"而不是"加法"的策略来更改测试的实现:当参数(px) 带来了上一轮目标函数的降低,参数将以p的形式向下调整x[0]/(1+e),而不是px[0]*(1+e)(S1B 图)。此外,当同时使用这两种策略时,该方法也是稳健的,即向下调整以p的形式出现x[0]/(1+e),并且在特定情况下当p增加(或减少)时x没有导致目标函数的改变,采用向下学习的方向(S1C图)。
坐标上升
在学习的开始一轮中,对于第一个参数 (p1),而其他参数是固定的,其初始值(p1[0]),三个值向上调整(p1[0]*(1+e), p1[0]*(1+e)2、p1[0]*(1+e)3) 和向下调整的三个值 (p1[0]*(1-e), p1[0]*(1-e)2、p1[0]*(1-e)3),分别进行测试。关于"偏袒"目标函数,七个值中最"突出"的一个被保留用于测试其他参数,以及作为在下一轮测试该参数的初始值(即,p1[测试完所有参数后,新一轮探索从第一个参数开始。也就是说,实际上,这里不是像梯度上升方法那样同时进行探索,而是逐个探索参数,迭代 - 因此,以坐标上升的概念为特征(S1D图)。
Supporting information
Parameters used in the automatic exploration
Showing 1/4: pcbi.1009761.s001.pdf
Skip to figshare navigation
Table S1.Parameters used in the automatic exploration Parameters Descriptions PNFProbability ofnucleotide formation(not catalyzed by NSR)PNFRProbability ofnucleotide formation under the catalysis of NSRPNDProbability ofnucleotide decayPRLProbability of the random ligation of nucleotides and PBBProbability of breaking a phosphodiester bondPATProbability of attracting a substrate by a templatePFPProbability of the false base-pairingPMVProbability of the movement of raw material to an adjacent grid * For a detailed explanation of these parameters, as well as that of the whole model (including the other five parameters which are not involved in the parameter-exploration here), please see the original paper [20].
1 / 4
Download
figshare
S1 表。自动浏览中使用的参数
https://doi.org/10.1371/journal.pcbi.1009761.s001
(英文)
S1 图机器学习方法的变体。
参数的起始值与图2A中的起始值相同:即PNF = 4×10?3, PNFR = 0.02, PND = 1×10?3, PRL = 2×10?5,多溴联苯= 1×10?5,PAT = 0.5,PFP = 0.1,PMV = 1×10 ?3.学习速率e= 0.5(对应于图2A中的蓝线)。与图2中的情况一样,目标函数是步骤1.5×10处的NSR分子数5在进化动力学中(参见图1B)。(a)当一个参数的变化没有带来目标函数的值变化时,在下一轮学习中,它被向下调整而不是向上调整。(b) 关于学习速率的参数的变化是通过乘法规则而不是加法规则来实现的。(c) 采用b中的实施战略和调整战略。(d) 这里使用的不是梯度上升,而是坐标上升的方法。有关所有这些变体的详细说明,请参阅方法。
https://doi.org/10.1371/journal.pcbi.1009761.s002
(TIF)
S2 图机器学习期间的自动参数调整 - 针对更长的复制器进行优化。
这种情况的复制器长度的改进如图8A所示。子构图的垂直轴表示其名称显示在面板中的相应参数的值。这八个参数在学习回合中同时进行调整。
https://doi.org/10.1371/journal.pcbi.1009761.s003
(TIF)
S3 图为了节省计算成本而进行的渐进式参数探索。
(a)黑线与图8A中的黑线相同,其目标函数在整个学习过程中都是步长100×10的复制器的平均长度4.由洋红色段表示的学习过程(从第 1 轮到第 15 轮)使用步骤 10×10 处复制器长度的目标函数4,参数的起点设置与黑线情况相同(参见图7B);由绿色段表示的学习过程(从第16轮到第30轮)使用步骤20×10处复制器长度的目标函数4,从之前的学习过程(洋红色段)实现参数设置的起点;棕色段(从第31轮到第45轮)在步骤40×10处使用复制器长度的目标函数4,从之前的学习过程(绿色段)实现参数设置的起点;红色片段(从第 46 轮到第 60 轮)在步长 100×10 使用复制器长度的目标函数4,参数设置的起点来自之前的学习过程(棕色段)。箭头表示"奇点"(参见图8的图例进行解释)。(b)黑点表示改进的进化动力学(与图7B相比),在a中采用黑线情况的第60轮学习时设置的参数,它不使用渐进策略(实际上与图8B所示相同),而红点代表改进的进化动力学(与图7B相比)), 通过采用在a中红线情况的第 60 轮学习中设置的参数,该参数使用渐进策略。
https://doi.org/10.1371/journal.pcbi.1009761.s004
(TIF)
Acknowledgments
A portion of the present work are based upon the source code of a computer modeling study from Szathmáry and coworkers [19].
References
1.索斯塔克 JW.试图定义生命无助于理解生命的起源。J Biomol Struct Dyn.2012;29:599–600.pmid:22208251
查看文章PubMed/NCBI谷歌学术搜索
2.Raine D, Luisi PL. 关于生命起源的开放性问题 (OQOL)。原文生活Evol Biosph。2012;42:379–383.pmid:23065396
查看文章PubMed/NCBI谷歌学术搜索
3.马伟生命的起源:历史、化学和进化的问题。化学生物多样性员。2014;11:1998–2010.
查看文章谷歌学术搜索
4.Takeuchi N, Hogeweg P, Kaneko K. 从进化的角度概念化生命的起源。Phil Trans R Soc A. 2017;375:20160346. 下午:29133445
查看文章PubMed/NCBI谷歌学术搜索
5.米勒 SL.在可能的原始地球条件下生产氨基酸。科学。1953;117:528–529.下午:13056598
查看文章PubMed/NCBI谷歌学术搜索
6.曼恩·生命的起源:老问题,新化学。安格化学国际版. 2013;52:155–162.pmid:23208616
查看文章PubMed/NCBI谷歌学术搜索
7.Ruiz-Mirazo K,Briones C,de la Escosura A.益生元系统化学:生命起源的新视角。化学修订版 2014;114:285–366.下午:24171674
查看文章PubMed/NCBI谷歌学术搜索
8.萨瑟兰 JD.生命的起源 - 出乎意料。安格化学国际版. 2016;55:104–121.pmid:26510485
查看文章PubMed/NCBI谷歌学术搜索
9.Eigen M. 物质的自组织和生物大分子的演化。Naturwissenschaften.1971;58:465–523.pmid:4942363
查看文章PubMed/NCBI谷歌学术搜索
10.蒙泰罗LHA,皮凯拉JRC。同聚物自我复制建模:对早期竞争的影响。J Theor Biol. 1999;196:51–60.pmid:9892555
查看文章PubMed/NCBI谷歌学术搜索
11.Wattis JAD, Coveney PV.RNA世界的起源:动力学模型。物理学博士 B. 1999;103:4231–4250.
查看文章谷歌学术搜索
12.Stadler BMR, Stadler PF. Molecular replicator dynamics.Adv Complex Syst. 2003;6:47–77.
查看文章谷歌学术搜索
13.蒙泰罗LHA,皮凯拉JRC。自我复制聚合物早期进化的模型。J Theor Biol. 1998;191:237–248.
查看文章谷歌学术搜索
2400万利夫森 S, 利夫森 H.益生元复制的模型:适者生存与不健康者的灭绝。J Theor Biol. 1999;199:425–433.下午:10441460
查看文章PubMed/NCBI谷歌学术搜索
15.Hunding A,Engelhardt R.模拟交叉催化网络中的自组织和进化。原文生活Evol Biosph。2000;30:439–457.下午:11002891
查看文章PubMed/NCBI谷歌学术搜索
16.Scheuring I,Szathmáry E.具有抛物线增长趋势和指数衰减的复制器的生存。J Theor Biol. 2001;212:99–105.下午:11527448
查看文章PubMed/NCBI谷歌学术搜索
17.Assouline S,Nir S,Lahav N.模拟寡核苷酸和肽的非酶模板导向合成。J Theor Biol. 2001;208:117–125.pmid:11162057
查看文章PubMed/NCBI谷歌学术搜索
18.Gleiser M, Nelson BJ, Walker SI.开放体系中手性聚合,来自手性选择性反应速率。原文生活Evol Biosph。2012;42:333–346.下午:22610131
查看文章PubMed/NCBI谷歌学术搜索
19.Szabó P, Scheuring I, Czárán T, Szathmáry E.在计算机模拟中表明,扩散有限的复制器向更高的效率和保真度发展。自然界。2002;420:340–343.pmid:12447445
查看文章PubMed/NCBI谷歌学术搜索
20.马伟, 于慧, 张伟, 胡俊明.核苷酸合成酶核酶可能首先出现在RNA世界中。核糖核酸。2007;13:2012–2019.pmid:17878321
查看文章PubMed/NCBI谷歌学术搜索
1100万Takeuchi N,Hogeweg P.益生元进化模型中的多层次选择ii:区室化和空间自组织的直接比较。PLoS Comput Biol. 2009;5:e1000542.pmid:19834556
查看文章PubMed/NCBI谷歌学术搜索
22.竹内N,霍格维P,库宁EV。关于DNA基因组的起源:模型复制器系统中模板和催化剂之间分工的演变。PLoS Comput Biol. 2011;7:e1002024.pmid:21455287
查看文章PubMed/NCBI谷歌学术搜索
1300万吴明, 希格斯PG.生命的起源是空间局部的随机过渡。生物.直接。2012;7:42. 下午:23176307
查看文章PubMed/NCBI谷歌学术搜索
24.Ma WT, Yu CW, Zhang WT. 循环性和自切割作为基于RNA的原细胞中染色体出现的一种策略。生物直接。2013;8:21. 下午:23971788
查看文章PubMed/NCBI谷歌学术搜索
25.K?nny? B, Czárán T. 表面结合RNA世界模型中益生元复制子共存的空间方面和群落稳定性。BMC Evol Biol. 2013;13:204. 下午:24053177
查看文章PubMed/NCBI谷歌学术搜索
26.Kim YE,Higgs PG.聚合酶和核苷酸合成酶在RNA世界中的合作。PLoS Comput Biol. 2016;12:e1005161.下午:27820829
查看文章PubMed/NCBI谷歌学术搜索
1700万尹淑, 陈勇, 余华, 马伟.从分子到细胞形式:模拟生命兴起过程中的第一个主要转变。BMC Evol Biol. 2019;19:84. 下午:30943915
查看文章PubMed/NCBI谷歌学术搜索
28.Szilágyi A,Kovács副总裁,Szathmáry E,Santos M.原始细胞中连锁和基因组扩增的进化:染色体的起源。PLoS Genet.2020;16:e1009155.下午:33119583
查看文章PubMed/NCBI谷歌学术搜索
29.陈毅, 马伟.生物同源性的起源以及生命的起源。PLoS Comput Biol. 2020;16:e1007592.下午:31914131
查看文章PubMed/NCBI谷歌学术搜索
30.Zahnle K,Schaefer L,Fegley B.地球最早的大气层。冷泉港 Perspect Biol. 2010;2:a004895.pmid:20573713
查看文章PubMed/NCBI谷歌学术搜索
31.Trail D, Watson EB, Tailby ND.哈迪斯岩浆的氧化态及其对早期地球大气的影响。自然界。2011;480:79–82.下午:22129728
查看文章PubMed/NCBI谷歌学术搜索
32.吉尔伯特·RNA世界。自然界。1986;319:618.
查看文章谷歌学术搜索
33.乔伊斯·格夫基于RNA的进化的古代。自然界。2002;418:214–221.pmid:12110897
查看文章PubMed/NCBI谷歌学术搜索
34.希格斯PG,雷曼N。RNA世界:生命起源的分子合作。Nat Rev Genet.2015;16:7–17.pmid:25385129
查看文章PubMed/NCBI谷歌学术搜索
35.马伟"RNA世界"对生命起源意味着什么?生命。2017;7:49. 下午:29186049
查看文章PubMed/NCBI谷歌学术搜索
36.赫顿 TJ.人工化学中可进化的自我复制分子。阿提夫生活。2002;8:341–356.pmid:12650644
查看文章PubMed/NCBI谷歌学术搜索
37.桑达斯PGH。用于在聚合过程中产生同手性的玩具模型。原文生活Evol Biosph。2003;33:575–587.pmid:14601927
查看文章PubMed/NCBI谷歌学术搜索
38.Hintze A,Adami C.复杂模块化生物网络的进化。PLoS Comput Biol. 2008;4:e23.pmid:18266463
查看文章PubMed/NCBI谷歌学术搜索
39.多明戈·主算法:对终极学习机器的追求将如何重塑我们的世界。(阿歇特图书集团,2015年)。
40.Goodfellow I, Bengio Y, Courville A. Deep Learning.(麻省理工学院出版社,2016年)。