医学论文发表-菲洛菲舍尔:解决真核关系的植物经济学一揽子计划
· 亚历山大·提斯
· 大卫·希哈拉
· 托梅·佩内克 ,
· 罗伯特·琼斯
· 埃里克·萨洛马基
· 塞拉菲姆·涅纳罗科夫
· 法比安·布尔基
· 马雷克·埃利亚,
· 劳拉·埃姆
· 安德鲁·罗杰
· 安东尼斯·罗卡斯
· 沈兴兴
· 约尔根·斯特拉塞特
· 马丁·科莱斯科
· 马修·
· 发布时间: 2021年8月6日
抽象
对数百个蛋白质编码基因进行植物经济学分析,旨在解决植物遗传关系,现已成为一种常见做法。但是,目前没有软件包括数据集构建工具和后续分析,以及评估强健性的不同验证策略。此外,没有公开的优质精心策划的数据库,旨在评估真核生物树中深(>1亿年)的关系。为了解决这些问题,我们开发了一个易于使用的软件包,菲洛菲舍尔(https://github.com/TheBrownLab/PhyloFisher),写在Python 3。PhyloFisher 包括一个人工策划的数据库,该数据库包含来自 304 个真核学分类的 240 个蛋白质编码基因,涵盖已知的真核多样性,是矫形学选择的新工具,以及用于执行最先进的植物学调查所需的不同分析的实用工具。通过对真核生物树和初露头角酵母的糖精的植物学重建,我们演示了PhyloFisher工作流程的效用,以及为不同生物群提供用于解决大量进化时间点的植物学问题的启动数据库。我们还证明,未被发现的寄生虫学可以保留在植物学"单拷贝正交组"数据集中,该数据集使用广泛接受的方法构建,如所有与所有 BLAST 搜索,然后是马尔科夫集群算法 (MCL) 聚类和自动修剪树算法的应用。最后,我们展示了 PhyloFisher 工作流如何帮助检测意外的对交插件内含物,使用户能够就矫战任务做出更明智的决策,从而获得更准确的最终数据集。
引文:提斯·阿克、希哈拉·D、佩内克·T、琼斯·雷、萨洛马基·埃德、内纳罗科夫·S等人(2021年)菲洛菲舍尔:解决真核关系的植物经济学一揽子计划。PLoS 生物 19 (8): e3001365.https://doi.org/10.1371/journal.pbio.3001365
学术编辑:安德烈亚斯·海诺尔,挪威卑尔根大学
收到:2020年8月21日:接受:2021年7月15日:已发布:2021年8月6日
版权所有:2021年?提斯等人。这是一个开放访问文章,根据《知识共享归属许可证》的条款分发,允许在任何媒体上不受限制地使用、分发和复制,前提是原始作者和来源得到记分。
数据可用性:软件包位于 GitHub(https://github.com/TheBrownLab/PhyloFisher)上。所有与数字相关的数据(图3,4和图A-Y在S1文本)以及随附的菲洛菲舍尔数据可从档案https://ir.library.msstate.edu/handle/11668/19731。 此外,软件包可以通过康达或PIP安装。医学论文发表-
资金:该项目主要得到美国国家科学基金会(NSF)环境生物学司(DEB)赠款的支持,1456054和2100888(http://www.nsf.gov)授予MWB。捷克共和国J.W.富布赖特委员会向TP.ME和MK实验室授予TP.ME和MK实验室的支持得到了捷克科学基金会(分别授予18-18699S和18-28103S)和"寄生虫致病和毒性研究中心"(ERD基金,项目号)的支持。CZ.02.1.01/0.0/0.0/16_019/0000759)。ES得到了生物中心国际研究人员动员的支持(CZ.02.2.69/0.0/0.0/16_027/0008357 2)和 MSCA-IF-CZ 智能 (CZ.02.2.69/0.0/0.0/20_079/0017809)。AR实验室的植物学研究得到国家科学基金会(DEB-1442113)的支持。LE 得到欧洲研究理事会 (ERC 启动赠款803151) 的资助。FB 感谢科学生命实验室支持 JFHS 在他的实验室中的工作,JFHS 感谢德国研究基金会 (DFG;STR1349/2-1,项目 #432453260)以获得支持。MK 感谢 IT4 创新国家超级计算机中心、奥斯特拉瓦技术大学、捷克俄斯特拉发(项目#Open-20-18)提供计算资源。资助者在研究设计、数据收集和分析、出版决定或编写手稿方面没有作用。
竞争利益:作者宣称不存在相互竞争的利益。
缩写:BBH,最好的爆炸击中:嗯,隐藏马尔科夫模型:LPP,本地后后概率;MCL,马尔科夫集群算法;MLBS,最大可能性引导支持;PMSF,后表示站点频率:RTC,相对树的确定性;特区,斯特拉莫诺皮莱斯+阿尔韦奥拉塔+里扎里亚:SRA,序列读取存档
介绍
分子植物学分析改变了我们对真核生物进化关系的理解。虽然在实践还处于起步阶段时,单一到几个基因的使用提供了丰富的信息,但这些小数据集缺乏足够的植物遗传信号来解决生命中最深的节点[1,2]。为了澄清这些古老的关系,分子植物学数据集的大小已经从单一基因增长到数百个基因(即数以万计的同源位点)[3-5]。
有现有的工具,通过自动化部分或植物经济学数据集构建的所有部分来减少所需的大量劳动力和时间(例如,见[6,7])。然而,由于植物经济学分析依赖于将多个基因的进化信号组合成一个植物基因,因此必须确保包括序列的进化历史仅由物种发生事件(正交)组成,而不是基因重复(对交)或横向/水平基因转移(异种基因转移)。因此,强烈建议手动固化正形,以确保数据集没有参数、异种素或污染物与相互冲突的信号,否则会混淆植物学估计。除了使用一组高质量的精制正畸外,重要的是,作为植物学分析的一部分,通过探索原始数据集在基因、位点或分类样本方面的扰动来识别影响估计的信号和潜在神器的均质性。尽管包括植物经济学分析在内的出版物数量急剧增加,但尚未普遍接受收集此类数据集的标准协议。同样,也没有公开的、手工策划的、开始的植物经济学数据库,这些数据库旨在解决真核生物树中的深层关系(>1亿年)。
为了解决这些问题,我们设计了一个植物经济学数据集构建和数据探索的协议,并将其纳入软件包,PhyloFisher。这种公开可用的软件包(https://github.com/TheBrownLab/PhyloFisher)有助于构建、维护和策展来自用户定义的一组启动蛋白质序列的基于植物基因组的数据集。它提供了工具,进行数据集后构建植物遗传学分析,并有助于结果的可视化。PhyloFisher 还包括一个手动策划的启动数据库,其中包含来自 304 个真核类的 240 种蛋白质,代表了生命真核树(图 1、表 A 和S1 文本中的无花果 A)中已知多样性的全部广度。重要的是,该数据库还包括所有被调查分类的 240 种蛋白质中每个蛋白质的识别对新添加的分类中可能的正交体的识别至关重要。虽然 PhyloFisher 包括此泛真核数据集,但该工具是灵活的,可以与任何预先定义的数据集配合使用,这些数据集由来自真核生物的蛋白质序列组成。
图1。菲洛菲舍尔工作流程和包装内容概述。
PhyloFisher包包括一个手动策划的启动数据库,其中包含240个蛋白质编码基因及其来自304个真核分类的参数:执行植物经济学数据集构建基本步骤的一系列工具(同源收集、单蛋白树构造、去除对羟基和污染物以及矩阵串联):以及出版质量植物学研究所需的许多施工前和施工后分析。
https://doi.org/10.1371/journal.pbio.3001365.g001
为了证明PhyloFisher及其同伴启动数据库的效用,以解决生命真核树不同深度的植物学问题,我们用3个不同的基因集对真核生物树中的古代关系进行了植物经济学重建,以及最近多样化的初芽酵母的糖精的植物经济学分析。此外,我们展示了菲洛菲舍尔工作流在广泛使用的矫体学收集和植物经济学数据集构建方法上的准确性提高。
结果
菲洛菲舍尔协议
标准的 PhyloFisher 工作流从用户提供的一组来自他们希望添加到现有数据库的有机体预测蛋白质开始。或者,用户可以从一组矫态细胞创建一个新的植物经济学数据库,无论有没有相应的参数,在添加新生物之前提前收集。用户可以在两个基本协议之间进行选择,其中候选人序列选择将以一种新的"物理信息"方式进行,或者以更传统的默认方式进行,其中从启动数据库中的正形图集生成的个人资料隐藏马尔科夫模型 (HMM) 用于从输入蛋白组(图 2)中收集候选序列:材料和方法)。我们独特的"物理信息"方法优先考虑假定正交,如果他们分支与已知的密切相关的分类的正交已经存在于数据库中(详见材料和方法部分)。对于启动数据库中的每个蛋白质对齐,从目标分类器的蛋白质组中通过选择标准(图 2:材料和方法)通过排名系统附在同源的相应对齐中。算法接收最高优先级的序列被划为可能的正畸序列,任何其他幸存序列被表示为可能的对停用。接下来是删除非致病性站点、对齐、修剪、序列长度过滤和同源数据集的植物学树重建。PhyloFisher 工作流程迫使从新数据中加入候选同源树后对所有单一蛋白质树进行人工检查,以防止无意中将来自污染物生物的对羟基体的对等词和序列纳入最终的植物经济学数据集。PhyloFisher 包括一个图形用户界面工具 (ParaSorter),旨在缓解大量基因中手动矫形器选择的艰巨任务。ParaSorter 颜色代码基于其分类隶属关系的分类名称,突出显示怀疑是参数的包层或序列,并将特定序列信息附加到植物学树中的每个分类名称中。手动检查树的用户只需单击序列标题旁边的相应框(图 1),即可将每个序列的原始名称更改为正交、对交或"删除"(为永久清除已知污染而保留的设置)。删除"删除"序列后,然后从正太或对羟基排列数据集生成最终的单正词对齐。
图 2.由菲洛菲舍尔Python脚本渔民执行的同源集合的流程图。皮.
简言之,每个预测的要添加的新分类的原型都是通过默认路线或植物学感知路线处理的,该路径利用用户选择的密切相关的分类(并显示在开始数据库中)的手动固化正交器作为对新分类的原型的搜索查询。根据一组标准重新确定或消除用户定义的收集序列数量,以最大限度地正确标定所需的正交和相关参数,同时避免污染物序列。有关所使用的逻辑、第三方软件和相关参数的详细描述,请参阅支持信息材料和方法。
https://doi.org/10.1371/journal.pbio.3001365.g002
植物经济学研究通常伴随着额外的分析,其中用户以各种方式操纵或检查其数据集,以揭示潜在的人工信号。PhyloFisher 配备了一套独特的公用设施来进行这些探索性分析(有关详细信息,请参阅表 1)。其中包括预测替代遗传密码、根据数据集的占用/完整性去除基因和/或分类、测试序列中的氨基酸组成异质性、去除异质和/或快速发展的位点、去除快速进化的分类以及从开始的数据集中随机重新采样蛋白质中产生超矩阵。此外,PhyloFisher 可以整合来自同一操作分类单元的多个蛋白组,以生成单个"最完整"的最终蛋白组。这对于单细胞数据或生成单个、采样更好的"混合分类"(代表几个密切相关的分类)很有用。其中许多提供的实用脚本被设计为"独立"程序,可用于在主要 PhyloFisher 工作流之外生成的数据集上,如[8]中所做的那样。
· 原始图像
表1。植物学实用程序的详细信息与菲洛菲舍尔包提供。
https://doi.org/10.1371/journal.pbio.3001365.t001
与菲洛菲舍尔重建生命中的真核树
为了展示 PhyloFisher 及其随附数据库的力量,我们在 IQ-TREE[14](图 3、图A、I 和S1 文本中的 O– Q) 中对真核生物树进行了完整的植物经济学分析。我们仅使用 PhyloFisher(包括S1 Text中列出的第三方软件)和由所提供的启动数据库中的矫型机器人组成的数据集(有关数据库构建的详细信息的材料和方法),我们仅使用工具。虽然在过去十年中,许多真核生物树已经得到解决(见[15]),但一些关键关系仍未确定,一些群体,通常被称为"孤儿分类",仍然难以放在树上。利用 PhyloFisher 工作流以及数据集后构建分析,我们恢复了真核树内部的深厚关系,这些关系通常与以前的植物经济学分析结果一致。例如,我们的分析恢复关系,如奥巴佐亚 + 阿米博佐亚 + 克鲁姆斯, 梅塔莫纳达 + 迪斯科巴, 哈普托菲塔 + 森特罗赫利奥佐亚, 和安切罗莫纳达 + 马拉维莫纳达[15]。我们恢复单植物古植物(传统的葡萄球菌 + 叶绿素 + 罗多菲塔),其中包括罗德尔菲迪亚和皮科佐亚,是隐士的妹妹,虽然这种潜在的关系缺乏强大的统计支持(80%智商-TREE最大可能性引导支持 [MLBS])。罗德尔菲迪亚和皮科佐亚被纳入阿查普拉斯蒂达,以及该团体与Cryptista的潜在姐妹关系,最近在单独的研究中得到了证明,这些研究使用独立的数据集进行[16-18]内的植物经济学分析。
图 3.304个真核生物的植物学树,从240种蛋白质中推断出。
该树在 IQ-TREE v1.6.7.1 =14中使用 ML(LG+G4+F=C60-PMSF 模型推断为 LG+G4+C60-PMSF 模型,LG+G4+C20 ML 树为 PMSF 指南输入树)。单蛋白对齐处理与菲洛菲舍尔实用matrix_constructor。皮.有关详细信息,请参阅材料和方法。分支上的数字显示来自 350 ML 引导复制的支持值。除非显示其他情况,否则所有节点都得到完全支持(100% MLBS)。高度支持的高分类水平的包层已经崩溃:完整的ML树可在S1文本中作为图A可用。税务详细信息可在S1 表中找到。这棵树是从完整的连贯对齐(72,632个站点)推断出的。进一步的细节到方法可能会发现在材料和方法和S1文本。ML,最大可能性;MLBS,最大可能性引导支持;PMSF,后表示站点频率。
https://doi.org/10.1371/journal.pbio.3001365.g003
有趣的是,我们的分析也恢复了一些值得进一步研究的新的潜在关系。例如,由神秘的"孤儿分类"泰洛内血症和血吸附体(血小精和斯皮罗内马)组成的包皮被恢复。这两组人最近才被纳入植物经济学分析,我们的树是第一个在同一分析中将他们提供的所有数据放在一起的。当超级矩阵中发展最快的站点使用我们附带的工具从数据集中删除时,fast_site_remover。py,这个包分支作为妹妹斯特拉更年期 - 阿尔韦奥拉塔 + 里扎里亚 (Sar) 与 95% 的 Mlbs, 可能包括一个单一的巨型集团。另一个有趣的潜在关系是一组团结的Haptophyta+中原利欧佐亚与"孤儿"尤卡里约特安科拉西斯塔扭曲(即哈普蒂斯塔森苏[19])。使用通过 PhyloFisher 软件包提供的所有工具,许多上述分组经常被恢复,包括当 (i) 快速发展的站点(S1 文本中的图 I)和异质站点被删除时(S1 文本中的图 L 和 O):(二) 基因被随机子采样(S1文本中的图J):(三) 得分最高的相对树确定性 (RTC) 正词对齐是连在一起的 (图 Q 在S1 文本中):(四) 使用基因树凝聚方法(图P合1文本):和(v)当站点异质混合物模型直接从超级矩阵(图R在S1文本)推断。
重建糖精叶树和添加托鲁拉斯波拉球体与菲洛菲舍尔
为了证明PhyloFisher工作流的效用,以解决最近围绕真核生物树的分歧的问题,我们利用串联和基于凝聚的方法重建了萌芽酵母的糖精树。作为参考,假设糖精的成员在1.02亿至1.26亿年之间一直相互分离,并表现出类似于开花植物[20]的遗传多样性水平。人类学是从86个萌芽酵母基因组中采集的,这些酵母基因组是糖精的基因组。globosa和其他 12 种真菌分类与菲洛菲舍提供,生成了来自 240 个矫形器中的 208 个(由于糖精类代表 Saccharomyceceae 代表Saccharomyceceae中的基因采样而修剪)中发现的植物学数据集。我们还创建了一个自定义启动数据库,该数据库由 1292BUSCO 数据集[20]中的 128 个基因组成的更计算可行的子集构建,该子集使用 PhyloFisher 提供的工具。这128个基因是利用rtc_binner选择的。py工具从 PhyloFisher 收集顶部约 10% RTC 得分树的 1292BUSCO 数据集[20],也考虑到分类覆盖在 1292BUSCO 数据集 (>70%), 导致 128 基因 (128BUSCO).然后,我们使用PhyloFisher工作流程,从上述86个萌芽酵母基因组中回忆了这128个基因的同源基因。我们还包括一个额外的糖精,T.格洛博萨,以说明菲洛菲舍尔的能力,以增加新的分类到这个数据库。在对 128BUSCO 数据集中的 128 个基因进行重新分析时,我们发现在原始研究[20] (S1 文本中的图 S– X) 中分析的数据中无意中将对羟格介词包含在 6 个基因(共 63 个序列)中。此外,在重新分析期间,我们能够使用 PhyloFisher 方法增加几个分类的原始数据集中的基因采样(例如,在S1 文本中查看图 U 中的糖精)。为了探索这些不准确和缺失的数据如何影响糖精树的结构,我们创建了第三个数据集,其中涉及骨学选择和增加数据采样的新决策。描述所有 3 个数据集构造的完整详细信息可在材料和方法部分找到。
我们对于 PhyloFisher 提供的启动数据库的 208 正时子集的对连体和凝聚分析的树道歉与原始 1292BUSCO 数据集[20]的道歉是一致的, 虽然 MLBS 对拓扑学的支持高于使用 PhyloFisher 208 正词数据集在我们的连贯分析中使用的结果 (100%),但使用 1292BUSCO 数据集的结果 (53%)。但是,使用 208 正词数据集 (图 4)时,使用基因树凝聚的本地后概率 (LPP) 值在此节点较低。有趣的是,使用两个 128 正电子数据集的基于共生的 ML 树显示了与[20](标记为 Shen 等人 2018 - BUSCO 1292 正形虫) 的替代拓扑学,而基于凝聚的树木与[20]的拓扑学一致,尽管 LPP 值再次低于原始研究中的拓扑值。医学论文发表-
图4。使用 4 个不同的数据集对糖精树进行植物学重建。
ML 树(顶排)是从 A 中的[20]中收集的,并使用 LG+G4+F+C60-PMSF 模型构建, 以LG+G4+F+C20ML树作为PMSF指南输入树在IQ-TREE v1.6.7.1[36]B,C和D.基因树凝聚树(下排)收集从[20]在A和使用astral_runner建造。py,它雇用了星体 - III[9]。相应的数据集从一列树木中提取,显示在图的顶部。构成糖精的亚包以深蓝色显示(由 AEKL、SNKN、TYV 和 ZTZ 包组成),而构成糖精和法福西塞的外包分别以深绿色和青色(分别标有 S 和 P)显示。每个糖精的右边是一个缩写,由包中每个属的第一个字母组成。全属名称写在左上角ML树的右侧。除非显示其他情况,否则节点将得到最大支持(100 MLBS 或 1.0 LPP)。PhyloFisher 208 数据集的完整树可在支持信息中找到(S1 文本中的图 Y)。LPP,本地后后概率;ML,最大可能性;MLBS,最大可能性引导支持;PMSF,后表示站点频率。
https://doi.org/10.1371/journal.pbio.3001365.g004
讨论
为了改进和简化从真核蛋白组精确收集矫形器和随后的植物经济学数据集构建,我们设计了PhyloFisher作为新的工作流程,并以免费提供的开源软件包的形式提供给植物经济学社区。包括一套手动策划的240个正形图及其相关的对羟基线从304真核分类,涵盖已知的真核多样性。然而,为了扩大软件的使用,我们提供工具,从替代的矫型和对接图集构建启动数据库,然后可以从新的分类中收获,并通过PhyloFisher工作流的其余部分进行处理。为了显示我们新设计的软件包的潜力,我们使用我们提供的启动数据库和糖精树重建了真核树,使用我们的启动数据库和使用PhyloFisher提供的工具创建的自定义数据库,该数据库来自 1292BUSCO 数据集的 128 个基因子集,用于[20]的植物学分析。
从全真核数据集重建的植物学树代表了迄今为止最分类全面的真核生物深层植物学。我们的结果恢复许多以前已知的关系,以及一些潜在的分组是新颖的(图3,图A在S1文本)。虽然在我们进行的大多数分析中,总体分支模式一直得到恢复,但许多组的采样很少,最深节点的引导支持值仍然较低。例如,由于特洛内米亚、赫米马斯蒂戈波拉和安科拉西斯塔都代表这些树上稀疏的采样血统,这些血统可能以不稳定而著称,并形成人工群落。因此,应谨慎对待前述关系。值得注意的是,完全支持的群体氯拉斯蒂达 + 格劳科菲塔, 罗多菲塔 - 罗德尔菲迪亚 + 皮科佐亚, 和克里普蒂斯塔之间的确切关系仍然不清楚。值得注意的是,最近一项独立研究的结果使用更大的数据集[17]和另一个包含来自不同象形动物的新数据[18]的结果都与我们关于这些潜在关系的结果一致,尽管分别具有相似或更高的统计支持。虽然最近发现的罗德尔菲迪亚含有一种非光合作用的石膏,因此可以自然地融入阿卡普拉斯蒂达[16],皮科佐亚似乎没有石膏[18,21],这表明它的次要损失或需要重新考虑阿查普拉斯蒂达[18]的概念。一旦最终对打破这些分支的新物种进行采样,这些假设关系就可以在菲洛菲舍尔框架中进行测试。
我们由此产生的酵母植物学使用从PhyloFisher提供的一组基因中提取的数据集,并使用从[20]的1292BUSCO数据集中提取的基因自定义子集,展示了PhyloFisher数据集的潜力和应用于自定义数据集的工作流程,作为解决涉及特定组真核生物的植物学问题的工具。在对酵母分析中使用的自定义基因数据集进行重新分析时,我们发现在原始数据集中意外地包含了对羟基苯甲基。将对接词纳入原始数据集可能导致在由此产生的植物学中出现人工分支模式或低分辨率,正如已经证明是抛物线包含的结果[17,22]。此数据集以及原始研究中使用的其他数据集是通过广泛接受和广泛使用的所有与所有 BLAST 搜索方法构建的,然后通过自动修剪树木策略将产生的正交组进行聚类和子采样到单独的正交集中。我们对对准词内含物的发现表明,实施当前标准工作流程可能导致我们在小样本中发现的对准词(大约 10%)包含来自[20]的 1292BUSCO 数据集的数据。这个标准工作流程中存在许多变量,后续研究应侧重于阐明在这些广泛使用的植物经济学数据集构建策略中矫直错误识别的确切原因。我们最初认为这些意外的对讲解符内含物是替代拓扑学的可能解释,关于由此数据集(图 4)产生的糖精内分支顺序。然而,纠正这些寄生虫学的误分配只会加强对替代拓扑学(图4)的支持,表明其他因素可能驱动2个数据集产生的拓扑学。可能需要进一步分析[20]中使用的整个原始数据集,以解决糖精树中的这个有争议的节点。
我们鼓励其他人探索这些数据,最重要的是,在这些数据集中添加新颖且无人代表/样本不足的血统。PhyloFisher 包的一个关键功能是,即使正词选择步骤是手动的,软件仍保留所有以前策划步骤中的信息。因此,正词与对准词的决定不是永久性的,相反,它们对于未来的研究人员探索和添加新数据来说是多变的。由于植物经济学是一门不断发展的科学,PhyloFisher 为用户提供了审查这些数据并添加生成的任何新数据的手段。随着时间的推移,我们期望通过使用我们的工具,将更清楚地了解真核生物之间的深厚关系。
我们还要鼓励教授植物经济学课程的教育工作者将菲洛菲舍尔作为他们的首选培训软件。它经过了全面记录,并且使用单个安装命令"开箱即用",供学员执行植物学研究的所有标准步骤(同源收集、数据质量控制、同源树构造、消除对羟基和污染物、不同数据子设置策略和矩阵调配),以及数据集后构建分析,以测试初始结果的可靠性。这些属性使PhyloFisher成为引入植物经济学分析和概念的理想培训工具,即使它所使用的所有确切方法没有得到植物学界的普遍认同。
最后,植物学和生物信息学的几位专家历来进行植物学分析。最近,植物经济学已成为不同生物领域更广泛使用的工具,包括植物学树木在内的原始论文数量迅速增加就证明了这一点。PhyloFisher 是一个易于使用的软件包,提供构建、执行质量控制和分析由多种蛋白质组成的大型植物经济学数据集所需的所有工具。我们表明,该包和包含的数据库有可能帮助解决真核生物树中的深(1亿>)差异。PhyloFisher还将允许不太精通生物信息的科学家在几个简单的步骤中对真核系进行出版质量的植物经济学分析。对于更高级的用户,PhyloFisher 提供了使用自定义启动数据库的灵活性,更改所提供的数据库中有关正交选择的预先决策,使用所提供的内容以外的替代软件,并更改图形美学以适应其喜好。此外,根据设计,PhyloFisher 鼓励与社区共享由此产生的完整数据集。我们希望,这一工具将促进植物学分析中"最佳实践"的广泛使用,并为植物经济学数据集提供长期更新/维护。
材料和方法
费舍尔算法详细信息(用于矫述收集)
正交选择和对比分界使用Python脚本渔民执行。需要 2 个输入的py:预测的蛋白石 (s) 要添加到启动数据库和包含有关它们的关键信息的输入元数据文件(参见 GitHub 存储库上的S1 文本和 PhyloFisher 手册)。要去除输入蛋白质组中的冗余(典型的是当蛋白质组从转录数据中预测到硅),渔民。py调用 CD-HIT v.4.8.1[23]选项"-c 0.98",该选项以 98% 的相似阈值对全球序列进行分组。接下来,使用启动数据库中每个蛋白质对齐的预计算配置文件 HMM 在输入蛋白组上运行软件包 HMMER v.3.2.1 [24]的 hmsarch。收集最多用户定义的序列数(默认 = 5),这些序列符合 1e-10 <电子值的重要性阈值阈值。如果没有序列达到意义阈值,脚本将移动到下一个蛋白质。如果找到序列(最多到用户定义的数字),则根据重要性级别(即,具有最大命中的序列被初步表示为最有可能的假定正畸,其他包含的序列通常表示为假定参数)。从此处开始,算法在两个方向中的任何一个方向进行,具体取决于输入元数据文件中提供的信息。在下面概述的 2 条路线中,序列可以添加到或从 hmsarch 收集的初始序列中删除,因为它们符合或不符合概述的标准。序列的优先级也可以根据下面列出的标准在列表中更改。在任一路线的末尾,如果仅保留 1 个序列,则被视为输入分类的假定正词。如果剩余超过 1 个,则列表中优先级的序列将被视为假定正词,其余的则被视为假定参数。所有幸存序列都添加到相应的单蛋白对齐中。
默认路线
如果启动数据库中不存在的相关物种在输入元数据文件的"爆炸种子"列中列出,以用作特定查询,则从 hmsearch 运行中收集的每个序列将用作搜索中的查询,使用 DIAMOND 诉 09.24 [25]与 OrthoMCL v 5.0 [23]进行搜索,选项为"爆炸 - e 1e-10 - 更敏感"。任何对正交MCL中的细菌正交组有重大打击(电子值< 1e-10)的序列,以及任何对正交MCL正交组没有重大打击的序列,与用于检索序列的相应配置文件 HMM 相对应。保留序列再次用于使用上述参数对启动数据库进行 DIAMOND 搜索中的查询。最佳命中的查询序列表示与检索查询序列的初始配置文件 HMM 相对应的保存基因,这些序列被保留并添加到对齐中。基于初始 hmmsarch 具有最高优先级的剩余序列被认为是假定正交,任何其他幸存序列都标记为假定参数。
植物学信息路线
输入元数据文件允许用户选择从启动数据库中指定 Taxa,其序列将用作对新生物体蛋白组的爆炸搜索查询:通常,这些应该与新增加的税金密切相关。数据库中已经存在的任意数量的物种可以选择作为特定查询,但算法将按照所提供的顺序使用它们,在下文概述的情况下,不得继续使用后续生物体。如果将生物体用作特定查询列在输入元数据文件中,则费舍尔。py将首先从列出的第一个生物体中挑选代表特定直体基因群("原声学"的简单)的序列,如果存在的话。如果在启动数据库中不存在,费舍尔。py将依次检查列出的其余分类的矫色学。如果发现来自 1 个或多个后续分类的正方体,则算法将按照下面概述进行。如果找不到所有列出的生物体的矫年期,渔民。py将进入此特定蛋白质的默认路线。如果至少 1 个列出的物种存在正词,则其序列将用作 BLAST[26]中针对输入生物体预测的蛋白类的查询。如果没有重大打击(电子价值<1e-10)被发现,渔民。py将使用下一个列出的物种的正交,如果提供的话。如果没有列出其他物种,或者如果所有上市物种的正交没有返回一个重大的 BLAST 打击,蛋白质被跳过的输入分类。如果发现显著的 BLAST 命中,则会收集并进一步检查用户定义的次数(默认 = 5)。原始 hmsearch 的序列根据 BLAST 命中的意义级别重新排序。具有最显著命中的序列成为优先级序列,除非初始 hmmsearch 未收集该序列:任何产生重大 BLAST 命中但未在初始 hm 搜索中收集的序列将被丢弃。然后,保留的序列用作对正词MCL[27]的查询。任何对正交MCL中的细菌正交组有重大打击(电子值< 1e-10)的序列,以及任何对正交MCL正交组没有重大打击的序列,与用于检索序列的相应配置文件 HMM 相对应。接下来,将前一步中通过过滤的所有序列与保存标记蛋白的启动数据库的爆炸进行比较。如果查询序列的最佳爆炸命中 (BBH) 是与在初始搜索中检索查询序列的个人资料 HMM 对应的序列,则保留该序列。如果序列的 BBH 是来自其他对齐的序列,则序列仍保留,但写在文件"非reciprocal_hits.txt"中,并附有启动数据库中蛋白质代表 BBH 的说明。然后,序列从开始数据库添加到相应的数据集中,并使用 MAFFT v.7.455[28]与参数"-自动 - 重新排序"进行对齐, 修剪与修剪Al v.1.4.rev15[29]与差距阈值0.2,并通过快速树诉2.1.11[30]与默认参数进行植物学树重建。使用 Python 包 ETE3[31]检查生成的树。分支姐妹或在由具有相同分配较高分类的有机体组成的包层内的序列优先于不分配的序列,而不管以前的标准如何:无论从开始数据库的元数据文件还是输入元数据文件,都得出了更高的分类。然后,所有保留的序列都添加到其相应的对齐中,获得最高优先级的序列表示假定正畸,所有其他序列表示为假定参数。
自动过滤、对齐、修剪和树结构
菲洛菲舍尔还包括一个 Python 脚本sgt_contructor。py自动过滤、对齐、修剪、长度滤光,并从所有单一蛋白质对齐中构建植物化树。脚本从渔民中取出输出文件。py(原始单正畸对齐,现在包含由渔夫算法为输入分类选择的新添加的序列以及从启动数据库中以前表示的对停架)并删除任何破折号,以使用默认设置通过 PREQUAL 诉 1.02[32]生成一组未对齐的非霍莫洛字符删除序列。接下来,执行长度过滤步骤,以尽量减少从同一基因片段预测的蛋白质的包含。这在转录组预测的蛋白体中很常见。首先,序列使用设置"-全球修复 - 最大1000 - 不对齐水平0.6"与程序MAFFT对齐。之后,使用选项"-薄荷 4 - divvygap"对程序 DIVVIER 诉 1.01[33]的对对齐错误和不确定性进行评估。由此产生的对齐使用 BMGE 诉 1.1.2[34]进行修剪,间隔利率削减 0.3。在 BMGE 过滤后,任何长度小于总对齐长度一半的序列将被删除。删除"短"序列后,文件准备单蛋白植物遗传树建设通过重新运行MAFFT和DIVVIER如上所述,然后修剪与程序修剪Al与差距阈值0.01[29]。最后,使用 RAxML v. 8.2.12[12]进行单蛋白树重建,选项为"-m PROTGAMMALG4XF -f a -x 123 -N 100 - p 12345"。当单基因树的构建开始时,sgt_constructor。py将检查要构建多少基因树以及用户提供了多少线程。如果要建造的基因树的数量大于提供的线的数量,sgt_constructor。py将运行尽可能多的工作,因为它可以使用一个单一的线程每个。这个过程将继续下去,直到所有的基因树已经建立。如果要建造的基因树总数少于可用的线程数量,则sgt_constructor。py将尽可能均匀地分配所有可用的线程。
菲洛菲舍尔诉1.0数据库建设
从各种公共资源中收集了304个真核分类的序列数据。仔细检查了每个分类器的身份,导致分类的名称(与原始数据资源相比)发生了许多变化,反映了从文献中检索到的各生物体分类学的发展(通用分配的修订、新描述的物种等),或纠正了错误识别的分类的识别。S1 表中提供了 Taxa 和相关加入号码的完整列表。不可用时,预测的蛋白组从转录组件组件中使用转解质-v5.5.0(https://github.com/TransDecoder/TransDecoder/releases)获得。对于许多分类,转录组是从序列读取存档 (SRA) 数据库中可用的转录读数中组装的。首先,使用 Rcorrector 诉 1.0.1 [35] 使用默认设置在原始读数中更正了测序错误。接下来,使用修剪 v. 0.36[36]删除适配器序列和低质量基础,参数如下: ILLUMINACLIP:2:30:10 滑动窗口:4:5 领先:5 跟踪:5 最小:25。校正和修剪读数使用 de novo 转录组装配程序三一 v2.6.6[34]组装。预测的304个真核分类的蛋白体被用作渔民的输入。py,收集最多默认的序列数(n =5)以进行下游分析。这些输入蛋白组可以在提供的启动数据库的"蛋白组"目录中找到,该目录可以通过从 https://ir.library.msstate.edu/bitstream/handle/11668/19731/Tice_etal.PhyloFisherDatabase_v1.0_Apr.11.2021.tar.gz的 wget 检索。有关每个原型的详细信息,请在位于此目录中的元数据.tsv 文件中找到。初步启动数据库是根据[37]中开发的先前植物经济学数据集"BORDOR"的240个基因子集构建的,以便在适当的时候使用来自不同分类的序列进行特定查询。HMER3封装中的程序hm用于使用BORDOR对齐作为输入,为所有240个基因制作配置文件HM。对在真核生物树中具有良好商定位置的所有生物提出了具体询问:否则,在渔民的默认路线。py被利用了。最密切相关的有机体与最完整的基因组或转录机可用用作特定查询,其次是不太完整的数据,当可用。渔夫收集序列后。对于所有生物体,生成的文件都受"自动过滤、对齐、修剪和单蛋白树构造"部分中描述的工作流程的影响。由此产生的同源树被手动检查与包括工具"ParaSorter"选择正交序列,划定参数,并删除污染物序列使用逻辑概述的"植物经济学数据集构造和分析"部分[8]。最后,304公共分类(S1 表)的对齐正形图用于生成与PhyloFisher诉1.0一起发货的最终配置文件HM,以及240个正形图的序列及其构成启动数据库的对等参数。
酵母数据集的构建
RTC分数计算用于包含[20]的BUSCO 1292数据集的所有基因。10%的RTC得分最高的基因被收集并用作启动正词,通过在包括的实用build_database中实施的方法创建自定义的菲洛菲舍尔数据库。皮.实用程序build_database。py以任意数量的单个矫语文件(可选择提供已知的对等词)作为输入,并生成从新分类和 PhyloFisher 工作流中的后续分析中检索骨图集所需的数据。实用程序build_database。py使用 MAFFT[25]的"自动"选项对齐所提供的一组矫形器,并使用 HMER3 包中的"hmbuild"实用程序[24]为每个基因对齐创建配置文件 HM,从提供的矫形器集构建一个钻石爆炸数据库,并将矫形器组编号 (s) 分配给每个矫形器。正交MCL正交组号码通过使用所提供的正交文件中的所有序列作为对正交MCL诉5.0数据库[27]的BLAST搜索中的查询来分配。如果用户定义的百分比(默认 = 10%)序列击中具有 1e-10 < 值阈值的正交组,则该正交组被分配到正交。可将多个矫管MCL矫组编号分配给矫直。如果所提供的正交对齐被分配给"无组"或在正交MCL中完全细菌组,该基因不能用于植物鱼工作流。代表这套正统集的假定同源序列是从所有糖精乙酰、糖精和法福西塞塞基因组中收集的,这些基因组用于[20]以及最近测序的T基因组。格洛博萨(加入:GCF_014133895.1)通过渔民。使用默认选项的py的植物学信息路线。假定同源性使用 PhyloFisher 的主要工作流程的其余部分进行处理,并将最终正统/对羟格/污染决定应用于上述自定义数据库。
在对产生的同源树进行分析时,我们发现在[20]原始数据集中无意中纳入了对等词。为了探索糖精树这些错误分配的影响,我们创建了2个植物学数据集:第一个保留[20]的所有原始矫形器分配,第二个通过菲洛菲舍工作流分配的矫形器。
我们还收集了由菲洛菲舍提供的所有糖精类、糖精和用于[20]和T的法夫米西塞塞的启动数据库的矫形器集的假定同源性。格洛博萨通过渔民。使用默认选项的py的植物学信息路线。从这个,第三个植物经济学数据集创建自208/240正形,存在于至少90%的新添加的分类和真菌分类已经存在于菲洛菲舍尔提供的数据库。
植物经济学分析
单一的矫制品处理。
对于每个数据集,从单蛋白树检查(select_orthologs)的输出中识别和收集正交。皮,select_taxa。皮,和prep_final_dataset。皮,分别)。每个正交法塔文件都处理与matrix_constructor。py使用我们的默认参数,这些参数按matrix_constructor的一部分排列在这里列出。py管道:(1)正词快速文件中的所有间隙和任何*(停止)将被删除:(2) 使用默认设置通过 PREQUAL 诉 1.02[32]删除非霍莫洛字符;(3) 文件然后使用 MAFFT-GINSI[28]使用命令"mafft - 全球修复 - 最大 1000 - 不对齐级别 0.6 {数字读数} [基因].aa.过滤> [基因] .aln";(4) 然后使用"部分"程序在DIVVIER[33]中处理对齐文件,命令为"divvier-部分-薄荷4-分维加普[基因]。aln";和 (5) 部分 DIVVIER 对齐然后使用修剪进行修剪,差距阈值为 80% "修剪 - in [ 基因] . aln. 部分. fas - gt 0.80 - 物理 - 出 [基因] . gt80 特里马尔. phy " 。支持信息材料和方法的修剪实验部分提供了使用 80% 差距阈值的理由。
基于连结的物种树推论。
最后4套修剪对齐使用matrix_constructor。py生成4个单独的植物学超矩阵。植物学树是从IQ-TREE[14]中的每个基质中推断出的,该基质是异质模型 LG+G4+F+C60 下,其后平均站点频率[38]通过 LG+G4+F+C20 推断为输入树(S1 文本中的图 A)。医学论文发表-
以凝聚为基础的物种树重建。
基于共光的树种(S1文本中的图4和图P)是从单一正词树和引导树中推断出的,用于使用STRAL-III[9]的所有数据集。所有4个数据集的单正牙树首先从由matrix_constructor造成的修剪正形树推断出来。py, [基因] .gt80 三元组, 在 Raxml 中, 使用命令 "拉克斯毫升 - 普特雷德 - Avx2 - f a - t 2 - m 普罗特卡莱格夫 - p 123 - x 123 - N 100 - s [ 基因]。80三元。物理 -n [基因]。gt80trimal"与100个快速引导复制,然后用于基因树凝聚推论的物种树使用STRAL-III。我们提供实用工具(astral_runner。py) 作为 PhyloFisher 包的一部分,收集单一的矫形树和各自的引导树,并生成输入文件并运行 ASTRAL-III。
支持信息
S1 表。分类和序列数据源列表。
https://doi.org/10.1371/journal.pbio.3001365.s001
(XLSX)
表 A: 菲洛菲舍尔诉 1.0 数据集的分类成分。图 A:植物学树的304个分类,240个矫形,和72,632氨基酸位点(80矩阵)。超级矩阵是按照上述matrix_constructor处理的。py方法。该树是使用 LG+G4+F+C60+PMSF 下的 IQ-TREE 构建的,带有 LG+G4+F+C20 输入树,用于生成 IQ-TREE 中推断的 PMSF 站点频率,并具有 350 个真正的引导复制 (MLBS)。这是主文本图 3中显示的树的未合拍版本(以同样的方式着色分支和节点)。未显示 100% 的 MLBS 值:所有其他值均在各自的节点上表示。与这个数字相关的数据可在目录存档 FigA.tgz 中,在https://ir.library.msstate.edu/bitstream/handle/11668/19731/Tice_etal.PhyloFisher.DATA.tar.gz提供的数据存档中。图 B:每个基因的 RTC 分数的小提琴图,每个修剪和未修剪的方法。四重奏绘制在小提琴情节上,覆盖着盒子和胡须图。与此数字相关的数据可在目录存档 FigB.tgz 中,在可从https://ir.library.msstate.edu/bitstream/handle/11668/19731/Tice_etal.PhyloFisher.DATA.tar.gz获得的数据存档中。图 C:每个基因的 RTC 分数之间每个修剪到未修剪的 RTC 分数的方法之间的对比差异的框和胡须图。与这个数字相关的数据可在目录存档 FigC.tgz 中,该档案中提供来自 https://ir.library.msstate.edu/bitstream/handle/11668/19731/Tice_etal.PhyloFisher.DATA.tar.gz的数据存档。图 D: ML 树的基因一致因子中的每个节点的小提琴图,通过 IQ-TREE 按修剪方法进行评估。四重奏绘制在小提琴情节上,覆盖着盒子和胡须图。与此数字相关的数据可在目录存档 FigD.tgz 中,该目录存档中提供来自https://ir.library.msstate.edu/bitstream/handle/11668/19731/Tice_etal.PhyloFisher.DATA.tar.gz的数据存档。 在LG+G4+F+C60+PMSF下推断出的智商-TREE中,有一个LG+G4+F+C20输入树,用于生成IQ-TREE中推断出的PMSF站点频率,并具有1,000个超高速引导复制(MLBS)。此分析强调,当使用站点异构模型时,不同的对齐修剪方法对输出树和引导支持值影响不大。与此图相关的数据可在目录存档 FigE.tgz 中,在https://ir.library.msstate.edu/bitstream/handle/11668/19731/Tice_etal.PhyloFisher.DATA.tar.gz提供的数据存档中。图 F: 图 3中显示的几个选定感兴趣节点的引导值在这里显示, 在LG+G4+F+C60+PMSF下的智商树中推断出,LG+G4+F或LG+G4+F+C20输入树用于生成在IQ-TREE中推断的PMSF站点频率,并带有1,000个超高速引导复制(MLBS)。在LG+G4+F输入树分析中发现具有高支持度相互矛盾的道歉,而节点和道歉在推断LG+G4+F+C20为输入树时不会发生冲突。与这个数字相关的数据可在目录存档 FigF.tgz 中,在https://ir.library.msstate.edu/bitstream/handle/11668/19731/Tice_etal.PhyloFisher.DATA.tar.gz提供的数据存档中。图 G:每个修剪方法生成的超物质氨基酸位点的直方图。与此数字相关的数据可在目录存档 Fig.tgz 中,该目录存档中提供,可从https://ir.library.msstate.edu/bitstream/handle/11668/19731/Tice_etal.PhyloFisher.DATA.tar.gz。图 H:从整个数据集(72,632 个氨基酸站点的 80 修剪矩阵)中快速删除站点。每一步有 9,000 个站点,以最快速至最慢的步进方式删除以耗尽。LG=G4+F=C60+PMSF 下的 IQ-TREE 中每个数据集都推断出 ML 树,其中带有 LG+G4+F+C20 输入树,用于生成 IQ-TREE 中推断的 PMSF 站点频率,其中 1,000 个超高速引导器复制(UFBOOT)。从删除的 9,000 个站点(9K) 中的树显示在图 I 中,并代表主文本图 3中显示的树。与这个数字相关的数据可在目录存档中提供,FigH.tgz 位于https://ir.library.msstate.edu/bitstream/handle/11668/19731/Tice_etal.PhyloFisher.DATA.tar.gz提供的数据存档中。图一:304 个分类 240 个正形虫和 63,632 个氨基酸站点的植物学卡通树,在原始超级矩阵中删除了进化最快的站点的前 9,000 个(如fast_site_remover.py所示; 见图 H)。由此产生的超级矩阵在matrix_constructor中如上所述进行了处理。py方法。LG+G4+F=C60+PMSF下的IQ-TREE,带有LG+G4+F+C20输入树,用于生成IQ-TREE中推断出的PMSF站点频率,并具有200个真正的ML引导复制(MLBS)。分支和节点的颜色如主文本的图 3所示。未显示 100% 的 MLBS 值:所有其他值均在各自的节点上表示。与这个数字相关的数据可在目录存档 FigI.tgz 中,该档案可从https://ir.library.msstate.edu/bitstream/handle/11668/19731/Tice_etal.PhyloFisher.DATA.tar.gz。图 J:使用random_sample_iteration的随机子采样。py实用程序。("random_sample_iteration。皮-i gt80三元。法塔斯/ - f 植物放松 - ci 0.95-ps 20")。在LG+G4+F+C60+PMSF下,每个复制品都推断出,LG+G4+F+C20输入树用于生成IQ-TREE中推断出的PMSF站点频率,其中有1,000个超高速引导复制(MLBS)。兴趣节点的支持值是用菲洛菲舍尔实用bipartition_examiner计算的。使用gplots 库中的框图功能在 R 中绘制和绘图。与这个数字相关的数据可在目录存档 FigJ.tgz 中,该档案中提供来自 https://ir.library.msstate.edu/bitstream/handle/11668/19731/Tice_etal.PhyloFisher.DATA.tar.gz的数据存档。 图K:我们超矩阵氨基酸成分的分层聚类。颜色是主要文本图3中标记的 taxa 的描述。与这个数字相关的数据可在目录存档 FigK.tgz 中,该档案可从https://ir.library.msstate.edu/bitstream/handle/11668/19731/Tice_etal.PhyloFisher.DATA.tar.gz获得。图 L:从整个数据集(72,632 氨基酸)中删除站点的异质站点。第 0 步和第 1 步删除了 3,000 个站点(参见下面的理由和图 M),然后每个后续步骤都使用最大到最不异质比率逐步删除 9,000 个站点以累人的方式。LG=G4+F=C60+PMSF 下的 IQ-TREE 中每个数据集都推断出 ML 树,其中带有 LG+G4+F+C20 输入树,用于生成 IQ-TREE 中推断的 PMSF 站点频率,其中 1,000 个超高速引导器复制(UFBOOT)。与此数字相关的数据可在目录存档 FigL.tgz 中,该档案中提供来自 https://ir.library.msstate.edu/bitstream/handle/11668/19731/Tice_etal.PhyloFisher.DATA.tar.gz的数据存档。图 M:每个站点的快速和慢速税项站点费率比率,从模拟数据集中估算。此数据集在 LG+G4+C60+F 进化模型下使用我们的输出树在此模型下与我们的 gt80 数据集进行模拟。使用异质性估计快速/慢分类站点比率。py实用程序。在模拟数据中,观察到的最大比率为9.08。这组比率进一步用作此模型下预期快速/慢比的空分布。与这个数字相关的数据可在目录存档 Figm.tgz 中,该档案中提供来自 https://ir.library.msstate.edu/bitstream/handle/11668/19731/Tice_etal.PhyloFisher.DATA.tar.gz的数据存档。 根据每个站点,从我们的 gt80 数据集与我们的输出树从 LG+G4+F=C60+ PMSF 下 IQ-TREE 中推断出的这个超级矩阵中估计,该数据集带有 LG+G4+F+C20 输入树,用于生成 PMSF 站点频率。使用异质性估计快速/慢分类站点比率。py实用程序。LG+G4+C60+F 模拟 (Fig M) 估计的空分布用于计算前 3,000、6,000 和 9,000 快/慢比率的p值。与这个数字相关的数据可在目录存档 FigN.tgz 中,在https://ir.library.msstate.edu/bitstream/handle/11668/19731/Tice_etal.PhyloFisher.DATA.tar.gz的数据存档中提供。图 O:从整个数据集中删除 3,000 个和 6,000 个站点的异质网站(72,632氨基酸),去除3,000(p值 =0.0001)和6,000(p值=0.003)(右)。从这些开始异质删除的数据集,6000个最快的网站被删除使用fast_site_remover。py, Het3KFast6K (63,632 网站) 和赫特6KFast6K (60,632 网站).LG=G4+F=C60+PMSF 下的 IQ-TREE 中每个数据集都推断出 ML 树,其中带有 LG+G4+F+C20 输入树,用于生成 IQ-TREE 中推断的 PMSF 站点频率,其中 1,000 个超高速引导器复制(UFBOOT)。未显示 100% 的 UFBOOT 值:所有其他值均在各自的节点上表示。与这个数字相关的数据可在目录存档 FigO.tgz 中,在可从https://ir.library.msstate.edu/bitstream/handle/11668/19731/Tice_etal.PhyloFisher.DATA.tar.gz获得的数据存档中。图 P:使用上述默认修剪方法从 RAxML 中推断的 240 棵正牙树(根据 PROTCATLGF 模型,带 100 个引导器)中使用上述默认修剪方法matrix_constructor。py描述。树是由星体-III使用菲洛菲舍尔实用程序推断,astral_runner。皮.节点中的值是星座引导复制值 (BS)。未显示 100% 的 BS 值:所有其他值均在各自的节点上表示。与这个数字相关的数据可在目录存档 FigP.tgz 中,在可从https://ir.library.msstate.edu/bitstream/handle/11668/19731/Tice_etal.PhyloFisher.DATA.tar.gz获得的数据存档中。图 Q: RTC 分拣箱生成的树的卡通树(顶部 75%,180 正形虫,63,750 个站点)使用rtc_binner。皮.matrix_constructor输入数据集。py连在一起是gt80三元单正词文件。这棵树在LG+G4+F+C60+PMSF下的智商树中推断出,LG+G4+F+C20输入树用于生成在IQ-TREE中推断出的PMSF站点频率,并具有1,000个超高速引导复制(UFBOOT)。未显示 100% 的 UFBOOT 值:所有其他值均在各自的节点上表示。与这个数字相关的数据可在目录存档 FigQ.tgz 中,该档案中提供来自 https://ir.library.msstate.edu/bitstream/handle/11668/19731/Tice_etal.PhyloFisher.DATA.tar.gz的数据存档。图 R:使用mammal_modeler生成的模型,在 IQ-TREE 中生成的树的卡通树。皮.这棵树在LG+G4+F+ESmodel+PMSF(ESmodel=60个费率类(估计从MAMMAL中推断的数据中估计)下的智商树中推断为LG +G4+F+ESmodel 输入树用于生成在 IQ-TREE 中推断出的 PMSF 站点频率,并具有 1,000 个超高速引导器复制(UFBOOT)。请注意,由于智商-树v1.6.12中的错误,此版本没有-bnni UFBOOT校正。未显示 100% 的 UFBOOT 值:所有其他值均在各自的节点上表示。与此数字相关的数据可在目录存档 FigR.tgz 中,该目录存档中提供来自 https://ir.library.msstate.edu/bitstream/handle/11668/19731/Tice_etal.PhyloFisher.DATA.tar.gz的数据存档。图 S:正交 EOG0934062S 的植物学树,数据集来自[5]。树是用sgt_contructor推断的。py在主文本中详细说明。树是寄生虫的输出。fisher.py 算法将粗体叶名称识别为建议的正光标识。未加粗的叶名称来自作为潜在对接程序收集的序列。具有彩色背景的叶子是来自[5]数据集的序列。有问题的对接线用红色箭头突出显示,PhyloFisher 识别的更正替换由蓝色箭头突出显示。可下载的图和与此数字相关的数据可在目录存档 Figs-X.tgz 中,该数据存档可从https://ir.library.msstate.edu/bitstream/handle/11668/19731/Tice_etal.PhyloFisher.DATA.tar.gz。无图 T:正交 EOG093409ME 数据集的植物学树[5]。树是用sgt_contructor推断的。py在主文本中详细说明。树是寄生虫的输出。fisher.py 算法将粗体叶名称识别为建议的正光标识。未加粗的叶名称来自作为潜在对接程序收集的序列。具有彩色背景的叶子是来自[5]数据集的序列。有问题的对接线用红色箭头突出显示,PhyloFisher 识别的更正替换由蓝色箭头突出显示。可下载的图和与此数字相关的数据可在目录存档 Figs-X.tgz 中,该数据存档可从https://ir.library.msstate.edu/bitstream/handle/11668/19731/Tice_etal.PhyloFisher.DATA.tar.gz。图 U:正交 EOG093407UY 数据集的植物学树[5]。树是用sgt_contructor推断的。py在主文本中详细说明。树是寄生虫的输出。fisher.py 算法将粗体叶名称识别为建议的正光标识。未加粗的叶名称来自作为潜在对接程序收集的序列。具有彩色背景的叶子是来自[5]数据集的序列。有问题的对接线用红色箭头突出显示,PhyloFisher 识别的更正替换由蓝色箭头突出显示。可下载的图和与此数字相关的数据可在目录存档 Figs-X.tgz 中,该数据存档可从https://ir.library.msstate.edu/bitstream/handle/11668/19731/Tice_etal.PhyloFisher.DATA.tar.gz.无图 V:正交 EOG093403th 的正交树[5]。树是用sgt_contructor推断的。py在主文本中详细说明。树是寄生虫的输出。fisher.py 算法将粗体叶名称识别为建议的正光标识。未加粗的叶名称来自作为潜在对接程序收集的序列。具有彩色背景的叶子是来自[5]数据集的序列。有问题的对接线用红色箭头突出显示,PhyloFisher 识别的更正替换由蓝色箭头突出显示。可下载的图和与此数字相关的数据可在目录存档 FigS-X.tgz 中,该数据存档可从https://ir.library.msstate.edu/bitstream/handle/11668/19731/Tice_etal.PhyloFisher.DATA.tar.gz.图 W:正交 EOG09340RBX 的正交树[5]。树是用sgt_contructor推断的。py在主文本中详细说明。树是寄生虫的输出。fisher.py 算法将粗体叶名称识别为建议的正光标识。未加粗的叶名称来自作为潜在对接程序收集的序列。具有彩色背景的叶子是来自[5]数据集的序列。有问题的对准用红色箭头突出显示。可下载的图和与此数字相关的数据可在目录存档 Figs-X.tgz 中,该数据存档可从https://ir.library.msstate.edu/bitstream/handle/11668/19731/Tice_etal.PhyloFisher.DATA.tar.gz。图 X:正交 EOG093400WO 数据集的植物树[5]。树是用sgt_contructor推断的。py在主文本中详细说明。树是寄生虫的输出。fisher.py 算法将粗体叶名称识别为建议的正光标识。未加粗的叶名称来自作为潜在对接程序收集的序列。具有彩色背景的叶子是来自[5]数据集的序列。有问题的对接线用红色箭头突出显示,PhyloFisher 识别的更正替换由蓝色箭头突出显示。可下载的图形和与此数字相关的数据可在目录存档 Figs-X.tgz 中,该档案可从https://ir.library.msstate.edu/bitstream/handle/11668/19731/Tice_etal.PhyloFisher.DATA.tar.gz提供。图 Y:使用菲洛菲舍尔 208 数据集对糖精树进行植物学重建。使用(LG+G4+F=C60-PMSF 模型构建的 ML 树,在 IQ-TREE v1.6.7.1 =1中使用 LG+G4+F+C20 ML 树作为 PMSF 指南输入树)。构成糖精的亚包以深蓝色显示,而糖精和法福西塞的外层包则以深绿色和青色显示。除非显示其他情况,否则节点将得到最大支持 (100 MLBS)。与此数字相关的数据可在目录存档 FigY.tgz 中,该数据存档中提供来自 https://ir.library.msstate.edu/bitstream/handle/11668/19731/Tice_etal.PhyloFisher.DATA.tar.gz。ML的数据,最大可能性:MLBS,最大可能性引导支持;PMSF,后表示站点频率:RTC,相对树的确定性。
https://doi.org/10.1371/journal.pbio.3001365.s002
(文档)
确认
菲洛菲舍尔是在阿肯色州白河上与AKT、TP、D+和MWB一起钓鱼时被点名的:我们感谢帕特里克·布朗借给他的小屋我们感谢达尔豪西大学的爱德华·苏斯科教授允许我们分发课程,DIST_EST和MAMMAL与我们的菲洛菲舍尔包。我们要感谢克里斯蒂娜·特皮斯关于斯特拉门诺皮人精细分类的建议。我们也感谢乔琳·范·霍夫和尼古拉斯·弗莱担任测试员。
引用
00001. 1.莱佩 Dd, 冈德森 Jh, 内拉德塔, 索金 Ml. 小亚单位核糖核事故和追求在真核树的第一个分支。莫尔生物化学帕拉西托尔。1993;59:41–48.下午:8515782
· 查看文章
· 酒吧/国家比
· 谷歌学者
00002. 2.巴尔道夫SL,罗杰AJ,温克-西弗特一,杜利特尔WF。基于联合蛋白质数据的真核生物王国级植物学。科学。2000;290:972.下午:11062127
· 查看文章
· 酒吧/国家比
· 谷歌学者
00003. 3.布朗 Mw, 海斯 Aa, Kamikawa R, 伊纳加基 Y, 亚布基 A, 提斯 Ak, 等人植物经济学将孤儿普罗蒂斯坦血统放在一个新小说尤卡里蒂奇超级组。基因组生物埃沃尔。2018;10:427–433.下午:29360967
· 查看文章
· 酒吧/国家比
· 谷歌学者
00004. 4.斯特拉塞特 Jfh, 贾米 M, 迈尔尼科夫 Ap, 蒂霍宁科夫 Dv, 布尔基 F 。神秘的植物特洛尼米亚的新植物学分析进一步解决了真核生物生命之树。莫尔·比奥·埃沃尔2019;36:757–765.下午:30668767
· 查看文章
· 酒吧/国家比
· 谷歌学者
00005. 5.拉克斯 G, 埃格利特 Y, 埃米 L, 贝特朗 Em, 罗杰 Aj, 辛普森 Agb 。赫米马斯蒂戈波拉是一个新颖的超王国级血统的真核生物。自然界。2018;564:410–414.下午:30429611
· 查看文章
· 酒吧/国家比
· 谷歌学者
00006. 6.杨 Y ,史密斯 SA 。使用转录体和低覆盖基因组的非模型生物体的正统推论:提高植物学的准确性和矩阵占用率。莫尔·比奥·埃沃尔2014;31:3081–3092.下午:25158799
· 查看文章
· 酒吧/国家比
· 谷歌学者
00007. 7.库马尔 S、 克拉贝雷德 Ak、 诺伊曼 Rs、 米查利科娃 K、 赵 S、 张 X 等人为准备植物经济学数据而建立的 BIR 管道。埃沃尔生物信息在线。2015;11:EBO.S10189.下午:25987827医学论文发表-
· 查看文章
· 酒吧/国家比
· 谷歌学者
00008. 8.萨洛马基·埃德、特皮斯·克克斯、鲁克特S、科蒂克·M、瓦拉迪诺瓦·兹克、埃皮什卡一世等人。格雷瓜林单细胞转录显微分线粒体改造和适应在轴突。BMC比奥尔 2021;19:77.下午:33863338
· 查看文章
· 酒吧/国家比
· 谷歌学者
00009. 9.张C,拉比耶M,赛亚里E,米拉拉布S.ASTRAL-III:多面体时间物种树重建从部分解决基因树。BMC生物信息学。2018;19:153.下午:29745866
· 查看文章
· 酒吧/国家比
· 谷歌学者
00010. 10.苏斯科 E, 球场 C, 布卢因 C, 罗杰 Aj 。物理替代模型中跨站点分布率的估计。Syst 生物 2003;52:594–603.下午:14530128
· 查看文章
· 酒吧/国家比
· 谷歌学者
00011. 11.苏斯科 E , 林克 L , 罗杰 AJ 。加速估计站点-异构型混合模型中的频率类。莫尔·比奥·埃沃尔2018;35:1266–1283.下午:29688541
· 查看文章
· 酒吧/国家比
· 谷歌学者
00012. 12.斯塔马塔基斯 A. RAxml 版本 8: 植物学分析和大植物学后分析的工具。生物信息学。2014;30:1312–1313.下午:24451623
· 查看文章
· 酒吧/国家比
· 谷歌学者
00013. 13.苏斯科 E, 罗杰 · 阿杰关于减少氨基酸字母,用于植物遗传推理。莫尔·比奥·埃沃尔2007;24:2139–2150.下午:17652333
· 查看文章
· 酒吧/国家比
· 谷歌学者
00014. 14.明 Bq, 施密特哈, 切尔诺莫尔 O, 施伦普夫 D, 伍德汉姆 Md, 冯海瑟勒 A, 等人 Iq - tree 2: 基因组时代植物学推理的新模型和有效方法。莫尔·比奥·埃沃尔2020;37:1530–1534.下午:32011700
· 查看文章
· 酒吧/国家比
· 谷歌学者
00015. 15.布尔基 F, 罗杰 Aj, 布朗 Mw, 辛普森阿格布。欧卡约特的新树。趋势埃沃尔。2020;35:43–55.下午:31606140
· 查看文章
· 酒吧/国家比
· 谷歌学者
00016. 16.高利鲁克 Rmr, 蒂霍宁科夫 Dv, 赫恩贝格尔 E, 胡斯尼克 F, 梅尔尼科夫 Ap, 基林 Pj 。非光合作用的食肉动物是红藻的姐妹。自然界。2019;572:240–243.下午:31316212
· 查看文章
· 酒吧/国家比
· 谷歌学者
00017. 17.艾里萨里一号,斯特拉塞特JFH,布尔基F.植物经济学见解的主要普拉斯蒂德的起源。Syst Biol. 2021 [引用 2021 年 5 月 20 日] 。下午:33988690
· 查看文章
· 酒吧/国家比
· 谷歌学者
00018. 18.肖恩 · 梅、兹拉托古尔斯基 Vv 、辛格 · Rp 、波里尔 C 、威尔肯 S 、马图尔 V 等人。皮科佐亚是没有石膏的古石器。比奥里希夫2021:2021.04.14.439778.
· 查看文章
· 谷歌学者
00019. 19.骑士-史密斯T,赵EE,刘易斯R.多基因植物学和细胞进化的色度学家伪造Rhizaria:对比细胞组织的妹妹菲拉塞尔科佐亚和雷塔里亚。原质。2018;255:1517–1574.下午:29666938医学论文发表-
· 查看文章
· 酒吧/国家比
· 谷歌学者
00020. 10M沈 X - x , 奥普伦特达, 科米内克 J, 周 X, 斯滕维克 Jl, 布 Kv, 等等。在萌芽酵母亚植物的温度和基因组进化模式。细胞。2018;175:1533–1545.e20.下午:30415838
· 查看文章
· 酒吧/国家比
· 谷歌学者
00021. 21.西尼瓦桑 R, 索森 N, 梅德林 Lk, 梅尔科尼亚 M. 皮科莫纳斯朱德拉斯凯达将军和 sp. nov.: 皮科佐亚植物新月的第一个确定成员, 一个广泛的皮科乌卡里奥特人群体, 以前被称为 "皮科利菲特人" 。一号2013;8:e59565.下午:23555709
· 查看文章
· 酒吧/国家比
· 谷歌学者
00022. 22.肖廷 K、 托雷斯 - 桑切斯 M, 圣毛罗 D, 威尔科克森 D, 威尔金森 M, 皮萨尼 D 等人。莫尔·比奥·埃沃尔2019;36:1344–1356.下午:30903171
· 查看文章
· 酒吧/国家比
· 谷歌学者
00023. 23.傅 L 、牛 B 、朱 Z 、吴 S 、李 W. CD-HIT:加速聚类下一代测序数据。生物信息学。2012;28:3150–3152.下午:23060610
· 查看文章
· 酒吧/国家比
· 谷歌学者
00024. 24.Mistry J, 芬恩 Rd, 艾迪 Sr, 贝特曼 A, 蓬塔 M. 同源搜索的挑战: HMER3 和线圈线圈区域的融合进化。核酸 Res. 2013;41:e121– e121.下午:23598997
· 查看文章
· 酒吧/国家比
· 谷歌学者
00025. 25.布赫芬克 B ,谢 C ,胡森 DH 。使用钻石快速和敏感的蛋白质对齐。纳特方法。2015;12:59–60.下午:25402007
· 查看文章
· 酒吧/国家比
· 谷歌学者
00026. 26.卡马乔 C, 库鲁里斯 G, 阿瓦吉安 V, 马 N, 帕帕佐普洛斯 J, 比勒 K, 等等。BMC生物信息学。2009;10:421.下午:20003500
· 查看文章
· 酒吧/国家比
· 谷歌学者
00027. 27.陈 F , 麦基 AJ , 小斯托克特 CJ ,罗斯 DS 。正牙-DB:查询正牙组的综合多物种集合。核酸 Res. 2006;34:D363– D368.下午:16381887
· 查看文章
· 酒吧/国家比
· 谷歌学者
00028. 28.Katoh K, 斯坦德利 Dm. Mafft 多序列对齐软件版本 7: 性能和可用性的改进。莫尔·比奥·埃沃尔2013;30:772–780.下午:23329690
· 查看文章
· 酒吧/国家比
· 谷歌学者
00029. 29.卡佩拉-古铁雷斯 S、西拉-马丁内斯 JM、加巴尔丹 T. trimAl:大规模植物学分析中自动对齐修剪的工具。生物信息学。2009;25:1972–1973.下午:19505945
· 查看文章
· 酒吧/国家比
· 谷歌学者
00030. 30.价格MN,德哈尔PS,阿金AP.快速树2-大约最大可能性树为大对齐。一号2010;5:1–10.下午:20224823
· 查看文章
· 酒吧/国家比
· 谷歌学者
00031. 31.韦尔塔-塞帕斯 J、 塞拉 F、博克 P. ETE 3:植物学数据的重建、分析和可视化。莫尔·比奥·埃沃尔2016;33:1635–1638.下午:26921390
· 查看文章
· 酒吧/国家比医学论文发表-
· 谷歌学者
00032. 32.惠兰 S, 艾里萨里一号, 布尔基 F. 普雷夸尔: 在一组未对齐的同源序列中检测非同源字符。生物信息学。2018;34:3929–3930.下午:29868763
· 查看文章
· 酒吧/国家比
· 谷歌学者
00033. 33.阿里 Rh, 博古斯 M, 惠兰 S. 识别高信心同源集群在多个序列对齐。莫尔·比奥尔·埃沃尔 2019:36:2340–2351.下午:31209473
· 查看文章
· 酒吧/国家比
· 谷歌学者
00034. 34.克里斯库洛A,格里巴尔多S.BMGE(块映射和收集熵):一个新的软件,从多个序列对齐选择植物遗传信息区域。BMC 埃沃尔·比奥尔 2010;10:210.下午:20626897
· 查看文章
· 酒吧/国家比
· 谷歌学者
00035. 35.宋 L, 弗洛雷亚 L. Rcorrector: 高效和准确的错误校正为伊卢米纳 RNA-seq 读取。千兆科学。2015;4.下午:26500767
· 查看文章
· 酒吧/国家比
· 谷歌学者
00036. 36.博尔格 AM, 洛塞 M, 乌萨德尔 B. 修剪: 照明序列数据的灵活修剪器。生物信息学。2014;30.下午:24695404
· 查看文章
· 酒吧/国家比
· 谷歌学者
00037. 37.提斯 · 阿克、沙德威克 · 勒、菲奥雷 - 唐诺 · 阿姆、盖森 S 、康 S 、舒勒 · 加等人。扩大阿坎塔莫比代(森特拉莫比达,阿米博佐亚)的分子和形态多样性,并识别群体内的新生命周期类型。生物直接。2016;11:69.下午:28031045
· 查看文章
· 酒吧/国家比
· 谷歌学者
00038. 38.王 H - c , 明 BQ , 苏斯科 E , 罗杰 AJ 。建模网站异质性与后平均站点频率配置文件加速精确的植物经济学估计。Syst 生物。 2017;67:216–235.下午:28950365
· 查看文章
· 酒吧/国家比
· 谷歌学者