自动发现与特定天然产物亚结构相关的生物合成子簇
乔里斯·萨特里亚·考特萨尔,斯文·范德伯格,马尼克斯·贾斯汀·范德胡夫特
发布时间:9 年 2023 月
抽象
微生物专用代谢充满了有价值的天然产物,这些产物在临床、农业和工业上得到应用。编码其生物合成的基因通常在生物合成基因簇(BGC)的基因组上物理聚集。许多BGC由多组共同进化的基因组成,称为亚簇,负责天然产物中特定化学部分的生物合成。因此,子簇在天然产物的结构与其BGC之间提供了重要的联系,可用于从序列预测天然产物结构,以及将化学结构和代谢组学衍生的质量特征与BGC联系起来。虽然已经为子集群检测设计了一些初始计算方法,但目前的方法不可扩展,仅在小型和过时的数据集上运行,或者产生大量不切实际的可能子集群进行挖掘。在这里,我们构建了一种可扩展的无监督子簇检测方法,称为iPRESTO,基于酶编码蛋白家族共生模式的主题建模和统计分析。iPRESTO用于从antiSMASH-DB中挖掘150,000个原核BGC的子簇。在注释了所得子簇家族的一小部分后,我们可以预测16%的AntiSMASH-DB BGC的子结构。 此外,我们的方法能够确认MIBiG参考BGC中83%的实验表征子簇。 基于iPRESTO检测到的子簇,我们可以正确识别异种哈布丁和沙泊他汀生物合成的BGC(尚未在BGC数据库中注释), 以及提出用于阿卡辛生物合成的候选BGC。此外,我们还展示了145种放线菌的集合,亚结构如何通过将iPRESTO检测到的子簇与MS / MS衍生的Mass2Motifs亚结构模式相关联来帮助将BGC与分子联系起来。这项工作通过改进孤儿分子与其同源基因簇的连接,为微生物BGC的更深入的功能和结构注释铺平了道路,从而促进了加速天然产物的发现。
作者摘要
在这项工作中,我们介绍了iPRESTO,这是一种用于生物合成基因簇中可扩展的无监督亚簇预测的工具。这种计算基因组学工具的开发很重要,因为这些生物合成热点编码了许多对人类有用的产品,例如抗生素、抗肿瘤剂或除草剂。最近的技术发展使检测基因组中的生物合成位点变得简单明了。然而,将这些推断的生物合成基因与其同源代谢物的最终化学结构联系起来的方法在很大程度上是缺乏的。能够可靠地预测最终产品的部分,将通过综合组学挖掘在天然产物基因组挖掘方面向前迈出真正的一步。因此,我们专注于构建一种工具来系统地预测和注释称为子簇的小区域,这些子簇编码最终产品中亚结构的生物合成,跨越所有基因组推断的生物合成多样性。iPRESTO现在可以查询未知的生物合成区域,并推断其代谢产物中存在哪些亚结构。这将有助于更有效地确定化学新颖性的优先级,并将生物测定和微生物组相关表型的活动与负责它们的代谢物联系起来。
引文: Louwen JJR,Kautsar SA,van der Burg S,Medema MH,van der Hooft JJJ (2023) iPRESTO:自动发现与特定天然产物亚结构相关的生物合成子簇。公共科学图书馆计算生物学19(2): e1010462. https://doi.org/10.1371/journal.pcbi.1010462
编辑 器: 海梅·韦尔塔·塞帕斯,CSIC:西班牙高级调查委员会
收到: 4月 2022, 24;接受: 2023月 9, 2023;发表: <>月 <>, <>
版权所有: ? 2023 Louwen 等人。这是一篇根据知识共享署名许可条款分发的开放获取文章,该许可允许在任何媒体上不受限制地使用、分发和复制,前提是注明原作者和来源。
数据可用性: 所有相关数据都在论文、其支持信息文件以及 Zenodo 的 https://doi.org/10.5281/zenodo.6953657 中。所有代码均可在 https://git.wageningenur.nl/bioinformatics/iPRESTO/ 获得。
资金: JJRL,MHM和JJJvdH感谢荷兰电子科学中心的财政支持(ASDI电子科学资助,ASDI.2017.030,以及开放电子科学电话,NLESC。OEC.2021.002)。 JJRL从荷兰电子科学中心获得了薪水(ASDI电子科学资助,ASDI.2017.030)。我们注意到,SvdB(荷兰电子科学中心)根据他对软件实施和验证的个人观点提供建议。因此,资助者在研究设计、数据收集和分析、发表决定或手稿准备方面没有任何作用。
竞争利益: 我们已经阅读了该期刊的政策,本手稿的作者有以下竞争利益: M.H.M.是Hexagon Bio的科学顾问委员会成员,也是Design Pharmaceuticals的联合创始人。JJJvdH是意大利米兰NAICONS Srl.科学顾问委员会的成员。所有其他作者都声明不存在竞争利益。
这是一篇PLOS计算生物学软件论文。
介绍
细菌代谢的相当一部分致力于特殊代谢物的生物合成。这些天然产物(NPs)作为药物、作物保护剂以及食品和化妆品成分有许多用途[1,2]。NPs由一系列不同的化学类别组成,这些化学类别的结构通常非常复杂[3]。有趣的是,NPs生物合成所需的基因在生物合成基因簇(BGC)中物理聚集在一起[4]。新的BGC的搜索和发现加速了新NPs的鉴定,这在抗生素领域尤为重要,因为抗生素耐药细菌正变得越来越普遍[5]。
由于基因组数据的可用性日益增加,基因组挖掘方法对于NP发现变得越来越有用。目前,存在多种算法来挖掘细菌基因组以获取假定的BGC,例如antiSMASH,ClusterFinder和PRISM [6-8]。这些方法有助于更好地了解BGC多样性以及控制BGC多样性的进化机制。
许多类别的 BGC 都采用模块化架构 [4]。因此,BGC可以分为多个模块或子簇,其中每个亚簇是一组共同进化的基因,负责NP中特定化学部分的生物合成[4,9,10]。因此,子簇在NP的子结构与其BGC之间提供了直接联系。这使得有关子簇及其合成的子结构的信息对于基于基因组的结构预测非常有价值,这对于antiSMASH等工具来说将是一笔巨大的资产。除了增强对现有BGC类别的结构预测外,子集群知识还有助于预测当前未分类BGC的新颖(部分)结构,例如AntiSMASH-DB中具有未知产物的数千个未分类BGC [11]。
此外,BGC模块化为将代谢组学实验与子集群数据联系起来提供了绝佳的机会。作为MS引导的基因组挖掘策略的一部分,从质谱(MS)数据片段中鉴定出的化学部分可以与负责其合成的亚簇相关联[10,12,13]。子结构建模的最新进展[14]可以通过自动从MS / MS数据中识别子结构来帮助这种基于共生的代谢基因组学方法[15]。
最近,Del Carratore等人[10]介绍了一种预测BGC中子簇的初始方法。通过构建直系同源组(COG)簇并使用统计方法将共存的COG分组到子簇中,他们能够检测到几个实验表征的子簇,并发现新的子簇。然而,由于需要全爆破计算,COG 结构的可扩展性不高。因此,他们的分析是在相对较小的数据集上进行的,该数据集现在已经有近十年的历史了,并且所选择的方法很难扩展到近年来可用的大量基因组数据。此外,拟议的统计方法大大高估了子组的数量。这是由于冗余 BGC 的存在,这会导致人工子集群跨越整个 BGC,并且是由子集群固有的嵌套结构引起的,其中更小、不太具体的子集群包含在更大、更具体的子集群中。除了(人为地)夸大子簇的数量外,由于生物子簇的嵌套组合,嵌套结构还使得找到实际具有生物学意义的子簇变得更加困难。
在这里,我们提出了一种改进的可扩展方法,用于无监督子簇预测,我们称之为生物合成子簇的集成预测和严格探索工具(iPRESTO)。iPRESTO可扩展到大型数据集,并通过以更高级的方式过滤输入来考虑系统发育偏差。为了预测子集群,iPRESTO使用统计方法(PRESTO-STAT)以及主题建模算法(PRESTO-TOP)。PRESTO-STAT使用与Del Carratore等人[10]的方法相同的方法,以基于在BGC集合中以统计学显着方式共同出现的基因来查找子簇。我们通过删除部分嵌套子集群并将类似的子集群折叠成家族和氏族来进一步发展该方法。PRESTO-TOP是一种基于潜在狄利克雷分配(LDA)的子簇预测新方法,该方法从BGC集合中学习一组子簇基序。作为数据源,我们使用了antiSMASH-DB,这是目前存在的最大的BGC集合之一,并且已经仔细检查了潜在的基因组组装质量[11];它包含来自近150,000种细菌物种的25,000多个BGC,以减少分类偏差。与以前的方法相比,这些数字有了相当大的改进,因为它包含的BGC数量是以前的十倍以上,同时冗余更少。在将iPRESTO应用于这个庞大的BGC集合后,我们能够根据MIBiG参考BGC数据库中已知BGC中的出现来注释45个子簇基序[16]。使用这些带注释的子簇基序,我们放大了相关的子簇,并通过正确预测异种哈布丁和沙泊他汀生物合成的BGC(已发表但在BGC数据库中缺失)并确定用于akashin生物合成的候选BGC,证明了我们方法的直接有用性。最后,作为BGCs与其NPs自动连接的起点,我们能够在145个放线菌的配对基因组-代谢组数据集中使用代谢基因组相关方法系统地将亚簇连接到亚结构。
iPRESTO在 https://git.wageningenur.nl/bioinformatics/iPRESTO/ 上可用作命令行工具。我们预计iPRESTO在基因组挖掘社区的主要用途是将BGC查询到我们提供的带注释的子簇基序,并在此过程中预测这些BGC的生物合成产物中的一个或多个子结构。为了使我们当前的分析最有用,我们提供了带注释的子簇以及其余未注释的子簇以及与其相关的BGC的生物合成类别和分类分配等信息,以便可以继续探索它们。使用新的训练数据,当然也可以使用iPRESTO生成新的子集群模型。
结果和讨论
iPRESTO概述
iPRESTO通过将BGC中的每个基因标记为Pfam结构域的组合来准备每个BGC进行子簇预测(图1和S1图)。如果一对蛋白质共享相同的Pfam结构域,则可以有效指示(至少是遥远的)序列相似性,而Pfam检测具有高度可扩展性。由于Pfams是相当广泛的序列模型(与使用COG相比,这将是一个主要缺点),我们通过将112个最丰富的生物合成Pfams分成许多子Pfam来提高分辨率,类似于BiG-SLICE中的实现[17]。每个子Pfams构成一个较窄的域模型,该模型覆盖了Pfam序列空间的子集。我们只考虑生物合成域(参见方法)来限制搜索空间,只关注寻找生物合成子簇。通过基于图形的过滤步骤,删除冗余的BGC,之后iPRESTO使用PRESTO-STAT和PRESTO-TOP预测子集群。PRESTO-STAT基于先前发表的统计方法[10],我们通过部分删除嵌套的子集群,将相似的子集群折叠成家族,并将相似的家族加入氏族来扩展该方法。
缩略图 下载:
.PPT幻灯片
.PNG大图
.TIFF原始图像
图1. 用于预测子集群的 iPRESTO 工作流程概述。
BGC中的所有基因都被转换为Pfam结构域串,然后根据结构域的邻接指数过滤掉多余的BGC。使用两种方法预测子聚类:PRESTO-TOP (TOP) 和 PRESTO-STAT (STAT)。来自MIBiG数据库的BGC用于注释具有子结构的假定子集群。这些注释用于预测未知 BGC 中的子结构。
https://doi.org/10.1371/journal.pcbi.1010462.g001
为了使用不产生嵌套子簇的方法扩展发现子簇的工具箱,我们引入了PRESTO-TOP作为子簇预测的新方法。PRESTO-TOP建立在潜在狄利克雷分配(LDA)之上,LDA用于对文本文档中的主题进行建模。LDA之前已经成功地用于基因组和代谢组数据分析[14,18]。在PRESTO-TOP的情况下,文本文档是BGC,单词是表示为域组合的基因,主题可以被认为是子簇基序。这使得使用PRESTO-TOP进行子簇预测变得直观,因为我们假设BGC是多个不同子簇的组合,这些子簇由在多个BGC中共同发生的共同进化基因组成。PRESTO-TOP的另一个好处是,一个主题或亚簇基序通常由一组核心基因组成,这些核心基因编码酶以合成亚结构的基础,而可以在PRESTO-STAT预测(嵌套)子簇中找到其他修饰基因的各种组合。通过这种方式,两种iPRESTO方法可以通过识别子簇核心及其变体来共同捕获子结构多样性。
两种方法的子簇都可以用子结构进行注释,随后用于预测BGC中的子结构。 iPRESTO很容易用作命令行工具,供任何想要在自己的数据集中预测子集群的人使用,方法是将BGC查询到我们在本研究中预测和部分注释的子集群集合。也可以使用 iPRESTO 使用新的训练数据从头开始预测新的子集群模型。iPRESTO 可以处理大量 BGC:在 AntiSMASH-DB 数据集中使用 150 个 CPU 内核,在 AntiSMASH-DB 数据集中的 000,48 个 BGC 中进行标记化和减少冗余大约需要 32 小时。使用 PRESTO-STAT 和 PRESTO-TOP 预测子集群分别在 5 小时和 2670 小时内完成。iPRESTO每分钟可以查询大约3个BGC,以查询本研究中预测的子集群,包括标记化步骤。iPRESTO还包含一个可视化模块,用于可视化将BGC查询到PRESTO-STAT或PRESTO-TOP输出的结果(有关查询利福霉素BGC的示例,请参见S24图)。
PRESTO-STAT提高了现有统计方法的可理解性
我们将iPRESTO应用于antiSMASH-DB v2数据集,该数据集在预处理后包含60,028个BGC和10,539个域组合(S1文本中的表A)。使用PRESTO-STAT方法,我们在数据集中发现了108,085个子聚类。超过80%的统计子簇包含少于17个基因,10%的子簇出现在3个以上的BGC中(S10图)。当将PRESTO-STAT与Del Carratore等人[1]的先前版本的方法进行比较时,我们观察到PRESTO-STAT平均每个BGC产生大约两个子簇,而以前的方法导致每个BGC大约产生十四个子簇。这表明我们最终得到的嵌套子集群结构更少,这很可能是由于我们的扩展冗余过滤删除了几乎一半的数据集(S2 文本中的表 A)。即便如此,嵌套结构在我们的结果中仍然非常明显(S30图)。例如,数以千计的BGC有4多个子集群,其中许多子集群彼此重叠(S<>A图)。嵌套结构不仅夸大了结果,而且还具有额外的缺点,即它们的存在使得将BGC与相似但不同的子集群连接起来变得更加困难。
为了便于子聚类分析,我们将统计子簇聚类聚类为 10,000 个子簇族 (SCF),将 SCF 聚类聚类为 2,000 个子簇族 (SCC),从而连接了相关的子聚类。我们使用K均值聚类,并将统计子聚类表示为标记化基因的存在/不存在矩阵。尽管一些SCC将看似无关的亚簇分组在一起,这些亚簇仅共享一个基因(基于具有相同的Pfam结构域内容),但大多数SCCs(81%)提供了相关的子簇组,共享至少三个基因。
除了嵌套结构之外,统计方法还产生了许多子簇,其中只有一小部分可能提供有意义的信息。PRESTO-STAT结果可能非常嘈杂的事实说明了这一点:在一组共享多个子集群的BGC中,这些共享子集群的所有组合都可能形成新的子集群,这种情况经常发生(S2图)。此外,使用统计子聚类查询 BGC 会很快变得非常耗时,同时还允许不精确匹配。
PRESTO-TOP识别特征和新颖的亚簇
PRESTO-STAT的缺点为我们选择开发PRESTO-TOP提供了一个明确的原因,它可以在BGC中找到多个子簇,并且能够在子簇基序中捕获子簇多样性。此外,构建PRESTO-TOP的LDA允许以可扩展的方式构建和查询子集群基序。
我们使用PRESTO-TOP在具有1,000个子簇基元的antiSMASH-DB数据集上训练和查询模型。在“方法”部分中,我们提供有关使用的(超)参数和所选设置的推理的信息。数据集中超过80%的BGC包含至少一个子簇基序(S4B图)。为了评估亚簇基序的质量,我们单独可视化了所有亚簇,其中每个亚簇是一组与亚簇基序匹配的基因(图2A)。为了使亚簇有趣,我们预计其大小在2-12个基因之间,因为实验表征的子簇属于这个范围[19]。在检查我们的结果后,存在于相当数量的BGC中的大多数子簇都在这个预期的大小范围内(图2A),而一些子簇则没有信息,因为它们包含(几乎)整个BGC(图2B)。为了验证子簇基序,我们评估了是否可以检测到一组109个经过实验验证的子簇,这些子簇存储在antiSMASH框架内的SubClusterBlast模块中。来自PRESTO-TOP的亚簇基序与91个(83%)验证的子簇相匹配,其中麦贝星的甲氧基丙二酸和AHBA亚簇作为示例(图2C)。此外,PRESTO-STAT能够检测到78个经过验证的子簇,其中75个与子簇基序重叠(S5图)。通常,我们看到PRESTO-TOP生成的子集群数据数量更有限,与PRESTO-STAT相比,这些子集群在绝对数量上可能包含意义较小的子集群,但有效子集群信息的比率要高得多。
缩略图 下载:
.PPT幻灯片
.PNG大图
.TIFF原始图像
图2. BGC 长度与子群集长度。
(a) antiSMASH-DB 数据集中每个 BGC(非空基因数)长度与主题或子簇基序匹配长度的散点图,代表子簇。每个点的颜色表示具有特定长度的 BGC 包含具有特定长度的子簇的次数。(b) 西潘霉素的BGC,其中已确定的子集群包括整个BGC,结果无信息。(c)马贝星的BGC,其中AHBA(红色)和甲氧基丙二酰(蓝色)的两个特征亚簇在麦贝星的结构中突出显示[20]。(b)和(c)中的子集群链接到它们在(a)中的相应位置。
https://doi.org/10.1371/journal.pcbi.1010462.g002
我们的结果提供了捕获亚簇多样性的亚簇基序的清晰示例,其中包含一组负责合成亚结构基础的核心基因,以及一组可能不存在于所有亚簇中的修饰基因。例如,像糖相关子簇基序680这样的基序存在于代表不同生物合成类别的134个MIBiG BGC中,例如不同类型的聚酮合酶和非核糖体肽合成酶。该基序编码不同(二)脱氧糖的生物合成,这些糖有时被氨基或甲基氨基修饰。然而,对于一些亚簇基序,生物合成背景对基序的形成有影响。例如,与糖相关的亚簇基序207包含几个吲哚咔唑生物合成基因,因为与该基序匹配的一些MIBiG BGC编码吲哚咔唑的产生,并且一些吲哚咔唑相关基因最终作为弱特征出现在该基序中。
探索子集群主题
在antiSMASH SubClusterBlast模块中已识别的90个特征子簇中,我们可以很容易地注释23个子簇基序,涵盖大约4,000个PRESTO-TOP预测的子簇。为了扩展存储在SubClusterBlast模块中的子集群知识,我们注释了另外22个PRESTO-TOP预测的子集群主题,这些子集群实例在MIBiG BGC中被发现。 这45个注释共同构成了24种不同类型的子结构,具有不同的细节层次,使我们能够更深入地探索发现的子集群(图3和S1文件).在非冗余反SMASH-DB数据集中,大约9,500个(16%)推定BGC包含至少一个这些带注释的子簇基序。通过iPRESTO,我们现在获得了有关这些假定BGC的相关知识,我们可以用来预测它们编码的产品的部分结构。
缩略图 下载:
.PPT幻灯片
.PNG大图
.TIFF原始图像
图3. 子群集主题注释。
饼图可视化了 45 个子集群主题的注释,这些主题分为一般子结构组,其中显示了多个组的示例子结构。此外,在凋亡素、钝蛋白、氟维霉素b2和吡嘧霉素1a的结构中显示了八个子结构的示例,其中子结构的颜色对应于饼图中的子簇基序注释。对于这四种代谢物,它们各自的BGC显示,其中子簇基序以与它们编码的亚结构相同的颜色突出显示。
https://doi.org/10.1371/journal.pcbi.1010462.g003
平均而言,注释的子簇基序出现在239个非冗余BGC中,范围从子簇基序19的190个BGC到子簇基序873的220个BGC,分别编码卡普唑和二羟基苯甲酸部分的生物合成(S6图)。一些带注释的子簇基序主要存在于一个BGC类中,而其他基序则出现在不同的BGC类中(S6和S7图)。后者的一个例子是亚簇基序773,它发生在153个BGC中,主要编码非核糖体肽合成酶和I型聚酮合酶。该亚簇基序编码3-氨基-2-甲基丙酰基起始单元的产生,该起始单元出现在已知的基因簇BGC0001597(氟维鲁辛b2)中(图3)。有趣的是,该基序也出现在一些“其他”类的BGC中,这意味着它们不能被抗SMASH分类,例如来自白色杏仁瘤DSM 44262(NZ_KB913032.1.cluster021;AMYAL_RS0129245—AMYAL_RS0129610)和缓根瘤菌属。EC3.3 (NZ_AXAS01000001.集群006;YUU_RS0100020—YUU_RS49645)。这不仅为这些具有以前未知结构预测的BGC提供了有趣的线索,而且还增加了它们的有效性。总的来说,在AntiSMASH-DB中的6,5个“其他”类BGC中,有10.000%包含一个带注释的子簇基序。
iPRESTO可以通过亚簇存在鉴定孤儿代谢物的BGC
有关BGC中存在的子簇的信息不仅可用于预测BGC的产物,而且还可用作识别BGC中“孤儿”已知代谢物的工具。为了证明这一点,我们搜索了NPAtlas [21],其中包含由我们注释的子簇基序编码的子结构,并寻找在antiSMASH-DB数据集中的一种菌株中发现的不含MIBiG BGC的代谢物。我们首先搜索了含有二硫代吡咯酮亚结构的代谢物,其生物合成由亚簇基序517编码,基于编码硫马林醇、全息霉素和硫鲁丁的MIBiG BGCs进行注释[22-24]。在此过程中,我们发现了Xenorhabdins 1-6,由许多Xenorhabdus菌株产生,这些菌株也存在于抗SMASH-DB中[25]。通过在那些含有与二硫代吡咯酮亚簇基序匹配的菌株中搜索BGC,我们发现了12个含有这种BGC的Xenorhabdus菌株(图4)。在其中一个菌株中,X.最近报道了用于异种生物合成的BGC,证实了我们基于iPRESTO预测的亚簇准确鉴定了用于异种生物合成的BGC[26]。接下来,我们在NPAtlas中搜索了有效霉素和吡拉莫辛中存在缬氨酸部分的代谢物,该部分由亚簇基序940编码[27,28]。因此,我们在数据集中发现了由白斑链霉菌ATCC 21838产生的沙硼他汀[29]。通过研究该菌株中的BGC,我们确定了含有亚簇基序940的BGC,因此应负责沙泊他汀的生物合成(图4)。事实上,事实证明,这种BGC在2008年就已经被描述为编码沙硼他汀的产生[30],但MIBiG数据库中一直缺乏它[16]。这种编码C7-环醇样亚结构的缬莲醇亚簇基序是可以在不同生物合成环境中找到的亚簇基序的一个有趣例子,i。例如,PKS-NRPS样吡嘧啶和不同种类的糖类,如有效霉素和沙泊他汀。该分析强调,iPRESTO允许识别BGC和已发表但在公共BGC数据库中尚未丢失的分子之间的正确链接(因此可以添加到这些资源中)。
微生物专用代谢充满了有价值的天然产物,这些产物在临床、农业和工业上得到应用。编码其生物合成的基因通常在生物合成基因簇(BGC)的基因组上物理聚集。许多BGC由多组共同进化的基因组成,称为亚簇,负责天然产物中特定化学部分的生物合成。因此,子簇在天然产物的结构与其BGC之间提供了重要的联系,可用于从序列预测天然产物结构,以及将化学结构和代谢组学衍生的质量特征与BGC联系起来。虽然已经为子集群检测设计了一些初始计算方法,但目前的方法不可扩展,仅在小型和过时的数据集上运行,或者产生大量不切实际的可能子集群进行挖掘。在这里,我们构建了一种可扩展的无监督子簇检测方法,称为iPRESTO,基于酶编码蛋白家族共生模式的主题建模和统计分析。iPRESTO用于从antiSMASH-DB中挖掘150,000个原核BGC的子簇。在注释了所得子簇家族的一小部分后,我们可以预测16%的AntiSMASH-DB BGC的子结构。 此外,我们的方法能够确认MIBiG参考BGC中83%的实验表征子簇。 基于iPRESTO检测到的子簇,我们可以正确识别异种哈布丁和沙泊他汀生物合成的BGC(尚未在BGC数据库中注释), 以及提出用于阿卡辛生物合成的候选BGC。此外,我们还展示了145种放线菌的集合,亚结构如何通过将iPRESTO检测到的子簇与MS / MS衍生的Mass2Motifs亚结构模式相关联来帮助将BGC与分子联系起来。这项工作通过改进孤儿分子与其同源基因簇的连接,为微生物BGC的更深入的功能和结构注释铺平了道路,从而促进了加速天然产物的发现。
作者摘要
在这项工作中,我们介绍了iPRESTO,这是一种用于生物合成基因簇中可扩展的无监督亚簇预测的工具。这种计算基因组学工具的开发很重要,因为这些生物合成热点编码了许多对人类有用的产品,例如抗生素、抗肿瘤剂或除草剂。最近的技术发展使检测基因组中的生物合成位点变得简单明了。然而,将这些推断的生物合成基因与其同源代谢物的最终化学结构联系起来的方法在很大程度上是缺乏的。能够可靠地预测最终产品的部分,将通过综合组学挖掘在天然产物基因组挖掘方面向前迈出真正的一步。因此,我们专注于构建一种工具来系统地预测和注释称为子簇的小区域,这些子簇编码最终产品中亚结构的生物合成,跨越所有基因组推断的生物合成多样性。iPRESTO现在可以查询未知的生物合成区域,并推断其代谢产物中存在哪些亚结构。这将有助于更有效地确定化学新颖性的优先级,并将生物测定和微生物组相关表型的活动与负责它们的代谢物联系起来。
引文: Louwen JJR,Kautsar SA,van der Burg S,Medema MH,van der Hooft JJJ (2023) iPRESTO:自动发现与特定天然产物亚结构相关的生物合成子簇。公共科学图书馆计算生物学19(2): e1010462. https://doi.org/10.1371/journal.pcbi.1010462
编辑 器: 海梅·韦尔塔·塞帕斯,CSIC:西班牙高级调查委员会
收到: 4月 2022, 24;接受: 2023月 9, 2023;发表: <>月 <>, <>
版权所有: ? 2023 Louwen 等人。这是一篇根据知识共享署名许可条款分发的开放获取文章,该许可允许在任何媒体上不受限制地使用、分发和复制,前提是注明原作者和来源。
数据可用性: 所有相关数据都在论文、其支持信息文件以及 Zenodo 的 https://doi.org/10.5281/zenodo.6953657 中。所有代码均可在 https://git.wageningenur.nl/bioinformatics/iPRESTO/ 获得。
资金: JJRL,MHM和JJJvdH感谢荷兰电子科学中心的财政支持(ASDI电子科学资助,ASDI.2017.030,以及开放电子科学电话,NLESC。OEC.2021.002)。 JJRL从荷兰电子科学中心获得了薪水(ASDI电子科学资助,ASDI.2017.030)。我们注意到,SvdB(荷兰电子科学中心)根据他对软件实施和验证的个人观点提供建议。因此,资助者在研究设计、数据收集和分析、发表决定或手稿准备方面没有任何作用。
竞争利益: 我们已经阅读了该期刊的政策,本手稿的作者有以下竞争利益: M.H.M.是Hexagon Bio的科学顾问委员会成员,也是Design Pharmaceuticals的联合创始人。JJJvdH是意大利米兰NAICONS Srl.科学顾问委员会的成员。所有其他作者都声明不存在竞争利益。
这是一篇PLOS计算生物学软件论文。
介绍
细菌代谢的相当一部分致力于特殊代谢物的生物合成。这些天然产物(NPs)作为药物、作物保护剂以及食品和化妆品成分有许多用途[1,2]。NPs由一系列不同的化学类别组成,这些化学类别的结构通常非常复杂[3]。有趣的是,NPs生物合成所需的基因在生物合成基因簇(BGC)中物理聚集在一起[4]。新的BGC的搜索和发现加速了新NPs的鉴定,这在抗生素领域尤为重要,因为抗生素耐药细菌正变得越来越普遍[5]。
由于基因组数据的可用性日益增加,基因组挖掘方法对于NP发现变得越来越有用。目前,存在多种算法来挖掘细菌基因组以获取假定的BGC,例如antiSMASH,ClusterFinder和PRISM [6-8]。这些方法有助于更好地了解BGC多样性以及控制BGC多样性的进化机制。
许多类别的 BGC 都采用模块化架构 [4]。因此,BGC可以分为多个模块或子簇,其中每个亚簇是一组共同进化的基因,负责NP中特定化学部分的生物合成[4,9,10]。因此,子簇在NP的子结构与其BGC之间提供了直接联系。这使得有关子簇及其合成的子结构的信息对于基于基因组的结构预测非常有价值,这对于antiSMASH等工具来说将是一笔巨大的资产。除了增强对现有BGC类别的结构预测外,子集群知识还有助于预测当前未分类BGC的新颖(部分)结构,例如AntiSMASH-DB中具有未知产物的数千个未分类BGC [11]。
此外,BGC模块化为将代谢组学实验与子集群数据联系起来提供了绝佳的机会。作为MS引导的基因组挖掘策略的一部分,从质谱(MS)数据片段中鉴定出的化学部分可以与负责其合成的亚簇相关联[10,12,13]。子结构建模的最新进展[14]可以通过自动从MS / MS数据中识别子结构来帮助这种基于共生的代谢基因组学方法[15]。
最近,Del Carratore等人[10]介绍了一种预测BGC中子簇的初始方法。通过构建直系同源组(COG)簇并使用统计方法将共存的COG分组到子簇中,他们能够检测到几个实验表征的子簇,并发现新的子簇。然而,由于需要全爆破计算,COG 结构的可扩展性不高。因此,他们的分析是在相对较小的数据集上进行的,该数据集现在已经有近十年的历史了,并且所选择的方法很难扩展到近年来可用的大量基因组数据。此外,拟议的统计方法大大高估了子组的数量。这是由于冗余 BGC 的存在,这会导致人工子集群跨越整个 BGC,并且是由子集群固有的嵌套结构引起的,其中更小、不太具体的子集群包含在更大、更具体的子集群中。除了(人为地)夸大子簇的数量外,由于生物子簇的嵌套组合,嵌套结构还使得找到实际具有生物学意义的子簇变得更加困难。
在这里,我们提出了一种改进的可扩展方法,用于无监督子簇预测,我们称之为生物合成子簇的集成预测和严格探索工具(iPRESTO)。iPRESTO可扩展到大型数据集,并通过以更高级的方式过滤输入来考虑系统发育偏差。为了预测子集群,iPRESTO使用统计方法(PRESTO-STAT)以及主题建模算法(PRESTO-TOP)。PRESTO-STAT使用与Del Carratore等人[10]的方法相同的方法,以基于在BGC集合中以统计学显着方式共同出现的基因来查找子簇。我们通过删除部分嵌套子集群并将类似的子集群折叠成家族和氏族来进一步发展该方法。PRESTO-TOP是一种基于潜在狄利克雷分配(LDA)的子簇预测新方法,该方法从BGC集合中学习一组子簇基序。作为数据源,我们使用了antiSMASH-DB,这是目前存在的最大的BGC集合之一,并且已经仔细检查了潜在的基因组组装质量[11];它包含来自近150,000种细菌物种的25,000多个BGC,以减少分类偏差。与以前的方法相比,这些数字有了相当大的改进,因为它包含的BGC数量是以前的十倍以上,同时冗余更少。在将iPRESTO应用于这个庞大的BGC集合后,我们能够根据MIBiG参考BGC数据库中已知BGC中的出现来注释45个子簇基序[16]。使用这些带注释的子簇基序,我们放大了相关的子簇,并通过正确预测异种哈布丁和沙泊他汀生物合成的BGC(已发表但在BGC数据库中缺失)并确定用于akashin生物合成的候选BGC,证明了我们方法的直接有用性。最后,作为BGCs与其NPs自动连接的起点,我们能够在145个放线菌的配对基因组-代谢组数据集中使用代谢基因组相关方法系统地将亚簇连接到亚结构。
iPRESTO在 https://git.wageningenur.nl/bioinformatics/iPRESTO/ 上可用作命令行工具。我们预计iPRESTO在基因组挖掘社区的主要用途是将BGC查询到我们提供的带注释的子簇基序,并在此过程中预测这些BGC的生物合成产物中的一个或多个子结构。为了使我们当前的分析最有用,我们提供了带注释的子簇以及其余未注释的子簇以及与其相关的BGC的生物合成类别和分类分配等信息,以便可以继续探索它们。使用新的训练数据,当然也可以使用iPRESTO生成新的子集群模型。
结果和讨论
iPRESTO概述
iPRESTO通过将BGC中的每个基因标记为Pfam结构域的组合来准备每个BGC进行子簇预测(图1和S1图)。如果一对蛋白质共享相同的Pfam结构域,则可以有效指示(至少是遥远的)序列相似性,而Pfam检测具有高度可扩展性。由于Pfams是相当广泛的序列模型(与使用COG相比,这将是一个主要缺点),我们通过将112个最丰富的生物合成Pfams分成许多子Pfam来提高分辨率,类似于BiG-SLICE中的实现[17]。每个子Pfams构成一个较窄的域模型,该模型覆盖了Pfam序列空间的子集。我们只考虑生物合成域(参见方法)来限制搜索空间,只关注寻找生物合成子簇。通过基于图形的过滤步骤,删除冗余的BGC,之后iPRESTO使用PRESTO-STAT和PRESTO-TOP预测子集群。PRESTO-STAT基于先前发表的统计方法[10],我们通过部分删除嵌套的子集群,将相似的子集群折叠成家族,并将相似的家族加入氏族来扩展该方法。
缩略图 下载:
.PPT幻灯片
.PNG大图
.TIFF原始图像
图1. 用于预测子集群的 iPRESTO 工作流程概述。
BGC中的所有基因都被转换为Pfam结构域串,然后根据结构域的邻接指数过滤掉多余的BGC。使用两种方法预测子聚类:PRESTO-TOP (TOP) 和 PRESTO-STAT (STAT)。来自MIBiG数据库的BGC用于注释具有子结构的假定子集群。这些注释用于预测未知 BGC 中的子结构。
https://doi.org/10.1371/journal.pcbi.1010462.g001
为了使用不产生嵌套子簇的方法扩展发现子簇的工具箱,我们引入了PRESTO-TOP作为子簇预测的新方法。PRESTO-TOP建立在潜在狄利克雷分配(LDA)之上,LDA用于对文本文档中的主题进行建模。LDA之前已经成功地用于基因组和代谢组数据分析[14,18]。在PRESTO-TOP的情况下,文本文档是BGC,单词是表示为域组合的基因,主题可以被认为是子簇基序。这使得使用PRESTO-TOP进行子簇预测变得直观,因为我们假设BGC是多个不同子簇的组合,这些子簇由在多个BGC中共同发生的共同进化基因组成。PRESTO-TOP的另一个好处是,一个主题或亚簇基序通常由一组核心基因组成,这些核心基因编码酶以合成亚结构的基础,而可以在PRESTO-STAT预测(嵌套)子簇中找到其他修饰基因的各种组合。通过这种方式,两种iPRESTO方法可以通过识别子簇核心及其变体来共同捕获子结构多样性。
两种方法的子簇都可以用子结构进行注释,随后用于预测BGC中的子结构。 iPRESTO很容易用作命令行工具,供任何想要在自己的数据集中预测子集群的人使用,方法是将BGC查询到我们在本研究中预测和部分注释的子集群集合。也可以使用 iPRESTO 使用新的训练数据从头开始预测新的子集群模型。iPRESTO 可以处理大量 BGC:在 AntiSMASH-DB 数据集中使用 150 个 CPU 内核,在 AntiSMASH-DB 数据集中的 000,48 个 BGC 中进行标记化和减少冗余大约需要 32 小时。使用 PRESTO-STAT 和 PRESTO-TOP 预测子集群分别在 5 小时和 2670 小时内完成。iPRESTO每分钟可以查询大约3个BGC,以查询本研究中预测的子集群,包括标记化步骤。iPRESTO还包含一个可视化模块,用于可视化将BGC查询到PRESTO-STAT或PRESTO-TOP输出的结果(有关查询利福霉素BGC的示例,请参见S24图)。
PRESTO-STAT提高了现有统计方法的可理解性
我们将iPRESTO应用于antiSMASH-DB v2数据集,该数据集在预处理后包含60,028个BGC和10,539个域组合(S1文本中的表A)。使用PRESTO-STAT方法,我们在数据集中发现了108,085个子聚类。超过80%的统计子簇包含少于17个基因,10%的子簇出现在3个以上的BGC中(S10图)。当将PRESTO-STAT与Del Carratore等人[1]的先前版本的方法进行比较时,我们观察到PRESTO-STAT平均每个BGC产生大约两个子簇,而以前的方法导致每个BGC大约产生十四个子簇。这表明我们最终得到的嵌套子集群结构更少,这很可能是由于我们的扩展冗余过滤删除了几乎一半的数据集(S2 文本中的表 A)。即便如此,嵌套结构在我们的结果中仍然非常明显(S30图)。例如,数以千计的BGC有4多个子集群,其中许多子集群彼此重叠(S<>A图)。嵌套结构不仅夸大了结果,而且还具有额外的缺点,即它们的存在使得将BGC与相似但不同的子集群连接起来变得更加困难。
为了便于子聚类分析,我们将统计子簇聚类聚类为 10,000 个子簇族 (SCF),将 SCF 聚类聚类为 2,000 个子簇族 (SCC),从而连接了相关的子聚类。我们使用K均值聚类,并将统计子聚类表示为标记化基因的存在/不存在矩阵。尽管一些SCC将看似无关的亚簇分组在一起,这些亚簇仅共享一个基因(基于具有相同的Pfam结构域内容),但大多数SCCs(81%)提供了相关的子簇组,共享至少三个基因。
除了嵌套结构之外,统计方法还产生了许多子簇,其中只有一小部分可能提供有意义的信息。PRESTO-STAT结果可能非常嘈杂的事实说明了这一点:在一组共享多个子集群的BGC中,这些共享子集群的所有组合都可能形成新的子集群,这种情况经常发生(S2图)。此外,使用统计子聚类查询 BGC 会很快变得非常耗时,同时还允许不精确匹配。
PRESTO-TOP识别特征和新颖的亚簇
PRESTO-STAT的缺点为我们选择开发PRESTO-TOP提供了一个明确的原因,它可以在BGC中找到多个子簇,并且能够在子簇基序中捕获子簇多样性。此外,构建PRESTO-TOP的LDA允许以可扩展的方式构建和查询子集群基序。
我们使用PRESTO-TOP在具有1,000个子簇基元的antiSMASH-DB数据集上训练和查询模型。在“方法”部分中,我们提供有关使用的(超)参数和所选设置的推理的信息。数据集中超过80%的BGC包含至少一个子簇基序(S4B图)。为了评估亚簇基序的质量,我们单独可视化了所有亚簇,其中每个亚簇是一组与亚簇基序匹配的基因(图2A)。为了使亚簇有趣,我们预计其大小在2-12个基因之间,因为实验表征的子簇属于这个范围[19]。在检查我们的结果后,存在于相当数量的BGC中的大多数子簇都在这个预期的大小范围内(图2A),而一些子簇则没有信息,因为它们包含(几乎)整个BGC(图2B)。为了验证子簇基序,我们评估了是否可以检测到一组109个经过实验验证的子簇,这些子簇存储在antiSMASH框架内的SubClusterBlast模块中。来自PRESTO-TOP的亚簇基序与91个(83%)验证的子簇相匹配,其中麦贝星的甲氧基丙二酸和AHBA亚簇作为示例(图2C)。此外,PRESTO-STAT能够检测到78个经过验证的子簇,其中75个与子簇基序重叠(S5图)。通常,我们看到PRESTO-TOP生成的子集群数据数量更有限,与PRESTO-STAT相比,这些子集群在绝对数量上可能包含意义较小的子集群,但有效子集群信息的比率要高得多。
缩略图 下载:
.PPT幻灯片
.PNG大图
.TIFF原始图像
图2. BGC 长度与子群集长度。
(a) antiSMASH-DB 数据集中每个 BGC(非空基因数)长度与主题或子簇基序匹配长度的散点图,代表子簇。每个点的颜色表示具有特定长度的 BGC 包含具有特定长度的子簇的次数。(b) 西潘霉素的BGC,其中已确定的子集群包括整个BGC,结果无信息。(c)马贝星的BGC,其中AHBA(红色)和甲氧基丙二酰(蓝色)的两个特征亚簇在麦贝星的结构中突出显示[20]。(b)和(c)中的子集群链接到它们在(a)中的相应位置。
https://doi.org/10.1371/journal.pcbi.1010462.g002
我们的结果提供了捕获亚簇多样性的亚簇基序的清晰示例,其中包含一组负责合成亚结构基础的核心基因,以及一组可能不存在于所有亚簇中的修饰基因。例如,像糖相关子簇基序680这样的基序存在于代表不同生物合成类别的134个MIBiG BGC中,例如不同类型的聚酮合酶和非核糖体肽合成酶。该基序编码不同(二)脱氧糖的生物合成,这些糖有时被氨基或甲基氨基修饰。然而,对于一些亚簇基序,生物合成背景对基序的形成有影响。例如,与糖相关的亚簇基序207包含几个吲哚咔唑生物合成基因,因为与该基序匹配的一些MIBiG BGC编码吲哚咔唑的产生,并且一些吲哚咔唑相关基因最终作为弱特征出现在该基序中。
探索子集群主题
在antiSMASH SubClusterBlast模块中已识别的90个特征子簇中,我们可以很容易地注释23个子簇基序,涵盖大约4,000个PRESTO-TOP预测的子簇。为了扩展存储在SubClusterBlast模块中的子集群知识,我们注释了另外22个PRESTO-TOP预测的子集群主题,这些子集群实例在MIBiG BGC中被发现。 这45个注释共同构成了24种不同类型的子结构,具有不同的细节层次,使我们能够更深入地探索发现的子集群(图3和S1文件).在非冗余反SMASH-DB数据集中,大约9,500个(16%)推定BGC包含至少一个这些带注释的子簇基序。通过iPRESTO,我们现在获得了有关这些假定BGC的相关知识,我们可以用来预测它们编码的产品的部分结构。
缩略图 下载:
.PPT幻灯片
.PNG大图
.TIFF原始图像
图3. 子群集主题注释。
饼图可视化了 45 个子集群主题的注释,这些主题分为一般子结构组,其中显示了多个组的示例子结构。此外,在凋亡素、钝蛋白、氟维霉素b2和吡嘧霉素1a的结构中显示了八个子结构的示例,其中子结构的颜色对应于饼图中的子簇基序注释。对于这四种代谢物,它们各自的BGC显示,其中子簇基序以与它们编码的亚结构相同的颜色突出显示。
https://doi.org/10.1371/journal.pcbi.1010462.g003
平均而言,注释的子簇基序出现在239个非冗余BGC中,范围从子簇基序19的190个BGC到子簇基序873的220个BGC,分别编码卡普唑和二羟基苯甲酸部分的生物合成(S6图)。一些带注释的子簇基序主要存在于一个BGC类中,而其他基序则出现在不同的BGC类中(S6和S7图)。后者的一个例子是亚簇基序773,它发生在153个BGC中,主要编码非核糖体肽合成酶和I型聚酮合酶。该亚簇基序编码3-氨基-2-甲基丙酰基起始单元的产生,该起始单元出现在已知的基因簇BGC0001597(氟维鲁辛b2)中(图3)。有趣的是,该基序也出现在一些“其他”类的BGC中,这意味着它们不能被抗SMASH分类,例如来自白色杏仁瘤DSM 44262(NZ_KB913032.1.cluster021;AMYAL_RS0129245—AMYAL_RS0129610)和缓根瘤菌属。EC3.3 (NZ_AXAS01000001.集群006;YUU_RS0100020—YUU_RS49645)。这不仅为这些具有以前未知结构预测的BGC提供了有趣的线索,而且还增加了它们的有效性。总的来说,在AntiSMASH-DB中的6,5个“其他”类BGC中,有10.000%包含一个带注释的子簇基序。
iPRESTO可以通过亚簇存在鉴定孤儿代谢物的BGC
有关BGC中存在的子簇的信息不仅可用于预测BGC的产物,而且还可用作识别BGC中“孤儿”已知代谢物的工具。为了证明这一点,我们搜索了NPAtlas [21],其中包含由我们注释的子簇基序编码的子结构,并寻找在antiSMASH-DB数据集中的一种菌株中发现的不含MIBiG BGC的代谢物。我们首先搜索了含有二硫代吡咯酮亚结构的代谢物,其生物合成由亚簇基序517编码,基于编码硫马林醇、全息霉素和硫鲁丁的MIBiG BGCs进行注释[22-24]。在此过程中,我们发现了Xenorhabdins 1-6,由许多Xenorhabdus菌株产生,这些菌株也存在于抗SMASH-DB中[25]。通过在那些含有与二硫代吡咯酮亚簇基序匹配的菌株中搜索BGC,我们发现了12个含有这种BGC的Xenorhabdus菌株(图4)。在其中一个菌株中,X.最近报道了用于异种生物合成的BGC,证实了我们基于iPRESTO预测的亚簇准确鉴定了用于异种生物合成的BGC[26]。接下来,我们在NPAtlas中搜索了有效霉素和吡拉莫辛中存在缬氨酸部分的代谢物,该部分由亚簇基序940编码[27,28]。因此,我们在数据集中发现了由白斑链霉菌ATCC 21838产生的沙硼他汀[29]。通过研究该菌株中的BGC,我们确定了含有亚簇基序940的BGC,因此应负责沙泊他汀的生物合成(图4)。事实上,事实证明,这种BGC在2008年就已经被描述为编码沙硼他汀的产生[30],但MIBiG数据库中一直缺乏它[16]。这种编码C7-环醇样亚结构的缬莲醇亚簇基序是可以在不同生物合成环境中找到的亚簇基序的一个有趣例子,i。例如,PKS-NRPS样吡嘧啶和不同种类的糖类,如有效霉素和沙泊他汀。该分析强调,iPRESTO允许识别BGC和已发表但在公共BGC数据库中尚未丢失的分子之间的正确链接(因此可以添加到这些资源中)。
thumbnail Download:
PPTPowerPoint slide
PNGlarger image
TIFForiginal image
Fig 4. Connecting non-MIBiG BGCs to their metabolic products through iPRESTO-predicted sub-clusters.
(a) Phylogenetic tree made with CORASON of 12 Xenorhabdus BGCs and 3 MIBiG BGCs, that contain an iPRESTO-predicted sub-cluster for dithiolopyrrolone biosynthesis [31]. The A-domain containing gene of NZ_FO704550.1.cluster001 was used as query for CORASON. Structures of thiomarinol (1), thiolutin (2) and holomycin (3) are linked to their MIBiG BGCs. Xenorhabdins (4–9) are encoded by X. doucetiae str. FRM16 as indicated by the asterisk, while we infer based on sub-cluster presence that the other Xenorhabdus BGCs are also responsible for xenorhabdin biosynthesis. (b) Phylogenetic tree made with CORASON NZ_CP010519.1.cluster004 from S. albus ATCC 21838 and 4 MIBiG BGCs, that contain an iPRESTO-predicted sub-cluster for C7 cyclitol biosynthesis. The predicted 2-epi-5-epi-valiolone synthase from NZ_CP10519.1.cluster004 was used as query for CORASON. Structures of validomycin A (10) and pyralomycin 1A (11) are linked to their MIBiG BGCs. Salbostatin (12) is encoded by S. albus ATCC 21838 as indicated by the hash symbol.
https://doi.org/10.1371/journal.pcbi.1010462.g004
By searching in NPAtlas for chlorinated indoles, we found the orphan metabolites akashin A-C produced by the diazaquinomycins producer Streptomyces sp. F001 [32]. The BGC of akashins has not been described before in literature. As this strain was not present in the antiSMASH-DB, we ran antiSMASH 6 on the genome of this strain and used iPRESTO to infer sub-clusters in the predicted BGCs. As akashins have chlorinated-indole moieties and are glycosylated, we sought for such sub-cluster motifs in the BGCs of S. sp. F001. Interestingly, we identified the genomic region in QZWF01000007.1.region003 (StrepF001_25985—StrepF001_26130) directly upstream of the diazaquinomycin BGC, based on the presence of sub-cluster motifs 194, 607 and 680 that were annotated as methylaminosugar, halogenated aromatic ring, and (amino)deoxysugar, respectively (Fig 5). The formation of the indigo-derived backbone of akashins could potentially be formed by the two p450 enzymes, akin to CYP102G4, a recently described p450 enzyme from S. cattleya [33]. This p450 enzyme can catalyse the reaction from indole to 3-hydroxyindole after which spontaneous oxidation forms indigo. CYP102G4 was even shown to accept chloro-indole as substrate, in the case that chlorination occurs before indole formation in akashin biosynthesis. This shows that iPRESTO can aid in generating meaningful hypotheses about the biosynthesis of orphan metabolites.
thumbnail Download:
PPTPowerPoint slide
PNGlarger image
TIFForiginal image
Fig 5. Putative BGC for akashin A biosynthesis.
The antiSMASH-predicted BGC QZWF01000007.1.region003 is shown (StrepF001_26130-StrepF001_26145), which is hypothetically responsible for akashin A biosynthesis in S. sp. F001. Genes are coloured by their iPRESTO-predicted sub-clusters or predicted function based on Pfam domains.
https://doi.org/10.1371/journal.pcbi.1010462.g005
Correlation analysis in substructure-based integrative omics mining
To automatically link unknown molecules to BGCs at a larger scale, correlating substructures predicted from metabolomics data to sub-clusters from genome data would potentially be of great added value [12,13]. To test such an approach, we used a previously defined correlation score which assumes that a BGC is needed to synthesise a product, but that a BGC may be cryptic and not synthesise anything under the used conditions [15]. Ernst et al. [34] used the MS2LDA tool to discover substructure mass patterns, called Mass2Motifs, from metabolomics data of 145 Salinispora and Streptomyces species for all of which (except one) genomic data and BGC predictions are also available (the ‘Streptomyces/Salinispora dataset’) [14]. To identify sub-clusters in the genomics data of the same species, we used iPRESTO to query all Streptomyces/Salinispora BGCs on the sub-cluster motifs and sub-cluster clans (SCCs) of the antiSMASH-DB dataset. For each of the 107,590 pairs of Mass2Motifs and sub-cluster motifs, we used the correlation score from Doroghazi et al. [15] to calculate how frequently they co-occur across the Streptomyces/Salinispora strains, while we did the same for the 122,404 pairs of Mass2Motifs and SCCs (S8 Fig). To prioritise interesting substructure-sub-cluster pairs, we performed permutation tests for all pairs to assess the likelihood of a high scoring pair arising by chance. This was especially needed as the Streptomyces/Salinispora dataset includes highly related strains, in which many BGCs and compounds are shared. Abundant sub-clusters and substructures therefore get high correlation scores by default. Permutation testing resulted in 3,230 and 1,939 ‘significant’ pairs of Mass2Motifs and sub-cluster motifs or SCCs, respectively (S8 Fig). As an example of how such an approach connects substructure information inferred from genome mining with that of metabolome mining, we identified 5 high correlation scores with low p-values between two staurosporine-related mass2motifs and both sub-cluster motifs and SCCs constituting the amino-sugar moiety of staurosporine (Fig 6). Since currently only a fraction of the Mass2Motifs, sub-cluster motifs and SCCs are annotated, our analysis serves as an illustration of how such an approach could help to link metabolome and genome data in the future.
thumbnail Download:
PPTPowerPoint slide
PNGlarger image
TIFForiginal image
Fig 6. Metabologenomic correlation scores between sub-clusters and mass2motifs.
Stacked histogram of the correlation scores across the Streptomyces/Salinispora strains between the mass2motifs paired with either the SCCs or sub-cluster motifs with a p-value below 0.1. Highlighted with their scores are the pairs mass2motif_108 with SSC_452, SSC_1010, sub-cluster_motif_207 and sub-cluster_motif_680, and the pair mass2motif_8 with SSC_452. The aforementioned sub-cluster motifs (blue) and SCCs (brown) are responsible for sugar synthesis in staurosporine, while both mass2motifs (red) are staurosporine related.
https://doi.org/10.1371/journal.pcbi.1010462.g006
This correlation method generally results in a lot of noise, as sub-clusters and substructures that occur in a shared subset of strains will all correlate to each other. Therefore, s uch co-correlating structures make the identification of the actual correlating pair difficult, especially with limited annotations. Identifying clusters of co-correlating pairs could provide a way to make the interpretation of this analysis easier. Additionally, the correlation analysis is not perfect in our case, as multiple different sub-clusters are often responsible for synthesising the same kind of substructure. For example, we identified multiple sub-cluster motifs that can encode for the production of methylated aminosugars, while only one mass2motif is annotated as a methylated aminosugar. In future approaches, such mismatches between genome and metabolome could be overcome by finding ways to group sub-cluster motifs together that encode similar structures before running such metabologenomic correlation analyses. Combining such solutions with the integration of more diverse species, new annotations, and improved correlation scoring methods like the one developed in Hj?rleifsson Eldjárn et al. [35] would improve such analyses drastically. Furthermore, we expect that combining co-occurrence based scores (such as the standardised Metcalf one) with feature-based scores, such as NPClassScore [36], and the here developed iPRESTO, will further help to prioritise plausible BGC-MS/MS spectral links [12,13]. Indeed, we expect that tools like iPRESTO could in the future be built into frameworks like NPLinker [35]. As our current contribution represents a first step in linking substructure-and sub-cluster models with rather limited (annotated) information, we expect that analyses like these will have great impact in the future to facilitate metabologenomics experiments that use integrative omics mining.
Conclusion and future perspectives
This study introduces the iPRESTO concept and makes it available as a command- line tool which can be used to query BGCs to the set of partially annotated sub-clusters generated in this study, as well as to train new sub-cluster models. We plan to include iPRESTO in one of the future releases of antiSMASH, so the collection of sub-clusters we generated can be used more easily to predict and visualize them in antiSMASH-predicted BGCs. We anticipate that this will enhance the current scope of sub-cluster prediction, as antiSMASH’s current sub-cluster predictor SubClusterBlast offers a limited amount of sub-cluster data, whereas our sub-cluster set will allow making more connections between predicted BGCs and MIBiG reference BGCs. This will accelerate NP discovery by linking structural information from genome and metabolome data.
Due to the above discussed limitations of PRESTO-STAT, we plan to use PRESTO-TOP as the main method for sub-cluster prediction in the antiSMASH implementation, as it also captures sub-cluster variety in the sub-cluster motifs and yet can be used easily to query BGCs for sub-cluster motifs. PRESTO-STAT could still be used to identify the sub-cluster boundaries better, by for example linking groups of related PRESTO-STAT sub-clusters to ’parent’ PRESTO-TOP sub-cluster motifs, and by using the PRESTO-STAT modules to more specifically identify the sub-cluster variant found in a given BGC. The drawback of the statistical method, i.e., that it produces highly nested and variable sub-clusters, could as such be used as a strength. A way to further improve PRESTO-TOP would be to apply PRESTO-TOP in a semi-supervised manner, which constitutes a major potential benefit of this approach. Before training an LDA model, certain motifs could be seeded beforehand, which allows accurate sub-cluster motifs to be reused in new analyses, analogous to the metabolomics substructure database MotifDB, in which annotated Mass2Motifs are stored in MotifSets [37]. Such semi-supervised approaches would allow for noise to be eliminated from sub-cluster motifs and sub-cluster motifs to be finetuned. Another way to reduce noise and to identify the more robust sub-cluster motifs would be to train multiple PRESTO-TOP models on the same dataset. Sub-cluster motifs that are found in every PRESTO-TOP model would constitute conclusive sub-cluster motifs, whereas sub-cluster motifs that are identified in most cases would still be considered reasonably accurate. In this manner, noisy sub-cluster motifs that arise by chance would be filtered out, as they would only occur in one or a few of the many LDA models. Noisy genes in accurate sub-cluster motifs could be filtered out by taking the intersection of multiple similar sub-cluster motifs. As another option, each BGC could be represented multiple times in training to increase the observations of less frequently occurring sub-clusters. This could lead to better estimation of the sub-cluster motif distributions over the data and cause less erroneous mixed sub-cluster motifs. We have attempted this for a small subset and noticed that the overlap with SubClusterBlast increased slightly, making this an interesting avenue to continue PRESTO-TOP sub-cluster algorithmic developments.
Using iPRESTO, in our current study we were able to characterise 45 different sub-cluster motifs present in diverse BGC classes. The remaining 955 sub-cluster motifs remain largely unexplored, of which many are likely to encode useful substructures. We expect that, in the future, more annotations will increase the value of our results even more, which will be aided by the inclusion of updated (expanded) versions of the MIBiG database. Using one of the characterised sub-cluster motifs, we showed a direct practical application of our method by hypothesising a putative BGC for akashin A production. Additionally, we provided the initial step for linking genomics-derived sub-clusters to metabolomics-derived substructures in a systematic way, which in the future could facilitate the automated connection of BGCs to their NPs through integrative omics mining.
方法
数据选择
antiSMASH-DB数据集由三个数据源组成:MIBiG数据库,链霉菌/盐孢菌数据集和antiSMASH-DB。使用了MIBiG数据库的1.4版,其中包含1,819个BGC(https://dl.secondarymetabolites.org/mibig/mibig_gbk_1.4.tar.gz)。链霉菌/盐孢菌数据集由5,927个BGC组成,这些BGC源自Crüsemann等人研究的146种链霉菌和盐孢菌菌株[38]。抗SMASH 3.0用于鉴定链霉菌/盐孢子虫数据集中的BGC。antiSMASH-DB 版本 2 由 152,122 个用 antiSMASH 4.0 检测到的 BGC 组成,其中我们包括来自基因组草案的 BGC(S1 文本中的表 A;https://dl.secondarymetabolites.org/database/2.0/asdb_20180828_all_results.tar.xz)。如果BGC被AntiSMASH标记为位于重叠边缘,则丢弃BGC,因为这些BGC可能不完整(碎片化)且准确性较低。此外,通过使用指定的抗SMASH生物合成类别,BGC类别信息被包括在分析中。
数据预处理
通过将每个基因转换为一串(子)Pfam结构域来标记BGC。为了识别(子)Pfams,将HMMER3工具hmmscan与由Pfam数据库版本32.0组成的自定义配置文件隐藏马尔可夫模型(pHMM)数据库一起使用,其中112个Pfams被相应的subPfams替换[39,40]。选择这112个Pfams是因为它们是antiSMASH-DB(S2文件)中最丰富的生物合成Pfams。为了创建subPfams,将Pfam的多序列比对拆分为分支,然后为每个分支构建一个新的pHMM,每个分支构成一个subPfam(S1A图和 https://github.com/satriaphd/build_subpfam)。
使用BGC的相似性网络从分析中删除冗余BGC,其中BGC基于域的邻接指数高于0.95或BGC完全包含在彼此内进行连接。从网络中的每个最大集团中,仅选择具有最多域的BGC保留在分析中(S1文本和S9图中的表A)[41]。冗余过滤后,所有非生物合成结构域均已从所有BGC中删除。为了选择生物合成结构域,使用ECDomainMiner收集EC相关的Pfams,如果它们出现在预先计算的BGC中,则从中选择Pfams[42]。手动管理后,这产生了 1,839 个生物合成 Pfams 的列表(S3 文件)。此外,删除了数据集中出现少于三次的Pfams以及包含少于两个非空基因的BGC(S4文件)。
普雷斯托统计
子聚类预测的统计方法在基于Del Carratore等人[10]的Python中重新实现,并进行了一些更改,从而产生了PRESTO-STAT。我们没有像以前的方法那样将基因表示为COG,而是将每个基因表示为其域的组合。首先,计算每对基因之间所有可能的邻接和共定位相互作用。为了评估观察到的两个基因之间的相互作用是否比随机发生更多,需要通过数据集随机分布这样一对基因,并计算观察到的相互作用的概率。为了减少基于排列的方法的计算负担,对于每对基因,一个基因保持固定,而另一个基因在整个数据中随机分布。对于邻接相互作用,这给出了一个超几何方程,描述了一个基因的所有可用位置,而另一个基因是固定的(S1文本中的表B1)。这是因为基因B的位置有三种选择,同时保持基因A固定:不与基因A相邻(B1),与基因 A (B ) 相邻2),或两侧与基因 A 相邻(B3).N1, N2和 N3代表这三个类别中的所有可用职位,而 N托特代表所有仓位,B托特基因B的所有出现。对于共定位相互作用,同样适用,除了基因B可以与n共定位的事实。.max基因 A,其中 n.max是与基因B共定位的基因A的数量(S2文本中的表B1)。当 n.max很大,这在计算上变得困难,这就是为什么我们用空基因(破折号)替换重复基因并将重复基因的一个拷贝放在由空基因隔开的簇的末端。这简化了等式,因为只需要计算两种类型的共定位:共定位和无共定位(S3 文本中的表 B1)。p 值可以通过对超几何分布中对应于高于或等于观测到的交互作用数的多个交互作用的所有概率求和来计算。或者,为了更容易,通过从 4 中减去小于观察到的交互的所有可能交互作用的总和(S1 文本中的表 B<>)。
计算每对基因之间的相互作用会产生两个 p 值,一个来自基因 A,一个来自基因 B。仅考虑共定位和邻接交互作用的最大 p 值是保守的。为了控制依赖关系下的误发现率,我们对共定位和邻接p值使用了Benjamini-Yekutieli方法[43]。
为了将相互作用的基因对分组到子簇中,构建了无向图,其中每个基因都是一个节点。如果两个基因的邻接或共定位p值低于阈值0.1,则在两个基因之间形成边。选择所有最大集团作为子聚类,同时迭代地将阈值更改为数据集中小于原始阈值 0.1 的所有 p 值。为了减少假阳性,我们删除了假定的亚簇,如果它们包含少于三个基因并且它们只发生在一个BGC中。接下来,我们使用K均值聚类将相似的子聚类分组到子聚类家族和子聚类家族中,并删除多余的子聚类(S1文本中的补充方法)[44,45]。
普雷斯托-顶部
PRESTO-TOP在BGC中使用潜在狄利克雷分配(LDA)潜在子簇组成[46]。LDA假设词袋表示,其中每个BGC被描述为其域组合的频率矢量,而不考虑基因顺序。我们使用了Gensim的多核LDA实现,它利用了在线变分贝叶斯[47,48]。在此实现中,LDA 模型通过从数据中使用小批量更新来训练它,这具有较低的时间和内存复杂性。我们选择每个小批量的块大小为数据的5%,最小块大小为2,000,这大致基于Hoffman等人测试的不同块大小[48]。我们认为,在评估对数似然充分收敛后,使用 500 次迭代来训练模型就足够了(S10 图)。为了计算资源,我们对子簇基序(主题)N、α和β的数量进行了有限的超参数优化。为了测试不同模型的性能,我们考虑了使用u_mass方法[49]测量的一致性分数以及与SubClusterBlast(S1文本中的补充方法)中经过验证的子集群的重叠。根据不同模型的相干性得分,选择250个子簇基序似乎是最佳的(S11A图)。然而,在对一些图案进行手动检查后,事实证明,由于存在许多噪声特征,许多图案很难用单个子结构进行注释。选择250个子簇基序不会与SubClusterBlast产生最大的重叠(S11B图),这一事实证实了这一点。相反,具有 1000 个子簇基序的模型与 SubClusterBlast 产生了最高的重叠,同时与具有 250 个基序的模型具有相似的一致性分数,这就是我们选择 1000 个子簇基序的原因。我们为超参数α和β选择了对称 1/N 的默认设置,因为在将 α 和β设置为对称、非对称、自动或 1 时,我们找不到更好的 SubClusterBlast 重叠。
LDA 模型中的每个子簇基元都由域组合的概率向量组成,表示每个域组合对子聚类基元的贡献。为了滤除噪声,我们将该向量从高概率到低概率进行排序,对概率求和并包括所有域组合,直到达到0.95。当来自BGC的一组基因与子簇基序匹配时,每个基因都被分配一个基因到基序的概率,描述它在子簇基序中的匹配程度,为此我们设置了0.3的截止值。要将匹配的基因组视为子簇,它需要由多个基因组成。因此,我们将基因到基序概率的总和设置为1.1。此外,我们计算了每个匹配的重叠分数,我们通过对匹配中存在的子聚类基序的域组合概率求和来计算[50]。我们将重叠分数的阈值设置为 0.15,因为这是未从分析中删除手动验证的 SubClusterBlast 子集群的最高阈值。
支持信息
iPRESTO的补充信息:自动发现与特定天然产物亚结构相关的生物合成子簇。
显示 1/16: pcbi.1010462.s001.docx
跳到无花果共享导航
补充信息iPRESTO: 自动化 d伊斯科弗里与特定生物合成子集群相关联天然产物子结构乔里斯·卢文1, 萨特里亚·考特萨尔1, 斯文·范德伯格2, 玛尼克斯·1*, 贾斯汀 J.J. 范德胡夫特1,3*1. 瓦赫宁根大学生物信息学组,荷兰瓦赫宁根2. 荷兰电子科学中心,荷兰阿姆斯特丹3. 约翰内斯堡大学生物化学系, 南非约翰内斯堡* 通讯作者电子邮件:marnix.medema@wur.nl,justin.vanderhooft@wur.nl补充方法标记化 BGC为了表示序列相似性,BGC 通过将普法姆域使用 HMMER3 工具嗯扫描和普法姆数据库版本 32.0[1, 2].由于 Pfams 是广泛的领域模型,我们将对BGC最重要的Pfam划分为更具体的领域模型,称为“subPfams”,用于提高子群集检测的分辨率。要创建subPfams, a普法姆被分割进入覆盖其子空间的更窄域模型Pfam,通过提取多个序列比对普法姆并将其分成分支。新配置文件隐马尔可夫模型 (pHMM)然后为每个分支构建,每个分支构成一个子普法姆(图6A)。112种生物合成Pfams在防砸数据库已转换为亚法姆(S3 文件)。我们随后使用pHMM数据库,其中这 112 个 Pfam 被替换为它们的相应亚法姆在普法姆数据库版本 32.0。为了查询 BGC,我们使用了嗯扫描要扫描反对我们的啧具有TC截止作为一个近路在位得分。基因中的多次命中是允许重叠 10%。如果重叠度较高,则仅匹配次数最高的命中位得分是保持。按照这种方法,我们将每个BGC标记为一串基因,其中每个基因都是一个标记表示为当前(子)Pfam结构域的组合(S1B图)。过滤冗余 BGC为了减少系统发育偏差,我们通过构建BGC的相似性网络来过滤掉多余的BGC。并从该网络中选择具有代表性的节点。作为 BGC 之间的相似性度量,我们使用域邻接指数 (AI),以前已用于评估 BGC 相似性[3].人工智能BGC 之间的计算方法是将相邻域的所有不同共享对的数量除以相邻结构域的不同对总数,同时忽略基因边界。我们建造了如果 AI 高于 0.95,则通过连接两个 BGC 来绘制类似 BGC 的无向图。我们还连接了两个 BGC(如果一个 BGC 完全包含在另一个 BGC 中)。要从图表中选择具有代表性的 BGC,所有图中的最大集团使用find_cliques从网络X模块,它基于在布朗等人描述的算法上。[4].然后,从每个域中选择具有最多域的 BGC最大集团保留在分析中,从大到小迭代集团,直到有没有派系了。如果有多个 BGC 可供选择,则连接最少的 BGC 为保留在分析中以保留尽可能多的信息。集团中的 BGC 不是所选内容被滤除(S9 图)。重复此过程,直到 之间没有连接BGC。过滤域因为我们对直接负责化学生物合成的基因组感兴趣亚结构,我们选择只检测生物合成基因的亚簇。为了只选择这样的基因,我们丢弃了1,839种生物合成Pfam列表中不存在的所有Pfams。我们编制了这个列表收集所有 3,010 个与 EC 相关的 PfamsECDomainMiner使用最低阈值[5].我们如果丢弃的域未出现在 中使用的一组现有预先计算的 BGC 中,则从此列表中丢弃这些域考特萨尔等.[6],它由抗SMASH数据库和几种真菌和植物BGC组成。此列表通过搜索转运蛋白或DNA结合等关键字进一步过滤。然后我们添加了 50手动策划的生物合成域到列表中,这些域不属于ECDomainMiner但发生经常在 BGC 内防粉碎数据库数据库,生成 1,839 个生物合成结构域的列表
(S3 文件)。此外,如果 Pfam 发生的时间少于 3 个,则在子群集检测之前将其删除整个数据集中的次数。随后,我们删除了所有包含少于两个非空基因作为结果普法姆滤波。聚类统计子聚类由于统计方法的结果是多子集群,我们将它们聚类到子集群系列 (SCF) 中以及云函数进入子集群部落 (SCC)。为此,我们使用了实现的K-means算法在科学套件使用 K-means++ 种子进行学习[7, 8].我们将所有子集群表示为存在/不存在我们运行K-means的标记化基因矩阵,进行了1,000次迭代和20次重新启动。自构建 SCF,我们评估了 k 的不同数字的 K 均值聚类。我们选择了聚类基于聚类内最低平方和 (WCSS),同时将族数保持在最小并试图避免形成一个具有不相关子集群的大“毛球”集群。在为了将云函数聚类到 SCC 中,我们对云函数聚类中的质心进行了聚类并评估了对 k 的不同数字进行聚类,方式与 SCF 相同。我们认为 SCF 是如果它有三个基因存在于云函数。此外,我们还从每个云函数中删除了冗余子集群。我们视为一个子集群如果它与完全包含它的较大子集群具有相同的情况,则为冗余。基准测试子集群爆炸第127章子集群爆炸子簇是从https://bitbucket.org/antismash/antismash/src/主/反粉碎/generic_modules/子簇爆炸/子簇.txt[9].从 127 个经过验证的子簇中,109个在万兆联数据库。要查看我们有多少个已知的子集群可以识别,我们计算了所有已知子集群和假定子集群之间的重叠从其中一种检测方法。我们将重叠定义为基因(域)的数量组合)来自假定子簇中存在的已知子簇,除以数量已知亚簇中的基因。我们认为如果至少存在以下已知子集群,则要检测到一个与已知子聚类匹配且重叠高于 0.6 的假定子聚类。子集群注释使用子结构注释子集群图案或子集群部落 (SCC) 仍然是手动任务吞吐量低,这就是为什么到目前为止我们注释了 45 个子簇基序和一些 SCC。为了将子结构分配给子簇基元或 SCC,我们查看了存在的子簇基元和 SCC在万兆联BGC,因为它们的结构经过验证。我们认为注释适用于子簇基序或鳞状细胞癌(如果它存在于多个中)万兆联共享类似子结构的 BGC,而亚簇中的基因符合其在文献中提出的功能(S1 文件)。后者更多对亚簇基序和鳞状细胞癌有效,这些基序包含先前已知的亚簇作为来自已知的子簇通常经过实验验证。可视化和检查已识别的子集群,我们实现并修改了 Navarro-Mu?oz 等人的 BGC 可视化脚本。[3]以允许子群集可视化。通过子簇基元将孤儿NP链接到BGC为了找到包含由注释的子簇基序之一编码的子结构的孤儿NP,我们通过绘制感兴趣的子结构在NPAtlas上使用子结构搜索功能[10].我们下载了制表符分隔的输出,其中包含有关匹配NP的应变的信息来自NPAtlas(如果存在)。连同来自反SMASH-DB数据集的分类元数据,我们使用iPRESTO代码库中的link_np_to_bgc_subcl_motifs.py来查找那些菌株中的BGC包含编码感兴趣子结构的子簇主题。通过调查其他部分识别出的BGC,如预测支架,并在文献中搜索,我们确定是否已鉴定的BGC可以推测编码来自NPAtlas的给定NP的生物合成。用于施工系统发育树,CORASON 在子集群区域使用默认设置[3].对于鉴定了Akashin BGC,我们对链霉菌属F001(QZWF00000000),并使用我们最终模型中的(带注释的)子集群主题运行iPRESTO。相关分析在基于亚结构的综合组学分析中为了系统地将子结构与子集群相关联,我们使用这链霉菌/盐孢菌用于将子结构模型链接到两个不同子聚类模型的数据集在这项研究中得出,使用先前定义的相关指标[11].下部结构模型构成之前使用 MS300LDA 工具发现的 2 个 Mass2Motif,基于 MS/MS 数据这链霉菌/盐孢菌数据[12].两个子聚类模型是通过查询所有标记化链霉菌/盐孢菌在整个反SMASH数据库上训练的LDA模型的BGC数据集(PRESTO-TOP),以及从整个反SMASH数据库数据集(PRESTO-统计),分别。为每个 Mass2Motif、子簇基元和 SCC 创建一个布尔向量,表示所有菌株的存在/不存在模式链霉菌/盐孢菌数据。我们排除Mass2Motifs或氏族,如果它们存在于少于两个菌株中。每对 Mass2Motif 和亚簇基序或鳞状细胞癌在菌株之间相互存在/不存在模式进行评分,遵循多罗加志等人提出的相关度量。[11]此相关分数构成得分 +10,如果两者兼而有之一对的成员存在于菌株中,如果一对的两个成员在菌株中都不存在,则为 +1,如果Mass2Motif存在于菌株中,而子簇基序或SCC不存在,如果Mass0Motif在菌株中不存在,则为2存在子簇基序或鳞状细胞癌时的应变。我们通过评估来优先考虑潜在有价值的货币对正分数在两个方面的意义:通过计算最大可能的相关分数
1 / 16
下载
无花果分享
S1 文本。 iPRESTO的补充信息:自动发现与特定天然产物亚结构相关的生物合成子簇。
https://doi.org/10.1371/journal.pcbi.1010462.s001
(文档)
S1 图 BGC 标记化的示意图描述。
(A)通过将Pfam的多序列比对划分为分支并将每个分支转换为新的pHMM,为antiSMASH-DB中112个最常见的Pfam结构域构建子Pfams。(B)通过检测每个基因中的(亚)Pfams来标记antiSMASH预测的BGC,其中非生物合成Pfams被去除。在标记BGC之后,可以使用统计方法(Stat)预测子簇,其中标记化的基因以其原始顺序表示,或者通过LDA,LDA假设一个不考虑原始基因顺序的词袋模型。
https://doi.org/10.1371/journal.pcbi.1010462.s002
(提夫)
S2 图 将利福霉素(BGC0000373)查询到本项目生成的PRESTO-TOP和PRESTO-STAT子簇的结果。
仅显示了大约 25% 的 PRESTO-STAT 子集群。每个基因都被描述为一个标记,其中所有(子)Pfam结构域都是彩色的。BGC、PRESTO-TOP和PRESTO-STAT输出的可视化分别用虚线分隔。所有PRESTO-STAT子簇都清楚地表现出嵌套结构,其中实际子簇中的所有基因组合都被预测为单独的子簇。这里显示的PRESTO-STAT子簇也是嘈杂子簇的示例,这些子簇由来自不同实际子簇的基因组合组成,例如预测的PRESTO-STAT子簇,它们是负责AHBA(绿色),糖(蓝色)和聚酮支架(紫色)生物合成的基因组合。
https://doi.org/10.1371/journal.pcbi.1010462.s003
(提夫)
S3 图 有关 PRESTO-STAT 子集群的信息。
(A)antiSMASH-DB数据集中每个PRESTO-STAT子簇的基因数量的分布。(B)反SMASH-DB数据集中log10转换后的PRESTO-STAT子簇的分布。
https://doi.org/10.1371/journal.pcbi.1010462.s004
(提夫)
S4 图 每个 BGC 的 PRESTO-STAT 和 PRESTO-TOP 子集群数。
(A) 在非冗余反 SMASH-DB 数据集中,每个 BGC 的 log10 转换后的 PRESTO-STAT 子簇数的分布,其中看似负值的 bin 表示没有任何 PRESTO-STAT 子簇的 BGC。(B)非冗余反SMASH-DB数据集中每个BGC的主题或子簇主题的数量,不包括长度为9的子簇,因为这些子簇几乎肯定是噪声(参见方法)。(C) 所有具有至少一个带注释的子簇基序的 BGC,按其具有的带注释的子簇基元数量分组。总共有425,350个推定的BGC至少有一个带注释的子簇基序,以及<>个MIBiG BGC。
https://doi.org/10.1371/journal.pcbi.1010462.s005
(提夫)
S5 图 PRESTO-STAT和PRESTO-TOP与SubClusterBlast中经过验证的子集群重叠。
预测的子簇与两种子簇预测方法的重叠,以及根据不同重叠临界值应用于反SMASH-DB数据集的两种子簇预测方法的输出。重叠表示在iPRESTO预测的子簇中发现的原始SubClusterBlast子簇的基因比例。我们认为0.6的重叠足以预测子集群(参见S1文本中的补充方法)。
https://doi.org/10.1371/journal.pcbi.1010462.s006
(提夫)
S6 图 反 SMASH-DB 数据集中带注释的子簇基序的度数(出现次数)(非冗余)。
https://doi.org/10.1371/journal.pcbi.1010462.s007
(提夫)
S7 图 BGC 类跨子集群基序的分布。
在 45 个带注释的子簇基元上查询非冗余反 SMASH-DB 数据集时,反 SMASH 类的相对丰度。长度为 1 的匹配项将被忽略,混合类 BGC 将计入它们包含的所有类。RIPPs 类组合在一起。
https://doi.org/10.1371/journal.pcbi.1010462.s008
(提夫)
S8 图 Mass2Motifs和子集群之间的相关性得分。
(A)Mass2Motifs和SCCs之间的相关分数。 (B)Mass2Motifs和子簇主题之间的相关分数。在两个面板中,突出显示了重要对。
https://doi.org/10.1371/journal.pcbi.1010462.s009
(提夫)
S9 图 小数据集基于图形的过滤的图形表示:MIBiG和链霉菌/盐孢子虫BGC。
每个节点表示一个 BGC,边缘表示邻接指数 (AI) 为 0.95 或更高。蓝色是被选为代表的 BGC,而过滤掉的 BGC 以黑色显示。我们在这里展示了小数据集,因为很难为反SMASH-DB数据集可视化此过程。
https://doi.org/10.1371/journal.pcbi.1010462.s010
(提夫)
S10 图 LDA 模型收敛。
LDA 模型的对数似然收敛,该模型在 antiSMASH-DB 数据集的非冗余 1,000 个 BGC 上训练了 60,028 个主题/子簇基序,该数据集还包含链霉菌/盐孢菌数据集和 MIBiG 数据库,使用 2,000 次块大小为 3,000 的迭代。基于28个BGC的对数似然。
https://doi.org/10.1371/journal.pcbi.1010462.s011
(提夫)
S11 图 一致性评分和与不同LDA模型的SubClusterBblast子集群的重叠。
(A)使用PRESTO-TOP在具有不同主题数量的非冗余antiSMASH-DB数据集上训练的不同LDA模型的一致性得分。(B)使用PRESTO-TOP在具有不同主题数量的非冗余antiSMASH-DB数据集上训练的不同LDA模型发现的经过验证的SubClusterBblast子集群的数量。
https://doi.org/10.1371/journal.pcbi.1010462.s012
(提夫)
S1 文件。 Excel 文件包含有关生成的子聚类主题的当前信息。
表一包括带注释的子簇基序的注释,第二页包含所有子簇基序的元数据,例如生物合成类和与之相关的BGC的分类分配。
https://doi.org/10.1371/journal.pcbi.1010462.s013
(三十)
S2 文件。 我们为其创建子 Pfams 的 112 个域。
https://doi.org/10.1371/journal.pcbi.1010462.s014
(TXT)
S3 文件。 我们在这项研究中考虑的生物合成领域。
https://doi.org/10.1371/journal.pcbi.1010462.s015
(TXT)
S4 文件。 过滤后,反SMASH-DB数据集中存在的所有已使用域组合。
https://doi.org/10.1371/journal.pcbi.1010462.s016
(TXT)
确认
我们感谢Dick de Ridder博士和Simon Rogers博士的有益评论和讨论。
引用
1米达扬FE,坎特雷尔CL,杜克苏。作物保护中的天然产品。生物有机和药物化学。2009;17(12):4022–34.pmid:19216080
查看文章PubMed/NCBI谷歌学术搜索
2米李建华, 韦德拉斯.药物发现和天然产物:一个时代的终结还是无尽的前沿?科学。2009;325(5937):161.密码:19589993
查看文章PubMed/NCBI谷歌学术搜索
3米派 CR, 贝尔廷 MJ, 洛基 RS, 格威克 WH, 利宁顿 RG.天然产物的回顾性分析为未来的发现趋势提供了见解。美国国家科学院院刊, 2017;114(22):5601–6.Epub 2017/05/04.PMID:28461474。
查看文章PubMed/NCBI谷歌学术搜索
4米梅德玛 MH, 西默曼西奇 P, 萨利 A, 高野 E, 菲施巴赫 马.生物合成基因簇进化的系统计算分析:工程生物合成的经验教训。公共科学图书馆计算生物学. 2014;10(12):e1004016.Epub 2014/12/05.PMID:25474254。
查看文章PubMed/NCBI谷歌学术搜索
5米Chevrette MG,Currie CR.抗生素发现中的新兴进化范式。J 工业微生物生物技术.2018. Epub 2018/10/01.PMID:30269177。
查看文章PubMed/NCBI谷歌学术搜索
6米Cimermancic P, Medema MH, Claesen J, Kurita K, Wieland Brown LC, Mavrommatis K, et al.从原核生物合成基因簇的全球分析中对次级代谢的见解。细胞。2014;158(2):412–21.Epub 2014/07/19.pmid:25036635。
查看文章PubMed/NCBI谷歌学术搜索
7米Blin K, Shaw S, Kloosterman AM, Charlop-Powers Z, van Wezel GP, Medema Marnix H, et al. antiSMASH 6.0:改进集群检测和比较功能。核酸研究。2021;49(W1):W29–W35.pmid:33978755
查看文章PubMed/NCBI谷歌学术搜索
8米Skinnider MA, Johnston CW, Gunabalasingam M, Merwin NJ, Kieliszek AM, MacLellan RJ, et al.从微生物基因组序列综合预测次生代谢物结构和生物活性。自然通讯.2020;11(1):6058.pmid:33247171
查看文章PubMed/NCBI谷歌学术搜索
9米菲施巴赫,沃尔什,克拉迪·基因集体的进化:自然选择如何推动化学创新。美国国家科学院院刊.2008;105(12):4601.密码:18216259
查看文章PubMed/NCBI谷歌学术搜索
10米Del Carratore F, Zych K, Cummings M, Takano E, Medema MH, Breitling R. 微生物生物合成基因簇中共同进化多基因模块的计算鉴定。通信生物学。2019;2(1).密码:30854475
查看文章PubMed/NCBI谷歌学术搜索
11米布林 K, 肖 S, 考特萨尔 SA, 梅德玛 MH, 韦伯 T.AntiSMASH数据库版本3:增加了模块化酶的分类覆盖率和新的查询功能。核酸研究。2020;49(D1):D 639–D43.密码:33152079
查看文章PubMed/NCBI谷歌学术搜索
12米Louwen JJ, Van Der Hooft JJ. 对组学数据进行全面的大规模综合分析,以加速专业代谢物的发现。Msystems。2021;6(4):e00726–21.密码:34427506
查看文章PubMed/NCBI谷歌学术搜索
13米范德胡夫特 JJJ, 莫希马尼 H, 鲍尔迈斯特 A, 多雷斯坦 PC, 邓肯 KR, 梅德玛 MH.将基因组学和代谢组学联系起来,以绘制专门的代谢多样性。化学学会评论。2020;49(11):3297–314.密码:32393943
查看文章PubMed/NCBI谷歌学术搜索
14米van der Hooft JJ, Wandy J, Barrett MP, Burgess KE, Rogers S. 代谢组学中非靶向亚结构探索的主题建模。美国国家科学院院刊, 2016;113(48):13738–43.Epub 2016/11/20.pmid:27856765。
查看文章PubMed/NCBI谷歌学术搜索
15米Doroghazi JR, Albright JC, Goering AW, Ju KS, Haines RR, Tchalukov KA, et al.基于大规模基因组学和代谢组学的天然产物发现路线图。化学生物学 2014;10(11):963–8.pmid:25262415。
查看文章PubMed/NCBI谷歌学术搜索
16米Kautsar SA, Blin K, Shaw S, Navarro-Mu?oz JC, Terlouw BR, van der Hooft JJJ, et al. MIBiG 2.0: 已知功能的生物合成基因簇存储库。核酸研究。2019;48(D1):D 454–D8.密码:31612915
查看文章PubMed/NCBI谷歌学术搜索
17米考特萨尔 SA, 范德胡夫特 JJJ, 德里德尔 D, 梅德玛 MH.BiG-SLiCE:一种高度可扩展的工具,可绘制 1 万个生物合成基因簇的多样性。千兆科学。2;2021(10).密码:1
查看文章PubMed/NCBI谷歌学术搜索
18米陈旭, 胡旭, 沈旭, 罗森G, 编者.用于基因组数据解释的概率主题建模。2010年IEEE生物信息学与生物医学国际会议(BIBM);2010年:IEEE。
19米Blin K, Medema MH, Kazempour D, Fischbach MA, Breitling R, Takano E, et al. antiSMASH 2.0——用于次级代谢物生产者基因组挖掘的多功能平台。核酸研究 2013;41(网络服务器问题):W204–12.Epub 2013/06/06.pmid:23737449。
查看文章PubMed/NCBI谷歌学术搜索
20米张明琪, 盖瑟 S, 努尔-埃-阿拉姆 M, 希恩 LS, 沃斯登 WA, 盖塔齐斯, 等. 通过生物合成工程优化天然产物:非醌 Hsp90 抑制剂的发现。药物化学杂志。2008;51(18):5494–7.密码:18800759
查看文章PubMed/NCBI谷歌学术搜索
21米van Santen JA, Jacob G, Singh AL, Aniebok V, Balunas MJ, Bunsko D, et al.天然产物图谱:微生物天然产物发现的开放获取知识库。ACS中央科学。2019;5(11):1824–33.密码:31807684
查看文章PubMed/NCBI谷歌学术搜索
22米李B,沃尔什CT.鉴定链霉菌中二硫代吡咯隆抗生素全息霉素的基因簇。美国国家科学院院刊.2010;107(46):19731–5.pmid:21041678
查看文章PubMed/NCBI谷歌学术搜索
23米福田D, 海恩斯AS, 宋Z, 墨菲AC, Hothersall J, Stephens ER, et al.天然质粒独特地编码两种生物合成途径,从而产生有效的抗MRSA抗生素。公共图书馆一号。2011;6(3):e18031.密码:21483852
查看文章PubMed/NCBI谷歌学术搜索
24米Huang S, Him Tong M, Qin Z, Deng Z, Deng H, Yu Y. 阿尔及利亚糖类 NRRL B-24137 中肿瘤血管生成抑制剂硫鲁丁生物合成基因簇的鉴定和表征.药物化学中的抗癌剂(以前称为现在的药物化学-抗癌剂)。2015;15(3):277–84.密码:25353334
查看文章PubMed/NCBI谷歌学术搜索
25米McInerney BV, Gregson RP, Lacey MJ, Akhurst RJ, Lyons GR, Rhodes SH, et al. 来自Xenorhabdus Spp.的生物活性代谢物,第1部分。具有抗生素活性的二硫代吡咯酮衍生物。天然产物杂志。1991;54(3):774–84.pmid:1955880
查看文章PubMed/NCBI谷歌学术搜索
26米Bode E, Brachmann AO, Kegler C, Simsek R, Dauth C, Zhou Q, et al. 生物活性天然产物的简单“按需”生产。化学生物化学。2015;16(7):1115–9.密码:25826784
查看文章PubMed/NCBI谷歌学术搜索
27米白玲, 李玲, 徐华, 水川K, 于轩, 张莹, 等.validamycin生物合成基因簇的功能分析和validoxylamine A的工程生产。2006;13(4):387–97.pmid:16632251
查看文章PubMed/NCBI谷歌学术搜索
28米Flatt PM, Wu X, Perry S, Mahmud T. Nonomuraea spiralis IMC A-0156中吡拉莫霉素生物合成的遗传见解。天然产物杂志。2013;76(5):939–46.pmid:23607523
查看文章PubMed/NCBI谷歌学术搜索
29米韦尔特西 L, 费尔哈伯 H-W, 舒尔茨 A.海藻酶抑制剂沙硼他汀,一种来自白链霉菌的新型代谢物,ATCC21838。Angewandte Chemie International Edition英文版。1994;33(18):1844–6.
查看文章谷歌学术搜索
30米崔伟文, 吴旭, 郑永华, 马哈茂德, 郑炳, 李淑, 等.推定的沙泊他汀生物合成基因簇的遗传组织,包括白斑链霉菌ATCC 2中的5-epi-21838-epi-valiolone合酶基因。应用微生物学和生物技术。2008;80(4):637–45.密码:18648803
查看文章PubMed/NCBI谷歌学术搜索
31米Navarro-Mu?oz JC, Selem-Mojica N, Mullowney MW, Kautsar SA, Tryon JH, Parkinson EI, et al.探索大规模生物合成多样性的计算框架。自然化学生物学。2020;16(1):60–8.密码:31768033
查看文章PubMed/NCBI谷歌学术搜索
32米Braesel J, Clark CM, Kunstman KJ, Green SJ, Maienschein-Cline M, Murphy BT, et al. 海洋来源链霉菌属菌株 F001 的基因组序列,Akashin A 和 Diazaquinomycins 的生产者。微生物资源公告。2019;8(19):e00165–19。密码:31072893
查看文章PubMed/NCBI谷歌学术搜索
33米金 J, 李 P-g, 郑 E-o, 金 B-G.来自牛链霉菌的CYP102G4的体外表征:一种自给自足的P450自然产生靛蓝。生物化学与生物物理学报(BBA)—蛋白质和蛋白质组学。2018;1866(1):60–7.密码:28821467
查看文章PubMed/NCBI谷歌学术搜索
34米Ernst M, Kang KB, Caraballo-Rodríguez AM, Nothias L-F, Wandy J, Chen C, et al. MolNetEnhancer: 通过集成代谢组挖掘和注释工具增强分子网络。代谢 产物。2019;9(7):144.密码:31315242
查看文章PubMed/NCBI谷歌学术搜索
35米Hj?rleifsson Eldjárn G, Ramsay A, van der Hooft JJJ, Duncan KR, Soldatou S, Rousu J, et al.使用互补评分函数对NPLinker框架中的微生物代谢组学和基因组联系进行排名。公共科学图书馆计算生物学。2021;17(5):e1008920.pmid:33945539
查看文章PubMed/NCBI谷歌学术搜索
36米Louwen JJ, Medema MH, van der Hooft JJ. 通过化学类别匹配增强生物合成基因簇与其代谢产物的基于相关性的联系。2022.
查看文章谷歌学术搜索
37米罗杰斯 S, 王 CW, 万迪 J, 恩斯特 M, 里德 L, 范德胡夫特 JJJ.通过无监督和监督的亚结构发现以及MS / MS谱图的半自动注释来破译复杂的代谢物混合物。法拉第讨论。2019;218(0):284–302.密码:31120050
查看文章PubMed/NCBI谷歌学术搜索
38米Crüsemann M, O'Neill EC, Larson CB, Melnik AV, Floros DJ, da Silva RR, et al. 根据生长和提取方案,在 146 种细菌菌株的集合中优先考虑天然产物多样性。国家产品学报 2017;80(3):588–97.pmid:28335604。
查看文章PubMed/NCBI谷歌学术搜索
39米贝特曼 A, 斯马特 A, 卢西亚尼 A, 萨拉查 GA, 米斯特里 J, 理查森 LJ, 等.2019年的Pfam蛋白家族数据库。核酸研究。2018;47(D1):D 427–D32.密码:30357350
查看文章PubMed/NCBI谷歌学术搜索
40米Mistry J, Finn RD, Eddy SR, Bateman A, Punta M. 同源搜索的挑战:HMMER3和盘绕线圈区域的收敛演化。核酸研究。2013;41(12):e121–e. pmid:23598997
查看文章PubMed/NCBI谷歌学术搜索
41米Bron C, Kerbosch J. Algorithm 457: Find all cliques of a undirected graph.公社ACM。1973;16(9):575–7.
查看文章谷歌学术搜索
42米Alborzi SZ, Devignes M-D, Ritchie DW.ECDomainMiner:发现酶委员会数和Pfam结构域之间的隐藏关联。BMC生物信息学。2017;18(1):107.pmid:28193156
查看文章PubMed/NCBI谷歌学术搜索
43米本贾米尼 Y, 叶库铁利 D.依赖关系下多重测试中错误发现率的控制。统计史。2001;29(4):1165–88.
查看文章谷歌学术搜索
44米Arthur D, Vassilvitskii S, editor.k-means++:仔细播种的优点。第十八届ACM-SIAM离散算法年度研讨会论文集;2007年:工业与应用数学学会。
45米Pedregosa F, Varoquaux G, Gramfort A, Michel V, Thirion B, Grisel O, et al. Scikit-learn: Machine learning in Python.机器学习研究杂志。2011;12:2825–30.
查看文章谷歌学术搜索
46米Blei DM, Ng AY, Jordan MI. 潜在狄利克雷分配.机器学习研究杂志。2003;3(993月):1022–<>.
查看文章谷歌学术搜索
47米Rehurek R, Sojka P, editors.用于大型语料库的主题建模的软件框架。LREC 2010 NLP 框架新挑战研讨会论文集;2010年:西泰瑟。
48米霍夫曼M,巴赫FR,Blei DM,编辑。潜在狄利克雷分配的在线学习。神经信息处理系统的进步;2010.
查看文章谷歌学术搜索
49米R?der M, Two A, Hinneburg A, editors.探索主题一致性措施的空间。第八届ACM网络搜索和数据挖掘国际会议论文集;2015.
50米van der Hooft JJJ, Wandy J, Young F, Padmanabhan S, Gerasimidis K, Burgess KEV, et al. 非靶向代谢组学中多个样本的结构家族的无监督发现和比较。肛门化学 2017;89(14):7569–77.Epub 2017/06/18.PMID:28621528。
查看文章PubMed/NCBI谷歌学术搜索
下载文档
打印
共享
? 通过交叉标记检查更新
广告
学科领域?
生物合成
基因组学
代谢 产物
代谢组学
数据挖掘
蛋白质结构域
预测
统计方法
出版物
公共科学图书馆生物学
公共科学图书馆医学
公共科学图书馆计算生物学
公共科学图书馆遗传学
公共科学图书馆病原体
公共图书馆一号
公共科学图书馆被忽视的热带病
9.菲施巴赫,沃尔什,克拉迪·基因集体的进化:自然选择如何推动化学创新。美国国家科学院院刊.2008;105(12):4601.密码:18216259
查看文章PubMed/NCBI谷歌学术搜索
10米Del Carratore F, Zych K, Cummings M, Takano E, Medema MH, Breitling R. 微生物生物合成基因簇中共同进化多基因模块的计算鉴定。通信生物学。2019;2(1).密码:30854475
查看文章PubMed/NCBI谷歌学术搜索
11米布林 K, 肖 S, 考特萨尔 SA, 梅德玛 MH, 韦伯 T.AntiSMASH数据库版本3:增加了模块化酶的分类覆盖率和新的查询功能。核酸研究。2020;49(D1):D 639–D43.密码:33152079
查看文章PubMed/NCBI谷歌学术搜索
12米Louwen JJ, Van Der Hooft JJ. 对组学数据进行全面的大规模综合分析,以加速专业代谢物的发现。Msystems。2021;6(4):e00726–21.密码:34427506
查看文章PubMed/NCBI谷歌学术搜索
13米范德胡夫特 JJJ, 莫希马尼 H, 鲍尔迈斯特 A, 多雷斯坦 PC, 邓肯 KR, 梅德玛 MH.将基因组学和代谢组学联系起来,以绘制专门的代谢多样性。化学学会评论。2020;49(11):3297–314.密码:32393943
查看文章PubMed/NCBI谷歌学术搜索
14米van der Hooft JJ, Wandy J, Barrett MP, Burgess KE, Rogers S. 代谢组学中非靶向亚结构探索的主题建模。美国国家科学院院刊, 2016;113(48):13738–43.Epub 2016/11/20.pmid:27856765。
查看文章PubMed/NCBI谷歌学术搜索
15米Doroghazi JR, Albright JC, Goering AW, Ju KS, Haines RR, Tchalukov KA, et al.基于大规模基因组学和代谢组学的天然产物发现路线图。化学生物学 2014;10(11):963–8.pmid:25262415。
查看文章PubMed/NCBI谷歌学术搜索
16米Kautsar SA, Blin K, Shaw S, Navarro-Mu?oz JC, Terlouw BR, van der Hooft JJJ, et al. MIBiG 2.0: 已知功能的生物合成基因簇存储库。核酸研究。2019;48(D1):D 454–D8.密码:31612915
查看文章PubMed/NCBI谷歌学术搜索
17米考特萨尔 SA, 范德胡夫特 JJJ, 德里德尔 D, 梅德玛 MH.BiG-SLiCE:一种高度可扩展的工具,可绘制 1 万个生物合成基因簇的多样性。千兆科学。2;2021(10).密码:1
查看文章PubMed/NCBI谷歌学术搜索
18米陈旭, 胡旭, 沈旭, 罗森G, 编者.用于基因组数据解释的概率主题建模。2010年IEEE生物信息学与生物医学国际会议(BIBM);2010年:IEEE。
19米Blin K, Medema MH, Kazempour D, Fischbach MA, Breitling R, Takano E, et al. antiSMASH 2.0——用于次级代谢物生产者基因组挖掘的多功能平台。核酸研究 2013;41(网络服务器问题):W204–12.Epub 2013/06/06.pmid:23737449。
查看文章PubMed/NCBI谷歌学术搜索
20米张明琪, 盖瑟 S, 努尔-埃-阿拉姆 M, 希恩 LS, 沃斯登 WA, 盖塔齐斯, 等. 通过生物合成工程优化天然产物:非醌 Hsp90 抑制剂的发现。药物化学杂志。2008;51(18):5494–7.密码:18800759
查看文章PubMed/NCBI谷歌学术搜索
21米van Santen JA, Jacob G, Singh AL, Aniebok V, Balunas MJ, Bunsko D, et al.天然产物图谱:微生物天然产物发现的开放获取知识库。ACS中央科学。2019;5(11):1824–33.密码:31807684
查看文章PubMed/NCBI谷歌学术搜索
22米李B,沃尔什CT.鉴定链霉菌中二硫代吡咯隆抗生素全息霉素的基因簇。美国国家科学院院刊.2010;107(46):19731–5.pmid:21041678
查看文章PubMed/NCBI谷歌学术搜索
23米福田D, 海恩斯AS, 宋Z, 墨菲AC, Hothersall J, Stephens ER, et al.天然质粒独特地编码两种生物合成途径,从而产生有效的抗MRSA抗生素。公共图书馆一号。2011;6(3):e18031.密码:21483852
查看文章PubMed/NCBI谷歌学术搜索
24米Huang S, Him Tong M, Qin Z, Deng Z, Deng H, Yu Y. 阿尔及利亚糖类 NRRL B-24137 中肿瘤血管生成抑制剂硫鲁丁生物合成基因簇的鉴定和表征.药物化学中的抗癌剂(以前称为现在的药物化学-抗癌剂)。2015;15(3):277–84.密码:25353334
查看文章PubMed/NCBI谷歌学术搜索
25米McInerney BV, Gregson RP, Lacey MJ, Akhurst RJ, Lyons GR, Rhodes SH, et al. 来自Xenorhabdus Spp.的生物活性代谢物,第1部分。具有抗生素活性的二硫代吡咯酮衍生物。天然产物杂志。1991;54(3):774–84.pmid:1955880
查看文章PubMed/NCBI谷歌学术搜索
26米Bode E, Brachmann AO, Kegler C, Simsek R, Dauth C, Zhou Q, et al. 生物活性天然产物的简单“按需”生产。化学生物化学。2015;16(7):1115–9.密码:25826784
查看文章PubMed/NCBI谷歌学术搜索
27米白玲, 李玲, 徐华, 水川K, 于轩, 张莹, 等.validamycin生物合成基因簇的功能分析和validoxylamine A的工程生产。2006;13(4):387–97.pmid:16632251
查看文章PubMed/NCBI谷歌学术搜索
28米Flatt PM, Wu X, Perry S, Mahmud T. Nonomuraea spiralis IMC A-0156中吡拉莫霉素生物合成的遗传见解。天然产物杂志。2013;76(5):939–46.pmid:23607523
查看文章PubMed/NCBI谷歌学术搜索
29米韦尔特西 L, 费尔哈伯 H-W, 舒尔茨 A.海藻酶抑制剂沙硼他汀,一种来自白链霉菌的新型代谢物,ATCC21838。Angewandte Chemie International Edition英文版。1994;33(18):1844–6.
查看文章谷歌学术搜索
30米崔伟文, 吴旭, 郑永华, 马哈茂德, 郑炳, 李淑, 等.推定的沙泊他汀生物合成基因簇的遗传组织,包括白斑链霉菌ATCC 2中的5-epi-21838-epi-valiolone合酶基因。应用微生物学和生物技术。2008;80(4):637–45.密码:18648803
查看文章PubMed/NCBI谷歌学术搜索
31米Navarro-Mu?oz JC, Selem-Mojica N, Mullowney MW, Kautsar SA, Tryon JH, Parkinson EI, et al.探索大规模生物合成多样性的计算框架。自然化学生物学。2020;16(1):60–8.密码:31768033
查看文章PubMed/NCBI谷歌学术搜索
32米Braesel J, Clark CM, Kunstman KJ, Green SJ, Maienschein-Cline M, Murphy BT, et al. 海洋来源链霉菌属菌株 F001 的基因组序列,Akashin A 和 Diazaquinomycins 的生产者。微生物资源公告。2019;8(19):e00165–19。密码:31072893
查看文章PubMed/NCBI谷歌学术搜索
33米金 J, 李 P-g, 郑 E-o, 金 B-G.来自牛链霉菌的CYP102G4的体外表征:一种自给自足的P450自然产生靛蓝。生物化学与生物物理学报(BBA)—蛋白质和蛋白质组学。2018;1866(1):60–7.密码:28821467
查看文章PubMed/NCBI谷歌学术搜索
34米Ernst M, Kang KB, Caraballo-Rodríguez AM, Nothias L-F, Wandy J, Chen C, et al. MolNetEnhancer: 通过集成代谢组挖掘和注释工具增强分子网络。代谢 产物。2019;9(7):144.密码:31315242
查看文章PubMed/NCBI谷歌学术搜索
35米Hj?rleifsson Eldjárn G, Ramsay A, van der Hooft JJJ, Duncan KR, Soldatou S, Rousu J, et al.使用互补评分函数对NPLinker框架中的微生物代谢组学和基因组联系进行排名。公共科学图书馆计算生物学。2021;17(5):e1008920.pmid:33945539
查看文章PubMed/NCBI谷歌学术搜索
36米Louwen JJ, Medema MH, van der Hooft JJ. 通过化学类别匹配增强生物合成基因簇与其代谢产物的基于相关性的联系。2022.
查看文章谷歌学术搜索
37米罗杰斯 S, 王 CW, 万迪 J, 恩斯特 M, 里德 L, 范德胡夫特 JJJ.通过无监督和监督的亚结构发现以及MS / MS谱图的半自动注释来破译复杂的代谢物混合物。法拉第讨论。2019;218(0):284–302.密码:31120050
查看文章PubMed/NCBI谷歌学术搜索
38米Crüsemann M, O'Neill EC, Larson CB, Melnik AV, Floros DJ, da Silva RR, et al. 根据生长和提取方案,在 146 种细菌菌株的集合中优先考虑天然产物多样性。国家产品学报 2017;80(3):588–97.pmid:28335604。
查看文章PubMed/NCBI谷歌学术搜索
39米贝特曼 A, 斯马特 A, 卢西亚尼 A, 萨拉查 GA, 米斯特里 J, 理查森 LJ, 等.2019年的Pfam蛋白家族数据库。核酸研究。2018;47(D1):D 427–D32.密码:30357350
查看文章PubMed/NCBI谷歌学术搜索
40米Mistry J, Finn RD, Eddy SR, Bateman A, Punta M. 同源搜索的挑战:HMMER3和盘绕线圈区域的收敛演化。核酸研究。2013;41(12):e121–e. pmid:23598997
查看文章PubMed/NCBI谷歌学术搜索
41米Bron C, Kerbosch J. Algorithm 457: Find all cliques of a undirected graph.公社ACM。1973;16(9):575–7.
查看文章谷歌学术搜索
42米Alborzi SZ, Devignes M-D, Ritchie DW.ECDomainMiner:发现酶委员会数和Pfam结构域之间的隐藏关联。BMC生物信息学。2017;18(1):107.pmid:28193156
查看文章PubMed/NCBI谷歌学术搜索
43米本贾米尼 Y, 叶库铁利 D.依赖关系下多重测试中错误发现率的控制。统计史。2001;29(4):1165–88.
查看文章谷歌学术搜索
44米Arthur D, Vassilvitskii S, editor.k-means++:仔细播种的优点。第十八届ACM-SIAM离散算法年度研讨会论文集;2007年:工业与应用数学学会。
45米Pedregosa F, Varoquaux G, Gramfort A, Michel V, Thirion B, Grisel O, et al. Scikit-learn: Machine learning in Python.机器学习研究杂志。2011;12:2825–30.
查看文章谷歌学术搜索
46米Blei DM, Ng AY, Jordan MI. 潜在狄利克雷分配.机器学习研究杂志。2003;3(993月):1022–<>.
查看文章谷歌学术搜索
47米Rehurek R, Sojka P, editors.用于大型语料库的主题建模的软件框架。LREC 2010 NLP 框架新挑战研讨会论文集;2010年:西泰瑟。
48米霍夫曼M,巴赫FR,Blei DM,编辑。潜在狄利克雷分配的在线学习。神经信息处理系统的进步;2010.
查看文章谷歌学术搜索
49米R?der M, Two A, Hinneburg A, editors.探索主题一致性措施的空间。第八届ACM网络搜索和数据挖掘国际会议论文集;2015.
50米van der Hooft JJJ, Wandy J, Young F, Padmanabhan S, Gerasimidis K, Burgess KEV, et al. 非靶向代谢组学中多个样本的结构家族的无监督发现和比较。肛门化学 2017;89(14):7569–77.Epub 2017/06/18.PMID:28621528。
查看文章PubMed/NCBI谷歌学术搜索
下载文档
打印
共享
? 通过交叉标记检查更新
广告
学科领域?
生物合成
基因组学
代谢 产物
代谢组学
数据挖掘
蛋白质结构域
预测
统计方法
出版物
公共科学图书馆生物学
公共科学图书馆医学
公共科学图书馆计算生物学
公共科学图书馆遗传学
公共科学图书馆病原体
公共图书馆一号
公共科学图书馆被忽视的热带病