《医学论文免费-真核生物复合体的比较聚类(CompaCt)鉴定了新的相互作用并阐明了蛋白质复合物的进化》期刊简介
医学论文免费-真核生物复合体的比较聚类(CompaCt)鉴定了新的相互作用并阐明了蛋白质复合物的进化
抽象
络合组分析允许使用分离完整蛋白质复合物的组合方法(例如,通过天然凝胶电泳)对生物样品中的蛋白质复合物进行大规模、非靶向和全面的表征,然后对所得级分中的蛋白质进行质谱分析。在过去的十年中,它的应用导致了大量的复杂组分析数据集。虽然已经开发了用于分析单个数据集的计算方法,但缺乏对来自多个物种的复合体进行大规模比较分析的方法。在这里,我们提出了比较聚类(CompaCt),它可以对来自多个物种的络合组分析数据进行全自动综合分析,从而能够对络合组进行系统表征和比较。CompaCt实施了一种在比较分析中利用正交学的新方法,以允许系统地鉴定所分析复合体的保守元素以及分类单元特异性元素。我们将这种方法应用于跨越真核生物主要分支的53个复合体谱的集合。我们证明了CompaCt能够可靠地识别蛋白质复合物的组成,并表明与单独的分析相比,多个数据集的集成分析改善了特定复合物组谱的复合物表征。我们从先前分析的数据集中在许多物种中发现了新的候选相互作用物和复合物,如emp24,V-ATP酶和线粒体ATP合酶复合物。最后,我们证明了CompaCt在自动大规模表征蚊子按蚊的复合体组中的实用性,从而揭示了后生动物蛋白质复合物的进化。CompaCt 可从 https://github.com/cmbi/compact-bio 获得。
作者摘要
蛋白质在生命的大多数过程中执行基本功能,通常通过与其他蛋白质结合形成多蛋白质复合物。最先进的实验技术(如络合组分析)能够大规模鉴定生物样品中的蛋白质复合物。近年来,随着这种方法的使用增加,这些实验已经在各种物种上进行,其结果是公开的。结合这些实验的结果提出了计算挑战,但可以识别新的蛋白质复合物并提供对其进化的见解。在这里,我们介绍了CompaCt作为一种整合来自多个物种的复合物组谱的方法,能够自动大规模表征蛋白质复合物。它确定了物种之间的共性以及差异。通过将CompaCt应用于一组复合体谱,我们在许多物种中鉴定了候选复合物和相互作用蛋白,这些化合物和相互作用蛋白在以前对这些数据集的单独分析中未检测到。在这样做的过程中,我们阐明了几种蛋白质复合物成员的进化起源,确定了以前未知作用的生物医学相关蛋白质的功能,并对传播疟疾寄生虫的蚊子按蚊斯蒂芬西复合体进行了首次研究。
数字
Fig 8Table 3Table 4图1图2表1Fig 3Fig 4Fig 5Table 2Fig 6Fig 7Fig 8Table 3Table 4图1图2表1
引自:van Strien J, Evers F, Lutikurti M, Berendsen SL, Garanto A, van Gemert G-J, et al. (2023) 真核生物复合体组的比较聚类 (CompaCt) 识别了新的相互作用并阐明了蛋白质复合物的进化。公共科学图书馆计算生物学19(8): e1011090. https://doi.org/10.1371/journal.pcbi.1011090
编辑 器: Dina Schneidman,耶路撒冷希伯来大学,以色列
收到: 6月 2023, 10;接受: 七月 2023, 7;发表: 2023月 <>, <>
版权所有: ? 2023 范斯特里恩等人。这是一篇根据知识共享署名许可条款分发的开放获取文章,该许可允许在任何媒体上不受限制地使用、分发和复制,前提是注明原作者和来源。
数据可用性: 本研究中生成和使用的所有复杂组分析数据集都可以在CEDAR数据库(https://www3.cmbi.umcn.nl/cedar/)上找到。完整的比较集群软件的源代码可在github https://github.com/cmbi/compact-bio)上找到。
资金: JS和ACO得到了荷兰卫生研究与发展组织(ZonMW;TOP 91217009),授予MAH和UB。ML得到了荷兰科学研究组织(NWO;TOP 714.017.00 4),授予UB。FE和TWAK得到了荷兰科学研究组织(NWO-VIDI 864.13.009)的支持,授予TWAK。资助者在研究设计、数据收集和分析、发表决定或手稿准备方面没有任何作用。
竞争利益: 提交人声明不存在相互竞争的利益。
介绍
大多数生物过程是由蛋白质介导的,在许多情况下,蛋白质需要形成多蛋白质复合物才能发挥其功能。复合体组是存在于生物系统中的一整套多蛋白复合物,无论是整个生物体还是更有限的子系统,例如特定组织、细胞类型、细胞器或生命阶段。络合组分析是一种旨在在单个实验中大规模鉴定蛋白质复合物的“组学方法[1],在过去十年中实现了对络合组的非靶向和系统分析,综述于[2]。在络合组分析实验中,天然蛋白质复合物被系统地分离到多个级分中,然后通过串联质谱法分别分析以定量方式评估其含量。包含在相同复合物或亚组装体中的蛋白质通常共迁移,并在所有或部分馏分中表现出相似的丰度分布。这种方法允许以非靶向方式询问大量蛋白质复合物的组成以及它们在给定生物样品中的组装。
近年来,已经开发了几种计算方法来从这些数据中推断蛋白质复合物。其中一些仅依赖于复合物组分析数据[3-5],而另一些则使用已知蛋白质复合物的参考[6-8]或整合其他类型的相互作用证据来改善蛋白质复合物鉴定[7,9,10]。此外,一些工具可以比较一个物种的多个络合组谱,以检查某些突变或条件对所研究的络合组组成或组装的影响[8,11,12]。
自最初应用络合组分析方法以来,已经从至少21个不同的物种生成了越来越多的络合组分析数据集,涵盖了所有生命王国[2],这些数据集可从CEDAR络合组谱数据库获得[13]。原则上,在比较分析中利用这些数据有可能更灵敏地检测新的相互作用物,并促进对蛋白质复合物进化的分析。然而,对多个复合体谱的比较分析提出了方法上的挑战。首先,可用的数据集由不同的实验室生成,使用不同的实验方案和分辨率来分离蛋白质复合物。这使得直接比较“原始”蛋白质迁移谱数据变得困难。其次,虽然整合来自相关物种的络合组谱有助于鉴定多种物种中始终存在的进化保守蛋白质相互作用[9,10],但这些方法排除了物种特异性相互作用器的表征。不仅对保守的,而且对分类单元特异性复合物成员和相互作用的大规模鉴定将导致所研究的复合体组的更完整图像,并将促进蛋白质复合物的进化分析。
为了比较分析多个复合体分析数据集中的蛋白质复合物,我们开发了比较聚类(CompaCt),这是一种计算方法,可以对来自多个物种的蛋白质相互作用数据进行全自动大规模整合。我们利用直交关系的方法允许对多个物种进行组合分析,从而能够在单一、统一的分析平台中鉴定保守的以及分类单元特异性的蛋白质复合物和相互作用。此外,通过为每个分析物种包含多个相互作用数据集,CompaCt能够区分代表真正相互作用者的一致共迁移蛋白质和不相互作用的虚假共迁移蛋白质。因此,它提高了比较分析中包含的单个物种复合物分析的可靠性。
我们已将我们的工具应用于来自九个不同物种的 53 个复合组分析数据集的集合,涵盖主要的真核分支。我们证明,使用CompaCt对这些数据进行综合分析能够系统地恢复已知的保守和分类特异性相互作用,并查明先前分析中遗漏的新相互作用器和复合物。此外,通过对疟疾转导蚊子A的复合体组的首次分析。Stephensi,我们证明了CompaCt在进行蛋白质复合物的大规模和自动鉴定方面的有用性,以增加我们对真核蛋白质复合物进化的理解。
结果
CompaCt:交互数据集的比较聚类
我们的比较聚类(CompaCt)方法对代表许多复合体组(即物种中存在的复合物集,细胞类型等)的蛋白质相互作用数据进行自动比较分析,并且能够系统地鉴定不仅保守的相互作用,而且能够系统地鉴定分类单元特异性相互作用。为此,我们不是问直系同源蛋白之间的相互作用是否保守,这排除了对没有已知直系同源物的蛋白质的分析,而是询问来自不同物种的任何两种蛋白质是否与同一组直系同源蛋白相互作用。因此,即使不同物种的蛋白质组只会部分重叠,我们仍然能够通过识别其相互作用者中的直系同源物来估计两种蛋白质是否是同一复合物的一部分。CompaCt 工作流程的概述如图 1 所示。
缩略图 下载:
.PPT幻灯片
.PNG大图
.TIFF原始图像
图1. CompaCt 分析步骤概述。
(A)来自多个生物系统的输入相关数据集,其中线表示蛋白质之间的相关性,基于它们在络合组分析数据中的迁移曲线的相似性,颜色表示来自不同数据集的蛋白质。(B)确定来自不同数据集的两种蛋白质I和II的相互作用者谱相似性,方法是计算它们的相互作用者(A,B,C等)之间的重叠,当它们来自不同物种时,使用正交学(A-A',C-C'),使用等级偏差重叠指标[14]。(C)将所有具有RBO评分(边缘)的蛋白质(节点)的组合网络聚类到具有MCL的簇中[15]。(D)处理MCL簇,将每个系统分离成子簇(例如,来自同一组织或物种),同时汇集代表同一系统的数据集的信息。
https://doi.org/10.1371/journal.pcbi.1011090.g001
CompaCt 需要所有蛋白质对之间相互作用评分的输入数据集。可以使用任何表示相互作用强度或可能性的数值,允许对每种蛋白质的相互作用者进行排名(例如,相关性、基于机器学习的分数等)。在本项目中使用的CompaCt的具体应用中,我们使用由络合组分析产生的蛋白质迁移模式之间的Pearson相关性作为相互作用评分。为了估计两种蛋白质是否具有共同的相互作用者,我们比较了它们的相互作用集,这些相互作用集根据它们的相互作用得分进行排名。我们将这些排名集称为它们的交互器配置文件。为了能够量化交互者配置文件之间的相似性,我们使用排名偏差重叠(RBO)指标[14]。此指标确定排名列表之间的相似性,同时允许具有非常见元素的不同长度的列表。应用该指标来比较相互作用者谱,我们可以确定来自不同蛋白质组的任何两种蛋白质是否具有共同的直系同源相互作用器,而与它们本身是否是直系同源体无关。为了系统地比较相互作用数据集,然后计算来自所有包含数据集的所有可能的蛋白质对之间的相互作用子谱相似性。在蛋白质对之间计算的完整RBO相似性评分集形成了一个大型超网络的边缘,该超网络连接所有包含数据集中鉴定的蛋白质。使用马尔可夫簇(MCL)算法从该网络中提取连接蛋白质的簇[15]。我们将 MCL 分析产生的聚类称为超聚类。它们包含来自多个数据集的蛋白质混合物,这些蛋白质可能来自不同的复合体组,例如,如果它们来自多个物种,或来自多个子系统,如组织、细胞类型或生命阶段。然后将簇状蛋白质分类为子簇,每个子簇对应于所包含的复合体之一。为了可靠地识别交互器,可以为每个复合体组包含多个交互数据集。利用这些数据集中的信息进行相同的复合体组,通过确定它们属于该集群的数据集的比例来对聚类蛋白质进行评分。这种“分数聚类”(FrC)分数可以确定可能的复杂成员的优先级。为了优先考虑具有高概率呈现实际蛋白质复合物的聚类,根据来自不同数据集的聚类蛋白质集之间的相似性对生成的超簇进行评分和过滤,这是为聚类中表示的所有数据集确定的。CompaCt软件可作为用户友好的命令行工具,以及灵活的Python包,以及详细的文档和说明,来自github(https://github.com/cmbi/compact-bio),python包索引(https://pypi.org/project/compact-bio)和dockerhub(https://hub.docker.com/r/joerivanstrien/compact-bio)。
真核生物复合体谱与CompaCt的联合分析可提高已知蛋白质复合物的回收率
为了比较探索真核生物的络合组,使用CompaCt分析了53个络合组分析数据集。这些数据集代表了来自九种不同真核生物物种中各种生物系统(例如:组织、生命阶段、细胞类型)的一组 12 个复合体组。分析的络合组分析数据的详细概述如表1所示。通过在序列谱水平上包括最佳双向命中来计算敏感的成对正交预测[16]。图2显示了所得超集群的概述,显示了所有集群的大小和集群一致性得分,包括那些未通过CompaCt过滤步骤的集群。簇一致性评分反映了来自不同数据集的聚类蛋白质之间的共性程度。总共确定了726个超星团,每个超星团由一个或多个代表所包含复合体之一的子星团组成。其中332个通过了CompaCt的过滤,以确保数据集之间的一致性。在这332个超星团中,有254个在不止一个复合体中一致地存在。为了自动注释结果,CompaCt 识别与提供的一组参考复合物重叠的集群:36 个一致代表的人类子集群中有 81 个与 CORUM 数据库中列出的复合物重叠 [17](即,包含构成参考复合物的亚基总数的一半以上)。S1 Data 中提供了通过筛选的所有集群的概述,包括详细信息、分数、其组成和自动注释。
缩略图 下载:
.PPT幻灯片
.PNG大图
.TIFF原始图像
图2. 通过对一组复杂组分析数据集的 CompaCt 分析生成的集群概述。
每个点对应于一个MCL超集群,点大小对应于该集群中一致表示的子集群(例如物种)的数量。x 轴表示簇中一致表示的蛋白质数量。y轴上显示的聚类一致性分数是每个数据集中聚类蛋白质之间共性程度的度量。我们确定的对应于已知蛋白质复合物的各种簇已在图中进行了注释。请注意,主要由ras相关蛋白组成的簇不太可能代表大型复合物,因为该蛋白质家族的多个成员的共迁移很可能是由它们的相似质量引起的。
https://doi.org/10.1371/journal.pcbi.1011090.g002
缩略图 下载:
.PPT幻灯片
.PNG大图
.TIFF原始图像
表 1. 分析的复合体概述。
https://doi.org/10.1371/journal.pcbi.1011090.t001
CompaCt 在首先将来自多个复合体的数据集成到单个网络后识别特定于复合体的集群。为了确定与独立的物种特异性分析相比,将多个物种与CompaCt联合分析是否能提高单个物种的蛋白质复合物的回收率,我们计算了人类亚簇与CORUM [17]的一致性,同时在分析中逐步包括其他复合物组(图3).为了计算CompaCt产生的人类子集群与CORUM参考的一致性,我们使用最大匹配率度量(MMR),该分数根据结果聚类和参考复合体之间的映射计算与参考的重叠[27]。从仅对来自人类复合体组的数据集进行单独分析开始,将代表其他复合体之一的每个数据集集合添加到人类数据中,计算其包含产生的MMR。在添加增加MMR最多的络合组数据后,重复此过程,直到最终包括来自所有12个络合组的数据。在每一步中,都会添加增加MMR最多的复合体数据,以证明即使在早期步骤中添加了信息量最大的数据后,随着其余数据集的加入,MMR也进一步增加。在大多数情况下,包含来自其他物种的数据集导致更高的MMR,与单独分析相比,反映了人类亚团与CORUM参考复合物的一致性有所提高(图3)。这突出了包含一组不同的复杂组数据的效用,而不是单独的分析,即使重点是特定系统。
thumbnail 下载:
.PPT幻灯片
.PNG大图
.TIFF原始图像
图3. 将来自其他复合体的数据纳入CompaCt分析对H一致性的影响。智人聚类结果与CORUM v4[17]。
从仅代表人类复合体组的数据集开始,将来自其他复合体的数据集逐个添加到分析中,并在包括每个数据集后计算MMR。然后以渐进的方式添加其余数据集,优先考虑导致MMR增加最高的数据集。y轴显示人类亚簇与蛋白质复合物的CORUM参考集之间的最大匹配率(MMR),反映了已识别的簇与参考的重叠。在每个步骤中,显示包含来自每个剩余复合体组的数据所产生的MMR。
https://doi.org/10.1371/journal.pcbi.1011090.g003
值得注意的是,虽然通常随着分析中包含其他数据,人类复合物的恢复会有所改善,但效果因复合物组和包含阶段而异。鉴于分析数据的异质性(例如,分辨率、重复次数、检测到的蛋白质数量、样品处理、与人类的进化距离等),我们无法从中确定哪些数据集特征对提高复合物的回收率贡献最大。关于根据包含数据的阶段的不同好处,低分辨率数据集(例如来自 A 的数据集)可能会降低分辨率的数据集。塔利亚纳)最初可能不利于在超网络中形成定义明确的模块,而在存在足够的高分辨率数据以形成明确定义的模块的情况下,它们可能会增加一些价值。
据我们所知,CompaCt的独特之处在于它能够对来自多个复合体组的PPI数据进行组合聚类,同时允许簇的组成因复合体组而异,从而能够识别分类单元特定的元素。然而,为了将CompaCt的性能与旨在从单个复合物组中识别复合物的现有方法进行比较,我们将其与ClusterONE的性能进行了比较(27),ClusterONE是一种最先进的方法,通常用于从蛋白质相互作用数据中识别蛋白质复合物[7-9,28]。我们将ClusterONE应用于用作CompaCt输入的人类蛋白质相互作用数据集。与 CompaCt 结果相比,S1 附录中的图 A 显示了使用优化参数的 ClusterOne 输出集群与 CORUM 的一致性(S1 附录中的图 A,S1 附录中的补充方法)。当应用于人类复合体组数据时,CompaCt性能与ClusterONE相当,但当应用于完整的复合体组集时,它的性能优于ClusterONE。
CompaCt 允许通过对保守亚基和分类单元特异性亚基的可靠鉴定对复合物进行比较分析
为了证明CompaCt能够从络合物组分析数据(包括分类单元特异性亚基)的分析中准确恢复复合物的组成,我们重点关注了H中五个经过充分研究和分离的氧化磷酸化(OXPHOS)复合物。智人,Y.脂多菌和A.塔利亚娜。包含表示同一复合体的多个数据集的能力允许 CompaCt 使用 FrC 分数将成员资格置信度分数分配给集群成员。因此,我们确定了OXPHOS复合物通过其相应的簇的回收率,同时改变了簇成员的基于FrC的纳入标准(图4)。这些结果表明,基于最小FrC选择蛋白质大大减少了假阳性的包含,同时损失了有限数量的已知亚基。为了量化这一点,我们计算了每个选择标准的真阳性恢复率与假阳性和漏分数(即Jaccard指数)的比率。除了提供簇成员的FrC分数外,CompaCt还实施了一个额外的标准,以包括可能的相关簇成员,称为“最佳猜测”选择:除了本身符合FrC阈值的蛋白质外,当其他簇状蛋白质在一个子簇中具有直系同源物或等效物时,也包括在内对应于另一个符合FrC阈值的复合体组。使用该标准回收OXPHOS配合物导致除一个复合物组外的所有复合物中Jaccard指数最高(图4)。因此,基于数据集中来自其自身物种或其他物种之一的一致共迁移确定蛋白质优先级的能力有助于从虚假聚集的蛋白质中识别真正的复杂成员。
thumbnail 下载:
.PPT幻灯片
.PNG大图
.TIFF原始图像
图4. 通过四个复合物组中的相应子簇回收五个氧化磷酸化复合物。
x 轴类别对应于子簇的不同蛋白质包含标准。这些分数反映了要包含的蛋白质的最小分数聚类(FrC)分数:即,该蛋白质是集群的一部分,每个复合体组的数据集数量。“bg”(“最佳猜测”)选择标准包括分数聚集超过1/2的所有蛋白质。除此之外,它还包括FrC评分较低的蛋白质,但直系同源蛋白得分高于1/2的簇。高于零的条对应于相应簇中包含的所有蛋白质的计数。低于零的条形对应于至少一个数据集中存在但不属于相应聚类的已知复杂成员(漏报)。条形上方的数值表示每个选择标准的 Jaccard 指数值(真阳性除以真阳性、假阳性和假阴性)。(一) H.智人,(B)Y。脂质菌,(C)A。拟南芥幼苗,(D) A.塔利亚纳叶。
https://doi.org/10.1371/journal.pcbi.1011090.g004
详细分析了最大的OXPHOS复合物I的回收率,以说明CompaCt的输出可用于重建多个物种中复合物的组成(图5)。在这三个物种的总共149个已知亚基中,至少在一个分析数据集中检测到135个。其中,128个是相应集群的最佳猜测选择的一部分,11个是集群的一部分但低于阈值,0个亚单位不属于复合物I集群。6种蛋白质是簇的最佳猜测选择的一部分,但不是已知的亚基(HS:5YL:1,在:65290)。两种不与其他复合物I亚基At3g08610和At1g29聚集的拟南芥蛋白仅在六个拟南芥数据集中的一个中检测到,并且在这些数据中显示出与其他复合物I亚基明显不同的迁移。在冷冻电镜结构中观察到的与复合物I相关的脂质乳杆菌硫转移酶(ST1)[30]不与其他复合物I亚基聚集。由于ST1仅在颗粒的一个子集中发现,并且其基因的遗传缺失不会影响复合物I的组装和功能[31],因此它被认为是Y的亚化学计量和非必需亚基。脂解复合物I.像两个A。拟南芥蛋白,其在络合组分析数据集中的迁移与其他亚基不同。这并不奇怪,因为已知ST132在BN-PAGE期间与复合物I解离[13]。除了这三个之外,我们还能够回收这三个物种中检测到的所有其他<>个复合物I亚基,包括仅存在于其中一个分析物种中的<>个分类单元特异性亚基。
thumbnail 下载:
.PPT幻灯片
.PNG大图
.TIFF原始图像
图5. H中呼吸链复合物I的恢复。智人,Y.脂多菌和A.thaliana 由相应的 CompaCt 输出集群。
检测到绿色的子单位,并且是群集的一部分。在任何分析的络合组谱中均未检测到黄色亚基。在至少一个复合组分析数据集中检测到红色的亚基,但不是集群的一部分。蛋白质复合物的分类单元特异性元素在彩色背景下描绘,其他元素对应于保守元素。列中的蛋白质是直系同源物或命中率最高的同系物。
https://doi.org/10.1371/journal.pcbi.1011090.g005
对络合物组谱的大规模分析可精确定位新的候选复合物和相互作用体
此分析中使用的所有数据集,但来自 A 的数据集除外。斯蒂芬西,以前曾单独研究过,经常回答有关特定复合体或一组复合体的研究问题。尽管大多数分析的络合组谱是由富含线粒体的样品生成的,但它们也始终如一地捕获位于细胞其他隔室中的许多复合物。本研究的目的之一是利用系统方法和提高与CompaCt对这些数据进行综合分析的灵敏度,以确定新的候选相互作用物和蛋白质复合物。为此,我们检查了分析产生的45个簇,这些簇可能代表(部分)蛋白质复合物(表2)。这些簇的“最佳猜测”选择成员来自先前研究过络合组的七个物种,总共包含1603个蛋白质。通过评估这些蛋白质的UniProt记录,我们确定其中1343种蛋白质已经有证据表明它们与相应的蛋白质复合物相关联,范围从基于序列的预测到实验证据[32]。UniProt 中的其余 260 个条目不包含与相应复合体有关的证据。其中,17个簇状蛋白质被鉴定为其他分析物种之一中已知复杂亚基的直系同源物,表明它们的功能已保守。S2 数据中提供了每个集群和物种的已识别成员的详细概述。我们将更详细地讨论三个被分析的集群:emp24复合体,F1Fo-ATP合酶复合物和液泡型ATP酶复合物。
thumbnail 下载:
.PPT幻灯片
.PNG大图
.TIFF原始图像
表 2. 45个被检查的超星系团概述。
https://doi.org/10.1371/journal.pcbi.1011090.t002
进化保守 p24 复合物的证据
已发现p24蛋白家族的成员在顺行和逆行囊泡ER-高尔基体运输中作为货物受体发挥作用。在酵母中,已经表明该蛋白家族的成员形成异构蛋白复合物,由emp24p、erv25p以及最有可能的erp1p和erp2p组成[33,34]。这四种蛋白质一致地聚集在Y中。脂解体,支持它们形成异构复合物的假设(图6A)。包含 Y 的超星系团。脂解菌p24蛋白也含有H。智人和P.恶性疟原虫亚簇与p24蛋白家族的成员(图6A)。在这三个物种中对该蛋白质家族的所有成员(InterPro ID:IPR015720)[35]的系统发育分析表明,在分析的复合体谱中检测到该家族的所有人类代表,除了一个(TMED6)之外,并且是同一集群的一部分。虽然一些人类p24蛋白之间的相互作用先前已被显示,并且例如存在于蛋白质-蛋白质相互作用数据库STRING[36]中,但这些蛋白质尚未被分配到H中的多亚基复合物中。智人。根据人络合体谱估计的检测到的蛋白质复合物的表观质量为~110-120 kDa(S1附录中的图B),与五个簇状亚基的假定异构复合物的质量(125 kDa)大致匹配。TMED4,TMED5和TMED7是由脊椎动物根部最近的基因复制引起的(图6B)。它们是p24簇的一部分,但不构成“最佳猜测”选择阈值,因为它们与复合物的聚类不一致,并且不能预测为与其他聚集蛋白之一的一对一直系同源物。然而,它们在簇中的存在及其同源性表明,它们可能在人类p24复合物的一个子集中以亚化学计量方式取代它们各自的旁系同源物。P.恶性疟原虫亚簇包含所有四个P。p24蛋白家族的恶性疟原虫代表(图6A),但没有对疟疾寄生虫中的p24复合物进行特异性研究。然而,其中两种(PF3D7_0526900,PF3D7_0422100)已被证明在成对测定中相互作用,并且对肝期活力或孢子体感染性至关重要[37]。值得注意的是,PF3D7_13333300已被预测与顶端蛋白酶相互作用,这似乎与ER-高尔基体蛋白运输中的作用不一致[38]。疟原虫 emp24 复合功能在多大程度上是保守的,以及在肝脏或孢子体阶段是否存在特定功能仍有待探索。
thumbnail 下载:
.PPT幻灯片
.PNG大图
.TIFF原始图像
图6. P24蛋白簇概述。
(A)含有Y中p24家族蛋白质的CompaCt输出簇概述。脂多菌,H.智人和P.恶性肿瘤。显示分数聚类分数超过 0.5 或最佳命中同系物的聚类蛋白质。列中的蛋白质是直系同源物或最好在同一块中具有两种或多种蛋白质的同系物,反映了可能的基因重复。(B)上述三个物种中p24蛋白家族所有代表的系统发育树。物种特异性分支已被着色。在本项目使用的数据中未检测到的蛋白质家族成员以灰色显示。序列与ClustalOmega对齐[39],并用PhyML重建系统发育树[40]。CompaCt方法很好地捕获了蛋白质家族的动态进化,其成员是一个复合物的一部分。
https://doi.org/10.1371/journal.pcbi.1011090.g006
ATP合酶亚基的高置信度分配
F型1Fo-ATP合酶复合物是一种高度保守的复合物,是真核生物和细菌线粒体能量转换的核心,并且已经在所有模式物种中得到了很好的研究。在多个复合体中,该复合物的许多成员形成一个超团簇(图7)。以前没有报告两个人类簇成员作为ATP合酶亚基,但其中一个(C15orf61)最近被Morgenstern等人观察到与ATP合酶亚基共迁移。在复合组分析实验中[41]。我们可以确认C15orf61在多次重复和研究中始终与ATP合酶共迁移,因为它是唯一一个FrC高达6/8的非ATP合酶亚基簇成员。虽然根据实验数据将其注释为分泌蛋白,但根据MS/MS和APEX标记实验以及预测线粒体靶序列的存在,预测它是线粒体蛋白3.0中的线粒体蛋白[42]。为了确定C15orf61的缺失是否会影响ATP合酶复合物的功能,我们在人HEK细胞中产生了C15orf61敲除。消融C15orf61对1种单独的OXPHOS复合物的酶活性没有显着影响,尽管配合物I的活性趋于较低(S2附录中的图C)。IGF2BP5(FrC: 8/43)不被预测为线粒体蛋白,已被赋予mRNA结合和转运的功能[0117300]。P.诺莱西ATP合酶亚簇包含四种蛋白质,这些蛋白质以前未被描述为该复合物的亚基。其中三个亚基:PKNH_0725400、PKNH_1124100和PKNH_0725400是已知T的直系同源。贡迪ATP合酶亚基,表明它们作为复合物V亚基的功能在顶复物中是保守的。为了支持这一点,预测PKNH_1124100和PKNH_44在线粒体上位于血浆MitoCarta中[1]。最后,未表征的TGGT233890_45蛋白,T之一。Gondii簇成员之前未被描述为亚基,已被分配到线粒体内膜[<>],与我们的分配一致。
thumbnail 下载:
.PPT幻灯片
.PNG大图
.TIFF原始图像
图 7. 包含来自H中线粒体ATP合酶复合物的亚基的CompaCt输出簇概述。智人,P.诺莱西和T.弓形复合体。
簇状 P.恶性疟原虫和H.显示分数聚类分数超过 0.5 或最佳命中同系物的智人蛋白质,以及它们的簇状弓形虫直系同源物。标记为“预测线粒体”的人类蛋白质列在Mitocarta 3.0中[42]。具有这种标记的疟原虫和弓形虫蛋白分别由PlasmoMitoCarta[44]和HyperLOPIT研究[45]预测。
https://doi.org/10.1371/journal.pcbi.1011090.g007
后生动物外的V-ATP酶复合物
液泡型ATP酶(V-ATPase)是一种高度保守的真核质子泵,负责各种细胞内区室或整个细胞的酸化。该复合物细分为两个模块,膜结合V0模块和亲水性V1模块。五世0该复合体的模块在与V的单独超星团(集群7)中表示1模块超集群(集群13,S1数据),由两个模块的不同迁移模式引起,这反过来可能是由于实验过程中的解离。的 V0模块 H.智人,Y.脂多菌,A.塔利亚娜和P.恶性疟原虫亚簇如图8所示。我们提出了P的第一个特征。恶性基于实验数据的V-ATP酶复合物。虽然一些检测到的亚基身份从基于序列的同源性中是明确的,但我们的集群包含该复合物的几个潜在的新亚基,这些亚基要么是分类单元特异性的,要么是无法通过标准同源检测方法建立的直立学。
thumbnail 下载:
.PPT幻灯片
.PNG大图
.TIFF原始图像
图8. 包含膜组分亚基的CompaCt输出簇概述(V0)的空泡ATP酶复合物(V-ATPase)在H中。智人,Y.脂多菌,A.塔利亚娜和P.恶性疟原虫复合体。
显示分数聚类分数超过 0.5 的簇状蛋白质或与这些蛋白质的最佳命中同系物。列中的蛋白质是直系同源物或最符合同系物的,并根据它们以前是否与该蛋白质复合物相关进行标记。同一块中的两种或多种蛋白质表明可能存在基因重复。对于标记为“与复合物相关”的蛋白质,有一些先前的证据将它们与V-ATP酶复合物相关联,而对于其他蛋白质则没有。
https://doi.org/10.1371/journal.pcbi.1011090.g008
尽管该簇的两个成员被注释为功能未知的蛋白质,但基于谱的同源性搜索将它们确定为人类V-ATP酶亚基ATP6AP2的直系同源物:at3g24160(A。塔利亚纳)和PF3D7_0613100(P.恶性)。ATP6AP2的直系同源物以前未被鉴定为后生动物以外的V-ATP酶的亚基。另一种蛋白质是P的一部分。恶性疟原虫亚簇PF3D7_0713700,我们将其确定为人类V-ATP酶亚基ATP6AP1的可能直系同源物,尽管由于hh搜索结果高于阈值(E值= 1.6),因此未预测具有人类直系同源物。应该注意的是,ATP6AP1的进化速度非常高,人类和酿酒酵母ATP6AP1蛋白之间的序列一致性也非常低[46]。此外,我们预测 A0A182XX75 为 A。ATP6AP1的斯蒂芬西直系同源物,也是对应于V的星团的一部分0V-ATP酶的成分。值得注意的是,C端跨膜(TM)区是该蛋白家族中唯一保守的部分,其缺乏序列保守性已在之前被证实[46,47]。我们现在将ATP6AP1扩展到按蚊和疟原虫,其中疟原虫ATP6AP1只有209个氨基酸长,有两个预测的TM螺旋(位置:5-25,168-190),而人类有239个氨基酸,在弗林切割位点切割原始蛋白质后只有一个TM区域[47]。ATP6AP1的C端TM区域及其直系同源物在许多物种中的对齐,如S1附录中的图D所示。Y.脂解菌亚簇含有YALI0_F09405g,这种蛋白质在InterPro数据库中被预测含有“V-ATP酶蛋白脂亚基”结构域(IPR035921)[35],但其复杂的成员尚未建立。此外,在其他分析物种之一中没有直系同源物的几种蛋白质是该集群的一部分。人MCUR1蛋白具有作为线粒体钙单转运体调节因子的已知功能,并且定位于线粒体[48],因此它不太可能是这种复合物的一部分。Y.脂解蛋白YALI0_E16126g没有已知的功能,但与STRING数据库中[36]中所示的已知亚基共表达,因此是Y的潜在相互作用体。脂质菌V-ATP酶复合物。最后,几种V-ATP酶候选药物包含在两个P中的一个中。恶性疟原虫复合体,其中只有PF3D7_1112000在两者中具有较高的分数聚集评分(6/8)。PF3D7_1112000是一种功能未知的小(72个氨基酸)蛋白质,预计含有两个跨膜螺旋,占据了大部分蛋白质,这表明可能在V中起作用0V-ATP酶复合物的模块。
新型复合物组的CompaCt分析揭示了呼吸链复合物的演变
为了证明CompaCt适用于表征未经研究的复合体组,我们生成并纳入了与本研究一起发表的蚊子A数据集。斯蒂芬西。这是对来自原口物种的复杂组分析数据的首次大规模分析,原口是双侧的两个主要分类群之一。我们为多蛋白复合物成分的起源提供了实验证据,这些复合物主要基于它们的直系学,来自Deuterostomes的实验表征蛋白质,Deuterostomes是包含脊椎动物的另一个主要分类单元。我们从分离P生成了两个数据集作为副产品。来自A的恶性孢子体。斯蒂芬西唾液腺并检测到寄生虫蚊子宿主的925种蛋白质。S1附录中的表A提供了推定A的概述。通过CompaCt分析鉴定的斯蒂芬西复杂亚基。来自对应于H等经过充分研究的物种之一的已知复合物的超团。智人和A.thaliana,我们确定了十五个包含A的簇。斯蒂芬西蛋白与其他物种之一的已知簇成员同源。在这些簇中,我们为87种蛋白质提供了实验支持,这些蛋白质与各自复合物的关联仅基于序列相似性。此外,我们鉴定了五种功能未知的蛋白质,它们都与复合物聚集在一起,并且与其他分析物种之一中的已知亚基直系同源。S2 数据中提供了每个簇中鉴定的蛋白质的完整列表。
其中一个确定的簇对应于线粒体呼吸链复合物细胞色素c氧化酶(复合物IV)。该簇包含四种基于序列相似性的预测与该蛋白质复合物相关的蛋白质:A0A182XZQ2,A0A182YLP4,A0A182YLP7和A0A182Y5T1。此外,该簇含有按蚊蛋白A0A182Y1F7,果蝇CG7630蛋白的直系同源物,最近被鉴定为哺乳动物细胞色素c氧化酶亚基COX7B的直系同源物,以前被认为是脊椎动物特异性的[49]。COX7B、按蚊A0A182Y1F7蛋白和果蝇CG7630蛋白的比对显示在S1附录的图E中。A.斯蒂芬西ATP合酶簇包含两种蛋白质(A0A182YCB1,A0A182YSV3),它们与人类β亚基的同系物最接近,以及两种蛋白质(A0A182Y5P7,A0A182YCU3)与ε亚基最能击中同系物,表明这两个基因已被复制,并且所有四个基因都保留了它们作为复合物V亚基的作用。
讨论
公共CEDAR数据库中来自各种物种的复杂组分析数据的可用性越来越高,为这些数据的大规模和自动分析打开了大门[13]。然而,缺乏能够对蛋白质相互作用数据进行自动大规模比较分析以利用这些丰富信息的方法。在这项工作中,我们展示了来自多个物种的蛋白质相互作用数据与CompaCt大规模整合的潜力。与现有方法相比,我们集成交互数据的方法有几个优点。首先,使用交互子配置文件比较数据集可避免直接比较迁移模式,从而规避了由于协议差异引入的批量效应和阻碍直接比较的复杂分离分辨率而造成的困难。其次,间接使用直系学来确定两个蛋白质的相互作用器集之间的相似性,而不是直接连接直系同源蛋白,从而可以掺入没有已知直系同源物的蛋白质,从而检测分类单元特异性相互作用成员或已经偏离的蛋白质,超出了基于序列的同源性检测方法可以检测到的范围。前者的一个例子是emp24复超星系团,我们在其中确定了H中这个复合物的假定组成。智人,P.恶性疟原虫和Y.脂解菌,即使它在这些物种之间有所不同,并且包含分类单元特异性元素。这表明,我们的方法很好地捕获了蛋白质家族的动态进化,其成员是一个复合物的一部分。这种方法的另一个好处是,它对数据集之间蛋白质标识符的不完全直立或不完全对应表现出鲁棒性。我们发现,在许多情况下,CompaCt仍然能够根据相互作用者之间的正交学恢复这些蛋白质和相互作用。例如,许多线粒体编码的复合物I亚基被正确聚类,即使由于各种复合体数据和用于正交学预测的蛋白质组之间的标识符不匹配,它们的正交学被遗漏了(S1附录中的图E)。
从络合组分析数据中鉴定复合物的主要挑战之一是出现虚假共迁移的蛋白质或蛋白质复合物,因为数千种鉴定的蛋白质通常仅被分离成60个级分。我们证明,通过基于交互的一致性系统地确定集群成员的优先级,通过包含来自同一物种的多个交互数据集,我们能够大大简化对以前对所用数据集的单个分析中遗漏的新型潜在交互者的识别。例如,我们在V-ATP酶复合物中发现了许多新的候选相互作用物,其中PF3D7_0613100和AT3G24160通过基于谱的同源性被预测为人V-ATP酶亚基ATP6AP2的直系同源物(图8)。同样,PF3D7_0208800和PF3D7_0505900分别与ER膜和预折叠蛋白复合物一致聚集,并使用基于谱的同源性(S10数据)预测为这些复合物(EMC6,PFDN1)的人类亚基的直系同源物。
Stacey等人最近表明,蛋白质-蛋白质相互作用网络的聚类容易受到噪声的影响[50]。他们发现,由此产生的簇的一部分是稳定且对噪声的鲁棒性,而其他则不是,前者通常与生物学相关,并提出了一种扰动策略来确定团簇的稳定性。CompaCt 不是使用扰动方法来识别可能的生物学相关和稳定的簇,而是利用它组合多个数据集的事实来确定来自不同数据集的蛋白质及其直系同源物聚集在一起的一致性,由“簇一致性”分数捕获。
CompaCt 将来自多个复合体的数据集成到单个网络中,然后将它们聚类在一起,然后提取特定于复合体组的簇。我们表明,与单独的分析相比,这有两个主要优势,在单独的分析中,蛋白质根据来自单个复合物组的数据分配给复合物。首先,存在于多个物种中的保守蛋白质复合物通常被分组为同一跨物种超簇的子簇,无需从单独的分析中进行后验匹配或对齐簇。更重要的是,我们证明了我们的多个复合物组合聚类的方法导致蛋白质复合物组成的整体更好的回收率,通过在分析中包括额外的复合物组时显示与已知参考的一致性改善。例如,在数据集中仅部分检测到的蛋白质复合物通常很难检测到,但仍可能包含其他实验中遗漏的新型相互作用物。这方面的一个例子是本研究中鉴定的三个候选疟原虫ATP合酶亚基,尽管与已知的T直系同源,但在最初的出版物中被遗漏了。贡迪ATP合酶亚基。Evers等人分析了配子细胞和无性血期寄生虫的线粒体复合体组,描述了ATP合酶的组成,但未能检测到这些蛋白质[24]。Hillier等人对全细胞裂殖复合体谱进行了大规模聚类分析,他们没有鉴定出定义明确的ATP合酶簇,因为该复合物仅在他们的一个重复中得到了很好的代表[9]。在我们的联合分析中,ATP合酶在多个复合体组中表示,从而产生了定义明确的ATP合酶簇,其中包括Hillier等人的数据中检测到的三个亚基,这些亚基在Evers等人的络合组谱中仍未检测到。
通过固有地允许以无监督的方式在物种之间传递信息,CompaCt 简化了以前未研究的复合体组的大规模表征。这可以通过鉴定A中的许多复合物和相互作用体来证明。斯蒂芬西复合体。对以前未研究的物种中的复合物进行自动大规模表征可以揭示复杂的进化。虽然亚基的进化起源可以仅根据直系同源物的分布来推断[51],但这种方法有两个缺陷。首先,它可能无法通过基于序列的方法检测同源物。这方面的一个例子是 A0A182XX58,一个 A。与复合物I聚集的斯蒂芬西蛋白;它最接近的人类同源物是复合物I亚基NDUFA3,但在我们的分析中没有被确定为直系同源物,因为HHsearch产生的E值不符合显著性阈值(hhsearch E值= 0.056)。在起草这份手稿时,D.根据冷冻电镜数据,该蛋白的黑腹果直系同源物被鉴定为NDUFA3的直系同源物[52],支持这一发现。其次,物种中直系同源物的存在并不一定表明它是同一复合体的一部分。例如,P.恶性疟原虫蛋白ApiCOX13(PF3D7_1022900)最近被鉴定为复合物IV的亚基,是我们复合物IV簇的一部分。然而,使用基于序列的同源性,该蛋白可以鉴定为人类蛋白质CISD3的直系同源性,CISD0不是人类复合物IV的一部分。对应于呼吸链复合物I的按蚊亚簇包含A182A9YAZ10,即A。哺乳动物复合体I亚基NDUFA53的斯蒂芬西直系同源物。虽然该蛋白在整个后生动物中具有直系同源物,但尚不清楚该蛋白何时成为复合物I的一部分,因为有证据表明核苷激酶功能超出了其作为复合物I亚基的作用,并且该蛋白结合dGTP[54]。值得注意的是,这种蛋白与脱氧核糖核苷激酶同源,其活性位点是保守的[1]。此外,它在人和牛复合体谱中的迁移(S1附录中的图F)表明,它除了是复合物I的一部分外,还以单体形式存在,表明作为单体酶和复合物I的亚基具有潜在的双重作用。我们的结果表明,这种蛋白质是Protostomes中复合物I的一部分,这表明它已经是双侧骨根部复合物I的亚基。这种蛋白质在A中的迁移。斯蒂芬西没有明确表明它以单体形式存在(S<>附录中的图F)。
在这项研究中,为了对复合体谱中蛋白质对之间的相互作用可能性进行评分,我们使用了皮尔逊相关性。该指标是最常用的指标,通常可以很好地从复合体组配置文件中确定交互伙伴。然而,最近的研究表明并证明了其他几个指标或基于机器学习的分数在确定交互作用方面的有效性[7,8,11,28,55]。在这里,我们避免使用这些,因为我们的重点是集成交互数据集的方法,而不是确定数据集内的最佳交互指标。此外,其中一些指标依赖于外部证据和一组已知复合物的参考,而这些复合物不适用于一些研究较少的物种。但是,由于这些其他指标在某些情况下可能更适合确定交互可能性,因此重要的是要注意,CompaCt 软件能够分析以前使用任何相似性指标评分的交互矩阵。
总之,与现有方法相比,比较物种之间蛋白质相互作用数据的方法能够对多个复合体进行更完整的比较分析。虽然CompaCt用于分析多蛋白复合物及其相互作用物,但它也可用于比较分析其他类型的相互作用数据,如基因共表达数据或识别共调控基因的模块。
方法
CompaCt 软件
输入数据。
CompaCt 对代表一个或多个生物系统(例如物种、组织、细胞类型等)的多个蛋白质相互作用数据集进行综合聚类分析。
交互作用数据集由一组表示蛋白质的元素组成,每对元素之间的实数分数表示交互可能性,可以表示为相关或交互得分的对称矩阵。可以使用任何反映相互作用可能性或强度并允许对每种蛋白质的相互作用者进行排名的数字指标或分数。或者,可以提供原始元素表达/丰度数据(例如:在络合组谱的情况下,每个级分的蛋白质丰度),在这种情况下,CompaCt 会自动计算元素对之间的 Pearson 相关分数。提供的数据集被细分为“集合”,其中每个集合应代表一个不同的生物系统,我们期望蛋白质相互作用彼此相同(例如,人成纤维细胞,拟南芥叶,疟原虫线粒体等)。通过对一致聚类的蛋白质进行优先级排序,可以包含代表同一集合的多个数据集,以更可靠地识别真正的交互者。代表相同物种的多个数据集应使用相同的蛋白质标识符,但允许包含不同大小的不同元素集。为了能够比较和识别来自不同物种的数据集之间的共同元素,需要提供这些物种之间的成对“一对一”正交。物种之间的成对直系学表示为一组标识符对,每个物种一个,代表直系同源蛋白质。不要求其中一个物种的数据中存在的每种蛋白质在任何其他物种中都具有直系同源物。
将交互者配置文件与排名偏差重叠进行比较。
对于每个数据集中的每个元素,将确定此数据集中所有其他元素的排名列表,按从最高交互得分到最低的顺序排列。这个排名列表被称为分子的相互作用子图谱。为了能够确定来自不同相互作用数据集的两种蛋白质在多大程度上具有一组共同的相互作用蛋白,我们使用非外推秩偏重叠(RBO)指标[14](github.com/changyaochen/rbo)来确定它们的相互作用者谱之间的相似性。RBO 是一种所谓的基于集合的重叠指标,它分配一个介于 0 和 1 之间的值,表示两个元素列表的排名之间的相似程度。
RBO 指标具有两个属性,使其适用于交互器配置文件的比较。首先,排名列表可以包含两个列表中不常见的元素,并且允许具有不同的长度。这对于相互作用子谱的比较是必需的,因为通常在不同的数据集中鉴定出一组不同的蛋白质,并且在物种之间比较时,部分蛋白质很可能在其他物种中没有直系同源物。其次,RBO 是一个“头重脚轻”的分数,在确定重叠时会为列表顶部分配更多的权重,并使用可调参数来确定指标“头重脚轻”的程度。关注高分相互作用器具有生物学意义,因为只有得分最高的蛋白质才可能是给定蛋白质的真正交互者。此 RBO 顶部重重度参数是 CompaCt 工具中的可调参数。为了确定该参数的合适默认值以分析络合组分析数据,我们确定了更改此参数对恢复属于同一蛋白质复合物的蛋白质对的影响(S1附录中的图G),表明参数值为0.9导致同一复合物的所有蛋白质对的最高中位数排名, 并且秩偏重叠能够优先考虑属于同一复合物的蛋白质对,而不是其他蛋白质对。
为了限制计算成本,计算 RBO 分数时的搜索深度(即排名列表的长度)受到限制,因此不考虑对 RBO 分数影响很小的较低排名。默认情况下,将计算每个等级的贡献,并使用累计贡献 RBO 分数 99% 的等级。为了计算来自不同物种的相互作用者配置文件之间的等级偏向重叠,使用成对直交法来确定排名列表之间的共同元素。在计算RBO分数时,来自不同物种的直系同源蛋白质被认为是共同元素,而其他蛋白质则被认为是该列表独有的。
互惠热门歌曲
2个数据集之间的成对全对全比较导致大量的RBO分数,其中大多数不会代表具有实际共享相互作用器的蛋白质。为了减少在 CompaCt 工作流的后续步骤中考虑的数据量和 CPU 时间,我们希望排除无信息的相似性分数。然而,代表一组真正的共享交互体的绝对RBO评分值差异很大,因为由于共享相互作用体数量的差异,来自小蛋白质复合物的蛋白质将导致RBO分数比作为大型复合物一部分的蛋白质低得多。因此,为了在比较两个数据集时选择相关的RBO分数,我们确定对于这两种蛋白质,它们之间的RBO分数是否在所讨论蛋白质的所有分数中排名前1%(CompaCt中的可调参数)。如果是这种情况,我们将其称为“倒数顶命中”,并且该对之间的边缘包含在用于聚类分析的超网络中。
组合网络群集
上述方法用于系统地确定两个数据集之间所有蛋白质的相互作用子谱相似性。然后以成对的方式执行此操作,将每个数据集与所有其他数据集进行比较,无论它们是哪个集合(即代表同一物种/生物系统的多个数据集)的一部分。要对所有数据集执行组合聚类分析,源自所有成对数据集比较的相似性得分应具有可比性。然而,由于不同的数据集可能具有不同数量的常见蛋白质,因此比较的数据集对之间的相似性分数可能会有所不同。因此,在合并这些分数然后聚类之前,对它们进行归一化,以便它们具有相同的平均值。在计算相似性得分、选择倒数最高命中和归一化之后,使用默认参数使用 MCL 聚类算法版本 14–137 [15] 对来自所有包含数据集的蛋白质进行聚类的结果超网络连接。
加工簇:确定蛋白质的优先级
生成的聚类(由 MCL 从超网络中提取)可以包含源自多个数据集和集合的元素。这些超级聚类首先被拆分为子聚类,通过输入集合分隔元素。然后进一步处理包含来自属于同一集合的数据集的元素的子簇,以为每个独特的蛋白质分配单个“分数聚类”(FrC)分数,该分数表示其作为集群一部分的一致性。每个蛋白质和子簇,计算来自不同数据集的元素数量代表该蛋白质,并除以相应集合中的数据集总数(例如,如果为给定集合提供了 4 个数据集,并且当前子聚类包含对应于该蛋白质的元素,用于其中 3 个数据集中的 4 个, 该簇中该蛋白质的分数聚类分数等于 <>/<>)。请注意,为了计算FrC,来自该复合体的数据集总数被用作分母,而不是检测到该蛋白质的数据集数量,因为我们认为未检测到的蛋白质缺乏相互作用的证据。
处理集群:确定集群的优先级
此外,为了确定超簇的相干性得分,计算可能匹配的比例,反映来自不同数据集的相同或直系同源蛋白质聚集在一起的程度。匹配定义为:来自不同数据集的两个“等效”元素是同一超集群的一部分。等效元素是代表同一物种的两个数据集中相同蛋白质的两个元素,或者来自不同物种的两个直系同源蛋白质。然后将在超聚类中找到的匹配总数除以给定聚类组成的可能匹配总数,以获得可能匹配的部分。假设一个簇包含来自数据集 A 的 n 个蛋白质和来自数据集 B 的 k 个蛋白质。然后,可能的匹配数将等于 n 和 k 的最小值。如果簇包含来自两个以上数据集的蛋白质,则可能的匹配数是每个数据集对之间可能匹配的总和。除了计算每个完整超集群的一致性得分外,CompaCt 还计算每个特定子集群的可能匹配分数,以反映该特定系统中每个集群的一致性。例如,包含rubisco复合物的CompaCt超星系团的可能匹配分数的计算如表3所示。该超复合物的组成显示在S1附录的表B中。为了计算可能匹配项的比例,实际匹配项总数 (46) 除以可能匹配项总数 (71),得到 0.648 分。为了去除不太可能与生物学相关的簇,CompaCt 执行过滤步骤,仅保留至少 2 个匹配的簇,以及至少具有一种分数至少为 0.5 的蛋白质。
thumbnail 下载:
.PPT幻灯片
.PNG大图
.TIFF原始图像
表 3. Rubisco超星系团(集群ID:410)实际和可能的匹配。
https://doi.org/10.1371/journal.pcbi.1011090.t003
具有参考复合体的聚类注释
为了简化从输出簇中鉴定蛋白质复合物的过程,CompaCt 使用提供的参考实现了簇的自动注释。对于其中一个输入集合,可以提供引用复合体的集合。对于每个提供的参考复合体,将标识包含该复合体最多成员的聚类。如果集群中存在足够大的一部分复合体,并且可以为其提供阈值,则将使用参考复合体的名称对其进行注释。
真核生物复合体分析
络合组分析。
含有P的唾液腺。从雌性A中收集恶性孢子体。斯蒂芬西蚊(Sind-Kasur奈梅亨菌株),因此均质化[56,57]。然后将匀浆分离成压盖材料和P。恶性孢子体材料或保持不分离。所得蛋白质样品溶解,随后使用BN-PAGE分离[58]。有关此过程的完整说明,请参阅 S1 附录中的补充方法。如[24]所述进行凝胶内胰蛋白酶消化,然后进行质谱分析。
本文中使用的其余复合体图谱是从已发表的研究中重复使用的,并已在CEDAR数据库中公开提供,并从中检索它们。包括雪松种质在内的所用数据集的详细概述可从S1附录的表C中获得。蛋白质丰度按原样使用,在使用CompaCt分析之前未进行归一化或预处理。转换标识符以匹配正交预测中使用的标识符。
细胞培养条件。
HEK293T细胞(ATTCC,293T-CRL-3216)在补充有10%胎牛血清,1%青霉素/链霉素和1%丙酮酸钠的高糖DMEM培养基中培养。细胞在37°C和5%CO 2下培养。
KO HEK293T细胞的产生
使用CRISPR/Cas15系统在HEK61T中敲除C293orf9,然后进行克隆扩增和表征。本工作中使用的所得克隆的特征如表4所示。有关这些方法的完整说明,请参阅S1附录中的补充方法。
thumbnail 下载:
.PPT幻灯片
.PNG大图
.TIFF原始图像
表 4. 本工作中使用的不同c15orf61 HEK293T克隆的特征。
https://doi.org/10.1371/journal.pcbi.1011090.t004
酶活性测量
如前所述,克隆细胞系中呼吸链复合物的酶活性测定[59]。呈现的活性值相对于呼吸链复合物II的活性。
正交预测
成对正交法可以作为 CompaCT 的输入与交互数据集一起提供,以便比较来自不同物种的交互作用数据。为了灵敏地确定该项目中包含的所有物种之间的成对直交,我们确定了它们各自蛋白质组之间的双向最佳命中。同源性检索中使用的蛋白质组列在S1附录的表D中。为了确定两个蛋白质组之间的双向最佳命中,在两个“方向”上都进行了蛋白质原始搜索。任何没有显著(Evalue < 0.001)命中的蛋白质,随后使用hhsuite工具包中的hhsearch使用默认参数进行搜索[60]。来自爆炸的最佳命中集与任何显着的最佳命中hh搜索结果相辅相成。这组组合的最佳命中用于确定每对蛋白质组之间的双向最佳命中。使用了爆炸软件版本2.9.0。自定义爆炸数据库是从上述蛋白质组生成的。使用默认设置的 blastp 对这些数据库运行全对全部爆炸搜索。使用了hhsuite软件版本3.0。自定义谱数据库是根据每个物种使用的蛋白质组生成的,遵循(https://github.com/soedinglab/hh-suite/wiki#building-customized-databases)中提供的协议,按照建议跳过二级结构注释。基于配置文件的同源性搜索使用默认设置使用 hhsearch 运行。
使用CORUM参考对结果进行注释和评估
对于 CompaCt 输出簇的自动注释,可以提供已知蛋白质复合物的参考集。为此,我们使用了CORUM v4 [17]中的完整人体复合体。为了评估CompaCt所得簇与一组人类参考复合物的一致性,我们对人类CORUM参考进行了一些进一步的处理。首先,删除了任何重复的复合体,因此每个复合体出现一次。此外,作为其他配合的子集(通常对应于子组件)的任何配合物都将被删除。为了能够公平地评估聚类方法,而不是基础数据的完整性,从参考文献中删除了八个人类数据集中至少两个未检测到的任何蛋白质。最后,从参考中删除任何含有两种或更少蛋白质的蛋白质复合物(在前面的步骤之后),以专注于基础数据中很好地表示的多蛋白质复合物。为了定量评估CompaCt输出簇与上述参考的一致性,我们使用了最大匹配率,如[27]中所述。
使用CompaCt分析真核生物复合体谱
前面描述的 complexome 配置文件与 CompaCt 命令行工具一起使用默认设置进行分析。包括上述成对直立法以允许物种之间的比较,并包括CORUM参考以自动注释结果簇。为了评估包括来自其他复合体的数据对人类集群结果的影响,使用各种复杂组数据集组合运行了几个额外的CompaCt分析。首先,分析了与人类复合体对应的八个人类复合体分析数据集的单个集合。然后,在单独的运行中,将人类数据集与剩余的每个复合体一起进行分析。选择导致人类子簇与CORUM参考最一致的组合进行进一步分析。然后逐步重复该过程,直到所有复合体都包含在最终分析中。
已检查集群中集群成员的注释
为了确定分析结果簇的蛋白质成员之前是否与相应的蛋白质复合物相关联,检查了它们的UniProt条目是否有任何证据将它们与相应簇所代表的蛋白质复合物相关联(最后访问于3年2022月32日)[<>]。任何类型的证据表明与这种蛋白质复合物有关都被认为是足够的,无论是实验证据还是自动预测。此外,一些缺乏参与UniProt的证据,但我们知道最近有证据表明与相应的复合物有关,这些蛋白质被归类为此类蛋白质。
支持信息
补充图A-G,补充表A-H,补充方法。
显示 1/3: pcbi.1011090.s001.pdf
跳到无花果共享导航
S1附录比较聚类真核生物复合体组的CompaCt识别新的相互作用并阐明蛋白质复合物演化Joeri van Strien1, 菲利克斯·埃弗斯2, 马杜里亚·卢蒂库尔蒂3, 斯蒂恩 L. 贝伦森3杭德罗加兰托3,4,5,吉尔特-扬·范·杰默特2, 阿尔弗雷多·卡布雷拉-奥雷菲采1, 理查德 J. 罗登堡5,6,乌尔里希·勃兰特3,5,7, 塔可·2, 马蒂恩·1*1拉德堡德大学医学中心医学生物科学系,奈梅亨,荷兰2拉德堡德大学拉德堡德传染病中心医学微生物学医疗中心,荷兰奈梅亨。3拉德堡德大学医学中心阿玛利亚儿童医院儿科,荷兰 奈梅亨4部门 of 人类遗传学,拉德堡德大学医学中心,奈梅亨,荷兰5拉德堡德线粒体医学中心(RCMM),拉德堡德大学医学中心,荷兰 奈梅亨6儿科,转化代谢实验室,拉德堡德大学医学院中心,奈梅亨,荷兰7科隆卓越集群关于衰老过程中的细胞应激反应-相关疾病(CECAD),科隆大学,科隆, 德国* Martijn.Huijnen@radboudumc.nl
无花果一个.A) 同意使用 CORUM 对结果进行聚类[1]参考复合体,聚类人类后使用ClusterONE的complexome profile[2]和CompaCt。成对皮尔逊相关性为根据 complexome 分析数据计算,并用作 ClusterONE 和 CompaCt 的输入。应用了 ClusterONE 并评估了其性能每个单独的复合体组配置文件。集群协议使用最大匹配比率对结果进行量化。比较中心的结果是显示时间适用于八种人体复合体谱(“CompaCt HUM”),以及到完整的数据集,包括所有复合体(“CompaCt ALL”)。B-D) 性能不同耳鼻喉科ClusterONE 参数应用于 CRS17 时,当其他参数保持固定时。这性能最高的参数值用于图A所示的性能。使用各种相关分数阈值的工具的性能将边缘包含在集群一输入网络。该 x-轴显示包含的最小相关分数。
1 / 3
下载
无花果分享
S1 附录。 补充图A-G,补充表A-H,补充方法。
https://doi.org/10.1371/journal.pcbi.1011090.s001
(英文)
S1 数据。 真核生物复合体谱的CompaCt分析的输出簇。
https://doi.org/10.1371/journal.pcbi.1011090.s002
(三十)
S2 数据。 已检查集群和集群成员的注释。
https://doi.org/10.1371/journal.pcbi.1011090.s003
(三十)
确认
我们要感谢Marga van de Vegte-Bolmer,Rianne Stoter和Wiebe Kooijman生成P。恶性疟原虫和蚊子感染。我们要感谢Astrid Pouwelsen,Saskia Mulder,Jolanda Klaassen,Laura Pelser-Posthumus和Jacqueline Kuhnen繁殖蚊子以及所有唾液腺解剖以获得孢子体。
引用
1.Heide H, Bleier L, Steger M, Ackermann J, Dr?se S, Schwamb B, et al. Complexome Profile将TMEM126B确定为线粒体Complex I组装复合物的组成部分。细胞代谢表。2012 华侨城;16(4):538–49.密码:22982022
查看文章PubMed/NCBI谷歌学术搜索
2.Cabrera-Orefice A, Potter A, Evers F, Hevler JF, Guerrero-Castillo S. 复合体分析——探索健康和疾病中的线粒体蛋白质复合物。前细胞开发生物学. 2022 12月 9;796128:35096826.密码:<>
查看文章PubMed/NCBI谷歌学术搜索
3.Giese H, Ackermann J, Heide H, Bleier L, Drose S, Wittig I, et al. NOVA:一种用于分析复合体分析数据的软件。生物信息学。2015 1 月 31;3(440):1–25301849.密码:<>
查看文章PubMed/NCBI谷歌学术搜索
4.Páleníková P, Harbour ME, Ding S, Fearnley IM, Van Haute L, Rorbach J, et al.通过质谱法(qDGMS)和络合组分析(ComPrAn)R包进行定量密度梯度分析,用于研究大分子复合物。Biochim Biophys Acta BBA—Bioenerg.2021 1862 月;6(148399):<>.
查看文章谷歌学术搜索
5.舒尔特 U, 登勇敢 F, 豪普特 A, 古普塔 A, 宋 J, 穆勒 CS, 等.线粒体复合体揭示了蛋白质进口的质量控制途径。自然界。2023 2 月 614;7946(153):9–36697829.密码:<>
查看文章PubMed/NCBI谷歌学术搜索
6.Bludau I, Heusel M, Frank M, Rosenberger G, Hafen R, Banaei-Esfahani A, et al.通过 SEC-SWATH-MS 进行以复合物为中心的蛋白质组分析,用于并行检测数百种蛋白质复合物。纳特·普罗托克。2020 15 月;8(2341):86–32690956.密码:<>
查看文章PubMed/NCBI谷歌学术搜索
7.胡LZ, Goebels F, Tan JH, Wolf E, Kuzmanov U, Wan C, et al. EPIC:基于洗脱谱的蛋白质复合物推断的软件工具包。纳特方法。2019 16 月;8(737):42–31308550.密码:<>
查看文章PubMed/NCBI谷歌学术搜索
8.斯泰西RG,斯金尼德马,斯科特NE,福斯特LJ。一种从共洗脱数据(PrInCE)预测相互作用组的快速准确方法。BMC生物信息学。2017 18 月;1(457):29061110.密码:<>
查看文章PubMed/NCBI谷歌学术搜索
9.希利尔 C, 帕尔多 M, 于L, 布谢尔 E, 桑德森 T, 梅特卡夫 T, 等.疟原虫相互作用组的景观揭示了保守和物种特异性功能。细胞代表 2019 28 月;6(1635):1647–5.e31390575.密码:<>
查看文章PubMed/NCBI谷歌学术搜索
10.万 C, 博尔格森 B, 潘斯 S, 图弗, 德鲁 K, 克拉克 G, 等.古代后生动物大分子复合物的全景。自然界。2015 525 月;7569(339):44–26344197.pmid:<>
查看文章PubMed/NCBI谷歌学术搜索
11.Nolte H,Langer T. ComplexFinder:用于分析天然蛋白质复合物分级分离实验的软件包。Biochim Biophys Acta BBA—Bioenerg.2021 1862 月;8(148444):33940038.密码:<>
查看文章PubMed/NCBI谷歌学术搜索
12.范斯特里恩 J, 格雷罗-卡斯蒂略 S, 查齐斯皮鲁 IA, 豪特库珀 RH, 布兰特 U, 胡宁马.共丛组分析分析(COPAL)揭示了巴特综合征中线粒体蛋白复合物的重塑。瓦伦西亚A,编辑。生物信息学。2019 1 月 35;17(3083):91–<>.
查看文章谷歌学术搜索
13.van Strien J, Haupt A, Schulte U, Braun HP, Cabrera-Orefice A, Choudhary JS, et al. CEDAR,用于报告和探索复杂组分析数据的在线资源。Biochim Biophys Acta BBA—Bioenerg.2021 1862 月;7(148411):33722514.pmid:<>
查看文章PubMed/NCBI谷歌学术搜索
14.韦伯 W, 莫法特 A, 佐贝尔 J.不确定排名的相似性度量。ACM Trans Inf Syst. 2010 28 月;4(1):38–<>.
查看文章谷歌学术搜索
15.通过流动模拟进行图聚类。2000.
查看文章谷歌学术搜索
16.Szklarczyk R, Wanschers BF, Cuypers TD, Esseling JJ, Riemersma M, van den Brand MA, et al.迭代直立学预测揭示了新的线粒体蛋白,并将C12orf62鉴定为COX14的人类直系同源物,COX2012是一种参与细胞色素c氧化酶组装的蛋白质。基因组生物学. 22 13 月 2;12(22356826):R<>.pmid:<>
查看文章PubMed/NCBI谷歌学术搜索
17.Giurgiu M, Reinhard J, Brauner B, Dunger-Kaltenbach I, Fobo G, Frishman G, et al. CORUM: 哺乳动物蛋白质复合物的综合资源—2019.核酸研究 2019 8 月 47;1(D559):D 63–30357367.pmid:<>
查看文章PubMed/NCBI谷歌学术搜索
18.Gardeitchik T, Mohamed M, Ruzzenente B, Karall D, Guerrero-Castillo S, Dalloyaux D, et al. 线粒体核糖体蛋白 MRPS2 中的双等位基因突变导致感音神经性听力损失、低血糖和多种 OXPHOS 复合物缺乏。Am J Hum Genet。2018 5 月 102;4(685):95–29576219.密码:<>
查看文章PubMed/NCBI谷歌学术搜索
19.洛博-贾内 T, 佩雷斯-佩雷斯 R, 丰塔内西 F, 蒂蒙-戈麦斯 A, 维蒂格一世, 佩尼亚斯 A, 等.多种途径协调人线粒体复合物IV的组装和呼吸超复合物的稳定。EMBO J. 2020 15 月 39;14(103912):e32511785.pmid:<>
查看文章PubMed/NCBI谷歌学术搜索
20.Alston CL, Veling MT, Heidler J, Taylor LS, Alaimo JT, Sung AY, et al. NDUFAF8 中的致病性双等位基因突变导致具有孤立复合物 I 缺乏症的 Leigh 综合征。Am J Hum Genet。2020 2 月 106;1(92):101–31866046.密码:<>
查看文章PubMed/NCBI谷歌学术搜索
21.Huynen MA, Mühlmeister M, Gotthardt K, Guerrero-Castillo S, Brandt U. 线粒体接触位点 (MICOS) 复合物和线粒体膜间空间桥接 (MIB) 复合物的进化和结构组织。生物化学生物物理学报.2016 1863 月;1(91):101–26477565.密码:<>
查看文章PubMed/NCBI谷歌学术搜索
22.Chatzispyrou IA, Guerrero-Castillo S, Held NM, Ruiter JPN, Denis SW, IJlst L, et al.巴特综合征细胞显示线粒体复合物的广泛重塑,而不影响代谢通量分布。生物化学 生物物理学报 分子基础 2018 1864月;11(3650):8–30251684.pmid:<>
查看文章PubMed/NCBI谷歌学术搜索
23.赫夫勒 JF, 泽内泽尼 基奥齐 R, 卡布雷拉-奥雷菲斯 A, 布兰特 U, 阿诺德 S, 赫克 AJR.细胞凋亡诱导因子1与线粒体呼吸链的细胞色素c氧化酶复合物的分子表征。美国国家科学院院刊 2021 28 月 118;39(2106950118):e34548399.密码:<>
查看文章PubMed/NCBI谷歌学术搜索
24.Evers F, Cabrera-Orefice A, Elurbe DM, Kea-te Lindert M, Boltryk SD, Voss TS, et al.恶性疟原虫线粒体复合物的组成和阶段动力学。纳特公社。2021 12 月;1(3820):34155201.pmid:<>
查看文章PubMed/NCBI谷歌学术搜索
25.麦克莱恩AE, 布里奇斯HR, 席尔瓦MF, 丁S, 奥夫恰里科娃J, 赫斯特J, 等.刚地弓形虫线粒体的络合组谱可识别呼吸链复合物的不同亚基,包括细胞色素 bc1 复合物的新亚基。公共科学图书馆病理学。2021 17 月;3(1009301):e33651838.密码:<>
查看文章PubMed/NCBI谷歌学术搜索
26.利加斯 J, 皮诺 E, 博克 R, 胡宁 马, 迈耶 EH.拟南芥复合物I的组装途径。植物细胞分子生物学杂志. 2019 97月;3(447):59–30347487.密码:<>
查看文章PubMed/NCBI谷歌学术搜索
27.Nepusz T,Yu H,Paccanaro A.检测蛋白质 - 蛋白质相互作用网络中重叠的蛋白质复合物。纳特方法。2012 9 月;5(471):2–22426491.密码:<>
查看文章PubMed/NCBI谷歌学术搜索
28.Havugimana PC, Hart GT, Nepusz T, Yang H, Turinsky AL, Li Z, et al.人类可溶性蛋白质复合物的普查。细胞。2012 150 月;5(1068):81–22939629.密码:<>
查看文章PubMed/NCBI谷歌学术搜索
29.D'Imprima E, Mills DJ, Parey K, Brandt U, Kühlbrandt W, Zickermann V, et al.呼吸复合物I的冷冻电镜结构揭示了与线粒体硫代谢的联系。生物化学生物物理学报.2016 1857 月;12(1935):42–27693469.密码:<>
查看文章PubMed/NCBI谷歌学术搜索
30.Abdrakhmanova A, Dobrynin K, Zwicker K, Kerscher S, Brandt U. 功能性硫转移酶与来自蓍草脂解菌的线粒体复合物I相关,但不需要组装其铁硫簇。2005 年 19 月 579;30(6781):5–<>.
查看文章谷歌学术搜索
31.Morgner N, Zickermann V, Kerscher S, Wittig I, Abdrakhmanova A, Barth HD, et al. Subunit mass fingerprinting of mitochondrial complex I. Biochim Biophys Acta BBA—Bioenerg. 2008 Oct;1777(10):1384–91. pmid:18762163
View ArticlePubMed/NCBIGoogle Scholar
32.UniProt Consortium, Bateman A, Martin MJ, Orchard S, Magrane M, Agivetova R, et al.UniProt:2021 年的通用蛋白质知识库。核酸研究 2021 8 月 49;1(D480):D 9–33237286.pmid:<>
查看文章PubMed/NCBI谷歌学术搜索
33.Belden WJ,Barlowe C.Emp24p和Erv25p的细胞质尾序列在内质网和高尔基体复合物之间的运输中的不同作用。生物学杂志 2001 276 月;46(43040):8–11560939.密码:<>
查看文章PubMed/NCBI谷歌学术搜索
34.Marzioch M, Henthorn DC, Herrmann JM, Wilson R, Thomas DY, Bergeron JJM, et al.Erp1p和Erp2p,酵母p24复合物中Emp25p和Erv24p的合作伙伴。凯撒C,编辑。分子生物细胞。1999 10 月;6(1923):38–<>.
查看文章谷歌学术搜索
35.Paysan-Lafosse T, Blum M, Chuguransky S, Grego T, Pinto BL, Salazar GA, et al.2022 年的英特普罗。核酸研究 2023 6 月 51;1(D418):D 27–36350672.密码:<>
查看文章PubMed/NCBI谷歌学术搜索
36.Szklarczyk D, Gable AL, Nastou KC, Lyon D, Kirsch R, Pyysalo S, et al.2021 年的 STRING 数据库:可定制的蛋白质-蛋白质网络,以及用户上传的基因/测量集的功能表征。核酸研究 2021 8 月 49;1(D605):D 12–33237311.密码:<>
查看文章PubMed/NCBI谷歌学术搜索
37.Kn?ckel J, Dundas K, Yang ASP, Galaway F, Metcalf T, Gemert GJ van, et al. 恶性疟原虫孢子体膜蛋白相互作用的系统鉴定揭示了p24复合物在宿主感染中的重要作用。摩尔细胞蛋白质组学。2021;20:100038.
查看文章谷歌学术搜索
38.Florentin A, Stephens DR, Brooks CF, Baptista RP, Muralidharan V. 疟疾寄生虫中的质体生物发生需要Clp蛋白水解系统的相互作用和催化活性。国家科学院院刊 2020 16 月 117;24(13719):29–32482878.密码:<>
查看文章PubMed/NCBI谷歌学术搜索
39.Sievers F, Wilm A, Dineen D, Gibson TJ, Karplus K, Li W, et al.使用Clustal Omega快速、可扩展地生成高质量蛋白质多序列比对。分子系统生物学. 2011 7 月;1(539):21988835.密码:<>
查看文章PubMed/NCBI谷歌学术搜索
40.金登 S, 杜法亚德 JF, 勒福特 V, 阿尼西莫娃 M, 霍代克 W, 加斯库埃尔 O.估计最大似然系统发育的新算法和方法:评估 PhyML 3.0 的性能。系统生物学. 2010 29 月 59;3(307):21–20525638.密码:<>
查看文章PubMed/NCBI谷歌学术搜索
41.摩根斯坦 M, 佩克特 CD, 吕伯特 P, 苏潘兹一世, 克莱姆 C, 阿尔卡 O, 等.定量高置信度人线粒体蛋白质组及其在细胞环境中的动力学。细胞代谢表。2021 33 月;12(2464):2483–18.e34800366.密码:<>
查看文章PubMed/NCBI谷歌学术搜索
42.Rath S, Sharma R, Gupta R, Ast T, Chan C, Durham TJ, et al.MitoCarta3.0:更新的线粒体蛋白质组,现在具有亚细胞器定位和通路注释。核酸研究 2021 8 月 49 日;1(D1541):D 7–33174596.密码:<>
查看文章PubMed/NCBI谷歌学术搜索
43.克里斯蒂安森 J, 科尔特 AM, 汉森 T v O, 尼尔森足球俱乐部.IGF2 mRNA 结合蛋白 2:2 型糖尿病的生物学功能和推定作用。J 摩尔内分泌。2009 43 月;5(187):95–19429674.pmid:<>
查看文章PubMed/NCBI谷歌学术搜索
44.van Esveld SL, Meerstein-Kessel L, Boshoven C, Baaij JF, Barylyuk K, Coolen JPM, et al.lasmodium中线粒体蛋白的优先和验证资源可识别独特的生物学。刀锋IJ,编辑。mSphere。2021 华侨城 27;6(5):e00614–21.密码:34494883
查看文章PubMed/NCBI谷歌学术搜索
45.Barylyuk K, Koreny L, Ke H, Butterworth S, Crook OM, Lassadi I, et al.通过hyperLOPIT对弓形虫蛋白质组进行全面的亚细胞图谱,为蛋白质功能提供了空间背景。细胞宿主微生物。2020 28 月;5(752):766–9.e33053376.密码:<>
查看文章PubMed/NCBI谷歌学术搜索
46.Jansen EJR, Timal S, Ryan M, Ashikov A, van Scherpenzeel M, Graham LA, et al. ATP6AP1缺乏导致免疫缺陷伴有肝病,认知障碍和异常蛋白质糖基化。纳特公社。2016 27 月 7;11600:27231034.密码:<>
查看文章PubMed/NCBI谷歌学术搜索
47.王林, 吴丹, 罗宾逊CV, 吴华, 傅TM.完整的人类V-ATP酶的结构揭示了其组装的机制。摩尔细胞。2020 5 月 80;3(501):511–3.e33065002.密码:<>
查看文章PubMed/NCBI谷歌学术搜索
48.Mallilankaraman K, Cárdenas C, Doonan PJ, Chandramoorthy HC, Irrinki KM, Golenár T, et al. MCUR1是调节细胞代谢的线粒体Ca2+摄取的重要组成部分。自然细胞生物学. 2012 14 月;12(1336):43–23178883.pmid:<>
查看文章PubMed/NCBI谷歌学术搜索
49.Brischigliaro M, Cabrera-Orefice A, Sturlese M, Elurbe DM, Frigo E, Fernandez-Vizarra E, et al. CG7630是细胞色素c氧化酶亚基COX7B的黑腹果蝇同系物。EMBO 代表 [互联网]。2022 3月 2022 [引用日期26 23月 8];10(15252).可用: https://onlinelibrary.wiley.com/doi/202254825.<>/embr.<>.
查看文章谷歌学术搜索
50.斯泰西RG,斯金尼德马,福斯特LJ。关于基于图的聚类对随机网络变化的鲁棒性。摩尔细胞蛋白质组学。2021;20:100002.密码:33592499
查看文章PubMed/NCBI谷歌学术搜索
51.加巴尔东 T, 雷尼 D, 胡宁马.追踪真核生物中大型蛋白质复合物NADH:泛醌氧化还原酶(复合物I)的进化。分子生物学杂志. 2005 348 月;4(857):70–15843018.密码:<>
查看文章PubMed/NCBI谷歌学术搜索
52.Agip ANA, Chung I, Sanchez-Martinez A, Whitworth AJ, Hirst J. 来自黑腹果蝇的线粒体呼吸复合物 I 的冷冻电镜结构。电子生活。2023 9 月 12;84424:e36622099.密码:<>
查看文章PubMed/NCBI谷歌学术搜索
53.莫利纳-格拉纳达 D, 冈萨雷斯-维奥克 E, 迪布利 MG, 卡布雷拉-佩雷斯 R, 瓦尔博纳-加西亚 A, 托雷斯-托龙特拉斯 J, 等.大多数线粒体dGTP通过NDUFA10亚基与呼吸复合物I紧密结合。生物学杂志. 2022 23月 5;1(620):35739187.密码:<>
查看文章PubMed/NCBI谷歌学术搜索
54.埃鲁贝,马惠嫩。复合物I的多余亚基和组装因子的起源:途径进化的宝库。Biochim Biophys Acta BBA—Bioenerg.2016 1857 月;7(971):9–27048931.密码:<>
查看文章PubMed/NCBI谷歌学术搜索
55.Crozier TWM, Tinti M, Larance M, Lamond AI, Ferguson MAJ. 通过蛋白质相关性分析质谱和机器学习预测布氏锥虫中的蛋白质复合物。摩尔细胞蛋白质组学。2017 16 月;12(2254):67–29042480.密码:<>
查看文章PubMed/NCBI谷歌学术搜索
56.Feldmann AM,Ponnudurai T.选择按蚊对恶性疟原虫的耐火性和易感性。Med Vet Entomol.1989 3 月;1(41):52–2519646.密码:<>
查看文章PubMed/NCBI谷歌学术搜索
57.Ponnudurai T, Lensen AHW, Van Gemert GJA, Bensink MPE, Bolmer M, Meuwissen JHETh.培养的恶性疟原虫配子细胞对蚊子的感染性。寄生虫学。1989 四月;98(2):165–73.
查看文章谷歌学术搜索
58.维蒂格一世,布劳恩HP,舍格尔H.蓝本地佩奇。纳特·普罗托克。2006 1 月;1(418):28–17406264.密码:<>
查看文章PubMed/NCBI谷歌学术搜索
59.罗登堡 RJT。线粒体疾病的生化诊断。遗传杂志 2011 34 月;2(283):92–20440652.密码:<>
查看文章PubMed/NCBI谷歌学术搜索
60.Steinegger M, Meier M, Mirdita M, V?hringer H, Haunsberger SJ, S?ding J. HH-suite3 用于快速远程同源性检测和深层蛋白质注释。BMC生物信息学。2019 20 月;1(473):31521110.pmid:<>
查看文章PubMed/NCBI谷歌学术搜索