AI揭示了CD33与阿尔茨海默病认知障碍之间联系的见解
塔玛拉·拉施卡 ,米曼萨·苏德,布鲁斯·舒尔茨,艾布格·阿勒泰,克里斯蒂安·埃伯林,霍尔格·弗洛利希
发布时间:13 年 2023 月
抽象
模拟生物学机制是疾病理解和药物靶点识别的关键。然而,在阿尔茨海默病领域制定定量模型受到缺乏相关生化过程的详细知识的挑战。此外,拟合微分方程组通常需要时间分辨数据和进行干预实验的可能性,这在神经系统疾病中是困难的。这项工作通过采用最近发表的变分自动编码器模块化贝叶斯网络(VAMBN)方法解决了这些挑战,我们在这里训练了临床和患者水平的基因表达数据,同时结合了以疾病为中心的知识图谱。我们的方法称为iVAMBN,产生了一个定量模型,使我们能够模拟推定药物靶标CD33的向下表达,包括对认知障碍和脑病理生理学的潜在影响。实验验证表明,预测被CD33扰动改变的分子机制与细胞系数据高度重叠。总之,我们的建模方法可能有助于选择有前途的药物靶点。
作者摘要
在过去的20年里,阿尔茨海默病(AD)领域的特点是一系列持续未能向患者提供明显有效的药物。AD试验持续失败的原因之一是缺乏对靶向某种分子如何影响人类认知障碍的理解。解决这个问题的一种方法是开发连接分子水平和表型的定量系统水平模型。在本文中,我们提出了一种新颖的混合人工智能(AI)方法,称为集成变分自动编码器模块化贝叶斯网络(iVAMBN),结合了临床和患者水平的基因表达数据,同时结合了以疾病为中心的知识图谱。该模型显示了在AD中起作用的各种生物学机制之间的联系,并允许我们模拟假定药物靶标CD33的下表达。结果显示认知显着增加,并预测了几种生物学机制的扰动。我们使用来自敲除THP-1单核细胞系的基因表达数据实验验证了这些预测,这在很大程度上证实了我们的模型预测。据我们所知,我们因此开发了第一个经过实验验证的定量多尺度模型,将分子机制与AD领域的临床结果联系起来。
引文: 拉施卡 T、苏德 M、舒尔茨 B、阿勒泰 A、埃贝林 C、弗洛利希 H (2023) 人工智能揭示了 CD33 与阿尔茨海默病认知障碍之间联系的见解。公共科学图书馆计算生物学19(2): e1009894. https://doi.org/10.1371/journal.pcbi.1009894
编辑 器: 拉尔斯·尤尔·詹森, 哥本哈根大学健康与医学学院:丹麦松德斯维登斯卡贝利格大学
收到: 3月 2022, 18;接受: 2023月 13, 2023;发表: <>月 <>, <>
版权: ? 2023 拉施卡等人。这是一篇根据知识共享署名许可条款分发的开放获取文章,该许可允许在任何媒体上不受限制地使用、分发和复制,前提是注明原作者和来源。
数据可用性: 用于生成本手稿中呈现的结果和分析的源代码可在 GitHub 存储库中找到,网址为 https://github.com/traschka/iVAMBN。ROSMAP 和 Mayo 数据可在 https://adknowledgeportal.synapse.org/Explore/Studies/DetailsPage?Study=syn21241740 获得。CD33 KO细胞系数据可在以下网址获得:https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE155567。
资金: 该项目已根据赠款协议No 2获得创新药物倡议115976联合承诺的部分资金。这项联合事业得到了欧盟地平线2020研究和创新计划以及EFPIA的支持。这项工作部分是在弗劳恩霍夫卓越集群“认知互联网技术”中开发的,并通过弗劳恩霍夫机器学习中心部分支持。资助者在研究设计、数据收集和分析、发表决定或手稿准备方面没有任何作用。
竞争利益: 提交人声明不存在相互竞争的利益。
介绍
阿尔茨海默病(AD)是一种神经退行性疾病,影响全球约50万人,导致无法进行必要的日常活动,导致经常过早死亡[1]。尽管 ClinicalTrials.gov 上列出了数十年的研究和2000多项临床研究,但迄今为止尚无治愈方法,所有现有治疗方法均为纯粹的症状治疗[1]。迫切需要新的疾病修饰疗法,但需要对疾病有更好的机制理解。
在这方面,一个共同的出发点是绘制有关该疾病的现有知识格局。在过去的几十年里,生物信息学界开发了大量的数据库,例如生物途径数据库(如KEGG [2],PathwayCommons [3],WikiPathways [4],Reactome [5]),药物 - 靶标相互作用(如OpenTargets [6],治疗靶点数据库[7]),疾病 - 基因关联(如DisGeNET [8])或蛋白质 - 蛋白质相互作用(如STRING [9],IntAct[10]).所有这些数据库都简化了算法和模型各自知识的使用,特别是在药物靶标识别领域。此外,这些数据库都没有以疾病为重点进行编纂。生物表达语言(BEL)提供了这个机会,可用于以精确的方式以属性图的形式表示文献衍生的,以疾病为中心的知识。对于AD知识图谱,已在[11]中发布,它代表了文献中描述的遗传变异,蛋白质,生物过程和途径之间手动策划的,以疾病为中心的机制相互作用,使用户能够计算查询知识图谱并将其集成到药物靶标识别算法中。
AD领域中有趣的分子之一是CD33,一种主要在骨髓谱系细胞中表达的跨膜受体蛋白。在GWAS研究中,它与AD风险降低有关[12-18],并被讨论为潜在的治疗靶点,例如通过免疫治疗[14]。在AD小鼠模型中,敲除CD33可减轻淀粉样蛋白β清除率并改善认知[13,17,18]。同样,在CD33敲除THP-1巨噬细胞中也观察到对淀粉样蛋白β吞噬作用的积极影响[16]。在人类中,CD33,认知和淀粉样蛋白清除之间的相关性是已知的,然而,具体的潜在机制仍然没有得到很好的理解。正在进行一项临床试验,正在测试CD33抑制剂对轻度至中度AD患者的影响(NCT03822208)。沿着这些思路,通过创新药物倡议资助的欧盟范围内的PHAGO项目(https://www.phago.eu 旨在开发工具和方法来研究CD33的功能以及AD中的相关途径,以促进有关潜在药物开发计划的决策。
虽然图表对于描述以疾病为中心的AD知识景观很有用,但以疾病为中心的生物学知识的主要不完整可能导致对观察到的数据存在分歧。此外,图表不允许产生定量的见解和预测。为此,普通(ODE)和偏微分方程(PDE)经常用于系统生物学和系统医学,因为它们能够以定量的方式描述生物学机制。然而,它们的配方需要详细了解生化反应,在AD领域,生化反应仅适用于特定过程,例如淀粉样蛋白β聚集[19,20]。此外,拟合微分方程通常需要时间分辨数据和进行干预实验(如敲低或刺激)的可能性,这受到AD领域中的细胞系和小鼠模型很可能只能模仿人类疾病的特定方面的挑战[21-23]。
微分方程系统的主要替代方案是概率图模型,特别是贝叶斯网络(BN),它们也是定量的。但是,标准BN实现需要正态或多项分布的数据,而在许多应用中并非如此。此外,BN的结构学习是一个NP难题,其中可能的网络结构的数量随着网络中节点的数量呈超指数增长[24]。因此,使用BN对高维数据进行建模会引起对结构可识别性的严重关注。
总之,这些挑战导致AD领域缺乏相关分子和生物过程之间相互作用的全面定量模型,包括CD33的作用,直至表型水平。
在这项工作中,我们开发了一个 - 据我们所知 - 第一个定量,多尺度模型,专注于控制CD33分子的多种机制。我们的模型涵盖多种模式,包括基因表达、脑病理生理学、人口统计信息和认知评分。为了解决前面提到的挑战,我们从以疾病为中心的知识图谱重建开始,我们将其聚集成模块以显着降低维度。在下文中,我们使用术语“模块”来表示组合在一起的一组对象。随后,我们依靠最近发布的变分自动编码器模块化贝叶斯网络(VAMBN)算法[25],这是一种混合人工智能(AI)方法,将变分自动编码器[26]与模块化贝叶斯网络[27]相结合,能够对任意统计分布进行建模。我们在联合临床和患者水平的基因表达数据上训练了VAMBN,同时使用聚类知识图反映了关于疾病机制及其相互作用的不完整的先验知识。CD33的模拟敲低和预测的下游效应可以用来自细胞系的基因表达数据进行实验验证。总体而言,我们相信我们的工作有助于更接近对该疾病的系统和定量理解,这是寻找迫切需要的新型治疗方案的先决条件。
结果
在这项工作中,我们依靠来自宗教秩序研究和记忆与衰老项目(ROSMAP)[28-30]的AD患者数据进行模型训练和特异性分析,并依靠Mayo RNAseq研究(Mayo)[31]进行外部验证和特异性分析。这些数据是通过AMP-AD知识门户从RNASeq协调研究中检索的。表1显示了AD患者的临床特征概述,用于模型训练和外部验证。之所以选择这些患者样本,是因为所有这些样本都可以获得死后大脑皮层组织的基因表达数据。在这一点上,我们想提一下,基因调控和基因表达是组织特异性的[32]。因此,其他大脑区域的可用数据,以及健康对照组的数据被分开进行特异性分析。有关分析每个步骤中使用的样本的更详细说明,请参阅 S3 注释。
缩略图 下载:
.PPT幻灯片
.PNG大图
.TIFF原始图像
表 1. 患者统计。
显示的是患者数量,他们的年龄(平均值和标准差),性别,APOE基因型(至少一个存在的E4等位基因的二进制编码),MMSE评分(平均值和sd)和Braak分期。
https://doi.org/10.1371/journal.pcbi.1009894.t001
建模策略概述
图1显示了我们的建模策略的概述,我们称之为综合VAMBN(iVAMBN),将临床和患者水平的基因表达数据与以疾病为中心的知识图谱相结合。我们工作流程的第一步是编制一个以AD为中心的知识图谱,描述生物过程、基因和病理之间的因果关系。生成的图形由 383 个节点和 607 条边组成。随后,在马尔可夫聚类算法[33]的帮助下,该图被聚类到模块中,以显着减少后续建模步骤的变量数量。马尔可夫聚类被选为优于其他方法,因为对不同图聚类算法的评估显示了这种方法的最佳指标(参见方法)。模块内的基因用来自NeuroMMSig基因集集合的AD疾病机制进行注释[34]。
缩略图 下载:
.PPT幻灯片
.PNG大图
.TIFF原始图像
图1. 综合VAMBN(iVAMBN)方法。
iVAMBN方法将基因表达数据,临床和病理生理(表型)测量(左下)集成到一个联合定量的概率图形模型中。该方法最初使用知识图谱(左上角)来定义模块并告知它们之间的潜在联系。在第二步中,学习使用异构不完全变分自动编码器(HI-VAE)表示每个模块。在第三步中,学习自动编码模块之间的模块化贝叶斯网络,同时考虑从知识图谱派生的信息。最后,使用iVAMBN模型模拟基因扰动(右上)。
https://doi.org/10.1371/journal.pcbi.1009894.g001
使用来自死后大脑皮层组织的患者水平临床和基因表达数据,在第二步中,VAMBN算法用于定量建模基因模块之间的关系以及表型相关评分(微型精神状态检查(MMSE),Braak分期)和基于ROSMAP数据的人口统计学特征。选择ROSMAP进行算法训练,因为患者数量相对较多(超过200人)和可用的MMSE加Braak评分。VAMBN将患者级数据作为输入,这些数据分层组织成预定义的模块(此处:基因模块或表型相关模块,包括MMSE加Braak阶段),原始特征(此处:人口统计学和临床变量,如年龄,性别,APOE基因型和大脑区域)以及有关其可能连接的先验知识。输出是一个概率图形模型,描述模块和原始特征之间的连接。每个模块都有一个每个患者的评分,这些分数中的每一个都可以分别进一步解码为特征级基因表达和表型数据。
在我们策略的第三步,我们评估了我们的iVAMBN模型是否也可以解释梅奥研究的基因表达数据。值得注意的是,在这一步中,我们只考虑了表型模块中的Braak阶段,因为梅奥研究没有报告MMSE评分。为此,我们首先在ROSMAP上重新训练了我们的iVAMBN模型,同时省略了MMSE分数,然后在Mayo数据集上评估了修改后的模型的边际对数可能性。然后,我们针对学习概率图的随机排列版本测试了真实模型的边际对数似然。这使我们能够评估,在ROSMAP上学到的模型在多大程度上可以比纯粹偶然地更好地解释Mayo数据。
最后一步,我们使用在ROSMAP上训练的iVAMBN模型来模拟几种治疗干预,包括CD33抑制。根据现有数据,我们能够使用来自THP-33单核细胞系的CD33敲除基因表达数据通过实验验证CD1抑制的预测效果。有关整个iVAMBN方法的更多详细信息,请参见本文的方法部分。
在下文中,我们将详细介绍每个不同步骤中获得的结果,而本文的方法部分提供了技术细节。
知识图谱编译
如上一节所述,我们的建模方法始于知识图谱的编译和马尔可夫聚类。马尔可夫聚类产生了32个模块,包括4个单基因模块,即CD33,HSPB2,HSPB3和MIR101-1。大多数非单基因模块仅包含两个基因,而其他模块则具有多个组合,例如具有289个基因的GABA子图模块。聚集在一起的基因的确切数量以及使用AD聚焦基因集集合NeuroMMSig [34]的统计过度表征分析(超几何测试)的结果可以在S1表中找到。每个模块中分子的完整列表可以在S2表中找到。这些模块被视为它们之间图形的节点,其中在模块 M 之间设置了边1, M2,如果在原始知识图中M中至少有一个基因1一个在 M 中2通过定向路径连接。生成的(非循环)模块图显示在 S1 图中。
集成变分自编码器模块化贝叶斯网络模型
集成VAMBN将贝叶斯网络的优势与变分自动编码器的功能相结合,更具体地说是异构不完全变分自动编码器(HI-VAE)[35]。简而言之,这个想法是最初学习映射到每个已定义模块的特征的低维高斯表示。HI-VAE与传统变分自动编码器的不同之处在于,它们可以应用于不同数值尺度的异构输入数据,可能包含缺失值。在第二步中,然后通过模块的低维表示学习贝叶斯网络结构,从而产生模块化贝叶斯网络。本文的方法部分和[25]中提供了更多详细信息。
我们在这里使用识别的模块(即原始数据中的特征组)作为概率图模型的(可能是多变量)节点来训练iVAMBN模型。S1 说明中详细介绍了值得注意的异常情况。在多个特征映射到同一个模块的情况下(即概率图模型中的相应节点/随机变量是多变量的),我们的方法最初使用 HI-VAE 学习低维表示。其次,我们学习了连接这些模块的贝叶斯网络结构。在此阶段,可以提供有关知识派生模块图(S1图)中给出的模块之间可能连接的信息。我们测试了三种不同的策略来整合模块图中提供的信息:
完全数据驱动:整个贝叶斯网络仅从数据中学习,
知识告知:模块图要么仅用于初始化贝叶斯网络结构学习,要么用于强制/白名单特定边缘的存在,要么用于两者的组合,以及
完全知识驱动:严格限制模块之间的边缘与通过模块图提供的边缘,并且仅允许额外学习的边缘连接认知分数、病理生理阶段和人口统计学特征。所有其他可能的边缘都列入黑名单,即不允许。
通过交叉验证对这些策略进行系统比较,产生了第二种策略(知识知情)的更好性能,其中我们使用模块图将边缘列入白名单并初始化基于贪婪爬山的结构学习,详见方法部分和 S2 注释。这意味着,如果数据根据证据提供,iVAMBN被允许添加额外的边缘。
我们在随机引导子样本上重复了知识告知模块化贝叶斯网络学习1000次,从而允许量化每个推断边缘的统计置信度。此分析的结果可以在 S3 表中找到。
在下文中,我们只关注在130个模块化贝叶斯网络重建中至少40%中发现的1000条边(图2)。值得注意的是,选择此阈值只是为了更好的可视化目的并限制随后的讨论。尽管统计置信度较低,但现实中也可能存在自举概率较低的边缘。对应于性别,APOE状态和大脑区域的节点没有以足够的统计置信度连接到任何其他节点,这意味着这些特征可能对网络的其余部分没有影响。网络中只有传出边缘的节点(即源节点)是:受教育年限、年龄和单基因 NAV3。GABA子图(包含280多个基因)和表型模块是叶节点,这意味着它们没有传出边缘。只有患者年龄对CD33有直接影响。CD33有八种直接影响的分子机制:GABA亚图,淀粉样蛋白生成亚图(包含基因SRC和APBA2),乙酰胆碱信号传导亚图(包含基因ACHE和PRNP),前列腺素亚图和伴侣亚图(包含基因HSPB6,CXCL8和CCR2)。此外,单基因模块TRAF1是CD33的孩子。总的来说,CD33对每个节点都有预测的因果影响,除了源节点。
缩略图 下载:
.PPT幻灯片
.PNG大图
.TIFF原始图像
图2. 用于 ROSMAP 数据的 iVAMBN 模型的网络表示。
图中显示了基因模块(紫色节点)、单基因模块(绿色)和CD33和表型模块(红色)之间的学习(灰色)和知识衍生(绿色)边缘。所有这些边沿的自举频率>0.4。CD33和表型之间新推断的最短路径以橙色显示。出于可视化目的,自举频率> 0.4 的其他边已被删除,除了以自举置信度为 1 训练的六条边。
https://doi.org/10.1371/journal.pcbi.1009894.g002
模型揭示了CD33和疾病表型之间的路径。
如图2所示,通过前列腺素亚图观察到CD33与疾病表型之间的最短路径。来自此连接的所有边都是从数据中新学到的,这意味着它们以前从未在知识图谱中被识别出来。然而,这些相关性以前已在文献中报道过:前列腺素是类花生酸,被发现在记忆学习和神经炎症中发挥作用[36,37]。主要生产者是活化小胶质细胞,小胶质细胞本身通过淀粉样蛋白β激活并产生炎性细胞因子[38]。目前,小胶质细胞及其对AD的影响是研究的重点[39,40]。此外,PGD2是一种主要在神经元中合成的前列腺素,既往被发现在AD患者中上调[41]。前列腺素途径基因与CD33或表型之间的成对相关图可以在S2图中找到。
总的来说,自举iVAMBN模型的130条边中有162条是从数据中新学到的,以前在文献衍生的知识图中没有被识别出来。在这 130 条边中,有 100 条边的自举置信度为 1000%,这意味着它们是从 2 个随机子数据样本中一致学习的。这些边缘的列表可在表 <> 中找到。
thumbnail 下载:
.PPT幻灯片
.PNG大图
.TIFF原始图像
表 2. iVAMBN模型中新学习的边。
在随机子采样数据的 1000 个网络重建中的每一个中都发现了所有边。
https://doi.org/10.1371/journal.pcbi.1009894.t002
这些高置信边表明连接的模块之间具有很强的成对相关性。例如,NAV3与TGF-Beta子图模块的成员MAVS具有很强的负相关关系(图3左)。与SRSF10和CREB1相反,低密度脂蛋白子图和Calpastatin-钙蛋白酶子图模块的成员具有很强的正相关性(图3右)。
thumbnail 下载:
.PPT幻灯片
.PNG大图
.TIFF原始图像
图3. iVAMBN学习的定量关系。
显示每个相关性 (R) 及其置信区间 (CI) 和多次检验调整的 p 值。左:NAV3与TGF-Beta子图模块成员MAVS的相关性。右:低密度脂蛋白子图模块成员SRSF10与CREB1(Calpastatin-Calpain子图模块的成员)的相关性。进一步的图可以在 S2 和 S3 图中找到。
https://doi.org/10.1371/journal.pcbi.1009894.g003
虽然NAV3和MAVS之间没有直接相关性,但它们的影响都与AD有关。 主要在神经系统中表达的NAV3在AD患者中增加[42],而MAVS编码β干扰素表达所需的基因,从而有助于抗病毒先天免疫,并可能保护细胞免于细胞凋亡[43].结合数据中看到的强负相关,可以假设AD中NAV3水平的增加导致MAVS水平降低,从而提高细胞的凋亡。
SRSF10和CREB1之间的强正相关关系将低密度脂蛋白(LDL)和Calpastatin-钙蛋白酶子图联系起来。LDL是主要的APOE受体,是AD最强的遗传因子,其中不同的等位基因要么是风险等位基因,要么是保护性等位基因[44]。APOE还与淀粉样蛋白-β有关,由于钙帕他丁水平降低,淀粉样蛋白蛋白的产生随着钙蛋白蛋白酶活性的提高而增加。Calpastatin还与突触功能障碍和AD的tau病理学有关[45,46]。Tau是另一种积聚在AD患者大脑中的蛋白质。这里确切的潜在机制仍然未知,但钙蛋白酶的调节机制受到钙(Caa2+)流入和细胞内钙水平升高是AD神经元功能丧失的主要原因[45-47]。因此,钙蛋白酶-钙蛋白酶机制的变化也可能导致淀粉样蛋白β沉积减少。
iVAMBN模型的外部验证
我们评估了该模型解释来自独立研究Mayo的标准化基因表达数据的能力。值得注意的是,该分析中使用的所有基因表达数据都可以通过Uber解剖本体(UBERON)映射到同一大脑区域,即大脑皮层[48]。但是,妙佑医疗国际不包含MMSE分数。因此,我们首先在ROSMAP上训练了iVAMBN模型的修改版本,该模型仅包含表型模块中的Braak评分,但其他方面具有图2所示的边缘。可以在 S3 表中找到此模型的边的完整列表及其相应的自举置信度。然后,我们在Mayo数据集上探索了模型的边际对数似然对数p(数据∣图),并减去通过网络的1000个随机排列获得的边际对数似然(图4),得到经验p值。这表明,尽管表0所示的两项研究中患者之间存在临床差异,但我们的模型可以明显更好地解释Mayo基因表达数据,而不是随机排列网络(p = 035.1)。
thumbnail 下载:
.PPT幻灯片
.PNG大图
.TIFF原始图像
图4. 外部模型验证。
统计显著性 ?对数10(p) 在训练数据 (ROSMAP) 和外部验证数据 (Mayo) 上评估模型的边际对数似然值。
https://doi.org/10.1371/journal.pcbi.1009894.g004
此外,我们评估了iVAMBN在梅奥研究中预测前列腺素模块活性评分的能力。选择前列腺素模块,因为前列腺素在神经炎症中起作用,这是疾病表型的标志。此外,前列腺素模块直接连接到临床/病理表型模块,然而,其中Braak分期在Mayo和ROSMAP研究之间显着不同。因此,我们认为前列腺素模块的活性评分是Mayo和ROSMAP研究之间相关且具有足够可比性的替代终点。我们使用在ROSMAP上训练的iVAMBN模型,通过将前列腺素模块外的基因数据馈送到模型表达中,来预测Mayo前列腺素模块活性的活性评分。我们在外部验证数据集中观察到真实值和预测值之间存在非常显著的皮尔逊相关性(r = 0.69, 95% CI: [0.56;0.79])。因此,我们得出结论,我们的iVAMBN模型可以预测所选终点。
最后,我们在Mayo数据上训练了一个单独的iVAMBN模型,并探索了在不同自举置信度阈值下与ROSMAP模型的重叠(S4图)。在先前选择的40%阈值下,即使考虑了边缘方向,在ROSMAP和Mayo上训练的iVAMBN模型中包含的新学习边缘的重叠在统计学上也显着(超几何测试,p <1 e ? 38)。
iVAMBN模型的特异性和敏感性
对大脑区域的特异性。
我们测试了该模型解释来自其他大脑区域的标准化基因表达数据的能力。因此,我们在 ROSMAP 研究中对属于后扣带皮层、背外侧前额叶皮层和尾状核头部的患者样本以及来自 Mayo 研究的颞叶皮层和小脑样本训练了多个额外的 iVAMBN 模型。然后,我们调查了这些附加iVAMBN模型中的每一个与类似于上一节中描述的外部验证的主要模型的重叠。在非皮质大脑区域中,使用尾状核头部样本训练的iVAMBN模型在图水平上发现了最大且具有统计学意义的重叠(考虑到边缘方向,约36%)。与小脑的重叠率最低(仍然具有统计学意义)(考虑到边缘方向,重叠率为31%)。所有数据集的主要iVAMBN模型能够预测前列腺素模块的活动评分,但在非皮质大脑区域的预测性能明显较低(参见S3注释中表B中的结果)。因此,我们的结果表明,我们的主要iVAMBN模型集中在大脑皮层区域。
疾病特异性。
对来自ROSMAP研究的后扣带皮层,背外侧前额叶皮层和尾状核头部的可用健康对照样本训练的iVAMBN模型进行了类似的分析。图结构仍然与我们的主要iVAMBN模型有显着的重叠,但要低得多,参见S3注释中的表C。这表明我们的主要iVAMBN模型是以AD为重点的。
对知识图谱的敏感性。
最后,我们探讨了我们的主要iVAMBN模型对知识图谱的敏感程度。为此,我们随机洗牌了原始知识图谱的所有边缘,重新聚类了这个排列图,并重新训练了一个完整的iVAMBN模型。与主要的iVAMBN模型(p = 4.14E ? 24)相比,在置换图上训练的iVAMBN模型显示出显着较低的边际对数似然p(数据∣模型),详见补充(S3注释中的图B)。因此,我们得出结论,我们的主要iVAMBN模型对知识图谱结构很敏感。
CD33 下表达模拟
为了了解CD33治疗干预的潜在系统性后果,我们使用我们的主要iVAMBM模型来模拟下调。这是通过每个患者中CD9的反事实下表达(此处:33倍)来实现的(图5(左上))。由于iVAMBN是一个定量模型,因此可以在每个患者中预测对生物学机制和表型的相关下游后果(参见图5中的示例)。CD33 下表达模拟(左)导致前列腺素通路模块(右)的活性评分更高。
thumbnail 下载:
.PPT幻灯片
.PNG大图
.TIFF原始图像
图5. 原始和模拟 CD33 下表达中的模块分布。
蓝色曲线描述原始分布,而红色曲线描述CD33向下表达场景。CD33 下表达模拟(左)导致前列腺素通路模块(右)得分较低。
https://doi.org/10.1371/journal.pcbi.1009894.g005
此外,iVAMBN预测MMSE评分显著增加(p < 0.001,图6(左)),Braak阶段也显著下降(p < 0.001,图6(右))。 这意味着患者不仅被预测会改善MMSE测试的特定认知能力,而且还会被预测改善大脑病理生理学。
thumbnail 下载:
.PPT幻灯片
.PNG大图
.TIFF原始图像
图6. 由于CD33下表达而导致的表型(MMSE和Braak阶段)的预测变化。
CD33原始(蓝色)和低表达(红色)患者的MMSE和Braak分期分布显示评分显着改善,从而改善认知以及脑病理生理学。
https://doi.org/10.1371/journal.pcbi.1009894.g006
CD33下表达揭示了许多机制的显着变化。
我们的iVAMBN模型分别预测了对28种机制和单个基因的基因表达的显着影响(表3)。例如,预测了基因CASP7和TRAF7以及前列腺素和钙帕他丁-钙蛋白酶机制的显着变化。但是淀粉样蛋白生成机制在CD33敲低情景中表达也存在显着差异。
thumbnail 下载:
.PPT幻灯片
.PNG大图
.TIFF原始图像
表 3. 基因模块的统计学意义。
该表显示了全局测试的结果[49],评估了WT和CD33的下表达/ KO之间每个基因模块的差异基因集表达。使用Benjamini-Hochberg方法报告和校正模拟场景中测试的P值以及来自细胞系KO的p值以进行多次测试。两个测试的一致性在最后一列中描述,这意味着两个测试是否显著或非显著(+),或者如果它们不显示相同的显著性方向 (-)。对于GRIN1,无法计算p值,因为该基因不存在于细胞系数据中。
https://doi.org/10.1371/journal.pcbi.1009894.t003
因此,淀粉样蛋白生成机制的表达降低将导致患者淀粉样蛋白β沉积减少。虽然淀粉样蛋白生成机制与AD的这种联系是明确的,但其他需要进一步探索。
Calpastatin-Calpain机制与AD之间的联系在前面已经描述过。关键方面是其对淀粉样蛋白β沉积的负面影响。PGD2是一种主要在神经元中合成的前列腺素,既往发现在AD患者中上调[41]。前列腺素是二十碳酸胺,被发现在记忆学习和神经炎症中发挥作用[36,37]。主要生产者是活化小胶质细胞,小胶质细胞本身通过淀粉样蛋白β激活并产生炎性细胞因子[38]。目前,小胶质细胞及其对AD的影响是研究领域的一个主要焦点[39,40]。同样,前列腺素的下表达可能导致淀粉样蛋白β沉积减少。总之,绝大多数显著差异表达的基因集通过淀粉样蛋白β级联与AD高度相关。
使用细胞系数据进行实验验证。
我们检查了基于iVAMBN的预测是否与细胞系基因表达数据在实验上一致,特别是反映了野生型(WT)和CD33敲除(KO)。我们的分析(详见方法部分)揭示了KO与WT中23种AD相关机制和基因的显着变化。 有趣的是,这19种机制中有23种与iVAMBN预测的机制重叠(表3)。同样,iVAMBN分别预测了22个基因和基因集的显着变化,其中只有3个是假阳性,错误发现率阈值为5%。值得注意的是,其中一个假阳性预测(TICAM1 / RALBP1)在实验数据中的调整p值为5.6%。
总体而言,我们观察到失调机制与iVAMBN模型预测的机制之间存在高度重叠,这表明我们的模型与细胞系数据非常一致。
模拟其他候选目标的扰动。
出于比较原因,我们进一步模拟了模型中所有其他基因的9倍上调或下调对表型的影响,这显示了表型模块的定向路径。属于不是表型模块祖先的模块的基因被排除在外,因为根据我们的模型,它们对表型没有任何影响。我们为每个候选目标模拟了上调和下调。
模拟的失调表明,没有一个候选靶标对表型的预测影响强于CD33(S5图)。只有 TRAF6 和 TGFB3 下调以及 APBA2、TRAF5 和 SALL1 的上调预计会使平均 MMSE 评分增加两分以上,而通过 CD33 扰动预测会增加近五分。
已知APBA2与APP相互作用,因此在淀粉样变性途径中发挥作用[50,51]。在多个实验中,TRAF6被鉴定为miR-146a的靶标,miR-52a是先天免疫的关键调节因子,在AD病理学影响的脑区上调,也可能对淀粉样蛋白β代谢有影响[146]。结果发现,用miR-6a阿戈米尔治疗可抑制AD小鼠的TRAF53表达并减少认知障碍[<>]。
讨论
据我们所知,这里介绍的工作首次证明,可以将基因表达和临床数据以及有关因果关系的定性知识整合到AD的定量系统医学模型中。这是通过基于AI的方法实现的,我们将该方法与AD的知识图谱表示相结合。我们可以证明模拟的CD33下表达与来自THP-1细胞系的实验基因表达KO数据非常吻合。总体而言,我们的模型有助于理解和量化多尺度生物系统水平的干预效果,从而有助于识别AD领域迫切需要的新治疗靶点。
我们的模型预测,CD33下调将通过前列腺素途径对认知(MMSE)和脑病理生理学(Braak评分)产生显着影响。虽然已知前列腺素的作用在记忆,学习和神经炎症中发挥作用[36,37],但认知受到影响的确切机制仍然未知,但似乎与淀粉样蛋白通过小胶质细胞沉积β有关。在AD小鼠中,敲除CD33可减轻淀粉样蛋白β清除率并改善认知[17,18]。CD33 KO THP-1巨噬细胞也观察到对淀粉样蛋白β吞噬作用的积极作用[16]。
尽管有证据表明CD33对认知有积极影响,但我们应该提到CD14作为可能的药物靶标具有文献中已经讨论过的可能的警告[33]:i)目前尚不清楚CD33与AD的遗传关联是因果关系还是仅仅是由于与真正的因果变异的联系不平衡。ii)到目前为止,尚不完全清楚,如何以最佳方式治疗地操纵CD33的表达水平。iii)可能存在安全问题,因为CD33对于抑制免疫反应和介导自我耐受很重要。全身性CD33抑制可能诱发炎症性自身免疫性疾病。因此,我们认为本文对CD33的研究更多地是展示我们的iVAMBN方法,而不是对CD<>的治疗价值提出任何具体建议。将针对特定蛋白质的已批准药物的已知副作用整合到我们模型的图结构中可以为可能的副作用提供提示,并且是进一步研究的一个有趣的点。
总的来说,我们看到了我们工作的影响:首先,我们引入了一种新的多尺度定量建模方法(iVAMBN),该方法广泛适用于系统医学,特别是在仅对生物现象进行部分机械理解的情况下。其次,我们开发的模型可以通过AD领域进一步探索,并可以帮助更好地了解疾病以及确定新的治疗方案。
方法
广告知识图谱
这项研究的主要部分是BEL(https://bel.bio)编码的知识图谱,最初是通过文本挖掘编译的,后来通过文献手动策划。通常,BEL语言有助于构建计算机可处理的因果关系模型。每个 BEL 语句都由一个主语和一个宾语组成,通过关系连接。主体和客体可以是许多不同的实体,如基因、蛋白质或RNA,也可以是生物过程、病理甚至化学物质。因此,这些关系也有许多不同的方面。这些可以是增加、减少或关联等关系,描述主体和客体之间的相互作用。但也有一些关系描述了诸如主体和宾语的成员资格之类的东西,例如hasComponent和isA。这里使用的BEL模型是[11]中发布的AD因果关系模型的丰富版本,可以在github存储库中找到。富集是围绕CD33和TREM2两个基因进行的,因此在AD的背景下收集了有关这两个基因的详细知识。
过滤步骤是必要的,以便仅获得在基因表达数据中测量的实体。在这种情况下,只能使用知识图谱中的基因和蛋白质实体。此外,对知识图谱仅针对因果交互进行过滤,例如增加、减少或调节,从而生成具有 431 个节点和 673 条边的网络。从那以后,我们只采用了最大的连接组件来减小维度。因此,我们研究期间使用的图由 383 个节点和 607 条边组成,其中任何两个节点都通过某种路径连接。
过滤后的知识图谱聚类。
iVAMBN的一个关键方面是将输入特征(基因,病理生理学和临床特征)分组到模块中,以便在后续步骤中对贝叶斯网络结构进行统计稳定的鉴定。为了识别基因模块,我们在不同的图聚类算法的帮助下对知识图谱进行了聚类:
马尔可夫聚类算法 [33, 54] 在 R [55] 的 MCL 包中实现。
边缘中介 [56] 在 R 包中实现的社区检测 igraph [57]
信息地图 [58] 在 R 包中实现的社区查找方法 igraph [57]
聚类后,作为单个簇一部分的基因被分配到相应的模块。基因没有聚集,而只连接到一个集群,被合并到该集群中。连接到多个簇的基因保留为单基因模块(由单个特征组成的模块)以供进一步分析。我们根据[59]中描述的多个指标选择了最佳的聚类算法,包括内部密度、聚类内边数、平均程度、膨胀、切割比、电导和范数切割。基于这些指标,计算每个图聚类算法的平均排名时考虑到了理性,即每个聚类应该具有较高的内部密度和跨集群的稀疏连接。这导致选择马尔可夫聚类算法进行进一步分析。可以在 S4 表中找到每种聚类算法的指标。
具有AD疾病机制的模块注释。
对于每个模块,对AD相关疾病机制进行了过度代表性分析。从NeuroMMSig数据库中检索到AD相关机制[34]。为此,使用了R中clusterProfiler软件包中的丰富功能,它允许使用用户定义的基因集注释进行超几何测试[60]。我们通过控制错误发现率(Benjamini-Hochberg方法)进行多次测试校正后,用最重要的NeuroMMSig基因集注释每个模块。
基因表达数据分析
来自几项观察性临床研究的RNAseq数据以及来自细胞系敲除实验的RNAseq数据被用于这项工作。患者数据来自i)宗教秩序研究和记忆与衰老项目(ROSMAP)[28-30],以及ii)Mayo RNAseq研究(Mayo)[31]。最后一个包含两个单独的数据集,涉及单独的大脑区域,即小脑和颞叶皮层,而ROSMAP包含来自背外侧前额叶皮层,尾状核头和后扣带皮层的样本。这两项研究都是通过Synapse的AMP-AD知识门户使用RNAseq协调研究中存入的数据访问的。
根据有关其用于的任务的不同标准选择患者样本:
对于主要iVAMBN模型的训练,仅使用来自第一批ROSMAP批次的AD样本,在训练阶段从背外侧前额叶皮层获得221个样本。
为了进行外部验证,我们使用了Mayo的AD患者颞叶皮层样本。
对于特异性和敏感性分析,使用了来自其他批次的ROSMAP数据以及梅奥队列的样本。在此步骤中,首先通过诊断,AD或健康对照分离样本,并按其大脑区域进行分离,从而产生ROSMAP的三个AD和三个健康对照受试者亚群(背外侧前额叶皮层,尾状核头和后扣带皮层)和Mayo的两个AD亚群(小脑和颞叶皮层)。
梅奥研究没有报告健康对照受试者的Braak评分,这使我们将其从特异性分析中丢弃,因为没有可用的表型信息。有关每个分析步骤中使用的每个大脑区域和研究的样本数量的更多信息,请参见S3 Note的表A。
使用的数据是作为使用STAR生成的基因计数矩阵提供的基因计数[61]。基因计数被标准化为每百万对数(logCPM),并且来自AD患者的计数与每项研究中的健康对照数据进行缩放。这意味着对于每个AD样本和基因,减去同一基因在认知正常受试者中的相应平均表达值。随后,我们将值除以健康对照中基因的标准差。这意味着原始表达式值已转换为异常分数。为了使跨研究的表达数据具有可比性,对缩放的AD数据应用了ComBat [62]的批量校正。然后将此标准化、缩放和批量校正数据用于进一步的分析步骤。
本研究期间使用的细胞系RNAseq数据来自具有两种不同遗传背景和两种治疗方法的THP-1单核细胞系。它可以在GEO加入GSE155567下找到。样本可能具有野生型 CD33 或敲除的 CD33 基因,加上对照载体或 SHP-1 敲低载体,导致四种不同的条件:i) 具有对照的野生型,ii) 具有 SHP-1 敲低载体的野生型,iii) 具有对照载体的 CD33 敲除,以及 iv) 具有 SHP-33 敲低载体的 CD1 敲除.每个条件有6个生物学重复。在此介绍的研究中,仅使用含有对照载体的样品,从而使用了1个样品。因此,条件 3 的样品称为野生型 (WT) 样品,条件 63 的样品称为敲除 (KO) 样品。读取与STAR对齐,基因计数通过Rsubread包的featureCounts功能生成[16]。有关数据的更多详细信息,请参见[155567]和GEO加入GSE<>。
变分自动编码器 (VAE)
变分自动编码器[26]是最常用的无监督神经网络技术之一。它们可以解释为一种特殊类型的概率图模型,其形式为 Z → X,其中 Z 是潜在的,通常是多元标准高斯,X 是描述输入数据的多元随机变量。此外,对于任何样本 (x, z),我们有 p(x ∣ z) = N(μ(z), σ(z))。VAE背后的关键思想之一是变分近似
(1)
这意味着 μ(x) 和 σ(x) 是近似后验 q(z ∣ x) 的多元平均值和标准差,并且是多层感知器神经网络(编码器)的输出,该网络经过训练以最小化每个数据点 x 标准
(2)
这里索引 j 在输入 x 的 D 维度上运行,z = μ(x) + σ(x) ⊙ε(l)与ε(l)~ N(0, I) 是从标准多元高斯抽取的第 l个随机样本,⊙ 表示逐元素乘法。值得注意的是,右求和对应于模型对数据点 x 的重建误差,而第一项则强加正则化。有关更多详细信息,请参阅[26]。
异构不完全变分自动编码器 (HI-VAE)
变分自动编码器最初是为均匀、连续的数据而开发的。然而,在我们的例子中,分组到表型模块中的变量不能满足这个假设,因为Braak阶段和MMSE分数是离散的序数。为了与我们早期的工作[25]一致,我们采用了HI-VAE [35],它是变分自动编码器的扩展,允许各种异构数据类型,即使在同一个模块中也是如此。更具体地说,作者建议将解码器分布参数化为
(3)
其中 hj(?)是神经网络学习的函数,γj相应地对数据模态特定参数进行建模。例如,对于实值数据,我们有γj = (μ(z), σj(z)2)),而对于有序离散数据,我们使用温度计编码,其中每个序数类别的概率可以计算为
(4)
跟
(5)
阈值 θj(z) 将实线划分为 R 区域,并且 hj(z) 表示 z 落在哪个区域。因此,数据模式的具体参数γj = {hj(z), θ1(z), ..., θR?1(z)} 并建模为前馈神经网络的输出。
根据[35],我们使用批量归一化来解释不同数据模态之间的数值范围差异。
对于多模态数据,特别是离散数据,单个高斯分布在潜在空间中可能不是足够丰富的表示。因此,作者建议用K分量的高斯先验混合代替VAE中对z施加的标准高斯先验分布:
(6)
(7)
其中 k = 1, 2, ..., K 和 s 是混合物分量的单热向量编码。我们使用3折交叉验证评估了K的不同选择,同时使用重建误差作为目标。总之,事实证明,K = 1 分量是我们 iVAMBN 模型中所有模块的最佳选择。
模块化贝叶斯网络
设 X = (Xv)V∈V是一组由有向无环图 (DAG) G = (V, E) 中的节点 V 索引的随机变量。在我们的例子中,这些节点中的每一个都对应于原始数据中一组变量(即模块)的低维嵌入,或者对应于数据集中的原始特征(例如生物性别)。根据贝叶斯网络(BN)的定义,联合分布p(X1, X2, ..., Xn) 根据分解
(8)
其中 pa(v) 表示节点 v [27] 的父集。在我们的例子中,随机变量服从高斯分布或多项式分布,即BN是混合的。值得注意的是,没有离散随机变量被允许成为高斯变量的子变量。
由于在我们的例子中,BN是在变量组的低维表示上定义的,因此我们将结构称为模块化贝叶斯网络(MBN)。值得注意的是,MBN是结构化输入域上分层BN的一个特殊实例[64-67]。
(M)BNs 中的典型假设是参数集 (θv)V∈V与节点 V 相关联在统计上是独立的。因此,对于高斯节点,可以通过拟合线性回归函数来估计 v 参数,其中 v 的父项是预测变量 [27]。同样,对于只有离散父节点的离散节点,可以通过计算可变配置的相对频率来估计参数,从而生成条件概率表。
通过iVAMBN进行跨生物尺度的定量建模
模型训练。
这里提出的综合变分自动编码器模块化贝叶斯网络(iVAMBN)方法(图1),将不同的生物尺度与知识图谱整合到先前发表的变分自动编码器模块化贝叶斯网络(VAMBN)方法中[25]。更准确地说,构建iVAMBN模型有四个步骤:i)变量模块的定义,ii)为每个模块训练HI-VAE,iii)定义MBN中可能边的逻辑约束,以及iv)使用每个模块的编码值对MBN进行结构和参数学习。这四个步骤源于这样一个事实,即HI-VAE(以及变分自动编码器的任何其他变体)本身可以被解释为特定类型的BN,因此iVAMBN模型的整体对数似然可以相应地分解。这意味着整个iVAMBN模型可以解释为一种特殊类型的贝叶斯网络,详见[25]。
在这项工作中应用iVAMBN方法时,也遵循了四个模型构建步骤。变量模块主要通过前面解释的知识图谱马尔可夫聚类来定义,再加上一个附加模块,将MMSE(迷你精神状态检查)和Braak阶段总结为一个表型模块。MMSE通过测试时间和空间、回忆、语言和注意力的方向来测量认知障碍,而Braak阶段是指生物脑病理的程度[68]。一些未分配的基因在MBN构建中被直接视为节点,因此也称为基因模块。人口统计学特征也是如此,如性别、年龄、受教育年限和APOE基因型。
为了训练每个模块的HI-VAE,在学习率(学习率∈{0.001,0.01})和小批量大小(小批量大小∈{16,32})上实现了超参数优化(网格搜索),如[25]所示。在3倍交叉验证方案中,使用重建损失作为目标函数评估每个参数组合。
一般来说,n 个节点的可能 MBN DAG 结构的数量随着 n [24] 呈超指数增长,这使得识别真正的图结构极具挑战性。因此,我们的目标是通过基于知识的逻辑约束尽可能先验地限制可能的DAG集合。更具体地说,我们施加了以下因果限制:
由人口统计学或临床特征(如年龄、性别、APOE 基因型和大脑区域)定义的节点只能具有传出边缘。
表型模块(=临床结果测量)只能有传入的边缘。
基因和基因模块不能影响人口统计学或临床特征,年龄除外。
为了进一步整合通过知识图谱定义的先验知识,我们在构建MBN时测试了三种不同的策略:
完全数据驱动:结构学习完全忽略知识图谱。
知识知情:知识图谱在贪婪爬山算法中用于结构学习 i) 作为起点,ii) 作为白名单(打算将这些边定义为预先存在),或 iii) 两者兼而有之。
完全知识驱动:知识图谱提供 MBN 的结构,并且仅允许人口统计或表型模块进行其他连接。
MBN的结构学习总是通过贪婪的爬山者使用贝叶斯信息准则进行模型选择。我们采用了 R-package bnlearn [69] 中提供的实现。
评估模型拟合。
为了评估整个 iVAMBN 模型的拟合度,我们采用了模型的生成性质:在对 MBN 的 DAG 节点进行拓扑排序之后,我们首先从每个节点的分布中采样,条件是其父节点。值得注意的是,对于代表模块的MBN节点,这相当于从HI-VAE的后部采样,这实际上可以通过注入正态分布噪声来实现,参见变分自动编码器部分,方程(2)。随后,通过HI-VAE对随机样本进行解码。因此,我们总共产生了与真实主体一样多的合成主体。然后,我们根据合成数据和真实数据比较了每个变量的边际分布。结果,包括汇总统计量和Kullback-Leibler散度显示在补充材料中(S4注释中的图A和B)。此外,我们比较了合成数据和真实数据的相关矩阵。
CD33下表达模拟与分析
为了能够模拟CD33的下表达,我们首先改变了CD33的分布,使其反映了CD9的33倍下表达。为了与贝叶斯网络的理论一致,该操作使CD33有条件地独立于其在MBN中的父级,这相当于删除其任何传入的边并导致残缺的MBN。之后,我们利用了iVAMBN是一个生成模型的事实。这意味着我们首先从残缺的MBN的条件密度中抽取样本。实际上,这相当于首先对MBN中的节点进行拓扑排序,从而利用了底层图结构不能有周期的事实。随后,从每个节点的统计分布中提取样本,同时以父节点的值为条件。结果是每个样本模块活性评分,然后我们通过HI-VAE模型将其解码为单基因评分。
随后通过多个统计假设检验研究了野生型和模拟下表达样品之间的差异:首先,采用线性回归法模拟下表达对基因表达和不同表型评分的影响。其次,使用R中的globaltest包来测试野生型和模拟下表达组之间特定基因集的差异表达[49]。这些测试的基因集在这里是通过MBN中使用的模块基因定义的,这意味着我们测试了MBN基因模块的差异表达。借助全局测试的子集选项并通过计算错误发现率,针对多个测试场景调整了 P 值。基因集的全局测试以及倍数变化分析也应用于细胞系WT和KO数据,以便能够验证结果。
模拟其他候选靶标扰动的影响与CD33敲低类似。同样,相应目标的分布发生了变化,反映了9倍的下调或上调。识别出候选目标被分配到的模块,并且映射到该模块的所有变量(包括扰动目标)都通过先前训练的模块HI-VAE进行编码。随后,可以以与CD33相同的方式预测对表型的影响。
支持信息
模块富集分析。
显示 1/13: pcbi.1009894.s001.xlsx
跳到无花果共享导航
一个 B C D
1 模块 基因 神经MMSig术语 调整后。P 值
2 1 289 GABA子图 0.0083
3 谷氨酸能子图 0.0087
4 2 16 收费样受体子图 0.0089
5 3 7 前列腺素子图 0.0109
6 4 6 TGF-Beta子图 0.000014
7 5 9 TGF-Beta子图 0.0003
8 6 4 卡帕斯塔丁-钙蛋白酶子图 0.0004
9 7 4 JAK-STAT信令子图 0.0393
10 Akt 子图 0.0393
11 细胞周期子图 0.0393
12 8 3 AGER, NFATC1, CSF2
13 9 3 伴侣子图 0.0396
14 趋化因子信号传导子图 0.0396
15 10 2 REL, IL21
16 11 2 泛素降解子图 0.0109
17 未折叠的蛋白质反应子图 0.0217
18 12 2 胰岛素信号转导 0.0359
19 谷氨酸能子图 0.0359
20 13 2 过氧化物酶体增殖物激活受体亚图 0.0024
21 14 2 GDNF, CASP3
22 15 2 γ分泌酶子图 0.0335
23 陷波信号子图 0.0335
24 亚当金属蛋白酶子图 0.0335
25 16 2 表观遗传修饰子图 0.0109
26 17 2 TICAM1, RALBP1
27 18 2 淀粉样蛋白生成子图 0.0145
28 19 2 肿瘤坏死因子子图 0.043
29 钙依赖性信号转导 0.043
30 未折叠的蛋白质反应子图 0.043
31 20 2 乙酰胆碱信号传导子图 0.0205
32 21 2 基质金属蛋白酶亚图 0.0302
33 22 2 轴突引导子图 0.0121
34 23 2 IFNB1, TRAF1
35 24 2 夏普子图 0.0114
36 T细胞信号传导 0.0324
37 25 2 探地雷达3, ARRB2
38 26 2 内质网-高尔基体蛋白输出 0.0288
39 淀粉样蛋白生成子图 0.0288
40 27 2 低密度脂蛋白子图 0.0193
41 28 2 MIR485, DLG4
42 单基因 4 CD33, HSPB2, HSPB3, MIR101-1
塔贝勒1
1 / 13
下载
无花果分享
S1 表。 模块富集分析。
如果模块中的基因没有显著富集NeuroMMSig项(调整p<0.05),则报告单个基因。如果可以找到显著的丰富术语,则报告所有显著的途径。
https://doi.org/10.1371/journal.pcbi.1009894.s001
(三十)
S2 表。 模块分配。
对于每个基因,给出来自马尔可夫聚类的相应模块编号。模块 0 是指所有独立基因。
https://doi.org/10.1371/journal.pcbi.1009894.s002
(三十)
S3 表。 引导置信度结果。
这是贝叶斯网络中每个可能边的自举置信度的完整列表。对于每个边,都会给出相应的开始和结束音符,以及自举强度和方向。
https://doi.org/10.1371/journal.pcbi.1009894.s003
(三十)
S4 表。 图形聚类指标。
在知识图谱上应用了1种聚类算法:2)马尔可夫聚类,3)边缘中介和<>)信息图谱。对于每个集群算法,都会给出相应的指标以及平均排名。粗体打印是符合相应指标的最佳算法。算法按指标排名,并计算每个算法的平均排名。
https://doi.org/10.1371/journal.pcbi.1009894.s004
(三十)
S1 注意。 iVAMBNs 模块定义。
https://doi.org/10.1371/journal.pcbi.1009894.s005
(英文)
S2 注意。 iVAMBNs知识整合。
https://doi.org/10.1371/journal.pcbi.1009894.s006
(英文)
S3 注意。 特异性和敏感性分析。
https://doi.org/10.1371/journal.pcbi.1009894.s007
(英文)
S4 说明。 评估模型拟合。
https://doi.org/10.1371/journal.pcbi.1009894.s008
(英文)
S1 图 聚类知识图谱。
知识图谱模块(簇)用显著丰富(调整后p < 0.05)神经MMSig机制进行注释。如果模块中的基因没有显著丰富NeuroMMSig项,则报告所包含基因的符号。如果可以找到多个重要的丰富项,则使用最重要的途径来命名相应的节点。如果模块包含单个基因,则报告基因符号。CD33标记为红色,而其他单基因显示为绿色,非单基因模块为紫色。
https://doi.org/10.1371/journal.pcbi.1009894.s009
(巴布亚新几内亚)
S2 图 最短路径模块之间的定量效应。
显示每个相关性 (R) 及其置信区间 (CI) 和多次检验调整的 p 值。左:CD33与前列腺素通路模块的相关性。右:前列腺素通路模块与表型模块的相关性。
https://doi.org/10.1371/journal.pcbi.1009894.s010
(巴布亚新几内亚)
S3 图 新训练边缘模块之间的定量效应 1.
显示每个相关性 (R) 及其置信区间 (CI) 和多次检验调整的 p 值。从模块始终显示在 x 轴上,而 to 模块显示在 y 轴上。
https://doi.org/10.1371/journal.pcbi.1009894.s011
(巴布亚新几内亚)
S4 图 ROSMAP 和妙佑医疗国际网络结构的重叠。
显示了不同阈值下 ROSMAP 数据和 Mayo 数据的独立自举结构学习的重叠。黑线表示考虑边方向时的重叠,虚线表示网络骨架的重叠。
https://doi.org/10.1371/journal.pcbi.1009894.s012
(巴布亚新几内亚)
S5 图 对上调和下调模拟表型评分的影响。
条形图显示了每个靶标和每个表型评分的原始数据中的平均得分与模拟数据中的平均得分之间的差异,即MMSE(上两行)和Braak评分(下两行)。第一行和第三行显示表达不足的结果,而第二行和第四行显示过度表达的结果。
https://doi.org/10.1371/journal.pcbi.1009894.s013
(巴布亚新几内亚)
确认
此处发布的结果全部或部分基于从AD知识门户(https://adknowledgeportal.org)获得的数据。数据生成得到了以下NIH资助的支持:P30AG10161,P30AG72975,R01AG15819,R01AG17917,R01AG036836,U01AG46152,U01AG61356,U01AG046139,P50 AG016574,R01 AG032990,U01AG046139,R01AG018023,U01AG006576 01、U006786AG01、R025711AG01、R017216AG01、R003949AG01、R080820NS24、U072026NS30、P19610AG01、U046170AG1、RF057440AG24和U061340AG<>,以及Cure PSP、梅奥和迈克尔·福克斯基金会、亚利桑那州卫生服务部和亚利桑那州生物医学研究委员会。我们感谢宗教秩序研究和记忆与衰老项目的参与者的慷慨捐赠,太阳健康研究所大脑和身体捐赠计划,妙佑医疗国际脑库和西奈山/ JJ Peters VA医疗中心NIH大脑和组织存储库。数据和分析贡献调查员包括Nilüfer Ertekin-Taner,Steven Younkin(佛罗里达州杰克逊维尔梅奥诊所),Todd Golde(佛罗里达大学),Nathan Price(系统生物学研究所),David Bennett,Christopher Gaiteri(拉什大学),Philip De Jager(哥伦比亚大学),张斌,Eric Schadt,Michelle Ehrlich,Vahram Haroutunian,Sam Gandy(西奈山伊坎医学院),Koichi Iijima(国家老年医学和老年学中心, 日本),Scott Noggle(纽约干细胞基金会),Lara Mangravite(Sage Bionetworks)。
引用
1.霍德森R.阿尔茨海默病。自然界。2018;559:S1–S1.密码:30046078
查看文章PubMed/NCBI谷歌学术搜索
2.Kanehisa M,Furumichi M,Tanabe M,Sato Y,Morishima K. KEGG:关于基因组,途径,疾病和药物的新视角。核酸研究。2017;45.密码:27899662
查看文章PubMed/NCBI谷歌学术搜索
3.Cerami EG, Gross BE, Demir E, Rodchenkov I, Babur O, Anwar N, et al. Pathway Commons,生物途径数据的网络资源。核酸研究。2011;39.pmid:21071392
查看文章PubMed/NCBI谷歌学术搜索
4.Slenter DN, Kutmon M, Hanspers K, Riutta A, Windsor J, Nunes N, et al.WikiPathways:一个多方面的途径数据库,将代谢组学与其他组学研究联系起来。核酸研究。2018;46.pmid:29136241
查看文章PubMed/NCBI谷歌学术搜索
5.Fabregat A, Jupe S, Matthews L, Sidiropoulos K, Gillespie M, Garapati P, et al.反应组途径知识库。核酸研究。2018;46.密码:29145629
查看文章PubMed/NCBI谷歌学术搜索
6.Carvalho-Silva D, Pierleoni A, Pignatelli M, Ong C, Fumis L, Karamanis N, et al. 开放目标平台:两年后的新发展和更新。核酸研究。2019;47.密码:30462303
查看文章PubMed/NCBI谷歌学术搜索
7.王毅, 张淑, 李芳, 周荫, 张茹, 王志, 等.2020年治疗靶点数据库:促进靶向疗法研究和早期开发的丰富资源。核酸研究。2019.
查看文章谷歌学术搜索
8.皮涅罗 J, 拉米雷斯-安吉塔 JM, 索赫-皮塔克 J, 龙扎诺 F, 森特诺 E, 桑兹 F, 等.疾病基因组学的DisGeNET知识平台:2019年更新。核酸研究。2019.
查看文章谷歌学术搜索
9.Szklarczyk D, Gable AL, Lyon D, Junge A, Wyder S, Huerta-Cepas J, et al. STRING v11:覆盖率增加的蛋白质-蛋白质关联网络,支持全基因组实验数据集中的功能发现。核酸研究。2019;47.pmid:30476243
查看文章PubMed/NCBI谷歌学术搜索
10.Orchard S, Ammari M, Aranda B, Breuza L, Briganti L, Broackes-Carter F, et al.MIntAct项目——IntAct作为11个分子相互作用数据库的通用管理平台。核酸研究。2014;42.密码:24234451
查看文章PubMed/NCBI谷歌学术搜索
11.Kodamullil AT,Younesi E,Naz M,Bagewadi S,Hofmann-Apitius M.健康和阿尔茨海默病状态的可计算因果模型及其机制差异分析。阿尔茨海默氏症和痴呆症。2015;11:1329–1339.密码:25849034
查看文章PubMed/NCBI谷歌学术搜索
12.埃斯图斯 S, 肖 BC, 德瓦尼 N, 胜俣 Y, 按 EE, 法多 DW.评估CD33作为阿尔茨海默病的遗传危险因素。神经病理学报.2019;138.密码:30949760
查看文章PubMed/NCBI谷歌学术搜索
13.姜婷, 于建通, 胡倩, 谭女士, 朱晓昌, 谭立. CD33在阿尔茨海默病中的应用.分子神经生物学。2014;49.密码:23982747
查看文章PubMed/NCBI谷歌学术搜索
14.Zhao L. CD33 in Alzheimer's Disease—Biology, Mechanesis, and Therapeutics: A Mini-Review.老年。2019;65.密码:30541012
查看文章PubMed/NCBI谷歌学术搜索
15.Siddiqui SS, Springer SA, Verhagen A, Sundaramurthy V, Alisson-Silva F, Jiang W, et al.阿尔茨海默病保护性CD33剪接变体通过转移到细胞内池介导适应性功能丧失。生物化学杂志.2017;292.
查看文章谷歌学术搜索
16.Wi?feld J, Nozaki I, Mathews M, Raschka T, Ebeling C, Hornung V, et al.阿尔茨海默病相关CD33的缺失导致炎症性人小胶质细胞表型。神经胶质。2021.
查看文章谷歌学术搜索
17.Griciuc A, Patel S, Federico AN, Choi SH, Innes BJ, Oram MK, et al. TREM2在CD33的下游作用于调节阿尔茨海默病的小胶质细胞病理学。神经元。2019;103.pmid:31301936
查看文章PubMed/NCBI谷歌学术搜索
18.Griciuc A, Serrano-Pozo A, Parrado A, Lesinski A, Asselin C, Mullin K, et al. 阿尔茨海默病风险基因CD33抑制小胶质细胞对淀粉样蛋白β的摄取。神经元。2013;78.密码:23623698
查看文章PubMed/NCBI谷歌学术搜索
19.Steckmann T,Awan Z,Gerstman BS,Chapagain PP.淀粉样蛋白B蛋白纤维生成过程中肽二级结构转化的动力学。理论生物学杂志.2012;301:95–102.密码:22586726
查看文章PubMed/NCBI谷歌学术搜索
20.普罗克特CJ,皮纳尔IS,埃尔森JL,柯克伍德TB。阿尔茨海默病中淀粉样蛋白-β二聚体的聚集,受损降解和免疫靶向:一种随机建模方法。分子神经变性。2012;7:32.密码:22748062
查看文章PubMed/NCBI谷歌学术搜索
21.Oblak AL, Forner S, Territo PR, Sasner M, Carter GW, Howell GR, et al.迟发性阿尔茨海默病的模型生物开发和评估:MODEL-AD。阿尔茨海默氏症和痴呆症:转化研究和临床干预。2020;6.密码:33283040
查看文章PubMed/NCBI谷歌学术搜索
22.Jankowsky JL, Zheng H. 选择阿尔茨海默病小鼠模型的实际考虑。分子神经变性。2017;12:1–22.pmid:29273078
查看文章PubMed/NCBI谷歌学术搜索
23.Arber C,Lovejoy C,Wray S.阿尔茨海默病的干细胞模型:进展和挑战。阿尔茨海默氏症的研究和治疗。2017;9:1–17.密码:28610595
查看文章PubMed/NCBI谷歌学术搜索
24.Chickering DM, Meek C, Heckerman D. 贝叶斯网络的大样本学习是NP-Hard。2012;.
查看文章谷歌学术搜索
25.Gootjes-Dreesbach L, Sood M, Sahay A, Hofmann-Apitius M, Fr?hlich H. 变分自动编码器模块化贝叶斯网络,用于模拟异构临床研究数据。大数据前沿。2020;3:16.pmid:33693390
查看文章PubMed/NCBI谷歌学术搜索
26.Kingma DP, Welling M. Auto-Encoding Variational Bayes.2013;.
查看文章谷歌学术搜索
27.赫克曼·在:福尔摩斯DE,耆那教LC,编辑。关于使用贝叶斯网络学习的教程。柏林,海德堡:施普林格柏林海德堡;2008.第33–82页。
28.穆斯塔法维 S, 盖特里 C, 沙利文 SE, 怀特 CC, 塔萨基 S, 徐 J, 等.老化人脑的分子网络提供了对阿尔茨海默病病理学和认知能力下降的见解。自然神经科学。2018;21:811–819.pmid:29802388
查看文章PubMed/NCBI谷歌学术搜索
29.贝内特 DA, 布赫曼 AS, 博伊尔 PA, 巴恩斯 LL, 威尔逊 RS, 施耐德 JA.宗教秩序研究和匆忙记忆和衰老项目。阿尔茨海默病杂志。2018;64.密码:29865057
查看文章PubMed/NCBI谷歌学术搜索
30.贝内特 DA, 施耐德 JA, 阿瓦尼塔基斯 Z, 威尔逊 RS.宗教秩序研究的概述和发现。目前的阿尔茨海默氏症研究。2012;9.pmid:22471860
查看文章PubMed/NCBI谷歌学术搜索
31.Allen M, Carrasquillo MM, Funk C, Heavner BD, Zou F, Younkin CS, et al.阿尔茨海默氏症和其他神经退行性疾病的人类全基因组基因型和转录组数据。科学数据。2016;3:160089.密码:27727239
查看文章PubMed/NCBI谷歌学术搜索
32.Sonawane AR, Platig J, Fagny M, Chen CY, Paulson JN, Lopes-Ramos CM, et al. 了解组织特异性基因调控。细胞报告。2017 10;21:1077–88.pmid:29069589
查看文章PubMed/NCBI谷歌学术搜索
33.东根SV.通过离散解耦过程进行图聚类。SIAM矩阵分析与应用杂志。2008;30.
查看文章谷歌学术搜索
34.多明戈-费尔南德斯 D, 科达穆利尔 AT, 伊亚潘 A, 纳兹 M, 埃蒙马, 拉施卡 T, 等.神经退行性疾病的多模态机制特征(NeuroMMSig):用于机制富集的网络服务器。生物信息学。2017;33.pmid:28651363
查看文章PubMed/NCBI谷歌学术搜索
35.Nazábal A, Olmos PM, Ghahramani Z, Valera I. 使用 VAE 处理不完整的异构数据。模式识别。2020;107:107501.
查看文章谷歌学术搜索
36.Bsci DT, Msc GK, Weisinger RS, Sinclair AJ.类花生酸在大脑中的作用。亚太 J 临床营养.2008;17:220–228.
查看文章谷歌学术搜索
37.Ardura-Fabregat A, Boddeke EWGM, Boza-Serrano A, Brioschi S, Castro-Gomez S, Ceyzériat K, et al. 靶向神经炎症治疗阿尔茨海默病。中枢神经系统药物。2017;31:1057–1082.pmid:29260466
查看文章PubMed/NCBI谷歌学术搜索
38.比林格·类花生酸在阿尔茨海默病中的作用。国际环境研究与公共卫生杂志。2019;16.密码:31323750
查看文章PubMed/NCBI谷歌学术搜索
39.坎德利什·小胶质细胞表型在衰老和神经退行性疾病中趋同。神经病学前沿。2021;12.密码:34025562
查看文章PubMed/NCBI谷歌学术搜索
40.Schwabe T,Srinivasan K,Rhinn H.转变范式:小胶质细胞在阿尔茨海默病中的核心作用。疾病的神经生物学。2020;143:104962.密码:32535152
查看文章PubMed/NCBI谷歌学术搜索
41.岩本 N, 小林 K, 小坂 K.阿尔茨海默氏症痴呆患者死后大脑皮层中前列腺素的形成。神经病学杂志。1989;236:80–84.密码:2709057
查看文章PubMed/NCBI谷歌学术搜索
42.盐谷 M, 大林 S, 田野 H, 有马 K, 斋藤 Y, 石田 T, 等.神经退行性疾病大脑中异常的microRNA表达:阿尔茨海默病大脑中的miR-29a降低靶向神经元导航器3。神经病理学和应用神经生物学。2010;36(4):320–330.密码:20202123
查看文章PubMed/NCBI谷歌学术搜索
43.赛斯, 孙玲, 李玲, 陈志杰.MAVS的鉴定和表征,MAVS是一种激活NF-κB和IRF3的线粒体抗病毒信号蛋白。细胞。2005;122(5):669–682.密码:16125763
查看文章PubMed/NCBI谷歌学术搜索
44.Serrano-Pozo A,Das S,Hyman BT.APOE和阿尔茨海默病:遗传学,病理生理学和治疗方法的进展。柳叶刀神经病学。2021;20(1):68–80.密码:33340485
查看文章PubMed/NCBI谷歌学术搜索
45.费雷拉A.阿尔茨海默病中的钙蛋白酶失调。ISRN生物化学。2012;2012:1–12.密码:25969760
查看文章PubMed/NCBI谷歌学术搜索
46.Vosler PS,Brennan CS,Chen J. Calpain介导的神经元损伤和神经变性信号机制。分子神经生物学。2008;38:78–100.密码:18686046
查看文章PubMed/NCBI谷歌学术搜索
47.麦卡蒂,迪尼科兰托尼奥JJ,勒纳·氧化剂和细胞内钙信号在阿尔茨海默氏症发病机制中的基本作用,以及全面的抗氧化策略如何帮助预防这种疾病。国际分子科学杂志。2021;22:1–27.密码:33669995
查看文章PubMed/NCBI谷歌学术搜索
48.芒加尔 CJ, 托尔尼亚 C, 格库托斯 GV, 刘易斯 SE, 汉德尔马.Uberon,一个综合的多物种解剖本体。基因组生物学。2012;13.密码:22293552
查看文章PubMed/NCBI谷歌学术搜索
49.Goeman JJ, van de Geer SA, de Kort F, van Houwelingen HC.基因组的全局测试:测试与临床结果的关联。生物信息学。2004;20.密码:14693814
查看文章PubMed/NCBI谷歌学术搜索
50.Abou-Fadel J, Vasquez M, Grajeda B, Ellis C, Zhang J. 全系统分析揭示了CCM信号复合体(CSC)的新角色。赫利永。2019;5:e02899.密码:31872111
查看文章PubMed/NCBI谷歌学术搜索
51.Jensen TMT,Albertsen L,Bartling CRO,Haugaard-Kedstr?m LM,Str?mgaard K.探测与阿尔茨海默病病理生理学相关的Mint2蛋白 - 蛋白质相互作用网络。Chembiochem:欧洲化学生物学杂志。2018.
查看文章谷歌学术搜索
52.古道尔 EF, 希斯公关, 班德曼 O, 柯比 J, 肖 PJ.神经元暗物质:microRNA在神经变性中的新兴作用。细胞神经科学前沿。2013;7:178.密码:24133413
查看文章PubMed/NCBI谷歌学术搜索
53.麦海, 范文, 王茹, 蔡茹, 李旭, 陈芳, 等. 鼻内给药miR-146a Agomir挽救了AD小鼠模型中的病理过程和认知障碍。分子疗法核酸。2019;18:681–695.密码:31707205
查看文章PubMed/NCBI谷歌学术搜索
54.东根SV.通过流模拟进行图聚类。乌得勒支大学专业;2000.
55.J?ger ML. MCL:马尔可夫聚类算法。2015.
56.Newman MEJ,Girvan M.在网络中寻找和评估社区结构。物理评论E. 2004;69:026113.密码:14995526
查看文章PubMed/NCBI谷歌学术搜索
57.Csardi G, Nepusz T, et al.用于复杂网络研究的igraph软件包。期刊间,复杂系统。2006;1695(5):1–9.
查看文章谷歌学术搜索
58.复杂网络上的随机游走图揭示了社区结构。美国国家科学院院刊.2008;105:1118–1123.密码:18216267
查看文章PubMed/NCBI谷歌学术搜索
59.Arratia A, Mirambell MR. 加权网络中的聚类评估.PeerJ 计算机科学。2021;7:1–27.密码:34239979
查看文章PubMed/NCBI谷歌学术搜索
60.Yu G, Wang LG, Han Y, He QY. clusterProfiler:用于比较基因簇之间生物学主题的R包。组学:综合生物学杂志。2012;16.
查看文章谷歌学术搜索
61.Dobin A, Davis CA, Schlesinger F, Drenkow J, Zaleski C, Jha S, et al. STAR: Ultrafast Universal RNA-seq aligner.生物信息学。2013;29:15–21.密码:23104886
查看文章PubMed/NCBI谷歌学术搜索
62.Johnson WE, Li C, Rabinovic A. 使用经验贝叶斯方法调整微阵列表达数据中的批量效应。生物统计学。2007;8.密码:16632515
查看文章PubMed/NCBI谷歌学术搜索
63.廖莹, 史伟R包Rsubread更容易、更快、更便宜、更适合RNA测序读数的比对和定量。核酸研究。2019;47.
查看文章谷歌学术搜索
64.Parviainen P, Kaski S. 可变组的贝叶斯网络;2016.
查看文章谷歌学术搜索
65.Parviainen P, Kaski S. 变量组的贝叶斯网络的学习结构。国际近似推理杂志。2017;88:110–127.
查看文章谷歌学术搜索
66.Becker AK, D?rr M, Felix SB, Frost F, Grabe HJ, Lerch MM, et al.从异构医疗保健数据到疾病特异性生物标志物网络:分层贝叶斯网络方法。公共科学图书馆计算生物学。2021;17:e1008735.密码:33577591
查看文章PubMed/NCBI谷歌学术搜索
67.Gyftodimos E, Flach PA.分层贝叶斯网络:结构化数据的分类和学习方法。在:Vouros GA,Panayiotopoulos T,编辑。人工智能的方法和应用。柏林,海德堡:施普林格柏林海德堡;2004.第291–300页。
68.Braak H,Braak E.阿尔茨海默氏症相关变化的神经病理分期。神经病理学报.1991;82:239–259.密码:1759558
查看文章PubMed/NCBI谷歌学术搜索
69.Scutari M. Learning Bayesian Networks with the bnlearn R Package.统计软件学报.2010;35.
查看文章谷歌学术搜索