免费医学论文-一种深度学习模型,用于优先处理受拷贝数变异影响的基因
抽象
脑部疾病的遗传病因具有高度异质性,其特征是中枢神经系统发育异常,导致身体或智力下降。确定哪个基因驱动疾病的过程,称为“基因优先级”,尚不完全清楚。由于依赖于先前的发现和具有假阳性或阴性关系的证据来源,对基因疾病关联的全基因组搜索仍然不发达。本文介绍了DeepGenePrior,这是一个基于深度神经网络的模型,优先考虑遗传疾病中的候选基因。使用经过充分研究的变分自动编码器(VAE),我们开发了一个评分来衡量基因对目标疾病的影响。与其他使用先前数据选择候选基因的方法不同,基于“关联内疚”原则和蛋白质网络等辅助数据源,我们的研究专门使用拷贝数变异(CNV)进行基因优先级排序。通过分析来自74,811名自闭症,精神分裂症和发育迟缓患者的CNV,我们确定了最能区分病例和对照组的基因。我们的研究结果表明,与以前的研究相比,脑表达基因的倍数富集增加了12%,与小鼠神经系统表型相关的基因增加了15%。此外,我们在与所有三种疾病相关的顶级基因中发现了ZDHHC8,DGCR5和CATG00000022283中的常见缺失,这表明这些临床上不同的疾病具有共同的病因。DeepGenePrior在 http://git.dml.ir/z_rahaie/DGP 在线公开,以解决现有基因优先研究中识别候选基因的障碍。
作者摘要
DeepGenePrior是一种基于深度学习的方法,用于优先考虑遗传疾病中的基因。传统工具利用关联内疚原则,该原则依赖于先验知识来识别新基因。相比之下,我们的方法不使用任何先验信息。此外,其他工具依赖于辅助数据,包括假阳性或假负关系,这可能会导致错误的关联。另一组方法依赖于假设检验,关于这组的基本问题在不同的论文中已经广泛讨论。
我们将DeepGenePrior的结果与统计和机器学习研究的结果与生物学和分类基准进行了比较。我们的方法在三种脑部疾病方面的表现优于目前的工作:自闭症,精神分裂症和发育迟缓。
数字
Table 12图1表1表2Table 3Table 4Table 5Fig 2Fig 3Fig 4Table 6Fig 5Fig 6Fig 7Table 7Table 8Table 9Fig 8Fig 9Table 10Table 11Fig 10Fig 11Fig 12Fig 13Table 12图1表1表2
引文: Rahaie Z,Rabiee HR,Alinejad-Rokny H (2023) DeepGenePrior:一种深度学习模型,用于优先考虑受拷贝数变异影响的基因。公共科学图书馆计算生物学19(7): e1011249. https://doi.org/10.1371/journal.pcbi.1011249
编辑 器: 威廉·斯塔福德·诺布尔,华盛顿大学,美国
收到: 7月 2022, 6;接受: 2023月 24, 2023;发表: <>月 <>, <>
版权所有: ? 2023 拉海等人。这是一篇根据知识共享署名许可条款分发的开放获取文章,该许可允许在任何媒体上不受限制地使用、分发和复制,前提是注明原作者和来源。
数据可用性: 代码和数据可在以下网址获得:http://git.dml.ir/z_rahaie/DGP。
资金: HRR得到了IR国家科学基金会(INSF)的部分支持,批准号为96006077。这项工作还得到了新南威尔士大学科学计划奖学金和澳大利亚研究委员会发现早期职业研究员奖(DECRA)的支持,资助号为DE220101210。这项研究利用了DECIPHER社区生成的数据。为生成数据做出贡献的中心的完整列表可从 https://deciphergenomics.org/about/stats 获得,也可以通过 contact@deciphergenomics.org 的电子邮件获得。DECIPHER项目的资金由Welcome提供,资助号为WT223718 / Z / 21 / Z。对DECIPHER项目中的数据进行原始分析和收集的人对本研究中提供的分析或解释不承担任何责任。新南威尔士大学生物医学机器学习实验室(BML)服务器提供的计算资源得到了新南威尔士大学科学项目奖学金的资助,使分析成为可能。资助者在研究设计、数据收集和分析、发表决定或手稿准备方面没有任何作用。
竞争利益: 提交人声明不存在相互竞争的利益。
介绍
脑部疾病(BD)[1]是一组影响神经系统发育的疾病,导致大脑功能失调,从而影响记忆,情感和学习能力。经过充分研究的自闭症(BD的一种)相关位点包括16p11.2缺失[2-4]和15q3缺失[5,6]。与自闭症相关的遗传因素包括TBX1(参与发育调节并与22q11.2缺失综合征相关)、SHANK3(一种突触支架基因)、NLGN4(一种神经配素基因)、PCDH10(一种原钙粘蛋白基因)和NHE9[7,8]。其他基因如NRXN1,SHANK2,CNTN4,CNTNAP2,DPYD,DPP6,RFWD2,NLGN1,ASTN2,SYNGAP1和DLGAP2,以及DDX53-PTCHD1,是自闭症的候选基因。
精神分裂症(SCZ)是脑部疾病保护伞下的另一种疾病。CNV可破坏与SCZ相关的多个基因,包括TBX1(也与自闭症相关)、ERBB4(编码NDF/heregulin受体)、SLC1A3(一种谷氨酸转运蛋白)、RAPGEF4(一种核苷酸交换因子)和CIT(一种神经元Rho靶基因)[7,8]。据报道,7q11.2和15q13.3与SCZ相关[9]。在SCZ中,3q22.11染色体上大量缺失(21Mb)是一个显著的危险因素[10],也有其他位点的报道,包括1q21.1缺失、3q29缺失、16p11.2重复、15q13.3缺失、2p16.3外显子缺失和7q36.3重复[10]。1q24(包括FMO基因组和DNM3)、2q33.1(SATB2)和2p16.1(NRXN1)的缺失是与发育迟缓(DD)相关的众所周知的变异[11]。
对疾病遗传学的研究对诊断、治疗和开发治疗这些疾病的药物具有重要意义。了解脑部疾病的遗传病因可以为有效的预防和治疗方法提供有价值的见解。基因优先级,即识别最有可能导致疾病或表型的基因的过程,可用于BDs。这项工作使用病例和对照拷贝数变异作为输入,以优先考虑与BDs相关的致病基因。
基因的优先次序依赖于各种类型的证据。根据[12],基因疾病关联分为五类,即功能,跨物种,同区室,突变和文本。第一类研究分子相互作用[13],而第二类讨论在其他生物体中引起类似表型的同源基因[14]。同一区室证据基于以下事实:该基因参与已知的疾病相关通路或区室,如细胞膜或细胞核[15]。突变证据基于单核苷酸多态性(SNP)和结构变异,这也是本研究的重点[16]。文本证据可以从PubMed等在线馆藏中获得[17]。
[18-21]中已经回顾了几种基因优先级方法,从方法学的角度来看,它们可以分为统计方法和机器学习方法。第一组主要采用假设检验,例如像费舍尔或排列检验这样的精确检验,以确定基因是否相关。然而,一些研究报告了p值谬误,如分布假设、数据收集的局限性和误导性结果[22]。此外,功率损耗和从属值在[3]中作为对边际p值的其他批评进行了详细讨论。这些类型的分析可能会出现其他问题,例如没有考虑基因的所有异质性特征。
机器学习(ML)方法通常依赖于“关联内疚”(GBA)原则[23-25]。这一原理表明,与疾病相关的新基因与编码基因之间相似性的网络中最近发现的基因相互作用。然后,对不同类型的网络的推断可以导致新基因的发现。换句话说,ML方法需要种子数据(在这种情况下,隐含表征疾病的基因)[18]和相似性指标,以确定哪些候选基因与种子相似或相关。然而,如[23,24]所述,这种方法存在问题。例如,不可能发现与以前的基因无关的新基因关联。此外,由于这些方法依赖于先前的信息,因此无法找到具有未知根源的新型遗传病的基因[26,27]。
上面讨论的问题阻碍了理想的基因优先解决方案。为了克服这些问题,我们提出了DeepGenePrior方法,该方法属于[12]中建议的第四类,作为基因优先级的深度学习架构。DeepGenePrior使用经过充分研究的自动编码器架构和变分学习框架。变分自动编码器 [28,29] (VAE) 是自动编码器的随机变体。我们的方法使用拷贝数变异(CNV)数据进行基因优先级排序。我们用所有病例的所有CNV和对照组训练神经元网络,然后对目标疾病的CNV进行微调。对照和事例在监督学习阶段具有零个和一个 CNV 标签。最后,我们使用网络权重为每个基因建立一个分数,并对它们进行优先级排序。图1总结了该方法。
缩略图 下载:
.PPT幻灯片
.PNG大图
.TIFF原始图像
图1. 方法摘要和结果分析(与 BioRender.com 一起创建)。
深度学习模型学习案例和对照之间的区别;然后,使用学习的权重来确定基因的优先级。训练后,使用突变小鼠基因、人脑富集基因、DECIPHER 数据和基因本体分析评估结果。
https://doi.org/10.1371/journal.pcbi.1011249.g001
我们提出的方法解决了以前研究中的差距,并提供了几个优点。首先,它不依赖于假设检验中的理论假设。其次,它不需要种子数据,而种子数据是基于关联内疚的方法所必需的。第三,它不依赖于具有虚假关系的网络,如蛋白质-蛋白质网络。
我们使用来自脑部疾病的CNV来评估我们的方法,并将其与主要工具进行比较。我们鉴定了显著突变的基因,并发现我们的方法检测到的大脑表达富集度比其他工具高12%。此外,我们将检测到的基因与引起小鼠神经系统表型的基因进行了比较,发现我们的结果比其他方法富集15%。
此外,我们检查了一种性别中完全代表性过高的基因,并分析了检测到的基因与DECIPHER数据源中的各种表型之间的关系以及假定基因的基因本体。我们发现与所有三种疾病相关的顶级基因中有三个共同的基因:ZDHHC8,DGCR5和CATG00000022283。根据文献[30],ZDHHC8中发现的缺陷可能与精神分裂症的易感性有关。此外,我们发现CYFIP1,PRODH,XXBAC,B444P24,LINC00896,ZDHHC8,AC006547,NIPA2,RTN4R,NIPA1和TUBGCP5中的缺失与精神分裂症和发育迟缓有关。
以下部分描述了我们的算法、我们使用的数据以及我们进行的实验。然后,我们将讨论我们的结果,然后在最后一部分中介绍我们的结论和未来的工作。
结果
BD中基因的优先级
利用深度学习模型来识别与BDs相关的基因。使用来自所有病例和对照组的拷贝数变体(CNV)训练模型,并使用生成的模型权重来确定分数。UCSC提升基因组注释[31]工具用于将所有CNV转换为hg19基因组,并使用NCBI重映射工具确认所有CNV的位置[32]。小于一千碱基对的CNV被排除在分析之外。
该研究展示了表1,2和3,显示了每种疾病的前40个基因,以及它们各自的p值。表4说明了费舍尔精确测试所采用的方法。具体来说,CaseOV表示病例和基因之间的重叠,而ControlOV表示对照和基因之间的重叠。
缩略图 下载:
.PPT幻灯片
.PNG大图
.TIFF原始图像
表 1. 介绍了与发育迟缓相关的前 40 个基因。
本文报告了该模型在发育迟缓(DD)数据源上的主要发现。每行提供有关基因名称、重叠病例和对照、P 值和遗传变异类型的信息。
https://doi.org/10.1371/journal.pcbi.1011249.t001
缩略图 下载:
.PPT幻灯片
.PNG大图
.TIFF原始图像
表 2. 鉴定并呈现与精神分裂症相关的前 40 个基因。
该模型使用精神分裂症数据源进行训练,本文报告了主要结果。每个基因条目都包括有关病例和对照重叠、遗传变异类型和相应 P 值的信息。
https://doi.org/10.1371/journal.pcbi.1011249.t002
thumbnail 下载:
.PPT幻灯片
.PNG大图
.TIFF原始图像
表 3. 本研究介绍了与自闭症谱系障碍(ASD)相关的前40个基因。
根据这些基因的变异,这些基因被确定为引起ASD的可能性最高。
https://doi.org/10.1371/journal.pcbi.1011249.t003
thumbnail 下载:
.PPT幻灯片
.PNG大图
.TIFF原始图像
表 4. 构建了一个列联表来应用费舍尔的精确检验。
该表将用于分析,以计算所研究的基因和DNA片段的p值。
https://doi.org/10.1371/journal.pcbi.1011249.t004
该研究提供了表1,2和3,它们显示了每种疾病的前40个基因及其相应的p值。表4显示了费舍尔精确检验的公式。CaseOV表示病例和基因之间的重叠数量,而controlOV表示对照和基因之间的重叠数量。
此外,我们检查了与所有三种疾病相关的基因以及仅与其中两种疾病相关的基因。COMT缺失在ASD和SCZ之间很常见,而CYFIP1,PRODH,XXBAC-B444P24,LINC00896,ZDHHC8,AC006547,NIPA2,RTN4R,NIPA1和TUBGCP5中的缺失在SCZ和DD之间很常见。 其次,ASD和DD之间的共同基因是FAM57B,SHANK3和BDH1中的缺失,三种疾病之间的共享基因是DGCR5和ZDHHC8中的缺失。
在随后的部分中,与机器学习方法进行了比较,然后搜索显示大脑富集表达的基因。值得注意的是,观察到许多与脑部疾病相关的基因具有富脑功能[33]。我们将我们的结果与类似的研究进行了比较,证明我们的研究成功地识别出比以前的研究更多的富含大脑的基因。
此外,我们将我们的发现与引起小鼠神经系统表型的基因进行了比较,这些基因是从MGI存储库中获得的[34]。我们的研究表明,富集度高于同类研究。下一步是使用DECIPHER数据源[35]识别基因型-表型关系,重点关注表现出高富集水平的表型。
此外,我们使用WebGestalt[36]对编码基因进行基因本体分析,重点是检查基因本体(GO),人类表型本体(HPO)和相关疾病术语。
与机器学习方法的比较
接下来,我们将我们的方法与机器学习方法进行比较,以解决基因优先级问题。选择的算法是引导反向传播(GBP)[37],deepLIFT[38]和DeepGenePrior(没有预训练)。第三个选择是显示预训练对整个模型性能的影响(消融研究)。DeepLIFT [38] 是一种基于参考的全局特征重要性算法,它使用相关分数来衡量输入对模型输出的影响。引导反向传播是基于梯度的全局特征重要性。
性能基准的计算方法如下。对模型进行综合训练,根据各自的权重选择重要基因。随后,使用识别的重要基因作为输入并将疾病状态作为输出来重新训练模型。然后根据测试集报告性能评估。全局方法主要受到许多计算和估计的影响(使模型不准确)。深度提升需要参考进行计算;该引用对模型的最终结果非常有影响,并可能导致模型选择错误的输入。
引导反向传播需要梯度,并且已经证明梯度有时会产生噪声,导致选择不相关的特征。其他方法需要几个简单的局部代理模型来插值高维模型中的流形(如 LIME [39]);这些替代品强加了大量的计算并使模型不精确。
我们提出的方法的一些优点是它不需要引用,不依赖于噪声数据,并且不是局部的,并且有一种方法可以在模型中注入未标记和标记的数据。
这些算法的Python火炬Captum [40]实现用于比较。
表5中报告了有关准确度和ROC AUC的结果。我们的DeepGenePrior算法比其他算法表现得更高。此外,ROC 曲线如图 2 所示。
thumbnail 下载:
.PPT幻灯片
.PNG大图
.TIFF原始图像
表 5. 与其他机器学习方法进行了比较以评估性能。
报告了三个数据集的各种机器学习技术的精度和ROC AUC。结果发现,DeepGenePrior优于其他方法,表现出更高的准确性和ROC AUC值。
https://doi.org/10.1371/journal.pcbi.1011249.t005
thumbnail 下载:
.PPT幻灯片
.PNG大图
.TIFF原始图像
图2. 不同机器学习方法的曲线下面积 (AUC) 值。
黄色曲线代表DeepGenePrior,蓝色曲线代表没有预训练的DeepGenePrior,绿色曲线代表引导反向传播[37],红色代表DeepLIFT[38]。
https://doi.org/10.1371/journal.pcbi.1011249.g002
组织特异性基因的过度代表性
一些研究(如[41]和[42])声称,富含大脑的基因在BDs中起着重要作用。为了确定检测到的基因在脑组织中是否过度代表,我们计算了已富集的编码和非编码基因的比例(背景期望),并将其与与已删除或重复的CNV重叠的基因的百分比进行比较。
[41]的作者提供了一份富含大脑的基因列表。为了获得此列表,他们使用FANTOM5 CAGE相关转录组[43]来鉴定区域中的编码和长非编码RNA基因,并检查了它们在样品类型中的表达模式。
除了替代方法外,我们还整合了两种基因优先排序工具,GeneFriends [44]和ToppGene [45],两者都可以在线访问。GeneFriends应用关联内疚方法,而ToppGene根据与训练基因列表的功能相似性来识别候选基因。但是,这些工具具有一定的局限性。值得注意的是,它们容纳大型数据集的能力有限,需要种子数据才能获得结果(遵循关联内疚原则),并依赖于用户的参数调整,例如设置 Pearson 相关阈值和 FDR 阈值。对于此分析,使用了默认参数值。
图3显示了脑富集编码基因折叠富集的结果,图4显示了脑富集lncRNA基因折叠富集的结果。
thumbnail 下载:
.PPT幻灯片
.PNG大图
.TIFF原始图像
图3. 大脑富集比较,编码基因。
该图比较了不同工具和方法的大脑富集编码基因。评估了两种变异类型的大脑富集编码基因的百分比,即缺失和重复。
https://doi.org/10.1371/journal.pcbi.1011249.g003
thumbnail 下载:
.PPT幻灯片
.PNG大图
.TIFF原始图像
图4. 大脑富集比较,非编码基因。
该图说明了基于富含大脑的非编码基因百分比的不同工具和论文的比较。
https://doi.org/10.1371/journal.pcbi.1011249.g004
我们的研究结果与Coe等人[11]和Cooper等人[46]的结果进行了比较,这两项重要的发育迟缓研究。它们还与PLINK [47]和SNATCNV [41]进行了比较,这些工具具有最先进的性能。
在与ASD和SCZ相关的富脑基因列表中,DGCR2指定了一种被认为在神经嵴细胞迁移中很重要的蛋白质[30]。ZDHHC8基因与ASD和SCZ密切相关[30],是另一个需要注意的基因。
接下来,我们有一些与SCZ相关的大脑富集基因;RTN4R是一种基因,其中成人中枢神经系统可能受到其在调节轴突再生和可塑性中的作用的影响。CATG00000058203和Septin5和CATG00000057131是一些与ASD和SCZ相关的脑富集基因,如前所述[41]。
至于发育迟缓,DGCR5,PRODH,NIPA1,TUBGCP5,RTN4R,ZDHHC8,CRKL和SERPIND1基因也富含大脑并与疾病相关。他们中的大多数来自 22德·和 15千染色体(22q11.21)。
男性和女性患者的基因分离分析
长期研究表明,女性比男性更能耐受突变,这就解释了为什么男性更容易患自闭症等脑部疾病。新的研究也证实了先前发现的有效性[48-50],即在比较病例与对照组的比例时,男性病例比女性病例表现出更显着的富集。在这项研究中,我们指出一些基因更偏向男性,例如PHF2中的缺失(ENSG00000197724),NRXN1中的重复(ENSG00000179915),以及WDFY3(ENSG00000163625),PHF3(ENSG00000118482),MED13L(ENSG00000123066)和WAC(ENSG00000095787)中的缺失,在男性中比女性更常见于发育迟缓。
此外,我们对ASD CNV进行了相同的分析。我们发现PTCHD1(ENSG00000165186)基因缺失在男性患者中比女性患者发生得更多。(表6提供了这些权利要求的详细信息,卡方检验证实了结果)。
thumbnail 下载:
.PPT幻灯片
.PNG大图
.TIFF原始图像
表 6. 脑部疾病的性别偏见分析。
该表介绍了脑部疾病的性别偏见分析,突出显示了与一种性别相关的基因。
https://doi.org/10.1371/journal.pcbi.1011249.t006
破译分析
我们使用DECIPHER [35](近12,600名CNV患者的基因型-表型数据源)来分析与候选基因相关的表型。
为了研究基因和表型之间的关系,我们计算了具有特定表型的重叠样本与推定基因的重叠样本数量的比率。图5(DD),6(SCZ)和7(ASD)描述了每种目标疾病的相应热图。
thumbnail 下载:
.PPT幻灯片
.PNG大图
.TIFF原始图像
图5. 发育迟缓的热图。
该图展示了发育迟缓的热图,提供了对候选基因与DECIPHER表型之间关系的见解。热图显示了基因和表型之间的强烈相关性,由突出的深红色描绘。
https://doi.org/10.1371/journal.pcbi.1011249.g005
thumbnail 下载:
.PPT幻灯片
.PNG大图
.TIFF原始图像
图6. 精神分裂症的热图。
该图显示了精神分裂症的热图,其中水平标签表示与SCZ相关的基因,垂直标签表示DECIPHER表型。结果的详细说明可以在随附的文本中找到。
https://doi.org/10.1371/journal.pcbi.1011249.g006
thumbnail 下载:
.PPT幻灯片
.PNG大图
.TIFF原始图像
图 7. 自闭症的热图。
颜色图例类似于上一个热图。
https://doi.org/10.1371/journal.pcbi.1011249.g007
与目标疾病相关的一些突出表型是肥胖(HP:0001513),自闭症(HP:0000717),行为异常(HP:0000708),面部不规则(HP:00000271)和癫痫发作(HP:0001250)。
自闭症儿童更容易患上医学合并症。例如,我们发现巨头畸形(HP:00000256),脑积水(HP:00000238),脑瘫(HP:0100021),偏头痛(HP:0002076),睡眠障碍(HP:0002360)和生长迟缓(HP:0001508),这也在[51]中被提及为自闭症中同时发生的表型。对于精神分裂症,DECIPHER分析揭示了强迫行为(HP:0000722)、焦虑(HP:0000739)和抑郁(HP:0000716)等表型,并在[52]中进行了解释。MVP 重复在 SCZ 中比例过高,与抑郁症有关 (HP:0000716)。
关于发育迟缓,可以提出小头畸形(HP:0000252)和焦虑(HP:0000739)等继发性疾病,这在[53]中也有提出;这种疾病得到的研究较少。与小头畸形相关的BCL9,FMO5和GPR89B缺失在DD中也过多。 与焦虑相关的NIPA1重复是DD的顶级基因之一。在[53]中,发现NF1基因的微缺失与小头畸形和DD有关。
我们的模型推断出一组目标遗传疾病的基因。我们研究了与基因相关的表型集;基因与表型之间的具体关系表明,疾病的病因可以存在多样性,这意味着目标疾病中表型的发生受患者突变的候选基因的影响。
候选基因的生物学过程和表型本体分析
作为分析的一部分,我们使用Web格式塔[36]来研究已识别基因与特定基因本体(GO)、人类表型本体(HPO)和疾病术语之间的关联[54,55]。
发现的疾病本体术语的一些例子是智力障碍,语言发育障碍,学校表现不佳(发育迟缓),自闭症和语言发育障碍。[56]将语言发育障碍作为BD的合并症进行讨论。
在相关的HPO术语中,一些例子是自闭症行为,言语和语言发育延迟,智力障碍,严重的整体发育迟缓,异常的社会行为,社交互动受损以及异常的攻击性,冲动或暴力行为。[57]中提到了异常行为,[56]中将社交互动受损作为与BDs相关的表型进行了讨论。
突出显示的基因本体学术语包括认知、树突发育和突触组织。在[58]中,树突发育被指出与BDs有关,突触组织与BDs之间的关系在[59]中得到处理。表 7、8 和 9 总结了结果。
thumbnail 下载:
.PPT幻灯片
.PNG大图
.TIFF原始图像
表 7. 发育迟缓的网络格式塔分析。
对与发育迟缓(DD)相关的基因进行了三种类型的分析。该表显示了p值,错误发现率(FDR)以及每个分析性状的基因数量。
https://doi.org/10.1371/journal.pcbi.1011249.t007
thumbnail 下载:
.PPT幻灯片
.PNG大图
.TIFF原始图像
表 8. 精神分裂症的网络格式塔分析。
该表显示了对精神分裂症进行的Web格式塔分析的结果。通过各种类型的分析,一些特征已经显示出与脑部疾病的显着相关性。
https://doi.org/10.1371/journal.pcbi.1011249.t008
thumbnail 下载:
.PPT幻灯片
.PNG大图
.TIFF原始图像
表 9. 自闭症谱系障碍的网络格式塔分析。
https://doi.org/10.1371/journal.pcbi.1011249.t009
突变小鼠中致神经系统表型的编码基因同系物的过度代表
研究动物基因突变可以深入了解脑部疾病的疾病机制和治疗方法。已经开发了几种动物模型来揭示该疾病的过程[60]。神经系统中具有特定缺陷的突变小鼠就是其中之一。基于突变小鼠的模型复制了脑部疾病的关键症状。
我们研究了在小鼠基因中具有同源物的百分比,其突变导致神经系统表型。为此,我们使用小鼠基因组信息学(MGI)数据库来鉴定与小鼠神经系统及其人类同系物相关的基因。
图8分析了小鼠中表现出神经系统表型的已鉴定基因中同系物的比例。研究结果表明,与其他方法获得的结果相比,通过我们的方法鉴定的编码基因在显示神经系统表型的突变小鼠模型中显示出更高比例的同系物。我们还评估了两种基因优先排序工具,GeneFriends [44]和ToppGene [45]。例如,在具有神经系统表型的小鼠中具有直系同源物的一些基因是SEPTIN5,RTN4R和ZDHHC8。这些基因在三种疾病中很常见。
thumbnail 下载:
.PPT幻灯片
.PNG大图
.TIFF原始图像
图8. 与神经系统表型相关的小鼠基因的百分比。
该图比较了从各种工具和方法获得的结果,根据变化类型进行分类。该分析的重点是导致神经系统表型的小鼠基因的比例。
https://doi.org/10.1371/journal.pcbi.1011249.g008
统计分析
随后,进行独立的统计分析,将DeepGenePrior的结果与类似研究中进行的假设检验进行比较。样品结果如图9所示。为了评估观察到的关联是否具有统计学意义或偶然发生,对病例和对照标签进行了100,000次随机排列。相应的结果在相应的图表中进行了说明。
thumbnail 下载:
.PPT幻灯片
.PNG大图
.TIFF原始图像
图 9. -log10(p 值)在具有缺失和重复样本的染色体上的分布。
该图显示了 -log10(p 值)的分布,使用 Fisher 的精确测试删除(绿色曲线)和重复(红色曲线)。横轴表示染色体位点,而纵轴表示 -log10(p 值)。
https://doi.org/10.1371/journal.pcbi.1011249.g009
讨论
在本文中,我们提出了一种深度学习方法,该方法使用变分自动编码器来分析CNV并系统地确定其中的基因的优先级。我们的深度学习模型了解特征如何在样本上分布,这使我们能够预测基因变异导致特定疾病的可能性。我们将我们的方法应用于脑部疾病总称下的三种疾病。我们检查了富集脑编码、长非编码RNA基因和具有神经系统表型的小鼠直系同源物过度代表性的结果。此外,我们使用DECIPHER数据来研究已鉴定基因的变异如何影响其他性状。此外,我们还进行了基因本体分析。
我们分析了来自118,968名患者的48,748例CNV和来自76,528名健康个体的26,063例对照CNV,以确定其与脑部疾病的基因关联。在与发育迟缓相关的前40个基因中,DGCR6,PRODH,DGCR5和ZDHHC8是参与DiGeorge综合征病理学和精神分裂症的潜在候选者。 此外,MVP的表达可作为几种癌症的预后标志物。对于精神分裂症,DGCR6和PRODH是众所周知的候选基因,DGCR5是引起精神分裂症的长非编码RNA基因,得分较高。此外,SEZ6L2,CDIPTOSP,ASPHD1和RANBP1是精神分裂症的潜在候选基因。对于自闭症谱系障碍,DGCR2,ARVCF,GNB1L,COMT,ZDHHC8,CHRNA7和NRXN1是具有各种相关发育缺陷的候选基因。
精神分裂症是一种与遗传因素相关的复杂且使人衰弱的精神障碍。众所周知的精神分裂症候选基因之一是DGCR6,它编码蛋白质。此外,位于1q22.11上的PRODH(脯氨酸脱氢酶21)突变与精神分裂症(SCZD4)的易感性有关。精神分裂症的另一个潜在遗传因素是DGCR5,它是一种长非编码RNA(lncRNA),在引起精神分裂症方面得分很高。[30]
SEZ6L2(癫痫相关6同源物2)位于16p11.2,是另一个与精神障碍有关的基因。该区域被认为拥有自闭症谱系障碍的候选基因。CDIPTOSP(CDIP转移酶反链,假基因)是与中枢神经系统生殖细胞肿瘤疾病相关的lncRNA基因。ASPHD1(天冬氨酸β-羟化酶结构域含1)是另一个与精神分裂症(特别是精神分裂症3)相关的基因。最后,RANBP1(RAN结合蛋白1)是一种与Digeorge综合征相关的蛋白质编码基因。
自闭症谱系障碍(ASD)是一种与遗传因素相关的复杂发育障碍。其中一个因素是DGCR2的缺失,它与广泛的发育缺陷有关。这些缺陷统称为 CATCH 22,代表 DiGeorge 综合征、腭心面综合征、圆锥畸形面部综合征和孤立性圆锥体心脏缺陷。此外,ARVCF基因负责常染色体显性遗传性阴道心肌面部综合征(VCFS),其特征是腭裂,锥形心脏缺陷和面部畸形。GNB1L是DiGeorge综合征中另一个被删除的基因。[61,62]
精神分裂症和恐慌症是另外两种与遗传因素有关的精神障碍。其中一个因素是COMT(儿茶酚-O-甲基转移酶)基因,它编码蛋白质并与精神分裂症和恐慌症1有关。另一个与精神分裂症相关的基因是ZDHHC8(锌指DHHC型棕榈酰转移酶8),它位于染色体6q24-q25上。
我们还调查了BD中CNV的性别分布。我们发现,对于某些BD,NRXN1中的重复和PTCHD1中的缺失在男性中比在女性中更常见。
我们观察到,一些富含大脑的编码基因在所有三种疾病中都显着表达。例子包括DGCR2,SEPTIN5和ARVCF,它们位于22号染色体上,并且具有与这些疾病相关的缺失。这三个基因是编码与这三种疾病相关的大脑富集基因的前十名之一。我们还发现DGCR5是一种以前被称为亨廷顿病生物标志物的非编码脑富集基因,与DD高度相关。 AC000068是与SCZ和ASD相关的非编码脑富集基因。SEPTIN5先前已被证明与ASD和SCZ有关,而DGCR2主要已知与SCZ相关。AC004471是与SCZ,ASD和DD相关的前10个基因中的非编码脑基因。
在具有显着大脑表达的顶级基因中,一些基因在小鼠中具有直系同源物,显示出神经系统表型。SEPTIN5,ZDHHC8,RTN4R和KCTD13是ASD和SCZ的顶级基因,而RTN4R和ZDHHC8在DD中排名很高。 SEZ6L2在ASD中排名最高,但在SCZ中的排名较低。ZDHHC8和RTN4R是具有神经系统形态和生理表型的基因,而SEPTIN5在小鼠中仅显示神经和生理表型。
在下一步中,我们使用DECIPHER [35]来检查检测到的基因与其他表型之间的关系。我们发现言语延迟、语言和自闭症与这组基因有关。根据我们的发现,癫痫发作与SCZ有关;这种关系在[63]中已经讨论过。
小头畸形[64]和巨头畸形[65]是与ASD和SCZ相关的两种反向表型。此外,“面部形状异常”与所有三种疾病有关[66],[67]也对此进行了研究。CACNA1H是与一些过度代表性的表型相关的基因之一[68],[20]中讨论的TCF69是发育迟缓热图中强调的另一个基因。
我们使用Web格式塔工具对检测到的基因进行了基因本体分析。该工具使我们能够分别进行基因本体分析、人类表型本体(HPO)分析和疾病本体分析。对于疾病本体论,一些术语是“语言发育障碍”,“自闭症行为”和“先天性颈部异常”。代表性过高的HPO术语包括“严重的全球发育迟缓”,“异常的社会行为”,“言语和语言发育迟缓”和“智力障碍”。一些最常见的基因本体学术语是“树突发育”,“认知”和“神经系统过程的调节”。总之,这些发现支持该方法鉴定的基因与导致脑部疾病的遗传因素的生物学相关性。
虽然我们的模型的应用集中在三种特定的脑部疾病上,但重要的是要注意,我们的方法不仅限于这些疾病。我们方法的多功能性使其适用于任何涉及与不同靶标疾病相关的拷贝数变异的病例对照研究。因此,该方法固有地生成特定于目标疾病的候选基因列表。
在未来的研究中,我们计划探索整合网络分析技术,并将突变数据与其他辅助信息(如蛋白质或其他模式)相结合。这种集成将能够利用各种建模工具(如图形)来发现突变数据中的其他模式。
材料和方法
数据和预处理
在这项研究中,我们分析了三个病例对照数据集,包括患有脑部疾病的个体,即自闭症谱系障碍、精神分裂症和发育迟缓。经过预处理和质量控制后,自闭症谱系障碍数据集由47,119例病例和24,858个对照拷贝数变异(CNV)组成,如AUTDB数据库中记录的那样[41]。精神分裂症数据集包括42,046例病例和40,414例对照CNV[70]。发育迟缓数据集包括29,803例病例和11,256例对照CNV。这些数据集是根据它们与脑部疾病的遗传病因学的相关性以及可靠且精心策划的CNV数据的可用性来选择的。
发育迟缓的最终数据源包括两个具有两种不同数据类型的独立数据集:NSTD 54 [46] 和 NSTD 100 [11]。我们利用了NSTD 100数据集,其中包括性别数据。此数据集中的所有 CNV 都很少见,频率不到人群的 1%。有关这些CNV的更多详细信息,请参见表10。
thumbnail 下载:
.PPT幻灯片
.PNG大图
.TIFF原始图像
表 10. 不同数据集的统计信息。
表中报告了病例和对照个体的数量以及CNV的数量。
https://doi.org/10.1371/journal.pcbi.1011249.t010
我们在研究中使用了两个补充数据源。第一个是FANTOM5(哺乳动物基因组5的功能注释)图谱[71],其中包括21,069个蛋白质编码和27,920个非编码基因。
我们使用的第二个数据源是使用ENSEMBL资源的人类染色体失衡和表型数据库(DECIPHER,1年2017月35日)[11]。此数据集包含有关患者、CNV 和表型(如 ASD、DD 和 SCZ)的信息。我们调查DECIPHER网站以分析基因与其他表型之间的关系,并增强和预训练我们的系统。表 <> 显示了数据集的统计信息。
thumbnail 下载:
.PPT幻灯片
.PNG大图
.TIFF原始图像
表 11. 破译统计数据[35]。
DECIPHER是一种基因型-表型数据源,可用于研究基因和性状之间的关联。
https://doi.org/10.1371/journal.pcbi.1011249.t011
在DECIPHER中,有1,548名ASD相关表型的患者,包括“HP:0000717”(自闭症),“HP:0000729”(自闭症行为)和“HP:0000753”(具有高认知能力的自闭症)。该数据集还包含2,144名具有DD相关表型的患者,包括“HP:0001263”(整体发育迟缓),“HP:0011342”(轻度整体发育迟缓),“HP:0011344”(严重整体发育迟缓),“HP:0011343”(中度整体发育迟缓)和“HP:0012758”(神经发育迟缓)。
与其他组织相比,本文还分析了具有高脑表达水平的组织富集基因。我们利用了[41]中提供的富含大脑的基因列表。虽然[42]强调了大脑富集基因对自闭症谱系障碍的影响,但我们的研究重点是它们对精神分裂症和发育迟缓的影响。
此外,我们使用MGI(小鼠基因组信息学)数据[34]来确定与疾病相关的候选基因是否会导致小鼠的神经系统表型,采用与[41]类似的方法。HTML是从涵盖神经系统表型(MP:0003631)[72],异常神经系统形态(MP:0003632)[73]和异常神经系统生理学(MP:0003633)[74]的页面中解析的。映射是使用 [75] 执行的。数据预处理涉及CNV过滤、转换和补充数据清理(解密数据分析、FANTOM5数据等)。
对于CNV过滤和转换,我们过滤掉了小于11kbps的CNV(类似于其他研究,如[41,46,17])。CNV研究也有不同的坐标(hg18,hg19和hg19)。因此,我们统一了所有CNV,并使用UCSC提升基因组注释工具将它们转换为hg31[<>]。此外,由于数据不足,我们去除了Y染色体CNV,消除了所有缺失值的CNV。
我们在使用DECIPHER数据的同时,在补充数据清理期间去除了没有表型的患者。Fantom5、MGI和大脑基因不需要预处理,因为所有基因坐标都已经是hg19格式并准备好处理。
此外,我们删除了一些不是模型结果的基因,例如与对照重叠的基因多于病例或与CNV不重叠的基因。
基因优先排序系统的正式概述
在基因优先排序的背景下,该过程可以概念化为一个系统,其中输入由目标疾病和全面的基因列表组成。根据基因处理采用的方法,还可以合并各种附加数据集作为辅助输入。这些数据集可以包括蛋白质网络、通路数据或与目标疾病相关的可靠候选基因,从而利用“关联内疚”原则。期望的输出是候选基因列表,可以排序或未排序,表示优先级或分类的结果。此外,可以实施评分系统来指示基因与特定表型或疾病关联的可能性。判别算法旨在推断每个基因在目标疾病发展中的作用。
本节旨在提供我们工作的正式定义。考虑一项关于特定目标疾病的病例对照研究。这项研究包括在患者和健康对照组中观察到的拷贝数变异。CNV可以定义为四重,其特征如下:
(1)
其中ch是染色体数,剂量是CNV的类型,缺失或重复,strt和stp确定染色体发生变异的区域。CNV 适用于其特征(如性别、其他表型等)可能可用也可能不可用的人(由标识符指定)。
该 CNV 有两套可供选择:一套用于外壳,一套用于控制。
(2)
(3)
每种罕见的CNV都与个体(以p_id为特征),无论是健康的还是患者的。此外,数据集可以选择包括每个人的辅助数据,例如性别信息。这些补充信息使我们能够探索基因对每种性别的歧视作用。我们的目标是利用一组罕见的拷贝数变体来解决基因优先级问题。
方法概述
与传统的机器学习方法相比,深度学习方法具有构建特征层次结构和减少数据维度的优势。与其他方法相比,这有助于更有效地识别数据中的隐藏模式。深度学习的一个例子是自动编码器,它在降维和通过特征的分层排列生成简洁、高级的数据表示方面起着至关重要的作用[6]。自动编码器由一个编码器网络(推理网络)和一个解码器网络(生成网络)组成,前者逐步将输入转换为低维潜在表示,后者努力重建输出以与原始输入非常相似。自动编码器已广泛应用于各种生物信息学问题[76-78]。
将自动编码器与变分学习框架相结合,促成了变分自动编码器VAE [28,79]的发展。VAE进一步增强了自动编码器的能力。图10显示了VAE的概述,并说明了其示意图。
thumbnail 下载:
.PPT幻灯片
.PNG大图
TIFForiginal image
图 10. 两步半监督变分自动编码器(VAE)过程的可视化。
该图说明了培训VAE所涉及的两个步骤。最初,VAE以无监督的方式进行培训。在第二步中,VAE的一部分用于标签训练,引入监督学习。[80]。
https://doi.org/10.1371/journal.pcbi.1011249.g010
自动编码器与其变分对应物之间的主要区别在于其固有的性质。自动编码器以确定性方式运行,而变分自动编码器(VAE)采用概率方法。特别是VAE采用正则化技术来防止训练期间的过度拟合。VAE建立在贝叶斯定理和推理原理之上,并包含正则化约束。该框架假设潜在表示服从多元高斯分布,表示为 N(μ, σ)。
大量研究表明,与其他生成模型相比,VAE在训练过程中表现出更高的稳定性,并且产生的模棱两可的输出更少。这种性能的提高可归因于VAE对基于似然原理的精确目标函数的优化[81]。VAE中的后验分布被建模为高斯分布,其特征在于其均值和方差。理论上已经证明,这种高斯分布可以有效地逼近任何函数。VAE模型的主要目标是将输入数据编码为高斯分布,估计其均值和协方差。
VAE是一种利用变分推理的深度生成模型,旨在发现高维输入数据X的低维潜在表示,表示为z,遵循概率分布P(X)。为了捕获输入数据集的内在信息,P(z|X),后验分布的估计变得必要,这通常是棘手的。通过采用变分推理,分布族 Q(z|引入 X)(称为变分分布)以近似 P(z|X) 分发。目标是最小化这两个分布之间的Kullback-Leibler(KL)散度(D),作为差异度量。
(4)
经过一番计算,我们得到了以下目标函数,即对数似然的变分下界:
(5)
第一项是对近似后验分布的期望(称为重建误差),第二项(KL 距离)是正则化器(P (z) 是标准高斯分布,N(0, I))。Q(z|X) 是编码分布,P (X|z) 是解码分布。
利用这些方程将最小化任务转换为最大化任务。编码器,表示为 Q(z|X)和解码器(表示为P(X|z))在此过程中起着至关重要的作用。这个目标可以通过深度神经网络与随机梯度变分贝叶斯相结合来实现。在VAE框架中,编码器组件用于生成变分分布的参数。为了减少过度拟合,可以应用dropout技术。识别模型 Q(z|X) 采用多维高斯分布的形式,其中网络生成该高斯分布的均值和协方差。至于潜在空间,采用标准高斯分布N(0,I)作为先验分布。
VAE中的损失函数包括两个项:重建损失,它有助于类似于自动编码器的高效编码和解码,以及正则化项,也称为潜在损失,它对潜在空间施加约束。正则化项近似于遵循标准高斯分布的潜在空间。为了纳入正则化,VAE损失函数结合了Kullback-Leibler散度,它鼓励协方差矩阵接近单位矩阵,均值为零。
深度学习模型的训练过程包括两个阶段:预训练和微调。在预训练阶段,自动编码器被训练为从与疾病相关的所有CNV中学习高级特征。在随后的微调步骤中,将解码器放在一边,仅使用特定于目标疾病的专用CNV进行训练。
方法详细信息
在本节中,我们将解释确定基因优先级的方法。图11提供了该方法的概述。
thumbnail 下载:
.PPT幻灯片
.PNG大图
.TIFF原始图像
图 11. 所提出的方法概述。
该图显示了所提出的方法中涉及的整个过程的示意图。该过程由几个连续的步骤组成,如从左到右所示。第一步涉及数据准备的数据预处理。最初,数据以各种格式获得,例如 hg18、hg19 等。为了建立统一性,数据被转换为统一的格式,特别是hg19。此外,此步骤还消除了数据中的冗余、无用和不完整的功能。在第二步中,使用清理的数据构建模型。该模型采用自动编码器的形式。随后,使用相应的标签调整网络的权重。这些标签分配零或 <> 的值以区分健康和患者个体。在第四步中,利用自动编码器的系数来确定基因的优先级。每个基因的重要性由图中相应图标的大小表示。较大的图标对应于更重要的基因,而较小的图标表示不太重要的基因。
https://doi.org/10.1371/journal.pcbi.1011249.g011
为此任务提出了一个深度学习模型。根据每种疾病的数据集,我们有患者和健康个体的变异拷贝数。个体的每组拷贝数变体都与基因有一些重叠,这些基因是我们的深度学习的特征。如图 12 所示。
thumbnail 下载:
.PPT幻灯片
.PNG大图
.TIFF原始图像
图 12. 从案例和控件生成的功能。
此图显示了从一组案例和控件派生的功能。具体来说,该图描绘了两个病例和两个对照,以及四个感兴趣的基因。在患者和健康个体中观察到的拷贝数变异(CNV)在图的顶部直观地表示为矩形。此外,底部说明了重叠,这些重叠表示每个案例和控件的特征值。这些重叠提供了对案例和控制之间共享特征的洞察。
https://doi.org/10.1371/journal.pcbi.1011249.g012
我们有一个基因列表,我们想要确定它们的表达是否会影响疾病发病率;此外,我们还有针对目标疾病的CNV病例和对照组列表。我们希望将它们转换为监督学习算法。
我们需要将CNV转化为每个健康和患者个体的基因。计算重叠可以做到这一点。对于预处理的一组基因,如前所述,我们测量与个体CNV重叠的长度(以kbps为单位)。训练集的标签是该人是健康的还是有耐心的(零或一)。
在模型的预训练阶段,我们使用了脑部疾病(自闭症+精神分裂症+发育迟缓)的所有CNV。在下一阶段,微调,使用特定疾病的CNV。因此,这里我们使用了半监督学习。
在我们的VAE经过全面培训后,我们只需直接使用编码器部件进行下一步:
使用我们所有的数据点训练VAE,并将我们的数据(X)转换为潜在空间(Z变量)(我们在此步骤中使用所有数据)。
用 (Z, Y) 对(Y 是标签集)求解标准监督学习问题。
整个过程的学习算法如图 13 所示。在此算法中,p 是真正的后验,q 是近似后验分布,z 是潜在变量,θ 是解码器 (z|x) 参数(生成模型),φ 是编码器 (x|z) 参数(推理模型)。
thumbnail 下载:
.PPT幻灯片
.PNG大图
.TIFF原始图像
图 13. 变分自编码器(VAE),学习过程算法[82]。
https://doi.org/10.1371/journal.pcbi.1011249.g013
假设编码器权重由 表示,其中 m 是层数,i 是最后一层的输出大小,j 是当前层中的输入大小(没有连接由零确定)。众所周知,将附加到编码器的最后一层是标签;它的大小是一个(无论个体是病人(= 一)还是健康(=零))。
如果我们将所有权重矩阵相乘,则结果的大小输入大小× 1(矩阵是可乘的,因为最后一层的输出等于下一层的输入)。得到的矩阵(精确的列向量)可以根据标签对基因进行排名(标签是疾病的状态),这与我们想要建模的事情相同。其表述如下:
(6)
深度学习模型的规范使得二元分类任务得以完成。每层的大小是最后一层节点数的平方根。最后一层有一个二元结果,最后一个激活函数是sigmoid,损失函数是二元交叉熵,优化算法是Adam。
此外,我们通过进行全面的文献检索(搜索“基因名称”+“疾病名称”,如果获得有意义的结果,该基因将被标记为已知)来调查三种疾病中前十名基因的新颖性。表 12 显示了此调查的结果。
thumbnail 下载:
.PPT幻灯片
.PNG大图
.TIFF原始图像
表 12. 前十名基因被认为是脑部疾病的候选者及其在最新出版物中的地位。
https://doi.org/10.1371/journal.pcbi.1011249.t012
实施的细节
深度学习模型有一个训练阶段,需要一个包含案例和对照的训练集。我们用Python和PyTorch开发了这个系统[83]。我们使用交叉验证和网格搜索来调整参数(如每层中的神经元数量)。
激活函数是经验选择的整流线性单位,权重通过自适应优化算法(Adam)[84]进行优化,以最小化重建误差和损失。解码器与编码器具有对称结构。学习率、衰减率和纪元分别设置为 0.001 和 1,最多设置为 10,000。此外,我们在一定程度上限制连接以减少参数。训练/测试比率设置为 80/20。层数最多为三层。
支持信息
自闭症谱系障碍的结果详情。
显示 1/10: pcbi.1011249.s001.xlsx
跳到无花果共享导航
抱歉,我们无法预览此文件
1 / 10
下载
无花果分享
S1 表。 自闭症谱系障碍的结果详情。
https://doi.org/10.1371/journal.pcbi.1011249.s001
(三十)
S2 表。 精神分裂症的结果详情。
https://doi.org/10.1371/journal.pcbi.1011249.s002
(三十)
S3 表。 发育迟缓结果的详细信息。
https://doi.org/10.1371/journal.pcbi.1011249.s003
(三十)
S1 图 疾病之间的共同基因,“del”是缺失的缩写。
https://doi.org/10.1371/journal.pcbi.1011249.s004
(每股收益)
S2 图 SCZ病不同染色体中CNV长度的分布;y ? 轴是 ×105.
图顶部的数字显示病例和对照的数量。红色(左)表示案例,蓝色(右)表示控件。
https://doi.org/10.1371/journal.pcbi.1011249.s005
(每股收益)
S3 图 ASD疾病不同染色体中CNV长度的分布。
Y 轴是 ×106.图顶部的数字显示病例和对照的数量。红色(左)表示案例,蓝色(右)表示控件。
https://doi.org/10.1371/journal.pcbi.1011249.s006
(每股收益)
S4 图 DD病不同染色体中CNV长度的分布。
Y 轴是 ×106.图顶部的数字显示病例和对照的数量。红色(左)表示案例,蓝色(右)表示控件。
https://doi.org/10.1371/journal.pcbi.1011249.s007
(每股收益)
S5 图 DD 和 ASD 数据集的人口分布。
https://doi.org/10.1371/journal.pcbi.1011249.s008
(每股收益)
S6 图 破译表型频率。
https://doi.org/10.1371/journal.pcbi.1011249.s009
(每股收益)
S7 图 方法设置的详细信息。
由于该技术是半监督的,因此第一步是使用没有标签的数据来预训练网络。下一步是使用目标数据对其进行微调。接下来,我们使用网络的系数来推导出输入网络的每个特征(即基因)的分数。然后对分数的值进行排序,以便可以评估基因的相对有用性。
https://doi.org/10.1371/journal.pcbi.1011249.s010
(每股收益)
引用
1.Raj MR,Sreeja A.计算基因优先级方法的分析。程序计算机科学。2018 1 月 143;395:410–<>.
查看文章谷歌学术搜索
2.兰文, 王军, 李敏, 彭文, 吴峰. 基于PPI网络的候选疾病基因优先级计算方法.清华科技.2015 13 月 20;5(500):12–<>.
查看文章谷歌学术搜索
3.Kumar AA, Van Laer L, Alaerts M, Ardeshirdavani A, Moreau Y, Laukens K, et al. pBRIT:通过综合数据融合关联功能和表型注释来确定基因优先级。生物信息学。2018 1 月 34;13(2254):62–29452392.密码:<>
查看文章PubMed/NCBI谷歌学术搜索
4.Nitsch D, Gon?alves JP, Ojeda F, De Moor B, Moreau Y. 通过使用机器学习方法对差异表达进行网络分析来确定候选基因优先级。BMC生物信息学。2010 11 月;1(1):6–20840752.pmid:<>
查看文章PubMed/NCBI谷歌学术搜索
5.Glaab E,百加得J,加里波第JM,克拉斯诺戈尔N.使用基于规则的机器学习进行候选疾病基因优先级和癌症基因表达数据的样本分类。普洛斯一。2012 11 月 7;7(39932):e22808075.pmid:<>
查看文章PubMed/NCBI谷歌学术搜索
6.Baldi P. Autoencoders, Unsupervised Learning, and Deep Architectures.ICML无监督和迁移学习研讨会论文集2012年27月37日(第49-<>页)。JMLR研讨会和会议记录。
7.Adie EA,Adams RR,Evans KL,Porteous DJ,Pickard BS。 嫌疑人:能够快速有效地确定位置候选人的优先级。生物信息学。2006 15 月 22;6(773):4–16423925.pmid:<>
查看文章PubMed/NCBI谷歌学术搜索
8.Hutz JE, Kraja AT, McLeod HL, ProvinceMA.CANDID:一种灵活的方法,用于优先考虑复杂人类特征的候选基因。遗传流行病学:国际遗传流行病学学会的官方出版物。2008 32 月;8(779):90–18613097.密码:<>
查看文章PubMed/NCBI谷歌学术搜索
9.程明, 钱华, 黄玉贤, 方TH, 陈志. 精神分裂症拷贝数变异的转化研究.国际分子科学杂志。2021 31 月 23;1(457):35008879.密码:<>
查看文章PubMed/NCBI谷歌学术搜索
10.Malhotra D,Sebat J. CNVs:精神病遗传学罕见变异革命的预兆。细胞。2012 16 月 148;6(1223):41–22424231.pmid:<>
查看文章PubMed/NCBI谷歌学术搜索
11.Coe Bradley P.等人“对拷贝数变异的精炼分析确定了与发育迟缓相关的特定基因。自然遗传学46.10(2014):1063-1071。pmid:25217958
查看文章PubMed/NCBI谷歌学术搜索
12.第15章:疾病基因优先排序。公共科学图书馆计算生物学。2013 25 月 9;4(1002902):e23633938.密码:<>
查看文章PubMed/NCBI谷歌学术搜索
13.Tranchevent LC, Ardeshirdavani A, ElShal S, Alcaide D, Aerts J, Auboeuf D, et al.奋进的候选基因优先级。核酸研究。2016 8 月 44;1(W117):W21–27131783.密码:<>
查看文章PubMed/NCBI谷歌学术搜索
14.St?ubert C, Tarnow P, Brumm H, Pitra C, Gudermann T, Gruters A, et al.评估黑皮质素4受体突变的进化方面。内分泌学。2007 华侨城 1;148(10):4642–8.密码:17628007
查看文章PubMed/NCBI谷歌学术搜索
15.Jiang BB, Wang JG, Wang Y, Xiao J. 组织特异性蛋白质相互作用网络中2型糖尿病的基因优先级。系统生物学。2009 10801131 月;319:28–<>.
查看文章谷歌学术搜索
16.Mefford HC, Muhle H, Ostertag P, von Spiczak S, Buysse K, Baker C, et al.癫痫的全基因组拷贝数变异:特发性全身性和局灶性癫痫中的新易感位点。公共科学图书馆遗传学。2010 20 月 6;5(1000962):e20502679.密码:<>
查看文章PubMed/NCBI谷歌学术搜索
17.Altman RB, Bergman CM, Blake J, Blaschke C, Cohen A, Gannon F, et al.生物学的文本挖掘-前进的道路:来自领先科学家的意见。基因组生物学。2008 9 月;2(1):5–18834498.密码:<>
查看文章PubMed/NCBI谷歌学术搜索
18.佐洛塔列娃 O, 克莱恩·孟德尔和复杂人类疾病的基因优先排序工具综述。综合生物信息学杂志。2019 1 月 16;4(31494632).密码:<>
查看文章PubMed/NCBI谷歌学术搜索
19.莫罗 Y,Tranchevent LC。用于确定候选基因优先级的计算工具:促进疾病基因发现。自然评论遗传学。2012 13 月;8(523):36–22751426.密码:<>
查看文章PubMed/NCBI谷歌学术搜索
20.B?rnigen D, Tranchevent LC, Bonachela-Capdevila F, Devriendt K, De Moor B, De Causmaecker P, et al.对基因优先排序工具的公正评估。生物信息学。2012 1 月 28;23(3081):8–23047555.密码:<>
查看文章PubMed/NCBI谷歌学术搜索
21.Seyyedrazzagi E,Navimipour NJ。疾病基因优先机制:全面系统的文献综述。健康信息学和生物信息学中的网络建模分析。2017 6 月;1(1):5–<>.
查看文章谷歌学术搜索
22.古德曼·迈向循证医学统计。1:P值谬误。内科年鉴.1999 15 月 130;12(995):1004–10383371.pmid:<>
查看文章PubMed/NCBI谷歌学术搜索
23.吉利斯·杰西和帕夫利迪斯·保罗。“关联内疚”是基因网络中的例外而不是规则。公共科学图书馆计算生物学8.3(2012):e1002444。
查看文章谷歌学术搜索
24.枪宁玛戈特和帕夫利迪斯保罗。“关联内疚”与识别自闭症风险基因的遗传关联没有竞争力。科学报告 11.1(2021):15950。
查看文章谷歌学术搜索
25.费舍尔·亚伦、鲁丁·辛西娅和多米尼奇·弗朗西斯卡。“所有的模型都是错误的,但许多模型都是有用的:通过同时研究一整类预测模型来学习变量的重要性。J·马赫。学习。Res.20.177 (2019): 1–81.pmid:34335110
查看文章PubMed/NCBI谷歌学术搜索
26.Boudellioua I,Kulmanov M,Schofield PN,Gkoutos GV,Hoehndorf R. DeepPVP:使用深度学习对致病变异进行基于表型的优先级排序。BMC生物信息学。2019 20 月;1(1):8–<>.
查看文章谷歌学术搜索
27.Zakeri P, Simm J, Arany A, ElShal S, Moreau Y. 使用贝叶斯矩阵分解与基因组和表型侧信息进行基因优先级排序。生物信息学。2018 1 月 34;13(447):i56–29949967.密码:<>
查看文章PubMed/NCBI谷歌学术搜索
28.Kingma DP, Welling M. 自动编码变分贝叶斯.arXiv预印本arXiv:1312.6114。2013 20 月 <>.
29.Kingma D, Welling M. 通过贝叶斯网络和神经网络之间的变换进行基于梯度的高效推理。在2014年18月1782日机器学习国际会议上(第1790-<>页)。PMLR。
30.莫利纳德-切努 A, 戴尔 A.候选精神分裂症风险基因DGCR2调节皮质生成的早期步骤。生物精神病学。2018 15 月 83;8(692):706–29305086.密码:<>
查看文章PubMed/NCBI谷歌学术搜索
31.Kent WJ, Sugnet CW, Furey TS, Roskin KM, Pringle TH, Zahler AM, et al.UCSC的人类基因组浏览器。基因组研究。2002 1 月 12;6(996):1006–12045153.pmid:<>
查看文章PubMed/NCBI谷歌学术搜索
32.重映射工具。https://www.ncbi.nlm.nih.gov/genome/tools/remap。
33.卡多索 AR, 洛佩斯-马克斯 M, 席尔瓦 RM, 塞拉诺 C, 阿莫林 A, 等.神经发育障碍中的基本遗传发现。人类基因组学。2019 13 月;1(1):7–<>.
查看文章谷歌学术搜索
34.Bult CJ,Eppig JT,Kadin JA,Richardson JE,Blake JA,小鼠基因组数据库组。小鼠基因组数据库(MGD):小鼠生物学和模型系统。核酸研究。2008 36 月;1(suppl_724): D8–18158299.密码:<>
查看文章PubMed/NCBI谷歌学术搜索
35.Firth HV, Richards SM, Bevan AP, Clayton S, Corpas M, Rajan D, et al. DECIPHER: 使用集合资源的人染色体失衡和表型数据库。美国人类遗传学杂志。2009 10 月 84;4(524):33–19344873.密码:<>
查看文章PubMed/NCBI谷歌学术搜索
36.Liao Y, Wang J, Jaehnig EJ, Shi Z, Zhang B. WebGestalt 2019:具有改进的UI和API的基因集分析工具包。核酸研究。2019 2 月 47;1(W199): W205–31114916.密码:<>
查看文章PubMed/NCBI谷歌学术搜索
37.Springenberg JT, Dosovitskiy A, Brox T, Riedmiller M. 力求简单:全卷积网络。arXiv预印本arXiv:1412.6806。2014 21 月 <>.
38.Shrikumar A,Greenside P,Kundaje A.通过传播激活差异来学习重要特征。2017 年机器学习国际会议 17 月 3145 日(第 3153–<> 页)。PMLR。
39.里贝罗,辛格S,格斯特林C.“我为什么要相信你?”解释任何分类器的预测。第 22 届 ACM SIGKDD 知识发现和数据挖掘国际会议论文集 2016 年 13 月 1135 日(第 1144-<> 页)。
40.Kokhlikyan N, Miglani V, Martin M, Wang E, Alsallakh B, Reynolds J, et al. Captum:PyTorch 的统一和通用模型可解释性库。arXiv预印本arXiv:2009.07896.2020 16 月 <>.
41.Alinejad-Rokny H, Heng JI, Forrest AR. 脑富集编码和长非编码RNA基因在复发性神经发育障碍CNV中被过度代表。 细胞报告。2020 华侨城 27;33(4):108307.密码:33113368
查看文章PubMed/NCBI谷歌学术搜索
42.平托 D, 德拉比 E, 梅里科 D, 巴博萨 M, 梅里坎加斯 A, 克莱 L, 等.自闭症谱系障碍中基因和细胞通路失调的收敛。美国人类遗传学杂志。2014 1 月 94;5(677):94–24768552.密码:<>
查看文章PubMed/NCBI谷歌学术搜索
43.Hon CC, Ramilowski JA, Harshbarger J, Bertin N, Rackham OJ, Gough J, et al.具有精确 5′ 末端的人类长非编码 RNA 图谱。自然界。2017 543 月;7644(199):204–28241135.密码:<>
查看文章PubMed/NCBI谷歌学术搜索
44.雷娜·普里扬卡、几内亚·罗德里戈、查西里苏帕猜·卡西特、洛佩斯·伊内斯、法鲁克·卓娅、几内亚·克里斯蒂娜等人,基因朋友:人类和模式生物的基因共表达数据库和工具,核酸研究,2022 年;gkac1031, pmid:36454018
查看文章PubMed/NCBI谷歌学术搜索
45.陈 J, 巴德斯 EE, 阿罗诺 BJ, 杰加 AG 2009.用于基因列表富集分析和候选基因优先级的ToppGene Suite。核酸研究。pmid:19465376
查看文章PubMed/NCBI谷歌学术搜索
46.Cooper GM, Coe BP, Girirajan S, Rosenfeld JA, Vu TH, Baker C, et al.发育迟缓的拷贝数变异发病率图。自然遗传学。2011 43 月;9(838):46–21841781.密码:<>
查看文章PubMed/NCBI谷歌学术搜索
47.Purcell S, Neale B, Todd-Brown K, Thomas L, Ferreira MA, Bender D, et al. PLINK:用于全基因组关联和基于人群的联系分析的工具集。美国人类遗传学杂志。2007 1 月 81;3(559):75–17701901.密码:<>
查看文章PubMed/NCBI谷歌学术搜索
48.梅 T, 阿德西娜一世, 麦吉利夫雷 J, 新泽西州莱因哈特.神经发育障碍的性别差异。神经病学的当前观点。2019 1 月 32;4(622):6–31135460.密码:<>
查看文章PubMed/NCBI谷歌学术搜索
49.新泽西州莱因哈特,康沃尔KM,汤格BJ。神经发育障碍的性别差异:自闭症和脆性x综合征。精神药理学中性别差异的生物学基础。2010:209–29.密码:21769728
查看文章PubMed/NCBI谷歌学术搜索
50.Brentani H. 神经发育障碍中的性别、遗传和环境因素。欧洲神经精神药理学。2019 1 月 29;745:S6–<>.
查看文章谷歌学术搜索
51.Al-Beltagi M. 自闭症医学合并症。世界临床儿科杂志。2021 9 月 10;3(15):33972922.密码:<>
查看文章PubMed/NCBI谷歌学术搜索
52.巴克利PF,米勒BJ,莱勒DS,城堡DJ。精神合并症和精神分裂症。精神分裂症公报。2009 1 月 35;2(383):402–19011234.密码:<>
查看文章PubMed/NCBI谷歌学术搜索
53.谢斌, 范旭, 雷毅, 陈蕊, 王杰, 傅春, 等.17q11的新型从头微缺失。2与NF1基因相邻,与发育迟缓、身材矮小、小头畸形和畸形特征相关。分子细胞遗传学。2016 9 月;1(1):5–27247625.pmid:<>
查看文章PubMed/NCBI谷歌学术搜索
54.Ashburner M, Ball CA, Blake JA, Botstein D, Butler H, Cherry JM, et al.基因本体论:生物学统一的工具。自然遗传学。2000 25 月;1(25):9–10802651.pmid:<>
查看文章PubMed/NCBI谷歌学术搜索
55.皮涅罗 J, 布拉沃 à, 奎拉特-罗西纳赫 N, 古铁雷斯-萨克里斯坦 A, 德乌庞斯 J, 森特诺 E, 等.DisGeNET:一个综合平台,整合了人类疾病相关基因和变异的信息。核酸研究。2016 19 月 943:gkw27924018.密码:<>
查看文章PubMed/NCBI谷歌学术搜索
56.Schilbach L. 自闭症和其他社会互动障碍:我们在哪里以及从这里走向何方。欧洲精神病学和临床神经科学档案馆。2022 年 9 月 1:3–35141808。pmid:<>
查看文章PubMed/NCBI谷歌学术搜索
57.Hisaoka T,Komori T,Kitamura T,Morikawa Y.与Kirrel3基因敲除小鼠神经发育障碍相关的异常行为。科学报告。2018 23月 8;1(1):2–29362445.密码:<>
查看文章PubMed/NCBI谷歌学术搜索
58.Martínez-Cerde?o V. 患者和动物模型中自闭症和相关神经发育障碍的树突和脊柱修饰。发育神经生物学。2017 77 月;4(393):404–27390186.密码:<>
查看文章PubMed/NCBI谷歌学术搜索
59.Zieger HL,Choquet D.神经发育障碍中的纳米级突触组织和功能障碍。疾病的神经生物学。2021 1 月 158;105453:34314857.密码:<>
查看文章PubMed/NCBI谷歌学术搜索
60.法拉赫女士,尤班克斯JH。罕见神经发育障碍小鼠模型中的癫痫发作。神经。2020 1 月 445;50:68–32059984.pmid:<>
查看文章PubMed/NCBI谷歌学术搜索
61.陈雪, 等.lncRNA DGCR5在人类癌症恶性表型和免疫浸润中的研究进展及评价.美国癌症研究杂志 11.1(2021):1。密码:33520356
查看文章PubMed/NCBI谷歌学术搜索
62.铃木 G, 哈珀 KM, 平本 T, 泽村 T, 李 M, 姜 G, 谷垣 K, 等.Sept5缺乏对小鼠的情感行为和认知功能产生多效性影响。人类分子遗传学。2009 1 月 18;9(1652):60–19240081.密码:<>
查看文章PubMed/NCBI谷歌学术搜索
63.海德TM,温伯格博士癫痫发作和精神分裂症。精神分裂症公报。1997 1 月 23;4(611):22–9365998.pmid:<>
查看文章PubMed/NCBI谷歌学术搜索
64.Kunugi H, Takei N, Murray RM, Saito K, Nanko S. 精神分裂症出生时头围小。精神分裂症研究。1996 1 月 20;1(2–165):70–8794505.密码:<>
查看文章PubMed/NCBI谷歌学术搜索
65.克莱因 S, 沙里菲-汉瑙尔 P, 马丁内斯-阿戈斯托 JA.巨头畸形作为自闭症遗传亚型的临床指标。自闭症研究。2013 6 月;1(51):6–23361946.密码:<>
查看文章PubMed/NCBI谷歌学术搜索
66.Tripi G, Roux S, Matranga D, Maniscalco L, Glorioso P, Bonnet-Brilhault F, et al.自闭症谱系障碍(ASD)儿童的颅面特征。临床医学杂志.2019 9 月 8;5(641):31075935.密码:<>
查看文章PubMed/NCBI谷歌学术搜索
67.Hosseini MP,Beary M,Hadsell A,Messersmith R,Soltanian-Zadeh H.用于儿童自闭症诊断和面部分析的深度学习。计算神经科学前沿。2021;15.pmid:35126078
查看文章PubMed/NCBI谷歌学术搜索
68.Chourasia N, Ossó-Rivera H, Ghosh A, Von Allmen G, Koenig MK. 扩展 CACNA1H 突变的表型谱。小儿神经病学。2019 1 月 93;50:5–30686625.密码:<>
查看文章PubMed/NCBI谷歌学术搜索
69.Torti E, Keren B, Palmer EE, Zhu Z, Afenjar A, Anderson I, et al.TCF20在神经发育障碍中的变异:27例新患者的描述和文献综述。医学遗传学。2019 21 月;9(2036):42–30739909.密码:<>
查看文章PubMed/NCBI谷歌学术搜索
70.马歇尔 CR, 豪里根 DP, 梅里科 D, 蒂鲁瓦辛德拉普拉姆 B, 吴 W, 格里尔 DS, 等.拷贝数变异对精神分裂症的贡献来自对 41,321 名受试者的全基因组研究。自然遗传学。2017 49 月;1(27):35–27869829.密码:<>
查看文章PubMed/NCBI谷歌学术搜索
71.DGT RP,FANTOM CONSORTIUM。启动子级哺乳动物表达图谱。自然界。2014 27 月 507;7493(462):70–24670764.密码:<>
查看文章PubMed/NCBI谷歌学术搜索
72.鼠标0003631。MGI 6.22,哺乳动物表型本体注释,最后更新 07/04/2023,http://www.informatics.jax.org/mp/annotations/MP:0003631。
73.鼠标0003632。MGI 6.22,哺乳动物表型本体注释,最后更新 07/04/2023,http://www.informatics.jax.org/mp/annotations/MP:0003632。
74.鼠标0003633。MGI 6.22,哺乳动物表型本体注释,最后更新 07/04/2023,http://www.informatics.jax.org/mp/annotations/MP:0003633。
75.小鼠同源。MGI 6.22,哺乳动物表型本体注释,最后更新 07/10/2023,http://www.informatics.jax.org/downloads/reports/HGNC_AllianceHomology.rpt。
76.Chicco D,Sadowski P,Baldi P.用于基因本体注释预测的深度自动编码器神经网络。第 5 届 ACM 生物信息学、计算生物学和健康信息学会议论文集 2014 年 20 月 533 日(第 540-<> 页)。
77.陈 L, 蔡 C, 陈 V, 卢 X. 使用自动编码器模型学习酵母转录组机制的分层表示。InBMC 生物信息学 2016 年 17 月(第 1 卷,第 97 期,第 107–26818848 页)。生物医学中心。密码:<>
查看文章PubMed/NCBI谷歌学术搜索
78.Svensson V, Gayoso A, Yosef N, Pachter L. 通过变分自动编码器的单细胞RNA-seq的可解释因子模型。生物信息学。2020 1 月 36;11(3418):21–32176273.pmid:<>
查看文章PubMed/NCBI谷歌学术搜索
79.Doersch C. 变分自动编码器教程。arXiv预印本arXiv:1606.05908。2016 19 月 <>.
80.Keng B. 使用变分自动编码器的半监督学习。通过Github自行发布。哎呀。2017 <>月
81.从最佳运输的角度来看,日内瓦A,Peyré G,Cuturi M. GAN和VAE。arXiv预印本arXiv:1706.01807。2017 6 月 <>.
82.Kingma DP,Mohamed S,Jimenez Rezende D,Welling M.具有深度生成模型的半监督学习。神经信息处理系统的进步。2014;27.
查看文章谷歌学术搜索
83.Paszke A, Gross S, Massa F, Lerer A, Bradbury J, Chanan G, et al. PyTorch: An Imperative Style, High-Performance Deep Learning Library.在:神经信息处理系统的进展 32.柯伦联合公司;2019.第8024–35页。
84.Kingma DP, Ba J. Adam:一种随机优化的方法。arXiv预印本arXiv:1412.6980。2014 22 月 <>.