《使用集成神经网络方法鉴定circRNA-RBP相互作用位点-厦门畜牧期刊杂志论文发表》期刊简介
使用集成神经网络方法鉴定circRNA-RBP相互作用位点-厦门畜牧期刊杂志论文发表
牛梦婷,邹全,陈琳
出版日期: 2022年01月20日
抽象
环状RNA(circRNA)是具有由反向剪接机制形成的特殊环状结构的非编码RNA。越来越多的证据表明,环状RNA可以直接与RNA结合蛋白(RBP)结合,并在各种生物活性中发挥重要作用。circRNA和RBPs之间的相互作用是理解转录后调节机制的关键。准确识别结合位点对于分析相互作用非常有用。在过去的研究中,已经提出了一些基于机器学习(ML)的预测因子,但预测准确性仍需要提高。因此,我们提出了一种新的计算模型CRBPDL,该模型使用Adaboost集成的深度分层网络来识别环状RNA-RBP的结合位点。CRBPDL结合五种不同的特征编码方案对原始RNA序列进行编码,使用深度多尺度残留网络(MSRN)和双向门控递归单元(BiGRU)来有效学习高级特征表示,足以同时提取局部和全局上下文信息。此外,还采用自我关注机制来训练CRBPDL的鲁棒性。最终,Adaboost算法被应用于集成深度学习(DL)模型,以提高模型的预测性能和可靠性。为了验证CRBPDL的有用性,我们在37个环状RNA数据集和31个线性RNA数据集上将效率与最先进的方法进行了比较。此外,结果表明CRBPDL能够执行通用,可靠和健壮的性能。代码和数据集可在https://github.com/nmt315320/CRBPDL.git上获取。
作者简介
越来越多的证据表明,环状RNA可以直接与蛋白质结合,并参与无数不同的生物过程。该计算方法可以快速准确地预测环状RNA和RBP的结合位点。为了鉴定circRNA与37种不同类型的circRNA结合蛋白的相互作用,我们开发了一种基于分层网络的集成深度学习网络,称为CRBPDL。它可以有效地学习高级特征表示。通过对不同特征提取算法、不同深度学习模型和分类器模型的对比实验,验证了该模型的性能。此外,将CRBPDL模型应用于31个线性RNA,通过与当前优秀算法的结果进行比较,证明了该方法的有效性。预计CRBPDL模型能够有效预测环状RNA-RBP的结合位点,并为进一步的生物学实验提供可靠的候选者。
数字
Fig 4Table 1Table 2Fig 1Fig 2Fig 3Fig 4Table 1Table 2Fig 1Fig 2Fig 3
引文:Niu M,Zou Q,Lin C (2022)CRBPDL:使用集成神经网络方法鉴定circRNA-RBP相互作用位点。PLoS Comput Biol 18(1):e1009798。https://doi.org/10.1371/journal.pcbi.1009798
编辑 器:Serdar Bozdag,北德克萨斯大学,美国
收到:九月 23, 2021;接受:一月 2, 2022;发表:一月 20, 2022
版权所有:? 2022 牛等人。这是一篇根据知识共享署名许可协议条款分发的开放获取文章,该许可证允许在任何媒体上不受限制地使用,分发和复制,前提是注明原始作者和来源。
数据可用性:所有相关文件均可从https://github.com/nmt315320/CRBPDL.git.
资金:该项目得到了国家自然科学基金(No.62131004,No.61922020)、四川省杰出青年科学基金(2021JDJQ0025)和衢州市专项科学基金(2020D004)资助。资助者在研究设计,数据收集和分析,出版决定或手稿准备方面没有任何作用。
相互竞争的利益:提交人没有宣布任何利益冲突。
这是一篇PLOS计算生物学方法论文。
介绍
环状RNA(circRNA)是通过选择性剪切产生的一种特殊的环内源性非编码RNA[1,2]。它已被证明广泛存在于果蝇,小鼠,海马体和人类细胞和组织中[3,4]。尽管环状RNA上的RNA结合蛋白(RBP)结合位点比线性mRNA上的RNA结合位点少,但仍有强有力的证据支持RBPs与环状RNA的相互作用[5,6]。一方面,circRNA可以通过多种方式调节RBPs。CircRNAs可以竞争性地与RPP结合,调节RPP的功能,并充当RPP的海绵,RBP组装的平台以及浓缩某些特定组分的超级运输机[7,8]。RBP吸附的circRNA可用作靶基因转录和剪接的调节因子[9]。circRNA也可以用作诱饵,将RPP保留在特定的细胞间空间,并作为支架促进两个或多个RBPs之间的接触[10]。另一方面,RMP对circRNA的影响正变得越来越突出。作为一种与双链或单链RNA结合的蛋白质,RBPs存在于RNA的整个生命周期中,并介导RNA的成熟[11],运输[12],定位和翻译[13]。RBPs影响circRNA生命周期的整个过程,一些RBPs也参与circRNA的产生,如Quing(QKI),FUS和HNRNPL。此外,它们几乎参与了环状RNA生命周期的每个方面,包括生成[14],转录后调节[15]和功能执行[16]。一些特定的RBPs是组织特异性的或在病理条件下产生的,它们的表达缺陷可引起多种疾病和其他影响。多项研究表明,环状RNA和RBP之间的相互作用对癌症和其他疾病有重要影响,可能是生物标志物的疾病[10,17-21]。因此,预测RNA和RBP的结合位点可以深入了解涉及RBPs的疾病的潜在机制,并有助于进一步探索circRNA在疾病病理生理学中的作用。-厦门畜牧期刊杂志论文发表
作为一种有前途的方法,机器学习已被用于解决各种生物学问题,其优越性已被多次证明,并且已逐渐用于鉴定环状RNA-RBP的结合位点[22]。Matizka等人提出了可以学习二级结构特征的GraphProt方法,并使用支持向量机(SVM)来预测所有组织中BLP的结合位点和亲和力[23]。Corrado等人应用推荐算法,基于蛋白质结构域组成和RNA预测的二级结构特征,推荐RNA结合蛋白的RNA靶标[24]。Yu等人采用随机森林算法(RF)根据基序信息预测特定和一般的RBP位点[25]。上述机器学习模型主要基于RNA序列的结构特征来鉴定环状RNA-RBP的结合位点[26,27]。
深度学习最近在生物信息学领域取得了令人瞩目的成就[28–30],其中还包括RNA-蛋白质相互作用的预测DeepBind方法利用卷积神经网络(CNN)来学习单个BLP的结合偏好并获得更好的性能[31]。Pan等人提出了iDeepE方法,该方法使用全球CNN模型通过研究RNA序列来预测结合位点[32]。此外,他们还使用两个单独的CNN和一个长期短期记忆网络来学习这些站点[33]。Pan等人进一步使用多标签分类和深度学习来鉴定可以与RNA相互作用的多个RBP[34]。Jia等人构建了一个混合深度神经网络[35]。Zhang提出了一种新的堆叠密码子编码方案,并将其与混合深度学习相结合以完成预测[36]。Yang等人构建了一个多尺度神经网络,并根据上下文序列信息预测了circRBA-RBP的结合位点[37]。但是,特征学习网络相对简单,预测性能仍有改进的潜力。
在我们的工作中,我们建立了一种新颖的计算预测因子CRBPDL,它基于集合深度网络来识别circRNA-RBP相互作用位点。首先,我们采用5种编码方案为模型训练提供全面的特征信息,包括k核苷酸频率(KNF),Doc2vec,电子离子相互作用赝电位(EIIP),核苷酸化学性质(CCN)和累积核苷酸频率(ANF)。由于特征描述符的分布不同,我们首先分别对特征应用卷积滤波器,然后将它们连接成特征矩阵。随后,为了从特征描述符自动提取高阶本地和全局上下文信息,我们构建了一个深度神经网络架构,该架构由深度多尺度残差网络(ResNet)和具有自注意机制(BiGRUs)网络组成的双向门控循环单元组成。我们使用深度多尺度残差网络(MRSN)和BiGRU来学习本地和全球上下文信息,并且可以有效地表示高级特征。然后,使用自我关注机制来训练模型的鲁棒性。经过模型训练和选择,我们可以得到优化的深度学习模型(为方便起见,集成前的深度学习模型被命名为"sig-CRBPDL")。最后,利用AdaBoost算法对深度学习模型进行了整合。我们在统一的circRNA数据集上对CRBPDL和现有预测因子进行了基准测试。基准测试结果清楚地表明了我们提出的CRBPDL的优越性。此外,CRBPDL具有识别线性RNA-RBP相互作用位点的潜力。基准测试结果表明,CRBPDL在预测线性RNA-RBP结合位点方面也具有稳定的性能。CRBPDL模型的结构如图1所示。
thumbnail 下载:
个人电脑幻灯片
巴新放大图片
断续器原始图像
图 1.CRBPDL的总体框架。
(A) CRBPDL开发和评估过程的工作流程。(B)sig-CRBPDL框架的结构,包括输入层、卷积层、合并层、启动模块、注意力层、全联层和输出层。
https://doi.org/10.1371/journal.pcbi.1009798.g001
结果
对不同网络层下的性能进行建模
网络深度对深度学习模型的性能有很大的影响。不同的网络深度将导致不同的结果。相对浅的网络将使模型性能较差,而过于复杂的网络将增加模型的计算。本节分析了不同网络层下的模型性能变化。我们比较了增加和减少:减少一个MSRB块,即一个3层卷积网络层,并添加一个MSRB块,这意味着添加一个3层卷积神经网络,分别命名为CRBP-3和CRBP+3,以方便描述。我们计算了CRBPDL,CRBPDL-3和CRBPDL + 3(AUC作为评估指标)的预测性能和37个数据集下的运行时间(图2A)。
thumbnail 下载:
个人电脑幻灯片
巴新放大图片
断续器原始图像
图 2.
(A)通过箱形图和小提琴图可视化的不同网络深度之间的模型性能比较。(B) 不同纪元下的模型性能分析。(C) 不同学习率方案下模型表现的比较。(D)不同特征编码方案下的模型性能比较。
https://doi.org/10.1371/journal.pcbi.1009798.g002
首先,从散点图可以看出,CRBPDL的AUC值分布为0.9174,高于CRBPDL-3(0.8995),运行时间相反。CRBPDL 和 CRBPDL+3(AUC 为 0.9011)分布的 AUC 没有太大差异,但运行时间却大不相同。另一方面,通过观察箱形图中最大值、最小值和平均值的分布,可以发现三者的中线位置相似,但CRBPDL-3和CRBPDL+3AUC箱形图的底部位置较低。CRBPDL+3 时间的框图的顶部位置较高。CRBPDL-3和CRBPDL+3的预测性能分布差异较大,性能不够稳定。相比之下,CRBPDL的分布差异较小,稳定性更好。在时间消耗方面,CRBPDL-3的性能优于CRBPDL,但差异较小。这证明了网络层的复杂性可能会影响网络的行为。这也表明,在实际应用中,当面对不同时间消耗和预测效果的需求时,递进式神经网络和深度神经网络都具有研究意义和价值。-厦门畜牧期刊杂志论文发表
不同纪元时间下的模型性能
本节从统计上分析训练集和验证集在训练阶段的损耗和ACC的变化,并相应地分析epoch对模型性能和模型收敛性的影响。如果显示所有37个数据集的图形,则图片太多。因此,我们只随机选择了9个结果进行显示,并且可以说明不同数据集的效果(其余28个数据集的丢失结果可以在S1 Text中看到)。本节主要分析37个数据集中的9个,即AGO1,AGO2,U2AF65,DGCR8,FOX2,WTAP,EIF4A3,FMRP和ZC3H7B。9个数据集的结果如图2B所示。
我们可以看到,随着时代时间的增加,CRBPDL的训练-acc和验证-acc都呈现上升趋势,而整体列车损失和验证-损失呈现下降趋势并逐渐趋于稳定;模型逐渐收敛,训练结果逐渐优化。过拟合的明显表现是训练集的性能特别好,但验证集的性能异常差。可以发现,在9个数据集的第5和第6个数据集中,acc曲线的趋势是完全不同的。train-acc的性能效果明显优于验证-acc。存在明显的过拟合现象,但在其他7个数据集中没有。造成这种差异的原因可能是AGO3和WTAP(即第5和第6个数据集)的数据量很小(分别为1,210和892个数据点),CRBPDL模型的学习和训练过程不够。相比之下,其他数据集的数据量平均高出一百倍,从而实现了更好的训练结果。还可以看出,数据集的大小对于深度学习神经网络的性能非常重要。
不同学习速率下的模型性能
作为神经网络的超参数,学习速率可用于提高模型的性能。学习速率越低,梯度速率越慢。在确定学习率时,通常必须依靠旧经验和多个实验的比较。本节分析学习率的影响。为了比较效果,我们分析了三种学习速率衰减方案(基于阶跃的衰减学习速率方案,线性学习速率衰减方案,多项式学习速率方案)和两种固定学习速率(0.002,0.0005)。图2C显示了使用不同学习速率时网络优化过程的AUC的比较。
在所有circRNA数据集上,Adam方法的平均AUC值为0.9284,明显优于线性方案的0.8926和两个固定学习速率(平均AUC分别为0.8167和0.8747)。的影响。虽然与阶跃方案的平均AUC值0.9273相差不大,但阶跃中存在两个异常。相比之下,亚当的表现相对稳定。通过对五个案例进行实验比较,表明亚当线性学习率计划总是比其他类型的计划更好,并且具有更好的性能。因此,我们选择亚当作为学习率学习计划。
不同特征编码方案下的模型性能
为了评估本文中特征编码方案(命名为Fea-A)的贡献,在相同的CRBPDL架构下,我们将所提出的特征与PASSION(命名为Fea-B)[35]和CRIP的[36]堆叠密码子编码(名为Fea-C)的编码方案相结合。37个数据集的AUC值如图2D的折线图所示。
首先,通过观察折线图的趋势,我们可以发现在多个数据上Fea-A的AUC值高于Fea-B和Fea-C。此外,我们的方法Fea-A获得的平均AUC值为0.9201,不仅高于Fea-B的0.8928,而且优于Fea-C的0.8792。首先,Fea-B使用6个手工设计的功能,并且单个手工设计的功能可能不适合高级网络架构。另一方面,Fea-C是对one-hot编码的改进,它只在伪翻译过程中使用特征类型引用。这可能导致CRBPDL无法完全理解circRNA-RBP相互作用中的足够信息。实验结果验证了特征编码方案的有效性。
此外,我们分析了五个特征编码的不同性能,结果如图3A所示。可以发现,在37个数据集上,Doc2vec编码方案相对优于其他四个。结果表明,RBP结合位点的全局文本特征相对明显。我们的词向量模型似乎已经从语义学中学习了微妙的序列上下文,从而提高了识别性能。针对circRNA数据集,实验结果表明,本文提出的自学词向量编码方案具有良好的应用前景。根据得到的词向量,是否可以分析结合位点的保守基序。
thumbnail 下载:
个人电脑幻灯片
巴新放大图片
断续器原始图像
图 3.
(A)五个特征码的性能比较。(B)37个数据集下不同网络模型性能的热图。(C) T-SNE 散点图与原始特征编码。(D)深度卷积网络后深部特征的T-SNE散射图。
https://doi.org/10.1371/journal.pcbi.1009798.g003
不同深度神经网络结构的性能
为了证明我们提出的CRBPDL的有效性,我们将我们的特征输入到不同的CNN中,以比较不同神经网络的预测性能。我们将它的性能与5种结构进行了比较:CNN-LSTM,iDeepE [32],ResNet [38],CRIP-RNN [36]和CNN-BiLSTM。CNN-LSTM包括两个双向LSTM层和两个完全连接的层;iDeepE将全球网络和本地神经网络的输出特征相结合,两层本地多通道神经网络(卷积,ReLU和最大池化)表达高级特征,然后将特征图输入到两个完全连接的层中;ResNet使用21层本地多通道网络,在两个网络之间插入一个快捷方式连接,并使网络成为相应的残差网络;CRIP使用两层,一个提取高级特征的CNN和一个获得序列长期依赖性的RNN;CNN-BiLSTM使用双向长短期记忆来集成数据,包括两个双向LSTM和两个完全连接的层。这些网络结构可以参考文献构建或自己构建,并且每个模型的参数具有与CRBPDL相同的参数。实验结果如图3B所示。
如图3B所示,我们发现所有环状RNA数据集的平均AUC分别为0.9174,0.8778,0.8854,0.8877,0.8760,0.8733,0.9148和0.9201。当本文的特征代码被输入到不同的神经网络中时,得到的结果会有所不同。区别在于网络结构是否准确地表达了高级特征。显然,CRBPDL模型可以学习更多有价值的序列信息,用于鉴定circRNA-RBP相互作用位点。
为了演示CRBPDL如何学习有效的特征表示,我们以"WATP"数据集为例,并使用t-SNE图来可视化特征表示。这两个维度都会自动学习 CRBPDL。原始特征如图3C所示。我们可以发现,在视觉上区分两个具有原始特征的类别是具有挑战性的。此外,特征表示后的第二级完全连通性(图3D)可用于更好地识别和分离正负示例。图形显示表明CRBPDL可以有效地学习优秀的特征表示。此外,我们进一步分析了MSRN和BiGRU的不同性能,如图4A所示。可以发现,虽然两者之间的差异相对较小,但MSRN的效果明显优于BiGRU,表明在CRBPDL模型中,MSRN的贡献更大。-厦门畜牧期刊杂志论文发表
thumbnail 下载:
个人电脑幻灯片
巴新放大图片
断续器原始图像
图 4.
(A) MSRN 和 BiGRU 的性能比较。(B)37个数据集的CRBPDL综合模型与各种分类算法的性能比较(C)31个lncRNA数据集下CRBPDL模型ACC指标的雷达图(D)。
https://doi.org/10.1371/journal.pcbi.1009798.g004
集成模型的性能评估
在本节中,比较了 CRBPDL 模型和 sig-CRBPDL、RF、SVM 和 Logistics 模型以及其他四种机器学习方法。其中,评价指标包括ACC、SE、SP和MCC。使用默认参数对RF [39,40],SVM和物流算法的参数进行实验,结果(ACC,SE,SP,MCC)如图4B所示。结果表明, 所提出的集成深度网络模型CRBPDL在ACC、SE、SP和MCC上的数值显著高于RF、SVM和Logistic的实验结果, SE、SP、MCC、ACC的平均值分别为0.8548、0.7796、0.6897和0.8739。与单深度网络模型sig-CRBPDL相比,也有一定程度的改进,表明集成深度学习模型CRBPDL提高了circRNA-RBP交互位点的预测性能。
CRBPDL在37个circRNA数据集上的预测性能
在这一部分中,CRBPDL,iCircRBP-DHN [37]和CRIP [36],PASSION [35],CSCRSites [41]和CircSLNN [42]以及其他五种现有计算方法的预测性能由AUC测量。CSCRSites基于多个卷积热编码层来鉴定环状RNA上的癌症特异性RBP结合位点。相比之下,CircSLNN使用序列标记网络来识别交互站点。在公平性方面,这六种方法在统一的基准数据集上进行了测试,使用相同的序列相似性阈值。此外,使用相同的设置环境作为模型 iCircRBP-DHN。AUC结果和其他比较实验的平均值显示在表1中,直接从文献中获得(最大值以粗体显示)[37]。
thumbnail 下载:
个人电脑幻灯片
巴新放大图片
断续器原始图像
表 1.不同分类模型下37个circRNA数据集的预测性能比较.
https://doi.org/10.1371/journal.pcbi.1009798.t001
如表1所示,CRBPDL、iCircRBP-DHN、PASSION、CRIP、CSCRites和CircSLNN的平均值分别为0.9188、0.908±0.06、0.884±0.06、0.876±0.07、0.842±0.07和0.809±0.010。显然,我们的模型改进了37个中28个的最先进的性能,并实现了0.9174的最高平均AUC,特别是在AGO1,AGO2,ALKBH5和MOV10中。我们提供了CRBPDL的ROC曲线,以及平均ROC曲线(图4C)。结果充分表明了CRBPDL的增强。同时,我们也注意到,在6个数据集中,CRBPDL的性能与iCircRBP-DHN和PASSION的差距非常小,尤其是其中4个比PASSION稍差。根本原因可能是PASSION提取了6种类型。这表明可以使用包含更丰富的序列信息的手动功能,也可以使用集成优化算法。此外,CRBPDL优于CircSLNN,但CircSLNN是一种序列标记方法,可以预测结合位点的位置。因此,作为一个新的研究方向,我们可以考虑是否可以提高预测结合位点位置的准确性,而不仅仅是作为二元分类问题。
CRBPDL对31个线性数据集的预测性能
与CRIP和PASSION类似,我们的CRBPDL也具有识别线性RNA-蛋白质相互作用的能力。为了演示我们的模型CRBPDL的性能,我们将它与ICIRCRBP-DHN,CRIP,iDeepS,DEEPBbind,CSCrites和CIRCSLNN进行了比较。为了进行公平的比较,我们使用与iCircRBP-DHN相同的实验数据,其他比较实验的结果直接从文献中获得[37]。实验结果示于表2中。从表2中,CRBPDL获得的平均AUC为0.9163,明显优于其他方法的0.895、0.860、0.842、0.839、0.833和0.803。在31个数据集中,只有hnRNPC-1的AUC略低于PASSION。在剩下的30个数据集中,我们的表现还是比其他方法要好。此外,我们已经给出了31个数据集上的ACC(图4D),我们可以发现31个数据集的准确性可以满足线性RNA-RBP结合位点的鉴定要求。
thumbnail 下载:
个人电脑幻灯片
巴新放大图片
断续器原始图像
表 2.不同分类模型下31个线性RNA数据集的预测性能比较.
https://doi.org/10.1371/journal.pcbi.1009798.t002
结论
在本文中,我们设计了一种新的深度学习方法,称为CRBPDL,用于环状RNA-RBP相互作用位点鉴定。基于MSRN框架,CRBPDL首先将五个代码连接到单个特征向量中。然后,MSRB 用于自动探索更高级别的本地或全局上下文依赖关系,并获得高级序列特征。随后,将每个 MSRB 的输出组合在一起以进行全局分层特征融合。并添加自我关注,以掌握更多关键和相关的特征,并提高预测性能。最后,基于Adaboost算法构建了一个集成的深度学习网络。通过特征表示的可视化,这种独特的架构已被证明是有效的。为了验证CRBPDL,我们对circRNA和线性RNA的结合位点进行了预测,并评估了不同方法的性能。37个环状RNA数据集和31个线性RNA的比较不仅证明了我们方法的有效性,而且显示了该模型在环状RNA-RBP相互作用位点鉴定方面的潜力。目前,关于已知RBP结合位点的数据很少。阳性和阴性样品不平衡。因此,最重要的是,未来的研究是扩展数据集,收集与circRNA,lncRNA或其他RNA结合的RBP结合位点,探索其结合特性,并开发通用预测软件。
材料和方法
数据集
为了证明我们提出的CRBPDL的有效性,并同时与其他工具进行公平的比较,我们使用了[35,37,42]中使用的基准数据集(命名为"circRNA_RBP-37")。该数据集包括从circinteractome数据库下载的37个RBP(https://circinteractome.nia.nih.gov/)[19]。该数据库收集与成熟环状RNA结合的RBP和与成熟环状RNA的上游和下游序列结合的RBP。由于RBP结合可能在调节剪接位点附近的剪接事件中起作用,因此我们在这项研究中考虑了所有RBP结合位点。最后,我们总共获得了与37个环状RNA数据集相关的32,216个环状RNA。其中,阳性样本来自实验室验证的环状RNA上的相互作用位点。在每个CLIP-seq峰中,长度为101个核苷酸(nt)的序列片段居中,并在两个方向上延伸50个核苷酸(nt)。同时,从剩余的环状RNA片段中随机选择阴性序列。随后,我们应用相同的后处理方法提取了前一工作中的101个核苷酸长度(nt)结合位点/残留中间读数[17,18]。由于序列相似性会影响ML的一致性,因此我们使用CD-HIT来消除相似性阈值为0.8的序列,这与CRIP和PASSION相同。去除序列冗余后,我们得到了最终的数据集,即正样本和负样本分别为335,976和335,976。80%的数据集被选为训练集,20%被用作测试集。-厦门畜牧期刊杂志论文发表
此外,参考其他研究[17,18],我们比较了CRBPDL的效率,以鉴定线性RNA-RBP相互作用位点。我们从PASSION [35]和iDeepS [22]下载了线性RNA数据集,其中包括CLIP-Seq数据的线性RNA数据集和31个RBP。每个数据集有 5,000 个训练集和 1,000 个测试集。
特征编码
k核苷酸频率。
为了表征环状RNA序列的局部上下文特征,我们使用KNF编码序列。KNF描述了序列中k个核苷酸的所有可能的多核苷酸的频率。在本研究中,我们取了k=1、2、3,即单核苷酸组成频率、二核苷酸组成频率和三核苷酸组成频率。KNF保留了大量原始序列模式,并集成了多种序列信息[43,44]。与传统的单热点表示 [45]相比,KNF有效地弥补了信息的不足。
Doc2vec.
在最近的深度学习模型研究中,为了学习更多的序列上下文和语义信息,越来越多的序列研究采用了连续的、基于高维词嵌入的编码来代替一热编码,并取得了良好的效果。因此,基于circBase[46]的circRNA语料库,我们使用Doc2Vec算法的段落向量分布式记忆模型(PV-DM)模型对序列[47]进行矢量化,并训练矢量化模型Doc2Vec.model。之后,将序列数据输入模型,将10-mer序列片段作为环状RNA词,并使用词嵌入训练来获得特征载体。通过这种方式,学习作为全局上下文特征的连续分布表示可以扩展词汇量,并且可以捕获这些子序列中的语义和语法,以便进行长期依赖关系建模。
电子-离子相互作用伪电势。
EIIP [48] 描述了circRNA序列上自由电子能的特征。EIIP被广泛用于预测限制性商业惯例的结合位点。序列中可能出现的四个字符(即"A"、"T"、"C"、"G")的 EIIP 值分别为 0.1260、0.1335、0.1340 和 0.0806。因此,EIIP编码方法可用于将DNA序列编码为数字载体。例如,AATCCGA 编码是由 (0.1260, 0.1260, 0.1335, 0.1340, 0.1340, 0.0806,0.1260) 组成的数字向量。
核苷酸的化学特性。
每个核苷酸具有三种类型的化学特性(CCN):化学功能(包括氨基和酮基),环结构(包括双环嘌呤和单环嘧啶)和氢键(包括弱氢键和强氢键)[49]。对于环结构,A和G属于嘌呤,编码为1,C和T属于嘧啶,编码为0。对于化学功能,A和C属于氨基,编码为1;G和T属于酮基,编码为0。对于氢键,A和T属于编码为1的弱氢键,而C和G属于强氢键,编码为0。例如,AATCCGA 可以编码为 (1,1,1,1,1,1,1,0,0,1,0,1,0,0,1,0,1,0,1,1,1)。
累积的核苷酸频率。
ANF呈现核苷酸序列的密度特征[49]。假设一个 circRNA 序列 S = s1s2...s我,其中 i 是 S. S 的长度j= s1s2...sj,j 是 S 的长度j.Sj是 S 的第 j 个前缀序列。则 ANF 计算公式为:
(1)
(2)
多尺度残差网络
为了获得丰富的特征信息,构建了一个多尺度CNN层来捕获高级特征。与传统的卷积神经网络不同,与传统的CNN不同,多尺度残差网络可以改善整个网络的信息趋势流和梯度,降低计算复杂度,提高模型性能[50]。
在MSRN框架中,由于五个特征描述符的分布不同,我们对卷积核为128的五个特征采用卷积滤波器,然后级联,这是平衡生物特征分布的常用方法。之后,MSRN框架包含一个浅的CNN提取层,卷积核的大小为3。然后,使用包含6个级联多尺度残差块(MSRB)模块的启动模块,卷积核为64个。每个 MSRB 包括一个 3 个卷积层。基于分层特征融合结构(HFFS),将每个MSRB的输出组合在一起,进行全局特征融合。随后,在输入到一层卷积核后,有192个滤波器,1×1卷积可以增加和减少通道的数量,跨通道组织信息,并通过少量计算和非线性变换增加特征变换,以提高网络表达能力。之后,有一个合并图层的退出值为 0.4。
双向门控循环单元
对于circRNA序列,除了局部背景信息外,还存在长链依赖性[51]。多尺度残差块网络只能捕获序列之间的依赖关系。因此,该研究采用了双向GRU来同时从前面和后面获取上下文信息,以提高性能。
双向GRU只有两个门,即更新门和复位门。更新门控制前一时刻的状态信息进入当前状态的程度。更新门的值越大,引入的前一时刻的状态信息就越多。复位门用于控制忽略前一时刻状态信息的程度。复位门越小,被忽略的信息就越多。双向GRU可以根据输入自适应地改变其状态,从而解决RNN中梯度消失的问题。
自我关注
自我关注机制是根据需要适应性地关注和学习重要部分,而忽略无关紧要的部分。它被广泛用于各种深度学习应用,包括视觉处理,磷酸化位点预测,药物靶点预测等[52]。注意机制的意图是忽略大量信息中无关紧要的单词,有选择地过滤掉一个重要信息的粒子,并通过计算信息的权重来表达信息的重要性。
本研究在模型CRBPDL中,将BiGRU层的输出矩阵及其转置矩阵输入到注意力层,赋予不同的特征权重,从维度特征中选取重要特征。放弃一些次要特征,使用sigmoid作为激活函数。-厦门畜牧期刊杂志论文发表
实现
CRBPDL是使用Python中的Keras 1.1.2库实现的。首先,我们将 80% 的基准数据集用于训练,20% 用于测试。然后,在训练集上,80%用于训练,20%用于验证。Acc 用于评估每个参数设置。验证数据集适用于监测训练过程中各阶段的收敛性,可以提前退出训练过程。该研究采用了Adam梯度下降算法学习速率的更新方法,初始学习速率设置为0.001,最大epochs为200,epochs为30,批量大小为50。此外,我们还采用了多种技术来防止或减少过度拟合,例如批量归一化[50],dropout[51]和早期停止。我们使用选定的最优参数设置,使用所有训练数据来训练模型,选择性能最高的模型作为基础模型,使用AdaBoost进行集成,并将集成模型作为计算模型。AdaBoost 是一种迭代算法。它的核心思想是为同一训练集训练不同的分类器(弱分类器),然后将这些弱分类器分组以形成更强的最终分类器(强分类器)[53,54]。
评估指标
在这项研究中,我们采用了五个评估指标:敏感性(SE),特异性(SP),准确性(ACC),Matthew相关系数(MCC)和AUC[55–63],定义如下:
(3)
(4)
(5)
(6)
其中 TP、TN、FP 和 FN 分别表示真阳性、真阴性、假阳性和假阴性的数量。此外,曲线下面积 (AUC) 是 ROC 曲线下的面积。
支持信息
不同EPOCH下的模型性能分析。
跳到无花果共享导航
下载
无花果共享
S1 文本。不同EPOCH下的模型性能分析。
https://doi.org/10.1371/journal.pcbi.1009798.s001
(文档)
引用
1.[10] 郝姗, 吕军, 杨强, 王阿, 李忠, 郭勇, 等.鉴定人胃癌中的关键基因和环状RNA。医学科学监测:国际医学实验和临床研究期刊。2019;25:2488.下午:30948703
查看文章PubMed/NCBI谷歌学术搜索
2.博加德B,弗兰卡斯特尔C,胡贝F.一种鉴定数千种环状RNA的新方法。非编码RNA投资。2018;2:5.
查看文章谷歌学术搜索
3.李S,Han L.环状RNA作为癌症中有前途的生物标志物:检测,功能等。基因组医学。2019;11(1):1–3.pmid:30609936
查看文章PubMed/NCBI谷歌学术搜索
4.Dori M, Alieh LHA, Cavalli D, Massalini S, Lesche M, Dahl A, et al.小鼠皮质生成过程中祖细胞类型中环状RNA的序列和表达水平。生命科学联盟。2019;2(2).下午:30926618
查看文章PubMed/NCBI谷歌学术搜索
5.臧俊, 卢东, 徐A.circRNA和RNA结合蛋白的相互作用:circRNA维持和功能的重要组成部分。神经科学研究杂志。2020;98(1):87–97.pmid:30575990
查看文章PubMed/NCBI谷歌学术搜索
6.You X, Vlatkovic I, Babic A, Will T, Epstein I, Tushev G, et al.神经环状RNA来自突触基因,受发育和可塑性调节。自然神经科学。2015;18(4):603–10.下午:25714049
查看文章PubMed/NCBI谷歌学术搜索
7.张敏, 黄宁, 杨旭, 罗军, 闫姗, 肖峰, 等.由SHPRH基因的圆形形式编码的新型蛋白质抑制胶质瘤肿瘤的发生。基因。2018;37(13):1805–14.pmid:29343848
查看文章PubMed/NCBI谷歌学术搜索
8.Hentze MW,Preiss T. Circular RNAs:剪接的谜团变异。EMBO期刊。2013;32(7):923–5.pmid:23463100
查看文章PubMed/NCBI谷歌学术搜索
9.Niu M, Wu J, Zou Q, Liu Z, Xu L. rBPDL:使用深度学习预测RNA结合蛋白。IEEE生物医学与健康信息学杂志。2021. pmid:33780344
查看文章PubMed/NCBI谷歌学术搜索
10.Okholm TLH, Sathe S, Park SS, Kamstrup AB, Rasmussen AM, Shankar A, et al.环状RNA和RNA结合蛋白相互作用的转录组范围谱揭示了对环状RNA生物发生和癌症通路表达的影响。基因组医学。2020;12(1):1–22.下午:33287884
查看文章PubMed/NCBI谷歌学术搜索
11.肖冉, 陈建燕, 梁志, 罗东, 陈刚, 卢志军, 等.无处不在的染色质-RNA结合蛋白相互作用使基于RNA的转录调节成为可能。细胞。2019;178(1):107–21.e18.下午:31251911
查看文章PubMed/NCBI谷歌学术搜索
12.杜伟伟, 方磊, 杨伟, 吴楠, 阿万FM, 杨振, 等.通过环状RNA诱导肿瘤凋亡,增强Foxo3活性。细胞死亡和分化。2017;24(2):357–70.pmid:27886165
查看文章PubMed/NCBI谷歌学术搜索
13.Janas T,Janas MM,Sapoń K,Janas T.RNA加载到外泌体中的机制。二月的信件。2015;589(13):1391–8.pmid:25937124
查看文章PubMed/NCBI谷歌学术搜索-厦门畜牧期刊杂志论文发表
14.Conn SJ, Pillman KA, Toubia J, Conn VM, Salmanidis M, Phillips CA, et al.RNA结合蛋白震颤调节circRNA的形成。细胞。2015;160(6):1125–34.下午:25768908
查看文章PubMed/NCBI谷歌学术搜索
15.Abdelmohsen K, Panda AC, Munk R, Grammatikakis I, Dudekula DB, De S, et al.HuR靶向环状RNA的鉴定揭示了CircPABPN1对PABPN1翻译的抑制。核糖核酸生物学。2017;14(3):361–9.pmid:28080204
查看文章PubMed/NCBI谷歌学术搜索
16.Dudekula DB,Panda AC,Grammatikakis I,De S,Abdelmohsen K,Gorospe M. CircInteractome:用于探索环状RNA及其相互作用的蛋白质和microRNA的网络工具。核糖核酸生物学。2016;13(1):34–42.下午:26669964
查看文章PubMed/NCBI谷歌学术搜索
17.周华, 曼格尔斯多夫 M, 刘娟, 朱磊, 吴建勇.神经系统疾病中的RNA结合蛋白。科学 中国 生命科学.2014;57(4):432–44.pmid:24658850
查看文章PubMed/NCBI谷歌学术搜索
18.Pereira B,Billaud M,Almeida R.癌症中的RNA结合蛋白:老球员和新演员。癌症趋势。2017;3(7):506–28.pmid:28718405
查看文章PubMed/NCBI谷歌学术搜索
19.韩毅, 杨娟, 钱霞, 程文昌, 刘世华, 华旭, 等.DriverML:一种机器学习算法,用于在癌症测序研究中识别驱动基因。核酸研究。2019;47(8):e45–e. pmid:30773592
查看文章PubMed/NCBI谷歌学术搜索
20.王浩华, 吉军;丁一杰;郭飞.通过三矩阵分解与中心核对齐上的超图正则项,探索人类疾病中非编码RNA的关联。生物信息学简报。2021:1-.
查看文章谷歌学术搜索
21.王毅杰;唐继军;邹全;郭飞.使用 Chou 的 5 步法则,基于多标记学习确定 RNA 相关的亚细胞定位。BMC 基因组学。2021;22(56):1–.
查看文章谷歌学术搜索
22.Ferre F,Colantoni A,Helmer-Citterich M.揭示蛋白质 - lncRNA相互作用。生物信息学简报。2016;17(1):106–16.下午:26041786
查看文章PubMed/NCBI谷歌学术搜索
23.Maticzka D,Lange SJ,Costa F,Backofen R. GraphProt:模拟RNA结合蛋白的结合偏好。基因组生物学。2014;15(1):1–18.pmid:24451197
查看文章PubMed/NCBI谷歌学术搜索
24.Corrado G, Tebaldi T, Costa F, Frasconi P, Passerini A. RNAcommender: RNA-蛋白相互作用的全基因组推荐。生物信息学。2016;32(23):3627–34.pmid:27503225
查看文章PubMed/NCBI谷歌学术搜索
25.Yu H, Wang J, Sheng Q, Liu Q, Shyr Y. beRBP: 人类RNA结合蛋白的结合估计.核酸研究。2019;47(5):e26-e.pmid:30590704
查看文章PubMed/NCBI谷歌学术搜索
26.阿杰罗D, 阿拉加M, 谭俊, 林俊, 蒋毅, 阿巴西A, 等.基于特征和基于字符串的模型,用于预测RNA-蛋白质相互作用。分子。2018;23(3):697.pmid:29562711
查看文章PubMed/NCBI谷歌学术搜索
27.黄德姗, 于海军.归一化特征向量:一种基于相邻氨基酸数的新型无比对序列比较方法。IEEE/ACM Transactions on Computational Biology and Bioinformatics.2013;10(2):457–67.pmid:23929869
查看文章PubMed/NCBI谷歌学术搜索
28.Niu M, Lin Y, Zou Q. sgRNACNN:使用卷积神经网络的集合鉴定四种作物中的sgRNA靶向活性。植物分子生物学。2021;105(4):483–95.pmid:33385273
查看文章PubMed/NCBI谷歌学术搜索
29.BioSeq-Analysis2.0:基于机器学习方法的更新平台,用于在序列水平和残基水平上分析DNA,RNA和蛋白质序列。核酸研究。2019;47(20):e127.pmid:31504851
查看文章PubMed/NCBI谷歌学术搜索
30.唐永军, 庞永华, 刘斌. IDP-Seq2Seq: 基于序列到序列学习的内在无序区域识别.生物信息学。2020;36(21):5177–86.
查看文章谷歌学术搜索
31.Alipanahi B, Delong A, Weirauch MT, Frey BJ.通过深度学习预测DNA和RNA结合蛋白的序列特异性。自然生物技术。2015;33(8):831–8.下午:26213851
查看文章PubMed/NCBI谷歌学术搜索
32.潘某, 沈海斌.通过结合局部和全局深度卷积神经网络来预测RNA-蛋白质结合位点和基序。生物信息学。2018;34(20):3427–36.pmid:29722865
查看文章PubMed/NCBI谷歌学术搜索
33.潘某,杨勇,夏春,米尔扎,沈海华.深度学习在RNA-蛋白质相互作用预测中的最新方法研究进展.Wiley跨学科评论:RNA。2019;10(6):e1544.pmid:31067608
查看文章PubMed/NCBI谷歌学术搜索
34.潘某, 范永霞, 贾娟, 沈海斌.使用多标记深度学习识别RNA结合蛋白。中国科学 信息科学.2019;62(1):1–3.
查看文章谷歌学术搜索
35.Jia C, Bi Y, Chen J, Leier A, Li F, Song J. PASSION:一种用于识别circRNA上RBPs结合位点的集成神经网络方法。生物信息学。2020;36(15):4276–82.下午:32426818
查看文章PubMed/NCBI谷歌学术搜索
36.张坤, 潘旭, 杨勇, 沈海斌.CRIP:使用基于密码子的编码和混合深度神经网络预测circRNA-RBP结合位点。核糖核酸。2019;25(12):1604–15.pmid:31537716
查看文章PubMed/NCBI谷歌学术搜索
37.杨毅, 侯志, 马志, 李霞, 黄国春.iCircRBP-DHN:使用深度分层网络鉴定circRNA-RBP相互作用位点。生物信息学简报。2020.
查看文章谷歌学术搜索
38.Lu Z, Jiang X, Kot A. 用于低分辨率人脸识别的 Deep 耦合 resnet.IEEE 信号处理信函。2018;25(4):526–30.
查看文章谷歌学术搜索
39.Niu M, Ju Y, Lin C, Zou Q. 表征病毒circRNA及其在病毒中circRNA鉴定中的应用.生物信息学简报。2021. pmid:34585234
查看文章PubMed/NCBI谷歌学术搜索
40.Niu M, Zou Q. SgRNA-RF:使用不平衡数据集鉴定SgRNA靶向活性。IEEE/ACM Transactions on Computational Biology and Bioinformatics.2021:1–.pmid:33979289
查看文章PubMed/NCBI谷歌学术搜索
41.王兹, 雷旭, 吴福旭.基于深度学习鉴定癌症特异性circRNA-RBP结合位点。分子。2019;24(22):4035.pmid:31703384
查看文章PubMed/NCBI谷歌学术搜索
42.Ju Y, Yuan L, Yang Y, Zhao H. CircSLNN:通过序列标记神经网络鉴定circRNA上的RBP结合位点。遗传学前沿。2019;10:1184.pmid:31824574
查看文章PubMed/NCBI谷歌学术搜索
43.牛敏, 张军, 李勇, 王超, 刘志, 丁海, 等.CirRNAPL:一种基于极限学习机器的用于识别circRNA的Web服务器。计算和结构生物技术期刊。2020;18:834–42.下午:32308930
查看文章PubMed/NCBI谷歌学术搜索
44.Shao J, Yan K, Liu B. FoldRec-C2C:结合簇到簇模型和蛋白质相似性网络进行蛋白质折叠识别。生物信息学简报。pmid:32685972
查看文章PubMed/NCBI谷歌学术搜索
45.Rathi P,Maurer S,Summerer D.通过工程转录激活剂样效应子选择性识别DNA中的N 4-甲基胞嘧啶。皇家学会哲学学报B:生物科学。2018;373(1748):20170078.pmid:29685980
查看文章PubMed/NCBI谷歌学术搜索-厦门畜牧期刊杂志论文发表
46.Gla?ar P, Papavasileiou P, Rajewsky N. circBase: a database for circular RNAs.核糖核酸。2014;20(11):1666–70.下午:25234927
查看文章PubMed/NCBI谷歌学术搜索
47.Le Q,Mikolov T,编辑。句子和文档的分布式表示形式。机器学习国际会议;2014年:PMLR。
查看文章谷歌学术搜索
48.奈尔 AS, 斯雷纳丹 SP.一种采用电子-离子相互作用伪电位(EIIP)的编码测量方案。生物信息。2006;1(6):197.下午:17597888
查看文章PubMed/NCBI谷歌学术搜索
49.巴里A,雷兹先生,郑B-S。使用SVM进行有效的DNA编码,用于剪接位点预测。MATCH Commun Math Comput Chem. 2014;71:241–58.
查看文章谷歌学术搜索
50.李娟,方峰,梅坤,张G,编辑。用于图像超分辨率的多尺度残差网络。欧洲计算机视觉会议(ECCV)论文集;2018.
查看文章谷歌学术搜索
51.Chaabane M, Williams RM, Stephens AT, Park JW.circDeep:从其他长非编码RNA中对环状RNA进行分类的深度学习方法。生物信息学。2020;36(1):73–80.pmid:31268128
查看文章PubMed/NCBI谷歌学术搜索
52.王东, 曾姗, 徐超, 邱伟, 梁勇, 乔希 T, 等.MusiteDeep:一种用于一般和激酶特异性磷酸化位点预测的深度学习框架。生物信息学。2017;33(24):3909–16.pmid:29036382
查看文章PubMed/NCBI谷歌学术搜索
53.Ao C, Zou Q, Yu L. NmRF:从RNA序列中鉴定多物种RNA 2'-O-甲基化修饰位点。生物信息学简报。2021. pmid:34850821
查看文章PubMed/NCBI谷歌学术搜索
54.Jiao S, Zou Q, Guo H, Shi L. iTTCA-RF: 肿瘤T细胞抗原的随机森林预测因子.转化医学杂志。2021;19(1):449.pmid:34706730
查看文章PubMed/NCBI谷歌学术搜索
55.Wei L, Zhou C, Chen H, Song J, Su R. ACPred-FL: 一种基于序列的预测因子,利用有效的特征表示来提高抗癌肽的预测效果.生物信息学。2018;34(23):4007–16.pmid:29868903
查看文章PubMed/NCBI谷歌学术搜索
56.邵娟,刘B.ProtFold-DFG:结合有向融合图和PageRank算法的蛋白质折叠识别。生物信息学简报。pmid:32892224
查看文章PubMed/NCBI谷歌学术搜索
57.Wei L, Liao M, Gao Y, Ji R, He Z, Zou Q. 通过结合高质量的阴性集改进和有希望鉴定人类MicroRNA.IEEE/ACM Transactions on Computational Biology and Bioinformatics.2014;11(1):192–201.pmid:26355518
查看文章PubMed/NCBI谷歌学术搜索
58.魏磊, 万姗, 郭娟, 黄振林.一种具有生物信息学应用的新型分层选择性集成分类器。医学中的人工智能。2017;83:82–90.pmid:28245947
查看文章PubMed/NCBI谷歌学术搜索
59.Wei L, Xing P, Zeng J, Chen J, Su R, Guo F. 使用新型阴性样本、特征和集合分类器改进了蛋白质-蛋白质相互作用的预测。医学中的人工智能。2017;83:67–74.下午:28320624
查看文章PubMed/NCBI谷歌学术搜索
60.王海, 丁勇, 唐军, 郭峰. 通过希尔伯特-施密特独立性准则的多元信息融合鉴定膜蛋白类型.神经计算。2020;383:257–69.
查看文章谷歌学术搜索
61.丁继军;郭飞.通过具有多核融合的双拉普拉斯正则化最小二乘法识别药物-靶标相互作用。基于知识的系统。2020;204.
查看文章谷歌学术搜索
62.丁勇, 唐娟, 郭峰. 通过模糊二分局部模型识别药物-靶点相互作用.神经计算和应用。2020;23:10303–19.
查看文章谷歌学术搜索
63.沈勇, 唐娟, 郭F. 通过将进化和理化信息整合到周氏一般PseAAC中来鉴定蛋白质亚细胞定位。理论生物学杂志。2019;462:230–9.pmid:30452958
查看文章PubMed/NCBI谷歌学术搜索-厦门畜牧期刊杂志论文发表