摘要由于线粒体蛋白在不同的区域内具有不同的生理活性,故线粒体蛋白的非正常定位将触发人类线粒体病理的发病机制。显然,一旦可以准确的鉴定蛋白质亚线粒体的定位,那我们将能够为疾病发病机制和药物设计带来发展性的帮助。线粒体中包括四种亚线粒体室,它们依次是基质、外膜、内膜以及膜间隙。不过,在目前的各种实验中,较少涉及到膜空隙,重点是基质、外膜以及内膜。与此同时,大多数研究人员都是使用机器学习方法来预测蛋白质亚线粒体定位,这些预测器往往都需要以专家级的生物学知识编码为特征,并非通过数据驱动程序来提取特征。因此,本文首先对蛋白质亚线粒体定位的基本概念、研究意义及研究现状进行阐述,然后基于深度学习方法对蛋白质亚线粒体定位进行相关的研究。其具体思路如下:<br> 本文模型的核心思想是利用卷积神经网络和循环神经网络的有效结合,再结合残差网络中跳跃连接的思想,并与具有自注意机制的双向GRU连接,从而有效地探索上下文序列的语义特征。本文首先将数据集SM424-18、SM570、M983作为基准数据集,将蛋白质亚线粒体序列输入到ProteinBERT模型中,对数据集进行特征提取;然后,利用自适应合成(ADASYN)采样方法来处理数据集中各位置序列计数不平衡的问题;接下来,将平衡后的数据集输入到模型中。为了证明我们提出的三种方法的有效性,我们在分别包含424个蛋白质和570个蛋白质的SM424-18、SM570这两个数据集上进行了交叉验证实验,其中,这两个数据集不仅包括基质、内膜、外膜这三个位置的蛋白质,还包括膜间隙蛋白。在模型训练过程中,为结合数据集不平衡的特性,我们通过分层抽样将每个数据集分成10组相同大小的数据集。其中一个子集是测试集,一个子集是验证集,其他八个子集组成训练集。实验结果表明,基于ProteinBERT、TextCNN和具有自注意机制的BiGRU搭建的模型、基于ProteinBERT、双向LSTM和具有自注意机制的BiGRU搭建的模型、基于ProteinBERT、循环残差卷积单元和具有自注意机制的BiGRU搭建的模型,这三个模型的GCC值均达到了75%及以上,最高可达到79%。与已有算法相对比,证明了模型的可行性。此外,我们在数据集M983上进行测试,以进一步验证我们方法的效率。
更多相关知识
- 浏览0
- 被引0
- 下载0
相似文献
- 中文期刊
- 外文期刊
- 学位论文
- 会议论文