摘要蛋白质主宰着生命活动,使生命体呈现如今复杂多变的状态,在生命系统的构建中起了重要的作用。蛋白质二级结构是蛋白质形成稳定构象的重要基础,是研究蛋白质三维结构的重要前提。二级结构的研究可以为研究蛋白质的功能以及序列之间的相互作用模式提供基础,有助于理解生物的活动以及各类生物性状,有利于新药的研发。所以,从大量的蛋白质序列中提取出有用的生物信息是目前的重要工作。<br> 本文针对氨基酸提出来一种新的编码方式,即基团编码方式,这种编码方式是依据氨基酸内部形成稳定分子官能团定义的编码方式,42个官能团构成了基团编码方式。并且通过深度学习中的卷积神经网络和自动编码器进行特征提取。<br> (1) 基于新的基团编码方式的预测<br> 将基团编码与传统的正交编码方式用支持向量机(Support Vector Machine, SVM)进行分类预测,将得到的预测结果进行比较,选取的实验数据为CB513和25PDB。实验中设置 2 个实验,实验 1:对基团编码和正交编码通过支持向量机进行结果对比,通过结果可以发现本文提出的基团编码比正交编码结果要高出1.08%。实验2:对基团编码和正交编码都选取两种不同划分格式的验证,即 G、H、I是H,B、E是E,其它都是C以及H是H,E是E,其它都是C的划分格式。可以发现本文中选取的G、H、I是H,B、E是E,其它都是C的划分结构是所有结构中最难的,得到的准确率是最低的。<br> (2) 基于卷积神经网络的二级结构预测<br> 基于基团编码方式与位置特异性打分矩阵(position specific scoring matrix, PSSM)组合数据的特征提取,用卷积神经网络(Convolutional Neural Network, CNN)对组合数据进行特征提取后送入贝叶斯分类器中得到分类预测结果。用卷积神经网络提取特征后送入贝叶斯分类器中得到的结果要比直接送入贝叶斯分类器的结果高出5%。<br> (3) 基于自动编码器的二级结构预测<br> 将基团编码方式与位置特异性打分矩阵(PSSM)组合,分别采用单层和两层的自动编码器来进行特征提取,之后送入贝叶斯分类器中得到分类预测结果,可以发现含有两个隐含层的堆叠自动编码器的准确率是最高的,比单隐含层自动编码器高出1.04%,比贝叶斯分类器结果高出2.69%。
更多相关知识
- 浏览0
- 被引5
- 下载0

相似文献
- 中文期刊
- 外文期刊
- 学位论文
- 会议论文


换一批



