摘要近些年来,由于测序技术的迅速发展,蛋白质序列的数目呈指数型增长,传统的实验方法难以应对海量增长的蛋白质数据,所以迫切需要开发理论计算的方法探究蛋白质结构与功能之间的关系。生物信息学是一门交叉学科,它是在生物学的基础上利用信息科学技术获取生物信息,处理生物数据,通过分析处理数据,可以获取更多的生物学知识,更深入地认识生物世界。蛋白质结构预测是生物信息学的热点研究领域之一,对促进生命科学的发展具有重要意义。论文主要研究内容如下:<br> 详细描述蛋白质特征提取方法和机器学习算法,其中特征提取算法包括氨基酸组分、多肽组分、伪氨基酸组分、位置特异性得分矩阵、平均化学位移和自相关函数。机器学习算法包括支持向量机、朴素贝叶斯分类器、K近邻算法和线性判别分析。特征提取和分类算法是影响蛋白质结构预测结果的重要因素,为论文研究提供了理论支撑。<br> 通过融合蛋白质序列的多种信息,提出了一种蛋白质结构类预测新方法。首先,利用位置特异性得分矩阵的自协方差转换 (ACCPSSM) 提取进化信息,基于Chou’s伪氨基酸组分 (PseAAC) 提取蛋白质序列信息,使用PORTER在线服务提取二级结构信息。其次,对ACCPSSM提取的特征向量利用多维尺度分析降维,将二级结构信息结合蛋白质序列提取平均化学位移信息,对提取后的三个重要信息进行融合。最后,将最佳特征向量输入到支持向量机。在三个低相似性序列数据集25PDB、1189和640上使用刀切法进行检验,并与其它预测方法进行比较。结果显示,本文提出的方法可以有效地提高蛋白质结构类的预测准确性。<br> 根据小波降噪理论,提出了一种蛋白质结构类预测新方法。首先,利用Chou’s伪氨基酸组分 (PseAAC) 提取蛋白质序列的特征。然后,对提取的特征信息进行二维小波 (WD) 降噪。最后,将最优的特征向量输入到支持向量机分类器预测蛋白质结构类。在三个低相似性序列数据集25PDB,1189和640上使用刀切法测试获得了显著的预测结果,并将本文方法与其它预测方法进行比较。结果表明,该模型是预测蛋白质结构类的一个可靠的工具,特别适用于低相似性序列。
更多相关知识
- 浏览6
- 被引15
- 下载0
相似文献
- 中文期刊
- 外文期刊
- 学位论文
- 会议论文