摘要随着人类基因组计划的实施和生物信息学的迅速发展,通过基因组测序、蛋白质序列测定和结构解析等实验,人们获得了大量的关于蛋白质结构的原始数据,并且建立了众多的蛋白质结构数据库。其中由美国布鲁克海文国家实验室建立的蛋白质的基本立体结构数据库:蛋白质数据银行(ProteinDataBank,简称PDB)是世界上最为完整的蛋白质结构信息数据库,是我们研究蛋白质结构及其相关领域的基础,也是本文进行数据挖掘的对象。 生物信息学的主要目的之一在于了解蛋白质中氨基酸序列和蛋白质三维结构之间的关系。如果知道了这种关系,就可以从氨基酸序列可靠地预测蛋白质结构。然而,序列和结构间的关系并不简单。本文中,我们利用数据挖掘得到的统计信息数据库对蛋白质的二级结构进行了预测。 我们的主导思路是:通过对PDB数据库中的氨基酸序列和结构序列进行切片处理,得到蛋白质序列和结构的切片数据库,然后利用数据库技术和数据挖掘方法对这些切片进行数据挖掘工作,从中发现一些内在的规律,并建立了基于PDB数据库的蛋白质切片统计信息数据库。利用这个统计信息数据库和我们数据挖掘得到的知识,设计了基于蛋白质统计信息数据库的蛋白质二级结构预测系统。为了验证新的预测方法,我们选取了20条最近发布的且不在我们的统计信息库中的蛋白质序列进行预测。其平均Q3准确率为75.10﹪,其中有6个预测样本的Q3值超过了80﹪。 本文主要分为三个部分: 第一部分主要介绍了目前数据挖掘的主要方法、原理以及数据挖掘在生物信息学众多领域的应用。 第二部分详细介绍了我们数据挖掘的对象和方法以及得到的丰富统计信息和对这些信息的可视化分析等处理。 第三部分主要是讨论了目前蛋白质结构预测的主要流程和方法,提出了我们的基于统计信息数据库的蛋白质结构预测方法。 在本文末尾,我们对预测工作中遇到的问题进行了探讨,并提出了很多改进的设想。我们认为,利用数据库技术和数据挖掘的方法来处理大量的蛋白质结构信息是今后生物信息学的重要组成部分。而基于统计信息库的蛋白质结构预测方法,随着蛋白质结构信息的增长其预测能力必将得到进一步的提高。 本文的主要工作成果在于:1、系统地统计和分析了PDB库中所有蛋白质序列和结构的切片信息:2建立了蛋白质切片结构概率的统计信息数据库,并以此为基础提出了基于统计信息数据库的蛋白质结构预测方法。
更多相关知识
- 浏览78
- 被引3
- 下载0
相似文献
- 中文期刊
- 外文期刊
- 学位论文
- 会议论文