• 医学文献
  • 知识库
  • 评价分析
  • 全部
  • 中外期刊
  • 学位
  • 会议
  • 专利
  • 成果
  • 标准
  • 法规
  • 临床诊疗知识库
  • 中医药知识库
  • 机构
  • 作者
热搜词:
换一批
论文 期刊
取消
高级检索

检索历史 清除

医学文献>>
  • 全部
  • 中外期刊
  • 学位
  • 会议
  • 专利
  • 成果
  • 标准
  • 法规
知识库 >>
  • 临床诊疗知识库
  • 中医药知识库
评价分析 >>
  • 机构
  • 作者
热搜词:
换一批

蛋白质结构数据库的信息挖掘

摘要随着人类基因组计划的实施和生物信息学的迅速发展,通过基因组测序、蛋白质序列测定和结构解析等实验,人们获得了大量的关于蛋白质结构的原始数据,并且建立了众多的蛋白质结构数据库。其中由美国布鲁克海文国家实验室建立的蛋白质的基本立体结构数据库:蛋白质数据银行(ProteinDataBank,简称PDB)是世界上最为完整的蛋白质结构信息数据库,是我们研究蛋白质结构及其相关领域的基础,也是本文进行数据挖掘的对象。 生物信息学的主要目的之一在于了解蛋白质中氨基酸序列和蛋白质三维结构之间的关系。如果知道了这种关系,就可以从氨基酸序列可靠地预测蛋白质结构。然而,序列和结构间的关系并不简单。本文中,我们利用数据挖掘得到的统计信息数据库对蛋白质的二级结构进行了预测。 我们的主导思路是:通过对PDB数据库中的氨基酸序列和结构序列进行切片处理,得到蛋白质序列和结构的切片数据库,然后利用数据库技术和数据挖掘方法对这些切片进行数据挖掘工作,从中发现一些内在的规律,并建立了基于PDB数据库的蛋白质切片统计信息数据库。利用这个统计信息数据库和我们数据挖掘得到的知识,设计了基于蛋白质统计信息数据库的蛋白质二级结构预测系统。为了验证新的预测方法,我们选取了20条最近发布的且不在我们的统计信息库中的蛋白质序列进行预测。其平均Q3准确率为75.10﹪,其中有6个预测样本的Q3值超过了80﹪。 本文主要分为三个部分: 第一部分主要介绍了目前数据挖掘的主要方法、原理以及数据挖掘在生物信息学众多领域的应用。 第二部分详细介绍了我们数据挖掘的对象和方法以及得到的丰富统计信息和对这些信息的可视化分析等处理。 第三部分主要是讨论了目前蛋白质结构预测的主要流程和方法,提出了我们的基于统计信息数据库的蛋白质结构预测方法。 在本文末尾,我们对预测工作中遇到的问题进行了探讨,并提出了很多改进的设想。我们认为,利用数据库技术和数据挖掘的方法来处理大量的蛋白质结构信息是今后生物信息学的重要组成部分。而基于统计信息库的蛋白质结构预测方法,随着蛋白质结构信息的增长其预测能力必将得到进一步的提高。 本文的主要工作成果在于:1、系统地统计和分析了PDB库中所有蛋白质序列和结构的切片信息:2建立了蛋白质切片结构概率的统计信息数据库,并以此为基础提出了基于统计信息数据库的蛋白质结构预测方法。

更多
广告
  • 浏览78
  • 下载0

加载中!

相似文献

  • 中文期刊
  • 外文期刊
  • 学位论文
  • 会议论文

加载中!

加载中!

加载中!

加载中!

特别提示:本网站仅提供医学学术资源服务,不销售任何药品和器械,有关药品和器械的销售信息,请查阅其他网站。

  • 客服热线:4000-115-888 转3 (周一至周五:8:00至17:00)

  • |
  • 客服邮箱:yiyao@wanfangdata.com.cn

  • 违法和不良信息举报电话:4000-115-888,举报邮箱:problem@wanfangdata.com.cn,举报专区

官方微信
万方医学小程序
new翻译 充值 订阅 收藏 移动端

官方微信

万方医学小程序

使用
帮助
Alternate Text
调查问卷