• 医学文献
  • 知识库
  • 评价分析
  • 全部
  • 中外期刊
  • 学位
  • 会议
  • 专利
  • 成果
  • 标准
  • 法规
  • 临床诊疗知识库
  • 中医药知识库
  • 机构
  • 作者
热搜词:
换一批
论文 期刊
取消
高级检索

检索历史 清除

医学文献>>
  • 全部
  • 中外期刊
  • 学位
  • 会议
  • 专利
  • 成果
  • 标准
  • 法规
知识库 >>
  • 临床诊疗知识库
  • 中医药知识库
评价分析 >>
  • 机构
  • 作者
热搜词:
换一批

基于支持向量机的蛋白质结构类预测及蛋白质相互作用网络拓扑结构分析

摘要随着蛋白质与基因测序技术的进一步发展,尤其是基因组计划的启动使得有关蛋白质的生物序列飞速增长。生物序列的海量产生、收集,造成已知蛋白质序列和已知蛋白质结构、功能之间的数量差距越来越大。开发具有一定智能、可以自动识别蛋白质结构、功能等生物信息的自动系统或模式识别方法成为了现实地、迫切地需求。基于机器学习和人工智能方法的蛋白质结构、功能预测一直是生物信息学研究的重点问题同时也是生物信息学面临的重大挑战。大量的文献报道和研究结果表明模式识别方法在蛋白质二级结构预测中取得了巨大的成功,同时产生了大量鲁棒性的方法,一些方法对蛋质二级结构地预测准确率可以达到75%以上。在高效、快捷地实验室蛋白质结构与功能测定技术出现前,通过综合应用计算机技术、数学方法和分子生物学理论从大量的蛋白质一级序列数据中获取蛋白质结构功能等生物意义是生物信息学的首要任务和重点研究对象之一。本文的主要工作就是从生物序列出发,应用支持向量机(SVM)和蛋白质序列融合表征方法进行蛋白质结构类预测研究。<br>  蛋白质结构类预测是蛋白质结构预测的一个重要组成部分,使得人们从大体上把握蛋白质的折叠情况成为现实。蛋白质结构类型预测可以对二级结构的预测提供重要的信息。Levitt和Chothia于1976年定义了蛋白质的四种结构类型:全α蛋白质(主要由α螺旋组成的蛋白质);全β类蛋白质(主要由β折叠组成的蛋白质);α/β类(由α螺旋和β折叠交替排列组成的蛋白质);α+β类(由分开的α螺旋和β折叠组成,其中β折叠一般为平行结构)。蛋白质结构类预测地方法主要有通过光谱数据的实验室预测方法和模式识别预测方法,本文完成了蛋白质结构类预测的工作:基于多分类支持向量机(Multi-Class SVM)和融合特征表征方法地蛋白质结构类预测(第二章)、蛋白质相互作用网络拓扑结构分析的工作(第三到第四章)。<br>  (1)首先从RCSB pdb数据库随机提取3类(α类、β类、α+β类)蛋白质数据的序列信息,经过Blast处理后,共有90条数据;其次,使用Haffman编码、PseAAc(伪氨基酸)、Haffman编码与PseAAc组合、字符概率与PseAAc组合四种替代模型用于氨基酸序列数字表征。“one against one”和“one against rest”分解策略用于替代模型训练多分类支持向量机。实验结果表明:Haffman编码替代模型分类器的准确率较低,说明模型表征蛋白质结构类信息能力低;采用PseAAc替代模型分类器的准确率较Haffman编码替代模型高;Haffman编码在一定程度上能体现出编码的序列特性,把Haffman编码与PseAAc组合替代模型,分类器的准确率较PseAAc替代模型低;采用字符概率与PseAAc组合替代模型的分类器准确率较高;再次,4种替代模型在“one against rest”分解策略中遇到了预测偏置问题,对正样本为α+β类蛋白质的预测精度低于30%,为了提高模型稳定性,通过对正样本惩罚系数加权,得到的结果表明在PseAAc、字符概率与PseAAc组合两种替代模型中能有效解决偏置问题;然后比较了两种分解策略之间分类器的稳定性,得到“one against rest”分解策略中的分类器经过偏置调整后,更具有推广能力;最后得出结论,在字符概率与PseAAc组合替代模型中使用“one against rest”分解策略训练分类器最优。<br>  (2)用复杂网络的概念表达DIP数据库中Giot2003a数据集中涵盖的蛋白质互作网络,计算了基于静态蛋白质互作网络的参数主要有度中心性、介数中心性、子图中心性、特征路径聚集系数等网络拓扑特征。然后根据计算结果,发现蛋白质互作网络具有幂律度分布、无标度、小世界等特性。猜想蛋白质互作网络中有可能包含大量四面体结构,由此提出了一种基于四面体结构的网络模型:底质为层次四面体结构,由底质添加捷径进而形成一组四面体复杂网络簇。再由简单C代码得到不同概率加边的边表,写入R软件得到不同的网络,因为添加捷径时都是由高层向底层加边,所以会形成结点度分布不均匀的现象,计算四面体网络簇的拓扑参数,验证四面体簇为复杂网络,然后将得到的拓扑参数同蛋白质互作网络的极大连通子图的拓扑参数比较,发现度,聚集系数,特征路径等拓扑参数相近,且度分布符合幂律分布。得出结论:由四面体模型得到的复杂网络簇可以仿真蛋白质相互作用网络。

更多
广告
  • 浏览8
  • 下载12

加载中!

相似文献

  • 中文期刊
  • 外文期刊
  • 学位论文
  • 会议论文

加载中!

加载中!

加载中!

加载中!

特别提示:本网站仅提供医学学术资源服务,不销售任何药品和器械,有关药品和器械的销售信息,请查阅其他网站。

  • 客服热线:4000-115-888 转3 (周一至周五:8:00至17:00)

  • |
  • 客服邮箱:yiyao@wanfangdata.com.cn

  • 违法和不良信息举报电话:4000-115-888,举报邮箱:problem@wanfangdata.com.cn,举报专区

官方微信
万方医学小程序
new翻译 充值 订阅 收藏 移动端

官方微信

万方医学小程序

使用
帮助
Alternate Text
调查问卷