蛋白质二级结构预测-论文-万方医学网

蛋白质二级结构预测

二维码有效期 120s

收藏纠错

摘要目前所知遗传信息的传递是由DNA到RNA再到蛋白质的过程,这是现在已经达成共识的分子生物学研究的中心,通常称之为中心法则.但是,多肽链是如何形成一定空间结构的蛋白质分子的问题,仍足分子生物学中心法则中还没有解决的.所以预测蛋白质的三级结构是分子生物学研究中比较大的挑战之一.当前人类知晓的蛋白质三级结构的数量与知晓的一级结构的数量相比还比较少.为了能够加速对蛋白质三级结构的了解,人们提出了蛋白质结构预测的课题.一般认为蛋白质二级结构预测是在蛋白质三级结构预测之前非常重要的一步,但是,一直以来蛋白质二级结构预测都未能够达到较高的准确率.该文主要对蛋白质二级结构预测的新方法进行了探究.研究工作的主体思路是:对已知蛋白质的序列和结构进行数据挖掘工作,从中发现一些内在的规律;同时,尽可能多地利用现在己知的蛋白质结构信息来预测未知的蛋白质结构.首先从英特网上获取PDB库,然后用DSSP把这些数据处理成蛋白质二级结构的数据,接着对这些数据按照氨基酸长度从3个到9个进行切片和统计分析,并在这些工作的基础上建立自己的蛋白质二级结构数据库.为了验证新的预测方法,我们用CASP5的蛋白质数据集作为预测的测试对象.预测过程中,先把CASP5的这些蛋白质在SWISS-PROT数据库中进行BLAST比对,获取预测目标蛋白质的同源蛋白质序列.之后再根据尽可能多地利用已知蛋白质信息的原则,在自己建立的蛋白质二级结构库中选择最理想的切片长度作为预测用的数据库.接着利用选定的蛋白质二级结构库和一定的打分机制对这些同源蛋白质进行打分,获得蛋白质二级结构预测的初步结果.最后再对结果进行过滤处理,去除一些明显不符合生物学常理的结构,就得到了最终的结果.目前我们对CASP5的56条蛋白质进行二级结构预测的Q<,3>准确率为64.6％,其中有20个预测样本的Q<,3>值超过了70％,有7条蛋白质的预测结果超过了PHD方法预测的结果.该文末尾,对预测工作中遇到的问题进行了探讨,并进行了一些新的尝试.我们认为,生物进化的多样性决定了在蛋白质序列和结构之间不会存在完全——对应的关系,但是仍然可以利用人类目前掌握的越来越多的有关蛋白质结构和序列的信息,使得蛋白质结构预测工作得到比以前更好的结果.从已经进行的研究工作来看,多重序列比对的算法是目前在体现生物进化多样性方面做得最好的算法.