摘要蛋白质是生命活动的主要承担者,一切生命活动都离不开蛋白质的参与,由蛋白质执行各种生物功能.生命活动是复杂的,这从一个侧面反映了执行各种生命活动的蛋白质的种类也是多种多样的.研究生物的生命活动必须研究蛋白质,而研究蛋白质又必须先了解指导合成蛋白质的DNA、RNA.而对剪接位点的研究又是研究DNA、RNA的基础,因为只有了解了剪接位点,才能知道RNA的编码区.由此可见对剪接位点的识别是一项非常重要和基础的工作.在人类基因组全图正式发表后,科学家十分关切一个更为复杂、更富有挑战意义、更有价值的任务——由这四个碱基构成的人类的DNA到底有什么有意义的信息?如何才能将这些复杂的信息全部注释出来?而这其中最为重要的莫过于标注出基因的位置,因为正是基因直接影响着丰富多彩的蛋白质世界.狭义的基因体注释的含义就是找出基因在DNA序列上的位置,并定义出exon和intron的界限.后者就是该文所要探索的问题.我们知道愈是高等的生物,基因体就愈是复杂.因此没有一种万无一失的方法能够百分之百地识别出基因.已有许多方法被应用到识别基因中,以统计预测为基础的运算方法(如SVM)是一种很多人采用的方法,它的主要特征利用基因以及exon-intron结构在DNA序列上已知的一些特征(如起始密码子、终止密码子、基因组DNA中的外显子、内含子和剪接位点的保守性),在DNA序列上直接预测基因的位置.在该文采用了基于统计学习理论的支持向量机(SVM)方法,同时加入了序列的统计信息.考虑到剪接位点附近存在的序列保守性,现有的一些基于统计特性的剪接位点的识别方法,利用单个碱基采用无特征的编码,预报给体位点GT的Sn<'true>为90.1%、Sn<'false>为94.1%,受体位点的Sn<'true>为90.4%、Sn<'false>为92.4%,效果仍有待改进.该文提出了一种全新的编码方法,即利用训练集中的真剪接位点的碱基统计表减去训练集中的假剪接位点的碱基统计表,得到的这张差表作为SVM输入的编码表.在统计真剪接位点和假剪接位点时发现真剪接位点和假剪接位点在统计上有很大的差别,而这种差别是单条序列上看不出来的,利用这些统计出来的数据作图可以看出在假剪接位点两边单个氨基酸碱基的分布符合一般的统计规律,分布平整,而在真剪接位点两边碱基的分布不符合一般的统计规律,分布不规则,当统计两个相邻碱基的分布作图时发现这种差别比单个碱基更大.该文利用这种差别,进一步提出了以两个相邻碱基的统计信息编码作为SVM的输入的预报方法,即先对训练集的真假剪接位点进行统计,得到一张编码表,然后分别对训练集和测试集编码,利用训练集对测试集进行预报.实验结果表明,这种有特征的编码方式大大提高了剪接位点识别的准确率,预报给体位点GT的Sn<'true>为94.2%、Sn<'false>为95.1%,受体位点的Sn<'true>为93.6%、Sn<'false>为96.1%.
更多相关知识
- 浏览0
- 被引1
- 下载0
相似文献
- 中文期刊
- 外文期刊
- 学位论文
- 会议论文