摘要自人类基因组计划(HGP)开展以来,人们已经获取了大量的DNA、RNA及蛋白质序列的数据.有人说,基于序列的生物学时代已经到来,尽管对"序列生物学"这一提法可能有所争议,但是今日像潮水般涌现的序列信息却是无可争辩的事实.截至目前,登录在GeneBank数据库中的DNA序列总量已经超过73亿碱基.生物学数据的积累并不仅仅表现在DNA序列方面,与其同步的还有蛋白质一级结构,即氨基酸序列的增长.目前已有18个生物体的完整基因组被破译,已有8900多种蛋白质和其他生物分子的空间结构被阐明,这些都构成了生物信息的重要组成部分.数据并不等于信息和知识,但却是信息利知识的源泉,关键在于如何从中挖掘它们.与正在以指数方式增长的生物学数据相比,人类相关知识的增长(粗略地用每年发表的生物、医学论文数来代表)却十分缓慢.一方面是巨量的数据;另一方面是我们在医学、药物、农业和环保等方面对新知识的渴求,这些新知识将帮助人们改善其生存环境和提高生活质量.这就构成了一个极大的矛盾.这个矛盾就催生了一门新兴的交叉科学,这就是生物信息学.生物信息学是一门新兴的边缘交叉学科,是近年来国际上的研究热点.生物信息学是利用信息技术来理解生物问题的一种手段,是探索生命奥妙,扩展生物医学行为数据使用的一种方法,是通过计算方法将生物信息转化为知识的工具.它是一门利用信息来理解生命活动的科学,它综合利用了生物学、计算机科学与技术、数学等学科的优势,借以探索现有的海量生物学数据中蕴含的生物学意义.人们获得各种核酸和蛋白质序列的目的是了解这个序列在生物体中充当了怎样的角色.该文的工作主要分为针对核酸序列的预测和针对氨基酸序列的预测两部分.剪切点和启动区域的预测主要是基于基因序列的预测.GPCRs超家族的识别和蛋白质二级结构含量的分类预测则以氨基酸序列作为研究的数据来源.G蛋白偶联受体(G Protein Coupled Receptors,GPCRs)是体内最大的蛋白质超家族,许多疾病与之密切相关,GPCRs因此成为药物治疗的重要靶标.然而,大多数GPCRs三级结构仍然是未知的.随着人类基因组以及其它种类生物基因组的开展,大量的GPCRs的一级结构信息即氨基酸序列的数据已经获得.在缺乏实验数据的情况下,通常可以利用计算方法对新发现的受体进行识别,给出它们可能隶属的类别,从而发现其潜在的功能.比如:如果发现一个新的受体序列与现有的某蛋白质家族有很大的相似性,我们就可以在一定程度上推测该受体可能具有该类蛋白质家族的一些特征和功能.针对这个问题,该文采用了一种隐马尔可夫模型的方法,利用GPCRs一级结构信息和数据自身特性,在GPCRs超家族层次各类别之间进行识别,具体考虑了ACDE与B类超家族,以及BCDE与A类超家族的分辨,取得了不错的效果,类之间的识别准确率可以达到100%.研究过程中,我们考虑了生物统计过程中常见的不等长变量问题.通过与常规的等变量截取效果的对比,我们也证明了HMM用于不等长的同源蛋白序列分类的预测是非常合适的.除了对GPCRS超家族的分类研究之外,我们还尝试将HMM用于真核生物的剪切点和初始转录位点(TSS)的识别.用HMM对真实剪接位点和虚假剪接位点进行识别,识别率均可达90%以上.采用HMM从方法的角度直接识别启动子,准确率在75%左右.HMM在计算机上的实现是一个比较成熟的问题,为此我们专门采用VB.NET开发了一个针对我们序列研究的HMM软件,在计算迭代过程中,考虑了有些数据的特殊性,使得程序较其他类似的HMM软件有较好的表现和计算速度.
更多相关知识
- 浏览0
- 被引0
- 下载0
相似文献
- 中文期刊
- 外文期刊
- 学位论文
- 会议论文