DNA序列数据压缩算法研究-论文-万方医学网

DNA序列数据压缩算法研究

二维码有效期 120s

收藏纠错

摘要自20世纪末以来,生物测序技术不断的发展,随之产生的各类生物数据,迅速形成了庞大的生物信息数据库。如何有效的分析,管理这些海量的数据,是生物学家和计算机专家们必须着力解决的棘手问题。数据压缩技术是解决这一问题的有效方法。DNA序列数据是一类极其重要的生物数据,具有不同于其他待压缩数据的特征,采用现有的各种通用数据压缩算法,通常不能有效的压缩。因此,研究专门针对DNA序列数据的压缩算法有着重要意义。<br>　　 DNA序列数据的压缩是一项艰巨的任务,很多学者一直致力于这方面的研究,并提出了一些经典算法。其中,压缩效果较好的算法有CTW+LZ,DNACompress,DNAPack。这些算法的共同特点是基于近似匹配压缩的思想,搜索并压缩DNA序列中大量存在的因少数字符的替换、插入或删除而形成的近似匹配片段。然而,搜索近似匹配的时间和空间代价很大,压缩率的提升却不是很显著。鉴于此,本文研究DNA序列中亦大量存在的精确匹配片段(包括互补回文形式)的压缩,设计并实现一种专门压缩DNA序列的算法,称为DNACE(DNACompressionbasedonlyonExactmatching),探索精确匹配压缩所能实现的最大压缩率。<br>　　本文的主要工作:首先,系统的研究现有的多种通用无损压缩算法及各种DNA序列数据压缩算法,分析它们的优缺点以及可以改进的地方;其次,深入的研究DNA序列数据的特点,为更好的设计改进算法提供理论基础;接着,完成DNACE算法的总体设计,算法结合两种字典压缩思想LZ77和LZ78,动态搜索序列的精确匹配并压缩,对于剩余的不匹配片段则采用基于PPM概率预测模型的算术编码进行压缩;最后,实现并测试算法,完成压缩性能评估。实验表明,DNACE算法实现简单,运行快速,压缩效果达到了常用DNA序列数据压缩算法的水平,为生物信息学的研究提供了基础。