摘要随着高通量测序技术的发展,DNA序列数据量呈现爆炸式增长。这会带来两方面的严重问题,即数据存储和管理的成本越来越高,数据传输和数据分析消耗的时间越来越长。数据压缩技术在一定程度上能够有效地缓解数据的高速增长,然而面对日益增长的海量DNA序列数据,通用的压缩技术在压缩率以及压缩时间上都难以应付。本文利用DNA序列之间高度相似的特点,采用了有参照压缩的方式来提高数据的压缩效果。本文在参照序列索引的构建和查询方面进行了深入研究,以提高系统的压缩性能,降低系统的压缩率。<br> 本文的主要工作包括:<br> (1)对于FASTA格式的长序列数据,本文提出一种通过取样构建哈希表的索引设计和查询方法。针对哈希表占用内存空间太大的问题,本文在构建哈希表索引时先对参照序列中的k-mer取样,然后在索引中只保存被选中的k-mer的位置,这样就能够有效的减少索引占用的内存空间;查找输入序列与参照序列的匹配部分时,需要首先查找两条序列中共同的k-mer,然后在k-mer两端进行序列比对,本文通过对查找到的k-mer位置进行过滤,来减少无效比对的次数,提高系统的压缩速度。<br> (2)对于FASTQ格式的短序列数据,本文提出一种基于BWT-index的索引设计和查询方法。由于短序列数据在使用哈希表索引查找匹配时,难以使用到取样机制和位置过滤机制,因此本文使用了一种基于BWT-index的索引结构,这种结构经过一些处理之后也能够减小占用的内存空间;由于这种结构只适用于查找精确匹配,本文通过在输入序列上抽样选取起始查找位置来查找比对入口,并进行序列比对找出近似匹配,这种方法同样能够减少无效比对的次数,提高压缩压缩速度。对于FASTQ格式文件内的序列标识和质量分值数据,本文也简要介绍了数据的特点以及其压缩方法。<br> (3)设计和实现了一个分布式压缩系统DNA-DCS,并对压缩率、压缩速度和压缩的吞吐率等方面进行了测试。对于FASTA格式的人类DNA序列数据,DNA-DCS的压缩率为1%左右,压缩速度为17MB/s,而Gzip的压缩率为27%,压缩速度小于4MB/s;对于FASTQ格式的数据,DNA-DCS的压缩率为14%左右,压缩速度为15MB/s,而Gzip的压缩率为29%,压缩速度为6MB/s;并且随着压缩节点数目的增多,分布式系统取得的压缩率与单机系统压缩率相当,波动低于5%,而压缩速度则随着压缩节点数目的增多呈线性增长。在压缩的吞吐率方面,单节点多数据流的压缩带宽可达200MB/s,并且压缩带宽随着压缩节点数目的增长也呈线性增长,这表明了系统具有良好的扩展能力。
更多相关知识
- 浏览0
- 被引2
- 下载0
相似文献
- 中文期刊
- 外文期刊
- 学位论文
- 会议论文