面向DNA序列数据的压缩技术研究-论文-万方医学网

面向DNA序列数据的压缩技术研究

导出原文传递学术成果认领

收藏纠错

摘要随着高通量测序技术的发展，DNA序列数据量呈现爆炸式增长。这会带来两方面的严重问题，即数据存储和管理的成本越来越高，数据传输和数据分析消耗的时间越来越长。数据压缩技术在一定程度上能够有效地缓解数据的高速增长，然而面对日益增长的海量DNA序列数据，通用的压缩技术在压缩率以及压缩时间上都难以应付。本文利用DNA序列之间高度相似的特点，采用了有参照压缩的方式来提高数据的压缩效果。本文在参照序列索引的构建和查询方面进行了深入研究，以提高系统的压缩性能，降低系统的压缩率。<br>　　本文的主要工作包括:<br>　　(1)对于FASTA格式的长序列数据，本文提出一种通过取样构建哈希表的索引设计和查询方法。针对哈希表占用内存空间太大的问题，本文在构建哈希表索引时先对参照序列中的k-mer取样，然后在索引中只保存被选中的k-mer的位置，这样就能够有效的减少索引占用的内存空间;查找输入序列与参照序列的匹配部分时，需要首先查找两条序列中共同的k-mer，然后在k-mer两端进行序列比对，本文通过对查找到的k-mer位置进行过滤，来减少无效比对的次数，提高系统的压缩速度。<br>　　(2)对于FASTQ格式的短序列数据，本文提出一种基于BWT-index的索引设计和查询方法。由于短序列数据在使用哈希表索引查找匹配时，难以使用到取样机制和位置过滤机制，因此本文使用了一种基于BWT-index的索引结构，这种结构经过一些处理之后也能够减小占用的内存空间;由于这种结构只适用于查找精确匹配，本文通过在输入序列上抽样选取起始查找位置来查找比对入口，并进行序列比对找出近似匹配，这种方法同样能够减少无效比对的次数，提高压缩压缩速度。对于FASTQ格式文件内的序列标识和质量分值数据，本文也简要介绍了数据的特点以及其压缩方法。<br>　　(3)设计和实现了一个分布式压缩系统DNA-DCS，并对压缩率、压缩速度和压缩的吞吐率等方面进行了测试。对于FASTA格式的人类DNA序列数据，DNA-DCS的压缩率为1％左右，压缩速度为17MB/s，而Gzip的压缩率为27％，压缩速度小于4MB/s;对于FASTQ格式的数据，DNA-DCS的压缩率为14％左右，压缩速度为15MB/s，而Gzip的压缩率为29％，压缩速度为6MB/s;并且随着压缩节点数目的增多，分布式系统取得的压缩率与单机系统压缩率相当，波动低于5％，而压缩速度则随着压缩节点数目的增多呈线性增长。在压缩的吞吐率方面，单节点多数据流的压缩带宽可达200MB/s，并且压缩带宽随着压缩节点数目的增长也呈线性增长，这表明了系统具有良好的扩展能力。