• 医学文献
  • 知识库
  • 评价分析
  • 全部
  • 中外期刊
  • 学位
  • 会议
  • 专利
  • 成果
  • 标准
  • 法规
  • 临床诊疗知识库
  • 中医药知识库
  • 机构
  • 作者
热搜词:
换一批
论文 期刊
取消
高级检索

检索历史 清除

医学文献>>
  • 全部
  • 中外期刊
  • 学位
  • 会议
  • 专利
  • 成果
  • 标准
  • 法规
知识库 >>
  • 临床诊疗知识库
  • 中医药知识库
评价分析 >>
  • 机构
  • 作者
热搜词:
换一批

面向DNA序列数据的压缩技术研究

摘要随着高通量测序技术的发展,DNA序列数据量呈现爆炸式增长。这会带来两方面的严重问题,即数据存储和管理的成本越来越高,数据传输和数据分析消耗的时间越来越长。数据压缩技术在一定程度上能够有效地缓解数据的高速增长,然而面对日益增长的海量DNA序列数据,通用的压缩技术在压缩率以及压缩时间上都难以应付。本文利用DNA序列之间高度相似的特点,采用了有参照压缩的方式来提高数据的压缩效果。本文在参照序列索引的构建和查询方面进行了深入研究,以提高系统的压缩性能,降低系统的压缩率。<br>  本文的主要工作包括:<br>  (1)对于FASTA格式的长序列数据,本文提出一种通过取样构建哈希表的索引设计和查询方法。针对哈希表占用内存空间太大的问题,本文在构建哈希表索引时先对参照序列中的k-mer取样,然后在索引中只保存被选中的k-mer的位置,这样就能够有效的减少索引占用的内存空间;查找输入序列与参照序列的匹配部分时,需要首先查找两条序列中共同的k-mer,然后在k-mer两端进行序列比对,本文通过对查找到的k-mer位置进行过滤,来减少无效比对的次数,提高系统的压缩速度。<br>  (2)对于FASTQ格式的短序列数据,本文提出一种基于BWT-index的索引设计和查询方法。由于短序列数据在使用哈希表索引查找匹配时,难以使用到取样机制和位置过滤机制,因此本文使用了一种基于BWT-index的索引结构,这种结构经过一些处理之后也能够减小占用的内存空间;由于这种结构只适用于查找精确匹配,本文通过在输入序列上抽样选取起始查找位置来查找比对入口,并进行序列比对找出近似匹配,这种方法同样能够减少无效比对的次数,提高压缩压缩速度。对于FASTQ格式文件内的序列标识和质量分值数据,本文也简要介绍了数据的特点以及其压缩方法。<br>  (3)设计和实现了一个分布式压缩系统DNA-DCS,并对压缩率、压缩速度和压缩的吞吐率等方面进行了测试。对于FASTA格式的人类DNA序列数据,DNA-DCS的压缩率为1%左右,压缩速度为17MB/s,而Gzip的压缩率为27%,压缩速度小于4MB/s;对于FASTQ格式的数据,DNA-DCS的压缩率为14%左右,压缩速度为15MB/s,而Gzip的压缩率为29%,压缩速度为6MB/s;并且随着压缩节点数目的增多,分布式系统取得的压缩率与单机系统压缩率相当,波动低于5%,而压缩速度则随着压缩节点数目的增多呈线性增长。在压缩的吞吐率方面,单节点多数据流的压缩带宽可达200MB/s,并且压缩带宽随着压缩节点数目的增长也呈线性增长,这表明了系统具有良好的扩展能力。

更多
广告
导师 张佩珩
学位信息:
中国科学院大学 计算机科学与技术 计算机技术(硕士) 2015年
分类号 TP311.13Q811.4
发布时间 2015-12-03
  • 浏览0
  • 下载0

加载中!

相似文献

  • 中文期刊
  • 外文期刊
  • 学位论文
  • 会议论文

加载中!

加载中!

加载中!

加载中!

特别提示:本网站仅提供医学学术资源服务,不销售任何药品和器械,有关药品和器械的销售信息,请查阅其他网站。

  • 客服热线:4000-115-888 转3 (周一至周五:8:00至17:00)

  • |
  • 客服邮箱:yiyao@wanfangdata.com.cn

  • 违法和不良信息举报电话:4000-115-888,举报邮箱:problem@wanfangdata.com.cn,举报专区

官方微信
万方医学小程序
new翻译 充值 订阅 收藏 移动端

官方微信

万方医学小程序

使用
帮助
Alternate Text
调查问卷