摘要本文通过将生物学特征和生物学含义引入DNA序列数据的压缩处理中,提出了基于生物信息学特征的BioLZMA压缩算法.在BioLZMA算法中,DNA序列根据组成部分生物学含义的不同切分重组为四个集合:编码序列CDS集合、内含子序列集合、RNA序列集合以及剩余序列的集合.根据各集合中序列的具体生物学特征分别使用针对性的压缩策略进行预处理,并通过LZMA算法进行压缩编码.实验结果表明,Bj012MA算法在基准测试序列上的压缩性能优于原有的DNA序列压缩方法.特别是对于生物信息学特征清晰的长序列,算法能够在较短的时间内获得较高的压缩率.
更多相关知识
- 浏览1
- 被引24
- 下载0

相似文献
- 中文期刊
- 外文期刊
- 学位论文
- 会议论文