摘要在现代计算生物学中,把无数DNA短序列片段比对到大的参考基因组上是一个巨大的挑战。通常使用软件的方法需要花费数十小时甚至数天的时间才能比对到参考基因组上。然而,随着可编程硬件的发展进步,例如FPGA,FPGA为解决效率这个问题提供了经济有效的解决方案。FPGA包含了无数个可编程程逻辑门用来设计大规模的并行加速器。大部分序列分析的瓶颈是短序列比对。在这个阶段,DNA短的片段由下一代测序平台产生,称为reads,然后比对到已知的参考基因组上。由于DNA样本和参考基因组之间的碱基调用和遗传多样性的不正确,因此近似的比对必须被考虑到。非精确匹配都是通过允许reads错配,插入和删除来实现的,通常允许配错的个数设置为两个。<br> 本文详细阐述了基于哈希表的短序列比对算法ELAND、MAQ、SOAP以及基于BWT的短序列比对算法Bowtie,BWA,SOAP2,对它们的算法原理以及具体实现步骤进行了详细的解释。和大多数比对软件类似,Bowtie,BWA,SOAP2操作分为两步:第一步是对参考基因组序列进行BWT变换,在第二步中,使用FM-index方法进行精确匹配。由于这种方法只对参考基因组进行部分搜索,所以对于精确匹配效率非常高。然而对于非精确匹配,我们需要使用开销比较大的回溯方法来查找。<br> 随着FM-index在该领域的突破,BWT转换和后缀数组协同合作的数据结构,允许FM-index算法能够快速实现精确匹配和非精确匹配,和传统的比对方法相比,FM-index另一个优点就是空间利用率也很高。在该论文中,为了减少序列比对所花的时间,提出了基于FPGA的硬件加速器架构来实现FM-index精确比对算法。与此同时,通过在FPGA上并行化加速器,可以同时比对更多的DNA短序列。此外,我们还使用数据编码方案来减少数据的存储。<br> 最后通过Qurtus和Modelsim的联合仿真,证明本加速器可以得到正确的结果,并且相比较软件比对,在算法时间和空间性能都有大幅度提升。除此之外,通过比较不同长度的参考基因组,寻找出FM-index的吞吐量的最大值。
更多相关知识
- 浏览0
- 被引0
- 下载0
相似文献
- 中文期刊
- 外文期刊
- 学位论文
- 会议论文