长片段读段barcode聚类算法研究以及在基因组组装的应用-论文-万方医学网

长片段读段barcode聚类算法研究以及在基因组组装的应用

导出原文传递学术成果认领

收藏纠错

摘要二代测序技术的不断界发展与成熟，使得基因测序能够在学术、产业界得到广泛的应用。然而在基因组从头组装领域，二代测序技术固有的读长短的特点使得它在组装一些复杂基因组时困难重重。最近，一种长片段读段测序建库技术(long fragment read，LFR)得到快速发展，其中包括华大基因(BGI)的stLFR技术、10X Genomics公司的Chromium reads技术以及Illumina公司的TruSeq synthetic long-reads技术。这些技术把来自同一个长片段的测序序列(reads)标记上相同的条形码(barcode)，并通过这些barcode信息（或长范围信息）协助杂合位点分型以及基因组组装问题。<br>　　直至目前，在BGI stLFR数据以及10X Genomics Chromium reads数据中，长片段只能被reads稀疏地覆盖。这种长范围信息的稀疏性和不完全性使得它在协助基因组组装中存在一定的局限性。因此，可以实现对长片段区域的reads的富集就显得尤为重要，它能够增强LFR技术的长范围信息，为下游的基因组组装提供帮助。<br>　　本文提出了一个基于LFR数据的barcode聚类以及reads数据富集的算法，IterCluster。该算法不依赖比对、不依赖参考基因组就能够把有重叠关系(overlap)的barcode聚集在一起，并从每一个barcode聚类中提取属于聚类中心区域的reads。IterCluster从随机选择种子barcode出发，利用unique k-mer作为聚类的特征值，利用k-mer频率差异性选择模型去控制聚类的假阳性，利用马尔科夫聚类模型确保每个聚类只代表基因组中的一个区域，并且利用迭代聚类的模式确保每个种子区域的捕获量。通过IterCluster，我们能够把全基因组的reads分割成很多个子部分，高重复的基因组在各个子部分中将以简单的形式呈现。对每个子部分进行独立组装，能够显著降低因为重复序列而引起的组装复杂性，实现分组组装策略。<br>　　本文用两个人类基因组真实的数据集，BGI stLFR数据以及10X Genomics Chromium reads数据，去评估IterCluster的效果。我们发现，IterCluster能够为BGI stLFR数据barcode聚类问题提供很好的解决方案，并且IterCluster在BGI stLFR数据中较10X Genomics Chromium reads数据有更高的精确率与召回率。同时，我们通过IterCluster在BGI stLFR人类基因组数据上面实现了分组组装策略。我们发现IterCluster支持下的分组组装策略能够使contig N50和scaffold N50分别有67.4％和30.0％的提升。<br>　　综上所述，本文的研究介绍了一个基于LFR数据的barcode聚类与reads富集算法，该算法在BGI stLFR数据中具有高精确率与高召回率的特点。通过该算法能够简化因为重复序列导致基因组从头组装复杂度，为复杂基因组从头组装提供协助。