摘要系统发育学是研究生物进化关系的一门学科,在系统发育学中,最常用于研究进化关系的方法就是系统进化树。基于多序列比对法的经典的系统进化树构建算法速度太慢,无法在大规模数据上进行运行,序列非比对法中基于k-mer的相异度算法构建系统进化树则不受这些限制影响,因而具有更广泛的应用前景。近些年来,基于k-mer的相异度算法被强调为基于系统发育推断中多重序列比对法的替代方法。基于k-mer的相异度算法属于序列非比对法中的一种,正处于快速发展的阶段,在不同的进化情景下使用基于k-mer的相异度算法系统地评估系统发育推理的准确性成为当前研究的一个热点和难点。本论文利用自己开发的软件包SeqDistK及一种比较经典的CAFE软件包实现了d2S等7种基于k-mer的相异度算法的距离矩阵,并在此基础上结合UPGMA构建系统进化树或进行聚类。基于一个已知进化关系的16SrRNA验证数据集(57条分子序列,称之为标准树),我们验证了基于k-mer的7种相异度算法构建系统进化树的准确度。与已知的真实进化关系相比较,我们发现基于k-mer的d2、d2S、d2star、Ma、Eu、Hao等多个相异度算法所得的系统进化树与标准树差异不大(Ch有一定的误差),特别是d2、d2star、d2S和Eu算法在k=5时有极其优异的性能,所得系统进化树与标准树相差无几。其中相异度算法d2S选取马尔可夫阶次为2时的算法可达到最高精准度(对称差仅有12)。本论文还利用软件包SeqDistK对63条16SrRNA序列所得的距离矩阵进行菌类聚类验证,发现所得聚类结果与生物分类学基本一致,其中d2S(k=5,M=2)的表现最为优秀,能准确的对样本序列聚类以及分类。另外我们发展的基于k-mer相异度算法的软件包SeqDistK无论是构建系统进化树还是菌类聚类具有运算速度快、精确度高的特点,适合于研究宏基因组大数据中的复杂系统发育关系的推理。使用基于k-mer相异度算法结合UPGMA研究基因组的复杂进化关系,这可能潜在地为系统进化提供新的见解,并改变我们传统的进行系统发育的研究方式,潜在地推进下一代系统发育学的发展。
更多相关知识
- 浏览0
- 被引1
- 下载0
相似文献
- 中文期刊
- 外文期刊
- 学位论文
- 会议论文