摘要近年来,基因组序列信息高速增加,为我们提供了进行大批量的进化分析的原始材料。生物信息学的主要研究对象集中在核酸和蛋白质的分子序列上。作为生物信息学的主要研究方向之一,建立各种快速的序列分析软件或方法具有重要的意义。 然而现在还没有以基于全基因组遗传信息进行进化分析的Windows应用软件,现有的多重序列比对分析工具在面对数量大,平均长度长的多重序列时显得无能为力,因此有必要发展一种新的快速的基于全基因组信息,同时又可以避开使用序列联配的Windows软件。本文介绍PMG软件的创建及Z曲线数据库的建立。 PMG为PhylogenybasedonMulti-Genes的缩写。该软件是我们运用MicrosoftVisualC++6.0中的MFC,主要基于组分矢量法创建的一个Windows绿色软件。它首先将要分析的全基因组或蛋白质家族的编码序列用组分矢量法产生一个物种之间的距离矩阵,然后用Bionj、PHYLIP软件包中的邻接法、Fitch法或Kitsch法四种建树方法中的一种基于此距离矩阵重建进化树,最后软件调用本地的进化树显示软件或通过网络调用ATV显示进化树。在开发过程中,系统整合许多已有的比较成熟的源代码和软件资源(包括PHYLIP,ATV等),节省了人力、物力和时间。还用PHP开发一个小工具,能从NCBI上的一个物种基因组文件中分离全基因组编码序列,保存在一个Fasta格式的文件中。 利用PMG,以29种杆状病毒的全基因组为对象,重建了系统发育树(K串值设为5时约需16分钟,而设为3时只须16秒钟)。另外,以34种真核生物的线粒体全基因组为对象,重建了34种真核生物的系统发育树(K串值设为5时约需21分钟)。两者的分析结果和以前采用传统方法所获得的结果具有高度的一致性。这些结果显示,在基于全基因组或蛋白质家族编码序列的遗传信息进行进化分析时,对比传统的,必须进行基因选择和参数选择系统发育树重建过程,本文开发的软件能明显体现出高速度和有相对高的精确度优势。本软件操作简单,不需要很高的技巧。用户可以通过网址http://life.zsu.edu.cn/pmg下载本文的软件,测试数据及阅读软件的详细的使用说明。 Z曲线是一种基于DNA序列的对称性理论,用计算几何学、微分几何学和计算机图形学技术的方法显示和分析蛋白质编码区DNA序列的理论与方法。通过计算不同物种基因组蛋白质编码区DNA序列的Z曲线之间的平均斜率差异,同样可以产生一个物种之间的距离矩阵,然后用Bionj、PHYLIP软件包中的邻接法、Fitch法或Kitsch法四种建树方法中的一种基于此距离矩阵重建进化树。不过由于时间不够,本研究尚未完成此软件的编写,只是基于Z曲线理论,构建了苏云金杆菌δ内毒素的Z曲线图形数据库和28个杆状病毒全基因组及其编码区的Z曲线图形数据库以供后续研究之用。
更多相关知识
- 浏览0
- 被引1
- 下载0
相似文献
- 中文期刊
- 外文期刊
- 学位论文
- 会议论文