摘要本论文主要用生物信息学的方法对部分ssDNA病毒和杆状病毒做一些有意义的探索。本论文主要有两部分组成:第一部分是"ssDNA病毒数据库系统的建立和直系同源簇数据库COGs的建立”,第二部分是"28株杆状病毒的系统发育分析”。 第一部分"ssDNA病毒数据库系统的建立和直系同源簇数据库COGs的建立”。主要探讨生物信息数据平台的开发和病毒蛋白直系同源簇COGs数据库的设计开发问题。本研究利用现有的计算机硬件条件,采用生物信息学中最常用的Linux操作系统,结合高效免费的MySQL数据库数据库系统和Perl等编程工具,开发了一个新的数据库系统平台。该数据库系统主要着眼于ssDNA病毒的基因组数据。利用该系统,本研究建立了3个科病毒数据库及其COGs数据库:丝状噬菌体科(Inoviridae,FilamentousBacteriophages),圆环病毒科(Circoviridae),小DNA病毒科(Parvoviridae细小DNA病毒科)Polyomaviridae)。在此基础上,本研究开发了针对上述数据库系统的WEB查询、检索界面,为用户提供查询检索服务。直系同源基因的识别在蛋白质功能预测和系统发育分析上有着重要的作用。因此蛋白质直系同源簇(COGs)数据库系统的构建是生物信息学中一项十分有意义的工作。基于上述数据库系统,本研究进一步设计开发了一个针对单科病毒的蛋白质直系同源COGs数据库系统。根据COGs数据库建立的一般原理,本研究设计了一种新的算法策略,并结合BLASTP程序和Perl编写的程序为开发工具。利用该系统,本研究建立了上述3个科病毒的COGs数据库,同时开发了相应的COGs检索WEB页面。为用户提供检索分析服务。 第二部分主要是首次采用了一种系统发育方法——基于K串的组分矢量方法对28株杆状病毒全基因组进行分析。它是由卫海滨,戚继,郝柏林2004年发展的一种基于全基因组序列的推断系统发育的方法。基于全基因组发展起来的组分距离方法的优点之一是把一个物种的全部蛋白质集中在一起进行分析,减少了由于横向传递以及进化速率不一致所带来的影响。此法的另一个优点是不做序列联配,而从全蛋白质出发,不对基因做任何选择或改变。方法的实质是从字符串的使用频度出发,得到组分矢量,再扣除随机背景得到距离矩阵,进而聚类和构建进化树。从而有效的避免了联配方法中的缺点。分类结果与以前采用传统的分子进化分析方法的结果具有高度的一致性。典型的Ⅰ类核多角体病毒AcMNPV,BmNPV,OpMNPV都很好的聚到Ⅰ类核多角体病毒所在的位置,HearNPV,SeMNPV,LdMNPV都落在Ⅱ类核多角体区,各种颗粒体病毒也是聚在同一个区域,分类位置未明确的CuniNPV仍然是位于核多角体病毒和颗粒体病毒之间。2005年九月NCBI公布的TniSNPV被认为是属于groupⅡNPVs,本研究也证实了这一点。
更多相关知识
- 浏览0
- 被引0
- 下载0
相似文献
- 中文期刊
- 外文期刊
- 学位论文
- 会议论文