摘要绿色植物的叶绿体作为半自主细胞器,具有相对独立的遗传信息,即叶绿体基因组。叶绿体基因组是重要的研究对象,在进化生物学、基因组学等领域得到了广泛的应用。尽管已有大量的叶绿体基因组序列数据及相关工具,但在数据的获取及利用方面仍存在不足之处,部分结论存在争议。本论文以种子植物叶绿体基因组作为研究对象,在方法学领域进行创新,旨在探究叶绿体基因组的结构与序列的变异规律及其对系统发育分析的影响,并为相关研究提供工具。主要研究结果如下:<br> 1.叶绿体基因组分析方法学研究<br> 本研究开发了叶绿体基因组组装及序列结构标准化工具NOVOWrap,叶绿体基因组注释工具Pyplann,以及序列获取、整理及评估的综合性工具BarcodeFinder。NOVOWrap的组装模块基于NOVOPlasty进行改进,同时开发及采用了新的用于组装的种子序列,以及提供用于不同种子序列组装结果合并的功能,提高了组装成功率,并显著降低组装过程对软硬件的需求,极大提升了使用的便捷性。该软件的验证模块实现了基于序列的拓扑结构的Rotate算法,可对叶绿体基因组序列进行标准化处理,调整序列整体或部分的方向及起始,同时可自动选择适合的参考序列.并根据参考序列与组装序列的共线性分析结果验证组装结果是否可靠,最终在极少的用户干预下提供可靠的组装结果。Pyplann基于Plann及GeSeq等软件,可大批量、自动化地注释叶绿体基因组序列,并对注释结果进行严格校验。BarcodeFinder软件的GB2fasta模块可帮助用户更加轻松及准确地检索及获取NCBI GenBank及NCBI Taxonomy等公共数据库的数据,并进行有效性检验,同时根据注释信息对原始数据进行拆分、标准化命名及格式转换,为构建数据集或本地数据库提供极大便利。另外,GB2fasta模块提供了提取基因间隔区的功能,可推动对于细胞器基因组非编码区数据的利用。该软件的Evaluate模块提出、改进并实现了多种序列变异程度的评估方法,包括核苷酸多态性、香农信息熵、表观分辨率、系统发育树分辨率、系统发育多样性等,同时提供了对于比对序列中空位及兼并碱基的不同处理方式,提高了各评估方法对输入数据的兼容性。此外,BarcodeFinder还提供了Primer模块,可对多序列比对输入自动设计及筛选除符合长度、扩增效率及分辨率等各项要求的通用引物。<br> 使用NOVOWrap及Pyplann,本研究成功组装及注释了182个种子植物不同类群的完整叶绿体基因组,获得了标准化的序列结构及注释信息。对NCBI RefSeq数据库中5,224条叶绿体基因组序列进行评估,发现部分序列结构及注释存在异常,包括单拷贝区方向及序列起始不一致以及基因名称注释不规范等问题。进行规范化处理及整合后,本研究最终共获得5,406条完整的叶绿体基因组序列用于后期分析,包括5,351个物种,覆盖了2,032个属、303科、68目。除少数四分体结构缺失的序列之外,所有其他序列都统一结构为大单拷贝区起始处起始,并进行序列注释信息规范化处理。<br> 2.种子植物叶绿体基因组结构及序列变异分析<br> 使用boundary.py等程序对种子植物叶绿体基因组结构进行分析,本研究发现,除少部分物种外,大部分种子植物大单拷贝区域的长度变化不显著,而小单拷贝区及反向重复区间的基因迁移导致这两个区域长度变化相对更频繁。除了以往报道的ycf1及ndhF以外,rps19、ycP及rpl2等基因在多个类群被发现位于单拷贝区及反向重复区边界,发坐了迁移。进一步分析发现,各个基因发生迁移事件在类群中的分布存在较大差异。对于基因丢失与类群的关联分析发现,Brassicales(十字花目)的Brassicaceae(十字花科)的97个属中多个转运RNA为特有,psbG基因仅在110个属中存在;位于大单拷贝区的infA和trnG_GCC基因在三分之一的属中丢失,位于SSC区的trnL_UAG、rpl32、rps15、ccsA在五分之一的属中丢失,位于IR区的trn1_GAU、trnR_ACG在近六分之一的属中丢失。<br> 通过使用BarcodeFinder分析不同类型的叶绿体基因组片段序列,本研究评估了蛋白编码基因、RNA基因以及基因间隔区的序列变异程度及差异。整体而言,不同类型片段的插入,缺失变异数量差异较大,并对比对长度有较大影响,但其对于片段整体的比对质量没有显著影响;转运RNA发生了较多的丢失事件,而其他类型的片段相对稳定;不同类型片段间的GC含量及序列变异程度具有显著差异,而长度是片段变异程度的重要影响因素。对于基因间隔区,相对于蛋白编码基因序列,部分基因间隔区的同源性较差,并由于基因组结构变异发生了较多的丢失事件,但同时仍有大量基因间隔区相对稳定,甚至保守程度高于蛋白编码基因。<br> 3.基于叶绿体基因组的种子植物系统发育分析<br> 本研究分别使用种子植物叶绿体基因组的蛋白编码基因外显子区域、内含子区域,转运RNA、核糖体RNA以及基因间隔区数据,成功构建了系统发育树。除个别样品外,绝大多数样品在蛋白编码基因及基因间隔区数据的结果中单系性良好。转运RNA及核糖体RNA数据的结果存在较多位置异常及枝长异常的样品,且分辨率支持率相对较低,但大多数类群在目及科水平具有较高的解析程度。蛋白编码基因的外显子及内含子数据均得到了分辨率高、支持度高的结果,其中被子植物系统发育关系与APGIV基本一致,裸子植物系统发育关系与前人结果一致,但内含子数据结果存在差异。基因间隔区序列的结果与蛋白编码基因序列结果类似,绝大部分被子植物类群与APGⅣ一致,且分辨率及支持率均较高。蔷薇类COM分支、唇形类分支以及核心真双子叶植物分支基部在本研究的结果中位置仍然存在冲突;超菊类分支Santalaes(檀香目)在最基部、Berberidopsidales(红珊藤目)次之的结果在各个数据集中得到了一致的高支持。对于不同类型的叶绿体基因组数据、尤其是非编码区数据的提取与利用,为种子植物系统发育研究提供了新的思路,有助于更加全面的认识叶绿体基因组的进化历程及规律。
更多相关知识
- 浏览0
- 被引0
- 下载0
相似文献
- 中文期刊
- 外文期刊
- 学位论文
- 会议论文