摘要众所周知,基因转录调控在真核细胞中起着至关重要的作用。通过调节基因的表达,丰富多彩的生物学功能得以实现。转录调控功能的实现,主要依赖于转录因子(TranscriptionFactors,TFs)和转录因子结合位点(TranscriptionFactorBindingSites,TFBSs)之间的相互作用。通常,同一转录因子有多个结合位点,它们合在一起构成转录因子结合模体(TranscriptionFactorBindingMotifs,TFBMs)。转录因子结合位点定位和转录因子结合模体搜索对研究真核细胞基因转录调控具有重要意义。由于转录因子结合模体信号比较微弱,基因组DNA序列较长,现有转录因子结合模体搜索和转录因子结合位点定位方法存在一定的局限性,如关联序列集难以确定、假阳性率非常高,等等。 另一方面,国际著名转录因子数据库TRANSFAC和转录因子结合位点特异性序列谱数据库JASPAR中已经收集了一些具有实验证据和文献报道的转录因子结合模体和结合位点数据。转录因子结合模体通常以各位点四种不同核苷酸碱基数或其百分比表示,即转录因子结合模体核苷酸片段位点特异性序列谱(TFBSprofile),简称模体序列谱或位点特异性序列谱。本博士论文从TRANSFAC和JASPAR数据库搜集的已知模体序列谱出发,搜索拟南芥(Arabidopsisthaliana)全基因组转录因子结合模体,并对相应的转录因子结合位点定位。 本论文所采用的方法可分以下三个主要步骤:1.从TRANSFAC和JASPAR中挑选342个转录因子结合模体序列谱,构建权重矩阵(PositionSpecificWeightMatrix,PSWM),并以此扫描拟南芥基因组25469个基因上游区,记录所有分值大于阈值的高分匹配(hits),根据双重匹配(doublehits)原则,选取能够和两个独立结合模体序列谱均有匹配的序列,作为关联数据集,共得到4925个具有双重匹配的候选关联序列集。 2.选择7个关联序列集,用自行开发的相似性算法对每个序列集进行模体搜索,更新已知转录因子结合模体序列谱,寻找新的转录因子结合模体序列谱,并在上述序列集上对相应结合位点进行定位。 3.对所得结合模体序列谱进行统计学和比较基因组学验证。比较基因组学的验证主要采用上述拟南芥转录因子结合模体序列谱扫描水稻同源基因上游序列,以寻找同源证据。 本博士论文所提出的转录因子结合模体搜索方法基于基因组合调控(combinatorialcontrol)和统计显著性(statisticalsignificance),可和系统发育印迹法(phylogeneticfootprinting)和芯片数据分析结果进行比较并相互验证。本文首次使用权重矩阵扫描的方法来确定关联数据集,并将相似性搜索算法用于转录因子结合模体搜索,更新并扩充了已知转录因子结合模体序列谱,所开发的方法可用于进一步对拟南芥基因组所有转录因子结合模体特征进行搜索,也可用于其它物种基因组。 作者在攻读博士学位期间的其它研究工作包括:内含子起源研究、RNA动态二级结构探索、酵母基因内含子转录调控功能探索,大规模基因组序列拼接理论模型。
更多相关知识
- 浏览0
- 被引0
- 下载0
相似文献
- 中文期刊
- 外文期刊
- 学位论文
- 会议论文