摘要本博士论文包括两部分。第一部分介绍一种自行开发的原核生物转录因子预测新方法。第二部分主要介绍本院有关实验室产生的拟南芥、水稻和棉花DNA和蛋白质序列数据分析。 转录因子是基因转录调控过程中起重要作用的生物大分子。开发快速有效的转录因子识别方法,从基因组序列中预测某个物种全部转录因子,对研究基因转录调控具有重要意义。本文第一部分介绍一种原核生物转录因子预测新方法,即转录调控因子预测(Transcriptionregulatorpredictor,简称TReP)。该方法主要基于减法策略,可自动实现。首先,利用蛋白质家族数据库Pfam和结构相关数据库SUPERFAMILY,构建DNA结合结构域隐马氏模型集合(DNAbindingdomainhiddenMarkovmodels,简称DBDHMMs),预测潜在的DNA结合结构域。然后,利用Pfam数据库构建用于判定假阳性结果的隐马氏模型集合(falsepositiveHMMs,简称FPHMMs)。利用上述两个隐马氏模型数据集,预测原核生物基因组全部转录因子,其结果为DBDHMMs集合与FPHMMs集合之差。对已经具有较好注释的大肠杆菌和枯草杆菌基因组的测试表明,TReP具有与经过手工校准的预测结果相近的结果,明显好于利用BLAST搜索所得结果。对蓝细菌中鱼腥藻(Anabeanasp.PCC7120)基因组预测结果表明,该基因组中含420个转录因子,占全部基因数的6.85%。可通过trep.cbi.pku.edu.cn进行转录因子预测和数据和程序下载。 本文第二部分包括三方面工作:(1)拟南芥基因组AP2/EREBP转录因子家族分析;(2)水稻组氨酸转运蛋白序列分析;(3)棉花纤维基因相关数据库构建和数据分析。 AP2/EREBP转录因子家族是高等植物中重要基因家族。根据拟南芥基因组计划公布的数据,结合国家自然科学基金委员会“拟南芥全部转录因子的蛋白组研究”项目提供的cDNA克隆信息,对拟南芥AP2/EREBP转录因子家族进行了系统发育、序列分析和基因芯片分析等方面研究,确定了该家族有147个成员,并对它们进行了分类。cDNA和寡核苷酸芯片数据分析表明,不同AP2/EREBP家族成员在不同组织和不同胁迫处理后具有不同表达特性。 氨基酸转运蛋白是代谢过程中一类重要蛋白质分子。本院朱玉贤教授实验室首先在水稻中克隆到一个组氨酸转运蛋白(Oryzasativahistidinetransporter,OsHT)。利用网上和本地生物信息学工具,对OsHT蛋白质序列进行了穿膜螺旋预测、数据库搜索、多序列比对、系统发育树构建等一系列分析。结果表明,OsHT属于赖氨酸/组氨酸转运家族,推测其具有赖氨酸转运活性,为进一步生物学实验提供了有用信息。 棉花纤维相关基因大规模数据分析,有助于研究棉花纤维生长机制。利用本院朱玉贤教授实验室测得的差异表达cDNA序列,构建了棉花纤维cDNA数据库,存储了差异表达cDNA数据和相关实验结果。利用朱玉贤教授实验室测得的约30000条EST序列,整合国际上公开发表的棉花EST数据,构建了棉花纤维EST数据库CottonUniEST。该数据库包括EST拼接信息及UniEST相关注释信息。
更多相关知识
- 浏览948
- 被引0
- 下载0
相似文献
- 中文期刊
- 外文期刊
- 学位论文
- 会议论文