利用中华蜜蜂工蜂幼虫肠道转录组纳米孔长读段数据完善东方蜜蜂参考基因组序列和功能注释
Improvement of the sequences and functional annotations of the Apis cerana reference genome with the nanopore long-read data of the gut transcriptome of larval A.cerana cerana workers
摘要[目的]将已获得的中华蜜蜂Apis cerana cerana转录组纳米孔长读段数据比对到东方蜜蜂A.cerana参考基因组,进行注释基因的结构优化,鉴定未注释的新基因和新转录本并进行功能注释以及预测其SSR位点、完整ORF和转录因子(transcription factor,TF)家族及成员的分析验证,完善现有的东方蜜蜂参考基因组序列和功能注释.[方法]基于已获得的高质量的接种蜜蜂球囊菌Ascosphaera apis的中华蜜蜂工蜂4,5和6日龄幼虫肠道转录组纳米孔测序数据,使用gffcompare软件将已鉴定到的全长转录本比对到东方蜜蜂参考基因组以优化已注释基因的结构;采用gffcompare软件鉴定参考基因组上未注释的新基因和新转录本,再通过比对Nr,KOG,eggNOG,GO和KEGG数据库进行功能注释;使用MISA,TransDecoder v3.0.0和animalTFDB 2.0软件分别预测SSR位点、完整ORF和TF家族及成员.[结果]共对东方蜜蜂参考基因组上已注释的4 648个基因结构进行了优化,对1 336个基因同时延长了 5'UTR和3'UTR,分别延长了 1 688个基因的5'UTR和1 624个基因的3'UTR;共鉴定到2 148个新基因,其中分别有818,298,587,359和333个新基因可注释到Nr,KOG,eggNOG,GO和KEGG数据库;共鉴定到35 432条新转录本,其中分别有30 974,21 222,29 025,19 852和9 214条新转录本可注释到上述5个数据库;共发掘出22 541个SSR位点,其中单、双、三和六碱基重复的SSR数量分别为12 078,7 140,2 825和43个,混合SSR的数量为2 964个,分布频率最高的类型是单碱基重复(153.37个/Mb);共预测到58个TF家族及1 611个成员;共预测出28 775个完整ORF,其中编码长度分布在100~200个氨基酸的ORF(38.99%)最多.[结论]研究结果优化了东方蜜蜂参考基因组上已注释基因的结构,并补充了参考基因组上未注释的新基因、新转录本、SSR、完整ORF及TF.
更多相关知识
- 浏览10
- 被引2
- 下载2

相似文献
- 中文期刊
- 外文期刊
- 学位论文
- 会议论文


换一批



