绵羊组学数据整合、挖掘及数据库系统建立-论文-万方医学网

首页 > 中国科学院大学 > 绵羊组学数据整合、挖掘及数据库系统建立

绵羊组学数据整合、挖掘及数据库系统建立

导出原文传递学术成果认领

收藏纠错

摘要绵羊作为最早驯化的动物之一，在人类发展历史中发挥着重要的经济及文化作用，它不仅是人类重要食物和附属品（如肉、毛、皮、奶等）的来源，还是人类农耕文明传播的重要组成部分。受人类活动的影响，经过长期的自然和人工选择，绵羊形成了丰富的品种资源，来适应不同生态环境并满足人类生产需求。随着测序技术的发展和测序成本的降低，利用基因组数据来挖掘和解析绵羊的特征成为绵羊研究的重要方法和手段，研究的内容涵盖绵羊的起源、进化、遗传多样性、生产特性、疾病及相关的遗传特性，以及从畜禽驯化角度描述人类的文明传播史、多元文化形成史等。然而，由于绵羊基因组相关数据资源分散存储、标准不一、信息不全且数据资源之间缺乏关联，这对从事绵羊研究的科研人员带来诸多不便。因此，整合挖掘绵羊基因组、表型组的相关数据，形成统一、规范的绵羊组学数据集，构建专业化的绵羊多组学数据整合平台，将具有重要的研究与应用价值。<br>　　通过全面整合不同来源的绵羊基因、变异和表型数据，开展大规模的组学数据分析与注释，挖掘基于文献系统审编(Curation)的绵羊基因型-表型关联知识信息（G2P关联信息）和基于网站资源整合的绵羊品种信息，研发了绵羊组学数据库iSheep(https://bigd.big.ac.cn/isheep)。具体内容包括:(1)变异数据的整合与分析:首先，从国家基因组科学数据中心(National Genomics Data Center，NGDC;https://bigd.big.ac.cn)的基因组变异数据库（Genome Variation Map，GVM）与合作单位收集2，778个样本数据（包含355个重测序数据、911个600k芯片数据、1，512个50k芯片数据）;其次，建立基因组变异数据鉴定流程，鉴定获得82，689，498个突变位点，并对突变进行注释;最后，将芯片数据根据位置信息与鉴定获得的变异数据进行整合。(2)品种信息的整合与标准化:通过收集来自23个不同绵羊网站及书籍的品种信息，建立标准化分析流程，获得1，409个绵羊品种，并对品种描述信息进行标准化与统一化，形成标准的数据集。(3)基因型-表型关联注释:开展绵羊基因型及表型相关研究的文献审编注释工作，包括形体特征与疾病关联信息，通过文献挖掘和人工审编，注释得922个与绵羊表型相关联的突变位点。(4)工具:开发在线工具，比较不同个体在同一突变位置的基因变异信息，并整合基因组可视化工具，提供可视化展示。(5)数据库系统开发:使用Java、MySQL、JavaScript、HTML5等语言，基于Bootstrap前端和Spring Boot后端的Web开发框架，设计开发iSheep数据库系统，并构建公共的数据访问服务。<br>　　本课题的创新之处为:实现多种绵羊组学数据资源的收集、加工、处理、整合与关联，构建了一站式的绵羊组学数据资源系统，是目前最全的关于绵羊多功能数据库;形成一套全基因组SNP数据与芯片数据的整合方案及流程，为其它物种的SNP数据整合提供参考;创建目前首个绵羊变异-表型数据集。综上，iSheep数据库的构建为深入绵羊的研究提供了重要的数据资源平台，也对绵羊的分子标记辅助育种研究起到重要作用。