摘要新一代测序技术已经广泛用于健康遗传学、系统进化、微生物学等不同领域的研究。新一代测序技术为工业界带来了巨大挑战,例如大规模基因数据的生成、存储、转换、可视化等问题是当前研究的难点问题。大规模测序数据通常通过计算机集群进行存储和计算操作,处理和分析数据往往需要大容量存储空间和高性能处理器。为了有效利用存储资源,可以通过数据库映射方式来优化处理大规模VCF数据。VCF(Variant Call Format)是一种标准格式,是一种用于表示和存储SNPs、indels和大规模带注释的结构化变异标准化格式。当前高效管理和利用大规模VCF数据是研究的难点问题之一。目前已出现了一些致力于VCF数据处理的工具,但是从VCF到JSON的转换工具研发处于起步阶段。为此本文将研究VCF和JSON之间的映射方法,并在此基础上设计和研发VCF转换工具。<br> 大规模VCF数据的处理工具已经成为当前生物信息领域进行数据高效管理的重要基础。本文研发的从VCF到JSON的映射方法及转换工具可以通过高效且用户友好的系统平台来为生物学家提供便利。该工具基于Web环境开发,后台使用python语言、前台使用HTML5和jQuery进行用户界面开发,其支持单VCF文件上传或者压缩后批量上传,并通过映射规则生成对应的JSON数据。最后的实验结果表明本文研发的映射方法和转换工具可以在保证无损转换的同时,可以对VCF数据进行有效压缩,从而显著提升存储空间的利用效率。
更多相关知识
- 浏览2
- 被引0
- 下载1

相似文献
- 中文期刊
- 外文期刊
- 学位论文
- 会议论文


换一批



