医学文献 >>
  • 检索发现
  • 增强检索
知识库 >>
  • 临床诊疗知识库
  • 中医药知识库
评价分析 >>
  • 机构
  • 作者
默认
×
热搜词:
换一批
论文 期刊
取消
高级检索

检索历史 清除

通用测序数据集模拟工具(USDSU)的开发

摘要随着二代测序技术的不断发展,高通量DNA测序技术已经显著改变了传统生物学研究的方式。这门学科开始发生从假设驱动的生物学到数据驱动的生物学的转变,这促进了对基因组、表观基因组和转录组等领域的研究。然而,海量真实数据集的积累也对下游的生物信息学分析带来了很大的挑战,促使相关的开发人员不断研发新的算法和软件,满足实际工作需要。然而,在开发生物信息学的工具和算法时,通常很难评估那些使用真实数据开发的工具或者算法。因为这些真实数据中的误差信息不易获得导致很难找到满足必要条件的真实数据。因此,生成带有错误信息的测序模拟器,对于评估新的软件工具和算法具有重要意义。<br>  目前有大量工具可用于模拟NGS平台的基因组数据,许多模拟器具有部分重叠的功能。这些模拟器的参数化通常很复杂。用户可以决定是使用称为配置文件的现有参数集,还是根据自己的数据重新估计它们。这些模拟器可以通过可调节的输入参数包括文库的PCR扩增效果、reads特征和质量分数、碱基调用错误、跨基因组测序深度的变化以及基因组变异的引入实现不同测序仪测序数据的模拟。但目前的模拟器都有一定的局限性,比如模型添加不够全面,模拟效果与真实值差别过大等等。<br>  基于此,本研究构建了一个通用测序数据集模拟工具USDSU,并进行了相关验证。USDSU分为几个模块,可以分别进行突变的添加、reads的抽取、质量值以及一些错误的模拟。这些模块可以通过引入相应的模型进行构建,如突变概率模型(Mutation Model)、抽样概率模型(Reads sampling Model)、质量值模型(Quality score Model)和系统错误概率模型(Seq error Model)。USDSU是一个用Python编写的命令行工具包,支持所有主流操作系统。它以用户提供的参考基因组(Fasta格式)作为工作模板来引入主要类型(即SNP、INDEL、CNV等)的非重叠基因组变异。SNP和INDEL可以同时引入,而CNVs(以片段重复和缺失实现)可以通过单独的运行引入。对于每种变异类型,USDSU可以根据指定的选项模拟预定义或随机变异。添加突变后的染色体可以依据用户指定的建库方法模拟不同的抽样模型,并进一步利用统计模型模拟用户选定的测序仪的质量值分布和相应可能出现的错误,最终输出模拟结果和对应的“金标准”文件。<br>  构建完成后的USDSU可以灵活的使用多种模型产生模拟数据。在集群上运行USDSU软件和其他五个模拟器,覆盖深度范围从5X到40X,以便对运行时间进行比较,结果表明USDSU的运行速度是最快的,远远高于SinC、ART,SimSeq,pIRS和dwgsim的运行速度。通过分别与真实数据和其他模拟器进行模拟结果的比较,生物信息分析结果表明,USDSU在模型构建和精度上显著高于其他模拟器,并与真实数据结果一致。<br>  USDSU是一种轻量级工具,用于模拟任何生物体(包括人类)的全谱基因组变异(单核苷酸多态性、插入/缺失、拷贝数变异)。USDSU的简单性和多功能性使其成为独特的通用基因组模拟器,适用于各种基于模拟的应用程序。本研究可以为特定测序平台选择合适的数据模拟策略提供指导。不仅为后续的算法开发奠定基础,还助于测序项目的设计,并且对于验证不同的推论有着很重要的意义。

更多
广告
学位信息:
中国科学院大学 生物学 生物工程(硕士) 2022年
发布时间 2023-05-30(万方平台首次上网日期,不代表论文的发表时间)
  • 浏览0
  • 下载0

加载中!

相似文献

  • 中文期刊
  • 外文期刊
  • 学位论文
  • 会议论文

加载中!

加载中!

加载中!

加载中!

法律状态公告日 法律状态 法律状态信息

特别提示:本网站仅提供医学学术资源服务,不销售任何药品和器械,有关药品和器械的销售信息,请查阅其他网站。

  • 客服热线:4000-115-888 转3 (周一至周五:8:00至17:00)

  • |
  • 客服邮箱:yiyao@wanfangdata.com.cn

  • 违法和不良信息举报电话:4000-115-888,举报邮箱:problem@wanfangdata.com.cn,举报专区

官方微信
万方医学小程序
new医文AI 翻译 充值 订阅 收藏 移动端

官方微信

万方医学小程序

使用
帮助
Alternate Text
调查问卷