摘要DNA甲基化是目前被认为最稳定的表观遗传修饰,随着对其研究的深入,一系列的分析工具被开发,同时大量的DNA甲基化数据得以累积。而目前研究者们对于甲基化分析工具选择的信息比较匮乏,DNA甲基化数据中的生物学价值也有待进一步挖掘。本研究旨在通过比较不同比对工具之间的使用性能,帮助研究者们在选择分析工具时做出更好的判断,通过收集和重新分析已有的DNA甲基化数据,进一步挖掘其中的生物学价值。本文主要的研究内容包括:比较了12款比对软件的使用性能;构建了第一个等位基因特异DNA甲基化(ASM)数据库;通过数据挖掘获得了泛癌标记物。具体研究内容如下:<br> (1)针对DNA甲基化比对算法较多且性能差异较大,从而导致研究者在选择分析工具时参考信息有限这一问题,我们比较了12种比对算法在DNA甲基化数据尤其是在单细胞DNA甲基化数据分析中的使用性能。通过对12种比对算法的评估,结果显示Abismal、Bismar_bowtie2_e2e、Bismark_bowtie2_local、bwameth、BSMAP、Hisat-3n这六种比对算法拥有较高的唯一比对率和比对准确率。综合考虑运行时间、内存使用情况、唯一比对率和比对准确率,本研究认为Abismal在单细胞亚硫酸氢盐测序中的比对性能更加优秀。此外,我们观察到,对于比对到参考基因组的reads而言,soft-clip部分的占比越低,其比对准确率越高。我们还发现,使用不同比对算法处理单细胞亚硫酸氢盐测序数据,获得的甲基化水平会有较大的差异。我们的工作为研究者在选择比对算法时提供有价值的参考信息,从而可以有效提高DNA甲基化水平的检测效率和准确率。<br> (2)对于目前缺乏单倍型DNA甲基化数据库这一现状,本研究构建了第一个单倍型DNA甲基化数据库。在本研究中,我们收集了来自47个物种(包括人和小鼠)的4400个BS-Seq数据集和1598个相应的RNA-Seq数据集,建立了一个资源丰富内容全面的等位基因特异DNA甲基化数据库。通过对这些数据的重新整理和分析,我们获得了DNA甲基化水平、ASM和等位基因特异性表达基因(ASEG)的信息,并且进一步展示了这些物种的ASM/ASEG分布模式。同时我们对9种癌症类型进行了深入的ASM分布分析和差异甲基化分析,发现本研究中所获得的结果与先前报道的关键肿瘤基因中的ASM变化一致,并且进一步发现了几个潜在的ASM肿瘤相关基因。基于以上结果,我们构建了首个包含47个物种的资源丰富且全面的ASM数据库(ASMdb)。<br> (3)针对研究者们对DNA甲基化的泛癌肿瘤标记物的探究比较有限这一现状,本研究使用了858个全基因组亚硫酸氢盐测序数据来挖掘泛癌标记物。在整合分析癌症中甲基化的变化后,我们筛选获得了9个肿瘤标记候选基因。通过建立二元逻辑回归模型,我们确定了其中2个基因为标记物组合,并且使用TCGA数据集对其进行了验证,发现这两个基因的组合在癌症发生的不同阶段都具有良好的预测效果。除此之外,我们利用全基因组亚硫酸氢盐测序数据,筛选在不同癌症类型中的差异位点,获得了3个不能被450K芯片所检测到的位点。我们进一步对其建立二元逻辑回归模型,发现其对肿瘤样本有精确的识别能力(AUC=0.989)。总之,我们的研究表明DNA甲基化具有作为肿瘤标记物的巨大潜力,同时,本研究中确定的甲基化位点为泛癌标记物提供了新的资源。<br> 综上所述,我们综合比较了12种DNA甲基化比对算法,为研究者在选择分析工具时提供了有价值的参考信息。此外,我们构建了单倍型DNA甲基化数据库并首次对ASM做出了综合的整理和分析,填补了这一空白。在此基础上,我们利用ASMdb数据库中的甲基化数据挖掘获得了泛癌标记物。这些工作为人们在研究DNA甲基化的过程中提供了帮助,并且让研究者对DNA甲基化在癌症中的作用有了更加深入的认识。
更多相关知识
- 浏览4
- 被引1
- 下载2

相似文献
- 中文期刊
- 外文期刊
- 学位论文
- 会议论文


换一批



