摘要研究染色质三维结构,对于理解基因表达调控机制具有重要意义,并且有助于细胞功能、生物发育、疾病发生等领域的研究。随着高通量染色质构象捕获技术(High-through chromosome conformation capture,Hi-C)的发展,获得了大量Hi-C数据。Hi-C数据描述全基因组范围内染色质交互频率,使得在全基因组范围内研究染色质三维结构成为可能。<br> 三维基因组研究发现染色质具有层次空间结构,从宏观到微观分别是染色质疆域,A/B区室,拓扑关联域(Topologically Associating Domain,TAD)和染色质环。而且不同层次的染色质结构都在基因的表达与调控中发挥着重要的功能。其中TAD被发现在遗传和发育过程中具有重要的生物功能,从而引起了生物学家的广泛关注。因此低成本的获取多种细胞系和组织以及病理条件下的Hi-C数据进而正确地检测出TAD具有重要意义。<br> 为了研究染色质如何从一维线性序列交互形成三维空间结构,以及这种三维结构在染色质全局范围内的空间分布模式,研究者们基于各自的领域背景设计了不同的结构模式检测方法。例如,基于对Hi-C数据的观察来定义TAD的一维指标并检测TAD的DI和TopDom方法,基于聚类理论的方法IC-Finder和MSTD等。但是目前检测TAD的方法主要是基于非监督学习的方法。<br> 本文提出一种基于监督学习的TAD预测方法,使用功能基因组学数据作为特征,预测染色质的拓扑关联域边界。将提出的方法应用于GM12878,IMR90,NHEK,K562四种细胞系。在DNA元件百科全书计划(Encyclopedia of DNA Elements , ENCODE)等多个数据库上收集这四种细胞系的染色质免疫共沉淀测序(Chromatin Immunoprecipitation followed by sequencing,ChIP-Seq)数据和Hi-C数据,使用HiCDB,TopDom,MSTD三种非监督学习方法从Hi-C数据中检测TAD边界,抽取正负样本,从ChIP-Seq数据中抽取样本特征,训练监督学习模型对样本进行分类,并使用交叉验证方法进行参数选择和模型评估。<br> 实验结果表明,一维功能基因组学数据对TAD具有很好的预测能力。而且使用一种细胞系数据训练的模型能够成功预测另外一个细胞系的TAD边界,具有很好的跨细胞系泛化能力。而且发现表观遗传修饰数据、结构蛋白绑定数据、染色质开放性数据等功能组学数据在TAD预测问题中发挥着重要的作用。
更多相关知识
- 浏览0
- 被引0
- 下载0
相似文献
- 中文期刊
- 外文期刊
- 学位论文
- 会议论文