摘要尽管真核生物的染色体在细胞核内高度折叠,但是在生物体的发育过程中,细胞仍然能够在时间和空间上精确地控制基因的表达,表明染色体在细胞核内不是随机折叠,而是有着精密的结构存在。从最初的免疫荧光实验指示出,每条染色体都蜷缩在独立的空间,称之为染色体领地。到后来基于高通量测序的Hi-C实验揭示出越来越多的染色体内部空间结构,包括染色质区室(compartments)、拓扑结构域(TADs)以及相互作用位点(loops)的存在,科学家们对染色体内部空间结构的认识有长足的进步。尽管如此,目前对染色体间互作的认识还比较少,早期研究把染色体间相互作用信号当做Hi-C实验的主要噪音而被丢掉。然而事实并非如此,非同源染色体间也存在相互作用,比如嗅感觉受体基因、发育相关的Hox家族基因、TC-797超乙酰化区域等都可形成染色体间相互作用,并对基因表达、发育及疾病发生起重要调控作用。<br> 本研究的目的起源于针对染色体间互作分析的工具包较少,目前Hi-C数据的染色质高级结构分析,主要还是基于染色体内部相互作用分析,而染色体间相互作用信号提取存在较大挑战。针对这一科学问题,本研究利用显著的染色体间相互作用的数据特征,采用基于密度的聚类算法,开发了一个基于python编程语言的工具包iceD,专门用来识别Hi-C数据中染色质间显著的相互作用位点。<br> 研究的实验主要原理是利用密度聚类算法寻找高密度位点。染色体间显著的相互作用位点不同于染色体间的背景噪音,在相对限制的区域内,有着明显高于背景噪音的互作强度,我们称之为峰。iceD正是利用峰的特征之一:高密度,使用基于密度的聚类算法“密度峰值”来检测局部高密度区域。由于高密度区域不一定都是峰,因此需要对不是峰的高密度区域进行过滤。iceD针对线性的高密度区域设计了均匀分布检验,针对非局部高密度的高密度区域设计了垂直以及水平密度比,以此来去除明显的假阳性位点。<br> 将iceD分别应用到小鼠胚胎干细胞、成熟嗅感觉神经元和NUT癌细胞系TC-797的Hi-C数据上,iceD分别找到128、658和1841个非同源染色体互作,表明iceD能够找出已知的一些非同源染色体间的互作。和设计用来识别染色体内互作位点的FitHiC以及设计用来寻找不同组别Hi-C之间差异的diffHic相比,iceD在正确率以及识别位点的互作强度上都有显著的优势。除此之外,我们利用iceD还在小鼠胚胎干细胞中发现了新的染色体间相互作用,并且这些相互作用富集RNA聚合酶Ⅱ,提示其可能与转录工厂有关。<br> 综合以上结果,本研究开发了一个高效的染色体间相互作用检测生物信息学工具包iceD。在和其他工具相比较后,发现iceD更适合用来识别染色质间互作。iceD能进一步利用Hi-C的数据,并在高分辨率的Hi-C数据中识别出显著的染色体相互位点,将对研究染色体间相互作用的分子机制和功能具有推动作用。
更多相关知识
- 浏览0
- 被引0
- 下载0
相似文献
- 中文期刊
- 外文期刊
- 学位论文
- 会议论文