摘要恶性肿瘤发生发展是一个持续进化的过程,对人类健康构成极大威胁。结构变异作为肿瘤基因组的主要遗传标志,影响肿瘤相关功能基因的表达,对肿瘤的发生发展有驱动力量,肿瘤的进化特性使得研究者可通过肿瘤结构变异推断其发育。因此,准确检测肿瘤结构变异是诊断和治疗癌症非常重要的一步,也是当前研究的重点。通过基因结构变异推断肿瘤发育,识别肿瘤靶向基因,从而为肿瘤的诊断和治疗提供重要依据。<br> 本文的工作围绕肿瘤基因组结构变异展开。本文根据肿瘤基因组结构变异特点,模拟肿瘤基因组变异、设计和开发肿瘤结构变异检测算法并基于结构变异数据推断肿瘤发育、识别肿瘤靶向基因。本文主要工作概括如下:<br> 1)本文首先介绍了研究目的、背景、探究肿瘤基因组结构变异对人类健康的影响、肿瘤异质性在疾病诊断、预后和治疗等方面的重要性;回顾结构变异的检测平台,介绍基于高通量测序数据结构变异检测的策略和算法,存在的问题和挑战;并介绍了肿瘤系统发育研究的相关知识和主要算法等。<br> 2)基因组检测技术的迅速发展使得人们能以更高分辨率和更低成本分析肿瘤基因组,然而人们对结构变异的研究还处于探索阶段,目前仍没有一套完整的人类全基因组结构变异注释,真实数据很难对研究结果进行全面评价。针对上述问题,本文提出了肿瘤基因组变异模拟算法:MVSC,模拟多种基因组变异。根据肿瘤基因组变异积累特点,MVSC根据输入参考基因组序列,以递进顺序模拟生殖基因组变异、正常体细胞基因组变异和肿瘤基因组变异。肿瘤基因组变异与生殖基因组相比,规模和分布不受限制而且包含更多复杂结构变异。因此,对于肿瘤基因组变异模拟,MVSC引入复杂结构变异。实验分析表明,MVSC模拟的变异可以有效地表征基因组变异特点,对于变异检测算法性能评估不可或缺。MVSC对CPU内存需求和时间性能优于其他同类变异模拟算法。<br> 3)肿瘤结构变异会影响肿瘤功能基因的表达,与肿瘤的形成密切相关,研究肿瘤基因组结构变异有利于阐明肿瘤发生发展,为肿瘤的诊断和治疗提供理论基础。由于高通量测序数据生产的read长度短,而人类基因组中存在着大量的、多种形式的重复序列,重复区域结构变异检测一直是个挑战。针对上述问题,本文提出了肿瘤结构变异检测算法:seeksv,采用“rescue”策略解决重复区域结构变异检测问题:在参考基因组上有多个最优比对位置的测序read被用于支持结构变异检测,提高重复区域结构变异的真阳率。seeksv可应用于不同类型测序数据,例如单端测序数据和双端测序数据,以单碱基分辨率水平检测缺失、插入、倒置、染色体间易位和病毒整合位点。seeksv将截短方向相同,比对位置相近的软截短read组装成一条长截短序列,不依赖于任何组装软件,这一特点降低了算法对计算机的配置需求。模拟数据和来自1000 genome project和食管鳞状细胞癌( ESCC)真实数据的结果表明:seeksv的准确率高于其他同相似结构变异检测算法,对于乙型肝炎病毒( HBV)整合位点检测实验也表明:seeksv检测的病毒整合序列准确率超过90%。<br> 4)肿瘤是一个持续进化的过程,其治疗不应只关注肿瘤的当前状态,还要预估治疗后的状态。肿瘤发育的进化特性使得研究者可以通过肿瘤结构变异推断肿瘤发育,肿瘤进化和物种进化有很多不同之处,对于肿瘤进化,还没有标准的算法和模型。本文将构建肿瘤发育树视作有向图最小Steiner树问题,推断Steiner点是一个NP-难问题,没有多项式时间解。针对上述问题,本文提出了二进制差分进化算法(BDEP)构建肿瘤系统发育树。BDEP通过将原始差分进化算法的连续值离散化,在交叉操作中采取领域学习策略提高种群多样性,能提供最优近似解。实验结果分析表明,BDEP推断的肿瘤发育树可以识别肿瘤发育过程中主要的驱动基因,其量化的数值特征可以作为肿瘤进化的关键预测指标。分类实验表明,BDEP构建的系统进化树特征比数据特征能更好的区分肿瘤亚型,甚至优于其他同类算法。
更多相关知识
- 浏览16
- 被引6
- 下载8

相似文献
- 中文期刊
- 外文期刊
- 学位论文
- 会议论文


换一批



