摘要随着高通量测序技术的发展,研究人员已经能够在全基因组范围内解决生物学以及生物医学中各种各样的问题,在此过程中也得到了海量的生物学数据。这些技术包括微阵列技术(例如基因表达,拷贝数变异,全基因组关联研究以及甲基化测序技术),第二代测序技术(例如RNA-seq,全外显子组测序以及全基因组测序技术)以及ChIP-Seq等技术。分析由这些技术所产生的数据常常能够发现一些值得注意的基因,这对于后续的生物学解释和验证具有很深远的意义。<br> 癌症通常是由基因突变的积累而引发的。最近,第二代测序技术的发展产生了大量的癌症基因组数据,这些数据帮助科研人员研究出识别癌症发展过程中的一些重要基因突变的算法,然而,这些算法不能解决基因畸变的异质性问题。因此,众多学者从研究癌症驱动基因转而研究导致癌症的驱动通路。为了识别癌症驱动通路,必须发展出相应的生物信息学算法。<br> 在本论文中,基于第二代测序数据,重点围绕着识别癌症驱动通路的算法进行研究,提出了有效的驱动通路识别算法,并且将算法的关键流程进行了详细阐述,同时与传统算法的结果进行了比较。本文的研究工作总结如下:<br> 第一,提出了一种改进算法来解决―最大权重子矩阵问题,该问题是基于癌症驱动通路的两种性质—覆盖性和排斥性—来识别驱动突变通路。这种最优化启发式改进算法称为模拟退火遗传算法(SAGA)。特别的,将基因表达数据融合到该算法中,使该算法运行结果更符合生物学意义,并且取得了令人满意的结果。<br> 第二,基于基因之间相互作用网络,基因变异将会通过改变或者移除某个点或者改变点的连接情况引起相互作用网络结构的变化,从而改变网络中基因表达的生物化学性质,导致癌症发生。根据此生物学现象,提出了DriverFinder算法,将正常样本和癌症样本的基因表达数据联合分析识别基因表达的离群值,同时,基因过长而引起的随机突变可以基于拟合广义加性模型进行滤除。通过使用DriverFinder算法,识别出具有生物学意义的癌症驱动突变基因,将这些基因进行生物学通路富集分析,从而识别出癌症驱动通路。通过大量的实验比较结果证明了该算法是有效的。<br> 本文最后分析了当前识别癌症驱动通路研究中存在的一些问题和今后的研究中需要做的工作。
更多相关知识
- 浏览0
- 被引0
- 下载0
相似文献
- 中文期刊
- 外文期刊
- 学位论文
- 会议论文