摘要基因表达是基因型产生表型的最基本的层次,对于生物体的发育至关重要。人类基因组计划的成功完成,基因表达数据激增,这类数据的分析和处理成为探索其应用的主要瓶颈。精准医疗中,恶性肿瘤的药物靶点和生物标志物的精准预测识别,对患者临床治疗和癌症治愈具有重要意义。而评估一个新个体是否患癌比检测基因变异更加效率且成本更低,因此,开发一种利用理论知识和计算技术预测癌症和识别关联基因的方法是非常有意义的。本论文基于统计学习中的正则化技术,结合两种通路先验知识—基因组信息和互作网络信息,创建了两种癌症分类及其关联基因识别模型。具体内容如下:<br> 1、基于堆叠稀疏组Lasso的癌症预测和基因识别。生化通路是细胞内外反应网络控制细胞成分的分子机制,他们一致地控制某些基因、蛋白质或化合物的表达,以调节不同的表型表达。我们基于GSEA基因通路信息,利用stacking集成策略和稀疏组Lasso,构建StackedSGL模型,其在癌症分类上表现出稳定且良好的预测性能。同时构建了Stacked-hoc模型增强StackedSGL的特征推断,仿真实验对比和癌症实例研究结果表明StackedSGL可以更有效提取相关特征,识别更多潜在突变基因,增强模型可解释性,提升预测性能。<br> 2、基于加权弹性网络的癌症预测和基因识别。许多不同的生物过程都用图网络表示,如调控网络、代谢通路和蛋白互作网络(PPI)等。通路重叠是生物网络分析中的常见现象,可能导致通路标志物间的活性高度相关。为此,我们构建多个独立PPI网络,根据基因节点出现在各网络的次数和在网络中的连接程度给予重要性权值打分,构建加权弹性网络模型(WEN)。仿真结果表明WEN相较于其他模型具有更低的稀疏性和更优的预测性能,实例研究中WEN推断出与甲状腺癌发病机制密切相关的MAPK和PI3K-Akt通路亚网络。
更多相关知识
- 浏览0
- 被引1
- 下载0
相似文献
- 中文期刊
- 外文期刊
- 学位论文
- 会议论文