基因表达数据分析中的数据挖掘技术研究-论文-万方医学网

基因表达数据分析中的数据挖掘技术研究

导出原文传递学术成果认领

收藏纠错

摘要随着生物学和医学的迅速发展，以及基因芯片的逐步实用化使得研究大量基因的特性成为可能，但随之产生了海量的基因数据。如何分析这些具有丰富内涵的数据并从中获得有关生物结构和功能的信息，从中得到对人类有益的信息，是生物信息学这一综合了生命科学、数学科学、信息科学以及计算机科学等的交叉学科的重要任务和内容。 　　基因表达数据分析的主要目的是建立相应的基因调控网络模型，分析基因之间以及基因与启动子之间的调控关系，进而找到基因与生物性状之间的联系。基因表达数据分析是建立基因调控网络模型，分析基因之间调控关系的基础。目前已有多种数据挖掘方法应用于基因表达数据分析。其中数据挖掘技术中的聚类方法是基因表达数据分析的常用方法，它将表达规律相似的基因聚为一类，在此基础上寻找相关基因，分析基因的功能。但是目前这类方法只能找出基因之间简单的、线性的关系，忽略了生物体复杂的、非线性的关系;不同算法取样的点可能不完全一样，选择不同的聚类方法将产生不同的信息，即使采用同样的数据也有可能出现不同结果;聚类结果对噪声比较敏感，易受到噪声的影响;忽略了基因表达数据时间序列的特点，未能挖掘其在时间表达方面的特征，尤其对于基因表达数据中可能潜在的周期性和调控延时的关系无法加以体现;海量数据的高维性等等。 　　针对基因表达数据分析中存在的问题，本文主要从基因表达数据的聚类分析和基因调控关系的分析两个方面入手，提出了两种改进的聚类算法和两种基因调控关系分析的数据挖掘模型: 　　(1)在深入探讨基于密度聚类分析的原理基础上，通过引入最小生成树理论，提出了基于密度与最小生成树理论的基因表达数据聚类方法，解决了密度聚类算法受初始值影响，聚类结果不稳定的问题和聚类个数如何确定的问题。并对实际应用进行了实验验证。 　　(2)介绍了基于小波去噪的基因表达数据的模糊聚类方法，并通过实验进行了聚类结果对比，证明去噪后聚类的结果明显优于直接聚类的结果。 　　(3)提出了基于功率谱估计方法的基因表达调控关系分析，初步构建出基因之间的调控网络，较好地挖掘出了基因之间的延时调控关系。 　　(4)提出了基于连续动态贝叶斯网络的基因调控网络的构建方法。通过组合基因表达数据和位点数据，利用连续的DBNs模型，引入处理多时延调控的方法。避免了离散化带来的信息丢失，解决了单一数据带来的困难，同时也减少了计算的复杂性，有利于对生物调控机理的进一步理解。