摘要随着人类基因组计划的迅速发展,DNA微阵列技术已经被广泛的应用到生命科学的各个研究领域,由此产生的基因表达谱数据也呈指数级增长。基因表达谱数据可以让人们从分子水平上了解基因的表达模式、从微观层面上去研究生命现象,对了解癌症在基因级别的发病机理、癌症的诊断有着很高的应用价值。<br> 在对基因表达谱数据进行研究的时候,研究者们发现在高维的数据中,只有少量基因对癌症的识别起着关键的作用,而大量的冗余基因不但会造成严重的“维数灾难”现象,还会对癌症的正确识别造成一定的干扰,造成分类性能的下降。所以采取适当的方法对基因表达谱数据进行降维,选择具有代表性的特征基因或者特征基因的组合便成为一项非常重要的工作。本论文在浙江省自然科学基金(Y1080950)和国家自然科学基金(60905034)的资助下,从算法设计和仿真试验两方面,研究基因表达谱数据的特征选择和提取问题,主要研究内容和成果如下:<br> 1.提出两种特征选择方法,分别为基于粒子群的 PSO-Selection方法和基于K-means聚类和粒子群的KPSO-Selection方法。PSO-Selection方法是一种滤波式特征选择方法,判断特征优劣标准的适应度函数定义为类间距离与类内距离的比值,将特征选择转化为组合优化问题。KPSO-Selection方法是一种混合型特征选择方法,首先利用K-means方法将包含不同信息的基因聚成固定数目的簇,对簇中基因的分类性能进行评价,选择具有较优分类性能的簇,并将这些簇中的基因作为备选基因库;之后利用PSO和ELM相结合的Wrappe r方法做进一步的特征选择。实验结果证明,两种特征选择方法均可以利用较少的基因获得了更精确的癌症诊断与类别预测。<br> 2.采用特征提取的方法对基因表达谱数据降维,利用降维后的特征进行分类能够获得较高的分类精度。本文重点研究IC A特征提取方法,传统的ICA方法是一种无监督方法,无法有效利用样本的类别信息,因此将判决函数引入到ICA特征提取过程中,将无监督的特征提取转换为有监督的特征提取。本文利用三种判决函数对判决独立成分特征提取方法进行验证,均取得了较传统ICA更优的分类效果。<br> 3.特征选择和提取方法,均以获得一个对分类识别最有效、数目最少的特征子集为目标。特征选择方法在原特征中选出较少的分量来表示原模式,而特征提取方法是在某种准则下,将原特征经过仿射变换产生新的特征,用较少的分量表示原模式。此外,特征选择和提取方法获得的特征子集均能最大限度的代表原模式。本文第六章重点研究了特征选择和提取方法之间的联系,通过理论和实验证明了两种方法在一定程度上是等价的。最后利用ICA和信息增益相结合的方法,获得了具有较优分类性能的关键基因子集。实验证明,该方法对于获得基因表达谱数据的关键基因子集是非常有效的。
更多相关知识
- 浏览286
- 被引4
- 下载0
相似文献
- 中文期刊
- 外文期刊
- 学位论文
- 会议论文