摘要肿瘤具有多种亚型,正确的肿瘤分类可以使医生对肿瘤患者制定最佳的治疗方案,以达到最好的治疗效果。如今,如何正确地识别肿瘤类别已成为当前重要的研究课题之一。目前,大部份传统的分类方法都是基于统计学原理,这些方法普遍存在过拟合的问题,虽然分类准确度很高,但是对新数据分类可能存在偏差。基于稀疏表示和协同表示的分类方法特别适合具有高维小样本特点的肿瘤数据集,且不存在过拟合问题。然而,针对肿瘤基因表达谱数据的高维小样本和非线性等特点,新方法亟需不断改进使其更适应于肿瘤数据特征以得到更好的分类准确度。本文的研究主要是基于新方法,主要工作如下:<br> 提出了基于元样本的核稀疏表示分类方法。该方法可分为三步:1、使用奇异值分解方法从训练样本中提取元样本;2、新的数据通过线性核函数映射到高维特征空间;3、计算得到稀疏编码系数以及通过重构残差求得测试样本类别。同时使用基因选择方法进行降维。通过设计丰富的对比实验和选择经典的基于稀疏表示的方法比较,最终证明此方法的有效性。<br> 提出了一种新的基于核化凸包的协同表示方法。把测试样本模拟成凸包,然后使用训练样本集协同的表示这个凸包。定义了样本到集合的距离,其中样本和训练样本集合均模拟为凸包。要使其得到一个稳定的解,以及解决肿瘤基因表达谱数据非线性的特点,通过使用核函数把数据映射到高维空间使其近似线性可分,这样就成功的解决了上述两个问题。对于高维小样本的肿瘤数据特点,使用基因选择的方法对其降维。选用11个经典的分类方法在11个公共的肿瘤数据集上作对比实验,结果充分证明本文提出的方法不仅具有较高的分类准确度而且复杂度更低。
更多相关知识
- 浏览48
- 被引4
- 下载4

相似文献
- 中文期刊
- 外文期刊
- 学位论文
- 会议论文


换一批



