摘要人类基因组计划(HGP)是人类为了认识自己而进行的一项最伟大和最具影响的研究计划,目前已基本完成了人类基因的全序列测定.但问题是面对大量的基因或基因片断序列如何研究其功能,只有知道其功能才能真正体现HGP计划的价值-破译人类基因这部天书.后基因组计划、蛋白组计划等概念就是为实现这一目标而提出的.不同个体基因变异、不同组织、不同时间、不同生命状态等基因表达差异的分析是连接基因组计划和蛋白组计划最关键的一个环节,它不仅能利用基因组计划的研究成果在疾病诊断、药物筛选等领域发挥重要的作用,而且还可为蛋白组计划的实施提供大量非常重要的线索.这一环节既是基因组计划的补充又是蛋白组计划的航标.基因芯片技术就是为实现这一环节而建立的.该文处理的数据是急性白血病基因表达数据.急性白血病主要可以分成两类,分别是急性淋巴细胞白血病Acute Lymphocytic Leukemia(ALL)和急性骨髓性白血病Acute Myelogenous Leukemia(AML).急性白血病的基因表达数据是Golub等于1999年在Science上发表的,是一个72行7129列的矩阵,行为样本,列为基因,即对72个样本分别测其7129个基因的表达值.在该文中,将72个样本放在一起称为全集.Golub等将72个样本分成两个部分.训练集包括38个样本,测试集包括34样本.这套数据是典型的变量数(基因数)p远远大于样本数N的数据矩阵.对于这种少样本多变量的问题,一般的思路是:第一步,筛选基因;第二步,降维(如PCA、PLS和SIR等);第三步运用分类方法(如线性判别式、支持向量积、决策树等)进行建模和预报.其中第一步有很多方法,例如,t统计法、差商法、CV法,但是采用这些不同的方法所选出的基因往往差别非常大.针对上述问题,根据基因表达数据的特点,该文提出了针对这种数据分析的新策略:首先,应用决策树算法来选择尽可能多(甚至全部)的重要变量(基因),对所选择的重要变量(基因)按照一定的策略进行排序,然后对其进行分组(一般是5到11组),进而将这些变量(基因)组合成为组变量.为了验证这个策略的可行性,该文首先对全集选择200个变量,组合成组变量后用主成分分析(PCA)进行投影.然后对训练集选择103个变量,组合成组变量后用主成分回归(PCR)进行建模和预报.所得模型的稳定性得到提高,且预报准确率令人满意.
更多相关知识
- 浏览0
- 被引0
- 下载0
相似文献
- 中文期刊
- 外文期刊
- 学位论文
- 会议论文