摘要癌症治疗的手段发展至今,面临的一大挑战是如何将具体的治疗方法针对于在病原上各自独特的肿瘤类型,以达到最大疗效同时使毒性最低.在癌症分类方面的改进因而成为发展癌症治疗方法的中心环节,一直以来,癌症分类主要基于肿瘤的形态表观,但这种分类方式有很大的局限性,因为具有相似组织病理学表观的肿瘤可能表现出很不相同的临床发展过程,或者对同种治疗呈现出不同反应.目前,随着基因芯片技术的发展,利用基因表达数据集来给疾病样本分类已经成为主要手段.基因芯片的蓬勃发展使得同时测定成千上万个基因的表达成为可能,这种测定能力使得我们在很短的时间内可以得到变量数(基因数)p远远大于样本数N的数据矩阵.标准的分类统计方法在N<p的情况下通常效果不是很好,该文根据基因表达数据的特点,提出了针对这种数据的分析过程:(1)对数据进行预处理;(2)选择基因;(3)使用降维方法来减少变量数;(4)使用分类方法建模并预报;(5)使用交叉验证和re-randomization studies来验证模型和结果的稳定性.该文使用这种分析过程处理了急性白血病和非霍奇金淋巴瘤两组基因表达数据,最终取得了非常好的效果,在一般情况下,分类结果的正确率均可达到95﹪以上.
更多相关知识
- 浏览0
- 被引1
- 下载0
相似文献
- 中文期刊
- 外文期刊
- 学位论文
- 会议论文