高维回归模型的若干统计推断和应用-论文-万方医学网

首页 > 北京工业大学 > 高维回归模型的若干统计推断和应用

高维回归模型的若干统计推断和应用

导出原文传递学术成果认领

收藏纠错

摘要伴随着现代技术的不断发展，很多领域都产生了大量复杂的数据，其中比较典型的是高维数据。例如，在生物医学对DNA微阵列的研究中，一般情况下，DNA微阵列包含成千上万种基因，但是受实验成本较高的影响，只能得到很少的实验数据，因此就会获得基因的数量远远大于样本量的高维数据。对微阵列数据建立高维线性模型，并进行相关统计推断的研究已经变得越来越重要。<br>　　方差估计是统计推断中一个非常重要的部分，它与模型的区间估计和密切相关。在经典线性模型中，在进行方差估计时，最常用的方法是最小二乘(OLS)估计方法，它是通过选择合适的系数，使得残差平方和最小，从而得到方差的估计量。而在高维数据中，特别是当p＞n时，得到σ2可靠的估计量是非常具有挑战性的。如果对高维数据进行变量选择或降维后，基于新的模型，利用传统的方差估计方法进行方差估计，也会因为丢失重要变量或选择过多的无关变量，而效果很差。而且利用传统的方法得到的方差估计量的渐近分布完全依赖于第一阶段所选择的变量，方差估计量的偏差也会随着数据维数的增加而增大。因此，高维数据中方差估计就变得很重要。<br>　　本文将选取大鼠眼组织的微阵列数据，利用该微阵列数据研究与导致Bardet-Biedl氏综合症相关的致病基因TRIM32相关的其它基因，对其建立高维线性模型，并利用有关的统计推断对模型进行评价。在对模型进行区间估计和显著性检验时，方差的估计量是其不可缺少的一部分。文章将采用修正的交叉验证(RCV)，矩方法(MM)进行方差估计，并与传统的普通二阶段估计方法进行比较。可以看出上述两种方法削弱了传统方差估计方法因为丢失重要变量或选择过多的无关变量而导致的偏差问题，使方差估计的准确度得到了有效地提高，而且上述两种方法得到的方差估计量具有相合性和渐近正态性。同时利用新的方差估计量进行区间估计和假设检验，最终得到显著的线性回归模型。