Page 115 - 201909数码世界9.9
P. 115

科技交流





                                          浅谈高维数据变量选择现状与方法



                                                                 张凌洁


                摘要:变量选择是统计分析理论中的重要内容,也是目前学者们研究的重点。本文在传统数据变量选择的基础上,介绍高维
                数据变量选择方法的研究历史和研究现状,总结已有变量选择的研究成果,并在此基础上进行了总结和展望。






                1 变量选择方法简介                                               随着科学技术的发展,人们可以搜集到物理化学、个性
                   从 20 世纪 60 年代至今,变量选择的研究已有不少文献与                    化医疗、雾霾分析及其它领域的高维海量数据。这些数据计
                资料。以 Akaike 在 1974 年提出的 AIC 准则为标志,近几十年来,             算的复杂性和高成本使得经典地变量选择方法不再适用,为
                变量选择是统计学者们研究的重点,研究的方法和理论结果已                          此,统计学者们开始寻找研究高维数据的变量选择方法,即
                经有了相对成熟的进展。                                          以 lasso 为代表的惩罚似然方法(通过系数压缩来实现变量
                   经典的变量选择包括前进法、后退法、逐步回归法、最优                         选择)。然而实际中的高维数据却含有异常值点,使得数据
                回归子集法等,通过 AIC,BIC,Cp 等从候选模型中选出一个最                    呈现尖峰或厚尾分布,此时的变量选择方法将不再具有优良
                优子集来拟合回归模型。建立回归模型初期,引入很多相关的                          性和稳健性,统计学者们提出稳健估计方法,即用具有稳健
                变量以减小模型的误差;选择对因变量有明显影响的重要变量                          性的损失函数来替代最小二乘损失函数,如 M- 估计、最小平
                以提高模型预测的精度和可解释性。                                     方中位数估计和最小平方修整估计、分位数回归模型、秩回归、
                   实际中,经典的变量选择方法,适合模型中变量个数比                          CQR 估计等。
                较少的模型。但是当变量个数增多时,需要解决的问题也随                           2.1 方法的提出和性质的研究
                之增多。如由于要求解一个多项式复杂程度的非确定性问题,                              1996 年 Tibshirani 提出一般线性模型下的 lasso 方法,
                从而处理高维和海量问题时失效;对于成百上千的变量,如                           开启了高维数据变量选择的研究,具有划时代的意义。Lasso
                果我们选择过多的变量,则会使计算成本过大、变量选择估                           可以使无明显影响变量的系数压缩为零,同时进行变量选择
                计的速度减慢以及模型选择的精准度降低,也会出现过度拟                           和参数估计。Lasso 在估计值较大的变量可将重要变量的系数
                合现象;如果我们选择较少的变量,则会遗漏重要变量或选                           压缩较小 , 而保证参数估计的准确性。但是 lasso 方法不具
                择变量不当,使结果误差较大,也失去了分析研究的意义。                           有 oracle 性。2004 年 Fan 得出 SCAD 具有 oracle 性质且降低
                只有选取适合的变量选择方法,才能选择出有用变量,去除                           了计算的复杂度。2007 年 Zhao 提出 lasso 不具有相合性也不
                冗余变量,化简模型。这样既节省了计算量,也便于分析数                           具有 oracle 性,Zou 对 lasso 做相同系数压缩提出 ALasso 方
                据使结果更加精确,所以选择适合的变量选择方法是研究高                           法,证明其在固定维数时具有 oracle 性。2010 年 Shojaie 提
                维数据时的重要的步骤。                                          出 ALasso 中调整系数 A 值的 ALasso 是一种凸优化问题,可快
                   近年来,统计学者们提出用惩罚函数同时进行变量选择和                         速有效地得到其全局最优解。2005 年 Zou 提出了处理基因微阵
                系数估计,其基本思想就是在进行参数估计的同时,把较小的                          列数据的 Elastic  net 方法,对系数二次惩罚 , 使得具有组效
                系数估计压缩,而将较大的系数估计保留,从而选择出重要变                          应的数据可以进行有效的变量选择,且能解决高维小样本问题。
                量达到变量选择的目的──正则化方法。正则化估计能大大减                          2009 年 Zou 提出的 adaptive  Elastic  Net 具有 oracle 性质。
                少计算量、克服经典变量选择方法的不稳定性。目前的惩罚方                          为解决 Lasso 方法过拟合问题,2007 年 Meinshausen 引入压缩
                法有:Tishirani 等提出的 Lasso、Fan 等提出的 SCAD、Zou 等          参数提出 Relaxed  Lasso,2013 张凌洁等分析研究 LS+LAD 组合
                提出的自适应 Lasso、Zou 等提出的 Elastic  Net、Wang 等提           损失函数的高维稳健统计性质。这些方法一定程度上可以处理
                出的组 Lasso、Zhao 等提出的分级 Lasso、Candes 等提出的              高维统计问题。
                Dantzig  Selector  以及 Xu 等提出 L1/2 正则化、Zhang 等提出      2.2 方法在各类模型中的研究
                处理 NP 维下的非凸惩罚估计 MCP 惩罚、Fan 等研究超高维非凸                      一般线性模型中有变量选择,同样其他模型中也有变量
                惩罚函数变量选择问题。                                          选择。1996 年 Tibshirani 推出 COX 模型下的 lasso,2001 年
                2 高维变量选择稳健方法简介                                       Paek 提出广义线性模型下的 lasso,2007 年 Meinshausen 提



                   118...                                                                                                                                                                                                                ...119
   110   111   112   113   114   115   116   117   118   119   120