Page 115 - 201909数码世界9.9
P. 115
科技交流
浅谈高维数据变量选择现状与方法
张凌洁
摘要:变量选择是统计分析理论中的重要内容,也是目前学者们研究的重点。本文在传统数据变量选择的基础上,介绍高维
数据变量选择方法的研究历史和研究现状,总结已有变量选择的研究成果,并在此基础上进行了总结和展望。
1 变量选择方法简介 随着科学技术的发展,人们可以搜集到物理化学、个性
从 20 世纪 60 年代至今,变量选择的研究已有不少文献与 化医疗、雾霾分析及其它领域的高维海量数据。这些数据计
资料。以 Akaike 在 1974 年提出的 AIC 准则为标志,近几十年来, 算的复杂性和高成本使得经典地变量选择方法不再适用,为
变量选择是统计学者们研究的重点,研究的方法和理论结果已 此,统计学者们开始寻找研究高维数据的变量选择方法,即
经有了相对成熟的进展。 以 lasso 为代表的惩罚似然方法(通过系数压缩来实现变量
经典的变量选择包括前进法、后退法、逐步回归法、最优 选择)。然而实际中的高维数据却含有异常值点,使得数据
回归子集法等,通过 AIC,BIC,Cp 等从候选模型中选出一个最 呈现尖峰或厚尾分布,此时的变量选择方法将不再具有优良
优子集来拟合回归模型。建立回归模型初期,引入很多相关的 性和稳健性,统计学者们提出稳健估计方法,即用具有稳健
变量以减小模型的误差;选择对因变量有明显影响的重要变量 性的损失函数来替代最小二乘损失函数,如 M- 估计、最小平
以提高模型预测的精度和可解释性。 方中位数估计和最小平方修整估计、分位数回归模型、秩回归、
实际中,经典的变量选择方法,适合模型中变量个数比 CQR 估计等。
较少的模型。但是当变量个数增多时,需要解决的问题也随 2.1 方法的提出和性质的研究
之增多。如由于要求解一个多项式复杂程度的非确定性问题, 1996 年 Tibshirani 提出一般线性模型下的 lasso 方法,
从而处理高维和海量问题时失效;对于成百上千的变量,如 开启了高维数据变量选择的研究,具有划时代的意义。Lasso
果我们选择过多的变量,则会使计算成本过大、变量选择估 可以使无明显影响变量的系数压缩为零,同时进行变量选择
计的速度减慢以及模型选择的精准度降低,也会出现过度拟 和参数估计。Lasso 在估计值较大的变量可将重要变量的系数
合现象;如果我们选择较少的变量,则会遗漏重要变量或选 压缩较小 , 而保证参数估计的准确性。但是 lasso 方法不具
择变量不当,使结果误差较大,也失去了分析研究的意义。 有 oracle 性。2004 年 Fan 得出 SCAD 具有 oracle 性质且降低
只有选取适合的变量选择方法,才能选择出有用变量,去除 了计算的复杂度。2007 年 Zhao 提出 lasso 不具有相合性也不
冗余变量,化简模型。这样既节省了计算量,也便于分析数 具有 oracle 性,Zou 对 lasso 做相同系数压缩提出 ALasso 方
据使结果更加精确,所以选择适合的变量选择方法是研究高 法,证明其在固定维数时具有 oracle 性。2010 年 Shojaie 提
维数据时的重要的步骤。 出 ALasso 中调整系数 A 值的 ALasso 是一种凸优化问题,可快
近年来,统计学者们提出用惩罚函数同时进行变量选择和 速有效地得到其全局最优解。2005 年 Zou 提出了处理基因微阵
系数估计,其基本思想就是在进行参数估计的同时,把较小的 列数据的 Elastic net 方法,对系数二次惩罚 , 使得具有组效
系数估计压缩,而将较大的系数估计保留,从而选择出重要变 应的数据可以进行有效的变量选择,且能解决高维小样本问题。
量达到变量选择的目的──正则化方法。正则化估计能大大减 2009 年 Zou 提出的 adaptive Elastic Net 具有 oracle 性质。
少计算量、克服经典变量选择方法的不稳定性。目前的惩罚方 为解决 Lasso 方法过拟合问题,2007 年 Meinshausen 引入压缩
法有:Tishirani 等提出的 Lasso、Fan 等提出的 SCAD、Zou 等 参数提出 Relaxed Lasso,2013 张凌洁等分析研究 LS+LAD 组合
提出的自适应 Lasso、Zou 等提出的 Elastic Net、Wang 等提 损失函数的高维稳健统计性质。这些方法一定程度上可以处理
出的组 Lasso、Zhao 等提出的分级 Lasso、Candes 等提出的 高维统计问题。
Dantzig Selector 以及 Xu 等提出 L1/2 正则化、Zhang 等提出 2.2 方法在各类模型中的研究
处理 NP 维下的非凸惩罚估计 MCP 惩罚、Fan 等研究超高维非凸 一般线性模型中有变量选择,同样其他模型中也有变量
惩罚函数变量选择问题。 选择。1996 年 Tibshirani 推出 COX 模型下的 lasso,2001 年
2 高维变量选择稳健方法简介 Paek 提出广义线性模型下的 lasso,2007 年 Meinshausen 提
118... ...119