1. 研究目的与意义
随着大数据时代的到来,人们会经常遇到各种各样的数据,作为候选的解释变量也越来越多。在进行回归建模时,如果模型中包含太多无用的自变量,会使模型存在偏差,降低估计的准确性以及模型的可解释性,因此如何为回归模型选择重要的自变量成为许多统计工作者的研究方向。
在线性回归分析中,当数据共线性时会使得回归问题变为一个不适定问题,从而导致问题求解缺乏稳定性与可靠性。为了解决此缺陷,我们需要将不适定问题转化为适定问题,这时我们通常会在损失函数基础上加上一个正则化项。lasso回归采用一范数作为正则项使参数的非零个数最少,也即进行变量选择。lasso是基于惩罚方法对样本数据进行变量选择,通过对原本的系数进行压缩,将原本很小的系数直接压缩至0,从而将这部分系数所对应的变量视为非显著变量,将不显著的变量直接舍弃。
roberttibshiran(1996)提出了最小绝对收缩和选择算子(least absolute shrinkageand selection operator),简称lasso。它在统计学方面得到了广泛的关注,主要是因为lasso相对于传统方法具有诸多优势。因此许多统计学家开始研究它的算法。efron等人提出了最小角回归算法(least angle regression),它能够较简便的求解lasso,该算法的提出简化了求解过程,使得lasso越来越受欢迎。基于lasso概念简单、高效快速的特点,使lasso成为很受推崇的一种方法,随后很多统计学家又接连提出了一些改进lasso方法。fan和liu提出了一个简称为scad(smoothly clipped absolute deviation)的方法。zou和hastie发现lasso估计并非理想的方法,它由于压缩力度较大变量保留个数较少,从而会导致模型非常稀疏。因此,他们提出了一个“elastic net”的二次惩罚模型,它可以很好的解决变量数目大于样本容量问题。tibshirani和saunders认为lasso方法忽略了因素之间的次序作用只是关心单个系数的压缩,随后他们提出了fused lasso估计,该估计方法能够产生序列相关问题的稀疏解,满足了模型系数的稀疏性要求。yuan和lin提出了“graphical lasso”的方法,wang和leng研究了adaptive group lasso方法,可以用来处理离散型自变量的选择模型相关问题。meinshansen发现lasso方法的收敛率很低,因此他提出了relaxed lasso估计,可以减缓lasso方法压缩系数的程度,提高收敛率。
2. 研究内容和问题
基本内容:
在线性回归分析中,当数据共线性时会使得回归问题变为一个不适定问题,从而导致问题求解缺乏稳定性与可靠性。为了解决此缺陷,我们需要将不适定问题转化为适定问题,这时我们通常会在损失函数基础上加上一个正则化项。lasso回归采用一范数作为正则项使参数非零个数最少。本课题拟学习lasso回归模型以及相关的应用并与其相关模型进行比较,以此对lasso回归模型做一个比较细致的了解。
预计解决的难题:
3. 设计方案和技术路线
(1)查阅有关文献和资料,了解相关的基础知识;
(2)熟悉Lasso回归模型并给出相应的程序代码;
(3)给出具体的应用。4. 研究的条件和基础
本课题的指导者近年来主要从事数值代数及统计计算方面的研究,对所从事的研究方向的发展有一定的了解。
统计专业的学生具备一定的概率统计以及数值优化的相关知识,并具有一定的计算机应用能力和文献检索能力;学校图书馆和校园网有比较丰富的图书资料。
综上所述,完成本课题研究的基本条件已基本具备。
课题毕业论文、文献综述、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。