机器学习中常常会提到或者用到正则化项,在对目标函数求最优值时,常常通过L1,L2等正则化项来防止过拟合现象,对于正则化可以用来防止模型过拟合现象的问题,展开下讨论,加深理解。
先看着两句话
1. 正则化就是对最小化经验误差函数上加约束,这样的约束可以解释为先验知识(正则化参数等价于对参数引入先验分布)。约束有引导作用,在优化误差函数的时候倾向于选择满足约束的梯度减少的方向,使最终的解倾向于符合先验知识(如一般的l-norm先验,表示原问题更可能是比较简单的,这样的优化倾向于产生参数值量级小的解,一般对应于稀疏参数的平滑解)。
@H_404_23@
2. 正则化解决了逆问题的不适定性,产生的解是存在,唯一同时也依赖于数据的,噪声对不适定的影响就弱,解就不会过拟合,而且如果先验(正则化)合适,则解就倾向于是符合真解(更不会过拟合了),即使训练集中彼此间不相关的样本数很少。
@H_404_23@
@H_404_23@
从1中可以看出,L1,L2正则化项可以认为是为模型导入了先验分布,对模型向量进行“惩罚”,从而避免单纯最小二乘问题的过拟合问题。正则化项本质上是一种先验信息,整个最优化问题从贝叶斯观点来看是一种贝叶斯最大后验估计,其中正则化项对应后验估计中的,损失函数似然函数,两者的乘积即对应贝叶斯最大后验估计的形式,如果你将这个贝叶斯最大后验估计的形式取对数,即进行极大似然估计,你就会发现问题立马变成了损失函数+正则化项的最优化问题形式。
以Lasso为例:Lasso中中的目标函数即相当于如下的后验概率:
@H_404_23@
@H_404_23@
@H_404_23@
@H_404_23@
@H_404_23@
@H_404_23@
其中
@H_404_23@
@H_404_23@
@H_404_23@
(47)是似然函数,对应于Lasso中的损失函数,(48)是先验概率,相当于Lasso中的正则化项。可以看出,Lasso的正则化项从贝叶斯观点来看就是以Laplace先验信息,并且采用不同的先验信息,可得到不同的结果。因此,你可以设计其它的先验信息构成新的正则化项。例如,Group Lasso以变量的组结构为先验信息构成的正则化项可实现变量组选择。 @H_404_23@ @H_404_23@
@H_404_23@
@H_404_23@
正则化 (regularization),常见的介绍方式是:解决 overfitting 最常用的办法就是 regularization 。
两个基本例子:ridge regression 与 LASSO (least absolute shrinkage and selection operator) 。 @H_404_23@
1. ridge regression :
采用L2 regularizer,使得模型的解偏向于 norm 较小的 W,通过限制 W 的 norm 的大小实现了对模型空间的限制,从而在一定程度上避免了 overfitting 。
不过 ridge regression 并不具有产生稀疏解的能力,得到的系数 仍然需要数据中的所有特征才能计算预测结果,从计算量上来说并没有得到改观。 @H_404_23@
@H_404_23@
@H_404_23@
(47)是似然函数,对应于Lasso中的损失函数,(48)是先验概率,相当于Lasso中的正则化项。可以看出,Lasso的正则化项从贝叶斯观点来看就是以Laplace先验信息,并且采用不同的先验信息,可得到不同的结果。因此,你可以设计其它的先验信息构成新的正则化项。例如,Group Lasso以变量的组结构为先验信息构成的正则化项可实现变量组选择。 @H_404_23@ @H_404_23@
@H_404_23@
@H_404_23@
正则化 (regularization),常见的介绍方式是:解决 overfitting 最常用的办法就是 regularization 。
两个基本例子:ridge regression 与 LASSO (least absolute shrinkage and selection operator) 。 @H_404_23@
1. ridge regression :
采用L2 regularizer,使得模型的解偏向于 norm 较小的 W,通过限制 W 的 norm 的大小实现了对模型空间的限制,从而在一定程度上避免了 overfitting 。
不过 ridge regression 并不具有产生稀疏解的能力,得到的系数 仍然需要数据中的所有特征才能计算预测结果,从计算量上来说并没有得到改观。 @H_404_23@