1 L1正则化和L2正则化区别
- L1得到的是稀疏权值@H_403_37@,可以用于特征选择,假设参数服从Laplace@H_403_37@分布(贝叶斯角度理解)
- L2得到的是平滑权值@H_403_37@,因为所有权值都趋于最小,假设参数服从Gauss@H_403_37@分布,(@H_403_37@并趋于一致,因为一致时平方和,最小)
2 L1正则化稀疏解理解
2.1问题转化
2.2图形化解释
2.3其他理解
2.4 L1求导
求导方法:近端梯度下降
参考:
[1]机器学习中的范数规则化之(一)L0、L1与L2范数
http://blog.csdn.net/zouxy09/article/details/24971995/
[2]l1相比于 l2为什么容易获得稀疏解?
https://www.zhihu.com/question/37096933?sort=created
3贝叶斯角度理解正则化
http://www.jb51.cc/blog/shenxiaoming77/article/p-5011766.html
http://blog.csdn.net/zhuxiaodong030/article/details/54408786
3.1先验知识
- 正则化是对经验风险函数进行约束,可以理解引入先验知识,具有引导作用,使优化过程中倾向于选择满足约束条件梯度减小的方向进行;
- 不理解:正则化解决了逆问题的不适定性,产生的解存在、唯一、同时依赖于数据,噪声对不适定性影响弱,解不会过拟合,如果先验合适,其解倾向于符合真解,即使训练集中彼此间不相关样本很少
- L1 L2@H_403_37@正则化可以理解为模型导入了先验分布,对模型进行惩罚,L1@H_403_37@正则化引Laplace@H_403_37@分布,L2@H_403_37@正则化引入Gauss@H_403_37@分布
3.2贝叶斯理解
3.3概率论角度解释平滑与稀疏
- @H_403_37@高斯分布,对大的w@H_403_37@,概率较低,而在接近0@H_403_37@的时候,概率变换缓慢,所以对于小概率容忍较好,最终解的w@H_403_37@趋于0@H_403_37@附近
- @H_403_37@拉普拉斯分布,只有很小的w@H_403_37@,才能得到较大的概率,偏向于0@H_403_37@,更加稀疏
- @H_403_37@分析时要考虑先验,当0@H_403_37@较多时,模型偏于简单,先验会较低
3.4极大似然与后验估计
http://www.cnblogs.com/little-YTMM/p/5399532.html
- 最大后验估计可以根据经验数据,对难以观察的量进行估计,如参数估计,与最大似然不同的是,最大后验融入了估计量的先验分布,即事先知道估计量满足的分布模型,因此最大后验估计可以看作规则化的最大似然估计;
- L1 L2@H_403_37@正则化,都可以转化为:极大似然 * @H_403_37@参数的先验模型