小结
- L0范数和L1范数均可实现稀疏,但L0很难优化求解(NP难问题),而L1是L0的最优凸近似,且比L0更易优化求解
参数稀疏的好处
- 特征选择(feature selection)
- 可解释性高(interpretability)
L2范数实现了对模型空间的限制,可防止过拟合,提升模型的泛化能力
- L2范数不但可防止过拟合,还可以让优化求解变得稳定和快速
- 总结
- L1-regularization能产生稀疏性,会趋向于产生少量的特征,而其他的特征都是零
- L2会选择更多的特征,这些特征都会接近于0
- Lasso在特征选择中非常有用,而Ridge仅是一种正则化而已
直观展示L1和L2的区别