>By joey周琦
正则化
假设目标函数为
而为了避免模型的过拟合(overfitting),所以需要在这里进行正则化(regularization)[2]。正则化的主要思想就是控制系数
二阶(L2):
一阶(L1):
那么在迭代优化时:
L2的更新公式为:
L1的更新公式为:
L1 正则化在0处不可导,但是可以采用“次梯度”替代。在batch(批量数据)模式下,L1更容易产生稀疏的解,即很多不重要的特征的系数会比较接近0,所以在从而可以达到特征选择的作用。在梯度下降优化中一般偏导数的公式是一个包含所有样本的加和形式如下
可以看出梯度下降法的一次迭代即要用到所有的训练数据,这样的迭代速度过慢。为了提高更新速度,随机梯度下降法将上述的全量加和梯度,近似为了单样本的梯度如下:
对于凸优化问题,相对于梯度下降法,在学习率适当的收敛和一些温和的假设下,随机梯度下降法更快速接近全局最优解[3]。
在线(online)模式,即以增量的形式更新,数据一条一条过来的时候,梯度下降法的batch模式无法应用 ,而应该使用随机梯度下降法。对于随机梯度下降法,L1正则化也得不到比较稀疏的解。所以在线模式中想要产生稀疏特征,则要利用下面讲的一些在线优化的方法。
在线优化
简单截断法
以
其中
其中
截断梯度法(Truncated Gradient,TG)
为了避免上述too aggressive的截断方法,TG采用了一种比较温和的截断方法
以
其中
可以看出TG方法又增加了一个参数
参考 1 在线最优化求解,冯扬 2 wiki,Regularization (mathematics) 3 Stochastic gradient descent - Wikipedia