从贝叶斯角度,正则项等价于引入参数
@H_301_65@
@H_301_65@
w=argmaxwp(w|D)=argmaxwp(w)p(D|w)P(@H_301_252@D)=argmaxwp(w)p(D|w)
@H_301_65@
p(w)p(D|w)=@H_829_403@@H_83_404@∏i=1Kp(wi)@H_83_404@∏i=1Np(D@H_47_502@i|w)←∑i=1Klogp(wi)+∑i=1Nlogp(Di@H_403_645@|w)
@H_301_65@
w=argminw−∑i=1Klogp(wi)−∑i=1Nlogp(Di|w)
@H_301_65@
p(wi)=N(wi|μ,σ2)=12π@H_301_994@σ2−−−−√e−(wi−μ)22σ2
@H_301_65@
−∑i=1K@H_269_1301@logp(wi)=−∑i=1Klog12πσ2−−−−√+∑i=1K(wi−μ)22σ2=const+∑i=1K(wi−μ)22σ2=const+λ∑i=1Kw2i
@H_301_65@
w=argminwλ∑i=1Kw2i−∑i=1Nlogp(Di|w)
@H_301_65@
w=argminwλ∑i=1K|wi|−∑i=1Nlogp(Di|w)
@H_301_65@
w=argminwλ∑i=1Kw2i−∑i=1Nlogp(Di|w)
@H_301_65@
−∑i=1@H_981_2502@Nlogp(Di|w)=−∑i=1Nlogθ(ynwTxn)=∑i=1Nlog(1+exp(−ynwTxn))
@H_301_65@
w=argminwλ∑i=1Kw2i+∑i=1Nlog(1+exp(−ynwTxn))
@H_301_65@
@H_890_3017@w = \arg\min_w \lambda \sum_{i=1}^K w_i^2 +\sum_{i=1}^N \log (1+\exp(-y_n w^T x_n) )
p(Di|w)=12πσ2−−−−√e−(wTxi−yi)22σ2
@H_301_65@
贝叶斯方法的参数估计
贝叶斯方法的参数估计,就是通过最大化后验概率来估计模型的参数。
假定模型参数为
后验概率的展开形式
假定如下:
- 样本独立不相关
- 模型参数独立不相关
最新的优化问题为:
参数的先验概率与正则项
当参数
优化问题的左项中,如果
这时候的优化函数为:
同样地,参数
这说明:
- L2正则,等价于参数
w 的先验分布满足均值为0的正态分布 - L1正则,等价于参数
w 的先验分布满足均值为0的拉普拉斯分布 - 拉普拉斯在0附近突出,周围稀疏,对应容易产生稀疏解的模型
模型举例
以参数
逻辑回归
所以有:
总结:逻辑回归,通过贝叶斯法最大化后验概率。在数据的概率满足逻辑函数的假设下得到了cross entropy的误差函数;在样本独立、模型参数独立、模型参数满足均值为0的高斯分布的假设下获得了L2正则项。
线性回归
线性回归,假设误差满足均值为0的高斯分布,该假设符合一般的规律。