机器学习笔记（三）——正则化最小二乘法

一. 模型的泛化与过拟合

在上一节中，我们的预测函数为：

f (x; ω) = ω T x

$f(x;\omega) = \omega^Tx$
其中，

x = [x 1], ω = [ω 1 ω 0]

$x=\begin{bmatrix} x\\ 1 \end{bmatrix},\omega=\begin{bmatrix} \omega_1\\ \omega_0 \end{bmatrix}$
上述称为线性模型，我们也可以将

x $x$ 扩展为：

x = ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ x n ⋮ x 2 x 1 ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥, ω = ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ω n ⋮ ω 2 ω 1 ω 0 ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥

$x=\begin{bmatrix} x^n\\ \vdots\\ x^2\\ x\\ 1 \end{bmatrix},\omega=\begin{bmatrix} \omega_n\\ \vdots\\ \omega_2\\ \omega_1\\ \omega_0 \end{bmatrix}$
那么预测函数

f(x;w) $f(x;w)$ 就变为一个非线性函数。预测函数的次数越高，越能准确地拟合训练数据。在某些情况下，高次预测函数会拟合大部分或全部训练数据，这时，我们就说这个模型过拟合。因为这种过度拟合训练数据的模型对未知数据的预测就不是那么准确了，它对训练数据外的其它数据是相当敏感的，也就是说它不够泛化。所以我们需要一个最好的模型，也就是说我们需要的模型误差要最小，而且还有一定的泛化能力。

二. 正则化最小二乘法

要避免模型过拟合，我们可以选择部分数据进行模型的训练，也可以利用正则化方法。一般来讲，正则化，有L1正则和L2正则，它们都是基于 $L_p$ 范数的:

L p = (\sum i n | x i | p) 1 p

$L_p=(\sum_i^n\vert x_i\vert ^p)^\frac{1}{p}$
这里我们选择模型的复杂度为L2正则：

∑niω2i $\sum_i^n\omega_i^2$ ,写为向量形式为：

ωTω。 $\omega^T\omega。$ 关于正则化的详细内容，可以参考：
http://www.jb51.cc/article/p-ewwyltlp-ue.html

那么我们新的损失函数可以写为：

L' = L + λ ω T ω = 1 N (ω T X T X ω - 2 ω T X T y + y T y) + λ ω T ω

$\begin{align} L' &= L+\boldsymbol{\lambda\omega^T\omega}\\ &=\frac{1}{N}(\boldsymbol{\omega^TX^TX\omega-2\omega^TX^Ty+y^Ty})+\lambda\boldsymbol{\omega^T\omega} \end{align}$
同样的对上式求偏导数：

\partial L \partial ω = @H_385_1 301 @1 @H_ 502 _1307@N (2 X T X ω - 2 X T y) + 2 λ ω = 0 \Rightarrow (X T X + N λ I) ω = X T y \Rightarrow ω = (@H_366_1 502 @X T X + N λ I) - 1 X T y

$\frac{\partial{L}}{\partial{\boldsymbol{\omega}}}=\frac{1}{N}(2\boldsymbol{X^TX\omega-2X^Ty})+2\lambda\boldsymbol{\omega}=0\\ \Rightarrow\\ (\boldsymbol{X^TX}+N\lambda\boldsymbol{I})\omega=\boldsymbol{X^Ty}\\ \Rightarrow\\ \boldsymbol{\omega}=(\boldsymbol{X^TX}+N\lambda\boldsymbol{I})^{-1}\boldsymbol{X^Ty}$
选择

λ $\lambda$ 的值就是选择多项式拟合函数时，折中过拟合/泛化的过程。值太小，过拟合；值太大，不利于数据的逼近。至于

λ $\lambda$ 的选择，可以采用交叉验证获得最好预测性能的

λ 。

机器学习笔记（三）——正则化最小二乘法

一. 模型的泛化与过拟合

二. 正则化最小二乘法

猜你在找的正则表达式相关文章