七、正则化

7.1 过拟合的问题

参考视频: 7 - 1 - The Problem of Overfitting (10 min).mkv

过拟合如何处理：
1. 丢弃不能帮助我们正确预测的特征。
2. 正则化。保留所有的特征，但是减少参数的大小。

7.2 代价函数

参考视频: 7 - 2 - Cost Function (10 min).mkv
正则化的基本方法：在一定程度上减小参数 $\theta$ 的值。
修改后的代价函数：

J (θ) = 1 2 m [\sum @H_301_98@ i = 1 m ((h θ @H_502_145@(x i) - y i) 2 + λ \sum @H_301_98@ j = 1 n θ 2 j)]

$J(\theta)= \frac 1 {2m}[\sum^m_{i=1}((h_\theta(x^i)-y^i)^2 + \lambda\sum^n_{j=1}\theta_j^2)]$

λ @H_283_301@\lambda : 正则化参数 regularization parameter

如果选择的正则化参数 $\lambda$ 过大，则会把所有的参数都最小化了，导致模型变成 $h_\theta(x)=\theta_0$ ，是一条红线，造成欠拟合。

7.3 正则化线性回归

参考视频: 7 - 3 - Regularized Linear Regression (11 min).mkv

对于线性回归的求解，我们之前推导了两种学习算法：一种基于梯度下降，一种基于正规方程。
正则化线性回归的代价函数为：

@H_440_404 @ J (θ) = 1 2 m [\sum @H_301_98@ i = 1 m (h θ @H_330_502 @(x i) - y i) 2 + λ \sum @H_301_98@ j = 1 n θ 2 j]

$J(\theta) = \frac1{2m}[\sum^m_{i=1}(h_\theta(x^i)-y^i)^2 + \lambda\sum^n_{j=1}\theta^2_j]$

如果我们要使用梯度下降令这个函数最小化， $\theta_0$ 不需要正则化，所以梯度下降算法将分为两种情形：
Repeat until convergence {

θ 0 : = θ 0 - α 1 m \sum ((h θ (x i) - y i) * x i 0) @H_404_849@

$\theta_0 := \theta_0 - \alpha\frac1m\sum((h_\theta(x^i)-y^i)*x_0^i)$

θ j : = θ j - α 1 m \sum ((h θ (x i) - y i) * x i j + λ m θ j) @H_404_849@

$\theta_j := \theta_j - \alpha\frac1m\sum((h_\theta(x^i)-y^i)*x_j^i + \frac \lambda m \theta_j)$ (for j = 1,2,…,n)
}

对上面的算法中j = 1,n时的更新式子进行调整可得：

θ j : = θ j (1 - α λ m) - α 1 m \sum @H_301_98@ i = 1 m (h θ (x i) - y i) @H_670_1 301 @ x i j

$\theta_j := \theta_j(1-\alpha\frac\lambda m) - \alpha \frac 1 m \sum^m_{i=1}(h_\theta(x^i) - y^i) x_j^i$

用正规方程来求解正则化线性模型：

θ = (X T X + λ ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ 0 @H_124_1 502 @1 @H_301_1534@ 1 . . 1 ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥) - 1 X T y

$\theta = (X_TX+\lambda\begin{bmatrix} 0& & & & & \\ &1 & & & & \\ & &1 & & & \\ & & &. & & \\ & & & &. & \\ & & & & &1 \end{bmatrix})^-1 X^Ty$
图中的矩阵尺寸为(n+1)*(n+1)。

7.4 正则化的逻辑回归模型
参考视频: 7 - 4 - Regularized Logistic Regression (9 min).mkv
逻辑回归增加一个正则化的表达式后的代价函数：

J (θ) = - [1 m \sum @H_301_98@ i = 1 m (y i * log @H_403_1976@(h θ (x i)) + (1 - y i) * log (1 @H_404_2056@- h θ (x i)))] + λ 2 m \sum @H_301_98@ j = 1 n θ 2 j

$J(\theta)=-[\frac1m\sum^m_{i=1}(y^i*\log(h_\theta(x^i))+(1-y^i)*\log(1-h_\theta(x^i)))]+\frac\lambda{2m}\sum^n_{j=1}\theta_j^2$

要最小化该代价函数，通过求导，得出梯度下降算为：
Repeat until convergence{

θ 0 : = θ 0 - α 1 m \sum @H_301_98@ @H_676_2 301 @i = 1 n ((h θ (x i) - y i) * x i @H_679_2 403 @0)

$\theta_0 := \theta_0 - \alpha\frac1m\sum^n_{i=1}((h_\theta(x^i)-y^i)*x_0^i)$

θ j : = θ j - α 1 m \sum @H_301_98@ i = 1 n ((h θ (x i) - y i) * x j 0 + λ m θ j)

$\theta_j := \theta_j - \alpha\frac1m\sum^n_{i=1}((h_\theta(x^i)-y^i)*x_0^j + \frac\lambda m \theta_j)$
for j = 1,n
}
注：
看上去同线性回归一样，但是知道

hθ(x)=g(θTX) $h_\theta(x)=g(\theta^TX)$ ，所以与线性回归不同。
注意: 1.虽然正则化的逻辑回归中的梯度下降和正则化的线性回归中的表达式看起来一样,但由于两者的 h(x)不同所以还是有很大差别。 2. θ0 不参与其中的任何一个正则化。

机器学习笔记_07正则化(Regularization)

七、正则化

7.1 过拟合的问题

7.2 代价函数

7.3 正则化线性回归

猜你在找的正则表达式相关文章