正则化、归一化含义解析

正则化（Regularization）、归一化（也有称为正规化/标准化，Normalization）是对数据尽心预处理的方式，他们的目的都是为了让数据更便于我们的计算或获得更加泛化的结果，但并不改变问题的本质，下面对他们的作用分别做一下科普，如有不正确之处，求指正！

前言

需要注意的是，这些名词在不同的领域含义也有点区别，这里仅仅指的是在进行机器学习研究的时候所使用的意义。

一、正则化（Regularization）

李航博士在《统计学习方法》中提到，统计学习的三要素是模型、策略和算法，在机器学习领域，这个“模型”就是我们要求解的概率分布或决策函数。

假设我们现在要求一个逻辑回归问题，首先我们要做的是假设一个函数，可以覆盖所有的可能： y=wx ，其中w为参数向量， x 为已知样本的向量，如果用$y{i} 表示第 i 个样本的真实值，用 f(x{i})$表示样本的预测值，那么我们的损失函数可以定义为:

L (y i, @H_403_232@f (x i)) = y i - s i g m o i d (x i)

这里可以不用关心这个函数是什么意思，就知道代表误差就行了。对于该模型 y=wx 的所有样本的损失平均值成为“经验风险”(empirical risk)或”经验损失”(empirical loss)。很显然，经验风险最小化（empirical risk minimization,ERM）就是求解最优模型的原则。为了达到这个目的，模型的设定会越来越复杂，最后造成该模型只适用于当前的样本集（即over-fitting，过拟合）。

为了解决过拟合问题，通常有两种办法，第一是减少样本的特征（即维度），第二就是我们这里要说的”正则化“（又称为”惩罚“,penalty）。

正则化的一般形式是在整个平均损失函数后增加一个正则项(L2范数正则化，也有其他形式的正则化，他们的作用也不同)：

后面的$\sum{i}^{n}\lambda w{i}^2

就是正则化项，其中 \lambda$越大表明惩罚粒度越大，等于0表示不做惩罚，N表示所有样本的数量，n表示参数的个数。

上面提到，我们还有其他形式的正则化，如L1范式正则化，可以用来筛选参数，这个日后再通过额外的文章来介绍。

二、归一化（Normalization）

假设我们把该问题作为一个逻辑回归问题

y=wx 来求解，使用梯度下降来求解

w 的最优值。

效率比较高的梯度下降方法中，每次下降应该尽可能的往最优点靠近，假设下降距离函数为：

正则化、归一化含义解析

前言

一、正则化（Regularization）

二、归一化（Normalization）

后记

猜你在找的正则表达式相关文章