1、什么是过拟合
过拟合现象:通常我们在分类任务过程中都会遇到过拟合这种现象,具体表现为,当我们增加训练集的数据时,测试集的分类效果反而降低,这种现象称为过拟合,或者叫过配。
过拟合的本质:是由于监督学习问题的不稳定,表现为三点
(1)、有限的训练数据不能完全反映出一个模型的好坏,然而我们不得不在这有限的数据集上挑选模型,因此我们完全有可能挑选到训练集上表现好而在测试集上表现很差的模型,也无法知道模型在测试集上的表现。
(2)、如果模型空间(也叫模型复杂度)足够,当我们有很多待选模型的时候,我们挑到和任务数据集对应最好的模型的概率就小得多了。
(3)、如果我们想训练集的效果表现很好,就需要挑选足够多的模型,否则模型空间很小,就很可能不存在能够拟合很好的模型。
2、正则化为什么能够防止过拟合
在机器学习中,数据中往往会存在噪声,当我们用模型去拟合带有噪声的数据时,往往将模型便得更加复杂而正则化和惩罚因子,目的是为了平衡模型复杂度和损失函数之间的关系,从而得到更优的测试结果。为了解释正则化,我准备引入一个公式来阐述正则化的概念。假设目标函数如:
,为了让目标函数值最小。其中,r(d)可以理解为有d的参数进行约束,或者 D 向量有d个维度。
咱们可以令: f() = ,其中f(x)为什么要用多项式的方式模拟,是根据泰勒公式展开式进行,任何函数都可以用多项式的方式趋近,log x,lnx,255);">等等都可以去趋近,而不同的函数曲线其实就是这些基础函数的组合,理所当然也可以用多项式去趋近。在分类过程中,产生过拟合的原因来源f(x),不断增多,同样等数量增多,在强行解释一下,x表示我们输入特征,而W使我们学习的系数。
如何防止过拟合的? 参考链接:https://www.zhihu.com/question/20924039/answer/131421690
我们首先想到就是控制N的数量,也就是要N最小化,其实也就是要W向量中项的个数最小化。
为什么我们考虑W而不是x ? 因为你不知道下一个样本想x输入的是什么,无法考虑x。在下一次输入次测试样本的输入,计算(学习)出了W.就是这么个道理。
r(d) = “让W向量中项的个数最小化” =
所以为了防止过拟合,咱们除了需要前面的相加项最小,用公式=代替,使其最小,我们还需要让 r(d)=最小,所以,为了同时满足两项都最小化,咱们可以求解让和r(d)之和最小,这样不就同时满足两者了吗?如果r(d) 过大,再小也没用;相反r(d)再小,太大也失去了问题的意义。
就是为什么需要有个r(d)项,为什么r(d)能够防止过拟合原因了。
0-范式:非0的个数
1-范数:为绝对值之和
,即向量元素绝对值之和,matlab调用函数norm(x,1) 。
2-范数:就是通常意义上的模
,Euclid范数(欧几里得范数,常用计算向量长度),即向量元素绝对值的平方和再开方,matlab调用函数norm(x,2)。
-范数:
,即所有向量元素绝对值中的最大值,matlab调用函数norm(x,inf)。
-范数:
即所有向量元素绝对值中的最小值,matlab调用函数norm(x,-inf)。
p-范数:
3、模型的泛化能力
泛化能力(generalization ability): 是指机器学习对新鲜样本的适应能力。学习的目的是学到隐含在数据对背后的规律,对具有统一规律的学习集以外的数据,经过训练的网络也能给出合适的输出,改能力也称泛化能力。
通常期望经训练样本训练的网络具有较强的泛化能力,也就是对新输入给出合理响应的能力。应当指出并非训练的次数越多越能得到正确的输入输出映射关系。网络的性能主要用它的泛化能力来衡量。
以我的理解,模型的泛化能力可以类比到程序的健壮性。
怎么提高模型的泛化能力
与数据集无关的方法:
- 加入正则项
- 数据中加入噪音,
- 训练多个模型,用模型融合的方式训练数据
根据数据本身的结构特征,构造一些方法:
- 特征选取,减少输入参数的数量
- 特征提取,把多个特征合并为少数几个特征如(PCA),同样为了减少输入参数的个数
- 根据已知的数据性质,构造新的样本。
- 选取合适的神经网络,比如图像问题选取CNN,而时序问题选取RNN或者LSTM