问题描述:
一直7个样本点(x,y);散点图如下;现采用函数拟合已找到一个函数f(x);使其跟好的估计真实的x和y的函数关系。
从直观分析可以得出,因变量x和果变量y不成线性关系,故采用非线性函数来h(x)来拟合;有图像观察和经验,现在用最高次为5次(4次或者其他次幂也可以)的多项式作为拟合函数h(x)的结构框架。
非线性回归的线性化:
由上述拟合函数可以看出,我们有x0,x1,x2……x5 (x2代表x的2次方,由于格式的关系,没有显示上标,下同) 共计6个特征量;所以可以根据原始样本数据x,通过x的平方,立方……运算,计算出x0,x1,x2……x5各项的值,又由于拟合函数h(x)的各项系数theta(θ的引文字母表示)为常数,所以最后问题转化为多元线性回归问题。
即:已知样本点(x1,x2,x3 ,x4 ,x5,y),求拟合函数h(x)的系数theta
正则项(Regulation):
由参数theta的平方和 与 权重项参数lambda组成
因为在机器学习的一些模型中,如果模型的参数太多,而训练样本又太少的话,这样训练出来的模型很容易产生过拟合现象。因此在模型的损失函数中,需要对模型的参数进行“惩罚”,这样的话这些参数就不会太大,而越小的参数说明模型越简单,越简单的模型则越不容易产生过拟合现象。添加正则项后,应用梯度下降算法迭代优化计算时,如果参数theta比较大,则此时的正则项数值也比较大,那么在下一次更新参数时,参数削减的也比较大。可以使拟合结果看起来更平滑,不至于过拟合。
试验计算:
normalequation(标准公式法)和梯度下降法
http://www.cnblogs.com/tornadomeet/archive/2013/03/17/2964515.html
详细讲解:
不同lambda的参数theta值
从不同的lambda值可以看出,lambda值越大,参数theta值越小,因为lambda值越大,正则项越大,惩罚的程度也越大;
当lambda=0时,即无正则项的线性回归. 由于此时的优化目标是寻找最小平方误差,所以曲线对于数据样本点的拟合很好,但是这有时不能够展现更一般的趋势,这就是所说的过度拟合。
当lambda=1时 ,尽管拟合函数是五次的多项式,由于正则项的存在,不容易产生过拟合现象,且有对原始数据有一定的模拟
当lambda=10时,由于正则项系数过大,低度拟合的发生,曲线没有更随原样本点的趋势走。