对于过拟合的理解

作者: 康康 分类: 机器学习 发布时间: 2018-04-06 10:52
看了几篇知乎上的回答,可以说是风趣幽默,相当形象了!!!
解决方法就是交叉验证  或者简化特征模型
作者:知乎用户
链接:https://www.zhihu.com/question/32246256/answer/55251597
来源:知乎

补充说明:考虑到越来越多的人看到这个答案,所以有必要说明一下,这里的“局部特征”和“全局特征”,是为了方便说明问题,临时取的说法,并不是机器学习里已有严格定义的概念,大家阅读时,将其用于辅助对于“过拟合”这一现象的理解便好,切勿将其用于正式场合下对相关理论研究的阐述中,也切勿将其当作一个正式的概念(评论区中有人指出,说成“训练集和测试集数据分布不一致”可能会更准确专业一些)。
————————————————————————–
原答案:
其实不完全是噪声和假规律会造成过拟合。
(1)打个形象的比方,给一群天鹅让机器来学习天鹅的特征,经过训练后,知道了天鹅是有翅膀的,天鹅的嘴巴是长长的弯曲的,天鹅的脖子是长长的有点曲度,天鹅的整个体型像一个“2”且略大于鸭子.这时候你的机器已经基本能区别天鹅和其他动物了。
(2)然后,很不巧你的天鹅全是白色的,于是机器经过学习后,会认为天鹅的羽毛都是白的,以后看到羽毛是黑的天鹅就会认为那不是天鹅.
(3)好,来分析一下上面这个例子:(1)中的规律都是对的,所有的天鹅都有的特征,是全局特征;然而,(2)中的规律:天鹅的羽毛是白的.这实际上并不是所有天鹅都有的特征,只是局部样本的特征。机器在学习全局特征的同时,又学习了局部特征,这才导致了不能识别黑天鹅的情况.
————————————————–理论总结分割线—————————————-
(1)对于机器来说,在使用学习算法学习数据的特征的时候,样本数据的特征可以分为局部特征和全局特征,全局特征就是任何你想学习的那个概念所对应的数据都具备的特征,而局部特征则是你用来训练机器的样本里头的数据专有的特征.
(2)在学习算法的作用下,机器在学习过程中是无法区别局部特征和全局特征的,于是机器在完成学习后,除了学习到了数据的全局特征,也可能习得一部分局部特征,而习得的局部特征比重越多,那么新样本中不具有这些局部特征但具有所有全局特征的样本也越多,于是机器无法正确识别符合概念定义的“正确”样本的几率也会上升,也就是所谓的“泛化性”变差,这是过拟合会造成的最大问题.
(3)所谓过拟合,就是指把学习进行的太彻底,把样本数据的所有特征几乎都习得了,于是机器学到了过多的局部特征,过多的由于噪声带来的假特征,造成模型的“泛化性”和识别正确率几乎达到谷点,于是你用你的机器识别新的样本的时候会发现就没几个是正确识别的.
(4)解决过拟合的方法,其基本原理就是限制机器的学习,使机器学习特征时学得不那么彻底,因此这样就可以降低机器学到局部特征和错误特征的几率,使得识别正确率得到优化.
(5)从上面的分析可以看出,要防止过拟合,训练数据的选取也是很关键的,良好的训练数据本身的局部特征应尽可能少,噪声也尽可能小.

欠拟合:光看书不做题觉得自己会了,上了考场啥都不会。

过拟合: 做课后题全都能做对,上了考场还是啥都不会。

差不多的拟合: 做了题,背了老师给画了重点,考试60分过了。

优秀的拟合: 课后题全能作对,考试100分。

特征选择就是划重点。

那种不上课不做题考试前看书也能考出高分的学神是自带特征选择功能和强大拟合能力的BUG

哦对了,无师自通的小神童们是自适应能力加泛化能力强。

作者:知乎用户
链接:https://www.zhihu.com/question/32246256/answer/77697720
来源:知乎

欠拟合:光看书不做题觉得自己会了,上了考场啥都不会。

过拟合: 做课后题全都能做对,上了考场还是啥都不会。

差不多的拟合: 做了题,背了老师给画了重点,考试60分过了。

优秀的拟合: 课后题全能作对,考试100分。

特征选择就是划重点。

那种不上课不做题考试前看书也能考出高分的学神是自带特征选择功能和强大拟合能力的BUG

哦对了,无师自通的小神童们是自适应能力加泛化能力强。

 

作者:知乎用户
链接:https://www.zhihu.com/question/32246256/answer/77697720
来源:知乎
著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。

发表评论

电子邮件地址不会被公开。 必填项已用*标注