[转帖]BAT面试官最喜欢问的问题之一:怎么解决过拟合和欠拟合情况?_招聘求职_Weblogic技术|Tuxedo技术|中间件技术|Oracle论坛|JAVA论坛|Linux/Unix技术|hadoop论坛_联动北方技术论坛  
网站首页 | 关于我们 | 服务中心 | 经验交流 | 公司荣誉 | 成功案例 | 合作伙伴 | 联系我们 |
联动北方-国内领先的云技术服务提供商
»  游客             当前位置:  论坛首页 »  生活服务区 »  招聘求职 »
总帖数
1
每页帖数
101/1页1
返回列表
0
发起投票  发起投票 发新帖子
查看: 2789 | 回复: 0   主题: [转帖]BAT面试官最喜欢问的问题之一:怎么解决过拟合和欠拟合情况?        上一篇   下一篇 
liuliying930406
注册用户
等级:中校
经验:2027
发帖:210
精华:0
注册:2018-10-9
状态:离线
发送短消息息给liuliying930406 加好友    发送短消息息给liuliying930406 发消息
发表于: IP:您无权察看 2018-10-16 11:27:13 | [全部帖] [楼主帖] 楼主


转自公众号码渣小姐姐


在模型评估与优化过程中,我们经常会遇到过拟合和欠拟合的情况,那么到底什么是过拟合和欠拟合。

过拟合是指模型对于训练集数据呈现过当的情况,从评估指标上看就是模型在训练集上表现的很好,但是在测试集合新的数据上就表现得很差。

欠拟合是指在训练集上和测试集上表现得都不好的情况。

image.png

BAT面试官最喜欢问的问题之一:怎么解决过拟合和欠拟合情况?

左图就是欠拟合的情况,虚线没有很好的区分数据类别,不能够很好的拟合数据,右图的模型过于复杂,把噪声数据的特征也学习到模型中,导致模型泛化能力下降,在后期应用过程中很容易输出错误的预测结果。


想要降低过拟合的风险,该怎么办?

1 从数据入手,获得更多的训练数据。使用更多的训练数据是解决过拟合问题最有效的方法,更多的数据能让模型学习到更多有效的特征,减少噪声的影响。在实际的工作中,直接增加训练数据有一定困难,但是可以通过一定的规则来扩充。比如,在图像分类问题上,通过图像的平移、旋转、缩放等方式扩充数据,更复杂的方法,还可以使用生成对抗网络来合成大量的新的训练数据。

2 降低模型的复杂度。在数据较少的时候,模型过于复杂是产生过拟合的主要原因,适当的降低模型复杂度可以避免模型拟合过多的噪声数据。例如,在决策树模型中,适当的剪枝或者降低树的深度;在神经网络模型中减少网络层数、神经元个数等。

3 正则化方法。给模型的参数加上一定的正则约束,比如将权值的大小加入到损失函数中。

4 集成学习方法。集成学习是把多个模型集成在一起,来降低单一模型的过拟合风险,比如Bagging方法。

想要降低欠拟合的方向,该怎么办?

1 扩展新的特征。当特征不足或者现有的特征数据跟样本标签的相关性不强时,很容易处罚欠拟合现象。通过挖掘上下文特征,组合特征等行的特征,一般都会得到不错的效果。在深度学习潮流中,有很多模型可以帮助完成特征工程,比如因子分解机、梯度提升决策树、Deep-crossing等都可以成为扩展特征的方法。

2 增加模型的负责度。简单模型的学习能力较差,通过增加模型的负责度可以使模型拥有更强的拟合能力。例如,在线性模型中添加高次项,在神经网络模型中增加网络层数或者神经元个数等。

3 减小正则化系数。正则化是用来防止过拟合的,当模型出现欠拟合的时候,需要根据实际情况减小正则化系数。





赞(0)    操作        顶端 
总帖数
1
每页帖数
101/1页1
返回列表
发新帖子
请输入验证码: 点击刷新验证码
您需要登录后才可以回帖 登录 | 注册