亲爱的MBA智库百科用户:


过去的17年,百科频道一直以免费公益的形式为大家提供知识服务,这是我们团队的荣幸和骄傲。 然而,在目前越来越严峻的经营挑战下,单纯依靠不断增加广告位来维持网站运营支出,必然会越来越影响您的使用体验,这也与我们的初衷背道而驰。 因此,经过审慎地考虑,我们决定推出VIP会员收费制度,以便为您提供更好的服务和更优质的内容。


MBA智库百科VIP会员,您的权益将包括: 1、无广告阅读; 2、免验证复制。


当然,更重要的是长期以来您对百科频道的支持。诚邀您加入MBA智库百科VIP会员,共渡难关,共同见证彼此的成长和进步!



MBA智库百科项目组
2023年8月10日
百科VIP
未登录
无广告阅读
免验证复制
1年VIP
¥ 9.9
支付方式:
微信支付
支付宝
PayPal
购买数量:
1
应付金额:
9.9
汇率换算:
1.32
美元(USD)
  • 美元(USD)
  • 加元(CAD)
  • 日元(JPY)
  • 英镑(GBP)
  • 欧元(EUR)
  • 澳元(AUD)
  • 新台币(TWD)
  • 港元(HKD)
  • 新加坡(SGD)
  • 菲律宾(PHP)
  • 泰铢(THB)

按当月汇率换算,

包含手续费

打开手机微信 扫一扫继续付款
立即开通
PayPal支付后,可能会遇到VIP权益未及时开通的情况,请您耐心等待,或者联系百科微信客服:mbalib888。
温馨提示:当无法进去支付页面时,可刷新后重试或更换浏览器
开通百科会员即视为同意《MBA智库·百科会员服务规则》

支付成功

全球专业中文经管百科,由121,994位网友共同编写而成,共计436,073个条目

过拟合

用手机看条目

出自 MBA智库百科(https://wiki.mbalib.com/)

  过拟合(Overfitting)是指为了得到一致假设而使假设变得过度严格。避免过拟合是分类器设计中的一个核心任务。通常采用增大数据量和测试样本集的方法对分类器性能进行评价。

目录

[隐藏]

过拟合的概念

  为了得到一致假设而使假设变得过度严格称为过拟合。

过拟合的定义

  给定一个假设空间H,一个假设h属于H,如果存在其他的假设h’属于H,使得在训练样例上h的错误率比h’小,但在整个实例分布上h’比h的错误率小,那么就说假设h过度拟合训练数据。[1]

过拟合的判断方法

  一个假设在训练数据上能够获得比其他假设更好的拟合, 但是在训练数据外的数据集上却不能很好地拟合数据,此时认为这个假设出现了过拟合的现象。出现这种现象的主要原因是训练数据中存在噪音或者训练数据太少。[2]

左上右上图过拟合,左下右下图不过拟合
左上右上图过拟合,左下右下图不过拟合

过拟合的常见原因

  (1)建模样本选取有误,如样本数量太少,选样方法错误,样本标签错误等,导致选取的样本数据不足以代表预定的分类规则;

  (2)样本噪音干扰过大,使得机器将部分噪音认为是特征从而扰乱了预设的分类规则;

  (3)假设的模型无法合理存在,或者说是假设成立的条件实际并不成立;

  (4)参数太多,模型复杂度过高;

  (5)对于决策树模型,如果我们对于其生长没有合理的限制,其自由生长有可能使节点只包含单纯的事件数据(event)或非事件数据(no event),使其虽然可以完美匹配(拟合)训练数据,但是无法适应其他数据集。

  (6)对于神经网络模型:a)对样本数据可能存在分类决策面不唯一,随着学习的进行,,BP算法使权值可能收敛过于复杂的决策面;b)权值学习迭代次数足够多(Overtraining),拟合了训练数据中的噪声和训练样例中没有代表性的特征。

过拟合的解决方法

  (1)在神经网络模型中,可使用权值衰减的方法,即每次迭代过程中以某个小因子降低每个权值。

  (2)选取合适的停止训练标准,使对机器的训练在合适的程度;

  (3)保留验证数据集,对训练成果进行验证;

  (4)获取额外数据进行交叉验证;

  (5)正则化,即在进行目标函数或代价函数优化时,在目标函数或代价函数后面加上一个正则项,一般有L1正则与L2正则等。

过拟合的数学解释

  首先,分类器本质上是一个数学优化问题,用最常见的最小二乘拟合举例,优化目标如下:

  「对于所有样本点,拟合函数在样本点处的函数值和样本点处实际的函数值之差的平方和最小」

  显然这是一个均方误差最小(MSE)准则。如果拟合函数足够好,那么这个函数值为零。

  我们换一种思路,假使一定要让MSE准则为零,可以得到:

  1、线性函数只能表达直线上的样本点,因此样本点不在同一条直线上的时候,上面的MSE准则函数值一定严格大于零。因此想让这个函数等于零,样本点至多不超过两个(暂不考虑解不存在的奇异情况);

  2、对于任意三个点,使用二次函数能够保证MSE准则等于零(包括三点共线的退化情况);

  ......

  n、对于任意多个点,总能找到一个足够高次数的多项式,使得对于所有点的MSE准则函数为零。

  我们称上述拟合效果为一个给定阶次多项式的「表达能力」。

  实际上在拟合过程中,多项式的表达能力并非越强越好。因为MSE准则只关注样本点处的拟合误差,因此非常强的表达能力会使得样本点之外的函数值远远偏离期望的目标,反而降低分类器的性能。

参考文献

  1. (美)Tom Mitchell.Machine Learning:机械工业出版社,2003
  2. 陈大伟,闫昭,刘昊岩 . SVD 系列算法在评分预测中的过拟合现象[J] . 山东大学学报(工学版) . 2014 . 44(3) . P15-21
本条目对我有帮助0
MBA智库APP

扫一扫,下载MBA智库APP

分享到:
  如果您认为本条目还有待完善,需要补充新内容或修改错误内容,请编辑条目投诉举报

本条目由以下用户参与贡献

M id 76ae2afea163b1ae7c664cc444f7fc33,Llyn.

评论(共0条)

提示:评论内容为网友针对条目"过拟合"展开的讨论,与本站观点立场无关。

发表评论请文明上网,理性发言并遵守有关规定。

打开APP

以上内容根据网友推荐自动排序生成

官方社群
下载APP
告MBA智库百科用户的一封信
亲爱的MBA智库百科用户: 过去的17年,百科频道一直以免费公益的形式为大家提供知识服务,这是我们团队的荣幸和骄傲。 然而,在目前越来越严峻的经营挑战下,单纯依靠不断增加广告位来维持网站运营支出,必然会越来越影响您的使用体验,这也与我们的初衷背道而驰。 因此,经过审慎地考虑,我们决定推出VIP会员收费制度,以便为您提供更好的服务和更优质的内容。 MBA智库百科VIP会员(9.9元 / 年,点击开通),您的权益将包括: 1、无广告阅读; 2、免验证复制。 当然,更重要的是长期以来您对百科频道的支持。诚邀您加入MBA智库百科VIP会员,共渡难关,共同见证彼此的成长和进步!
MBA智库百科项目组
2023年8月10日

闽公网安备 35020302032707号

添加收藏

    新建收藏夹

    编辑收藏夹

    20