第二章模型评估与选择

2021-07-17 00:02:05 阅读：138 来源： 互联网

2.1 经验误差与过拟合

1.误差
在这里插入图片描述
2.
m个样本样本，a个分类错误

错误率：分类错误的样本数占样本总数的比例
E = a / m E = a / m E=a/m
准确率、精度：
1 − E 1-E 1−E
我们实际希望得到的是在新样本上模型表现好的学习器。降低经验误差很容易，有些经验误差甚至为0，遗憾的是大多数这种情况都是不好的。

过拟合：

把训练样本自身特点当做潜在样本（需要被泛化的新样本）具有的一般性质。比较难解决

出现原因：学习能力过于强大，把不太一般的特点给学到了

欠拟合：

对样本的一般性质尚未学好。相对好解决

出现原因：学习能力低下

在这里插入图片描述

4.模型选择：理想的解决方案是对模型进行泛化误差评估，选择泛化误差小的模型。

2.2 评估方法

通常才用一个“测试集”来测试学习器对新样本的判别能力，然后以测试集上的“测试误差”作为泛化误差的近似，从而对模型作出评估。

测试集选取要求

从样本真实分布中独立同分布采样得到，尽可能与测试集相斥。

留出法

从数据集D中划分二个互斥集合，S、T。即：
D = S ∪ T , S ∩ T = ∅ D=S\cup T,S\cap T =\varnothing D=S∪T,S∩T=∅
在S上训练出模型，用T来评估测试误差，作为泛化误差的估计。

**注意：**训练、测试集划分要尽量保持数据分布的一致性，避免因数据划分过程引入额外偏差。

分层采样

从抽样角度看待数据集划分，保留类别比例的采样方式。避免了因为S/T样本类别比例差别大，而产生额外的偏差。

综上，单次采用留出法划分数据集往往不够稳定可靠，在使用留出法时，一般采用若干次随机划分、重复进行实验评估后取平均值作为留出法的评估效果。

交叉验证法

标签：误差,泛化,模型,样本,划分,测试,第二章,评估
来源： https://blog.csdn.net/m0_48616382/article/details/118832070

本站声明： 1. iCode9 技术分享网（下文简称本站）提供的所有内容，仅供技术学习、探讨和分享；
2. 关于本站的所有留言、评论、转载及引用，纯属内容发起人的个人观点，与本站观点和立场无关；
3. 关于本站的所有言论和文字，纯属内容发起人的个人观点，与本站观点和立场无关；
4. 本站文章均是网友提供，不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属；如您发现该文章侵犯了您的权益，可联系我们第一时间进行删除；
5. 本站为非盈利性的个人网站，所有内容不会用来进行牟利，也不会利用任何形式的广告来间接获益，纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。

ICode9