三、算法分类
监督学习
-
分类预测
- 根据数据样本上抽取出的特征,判定其属于有限个类别中的哪一个。
-
回归分析
- ,预测连续值的结果。
- 如电影票房值;某城市房价的具体值。
无监督学习
-
聚类
-
关联规则
强化学习
- Q-learning
- 时间差学习
四、ML模型评估与选择
——以房产价格预测为例
4.1经验误差、过拟合
经验误差,指的是模型在训练集上的误差,empirical error:
- 即参考答案与预估结果的差值平方,再平均,作为概述的经验误差。
- 训练好的模型,需要在测试数据、真实环境中平稳地完成预估。否则就是过拟合
4.2偏差与方差
-
例如,用平均价格(这是极其简单的模型)来预估,显然其偏差十分大:
- 这里的平均价格模型简单、抖动小,但是学习能力极差。
- 这里的平均价格模型简单、抖动小,但是学习能力极差。
-
例如,复杂模型的偏差:
- 会小,因为平均后最大值和最小值会相互抵消。
- 会小,因为平均后最大值和最小值会相互抵消。
-
方差同理:
-
复杂模型一般具有:较低的偏差,较高的方差
-
简单模型一般具有:较高的偏差,较低的方差
-
简单模型“欠拟合”,复杂模型“过拟合”
4.3性能度量指标
分类问题的常用性能度量方法:
- AUC一般为度量排序的指标,一般在排序,或者样本分布不均衡的问题中被采用,
- 一般取值在0.5-1
对回归问题的性能度量:
4.4评估方法
解决手上没有未知的样本,如何进行可靠的评估?
-
留出法 hold-out
- 例如,电商数据中,男女比例、地区分布一致。
- 例如,电商数据中,男女比例、地区分布一致。
-
交叉验证法 cross validation
-
自助法 bootstrap
- 可能会改变数据的分布,因为被放回了就会可能被重复抽取到。
- 可能会改变数据的分布,因为被放回了就会可能被重复抽取到。
4.5选择最优的模型
reference
高效阅读与学习法 | The Shortest answer is doing!
深度学习入门基础——算法工程师带你读AI圣经《Deep Learning》 - 腾讯云大学
标签:偏差,方差,ML,模型,学习,算法,概述,拟合,度量 来源: https://www.cnblogs.com/youdef/p/12893538.html
本站声明: 1. iCode9 技术分享网(下文简称本站)提供的所有内容,仅供技术学习、探讨和分享; 2. 关于本站的所有留言、评论、转载及引用,纯属内容发起人的个人观点,与本站观点和立场无关; 3. 关于本站的所有言论和文字,纯属内容发起人的个人观点,与本站观点和立场无关; 4. 本站文章均是网友提供,不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属;如您发现该文章侵犯了您的权益,可联系我们第一时间进行删除; 5. 本站为非盈利性的个人网站,所有内容不会用来进行牟利,也不会利用任何形式的广告来间接获益,纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。