ICode9

精准搜索请尝试: 精确搜索
首页 > 其他分享> 文章详细

[机器学习]机器学习常用的模型评估方法

2020-11-27 16:31:56  阅读:323  来源: 互联网

标签:机器 预测 学习 查全率 阴性 MSE 阳性 评估 查准率


目录

 

混淆矩阵

正确率

精确率

召回率

灵敏度

伪阳性率

特异度

P-R曲线:

F1-值

ROC曲线

AUC面积

均方误差

均方根误差

平均绝对误差


混淆矩阵

实际值\预测值

预测值

Positive

Negative

实际值

Positive

TP

FN

Negative

FP

TN

 

TP 真阳性,即实际为阳性,预测为阳性

FP:假阳性,即实际为阴性,预测为阳性

FN 假阴性,即实际为阳性,预测为阴性

TN 真阴性,即实际为阴性,预测为阴性

在信息检索领域,精确率和召回率又被称为查准率和查全率:

查准率=检索出的相关信息量/检索出的信息总量
查全率=检索出的相关信息量/系统中的相关信息总量

正确率

正确率(Accuracy)又叫准确率,反映一个模型能够预测正确的程度。当数据十分不平衡的时候,将会把所有结果预测为某一类,如样本阳性:阴性为100000:1时,可能预测为阳性的概率非常高。

 

精确率

精准率(precision)又叫查准率、精准率、精度:是针对我们预测结果而言的,它表示的是预测为正的样本中有多少是真正的正样本。

 

召回率

召回率(Recall)又叫查全率:是针对我们原来的样本而言的,它表示的是样本中的正例有多少被预测正确了。

 

灵敏度

灵敏度(Sensitivity)真阳性率、命中率 (hit rate):预测为阳性中占实际为阳性比重,和召回率同一个计算方式。值越高,说明漏掉阳性的比例越低,但是有可能出现假阳性。

 

 

伪阳性率

伪阳性率(FPR, false positive rate) 又称错误命中率,假警报率 (false alarm rate),即假阳性站实际阴性的比重。

特异度

特异度(Specificity)也称真阴性率:预测为阴性中占实际为阴性比重。值越高,说明漏掉阴性的比例越低,但是有可能出现假阴性。

 

P-R曲线:

即精确率-召回率曲线。横坐标为召回率Recall,纵坐标为精准率Precision。

P-R曲线反映查准率和查全率之间的关系,查准率和查全率是一对矛盾的度量,一般来说,查准率高时,查全率往往偏低,查全率高时,查准率往往偏低。

当用该指标衡量模型好坏时,在多个P-R曲线比较中,在该图中有两个指标值能说明该指标的差异:

(1)一个学习器的P-R曲线被另一个学习器的P-R曲线完全包住,则可断言后者的性能优于前者

(2)查准率=查全率时的取值,如果这个值较大,则说明学习器的性能较好

 

F1-值

F1-值(F1-Measure)也称F1-Sore,是精准率和召回率的调和平均数。用于衡量模型的健壮性,实际中如果对业务不是太熟悉,一般把取该值的最大值作为模型的最好状态。

ROC曲线

接收者操作特征曲线(receiver operating characteristic curve),是反映敏感性和伪阳性率连续变量的综合指标,将伪阳性率(FPR)定义为 X 轴,真阳性率(TPR)定义为 Y 轴。

从 (0, 0) 到 (1,1) 的对角线将ROC空间划分为左上/右下两个区域,在这条线的以上的点代表了一个好的分类结果(胜过随机分类),而在这条线以下的点代表了差的分类结果(劣于随机分类)。

完美的预测是在左上角的点,在ROC空间座标 (0,1)点,X=0 代表着没有伪阳性,Y=1 代表着没有伪阴性(所有的阳性都是真阳性);也就是说,不管分类器输出结果是阳性或阴性,都是100%正确。

AUC面积

AUC(Area under curve)即ROC曲线下的面积,是一个模型评价的指标,只能用于二分类模型的评价。 ROC曲线的横轴是FPR,纵轴是TPR,当二者相等时,即y=x,表示的意义是:对于不论真实类别是阳性还是阴性的样本,分类器预测为阳性的概率是相等的,实际上该模型没有任何意义。实际训练模型中应该使TPR尽量大,FPR尽量小,即取AUC的极大值。

均方误差

均方误差(MSE)又称为二次损失,L2损失(Mean Square Error, Quadratic Loss, L2 Loss),是最常用的回归损失函数,用于衡量回归模型,值越小,证明模型越好。损失函数是衡量预测模型预测期望结果表现的指标。寻找函数最小值。


 

均方根误差

均方根误差即RMSE(Root Mean Square Error),均方误差(MSE)的平方根。

平均绝对误差

平均绝对误差又称为L1损失(Mean Absolute Error, L1 Loss),平均绝对误差(MAE)是另一种用于回归模型的损失函数。MAE是目标变量和预测变量之间差异绝对值之和。因此,它在一组预测中衡量误差的平均大小,而不考虑误差的方向。

MSE与MAE差异:MSE越大,如果数据有某些点离数据中心很远,MSE增长得就很快。直观来说,对观测数据,如果我们只给一个预测结果来最小化MSE,那么该预测值是所有目标值的均值。但是如果我们试图最小化MAE,那么这个预测就是所有目标值的中位数。中位数对于离群点比平均值更鲁棒,这使得MAE比MSE更加鲁棒。

在实际业务中,如果离群点是会影响业务、而且是应该被检测到的异常值,那么我们应该使用MSE。另一方面,如果我们认为离群点仅仅代表数据损坏,那么我们应该选择MAE作为损失。

标签:机器,预测,学习,查全率,阴性,MSE,阳性,评估,查准率
来源: https://blog.csdn.net/henku449141932/article/details/110235067

本站声明: 1. iCode9 技术分享网(下文简称本站)提供的所有内容,仅供技术学习、探讨和分享;
2. 关于本站的所有留言、评论、转载及引用,纯属内容发起人的个人观点,与本站观点和立场无关;
3. 关于本站的所有言论和文字,纯属内容发起人的个人观点,与本站观点和立场无关;
4. 本站文章均是网友提供,不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属;如您发现该文章侵犯了您的权益,可联系我们第一时间进行删除;
5. 本站为非盈利性的个人网站,所有内容不会用来进行牟利,也不会利用任何形式的广告来间接获益,纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。

专注分享技术,共同学习,共同进步。侵权联系[81616952@qq.com]

Copyright (C)ICode9.com, All Rights Reserved.

ICode9版权所有