ICode9

精准搜索请尝试: 精确搜索
首页 > 其他分享> 文章详细

文本分类问题中的一些指标

2022-04-22 18:34:18  阅读:173  来源: 互联网

标签:FP 分类器 分类 预测 样本 预测出 TP 指标 文本


用这个随笔来记录一下评价分类模型中的一些性能指标:

1.混淆矩阵(confusion matrix)

混淆矩阵的格式如下:
image

其中:
  TP:预测值为正,真实值也为正,即正确预测出的正样本个数;
  TN:预测值为负,真实值也为负,即正确预测出的负样本个数;
  FP:预测值为正,真实值为负,即错误预测出的负样本个数(本来为负,被认为是正);
  FN:预测值为负,真实值为正,即错误预测出的正样本个数(本来为正,被认为是负)。
  (可见,缩写中的T为正确预测的含义,而F则代表预测错误;P为预测为正,N为预测为负)
  (因为P代表positive,positive具有“阳性的、结果积极的含义”,这里对应着预测为正;相反的,negative代表预测结果为负)

  第一行为预测值为正的所有样本之和,为TP+FP;
  第二行为预测值为负的所有样本之和,为FN+TN;
  第一列为真实值为正的所有样本之和,为TP+FN;
  第二列为真实值为负的所有样本之和,为FP+TN。

通过混淆矩阵,我们可以计算如下指标:
  准确率:precision = TP / TP+FP,即该分类器预测出的正样本中,真实为正的比例;
  召回率:recall = TP / TP+FN,即所有真实正样本中,分类器所能找到的比例;
  精确率:accuracy = TP+TN / all,即该分类器预测正确占全部样本的比例。

两类错误:
  Ⅰ型错误(假阳性FP):即分类器将错误的误判为正确的,亦被称为“误判”
  Ⅱ型错误(假阴性FN):即分类器将正确的误判为错误的,亦被称为“漏判”

有一张很直观的图片来显示这几项指标的作用:

image

  这张图展示了当高precision、低accuracy时,样本会聚集在某一处,但不是靶心,因为这时在预测为正的当中正确的很多,但是预测正确的占比并不高;而当高accuracy、低precision时,样本会在靶心周围分布,因为此时预测正确的占全部样本的比例很高,但是其中预测为正的真实为正的较少。

2.接受者操作特征曲线(ROC Curve)

未完待续

3.AUC(Area Under Curve)

4.KS值(Kolmogorov-Smirnov)

5.提升度(Lift)

标签:FP,分类器,分类,预测,样本,预测出,TP,指标,文本
来源: https://www.cnblogs.com/Freder1ck/p/16180059.html

本站声明: 1. iCode9 技术分享网(下文简称本站)提供的所有内容,仅供技术学习、探讨和分享;
2. 关于本站的所有留言、评论、转载及引用,纯属内容发起人的个人观点,与本站观点和立场无关;
3. 关于本站的所有言论和文字,纯属内容发起人的个人观点,与本站观点和立场无关;
4. 本站文章均是网友提供,不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属;如您发现该文章侵犯了您的权益,可联系我们第一时间进行删除;
5. 本站为非盈利性的个人网站,所有内容不会用来进行牟利,也不会利用任何形式的广告来间接获益,纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。

专注分享技术,共同学习,共同进步。侵权联系[81616952@qq.com]

Copyright (C)ICode9.com, All Rights Reserved.

ICode9版权所有