ICode9

精准搜索请尝试: 精确搜索
首页 > 其他分享> 文章详细

混淆矩阵简介

2022-09-11 08:35:00  阅读:218  来源: 互联网

标签:混淆 样本 预测 简介 分类 矩阵 阳性


混淆矩阵简介

在本文中,我将解释什么是混淆矩阵以及如何使用它来检查机器学习分类算法的性能。如果您想了解有关混淆矩阵的更多信息,我将在本文的最后展示一些参考资料。

什么是混淆矩阵?

混淆矩阵是一个有价值的表格,用于通过将预测结果与测试数据集的实际结果进行比较来检查机器学习分类算法的性能。该表的维度为 NxN,其中 N 是分类类别的数量。
下图显示了二进制分类(2x2 维度)的混淆矩阵示例,这是您能找到的最简单的混淆矩阵,包含 1000 个测试样本。尽管是最简单的混淆矩阵,但这些概念可以推广到 NxN 矩阵。

Confusion matrix for a binary classification with 1000 test samples.

在混淆矩阵中,如上所示,有四个术语用于描述预测结果,它们是:

  • 真阳性(TP): 当预测类和实际类都是正数时给出名称。
  • 真阴性(TN): 当预测类和实际类都为负时给出名称。
  • 假阴性(FN): 当预测类为负时给出名称,但实际类为正。
  • 误报(FP): 当预测类为正而实际类为负时给出名称。

基于这些术语,我们可以对分类模型的性能进行有趣的衡量,例如 准确率、精确度、召回率和 F1-Score .

  • 准确性 衡量模型正确预测的百分比。它的计算方法是真阴性和真阳性的总和除以总样本。

  • 精确 测量预测为阳性但实际为阳性的样本的百分比。它计算为真阳性除以真阳性和假阳性之和。

  • 记起 测量预测为阳性的实际阳性样本的百分比。它计算为真阳性除以假阴性和真阳性之和。

F1 分数(或 F 分数) 测量准确率和召回率的调和平均值。

什么措施最适合评估我的模型?

  • 精度 当模型的目标是最大化 True Positive 值并最小化 False Positive 值时更可取。例如,当模型的目标是将垃圾邮件分类为正面,同时旨在最大限度地减少对非垃圾邮件的错误分类时。
  • 召回 当模型的目标是识别尽可能多的实际阳性样本时更可取,因为这是一种危急情况,例如癌症的识别。
  • 准确性 当模型的目标是正确分类尽可能多的样本时,是更可取的。当数据集不是不平衡时,这个度量很有趣(您可以在“ Analytics Vidhya — 处理分类问题的不平衡数据的 5 种技术 ”)。
  • F1分数 当精度和召回率对模型的准确性都很重要时,更可取。

要了解有关混淆矩阵的更多信息,我建议检查以下链接:

版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明

本文链接:https://www.qanswer.top/26998/05431108

标签:混淆,样本,预测,简介,分类,矩阵,阳性
来源: https://www.cnblogs.com/amboke/p/16683432.html

本站声明: 1. iCode9 技术分享网(下文简称本站)提供的所有内容,仅供技术学习、探讨和分享;
2. 关于本站的所有留言、评论、转载及引用,纯属内容发起人的个人观点,与本站观点和立场无关;
3. 关于本站的所有言论和文字,纯属内容发起人的个人观点,与本站观点和立场无关;
4. 本站文章均是网友提供,不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属;如您发现该文章侵犯了您的权益,可联系我们第一时间进行删除;
5. 本站为非盈利性的个人网站,所有内容不会用来进行牟利,也不会利用任何形式的广告来间接获益,纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。

专注分享技术,共同学习,共同进步。侵权联系[81616952@qq.com]

Copyright (C)ICode9.com, All Rights Reserved.

ICode9版权所有