sklearn学习之：sklearn实现混淆矩阵

2021-12-02 23:33:38 阅读：280 来源： 互联网

标签：混淆标签矩阵 dog lion test import sklearn

文章目录

得到特征和标签
训练自己的模型
构造混淆矩阵
- 加上合适的标签
- 混淆矩阵传递出的信息

import pandas as pd
import numpy as np
import os
from imblearn.over_sampling import SMOTE
from sklearn.preprocessing import MinMaxScaler, StandardScaler
from sklearn.model_selection import train_test_split
from sklearn.ensemble import *

os.chdir("../../数据/")

这里我省略了 preprocessing() 的具体实现，因为每个人的数据都不一样，而且本文的重点在于混淆矩阵，因此忽略了处理特征的过程。

def preprocessing():
    .....
    .....
    return std_data,label

得到特征和标签

data 代表的是做分类使用的特征矩阵
label 代表的是我的数据的分类的标签
在我自己的数据中，我的 label 一共有三类，即：0,1,2 来表示

data, label = preprocessing()

训练自己的模型

x_train,x_test,y_train,y_test = train_test_split(data,label)
forest = RandomForestClassifier()
forest.fit(x_train,y_train)
score = forest.score(x_test,y_test)

score

0.7647058823529411

构造混淆矩阵

混淆矩阵就是用一种可视化的方式来直观地判断你训练的模型的性能如何
比如我们构造的这个混淆矩阵，一共是 3 × 3 3 × 3 3×3 个格子，我们就用 ( 0 , 0 ) , ( 0 , 1 ) . . . ( 2 , 2 ) (0,0),(0,1)...(2,2) (0,0),(0,1)...(2,2) 来表示
那么 ( 0 , 1 ) (0,1) (0,1) 的含义就是：对于一个样本他的真实标签是 0 0 0,通过训练后的模型预测的标签是 1 1 1；同样地， ( 2 , 1 ) (2,1) (2,1) 表示的含义就是：一个样本的真实标签是 2 2 2，预测标签是 1 1 1；
很显然，主对角线上的三个格子 ( 0 , 0 ) , ( 1 , 1 ) , ( 2 , 2 ) (0,0),(1,1),(2,2) (0,0),(1,1),(2,2) 表示的就是真实值和预测值一致的情况。
每个格子中的数字，表示的是符合要求的样本个数。比如主对角线上的三个值分别是 47 , 33 , 37 47,33,37 47,33,37，他们的和就是整个模型对于 t e s t test test 数据集合做的预测中预测值和真实标签一致的情况，也就是预测正确的样本数的总和

from sklearn.metrics import confusion_matrix
import seaborn as sns

y_true = y_test
y_pred = forest.predict(x_test)
cm = confusion_matrix(y_true,y_pred)

sns.heatmap(cm,cmap="YlGnBu_r",fmt="d",annot=True)

在这里插入图片描述

加上合适的标签

如果你觉得 0,1,2 这样看起来不够直观，也可以通过将混淆矩阵转换成 dataframe，加了行列标签后再可视化；例如：

cm = pd.DataFrame(cm,columns=["cat","dog","lion"],index=["cat","dog","lion"])
sns.heatmap(cm,cmap="YlGnBu_r",fmt="d",annot=True)

在这里插入图片描述

混淆矩阵传递出的信息

从这个图来看，我们可以发现在模型误判的样本中； 16 16 16 和 8 8 8 是较为突出的两组数
这就是说，有 8 8 8 个样本的真实标签是 d o g dog dog 的却被误判成了 l i o n lion lion，而有 16 16 16 个 l i o n lion lion 的样本被误判成了 d o g dog dog
而 c a t cat cat 被误判成 d o g dog dog 和 l i o n lion lion 的样本数量是很小的；因此我们知道应该在 l i o n lion lion 和 d o g dog dog 的判断上进行更多工作

标签：混淆,标签,矩阵,dog,lion,test,import,sklearn
来源： https://blog.csdn.net/qq_42902997/article/details/121688840

本站声明： 1. iCode9 技术分享网（下文简称本站）提供的所有内容，仅供技术学习、探讨和分享；
2. 关于本站的所有留言、评论、转载及引用，纯属内容发起人的个人观点，与本站观点和立场无关；
3. 关于本站的所有言论和文字，纯属内容发起人的个人观点，与本站观点和立场无关；
4. 本站文章均是网友提供，不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属；如您发现该文章侵犯了您的权益，可联系我们第一时间进行删除；
5. 本站为非盈利性的个人网站，所有内容不会用来进行牟利，也不会利用任何形式的广告来间接获益，纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。