ICode9

精准搜索请尝试: 精确搜索
首页 > 其他分享> 文章详细

实验一 使用sklearn的决策树实现iris鸢尾花数据集的分类

2020-10-02 19:02:03  阅读:1356  来源: 互联网

标签:iris 10 max clf depth score import 鸢尾花 sklearn


使用sklearn的决策树实现iris鸢尾花数据集的分类
要求:
建立分类模型,至少包含4个剪枝参数:max_depth、min_samples_leaf 、min_samples_split、max_features和criterion参数。

运用GridSearchCV,寻找出最优参数。

绘制出在不同的max_depth下的学习曲线。

步骤:
一、导入各种我们需要的模块或者数据集等
graphviz安装(安装完配置好路径还是不行的话重启一下电脑)
from sklearn import tree #导入树
from sklearn.tree import DecisionTreeClassifier #导入决策树分类器
from sklearn.datasets import load_iris #导入鸢尾花数据集
from sklearn.model_selection import train_test_split #分训练集测试集的类
from matplotlib import pyplot as plt #画图用的
from sklearn.model_selection import GridSearchCV #网格搜索
import pandas as pd
import graphviz #画决策树的,需要事先安装
二、将数据实例化,划分数据集和测试集
iris = load_iris() #将数据集实例化,别忘了括号
Xtrain,Xtest,Ytrain,Ytest = train_test_split(iris.data,iris.target,test_size=0.3) #将鸢尾花数据的特征矩阵和标签矩阵,按7:3的比例划分训练集和测试集,0.3是可以变的,也可以填0.4,注意X,Y的顺序
三、建立模型(三部曲:实例化、训练、评估)
clf = DecisionTreeClassifier() #实例化模型,括号不填criterion默认是‘gini’,也可以填criterion = 'entropy'
clf = clf.fit(Xtrain, Ytrain) #训练数据集
score = clf.score(Xtest, Ytest) #评估数据集

score #将评估结果打印出来,因为测试集和训练集划分的不同,可能每个人的结果也不同
1.PNG
四、画出决策树
feature_name = ['花萼长度','花萼宽度','花瓣长度','花瓣宽度'] #定义特征的名字,方便后面的阅读
dot_data = tree.export_graphviz(clf
,feature_names = feature_name
,class_names=["清风藤","云芝","锦葵"] #标签名字
,filled=True #框框填充颜色(可以不写)
,rounded=True #框框角是圆圆的(可以不写)
)
graph = graphviz.Source(dot_data) #导出树
graph
这就得到一棵原始的树

五、使用四个剪枝参数
clf = tree.DecisionTreeClassifier(max_depth=2 #最大深度是2,这个也可以填3或4试试看
,min_samples_leaf=5 #下一个叶子节点大于5会进行,小于5就不会再分
,min_samples_split=10 #最小分支节点,当前样本大于10才会分
,max_features=3 #最大特征数,有一个重要程度为0
)
clf = clf.fit(Xtrain, Ytrain)
score = clf.score(Xtest, Ytest)

score
可以把剪枝后的树画出来看看(代码和上面画树的一样)

2.png
dot_data = tree.export_graphviz(clf
,feature_names = feature_name
,class_names=["清风藤","云芝","锦葵"]
,filled=True
,rounded=True
)
graph = graphviz.Source(dot_data)
graph
六、绘制出在不同的max_depth下的学习曲线
test=[] #定义一个列表放分数
for i in range(10): #10次循环map_depth
clf = tree.DecisionTreeClassifier(max_depth=i+1)
clf = clf.fit(Xtrain, Ytrain)
score = clf.score(Xtest,Ytest)
test.append(score)
plt.plot(range(1,11),test,color="red") #横坐标是1-10,纵坐标是分数,颜色是红色
plt.xticks(range(1,11))#横坐标是1-10
plt.xlabel("max_depth") #横坐标标签
plt.ylabel("score") #纵坐标标签
plt.show() #展示画好的图(由图可知当map_depth为2时分数最高)
3.PNG
七、运用GridSearchCV,寻找出最优参数

parameters = {'criterion'

标签:iris,10,max,clf,depth,score,import,鸢尾花,sklearn
来源: https://www.cnblogs.com/citywafe/p/13762440.html

本站声明: 1. iCode9 技术分享网(下文简称本站)提供的所有内容,仅供技术学习、探讨和分享;
2. 关于本站的所有留言、评论、转载及引用,纯属内容发起人的个人观点,与本站观点和立场无关;
3. 关于本站的所有言论和文字,纯属内容发起人的个人观点,与本站观点和立场无关;
4. 本站文章均是网友提供,不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属;如您发现该文章侵犯了您的权益,可联系我们第一时间进行删除;
5. 本站为非盈利性的个人网站,所有内容不会用来进行牟利,也不会利用任何形式的广告来间接获益,纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。

专注分享技术,共同学习,共同进步。侵权联系[81616952@qq.com]

Copyright (C)ICode9.com, All Rights Reserved.

ICode9版权所有