ICode9

精准搜索请尝试: 精确搜索
首页 > 其他分享> 文章详细

机器学习之决策树(未完成)

2021-10-26 20:02:17  阅读:124  来源: 互联网

标签:机器 样本 增益 学习 划分 决策树 节点 属性


决策树

例题为选西瓜问题,情景如下:我们要对"这是好瓜吗?“这样的问题
进行决策时,通常会进行一系列的判断或"子决策"我们先看"它是什么颜
色?”,如果是"青绿色",则我们再看"它的根蒂是什么形态?",如果是"蜷
缩",我们再判断"它敲起来是什么声音?",最后?我们得出最终决策:这是个
好瓜.这个决策过程如图所示.
在这里插入图片描述

决策树基本流程:
图2

分析

	根据流程可以看出,实际上是一个递归过程,在多次的决策中确定自己的节点。那么会有三种导致递归返回的结果:①当前节点所包含的所有样品属于同一类别,无需划分。②当前属性集为空,或者所有样品在属性上均相同,无法划分。③当前节点的样本集合为空,无法划分。
	此时,关键问题在上图2第八行,即是需要解决的,如何最优划分属性,最终结果我们希望决策树的分支节点包含的样本尽可能属于同一类别,即纯度越来越高

信息熵

	"信息熵" 是度量样本集合纯度最常用的一种指标,假定当前样本集合D中第k类样本所占的比例为Pk (k = 1, 2,. . . , IYI) ,则D的信息熵定义为
	![在这里插入图片描述](https://www.icode9.com/i/ll/?i=b1f3992d52cc4f87985b1d748a17c798.png)

Ent(D)的值越小,则D的纯度最高。
于是假定离散属性a中有V个可能的取值,若使用a对样本进行划分,则会有V个分支节点,其中第V个分支节点包含了D中所有在属性a上取值为av的样本,给分支节点赋予权重|Dv|/|D|,即样本数越多的分支节点的影响越大,此时计算出用属性a对样本集D进行划分所获得的“信息增益”
在这里插入图片描述

增益率

实际上,信息增益准则对可取值数目较多的属性有所偏好,为减少这种

偏好可能带来的不利影响,著名的 C4.5 决策树算法 [Quinlan 1993J 不直接使
用信息增益,而是使用"增益率" (gain ratio) 来选择最优划分属性.采用与相同的符号表示,增益率定义为

在这里插入图片描述

基尼指数

CART 决策树 [Breiman et al., 1984] 使用"基尼指数" (Gini index) 来选
择划分属性.采用与式(4.1) 相同的符号,数据集 的纯度可用基尼值来度量:
在这里插入图片描述
直观来说, Gini(D) 反映了从数据集 中随机抽取两个样本,其类别标记
不一致的概率.因此, Gini(D) 越小,则数据集 的纯度越高.
采用与式(4.2) 相同的符号表示,属性 的基尼指数定义为在这里插入图片描述
于是,我们在候选属性集合 中,选择那个使得划分后基尼指数最小的属
性作为最优划分属性,即a= argmin GiniJndex(D α).

标签:机器,样本,增益,学习,划分,决策树,节点,属性
来源: https://blog.csdn.net/qq_45760866/article/details/120978418

本站声明: 1. iCode9 技术分享网(下文简称本站)提供的所有内容,仅供技术学习、探讨和分享;
2. 关于本站的所有留言、评论、转载及引用,纯属内容发起人的个人观点,与本站观点和立场无关;
3. 关于本站的所有言论和文字,纯属内容发起人的个人观点,与本站观点和立场无关;
4. 本站文章均是网友提供,不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属;如您发现该文章侵犯了您的权益,可联系我们第一时间进行删除;
5. 本站为非盈利性的个人网站,所有内容不会用来进行牟利,也不会利用任何形式的广告来间接获益,纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。

专注分享技术,共同学习,共同进步。侵权联系[81616952@qq.com]

Copyright (C)ICode9.com, All Rights Reserved.

ICode9版权所有