标签:剪枝 记录 特征选择 分类 决策 增益 节点 信息熵 决策树
是什么
监督学习,分类
原理
特征选择–> 决策树构建–>决策树剪枝
- 特征选择:从训练数据的特征中选择一个特征作为当前节点的分裂标准(特征选择的标准不同产生了不同的特征决策树算法)
- 决策树构建:根据所选特征评估标准,从上到下递归的生成子节点,直至决策树不可分则停止决策树生成
- 决策树剪枝:决策树容易过拟合,需要剪枝来缩小树的结构和规模(包括预剪枝和后剪枝)
1. 特征选择
参考博客https://www.cnblogs.com/Maggieli/p/12153625.html
ID3算法(信息增益)
信息熵:衡量随机变量的不确定性
条件熵:以特征n作为节点的分裂标准后,子节点的信息熵
信息增益表示不确定性减少的程度
信息增益 = 父节点的信息熵 - 子节点的条件熵
C4.5算法(信息增益率)
信息增益率 = 信息增益 / 特征的固有值
CART算法(基尼系数)
基尼系数:使用基尼系数来表示数据集的纯度,越小纯度越高。反映从样本中随机抽取两个样本,类别不一致的概率;
2. 决策树生成
3. 决策树剪枝
标签:剪枝,记录,特征选择,分类,决策,增益,节点,信息熵,决策树 来源: https://blog.csdn.net/weixin_45506408/article/details/114838852
本站声明: 1. iCode9 技术分享网(下文简称本站)提供的所有内容,仅供技术学习、探讨和分享; 2. 关于本站的所有留言、评论、转载及引用,纯属内容发起人的个人观点,与本站观点和立场无关; 3. 关于本站的所有言论和文字,纯属内容发起人的个人观点,与本站观点和立场无关; 4. 本站文章均是网友提供,不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属;如您发现该文章侵犯了您的权益,可联系我们第一时间进行删除; 5. 本站为非盈利性的个人网站,所有内容不会用来进行牟利,也不会利用任何形式的广告来间接获益,纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。