基尼指数(Gini不纯度)表示在样本集合中一个随机选中的样本被分错的概率。
注意:Gini指数越小表示集合中被选中的样本被参错的概率越小,也就是说集合的纯度越高,反之,集合越不纯。当集合中所有样本为一个类时,基尼指数为0.
基尼指数的计算方法为:
其中,pk表示样本属于第k个类别的概率
举例:根据天气状况预测是否打高尔夫,首先计算根节点的基尼指数:
原始数据的基尼不纯度计算:一共14条数据,5次No,9次Yes,所以:
Gini=1-(5/14)*(5/14)-(9/14)*(9/14)=0.459
- 1
然后计算晴朗程度outlook的Gini指数:
加权的基尼不纯度:
(5/14)Gini(2,3)+(4/14)Gini(4,0)+(5/14)Gini(3,2)=0.342
基尼增益为:0.459-0.342=0.117
- 1
- 2
在计算温度Temp,湿度Humidity和wind的基尼指数
总体为:
使用outlook分隔的Gini增益: 0.117(最佳分隔特征)
使用temp分隔的Gini增益: 0.0185
使用Humidity分隔的Gini增益: 0.0916
使用Wind分隔的Gini增益: 0.0304
CART树是二叉树,对于一个具体有多个取值(超过2个)的特征,需要计算以每一个取值作为划分点,对样本D划分之后子集的纯度Gini(D,Ai),然后从所有的可能划分的Gini(D,Ai)中找出Gini指数最小的划分,这个划分的划分点,便是使用特征A对样本集合D进行划分的最佳划分点。
outlook是最优的分隔特征,接下来计算rainy,overcast和sunny的基尼指数,选择最小的作为分割节点即可
标签:Gini,分隔,14,指数,样本,基尼,划分,决策树 来源: https://www.cnblogs.com/ai-ldj/p/14264618.html
本站声明: 1. iCode9 技术分享网(下文简称本站)提供的所有内容,仅供技术学习、探讨和分享; 2. 关于本站的所有留言、评论、转载及引用,纯属内容发起人的个人观点,与本站观点和立场无关; 3. 关于本站的所有言论和文字,纯属内容发起人的个人观点,与本站观点和立场无关; 4. 本站文章均是网友提供,不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属;如您发现该文章侵犯了您的权益,可联系我们第一时间进行删除; 5. 本站为非盈利性的个人网站,所有内容不会用来进行牟利,也不会利用任何形式的广告来间接获益,纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。