ICode9

精准搜索请尝试: 精确搜索
首页 > 编程语言> 文章详细

从零开始的《数据挖掘与大数据分析》课堂学习笔记-6 7 第四章 分类 决策树 KNN算法 朴素贝叶斯

2021-03-26 09:04:51  阅读:233  来源: 互联网

标签:KNN 模型 分类 贝叶斯 算法 数据挖掘 决策树


文章目录

第四章 分类

1.分类基本概念

分类是一种数据分析形势,它提取刻画重要数据类的模型,这种模型叫分类器。
在这里插入图片描述

之后模型会进而预测分类的(离散的、无序的)类标号。
总而言之,分类属于 预测任务

2.预测任务

所以我们自然而然地引入了 什么是预测任务?
一般一个预测任务分成两个阶段

3.模型分类

生成模型

  • 希望从数据中心学习/还原出 原始的真实数据生成模型。
  • 常见的方法:学习数据的联合概率分布(一般会假设一下联合概率分布)
    eg:朴素贝叶斯方法、隐马尔可夫模型等

判别模型

  • 从数据中心学习到不同类概念的区别 从而进行分类
    就例如之前所说的例子——
    给一个数据集 有杂乱的蓝莓枣 香蕉 通过这个模型的学习和判别之后 将其分类。
    eg: KNN SVM ANN Decision Tree等

4.经典分类方法

4.1 决策树

p16

引入:高尔夫问题

小王是一家著名高尔夫俱乐部的经理。但是他被雇员数量问题搞得心情十分不好。某些天好像所有人都來玩高尔夫,以至于所有员工都忙的团团转还是应付不过来,而有些天不知道什么原因却一个人也不来,俱乐部为雇员数量浪费了不少资金。

在这里插入图片描述

小王的目的是通过下周天气预报寻找什么时候人们会打高尔夫,以适时调整雇员数量。因此首先他必须了解人们决定是否打球的原因。
在这里插入图片描述

在2周时间内我们得到以下记录:

天气状况有晴,云和雨;气温用华氏温度表示;相对湿度用百分比;还有有无风。当然还有顾客是不是在这些日子光顾俱乐部。最终他得到了14列5行的数据表格。

在这里插入图片描述
在这个问题中 决策树模型被建起来用于解决问题
在这里插入图片描述
决策树是一个有向无环图。
根据数据集 根据决策树一个一个环节的判断 最终找出来规律——得知啥时候有人打高尔夫 啥时候没人打

这就通过分类树给出了一个解决方案。 小王在晴天,潮湿的天气或者刮风的雨天解雇了大部分员工,因为这种天气不会有人打高尔夫。而其他的天气会有很多人打高尔夫,因此可以雇用一些临时员工来工作。
所以得到——

引入小结

决策树可以帮助我们把负责的数据转换成相对简单、直观的结构

决策树构建

首先需要明确:决策归纳树算法(一个贪心算法)的性质

  • 自顶向下的分治方法构造决策树
  • 使用分类属性递归地通过选择相应的测试属性来划分样本
  • 测试属性是根据某种启发信息或者是统计信息来进行选择(如:信息增益

决策树构造具体流程

  1. 树以代表训练样本的单个节点开始
  2. 如果样本都在同一个类 则该结点成为树叶,并用该类标记
  3. 否则,算法选择最有分类能力的属性作为决策树的当前结点
  4. 根据当前决策结点属性取值的不同,将训练样本数据集分为若干子集;每个取值形成一个分枝(有几个取值形成几个分枝)
  5. 针对4.中形成的子集,重复进行先前步骤,递归形成每个划分样本上的决策树。一旦一个属性出现在一个结点上,就不必在该结点的任何后代考虑它。
  6. 递归划分步骤仅当下列条件之一成立时停止:
    【1】给定结点的所有样本属于同一类
    【2】没有剩余属性可以用来进一步划分样本
    【3】如果某一分枝没有满足该分支中已有分类的样本,则以样本的多数类创建一个树叶。
属性选择度量
信息增益
信息增益率
过拟合问题

4.2 KNN算法

p37
即为K近邻算法(K-Nearest Neighbour)

什么是KNN算法?

KNN基本思想

KNN算法过程

在这里插入图片描述

在这里插入图片描述

算法计算步骤

算法的优缺点

优点:

  • 简单,易于理解,易于实现,无需估计参数 无需训练
  • 准确度一般较高
  • 特别适合于多标签问题(multi-label 对象具有多个类别标签) 在多标签问题中 KNN比SVM表现要好

缺点:

KNN的常见问题

(1)K值设定

(2)类别的判定方式

(3)距离度量方式的选择

  • 变量越多(高维诅咒问题),欧式距离的区分能力越差

(4)性能问题

  • KNN是一种懒惰算法,构造模型很简单但是在对测试样本分类的系统开销打
  • 策略:采样训练样本量减少训练集的大小;或通过聚类,将聚类所产生的中心点作为新的训练样本。

4.3 朴素贝叶斯

p47
非常重要的分类方法 “拉开差距”

什么是贝叶斯分类算法?

是统计学的一种分类方法,是一种利用概率统计知识进行分类的算法。

这三个分类算法的具体内容都直接去ppt里复习吧~

标签:KNN,模型,分类,贝叶斯,算法,数据挖掘,决策树
来源: https://blog.csdn.net/qq_45704942/article/details/114997029

本站声明: 1. iCode9 技术分享网(下文简称本站)提供的所有内容,仅供技术学习、探讨和分享;
2. 关于本站的所有留言、评论、转载及引用,纯属内容发起人的个人观点,与本站观点和立场无关;
3. 关于本站的所有言论和文字,纯属内容发起人的个人观点,与本站观点和立场无关;
4. 本站文章均是网友提供,不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属;如您发现该文章侵犯了您的权益,可联系我们第一时间进行删除;
5. 本站为非盈利性的个人网站,所有内容不会用来进行牟利,也不会利用任何形式的广告来间接获益,纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。

专注分享技术,共同学习,共同进步。侵权联系[81616952@qq.com]

Copyright (C)ICode9.com, All Rights Reserved.

ICode9版权所有