ICode9

精准搜索请尝试: 精确搜索
首页 > 其他分享> 文章详细

挖掘

2021-04-01 11:33:28  阅读:337  来源: 互联网

标签:分箱 均值 距离 算法 聚类 挖掘 数据


一、考试题型

1.填空:5-10分

2.选择:25单选,5多选

3.判断:10个,每个1分

4.图形题:图形补全。

5.计算题:5-6个

6.综合题:自己去论述,做数据分析与挖掘,几个步骤。怎么考虑。每个步骤使用什么技术。给个案例,你来完成整个过程。

二、第5章聚类:

聚类:算法:基于划分、基于层次、基于密度、基于网格。(选择题:给你个算法让你判断他是那个类型的算法?让你找选项里面那个是或者那个不是这类算法。)

距离的度量:会计算欧氏距离、杰卡德距离;(判断、选择题):有无量纲,(幂距离、欧氏距离、曼哈顿距离、兰氏距离、马氏距离、杰卡德距离、余弦相似度)。

幂距离(欧氏距离,曼哈顿距离,切比雪夫举例)有量纲

余弦相似度,兰氏距离无量纲,

算法:K均值、K中心值,会使用算法进行聚类,根据聚类结果比较算法的优缺点;()

k均值:缺点:K是事先给定的,K其实是很难估计的; 初始质心的随机选取可能会导致局部最优解,无法获得全局最优解; 时间复杂度高; 受噪声数据的干扰较大

K中心点: 与K均值相比的优点:因为K均值算法过程中质心的选择是虚拟的,所以受异常值的影响较大,但是K中心点每次质心的选择方法是,簇内距离其他点距离最短的点,是真实存在的,所以受异常值的影响较小

 

K均值的改进算法:二分k均值、小批量K均值、K均值++对K均值进行了哪些改进(判断、选择)

二分:降低了计算次数

小批量K均值:从不同聚类的样本中抽取一部分样本来代表各自聚类进行计算

K均值++:初始质心的选取方式,距离已有的聚类中心越远的点,被选取作为聚类中心的概率越大

基于密度聚类算法:DBSCAN核心概念(填空、选择)、优缺点(选择、判断)。OPTICS算法核心概念(填空、选择)、要求会计算。P186-187图理解。P188图(图形题)。

DBSCAN: 核心点,直接密度可达,密度可达,密度相连,优点:不需要提前设置K,可以对

层次聚类:会用最短距离和最长距离进行层次聚类。(计算题、大家画图。P194页示例5-22示例5-23)。

单调性、空间的浓缩和扩张(判断、选择)(最短、最长、中间、重心、平均法)了解其单调性、和浓缩、扩张。

空间浓缩:最短距离法,重心法

空间扩张:最长距离法,

类平均法适中

重心法和中间距离具不具有单调性

最短,最长距离法具有单调性,类平均法具有单调性。

基于网格聚类:简单了解(STING、CLIQUE是基于网格聚类)(选择、判断)。

P230:5/6/7的第一问。11看一看。

三、第4章分类回归算法:

决策树重点:概念:信息熵、信息增益、信息增益率、gini系数。会计算。实质是:会用ID3、C4.5、CART算法进行分类。P87实例4-1掌握。(计算题)P106页对比(判断题)

信息熵:度量信源X整体的不确定性     info(D)  info天气(D)    

信息增益: 

ID3 Gain(D) 信息增益

C4.5 信息增益率  GainRate(D)

CART  Gini系数

 

信息增益适用于 多值属性,但是容易建立 浅且多分支的树

信息增益率适用于不对称划分,一个属性值个数明显比另一个多

Gini系数适用于 均匀的分布

过拟合、欠拟合会判断。剪枝算法:预剪枝、后剪枝(填空)。自底向上、自顶向下。(判断)。

KNN算法:KD树构造(掌握)(图形题、给你P116页的图、你给我画出构造过程图。P117页的图。)

组合算法:Adaboost、bagging、随机森林的并行性。(判断、选择)

分类器算法的评估:

混淆矩阵会计算、ROC曲线会判定。

混淆矩阵与ROC AUC 是 判断 分类器好坏的 评估标准

回归和分类的区别、分类和聚类的区别。(判断)

逻辑回归P152页,图4-47出选择题。图给你,你给我对应是线性回归还是逻辑回归。

决策树:计算:示例4-20.

分类算法:ID3, C4.5,   组合分类算法: Adaboost 串行, Bagging 并行, Randomforest 并行

回归算法: 线性回归, 逻辑回归, 岭回归, 多项式回归

逻辑回归其实是 01分类算法,  CART算法( Classification and Regression Tree ) 可以用来 分类 和 回归,

Confusion Matrix 混淆矩阵,AUC ROC 用来 评判 分类器

提升树:P157页图4-51,(图形题)。

习题:2,4会计算。


四、第3章关联规则挖掘

基本概念:支持度、频繁项集、强关联规则、置信度等等这些概念会用做关联分析。Apriori算法P61页这个例子,掌握(计算题)。Apriori算法的改进有哪些(选择题)。

FPGrowth算法了解不需要产生候选项集的频繁模式挖掘算法。

多层关联规则挖掘:P75页的例子()(计算)

序列模式算法:prefixSpan:会找前缀、后缀。

习题:8.

五、第2章数据特征分析与预处理

数据类型:数据集类型和数据属性类型(有哪些?会区分)(填空、选择、判断)

数据集的分类:

结构化数据:.excel , .csv

半结构化数据: json, xml

非结构化数据: 视频,音频,图像

数据属性类型:

标称属性:红橙黄绿蓝靛紫,  : 二元属性 : 0 1                   无法比较大小,不能进行运算

序数属性:优良中差,高矮胖瘦

数据描述性特征:分类:集中趋势、离中趋势(度量的量:会判定)。另外、算术平均数、中位数、众数、四分位数、,极差,四分位数极差会计算。

集中趋势: 平均数,中位数,众数,k百分位数 

离中趋势:极差,IQR四分位数极差方差标准差,

分布形态的度量:会看图、给你图形让你判定正偏态、负偏态。峰度、会根据k值判定常峰态、低峰态、尖峰态。以及偏度和峰度的作用。(选择、判断)。

左偏态,右偏态。  k=0 常峰态, k>0 低峰态, k>0 高峰态

估计数据分布与正态分布的差异    

可视化:会看箱型图。(图形题)。

相关性分析:手段有哪些?散点图、相关系数(判定正相关、负相关、不相关),根据相关系数判定。

五位一体箱型图:max Q3 median Q2 min

<0 负相关   >0 正相关   =0 不相关

预处理:零均值、Z分数变换(适用范围),独热编码(会编码),缺点。

z分数变化的适用范围:最好是 正态分布的数据

抽样:不放回、水库抽样(算法描述)

不放回抽样: 不放回抽样  

水库抽样:( 从n个元素中抽取k个元素,且每个元素被抽取的概率都是一样的,适用情况n是不确定的,因为输入 是 数据流 )

  • input: 包含n个元素的数据流S, 第i个元素为Si
  • output: 包含k个元素的缓存R
  • 过程描述:前k个元素直接放入缓存
    •                   i 从 k+1 到 n,  每次随机生成一个 [1,i] 的 随机数j,如果j<=k 就交换对应位置的值 

主成分分析:PCA是一个降维方法。

数据清洗:

1.缺失值:完全变量、不完全变量、会判定完全随机缺失、随机缺失、非随机缺失。,会使用均值填充法进行填充。

PCA 主成分分析  :  降维的数据分析方法

完全变量:不含缺失值的变量(属性)

不完全变量:含缺失值的变量

完全随机缺失

随机缺失:依赖于其他的完全变量,如 性别 ———— 年龄

非随机缺失: 依赖于此非完全变量本身,如 收入——高收入者刻意隐瞒

平滑噪声:四种分箱方法(会使用等深分箱法、等宽分箱法)+平均值平滑。示例2-26.计算。

等深分箱,等宽分箱,最小熵法,用户自定义区间法

习题:4,5

 

六、第1章

大数据的4V(填空、选择)

数据挖掘提取出来的知识有哪些:(填空、选择)

大数据分析与挖掘的步骤和主要功能。综合题。

容量,速度,密度,多样

挖掘:知识,规则,规律,模式

1.确定任务目标:根据需求与先验知识,确定目标

2.目标数据集的提取:从相关的所有数据中抽取数据集,并选择全部数据属性中与目标最相关的属性子集

3.数据预处理:提取到的目标数据往往质量低,需要进行预处理,如数据清洗,数据规约,数据集成,数据转换,高质量的数据往往是数据分析与挖掘成功的关键

4.建立适当的数据分析与挖掘模型:具体问题用具体的模型,如回归模型,分类模型,聚类模型,关联规则挖掘

5.模型的解释与评估:将数据可视化,为了找到 用户 真正感兴趣的模型

6.知识的应用:将获取到的模型进行应用,并不断的调整模型

 

 


水库抽样

平滑数据:

        等深分箱:P51

        等宽分箱: ( max - min ) / 组数        向左取整

分箱之前一定要先对数据进行排序

( 34 - 4 )/ 3 = 10

4 8 9 

15 21 21 24 25

26 28 29 34 

均值平滑: 7    21.2    29.25

均值平滑后的数据:

7 7 7 21.2 21.2 21.2 21.2 21.2  29.25 29.25 29.25 29.25

K-Means聚类

K-中心点聚类

 

KNN算法的KD数,必须要存在的点,K-Means 的质心可以是虚的, K-中心点的质心必须是 簇中的点, 用于平滑数据的 等宽分箱法 的 向左取值

标签:分箱,均值,距离,算法,聚类,挖掘,数据
来源: https://blog.csdn.net/qq_924485343/article/details/115250277

本站声明: 1. iCode9 技术分享网(下文简称本站)提供的所有内容,仅供技术学习、探讨和分享;
2. 关于本站的所有留言、评论、转载及引用,纯属内容发起人的个人观点,与本站观点和立场无关;
3. 关于本站的所有言论和文字,纯属内容发起人的个人观点,与本站观点和立场无关;
4. 本站文章均是网友提供,不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属;如您发现该文章侵犯了您的权益,可联系我们第一时间进行删除;
5. 本站为非盈利性的个人网站,所有内容不会用来进行牟利,也不会利用任何形式的广告来间接获益,纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。

专注分享技术,共同学习,共同进步。侵权联系[81616952@qq.com]

Copyright (C)ICode9.com, All Rights Reserved.

ICode9版权所有