Day2-机器学习分类算法-阿里云天池

2020-12-23 23:00:06 阅读：226 来源： 互联网

分类算法

目标值:类别
1.sklearn转换器和预估器
2.KNN算法
3.模型选择与调优
4.朴素贝叶斯算法
5.决策树
6.随机森林

3.1 sklearn转换器和预估器
转换器
估计器(estimator)
3.1.1 转换器
1.实例化(实例化的是一个转换器类(Transformer))
2.调用fit_transform(对于文档建立分类词频矩阵,不能同时调用)
标准化:
(x - mean) / std
fit_transform
fit() 计算每一列的平均值、标准差
transform() (x - mean) / std进行最终的转换
3.1.2 估计器(sklearn机器学习算法的实现)
1.实例化一个estimator
2.estimator.fit(x_train, y_train) 计算
——调用完毕，模型生成
3.模型评估
1.直接比对真实值和预测值
y_predict = estimator.predict(x_test)
y_test == y_predict
2.计算准确率
estimator.score(x_test,y_test)
3.2 K-近邻算法
3.2.1 什么是K-近邻算法
KNN核心思想:根据你的邻居来判断出你的类别
K - 近邻算法(KNN)原理
k = 1(找距离最近的):容易受异常点的影响
如何确定谁是邻居
计算距离:
距离公式:欧式距离(p=2) 曼哈顿距离(绝对值距离) 明可夫斯基距离
电影类型分析
k = 1 爱情片
k = 2 爱情片
k = 6 无法确定
k = 7 动作片
如果取的最近的电影数量不一样?会是什么结果?
k值取得过大,样本不均衡的影响
k = 1(找距离最近的):容易受异常点的影响
结合前面的约会对象数据,分析K-近邻算法需要做什么样的处理
3.2.2 案例1:鸢尾花种类预测
1.获取数据
2.数据集划分
3.特征工程:标准化
4.KNN预估流程
5.模型评估
3.2.3 K邻总结
优点:简单
缺点:1.必须指定K值,K值选择不当则分类精度不能保证
2.懒惰算法,对测试样本分类时的计算量大,内存开销大
3.3 模型选择与调优
3.3.1 交叉验证(训练集中分为训练集+验证集) 让结果更准确

3.3.2 超参数搜索-网格搜索(Grid Search)
    k的取值
        [1,3,5,7,9,11]
        暴力破解
3.3.3 鸢尾花案例增加K值调优
3.3.4 案例:预测facebook签到位置
    流程分析:
        1.获取数据
        2.数据处理
        目的:
            特征值 x
            目标值 y
            a.缩小数据范围
                2 < x < 2.5
                1.0 < y < 1.5
            b.time -> 年月时分秒
            c.过滤签到次数少的地点
        3.特征工程 : 标准化
        4.KNN算法预估流程
        5.模型选择与调优
        6.模型评估

3.4朴素贝叶斯算法
朴素 + 贝叶斯假设特征与特征之间相互独立基于概率
应用场景:
文本分类
单词作为特征
拉普拉斯平滑系数
案例:20类新闻分类
获取数据
划分数据集
特征工程
文本特征抽取
朴素贝叶斯预估器流程
模型选择评估
朴素贝叶斯算法总结
优点:
对缺失数据不太敏感,算法也比较简单,常用于文本分类
分类准确度高
缺点:由于使用了样本属性独立性的假设,所以如果特征属性有关联时其效果不好
3.5 决策树找到最高效的决策顺序-信息增益
3.5.1 认识决策树
如何高效的进行决策？
特征的先后顺序
3.5.2 决策树分类原理
已知四个特征值预测是否贷款给某个人
先看房子、再工作 -> 是否贷款
年龄,信贷情况,工作看了三个特征
信息论基础
1.信息
香农: 消除随机不定性的东西
小明年龄 “我今年18岁”
笑话 “小明明年19岁”
2.信息的衡量 - 信息量 - 信息熵
bit
g(D,A) = H(D) - 条件熵H(D|A) 信息增益决策树划分依据

3.6学习方法之随机森林
3.6.1 什么是集成学习方法
3.6.2 什么是随机森林
随机
森林:包含多个决策树的分类器
3.6.3 随机森林的原理
训练集:
N个样本
特征值目标值
M个特征
随机
两个随机
训练集随机 - N个样本中随机有放回的抽样N个
bookstrap 随机有放回抽样
[1,2,3,4,5]
新的树的训练集
[2,2,3,1,5]
特征随机 - 从M个特征中随机抽取m个特征
M >> m
降维
3.6.4 总结
能够有效地运行在大数据集上,
处理具有高维特征的输入样本,而且不需要降维

标签：KNN,特征,分类,Day2,算法,随机,天池,决策树
来源： https://blog.csdn.net/lingling186/article/details/111600770

本站声明： 1. iCode9 技术分享网（下文简称本站）提供的所有内容，仅供技术学习、探讨和分享；
2. 关于本站的所有留言、评论、转载及引用，纯属内容发起人的个人观点，与本站观点和立场无关；
3. 关于本站的所有言论和文字，纯属内容发起人的个人观点，与本站观点和立场无关；
4. 本站文章均是网友提供，不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属；如您发现该文章侵犯了您的权益，可联系我们第一时间进行删除；
5. 本站为非盈利性的个人网站，所有内容不会用来进行牟利，也不会利用任何形式的广告来间接获益，纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。

ICode9

Day2-机器学习分类算法-阿里云天池