ICode9

精准搜索请尝试: 精确搜索
首页 > 其他分享> 文章详细

10机器学习之监督学习

2021-10-09 22:34:09  阅读:170  来源: 互联网

标签:10 机器 预测 回归 分类 TP 学习 正类 分类器


监督学习的目标

利用一组带有标签的数据,学习从输人到输出的映射,然后将这种映射关系应用到未知数据上,达到分类或回归的目的。

  • 分类:当输出是离散的,学习任务为分类任务。
  • 回归:当输出是连续的,学习任务为回归任务。



分类

分类任务:

image


分类学习

输人:一组有标签的训练数据(也称观察和评估),标签表明了这些数据(观察)的所署类别。

输出:分类模型根据这些训练数据,训练自己的模型参数,学习出一个适合这组数据的分类器,当有新数据(非训练数据)需要进行类别判断,就可以将这组新数据作为输人送给学好的分类器进行判断。


分类学习-评价

训练集(training set):顾名思义用来训练模型的已标注数据,用来建立模型,发现规律。

测试集(testing set):也是已标注数据,通常做法是将标注隐藏,输送给训练好的模型,通过结果与真实标注进行对比,评估模型的学习能力。

训练集/测试集的划分方法根:据已有标注数据,随机选出一部分(70%)数据作为训练数据,余下的作为测试数据,此外还有交叉验证法,自助法用来评估分类模型。


分类学习-评价标准

精确率(P):精确率是针对我们预测结果而言的,(以二分类为例)它表示的是预测为正的样本中有多少是真正的正样本。那么预测为正就有两种可能了,一种就是把正类预测为正类(TP),另一种就是把负类预测为正类(FP)。
image

召回率(R):是针对我们原来的样本而言的,它表示的是样本中的正例有多少被预测正确了。那也有两种可能,—种是把原来的正类预测成正类(TP),另一种就是把原来的正类预测为负类(FN)。
image

假设:手上有60个正样本,40个负样本,我们要找出所有的正样本,分类算法查找出50个,其中只有40个是真正的正样本。

  • TP:将正类预测为正类数40

  • FN:将正类预测为负类数20

  • FP:将负类预测为正类数10

  • TN:将负类预测为负类数30

准确率(accuracy)= 预测对的/所有 = (TP+TN)/(TP+FN+FP+TN)=70%

精确率(precision) = TP/(TP+FP) = 80%

召回率(recall) = TP/(TP+FN) = 66.7%


Sklearn vs.分类

与聚类算法被统一封装在sklearn.cluster模块不同,sklearn库中的分类算法并未被统一封装在一个子模块中,因此对分类算法的import方式各有不同。

Sklearn提供的分类函数包括:

  • k近邻(knn)
  • 朴素贝叶斯(naivebayes)
  • 支持向量机(svm)
  • 决策树(decision tree)
  • 神经网络模型(Neural networks)等

其中有线性分类器,也有非线性分类器。

以下图片展示了,分别用线性分类器和非线性分类器,分类的结果。

image


分类算法的应用

金融:贷款是否批准进行评估

医疗诊断:判断一个肿瘤是恶性还是良性

欺诈检测:判断一笔银行的交易是否涉嫌欺诈

网页分类:判断网页的所属类别,财经或者是娱乐?



回归分析

回归:统计学分析数据的方法,目的在于了解两个或多个变数间是否相关、研究其相关方向与强度,并建立数学模型以便观察特定变数来预测研究者感兴趣的变数。回归分析可以帮助人们了解在自变量变化时因变量的变化量。一般来说,通过回归分析我们可以由给出的自变量估计因变量的条件期望。

回归任务:

image


Sklearn vs.回归

Sklearn提供的回归函数主要被封装在两个子模块中,分别是sklearn.linear_model和sklearn.preprocessing。

sklearn.linear_modlel封装的是一些线性函数。

线性回归函数:

  • 普通线性回归函数( LinearRegression )
  • 岭回归(Ridge )
  • Lasso ( Lasso )

非线性回归函数:

多项式回归则通过调用sklearn.preprocessing子模块进行拟合。


回归应用

回归方法适合对一些带有时序信息的数据进行预测或者趋势拟合,常用在金融及其他涉及时间序列分析的领域。

  • 股票趋势预测
  • 交通流量的预测

标签:10,机器,预测,回归,分类,TP,学习,正类,分类器
来源: https://www.cnblogs.com/Siri-99/p/15387991.html

本站声明: 1. iCode9 技术分享网(下文简称本站)提供的所有内容,仅供技术学习、探讨和分享;
2. 关于本站的所有留言、评论、转载及引用,纯属内容发起人的个人观点,与本站观点和立场无关;
3. 关于本站的所有言论和文字,纯属内容发起人的个人观点,与本站观点和立场无关;
4. 本站文章均是网友提供,不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属;如您发现该文章侵犯了您的权益,可联系我们第一时间进行删除;
5. 本站为非盈利性的个人网站,所有内容不会用来进行牟利,也不会利用任何形式的广告来间接获益,纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。

专注分享技术,共同学习,共同进步。侵权联系[81616952@qq.com]

Copyright (C)ICode9.com, All Rights Reserved.

ICode9版权所有