ICode9

精准搜索请尝试: 精确搜索
首页 > 其他分享> 文章详细

周志华《机器学习》(西瓜书)——学习笔记

2021-02-23 22:02:51  阅读:186  来源: 互联网

标签:周志华 西瓜 敲声 示例 模型 根蒂 笔记 学习


第1章 绪论

1.1 引言

  • 因为我们吃过、看过很多西瓜,所以基于色泽、根蒂、敲声这几个特征我们就可以做出相当好的判断.类似的,我们从以往的学习经验知道,下足了工夫、弄清了概念、做好了作业,自然会取得好成绩.可以看出,我们能做出有效的预判?是因为我们已经积累了许多经验,而通过对经验的利用?就能对新情况做出有效的决策.
  • 机器学习所研究的主要内容,是关于在计算机上从数据中产生"模型" (model) 的算法,即"学习算法" (learning algorithm). 有了学习算法,我们把经验数据提供给它,它就能基于这些数据产生模型;在面对新的情况时(例如看到一个没剖开的西瓜),模型会给我们提供相应的判断(例如好瓜) .

1.2 基本术语

"示例" (instance) 或"样本" (sample)

例如3个西瓜示例或样本:
(色泽=青绿;根蒂=蜷缩;敲声=浊响),
(色泽=乌黑;根蒂=稍蜷;敲声=沉闷),
(色泽=浅自;根蒂=硬挺;敲声=清脆)。

"属性" (attribute) 或"特征" (feature)

  • 反映事件或对象在某方面的表现或性质的事项,例如"色泽"“根蒂” “敲声”,

"属性值" (attribute value)

  • 属性上的取值,例如"青绿"、 “乌黑”

"属性空间" (attribute space) 、“样本空间” (sample space)或"输入空间"

  • 属性张成的空间

"特征向量" (feature vector)

例如我们把"色泽" “根蒂”
“敲声"作为三个坐标轴,则它们张成一个用于描述西瓜的三维空间,每个西瓜都可在这个空间中找到自己的坐标位置.由于空间中的每个点对应一个坐标向量,因此我们也把一个示例称为一个"特征向量”
(feature vector).

  • 从数据中学得模型的过程称为 “学习” (learning)或"训练" (training),这个过程通过执行某个学习算法来完成。训练过程中使用的数据称为 “训练数据” (training data) ,其中每个样本称为一个 “训练样本” (training sample),训练样本组成的集合称为 “训练集” (training set)。 学得模型对应了关于数据的某种潜在的规律,因此亦称"假设" (hypothesis); 这种潜在规律自身,则称为"真相"或"真实" (ground-truth) ,学习过程就是为了找出或逼近真相.本书有时将模型称为"学习器" (learner) ,可看作学习算法在给定数据和参数空间上的实例化.
  • 如果希望学得一个能帮助我们判断没剖开的是不是"好瓜"的模型,仅有前面的示例数据显然是不够的。要建立这样的关于"预测" (prediction) 的模型,我们需获得训练样本的 "结果"信息,例如" ((色泽:青绿;根蒂二蜷缩;敲声=浊响),好瓜)" .这里关于示例结果的信息,例如"好瓜",称为"标记" (label); 拥有了标记信息的示例,则称为"样例" (example).

一般地,预测任务是希望通过对训练集{(X1, Y1) , (X2, Y2) ,…, (Xm, Ym)} 进行学习,建立一个从输入空间X到输出空间y 的映射f: X→Y.

对二分类任务,通常令Y = {-1,+1} 或{0,1};
对多分类任务,IYI >2;
对回归任务, Y= R,R为实数集.

我们还可以对西瓜做"聚类" (clustering) ,即将训练集中的西瓜分成若干组,每组称为A个"簇" (cluster); 这些自动形成的簇可能对应一些潜在的概念划分,例如"浅色瓜" "深色瓜”,甚至“本地瓜”、“外地瓜”.这样的学习过程有助于我们了解数据内在的规律,能为更深入地分析数据建立基础。需说明的是,在聚类学习中,“浅色瓜”、 "本地瓜"这样的概念我们事先是不知道的,而且学习过程中使用的训练样本通常不拥有标记信息.

根据训练数据是否拥有标记信息,学习任务可大致划分为两大类。
"监督学习" (supervised learning) :分类和回归。
"无监督学习" (unsupervised learning):聚类。

需注意的是,机器学习的目标是使学得的模型能很好地适用于"新样本",而不是仅仅在训练样本上工作得很好;即便对聚类这样的无监督学习任务,我们也希望学得的簇划分能适用于没在训练集中出现的样本.学得模型适用于新样本的能力,称为 “泛化” (generalization) 能力.

1.3 假设空间

**归纳(induction)与演绎(deduction)**是科学推理的两大基本手段。

  • 归纳是从特殊到一般的"泛化" (generalization)过程,即从具体的事实归结出一般性规律;
  • 演绎则是从一般到特殊的"特化" (specialization)过程,即从基础原理推演出具体状况。

例如,在数学公理系镜中,基于一组公理和推理规则推导出与之相洽的定理,这是演绎;而"从样例中学习"显然是一个归纳的过程。因此亦称"归纳学习" (inductive learning).

标签:周志华,西瓜,敲声,示例,模型,根蒂,笔记,学习
来源: https://blog.csdn.net/yanghe4405/article/details/114002481

本站声明: 1. iCode9 技术分享网(下文简称本站)提供的所有内容,仅供技术学习、探讨和分享;
2. 关于本站的所有留言、评论、转载及引用,纯属内容发起人的个人观点,与本站观点和立场无关;
3. 关于本站的所有言论和文字,纯属内容发起人的个人观点,与本站观点和立场无关;
4. 本站文章均是网友提供,不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属;如您发现该文章侵犯了您的权益,可联系我们第一时间进行删除;
5. 本站为非盈利性的个人网站,所有内容不会用来进行牟利,也不会利用任何形式的广告来间接获益,纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。

专注分享技术,共同学习,共同进步。侵权联系[81616952@qq.com]

Copyright (C)ICode9.com, All Rights Reserved.

ICode9版权所有