ICode9

精准搜索请尝试: 精确搜索
首页 > 其他分享> 文章详细

[机器学习][熵]有关熵的记录

2021-10-23 13:02:17  阅读:205  来源: 互联网

标签:不确定性 概率 机器 记录 石子 小球 学习 事件 frac


熵的本质是一个系统“内在的混乱程度”,是物理学的概念。

在信息论中,信息熵可以有以下两种理解方式

  • 表征事物的不确定性
  • 表征事件的信息量

事件与概率

先来举个例子,理解事件与概率之间的关系

猜小球事件

  • 有一个不透明的袋子,其中有四种数量相等的小球,A,B,C,D,

现在,拿出一个小球,事件\(P\{拿出一个小球\}=1\),该事件中,有四个子事件分别为

  • 拿出A小球,其概率 \(p = \frac{1}{4}\)
  • 拿出B小球,其概率 \(p = \frac{1}{4}\)
  • 拿出C小球,其概率 \(p = \frac{1}{4}\)
  • 拿出D小球,其概率 \(p = \frac{1}{4}\)

可以理解为“拿出小球”事件是一开始的规定,是一定发生的,所以概率为1,而“拿出某一个小球”事件的概率为\(\frac{1}{4}\),我们可以近似得将概率理解为事件的权重,在此例中也就是\(\frac{1}{4}\)。

现在,我们还是拿出一个小球,现在只关注与这个拿出的小球是不是A小球,事件\(P\{拿出一个小球\}=1\),该事件中,有两个子事件分别为

  • 拿出的小球是A小球,其概率 \(p = \frac{1}{4}\)
  • 拿出的小球不是A小球,其概率 \(p = \frac{3}{4}\)

直观上讲,这两个事件的不确定性是不同的,因为,第一个事件,有4个等概率的子事件,但是第二个事件,只有两个子事件。
:其实,事件的不确定性不仅和事件中的子事件个数有关,还和每个事件的概率有关,掷出一个质地均匀的硬币和掷出一个容易出现正面的硬币,这两个事件的不确定性也是不同的,直观上讲,后者的不确定性要低一些,因为硬币更容易出现正面。

事件的不确定性——信息熵

信息熵这个概念就是用来衡量事件不确定性的物理量,那,我们怎么衡量不确定性呢,毕竟“不确定性”都不确定了,还怎么衡量呢。
再来设想一个场景——寻找石子。

  • 现在你需要在N个石子中寻找一个指定的石子,你会怎么做?

可能的解:1.你会认为这个石子和别的石子有质地上的区别,然后找一个天平,不停的分堆然后去度量
2.遍历这个石头堆,去查每一个石子是不是符合目标的要求

对于上面两种解题方式
第一种方法假设了“石子质地是不同的”,这就是一个削减事件不确定性的方式,题设没说,你以为就是你以为了,通过这种削减不确定性的方式,你的度量次数降低到了指数的级别。
第二种方法没有做任何先行的假设,直接进行比对,查找,这相当于要查找N次,没有任何削减不确定性的方式

设想一下以下几种情况

  • 现在来了一个考官,你可以向考官问问题,对于你的问题,他会给你{对,错}的回复
    现在找石子的问题,你依旧可以使用第二种解法,每次拿一个石子,去问考官“是这个么?”,然后重复N次。但这显然没有什么意义。
  • 来了考官以后,我们最少需要多少次查找?
    二分法是很适合这个问题的,将石子分成两堆,然后问考官,“石子在这堆么?”,得到“是”就可以把另一堆扔了,对这堆继续二分,反之扔掉去找考官确认的那堆,然后持续重复二分的过程直到最后只有两个石子,那么最后再去确认一次,即可获得正确答案。
  • 现在换了一个考官,这个考官依然会回答你的问题,他会告诉你,你拿来的是不是符合要求的石子,如果不是,他会告诉你正确答案。
    好了,现在是不是只用查找一次就知道结果了?

事物的不确定性,不是指做了什么(用那一堆去找考官),而是指能做什么({对,错},分两堆;{N个里哪个是对的},分N堆)

找石子的过程,就是信息从不确定到确定的过程,事物的不确定性的大小,就是能做的事的次数。

  • 不确定性——编码事件所需要的信息子的个数
    不知道我写到这里大家对信息熵有没有一个比较直观的理解,在信号传递过程中,一般用高电位/低电位表征0/1编码,然后用二进制进行编码数据,这就对应于第一个考官{对,错}的回答,因为只有这两种情况,所以需要\(log_2N\)次编码/找考官确认,但是实际上你用3进制编码,最后需要\(log_3N\),甚至你用N进制编码,最后只需要1次,都可以用来表征事物的不确定性。
  • 不确定性——无量纲物理单位,当底数为2时,单位为bit
    不确定性,本身表征的是事物的抽象状态,是不可能有量纲的,而2进制作为现在最为广泛使用的编码方式,使用2分来度量事物不确定性时,此时的事物不确定性有bit这个单位,也就是编码事件使用的编码长度。

信息熵的定义

  • 对于等概率事件\(f(p)=log(\frac{1}{p})\)
    信息熵必不可能是负的
    答题人在出题人出题之后立马得到答案,也不影响熵是正的,答题人所有的先验知识,将这个事件确定了,但是这个确定的过程并不影响事件本身,这就是抽象带来的好处,熵是脱离了表象的,可以说是一种客观规律,近似于哲学的概念,所以看不见,摸不着,但是可以度量,那如果说,我是说,如果,出题人没出题,答题人就回答问题了,那,拉普拉斯妖的故事,了解一下。
  • 对于不等概率事件\(f(p)=\Sigma plog(\frac{1}{p})\)
    还记得前面的拿小球的例子么,对于事件而言,我们已经默认发生了,那么它的子事件就相当于它的组成,概率就相当于权重占比,所以,我们可以用算取期望的方式来计算整个事件的不确定性,那么,单个子事件的信息量又如何确定呢,{拿出A小球}的概率是\(\frac{1}{4}\),那这件事的不确定性,就可以定义为等概率事件的不确定性中这个事件的组成,也就是\(plog(\frac{1}{p})\)

未完待续

标签:不确定性,概率,机器,记录,石子,小球,学习,事件,frac
来源: https://www.cnblogs.com/riaris/p/15442911.html

本站声明: 1. iCode9 技术分享网(下文简称本站)提供的所有内容,仅供技术学习、探讨和分享;
2. 关于本站的所有留言、评论、转载及引用,纯属内容发起人的个人观点,与本站观点和立场无关;
3. 关于本站的所有言论和文字,纯属内容发起人的个人观点,与本站观点和立场无关;
4. 本站文章均是网友提供,不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属;如您发现该文章侵犯了您的权益,可联系我们第一时间进行删除;
5. 本站为非盈利性的个人网站,所有内容不会用来进行牟利,也不会利用任何形式的广告来间接获益,纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。

专注分享技术,共同学习,共同进步。侵权联系[81616952@qq.com]

Copyright (C)ICode9.com, All Rights Reserved.

ICode9版权所有