ICode9

精准搜索请尝试: 精确搜索
首页 > 其他分享> 文章详细

数据科学的四种参数估计方法

2021-06-27 20:31:14  阅读:334  来源: 互联网

标签:似然 概率 参数估计 硬币 贝叶斯 估计 科学 后验 四种


摘 要 文章从概率、统计这两大基本概念入手,通过构造一个基本问题,利用四种参数的估计方法及其思路分别对问题进行分析与解答,从而厘清四种方法各自的特征以及之间的差异之处。
关键词 极大似然估计 最大后验估计 贝叶斯估计 最小二乘估计

1. 什么是概率?

1.1 概率与统计
“概率”和“统计”总是形影不离,其联系紧密但也有所区别。
(一)区别
用通俗语言来理解
“概率”为给定条件,对未来进行推理预测;“统计”为回顾过去,进行归纳总结溯源。
用相对专业的语言来总结:
概率研究的是在给定条件(已知模型和参数)下,对要发生的事件可能性(新输入数据)的预测;
统计研究的是在给定数据(训练数据)下,对数据生成方式(模型和参数)的归纳总结。
举例说明:
概率研究的是,已知一个透明盒子里放着a个红球b个白球,计算下一个摸出来的球是红球的可能性;
而统计研究的是,装球盒子非透明,内部信息不知的情况下, 只看到每次摸出来球的颜色情况,从而推断该盒子的内部信息,如红白球的比例。
(二)联系
收集到数据后,为了做出统计推断,是需要建立一个数学数据模型的,这个模型一般就是数据的概率分布,而概率分布就是概率论的研究内容,因此说,概率论是统计学的数学理论基础,统计学是对概率论的应用。

1.2 两大学派
我们在上述提到,“概率”最终研究的是事件的“可能性”,而在现代统计学中,对于“可能性”的探讨有两大不同学派:频率学派和贝叶斯学派。
频率学派从“自然”的角度出发,试图直接为事件本身建模,他们认为世界是确定的,有一个本体,并且有一个不变的真值,我们的目标就是要找到这个真值或真值所在的范围。
贝叶斯学派并不从试图刻画事件本身,而是从观察者角度出发。他们并不试图说明“事件本身是随机的”,或者“世界的本体带有某种随机性”,而是对世界先有一个预判,通过观测数据对这个预判做调整,我们的目标是要找到最优的描述这个世界的概率分布。
我们在目前学习中遇到的贝叶斯流派理论是贝叶斯公式:P(A│B)=(P(B│A)P(A))/(P(B│A)P(A)+P(B│A ̅ )P(A ̅)),贝叶斯公式其实是在描述“你有多大把握能确认相信一件证据?“
上述公式可理解为,我们为了确认“事件结果B发生的原因是A造成的“这件事,要从引起事件B结果发生的所有原因中算“A发生并造成B”的占比。
其中,P(B│A)为后验概率,P(A)为先验概率。我们为了确认是否真的是A造成B,要考虑A事件本身发生的概率如何,若P(A)很小,P(B│A) P(A)也很小,在其余情况确定的情况下,P(A│B)不会很大,即我们并没有很大把握可以确认相信这一证据。
简单说,频率派认为事件发生的“可能性”是客观的,可通过不停观察重复事件的结果推断;贝叶斯派认为“可能性”是一种主观判断,通过不停接受新信息而更新。二者看似矛盾,但都是对“可能性”的合理建模。

1.3 概率和似然
现实生活中我们经常拿抛硬币作为公平选择的一种方式,在一般认知内,硬币出现“花”和“字”的情况是差不多的。我们把硬币出现“花”面的情况称为硬币的参数。按照上述,已知硬币的参数去推断抛硬币的各种情况的可能性,就叫做“概率”。
但是假设抛100次硬币,每次出现的都是“花”,在此情况下,我们似乎认为硬币的参数是不公平的。以上这种通过事实反过来猜测硬币的情况,即为“似然”。
综上,概率是已知参数,对结果可能性的预测。似然是已知结果,对参数是某个值的可能性预测。
对于函数P(x|θ),x表示某一个具体的数据;θ表示模型的参数。从不同的观测角度来看可以分为以下两种情况:
①概率函数:θ已知且不变,x是变量,表示不同x出现的概率;
②似然函数:x已知且不变,θ是变量,表示同一个x在不同θ下出现的概率。
这种理解方式可以类比xy,若x已知,2x即为指数函数;若y已知,x^2则理解为二次函数。

2.四种参数估计方法

我们不妨利用一个简单的问题来介绍这四种参数估计方法:
以抛硬币为例,假设我们有一枚硬币,现在要估计其正面朝上的概率θ;统计问题离不开数据,故进行10次实验(独立同分布,i.i.d.),将硬币抛10次,得到一组数据x_0情况为:(反正正正正反正正正反)。
2.1 极大似然估计
最大似然估计,Maximum Likelihood Estimation,也叫极大似然估计。核心思想是利用已知的样本结果信息,反推最具有可能(最大概率)导致这些样本结果出现的模型参数值θ。最大似然估计是频率学派的代表。
上述问题中,我们要求的模型参数θ指:正面朝上的概率,其似然函数写为f(x_0,θ)=θ^7 〖(1-θ)〗^3,最大似然估计顾名思义要最大化上述函数,可根据图1得出,在θ=0.7时,似然函数取最大值,此时已经完成了最大似然估计。
在这里插入图片描述

根据结果,我们认为正面朝上的概率为0.7,但是以我们的常识来判断硬币通常是均匀的,而这个常识在此处并不考虑。最大似然估计只关注当前的样本,认为当前发生的事件是概率最大的事件,只关注当前发生的事情,不考虑事情的先验情况。

2.2 最大后验估计
最大似然估计是求θ,使似然函数P(x_0│θ)最大;认为此时的θ是最好的θ,此时最大似然估计是将θ看作固定的未知值。最大后验概率估计认为θ是一个随机变量,θ具有某种概率分布,称为先验分布,求解时除了考虑P(x_0│θ)之外,还要考虑其先验分布P(θ),此时要最大化的函数是P(x_0│θ) P(θ)。此处用到了贝叶斯流派的思想。
在以上问题描述中,x_0的先验分布P(x)是通过实验得出,看作是固定值。(假设“投10次硬币”是一次实验,实验做了1000次,“反正正正正反正正正反”出现了n次,则P(x_0)=n/100总之,这是一个可以由数据集得到的值)。因此我们只考虑贝叶斯公式等号右边的分子部分P(x_0│θ) P(θ)即可,又因P(θ│x_0 )为后验概率,这也即“最大后验概率估计“名称由来。
对于投硬币的例子来看,我们认为(“先验地知道”)θ取0.5的概率很大,取其他值的概率小一些。假设P(θ)用μ=0.5,σ^2=0.1的正态分布来描述,则P(x_0│θ) P(θ)的函数图像如图2所示:
在这里插入图片描述

此时函数取最大值时,θ取值已向左偏移,不再是0.7。由此可见,在最大后验概率估计中,θ的估计值与θ的先验分布有很大的关系。这也说明一个合理的先验概率假设是非常重要的。如果先验分布假设错误,则会导致估计的参数值偏离实际的参数值。
同时我们也可以得出一个结论,当先验分布均匀时,MAP估计与MLE相等。如果先验认为这个硬币是概率是均匀分布的,被称为无信息先验( non-informative prior ),通俗的说就是“让数据自己说话”,此时贝叶斯方法等同于频率方法。随着数据的增加,先验的作用越来越弱,数据的作用越来越强,参数的分布会向着最大似然估计靠拢。

2.3 贝叶斯估计
贝叶斯估计是最大后验估计的进一步扩展,贝叶斯估计同样假定是θ一个随机变量并估计θ的分布,但在贝叶斯估计中,x_0的先验分布P(x)是不可忽略的。
现在不要求后验概率最大,重点放在P(x),即观察到的x的概率。一般来说,用全概率公式可以求得:P(x)=∫▒〖P(x_0│θ) P(θ)dθ〗
贝叶斯估计要解决得不是如何估计参数,而是用来估计新测量数据出现的概率,对于新出现的数据x ̃:
P(x ̃│X)=∫_θ▒〖P(x ̃│θ)P(θ│X)dθ=〗 ∫_θ▒〖P(x ̃│θ) (P(X│θ))/(P(x)) dθ〗【2】

2.4 最小二乘估计
最大似然法MLE,是从概率统计的角度处理最优化问题,核心在于把要求的模型假设为一种概率分布。而最小二乘法,它相比于概率的角度更直观,更具体,但它同样可以从概率的角度去解释。它的特点是使用平方损失来定义误差,而这个看似合理的前提其实是假设了误差是服从高斯分布的,即输出y服从高斯分布。所以最小二乘可以看作是极大似然的一种特例。这两种方法都是经验风险最小化。
而从结构风险最小化角度,在数值计算方面,采用的是带正则项的最小二乘法,即在平方损失函数后,再加上一项正则项;概率统计角度的结构风险最小化即最大后验估计MAP。
简单来说,最小二乘估计法的实质就是找到一个估计值,使得实际值与估计值之间的距离越小越好,并且是用实际值与估计值之间差值的平方来衡量这种距离。

3.总结

数据科学的参数估计方法有极大似然估计、最大后验估计、贝叶斯估计、最小二乘估计。通过以上的探讨,我们可以根据不同情况采取不同的估计方法。
欢迎大家加我微信学习讨论
在这里插入图片描述

标签:似然,概率,参数估计,硬币,贝叶斯,估计,科学,后验,四种
来源: https://blog.csdn.net/weixin_45962068/article/details/118279171

本站声明: 1. iCode9 技术分享网(下文简称本站)提供的所有内容,仅供技术学习、探讨和分享;
2. 关于本站的所有留言、评论、转载及引用,纯属内容发起人的个人观点,与本站观点和立场无关;
3. 关于本站的所有言论和文字,纯属内容发起人的个人观点,与本站观点和立场无关;
4. 本站文章均是网友提供,不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属;如您发现该文章侵犯了您的权益,可联系我们第一时间进行删除;
5. 本站为非盈利性的个人网站,所有内容不会用来进行牟利,也不会利用任何形式的广告来间接获益,纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。

专注分享技术,共同学习,共同进步。侵权联系[81616952@qq.com]

Copyright (C)ICode9.com, All Rights Reserved.

ICode9版权所有