假设检验

2019-12-24 20:53:29 阅读：429 来源： 互联网

什么是假设检验

什么是假设检验，简单的讲就是，首先我有一个某个领域的数据分布有一个预期，然后观测并获取到这个领域一组统计学的数据，那么这组数据到底是支持我的预期还是反对我的预期，为了回答这个问题就需要使用到假设检验。

假设检验的思路

那么检验的思路是什么呢？

1. 首先要假设我们观测到的统计数据是符合我们预期的数据分布的；

2. 然后我们要将数据分布的可能性进行二元划分，一元是大概率范围，一元是小概率范围，所谓小概率就是发生的概率非常小，如果观测到的这组数据是小概率范围内，那么我们其实就可以认为观测到的数据是不符合你的预期的，怎么那么巧获取到的数据就在几乎不可能的范围内？所以我有足够的理由推翻你的预期。

3. 然后就是从观测到的统计数据是可以提取为一个"现象值"，计算现象值在假设的数据分布的（累计）概率是多大，如果是正态分布的话，可以通过查表获得，如果是2项分布，可以统计计算获得。

注：那么多少算是小概率？业界一般情况下是以5%作为标准。对于低于5%的数据认为是小概率事件。当然可以根据你自己的业务诉求。

案例

1. 某鼻鼾特效药宣称治愈率是90%，某医生跟踪调查，15个人中11人治愈，那么这个结果是否支持药厂的声明？

2. 某糖果包装厂采用机器包装糖果，装袋重量符合X~N(0.5, 0.015)的分布，某天抽样检测重量如下：0.479， 0.506， 0.518， 0.524， 0.498， 0.511， 0.520， 0.515， 0.512；请问今天机器是否正常？

假设检验过程

H0和H1的设定

OK，假设检验本质就是证明观测到数据（现象值），在统计学意义上到底是支持你的假设还是拒绝你的假设。那么基于这个思路，我们首先要有假设H0，即H0，还要有H1，即备择假设，也就是如果拒绝H0，那么我就拥抱H1，注意，敲黑板了，H0，和H1组成了所有的概率可能，就像下面这张图一样，累计概率之后为1（100%），所以，其实假设检验就是要检验的数据到底是处于哪个范围，如果是H0的区域，那没问题，支持原假设，如果是在H1的区域内，那么就拒绝原假设。

注：假设是业务语言来描述，下面提到的"检验统计量"，则是根据假设以及观测到的统计数据，给出的统计学意义上面的数据分布，比如对于鼻鼾药的案例中，假设是治愈率达到90%，那么检验统计量就是X~B(15, 0.9)

检验统计量指定

那么这个待检验数据（观测到的统计数据），是更确切的说其实是观测到的样本的数据分布，是全量数据集的一个子集（要明白数据分布的含义首先要明白统计学的本质意义，参加文尾内容）；在假设统计里面，就是会做一个预期的数据分布（根据H0做的数据分布），然后假设观测到的统计数据也是符合这个数据分布的（即符合H0）；这个假设的数据分布结合观测到的数据就是检验统计量，比如在鼻鼾药案例中，他的检验统计量（假设的数据分布）就是：

X~B(15, 0.9)

在糖果包装案例中，他的检验统计量就是：

[avg(x) - μ0]/δ*n^1/2（其中μ和δ都是历史的均值和方差）

现象值判断区间范围

有了这个检验统计量之后，我们需要计算"现象值"在检验统计量（的假设分布）中的概率是多少；因为我们观测到不仅仅是一组现象，是一定可以提取出来一个"现象值"的，比如在鼻鼾特效药的案例中，这个"现象值"就是治好的病人的数量11，然后我们计算一下P(x<=11)的概率多大，如果我们以5%作为大小概率的区分，那么如果P(X<=11)的值大于5%，就说明现象值是是在大概率范围内，反之则说明现象值是小概率事件，有理由拒绝，最后计算出来P(X<=11)的值是5.55%，Hoory，大于5%，那么支持原假设，即治愈率是90%在。

在糖果包装重量的案例中，我们计算出来现象值是2.2，查表得出概率是98.2% ，一看大概率区间范围是(2.5%,97.5%)，说明现象值并没有落在H0的大概率区间，而是落在H1的范围内，所以拒绝H0的假设。

什么是单尾/双尾检验

最后再来说一下单尾和双尾检验，所谓单尾和双尾是指拒绝域是在分布的两侧（高端低端）还是分布在一侧。

单尾分为左单尾还是右单尾，左单尾指区间[0, 5%]，右单尾指区间(95%, 100%]。至于是左单尾还是右单尾，如果H1（拒绝域）是小于号，则取左单尾，可以理解，左单尾包含了极小值0，拒绝域如果是大于号，则取右单尾，因为它包含了极大值100%

双尾则是应用在H1是≠的场景，区间是指[0,2.5%]以及[97.5%, 100%]两部分组成。为什么呢？因为不等于的话，意味着所有的小概率事件都要屏蔽。

附录：什么是统计学

这里附带说明一下，到底什么是统计学，统计学本质上就是在一个已知位置的（全量）数据集，分析出每个可能数据的概率，这些数据的概率就被称之为数据分布；数据（随机变量）分布分为两类，一类是离散的，就是研究的数据集是可以穷举的，我们使用表格形式就可以表示这种情况（如下所示），最典型的就是硬币正反面的概率：

另外一种，随机变量本身连续的，比如身高，温度等，对于连续的变量，分布函数是基于密度函数积分获取，不管怎么样，可以通过密度函数获知某个区间范围内的概率，比较典型就是正太分布。

但是注意离散型和连续型分布值有着本质的区别，对于离散型数据分布函数F(A)=30%，就是代表A的概率是30%，但是对于连续性变量分布函数F(X) = 5%，则代表的是P(X<=X) = 5%，表达的是一个区间值概率的概念。

标签：概率,H1,假设,H0,假设检验,单尾,数据分布
来源： https://www.cnblogs.com/xiashiwendao/p/12093474.html

本站声明： 1. iCode9 技术分享网（下文简称本站）提供的所有内容，仅供技术学习、探讨和分享；
2. 关于本站的所有留言、评论、转载及引用，纯属内容发起人的个人观点，与本站观点和立场无关；
3. 关于本站的所有言论和文字，纯属内容发起人的个人观点，与本站观点和立场无关；
4. 本站文章均是网友提供，不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属；如您发现该文章侵犯了您的权益，可联系我们第一时间进行删除；
5. 本站为非盈利性的个人网站，所有内容不会用来进行牟利，也不会利用任何形式的广告来间接获益，纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。

ICode9

假设检验