ICode9

精准搜索请尝试: 精确搜索
首页 > 其他分享> 文章详细

回归分析08:假设检验与区间估计(2)

2021-12-14 20:35:05  阅读:151  来源: 互联网

标签:right frac 08 假设检验 beta rm hat 回归 left


目录

Chapter 8:假设检验与区间估计(2)

4.5 异常点检验

在统计学中,异常点是泛指在一组数据中,与它们的主题不是来自同一分布的那些少数点。几何直观上,异常点的异常之处在于它们远离数据的主体。在第三章中,我们已经介绍通过学生化残差的方法来判断异常点,这一节我们将通过假设检验的方法来检验异常点。

首先将正态回归模型写成样本回归模型的向量形式,即

\[y_i=x_i'\beta+e_i \ , \quad e_i\sim N\left(0,\sigma^2\right) \ , \quad i=1,2,\cdots,n \ . \tag{1} \]

这里 \(x_i'\) 表示设计矩阵 \(X\) 的第 \(i\) 行。如果第 \(j\) 组数据 \(\left(x_j',y_j\right)\) 是一个异常点,那么可以假设 \({\rm E}\left(y_j\right)\) 发生了漂移 \(\eta\) ,因此有了一个新的模型

\[\left\{\begin{array}l y_i=x_i'\beta+e_i \ , & i\neq j \ , \\ y_j=x_j'\beta+\eta+e_j \ , \\ e_i\sim N\left(0,\sigma^2\right) \ , & i=1,2,\cdots,n \ . \end{array} \right. \]

记 \(d_j=\left(0,\cdots,0,1,0\cdots,0\right)'\) 是一个 \(n\) 维列向量,它的第 \(j\) 个元素为 \(1\) ,其余为 \(0\) 。于是,上述新的模型可以改写成矩阵形式

\[Y=X\beta+\eta d_j+e \ , \quad e\sim N\left(0,\sigma^2I_n\right) \ . \tag{2} \]

将这一模型称为均值漂移线性回归模型。我们想要利用此模型来判别数据 \(\left(x_j',y_j\right)\) 是否为异常点,这等价于检验假设 \(H_0:\eta=0\) 。记 \(\beta^*\) 和 \(\eta^*\) 分别为均值漂移模型中 \(\beta\) 和 \(\eta\) 的最小二乘估计。下面我们来推导检验统计量。

引理(分块矩阵求逆公式)设 \(X\) 为非奇异矩阵,将其分块为

\[X=\begin{bmatrix} A & B \\ C & D \end{bmatrix} \]

这里我们假定 \(A\) 和 \(D\) 可逆,且有 \(D-CA^{-1}B\xlongequal{def}M\) 可逆,则有

\[X^{-1}=\begin{bmatrix} A^{-1}+A^{-1}BMCA^{-1} & -A^{-1}BM \\ -MCA^{-1} & M \end{bmatrix} \ . \]

特别地,若 \(X\) 是非奇异对称矩阵,即 \(C=B’\) ,则有 \(M=D-B'A^{-1}B\) ,以及

\[X^{-1}=\begin{bmatrix} A^{-1}+A^{-1}BMB'A^{-1} & -A^{-1}BM \\ -MB'A^{-1} & M \end{bmatrix} \ . \]

定理 4.5.1:均值漂移线性回归模型的最小二乘估计为

\[\beta^*=\hat\beta_{(j)} \ , \quad \eta^*=\frac{\hat{e}_j}{1-h_{jj}} \ , \]

其中,\(\hat\beta_{(j)}\) 为从非均值漂移线性回归模型中 \((1)\) 中剔除第 \(j\) 组数据后得到的 \(\beta\) 的最小二乘估计,\(h_{jj}\) 为帽子矩阵 \(H=X\left(X'X\right)^{-1}X'\) 的第 \(j\) 个对角线元素,\(\hat{e}_j\) 为从模型 \((1)\) 中导出的第 \(j\) 个残差。

这个定理说明一个重要的事实:如果因变量的第 \(j\) 个观测值发生了均值漂移,那么在相应的均值漂移线性回归模型中,回归系数 \(\beta\) 最小二乘估计恰好等于在模型 \((1)\) 中剔除了第 \(j\) 组数据后所获得的最小二乘估计。

注意到 \(X=(x_1,x_2,\cdots,x_n)'\) ,且有

\[d_j'Y=y_j \ , \quad d_j'd_j=1 \ , \quad X'd_j=x_j \ . \]

首先根据最小二乘估计的表达式,易知

\[\begin{bmatrix} \beta^* \\ \eta^* \end{bmatrix}=\left(\begin{bmatrix} X' \\ d_j' \end{bmatrix}\begin{bmatrix} X & d_j \end{bmatrix}\right)^{-1}\begin{bmatrix} X' \\ d_j' \end{bmatrix}Y=\begin{bmatrix} X' X & x_j \\ x_j' & 1 \end{bmatrix}^{-1}\begin{bmatrix} X'Y \\ d_j'Y \end{bmatrix} \ . \]

利用分块矩阵求逆公式,以及 \(h_{jj}=x_j'\left(X'X\right)^{-1}x_j\) ,我们有

\[\begin{align} \begin{bmatrix} \beta^* \\ \eta^* \end{bmatrix}&=\begin{bmatrix} \left(X'X\right)^{-1}+\frac{1}{1-h_{jj}}\left(X'X\right)^{-1}x_jx_j'\left(X'X\right)^{-1} & -\frac{1}{1-h_{jj}}\left(X'X\right)^{-1}x_j\\ -\frac{1}{1-h_{jj}}x_j'\left(X'X\right)^{-1} & \frac{1}{1-h_{jj}} \end{bmatrix}\begin{bmatrix} X'Y \\ d_j'Y \end{bmatrix} \\ \\ &=\begin{bmatrix} \hat\beta+\frac{1}{1-h_{jj}}\left(X'X\right)^{-1}x_jx_j'\hat\beta-\frac{1}{1-h_{jj}}\left(X'X\right)^{-1}x_jy_j \\ -\frac{1}{1-h_{jj}}x_j'\hat\beta+\frac{1}{1-h_{jj}}y_j \end{bmatrix} \\ \\ &=\begin{bmatrix} \hat\beta-\frac{1}{1-h_{jj}}\left(X'X\right)^{-1}x_j\hat{e}_j \\ \frac{1}{1-h_{jj}}\hat{e}_j \end{bmatrix} \ . \end{align} \]

由公式 3.4.9 知定理成立。

定理 4.5.2 对于均值漂移线性回归模型,若假设 \(H_0:\eta=0\) 成立,则有

\[F_j=\frac{(n-p-2)r_j^2}{(n-p-1)-r_j^2} \sim F(1,n-p-2) \ . \]

其中,\(r_j\) 为学生化残差

\[r_j=\frac{\hat{e}_j}{\hat\sigma\sqrt{1-h_{jj}}} \ . \]

给定显著性水平 \(\alpha\) ,若

\[F_j=\frac{(n-p-2)r_j^2}{(n-p-1)-r_j^2}>F_{\alpha}(1,n-p-2) \ , \]

则判定第 \(j\) 组数据 \(\left(x_j',y_j\right)\) 为异常点,否则为正常数据点。

应用最小二乘法基本定理可以推导检验 \(H_0:\eta=0\) 的检验统计量。首先将 \(H_0\) 写为线性假设

\[A\begin{bmatrix} \beta \\ \eta \end{bmatrix}=b \ , \quad \text{where}\ \ A=(0,0,\cdots,0,1) \ , \quad b=0 \ . \]

于是 \(m={\rm rank}(A)=1\) ,另外注意到在 \(H_0\) 成立时,约简模型就是原始的回归模型,所以

\[{\rm RSS}_H=Y'Y-\hat\beta'X'Y \ . \]

而无约束条件下的均值漂移线性回归模型,其残差平方和为

\[{\rm RSS}=Y'Y-(\beta^*)'X'Y-\eta^*d_j'Y \ . \]

利用定理 4.5.1 可得

\[\begin{aligned} {\rm RSS}_H-{\rm RSS}&=(\beta^*-\hat\beta)'X'Y+\eta^*d_j'Y \\ \\ &=-\frac{\hat{e}_jx_j'}{1-h_{jj}}\hat\beta+\frac{\hat{e}_jy_j}{1-h_{jj}} \\ \\ &=\frac{\hat{e}_j^2}{1-h_{jj}} \ . \end{aligned} \]

将 \({\rm RSS}\) 进一步写成

\[\begin{aligned} {\rm RSS}&={\rm RSS}_H-\left({\rm RSS}_H-{\rm RSS}\right) \\ \\ &=Y'Y-\hat\beta'X'Y-\frac{\hat{e}_j^2}{1-h_{jj}} \\ \\ &=(n-p-1)\hat\sigma^2-\frac{\hat{e}_j^2}{1-h_{jj}} \ . \end{aligned} \]

由最小二乘法基本定理,检验统计量为

\[\begin{aligned} F_H&=\frac{\left({\rm RSS}_H-{\rm RSS}\right)/1}{{\rm RSS}/(n-p-2)} \\ \\ &=\frac{\hat{e}_j^2}{1-h_{jj}}\times(n-p-2)\bigg/\left[(n-p-1)\hat\sigma^2-\frac{\hat{e}_j^2}{1-h_{jj}}\right] \\ \\ &=\frac{(n-p-2)r_j^2}{(n-p-1)-r_j^2} \ . \end{aligned} \]

其中,\(r_j\) 为学生化残差。在 \(H_0\) 成立的条件下,\(F_H\sim F(1,n-p-2)\) 。

根据 \(F\) 分布与 \(t\) 分布的关系,在 \(H_0\) 成立的条件下,我们也可以构造 \(t\) 统计量:

\[t_j=r_j \cdot \sqrt{\frac{n-p-2}{n-p-1-r_j^2}}\sim t(n-p-2) \ , \]

给定显著性水平 \(\alpha\) ,若

\[\left|t_j\right|>t_{\alpha/2}(n-p-2) \ , \]

则拒绝原假设 \(H_0:\eta=0\) ,判定第 \(j\) 组数据 \(\left(x_j',y_j\right)\) 为异常点,否则为正常数据点。

4.6 Durbin-Watson 检验

Durbin-Watson 检验是针对一阶自相关问题所提出的检验方法,可以用来诊断线性模型的随机误差序列的不相关性假设,常用于时间序列数据。

设 \(e_{i+1}\) 与 \(e_i\) 之间存在如下关系:

\[e_{i+1}=\rho e_{i}+u_{i+1} \ , \quad i=1,2,\cdots,n-1 \ , \]

假设 \(\{u_i\}\) 是独立同分布的随机变量序列,且服从 \(N\left(0,\sigma^2\right)\) 。此时,检验 \(\{e_i\}\) 的不相关性问题的原假设可以写为 \(H_0:\rho=0\) 。检验统计量被称为DW统计量:

\[{\rm DW}=\frac{\sum_{i=2}^n\left(\hat{e}_i-\hat e_{i-1}\right)^2}{\sum_{i=1}^n\hat{e}_i^2} \ . \]

由于 \(\{e_i\}\) 不可观测,因此我们考虑残差序列 \(\{\hat{e}_i\}\) ,构造样本一阶自相关系数 \(r\) 作为 \(\rho\) 的估计:

\[r=\frac{\sum_{i=1}^{n-1}\left(\hat{e}_i-\overline{\hat{e}}_{1\sim n-1}\right)\left(\hat{e}_{i+1}-\overline{\hat{e}}_{2\sim n}\right)}{\sqrt{\sum_{i=1}^{n-1}\left(\hat{e}_i-\overline{\hat{e}}_{1\sim n-1}\right)^2\sum_{i=1}^{n-1}\left(\hat{e}_{i+1}-\overline{\hat{e}}_{2\sim n}\right)^2}} \ , \]

其中

\[\overline{\hat{e}}_{1\sim n-1}=\frac{1}{n-1}\sum_{i=1}^{n-1}\hat{e}_i \ , \quad \overline{\hat{e}}_{2\sim n}=\frac{1}{n-1}\sum_{i=2}^{n}\hat{e}_i \ . \]

一般地,我们认为 \(|\hat{e}_i|\) 比较小,故可认为

\[\begin{aligned} &\frac{1}{n-1}\sum_{i=1}^{n-1}\hat{e}_i\approx\frac{1}{n-1}\sum_{i=2}^{n}\hat{e}_i\approx \frac{1}{n}\sum_{i=1}^{n}\hat{e}_i\approx0 \ . \\ \\ &\sum_{i=1}^{n-1}\hat{e}_i^2\approx\sum_{i=2}^{n}\hat{e}_i^2\approx\sum_{i=1}^{n}\hat{e}_i^2 \ . \end{aligned} \]

代入 \(r\) 的表达式,得到

\[r\approx \frac{\sum_{i=1}^{n-1}\hat e_i\hat e_{i+1}}{\sqrt{\sum_{i=1}^{n-1}\hat e_i^2\sum_{i=1}^{n-1}\hat e_{i+1}^2}}\approx \frac{\sum_{i=1}^{n-1}\hat e_i\hat e_{i+1}}{\sum_{i=1}^{n}\hat e_i^2}\xlongequal{def}\hat\rho \ . \]

容易看出,DW统计量与 \(r\) 之间具有如下的近似关系

\[\begin{aligned} {\rm DW}&=\frac{\sum_{i=2}^n\left(\hat{e}_i-\hat e_{i-1}\right)^2}{\sum_{i=1}^n\hat{e}_i^2} \\ \\ &=\frac{\sum_{i=2}^n\hat{e}_i^2+\sum_{i=2}^n\hat e_{i-1}^2-2\sum_{i=2}^n\hat{e}_{i-1}\hat{e}_i}{\sum_{i=1}^n\hat{e}_i^2} \\ \\ &\approx\frac{2\sum_{i=1}^n\hat{e}_i^2-2\sum_{i=2}^n\hat{e}_{i-1}\hat{e}_i}{\sum_{i=1}^n\hat{e}_i^2} \\ \\ &\approx2-2 r \ . \end{aligned} \]

因此,当 \(\left|{\rm DW}-2\right|\) 过大时拒绝原假设。根据DW分布表可得 \(0<d_L<d_U<2\) ,我们可以根据以下规则进行统计决策:

DW统计量的范围 对 \(\{e_i\}\) 自相关性的判断
\({\rm DW}<d_L\) 存在正相关
\(d_L<{\rm DW}<d_U\) 无法判断自相关性
\(d_U<{\rm DW}<4-d_U\) 不存在自相关性
\(4-d_U<{\rm DW}<4-d_L\) 无法判断自相关性
\({\rm DW}>4-d_L\) 存在负相关

4.7 回归系数的区间估计

这里我们只讨论单个未知参数的区间估计,即求 \(\beta_i\) 的置信水平为 \(1-\alpha\) 的双侧置信区间。最常见的构造置信区间的方法即枢轴量法,这要求我们首先需要找到一个较好的点估计,通过一定的变换构造一个关于点估计的函数,使它的分布不含待估参数。

因为要考虑点估计的分布,所以我们假设线性回归模型满足正态性假设,这里 \(\beta_i\) 较好的点估计我们自然就选择了最小二乘估计 \(\hat\beta_i\) ,因为它是一个具有最小方差的线性无偏估计。

根据最小二乘估计的性质可知,在正态性假设下,

\[\hat \beta \sim N_p\left(\beta,\sigma^2\left(X'X\right)^{-1}\right) \ . \]

用 \(c_{ii}\) 表示矩阵 \(\left(X'X\right)^{-1}\) 的第 \(i\) 个对角线元素,于是

\[\hat\beta_i\sim N\left(\beta_i,\sigma^2c_{i+1,i+1}\right) \ . \]

标准化即可得到

\[z_i\equiv\frac{\hat\beta_i-\beta_i}{\sigma\sqrt{c_{i+1,i+1}}}\sim N(0,1) \ . \]

但是这里的 \(z_i\) 并不是一个枢轴量,因为包含了未知参数 \(\sigma\) 。我们需要给它估计出来,而且还要考虑估计出来之后 \(z_i\) 服从什么分布。根据数理统计的知识,我们很容易联想到 \(t\) 分布。注意到

\[\frac{(n-p-1)\hat\sigma^2}{\sigma^2}=\frac{\rm RSS}{\sigma^2}\sim\chi^2(n-p-1) \ . \]

又因为我们在第三章已经证明了 \(\hat\beta\) 和 \({\rm RSS}\) 相互独立,所以显然 \(\hat\sigma\) 和 \(\hat\beta_i\) 是相互独立的。 所以

\[t_i\equiv\frac{\cfrac{\hat\beta_i-\beta_i}{\sigma\sqrt{c_{i+1,i+1}}}}{\sqrt{\cfrac{\rm RSS}{\sigma^2(n-p-1)}}}=\frac{\hat\beta_i-\beta_i}{\hat\sigma\sqrt{c_{i+1,i+1}}}\sim t(n-p-1) \ . \]

给定置信水平为 \(1-\alpha\) ,则有

\[P\left(|t_i|=\frac{|\hat\beta_i-\beta_i|}{\hat\sigma\sqrt{c_{i+1,i+1}}}<t_{\alpha/2}(n-p-1)\right)=1-\alpha \ , \]

所以 \(\beta_i\) 的置信水平为 \(1-\alpha\) 的双侧置信区间为

\[\left(\hat\beta_i\pm t_{\alpha/2}(n-p-1)\cdot \hat\sigma\sqrt{c_{i+1,i+1}}\right) \ . \]

4.8 因变量的预测

预测问题就是对给定的自变量的值,通过估计出来的回归方程,预测对应的因变量的可能取值或取值范围,也就是点预测和区间预测。

考虑向量形式的线性回归模型

\[y_i=x_i'\beta+e_i \ , \quad i=1,2,\cdots,n \ , \]

模型误差 \(e_1,e_2,\cdots,e_n\) 为独立同分布序列,且满足 Gauss-Markov 假设。

给定 \(x_0=(1,x_{01},x_{02},\cdots,x_{0p})'\) ,对应的因变量值设为 \(y_0\) ,则 \(y_0\) 可以表示为

\[y_0=x_o'\beta+e_0 \ . \]

其中 \(e_0\) 与 \(e_1,e_2,\cdots,e_n\) 不相关,接下来考虑对 \(y_0\) 的点预测和区间预测问题。

首先关注点预测问题,注意到 \(y_0\) 由两部分组成。首先我们可以用 \(x_0'\hat\beta\) 去估计 \(x_0'\beta\) ,其次,因为 \(e_0\) 是零均值随机变量,因此我们直接用 \(0\) 去估计 \(e_0\) 。所以 \(y_0\) 的一个点预测为

\[\hat{y}_0=x_0'\hat\beta \ . \]

无偏性:\(\hat{y}_0\) 是 \(y_0\) 的无偏估计,这里的无偏性指的是预测量 \(\hat{y}_0\) 与被预测量 \(y_0\) 具有相同的均值,即

\[{\rm E}(\hat{y}_0)={\rm E}(x_0'\hat\beta)=x_0'\beta={\rm E}(y_0) \ . \]

最小方差性:在 \(y_0\) 的一切线性无偏预测中,\(\hat{y}_0\) 具有最小的方差。

假设 \(a'Y\) 是 \(y_0\) 的某一线性无偏预测,则有

\[{\rm E}\left(a'Y\right)={\rm E}(y_0)=x_0'\beta \ . \]

因此 \(a'Y\) 可以看作 \(x_0'\beta\) 的一个线性无偏预测。而预测 \(\hat{y}_0=x_0'\hat\beta\) 也可以看作 \(x_0'\beta\) 的一个线性无偏预测。根据 Gauss-Markov 定理可知

\[{\rm Var}\left(a'Y\right) \geq {\rm Var}(x_0'\hat\beta) \ . \]

注意,虽然从形式上,\(y_0\) 的点预测 \(\hat{y}_0=x_0'\hat\beta\) 与参数函数 \(\mu_0=x_0'\beta\) 的最小二乘估计 \(\hat\mu_0=x_0'\hat\beta\) 完全相同,但是他们之间具有本质的差别。其中 \(\hat\mu_0\) 是未知参数的点估计,而 \(\hat{y}_0\) 是随机变量的点预测,这将导致它们的估计/预测精度有所不同。

记预测偏差和估计偏差分别为

\[d_1=y_0-\hat{y}_0 \ , \quad d_2=\mu_0-\hat\mu_0 \ . \]

由于 \(e_0\) 与 \(e_1,e_2,\cdots,e_n\) 不相关,所以 \(y_0\) 与 \(\hat\beta\) 也不相关。下面计算 \(d_1\) 和 \(d_2\) 的方差:

\[\begin{aligned} &{\rm Var}(d_1)={\rm Var}(y_0)+{\rm Var}(\hat y_0)=\sigma^2\left[1+x_0'\left(X'X\right)^{-1}x_0\right] \ , \\ \\ &{\rm Var}(d_2)={\rm Var}(\hat\mu_0)={\rm Var}(x_0'\hat\beta)=\sigma^2x_0'\left(X'X\right)^{-1}x_0 \ . \end{aligned} \]

所以总有 \({\rm Var}(d_1)>{\rm Var}(d_2)\) 。

接下来考虑区间预测问题。区间预测指的是寻找一个随机区间,使得被预测量落在这个区间内的概率达到预先给定的值,本质上依然是置信水平为 \(1-\alpha\) 的双侧置信区间,故还是使用枢轴量法。仍然假设模型误差满足正态性假设,并假设 \(e_0\sim N\left(0,\sigma^2\right)\) 与 \(e_1,e_2,\cdots,e_n\) 独立同分布,此时可知

\[y_0-\hat{y}_0\sim N\left(0,\sigma^2\left[1+x_0'\left(X'X\right)^{-1}x_0\right]\right) \ , \]

又因为 \(\hat\beta\) 与残差向量 \(\hat{e}\) 相互独立,从而 \(y_0-\hat{y}_0\) 与 \(\hat\sigma^2\) 相互独立。根据以下分布

\[\frac{y_0-\hat{y}_0}{\sigma\sqrt{1+x_0'\left(X'X\right)^{-1}x_0}}\sim N(0,1) \ , \quad \frac{(n-p-1)\hat\sigma^2}{\sigma^2}\sim \chi^2(n-p-1) \ , \]

可以推得

\[t_0\equiv\frac{y_0-\hat{y}_0}{\hat\sigma\sqrt{1+x_0'\left(X'X\right)^{-1}x_0}}\sim t(n-p-1) \ , \]

给定置信水平为 \(1-\alpha\) ,则有

\[P\left(|t_0|=\frac{|y_0-\hat{y}_0|}{\hat\sigma\sqrt{1+x_0'\left(X'X\right)^{-1}x_0}}<t_{\alpha/2}(n-p-1)\right)=1-\alpha \ , \]

所以 \(y_0\) 的置信水平为 \(1-\alpha\) 的双侧预测区间为

\[\left(\hat y_0\pm t_{\alpha/2}(n-p-1)\cdot\hat\sigma\sqrt{1+x_0'\left(X'X\right)^{-1}x_0}\right) \ . \]

特别地,对于一元线性回归模型,给定自变量为 \(x_0\) 时对应因变量 \(y_0\) 的点预测为

\[\hat{y}_0=\hat\beta_0+\hat\beta_1x_0 \ . \]

此时 \(y_0\) 的置信水平为 \(1-\alpha\) 的双侧预测区间为

\[\left(\hat y_0\pm t_{\alpha/2}(n-2)\cdot\hat\sigma\sqrt{1+\dfrac1n+\dfrac{\left(x_0-\bar{x}\right)^2}{\sum_{i=1}^n\left(x_i-\bar{x}\right)^2}}\right) \]

因此,预测区间的长度在 \(x_0=\bar{x}\) 时达到最小,而当 \(x_0\) 离 \(\bar{x}\) 越远,预测区间就越长。

标签:right,frac,08,假设检验,beta,rm,hat,回归,left
来源: https://www.cnblogs.com/lixddd/p/15689814.html

本站声明: 1. iCode9 技术分享网(下文简称本站)提供的所有内容,仅供技术学习、探讨和分享;
2. 关于本站的所有留言、评论、转载及引用,纯属内容发起人的个人观点,与本站观点和立场无关;
3. 关于本站的所有言论和文字,纯属内容发起人的个人观点,与本站观点和立场无关;
4. 本站文章均是网友提供,不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属;如您发现该文章侵犯了您的权益,可联系我们第一时间进行删除;
5. 本站为非盈利性的个人网站,所有内容不会用来进行牟利,也不会利用任何形式的广告来间接获益,纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。

专注分享技术,共同学习,共同进步。侵权联系[81616952@qq.com]

Copyright (C)ICode9.com, All Rights Reserved.

ICode9版权所有