多元统计分析-第四章计算详解

多元统计分析-第四章计算详解

周六 6月 06 2026
3871 字 · 16 分钟

一般回归模型和线性回归模型的关系

线性回归模型是一般回归模型的一个特例。

一般回归模型泛指所有以最小化均方误差为目标,寻找自变量 XX到因变量YY的最优预测函数f(X)f(X)的方法,不限制ff 的形式。

线性回归模型则在此基础上增加了具体假设:f(X)f(X) 是参数的线性组合(XβX\beta),且通常附带误差独立同分布正态性同方差等假设。

因此,一般回归模型是一个更大的框架,线性回归模型是其中最基础、最简单的一种参数化模型。

投影

Rn\mathbb{R}^n中,给定一个向量a\mathbf{a}及子空间WW,如果在 WW中存在向量b\mathbf{b}使

ab=infxWax\|\mathbf{a} - \mathbf{b}\| = \inf_{\mathbf{x} \in W} \|\mathbf{a} - \mathbf{x}\|

则称 b\mathbf{b}a\mathbf{a}WW中的投影。b\mathbf{b}a\mathbf{a}WW上的投影    bW\iff \mathbf{b} \in Wab\mathbf{a} - \mathbf{b}WW中所有向量正交

投影矩阵

Rn\mathbb{R}^n中,设WW是由向量a1,a2,,ar\mathbf{a}_1, \mathbf{a}_2, \dots, \mathbf{a}_r张成的子空间,则WW上的投影矩阵为P=A(AA)1A\mathbf{P} = \mathbf{A}(\mathbf{A}'\mathbf{A})^{-1}\mathbf{A}'。其中,A=[a1a2ar]\mathbf{A} = \begin{bmatrix} \mathbf{a}_1 & \mathbf{a}_2 & \cdots & \mathbf{a}_r \end{bmatrix}


例题

请推导线性回归模型 Y=Xβ+ε\boldsymbol{Y} = \boldsymbol{X}\boldsymbol{\beta} + \boldsymbol{\varepsilon} 的最小二乘估计量。

线性回归模型

现在,我们先来了解一下回归模型。


回归分析:通过一组自变量(预测变量)来预测一个或者多个因变量(预测变量)的统计方法。也可用于评估预测变量对响应变量的影响。

rr 个自变量 x1,x2,,xrx_1, x_2, \cdots, x_r,因变量 YY

  • 例:Y=Y=住房的当前市值,x1=x_1=居住面积,x2=x_2=位置,x3=x_3=去年的评估价值,x4=x_4=建筑质量

Y=均值+随机误差ϵY = 均值 + 随机误差 \epsilon

  • 均值:预测变量的连续函数(固定值)
  • 误差ϵ\epsilon:测量误差和其余未被考虑的变量所产生的效应(随机变量)。

式子列出来就是这样:

单个响应的线性回归模型:Y=β0+β1x1++βpxp+ϵY = \beta_0 + \beta_1 x_1 + \cdots + \beta_p x_p + \epsilon

你可以把它看作是一个非中心化的AR模型,只是自变量因素而不是时间β\betaϵ\epsilon未知量是要求解的,其他的是可以观测得到。


这里只有一次观测,那观察多次呢?

Y 的 nn 个观测值与因变量的联系

Y1=β0+β1x11+β2x12++βrx1r+ϵ1Y2=β0+β1x21+β2x22++βrx2r+ϵ2Yn=β0+β1xn1+β2xn2++βrxnr+ϵn\begin{align*} Y_1 &= \beta_0 + \beta_1 x_{11} + \beta_2 x_{12} + \cdots + \beta_r x_{1r} + \epsilon_1 \\ Y_2 &= \beta_0 + \beta_1 x_{21} + \beta_2 x_{22} + \cdots + \beta_r x_{2r} + \epsilon_2 \\ &\vdots \\ Y_n &= \beta_0 + \beta_1 x_{n1} + \beta_2 x_{n2} + \cdots + \beta_r x_{nr} + \epsilon_n \end{align*}

关于误差项 ϵ\epsilon 的假定

  • E(ϵj)=0E(\epsilon_j) = 0
  • Var(ϵj)=σ2Var(\epsilon_j) = \sigma^2
  • Cov(ϵj,ϵk)=0, jkCov(\epsilon_j, \epsilon_k) = 0, \ j \neq k

这里的误差项可以看作是白噪声序列,两者性质是一样的。


总所周知,数学家都很懒,对于上面的 Y 的 nn 个观测值与预测变量的联系 那么长的式子,证明题里不得抄到累死。所以为了省力,有以下简洁的记法:

经典线性回归模型(矩阵形式)

Y=Xβ+ϵ\mathbf{Y} = \mathbf{X}\boldsymbol{\beta} + \boldsymbol{\epsilon}

E(ϵ)=0,Cov(ϵ)=σ2IE(\boldsymbol{\epsilon}) = \mathbf{0}, \quad Cov(\boldsymbol{\epsilon}) = \sigma^2 \mathbf{I}

其中β\boldsymbol{\beta}σ2\sigma^2为未知参数。

[Y1Y2Yn]=[1x11x12x1r1x21x22x2r1xn1xn2xnr][β0β1βr]+[ϵ1ϵ2ϵn]\begin{bmatrix}Y_1 \\Y_2 \\\vdots\\Y_n\end{bmatrix}=\begin{bmatrix}1 & x_{11} & x_{12} & \cdots & x_{1r} \\1 & x_{21} & x_{22} & \cdots & x_{2r} \\\vdots & \vdots & \vdots & \ddots & \vdots \\1 & x_{n1} & x_{n2} &\cdots & x_{nr}\end{bmatrix}\begin{bmatrix}\beta_0 \\\beta_1\\\vdots\\\beta_r\end{bmatrix}+\begin{bmatrix}\epsilon_1 \\\epsilon_2\\\vdots \\\epsilon_n\end{bmatrix}

好了,至此,我们知道了题目的前半句的含义,那后半句是说什么?以及这道题目是想让我们干什么?

说人话就是在矩阵形式的线性回归模型 Y=Xβ+εY=Xβ+ε 中,求出参数向量 ββ 的最小二乘估计量,并写出它的表达式。

最小二乘估计量

最小二乘法:寻找合适的β\boldsymbol{\beta}值,使得函数

S(β)=j=1n(yj(β0+β1xj1+β2xj2++βrxjr))2=(YXβ)(YXβ)=ϵϵ\begin{aligned} S(\boldsymbol{\beta}) &= \sum_{j=1}^n \left(y_j - (\beta_0 + \beta_1 x_{j1} + \beta_2 x_{j2} + \cdots + \beta_r x_{jr})\right)^2 = (\boldsymbol{Y} - \boldsymbol{X}\boldsymbol{\beta})'(\boldsymbol{Y} - \boldsymbol{X}\boldsymbol{\beta})=\epsilon'\epsilon \end{aligned}

达到最小,记为β^\hat{\boldsymbol{\beta}},称为β\boldsymbol{\beta}的最小二乘估计。


怎么理解呢? yj(β0+β1xj1+β2xj2++βrxjr)y_j - (\beta_0 + \beta_1 x_{j1} + \beta_2 x_{j2} + \cdots + \beta_r x_{jr}) 这个相当是一个真实值拟合值残差

这里残差有正有负,要是直接加起来,可能会抵消,所以还要加个平方,最后再加起来。

因为是残差平方和嘛,所以肯定是越小越好的呗!用数学语言表达就是:

β^=argminbS(b)=(YXb)(YXb)(残差平方和最小)\hat{\boldsymbol{\beta}} = \arg \min_{\mathbf{b}} S(\mathbf{b}) = (\mathbf{Y} - \mathbf{Xb})'(\mathbf{Y} - \mathbf{Xb}) \quad (\text{残差平方和最小})

这里的 b 是 β\boldsymbol{\beta} 的一个估计值。就相当于设了一个变量,因为还没求出来。


我们先不证明,先给出最小二乘的结果。

β^=(XX)1XY\hat{\boldsymbol{\beta}} = (\mathbf{X}'\mathbf{X})^{-1}\mathbf{X}'\mathbf{Y}

代入这个结果来预测以下 Y:(最优的没误差项了)

Y^=Xβ^=X(XX)1XY\hat{\mathbf{Y}} = \mathbf{X}\hat{\boldsymbol{\beta}} = \mathbf{X}(\mathbf{X}'\mathbf{X})^{-1}\mathbf{X}'Y

这个时候我们可以把Y前面的东西提取出来,命名为H。

HX(XX)1X 为自变量空间的投影矩阵。\mathbf{H} \equiv \mathbf{X}(\mathbf{X}'\mathbf{X})^{-1}\mathbf{X}' \text{ 为自变量空间的投影矩阵。}

投影矩阵

看一下老师的定义:

投影矩阵:在 Rn\mathbb{R}^n中,设 WW 是由向量a1,a2,,ar\mathbf{a}_1, \mathbf{a}_2, \dots, \mathbf{a}_r张成的子空间,则WW上的投影矩阵为P=A(AA)1A\mathbf{P} = \mathbf{A}(\mathbf{A}'\mathbf{A})^{-1}\mathbf{A}'。其中,A=[a1,a2,,ar]\mathbf{A} = \begin{bmatrix} \mathbf{a}_1,\mathbf{a}_2,\cdots,\mathbf{a}_r \end{bmatrix}

文字可能很抽象,我们来画张图片:

Pasted image 20260606151811

这个红色的空间就是 WW,而投影矩阵所做的事就是把 红色的向量 投影到 WW 这个空间,变为 橙色的向量。

所以对于 a=u+v:uW,vW\forall \mathbf{a} = \mathbf{u} + \mathbf{v}: \mathbf{u} \in W, \mathbf{v} \perp W,有 Pa=u\mathbf{P}\mathbf{a} = \mathbf{u}。,因为v垂直,投影后长度为0。

投影矩阵还有一些比较好的性质:P=P,Pn=PP' = P, \, P^n = P

最小二乘估计量的推导

绕了这么远,就是因为我们要用投影矩阵来推导最小二乘估计量。

我们把 Xβ\boldsymbol{X}\boldsymbol{\beta} 看作矩阵 X\boldsymbol{X} 的列空间 CXK(X)\mathcal{CXK}(\boldsymbol{X}) 中的所有向量。

最小二乘目标是让残差平方和最小:

β^=argminbS(b)=(YXb)(YXb)(残差平方和最小)\hat{\boldsymbol{\beta}} = \arg \min_{\mathbf{b}} S(\mathbf{b}) = (\mathbf{Y} - \mathbf{Xb})'(\mathbf{Y} - \mathbf{Xb}) \quad (\text{残差平方和最小})

我们可以在 CXK(X)\mathcal{CXK}(\boldsymbol{X}) 空间中找到一个 Xβ=Y^\boldsymbol{X}\boldsymbol{\beta} =\hat{\mathbf{Y}} (拟合值)使它与 YY (实际值)的欧氏距离最短。

这个最优值在集合上是明确的,就是:从 Y\boldsymbol{Y} 向子空间 CXK(X)\mathcal{CXK}(\boldsymbol{X}) 作垂线,垂足 Y^\boldsymbol{\hat{Y}} 就是最优拟合值。

Pasted image 20260606151811

正好,这也可以让投影矩阵大展身手。


定义投影矩阵:

P=X(XX)1X\boldsymbol{P} = \boldsymbol{X}(\boldsymbol{X}'\boldsymbol{X})^{-1}\boldsymbol{X}'

那么:

Xβ^=Y^=PYX\hat{\beta} = \hat{Y} = PY

PYPY 就是 YY蔡徐坤空间 的投影 Y^\hat{Y} 它是由 Xβ^X\hat{\beta} 构成的预测值。

我们代入 PP 的表达式:

Xβ^=X(XX)1XY\boldsymbol{X}\hat{\boldsymbol{\beta}} = \boldsymbol{X}(\boldsymbol{X}'\boldsymbol{X})^{-1}\boldsymbol{X}'\boldsymbol{Y}

两边左乘X\boldsymbol{X}'

XXβ^=XX(XX)1XY\boldsymbol{X}'\boldsymbol{X}\hat{\beta} = \boldsymbol{X}'\boldsymbol{X}(\boldsymbol{X}'\boldsymbol{X})^{-1}\boldsymbol{X}'\boldsymbol{Y}

由于 XX\boldsymbol{X}'\boldsymbol{X} 可逆,两边再同时左乘上 (XX)1(\boldsymbol{X}'\boldsymbol{X})^{-1}

β^=(XX)1XY\hat{\beta} = (\boldsymbol{X}'\boldsymbol{X})^{-1}\boldsymbol{X}'\boldsymbol{Y}

于是我们推导好了。


OLS 估计量(普通最小二乘估计量)的含义及优良性

β^=argminbS(b)=(YXb)(YXb)(残差平方和最小)\hat{\boldsymbol{\beta}} = \arg \min_{\mathbf{b}} S(\mathbf{b}) = (\mathbf{Y} - \mathbf{Xb})'(\mathbf{Y} - \mathbf{Xb}) \quad (\text{残差平方和最小})

由投影的定义,有Xβ^=HY    β^=(XX)1XY\mathbf{X}\hat{\boldsymbol{\beta}} = \mathbf{H}\mathbf{Y} \implies \hat{\boldsymbol{\beta}} = (\mathbf{X}'\mathbf{X})^{-1}\mathbf{X}'\mathbf{Y}

其中,HX(XX)1X\mathbf{H} \equiv \mathbf{X}(\mathbf{X}'\mathbf{X})^{-1}\mathbf{X}'为自变量空间的投影矩阵。

  • 优良性
    • 无偏性:若满足一定基本假设,则E(β^X)=βE(\hat{\beta}|X) = \beta
    • 一致性:若满足一定假设,且当样本量 nn \to \infty时,有β^β\hat{\beta} \to \beta
    • 最优线性无偏估计 (BLUE):根据高斯-马尔科夫定理,在所有线性无偏估计量中,OLS 估计量的方差最小。

线性回归模型中两种平方和分解的形式

  1. Y=Y^+(YY^)\mathbf{Y} = \hat{\mathbf{Y}} + (\mathbf{Y} - \hat{\mathbf{Y}})及投影的性质,有YY=Y^Y^+(YY^)(YY^)\mathbf{Y}'\mathbf{Y} = \hat{\mathbf{Y}}'\hat{\mathbf{Y}} + (\mathbf{Y} - \hat{\mathbf{Y}})'(\mathbf{Y} - \hat{\mathbf{Y}})

  2. Y1Y=(Y^1Y)+(YY^)\mathbf{Y} - \mathbf{1}\overline{Y} = (\hat{\mathbf{Y}} - \mathbf{1}\overline{Y}) + (\mathbf{Y} - \hat{\mathbf{Y}})及投影的性质,有

(Y1Y)(Y1Y)总平方和(SST)=(Y^1Y)(Y^1Y)回归平方和(SSR)+(YY^)(YY^)残差平方和(SSE)\underbrace{(\mathbf{Y} - \mathbf{1}\overline{Y})'(\mathbf{Y} - \mathbf{1}\overline{Y})}_{\text{总平方和(SST)}} = \underbrace{(\hat{\mathbf{Y}} - \mathbf{1}\overline{Y})'(\hat{\mathbf{Y}} - \mathbf{1}\overline{Y})}_{\text{回归平方和(SSR)}} + \underbrace{(\mathbf{Y} - \hat{\mathbf{Y}})'(\mathbf{Y} - \hat{\mathbf{Y}})}_{\text{残差平方和(SSE)}}

例题

已知均方误差 MSE(g)=E(Yg(X))2MSE(g) = E\left(Y - g(\mathbf{X})\right)^2。证明:E(YX)=argmingMSE(g)E(Y|\mathbf{X}) = \arg \min_{g} MSE(g)

先翻译成人话:那我问你:条件期望 E(YX)E(Y|\mathbf{X}) 是让 MSE 取得最小的那个 g 函数吗?

重期望定理

E[E[YX]]=E[Y]E[E[Y|X]] = E[Y]

纯背的,没什么好说的,除非你想知道这么来的。

推导

我既然说了重期望法则,那说明肯定要用到,所以,还是和之前一样的构造,加一个减一个。

Yg(X)=(YE[YX])+(E[YX]g(X))Y - g(\mathbf{X}) = (Y - E[Y|\mathbf{X}]) + (E[Y|\mathbf{X}] - g(\mathbf{X}))

平方算出来:

(Yg(X))2=(YE[YX])2+(E[YX]g(X))2+2(YE[YX])(E[YX]g(X))(Y - g(\mathbf{X}))^2 = (Y - E[Y|\mathbf{X}])^2 + (E[Y|\mathbf{X}] - g(\mathbf{X}))^2 + 2(Y - E[Y|\mathbf{X}])(E[Y|\mathbf{X}] - g(\mathbf{X}))

再取期望,搞出MSE:

MSE(g)=E[(YE[YX])2]+E[(E[YX]g(X))2]+2E[(YE[YX])(E[YX]g(X))]\text{MSE}(g) = E\left[(Y - E[Y|X])^2\right] + E\left[(E[Y|X] - g(\mathbf{X}))^2\right] + 2E\left[(Y - E[Y|X])(E[Y|X] - g(\mathbf{X}))\right]

我们还是一项一项看:

交叉项: E[(YE[YX])(E[YX]g(X))]E\left[(Y - E[Y|X])(E[Y|X] - g(\mathbf{X}))\right]

这里,设 E[(YE[YX])(E[YX]g(X))]=E(U)E[(Y - E[Y|X])(E[Y|X] - g(X))] = E(U) (内部为U) 那么利用一下重期望定理:

E(U)=E[E(UX)]=E[E[(YE[YX])(E[YX]g(X))X]]E(U) = E[E(U|X)] = E\left[ E\left[ (Y - E[Y \mid X])(E[Y \mid X] - g(X)) \mid X \right] \right]

我们做重期望是为了把 X 放入内层期望中,所以我们主要看内层

E[(YE[YX])(E[YX]g(X))X]E\left[ (Y - E[Y \mid X])(E[Y \mid X] - g(X)) \mid X \right]

这里,在给定 X 的条件下,可以把 (E[YX]g(X))(E[Y|\mathbf{X}] - g(\mathbf{X}))(第二项)看作常数,从而提到外面:

E[(YE[YX])(E[YX]g(X))X]=(E[YX]g(X))E[YE[YX]X]E\left[(Y - E[Y|\mathbf{X}])(E[Y|\mathbf{X}] - g(\mathbf{X})) \mid \mathbf{X}\right] = (E[Y|\mathbf{X}] - g(\mathbf{X})) E\left[Y - E[Y|\mathbf{X}] \mid \mathbf{X}\right]

在最后一项中:

E[YE[YX]X]=E[YX]E[YX]=0E\left[ Y - E[Y \mid X] \mid X \right] = E[Y \mid X] - E[Y \mid X] = 0

也算是结论吧…所以交叉项为零。


其余项

剩下的项写出来:

MSE(g)=E[(YE[YX])2]+E[(E[YX]g(X))2]\text{MSE}(g) = E\left[(Y - E[Y|\mathbf{X}])^2\right] + E\left[(E[Y|\mathbf{X}] - g(\mathbf{X}))^2\right]

其中,第一项和 g(x) 无关,是固有的一项。 而第二项是和 g(x) 有关的,而且第二项是平方项,所以非负。

只要g(x)取的好,比如 g(X)=E[YX]g(\mathbf{X}) = E[Y|\mathbf{X}] 时第二项为零,其他时候都大于0。

因此:

MSE(g)E[(YE[YX])2]=MSE(E[YX])\text{MSE}(g) \geq E\left[(Y - E[Y|\mathbf{X}])^2\right] = \text{MSE}(E[Y|\mathbf{X}])

等号成立当且仅当g(X)=E[YX]g(\mathbf{X}) = E[Y|\mathbf{X}]

MSE在ppt中没提及,以及这题结论比较多,没什么可以说的,只能背力。


例题

已知均方误差 MSE(β)=E(YXβ)2MSE(\boldsymbol{\beta}) = E\left(Y - \mathbf{X}'\boldsymbol{\beta}\right)^2β=[E(XX)]1E(XY)\boldsymbol{\beta}^* = \left[E(\mathbf{X}\mathbf{X}')\right]^{-1} E(\mathbf{X}Y)。证明

(1) β=argminβMSE(β)\boldsymbol{\beta}^* = \arg \min_{\boldsymbol{\beta}} MSE(\boldsymbol{\beta})

翻译:β\boldsymbol{\beta}^* 是让 MSE(β)MSE(\boldsymbol{\beta}) 最小的那个 β\beta 吗?

先展开平方项:

MSE(β)=E[Y22YXβ+βXXβ]\text{MSE}(\boldsymbol{\beta}) = E[Y^2 - 2 Y \mathbf{X}' \boldsymbol{\beta} + \boldsymbol{\beta}'\mathbf{X} \mathbf{X}' \boldsymbol{\beta}]

把期望打开:

MSE(β)=E[Y2]2E[YX]β+βE[XX]β\text{MSE}(\boldsymbol{\beta}) = E[Y^2] - 2 E[Y \mathbf{X}'] \boldsymbol{\beta} + \boldsymbol{\beta}' E[\mathbf{X} \mathbf{X}'] \boldsymbol{\beta}

要让 MSE 最小,那就对ββ求导呗:

MSEβ=2E[XY]+2E[XX]β=0\frac{\partial \text{MSE}}{\partial \beta} = -2E[\mathbf{X}Y] + 2E[\mathbf{X}\mathbf{X}']\beta = \mathbf{0}

稍微调一下位置:

β=[E(XX)]1E(XY)=β\beta = [E(\mathbf{X}\mathbf{X}')]^{-1} E(\mathbf{X}Y) = \beta^*

还要补充一句:

由于凸性,该点为全局最小值点,因此 β=argminβMSE(β)\beta^* = \arg \min_{\beta} \text{MSE}(\beta)

(2) 若 Y=βX+εY = \boldsymbol{\beta}^{*'} \mathbf{X} + \varepsilon,则 E(Xε)=0E(\mathbf{X}\varepsilon) = \mathbf{0}

正常的回归是:Y=Xβ+ϵ\mathbf{Y} = \mathbf{X}\boldsymbol{\beta} + \boldsymbol{\epsilon}

这里则是Y=βX+εY = \boldsymbol{\beta}' \mathbf{X} + \varepsilon,所以 βX\boldsymbol{\beta}' \mathbf{X} 是一个标量。标量你转个置也没什么事情:βX=Xβ\beta^{*'} X = X' \beta^*

所以:

Y=Xβ+εY = X' \beta^* + \varepsilon

两边左乘 X\mathbf{X}

XY=XXβ+Xε\mathbf{X}Y = \mathbf{X}\mathbf{X}'\boldsymbol{\beta}^* + \mathbf{X}\boldsymbol{\varepsilon}

两边取期望

E[XY]=E[XX]β+E[Xε]E[XY] = E[XX']\beta^* + E[X\varepsilon]

回顾上文,[E(XX)]1E(XY)=β[E(\mathbf{X}\mathbf{X}')]^{-1} E(\mathbf{X}Y) = \beta^*,代入后上式后

E[XY]=E[XY]+E[Xε]    E[Xε]=0E[XY] = E[XY] + E[X\varepsilon] \implies E[X\varepsilon] = 0

得证。

例题

β~=AY\widetilde{\boldsymbol{\beta}} = \mathbf{A}'\mathbf{Y}β\boldsymbol{\beta}的任意线性无偏估计量,即E(β~X)=βE(\widetilde{\boldsymbol{\beta}}|\mathbf{X}) = \boldsymbol{\beta},若 rank(X)=k+1\text{rank}(\mathbf{X}) = k + 1E(εX)=0E(\varepsilon| \mathbf{X}) = \mathbf{0}E(εεX)=σ2IE(\varepsilon\varepsilon'| \mathbf{X}) = \sigma^2\mathbf{I},证明:Cov(β~,β~X)Cov(β^,β^X)\text{Cov}(\widetilde{\boldsymbol{\beta}}, \widetilde{\boldsymbol{\beta}}|\mathbf{X}) \geq \text{Cov}(\hat{\boldsymbol{\beta}}, \hat{\boldsymbol{\beta}}|\mathbf{X})

代入 Y=Xβ+εY = \mathbf{X}\boldsymbol{\beta}+\boldsymbol{\varepsilon}

E(AYX)=E(A(Xβ+ε)X)E(\mathbf{A}'\mathbf{Y}|\mathbf{X}) = E(\mathbf{A}'(\mathbf{X}\boldsymbol{\beta} + \boldsymbol{\varepsilon})|\mathbf{X}) =E(AXβX)+E(AεX)=AXβ= E(A'X\beta \mid X) + E(A'\varepsilon \mid X)= \mathbf{A}'\mathbf{X}\boldsymbol{\beta}

其中:

  • E(AεX)=AE(εX)=A0=0E(A'\varepsilon \mid X) = A'E(\varepsilon \mid X) = A'0 = 0
  • 给定 X\mathbf{X} 时,A\mathbf{A}X\mathbf{X}β\beta是常数,所以:E(AYX)=AXβE(\mathbf{A}'Y \mid \mathbf{X}) = \mathbf{A}'\mathbf{X}\beta

这里因为 β~=AY\widetilde{\boldsymbol{\beta}} = \mathbf{A}'\mathbf{Y}

所以 E(AYX)=E(β~X)=AXβ=βE(\mathbf{A}'\mathbf{Y}|\mathbf{X}) = E(\widetilde{\boldsymbol{\beta}}\mid \mathbf{X}) = \mathbf{A}'\mathbf{X}\beta = \beta

所以得到 AX=I\mathbf{A}'\mathbf{X} = \mathbf{I}

计算Cov(β~,β~X)\text{Cov}(\widetilde{\boldsymbol{\beta}}, \widetilde{\boldsymbol{\beta}}|\mathbf{X})

Cov(β~,β~X)=Cov(AY,AYX)=ACov(Y,YX)A=ACov(ε,εX)A=Aσ2IA\begin{align*} \text{Cov}(\tilde{\beta}, \tilde{\beta} \mid X) &= \text{Cov}(A'Y, A'Y \mid X) \\ &= A' \, \text{Cov}(Y, Y \mid X) \, A \\ &= A' \, \text{Cov}(\varepsilon, \varepsilon \mid X) \, A \\ &= A' \, \sigma^2 I \, A \\ \end{align*}

其中:

  • Cov(AYX)=ACov(YX)A\operatorname{Cov}(\mathbf{A}'\mathbf{Y} \mid \mathbf{X}) = \mathbf{A}' \operatorname{Cov}(\mathbf{Y} \mid \mathbf{X}) \mathbf{A} 这是一个运算法则,左乘原矩阵,右乘矩阵的转置。
  • 模型为Y=Xβ+ε\boldsymbol{Y} = \boldsymbol{X}\beta + \varepsilon,在给定 X\boldsymbol{X} 的条件下, Xβ\boldsymbol{X}\beta 是常数,所以Cov(Y,YX)=Cov(ε,εX)\operatorname{Cov}(\boldsymbol{Y},\boldsymbol{Y} \mid \boldsymbol{X}) = \operatorname{Cov}(\varepsilon,\varepsilon \mid \boldsymbol{X})

计算Cov(β^,β^X)\text{Cov}(\hat{\boldsymbol{\beta}}, \hat{\boldsymbol{\beta}}|\mathbf{X})

Cov(β^,β^X)=Cov((XX)1XY,(XX)1XYX)=(XX)1XCov(Y,YX)X(XX)1=σ2I(XX)1XX(XX)1=(XX)1σ2\begin{align*} \text{Cov}(\hat{\beta}, \hat{\beta} \mid X) &= \text{Cov}\left( (X'X)^{-1} X'Y, (X'X)^{-1} X'Y \mid X \right) \\ &= (X'X)^{-1} X' \, \text{Cov}(Y, Y \mid X) \, X (X'X)^{-1} \\ &= \sigma^2 I \, (X'X)^{-1} X' \cdot X (X'X)^{-1} = (X'X)^{-1} \sigma^2 \\ \end{align*}

其中:

  • β^\hat{\beta} 是之前算的最小二乘估计量,β^=(XX)1XY\hat{\beta} = (X'X)^{-1}X'Y
  • 模型为Y=Xβ+ε\boldsymbol{Y} = \boldsymbol{X}\beta + \varepsilon,在给定 X\boldsymbol{X} 的条件下, Xβ\boldsymbol{X}\beta 是常数,所以Cov(Y,YX)=Cov(ε,εX)\operatorname{Cov}(\boldsymbol{Y},\boldsymbol{Y} \mid \boldsymbol{X}) = \operatorname{Cov}(\varepsilon,\varepsilon \mid \boldsymbol{X})

最后两者相减

Cov(β~,β~X)Cov(β^,β^X)=σ2(AA(XX)1)=σ2(AAI(XX)1I)=σ2A[IH]A0\begin{align*} \text{Cov}(\tilde{\beta}, \tilde{\beta} \mid X) - \text{Cov}(\hat{\beta}, \hat{\beta} \mid X) &= \sigma^2 \left( A'A - (X'X)^{-1} \right) \\ &= \sigma^2 \left( A'A - I (X'X)^{-1} I \right) \\ &= \sigma^2 A' [I - H] A \geq 0 \end{align*}

解释

这里用到了前面得出的结论:AX=IA'X = I -> XA=IX'A = I

σ2(AA(XX)1)=σ2(AAI(XX)1I)\sigma^2 \left( A'A - (X'X)^{-1} \right) \\= \sigma^2 \left( A'A - I (X'X)^{-1} I \right) 这里在 (XX)1(X'X)^{-1} 左右同乘单位阵。

把结论代入:

σ2(AAI(XX)1I)=σ2(AAAX(XX)1XA)\sigma^2 \left( A'A - I (X'X)^{-1} I \right) = \sigma^2 \left( A'A - A'X(X'X)^{-1}X'A \right)

这里是不是有点似曾相识?

HX(XX)1X 为自变量空间的投影矩阵。\mathbf{H} \equiv \mathbf{X}(\mathbf{X}'\mathbf{X})^{-1}\mathbf{X}' \text{ 为自变量空间的投影矩阵。}

是的,我们的call back来了,这是投影矩阵。

化简后得到的这个 σ2A[IH]A0\sigma^2 A' [I - H] A \geq 0

大于等于0什么的就不证明了,毕竟你都看到这了,记一下不是轻而易举(雾)


常用残差诊断图的作用及诊断方法

  • 残差对拟合值的散点图:用于诊断非线性关系。正确的图形中,残差应围绕零水平线均匀波动。

  • 标准化残差对杠杆值散点图:用于识别自变量观测值中的异常值(高杠杆点)以及因变量观测值中的异常值(离群点),并通过Cook距离来识别强影响点。

  • 标准化残差绝对值的平方根对拟合值散点图 (Scale-Location):用于诊断异方差问题。正确的图形中,标准化残差绝对值的平方根应围绕水平线均匀波动。

  • 标准化残差的Q-Q图:用于检验残差是否服从正态分布。若图中的散点大致呈线性关系,则表明残差近似服从正态分布。

离群点、杠杆值、标准化残差、Cook距离和强影响点的含义

  • 离群点:即为因变量观测值中的异常值。
  • 杠杆值:反映了观测值 YjY_j对其拟合值Y^j\hat{Y}_j 的影响程度,也可衡量自变量空间中某个数据点与其他数据点的距离,可用于识别自变量观测值中的异常值(高杠杆点)。
  • 标准化残差:以标准差为单位计算出的残差,用于识别因变量观测值中的异常值。
  • Cook距离:是一个综合了杠杆值和标准化残差的指标。
  • 强影响点:指对模型系数有显著影响的数据点,它通过Cook距离来衡量。

近多重共线性对回归系数估计量的影响

  • 自变量之间的相关性越强,ε^X(i)ε^X(i)\hat{\boldsymbol{\varepsilon}}'_{\mathbf{X}_{(i)}} \hat{\boldsymbol{\varepsilon}}_{\mathbf{X}_{(i)}}越小,β^i\hat{\beta}_i的方差越大。
  • 仅近多重共线的自变量的方差会扩大。

方差膨胀因子的定义

方差膨胀因子(VIF)是用于衡量多重共线性的指标。其定义为

VIFi=SSTiϵ^X(i)ϵ^X(i)=SSTiSSEi=11Ri2VIF_i = \frac{SST_i}{\hat{\epsilon}'_{X_{(i)}} \hat{\epsilon}_{X_{(i)}}} = \frac{SST_i}{SSE_i} = \frac{1}{1-R_i^2}

其中Ri2R_i^2为第ii 个自变量对其他自变量回归的决定系数。

R2R^2可否作为模型选择的标准

不行。

局限性:R2R^2会随自变量的增加而单调不减,因而不宜直接用于模型选择。从公式构造来看,R2R^2实际上隐含地采用 1nSSE\frac{1}{n}\text{SSE}来估计误差方差σ2\sigma^2。然而,该估计量是有偏估计,无法准确反映模型真实解释能力的提升。因此,有必要对 R2R^2 进行修正,以纠正上述偏误。

AIC和BIC的异同点

相同点:两者均权衡拟合优度(L(θ^)L(\hat{\boldsymbol{\theta}}))和模型复杂度( kk)。
不同点:AIC 侧重于最小化预测误差;BIC 侧重于识别真实模型


Thanks for reading!

多元统计分析-第四章计算详解

周六 6月 06 2026
3871 字 · 16 分钟

Comments

cover

青山绿野

渡边 雅二