多元统计分析-一二章计算详解

多元统计分析-一二章计算详解

周二 6月 02 2026
3080 字 · 13 分钟

什么是多元统计分析?

多元统计分析是一元统计分析的推广,旨在研究多个随机变量之间相互依赖关系及其内在统计规律的一门学科。

多元统计分析的主要方法及应用。

  • 均值向量的推断和比较:如单个总体均值向量的参数估计假设检验;不同总体均值向量的比较。 应用:比较不同材质灯泡的寿命与亮度。

  • 多元线性回归模型:主要用于预测与因果推断,具体包含简单线性回归、多重线性回归以及多元多重线性回归 应用:经济预测、生物医学中的风险因素分析。

  • 多元相关分析:探讨多个随机变量之间的相关关系,包括简单相关、偏相关、复相关及典型相关分析。
    应用:分析两组变量之间的整体相关性。

  • 主成分分析和因子分析:数据降维,用少数几个主成分/因子保留原始变量的大部分信息。 应用:图像压缩、综合评价指标构建。

  • 分类分析和聚类分析:分类将新对象归入已知类别;聚类按相似性将对象分簇。
    应用:医疗诊断(分类)、古生物骨骼形态分组(聚类)。


什么是多元正态分布?什么是马氏距离?什么是广义方差?

  • 多元正态分布:设 Y=(Y1,,Yp)Np(0,Ip)\mathbf{Y} = (Y_1,\dots,Y_p)' \sim N_p(\mathbf{0}, \mathbf{I}_p),则通过仿射变换 X=AY+μ\mathbf{X} = \mathbf{A}\mathbf{Y} + \boldsymbol{\mu} 得到的随机向量服从 pp 维多元正态分布,记作 XNp(μ,Σ)\mathbf{X} \sim N_p(\boldsymbol{\mu}, \boldsymbol{\Sigma}),其中 Σ=AA\boldsymbol{\Sigma} = \mathbf{A}\mathbf{A}'。其密度函数为:
f(x)=1(2π)p/2Σ1/2exp(12(xμ)Σ1(xμ)).f(\mathbf{x}) = \frac{1}{(2\pi)^{p/2}|\boldsymbol{\Sigma}|^{1/2}} \exp\left(-\frac{1}{2}(\mathbf{x}-\boldsymbol{\mu})'\boldsymbol{\Sigma}^{-1}(\mathbf{x}-\boldsymbol{\mu})\right).
  • 马氏距离:点 x\mathbf{x} 到总体中心 μ\boldsymbol{\mu} 的马氏距离为 (xμ)Σ1(xμ)\sqrt{(\mathbf{x}-\boldsymbol{\mu})'\boldsymbol{\Sigma}^{-1}(\mathbf{x}-\boldsymbol{\mu})}。它考虑了变量的尺度差异相关性,是一种统计距离

  • 广义方差

    • 总体的广义方差为协方差矩阵的行列式Σ|\boldsymbol{\Sigma}|
    • 样本广义方差为样本协差矩阵的列式S|\mathbf{S}|,其中 S=1n1j=1n(XjXˉ)(XjXˉ)\mathbf{S} = \frac{1}{n-1}\sum_{j=1}^{n}(\mathbf{X}_j - \bar{\mathbf{X}})(\mathbf{X}_j - \bar{\mathbf{X}})'

  1. exp(a)=eaexp(a) = e^a
  2. I=EI = E(单位阵)
  3. 马氏距离就是exp内部的一部分开根号
  4. A=ATA' = A^T
  5. p 为 随机变量的维数(即列数),随机变量为列向量

例题

已知 YN2([00],[1001])\mathbf{Y} \sim N_2\left( \begin{bmatrix} 0 \\ 0 \end{bmatrix}, \begin{bmatrix} 1 & 0 \\ 0 & 1 \end{bmatrix} \right)。如果 X=AY+μ\mathbf{X} = \mathbf{A}\mathbf{Y} + \boldsymbol{\mu}A=[1112]\mathbf{A} = \begin{bmatrix} 1 & 1 \\ 1 & 2 \end{bmatrix}μ=[21]\boldsymbol{\mu} = \begin{bmatrix} 2 \\ 1 \end{bmatrix},求解

(1) X\mathbf{X}的密度函数f(X)f(\mathbf{X})

随机变量是 2维

根据密度函数公式可知,我们需要求解 X 的 μ\muΣ\boldsymbol{\Sigma} 才能写出密度函数。

可以利用以下性质

XNp(μ,Σ)X \sim N_p(\mu, \Sigma), BBs×ps \times p常数矩阵,ddss维常数向量,令 Z=BX+dZ = BX + d,则ZNs(Bμ+d,BΣB)Z \sim N_s(B\mu + d, B\Sigma B')。(PPT p17页给出此性质


所以μX=μ=[21]\mu_X = \mu = \begin{bmatrix} 2 \\ 1 \end{bmatrix},ΣX=AIA=[2335]\boldsymbol{\Sigma}_X = \mathbf{A}{I}\mathbf{A}' = \begin{bmatrix} 2 & 3 \\ 3 & 5 \end{bmatrix},可以写出密度函数:

f(X)=12πexp(12[x12x21][2335]1[x12x21])f(X) = \frac{1}{2\pi} \exp\left( -\frac{1}{2} \begin{bmatrix} x_1 - 2 & x_2 - 1 \end{bmatrix} \begin{bmatrix} 2 & 3 \\ 3 & 5 \end{bmatrix}^{-1} \begin{bmatrix} x_1 - 2 \\ x_2 - 1 \end{bmatrix} \right)

(2) 在 X\mathbf{X} 服从的分布下,计算点(1,1)(1,1)、点 (1,1)(-1,1)μ\boldsymbol{\mu}的马氏距离;

某点 x\mathbf{x} 到总体中心 μ\boldsymbol{\mu} 的马氏距离为 (xμ)Σ1(xμ)\sqrt{(\mathbf{x}-\boldsymbol{\mu})'\boldsymbol{\Sigma}^{-1}(\mathbf{x}-\boldsymbol{\mu})}

先求 Σ1\boldsymbol{\Sigma}^{-1}

Σ=[2335],Σ=1,Σ1=11[5332]=[5332].\boldsymbol{\Sigma} = \begin{bmatrix} 2 & 3 \\ 3 & 5 \end{bmatrix}, \quad |\boldsymbol{\Sigma}| = 1, \quad \boldsymbol{\Sigma}^{-1} = \frac{1}{1} \begin{bmatrix} 5 & -3 \\ -3 & 2 \end{bmatrix} = \begin{bmatrix} 5 & -3 \\ -3 & 2 \end{bmatrix}.

逆矩阵求解方法请看考研线性代数的内容。

对点 (1,1)(1,1)

xμ=(12,11)=(1,0)\mathbf{x} - \boldsymbol{\mu} = (1-2, 1-1)' = (-1, 0)'

平方马氏距离:

d2=(xμ)Σ1(xμ)=(1,0)[5332][10]=(1,0)[53]=5d^2 = (\mathbf{x}-\boldsymbol{\mu})'\boldsymbol{\Sigma}^{-1}(\mathbf{x}-\boldsymbol{\mu}) = (-1, 0) \begin{bmatrix} 5 & -3 \\ -3 & 2 \end{bmatrix} \begin{bmatrix} -1 \\ 0 \end{bmatrix} = (-1, 0) \begin{bmatrix} -5 \\ 3 \end{bmatrix} = 5 d=5d = \sqrt{5}

对点 (1,1)(-1,1)

xμ=(3,0)\mathbf{x} - \boldsymbol{\mu} = (-3,0)' d2=(3,0)[5332][30]=45d^2 = (-3,0) \begin{bmatrix} 5 & -3 \\ -3 & 2 \end{bmatrix} \begin{bmatrix} -3 \\ 0 \end{bmatrix} = 45 d=35d = 3\sqrt{5}

(3)X\mathbf{X} 的广义方差。

总体的广义方差为 Σ|\boldsymbol{\Sigma}|

广义方差即 Σ=109=1|\Sigma| = 10-9 = 1


例题

已知 ζ=ξ+η\zeta = \xi + \eta[ξη]N([34],[1113])\begin{bmatrix} \xi \\ \eta \end{bmatrix} \sim N\left( \begin{bmatrix} 3 \\ 4 \end{bmatrix}, \begin{bmatrix} 1 & 1 \\ 1 & 3 \end{bmatrix} \right)。其中,ζ\zeta 为某人知晓的含有产品价值信息(ξ\xi)和随机扰动项(η\eta)的信号。如果此人收到的信号 ζ=4\zeta = 4,问产品价值的条件期望 E(ξζ=4)E(\xi | \zeta = 4) 是多少?

解析:

先给 X 分个块。

X=[X(1)X(2)]rprNp(μ,Σ) (Σ>0)\boldsymbol{X} = \begin{bmatrix} \boldsymbol{X}^{(1)} \\ \boldsymbol{X}^{(2)} \end{bmatrix} \begin{array}{c} r \\ p - r \end{array} \sim N_p(\boldsymbol{\mu}, \boldsymbol{\Sigma}) \ (\boldsymbol{\Sigma} > 0)

这个指上部分X(1){X}^{(1)}rr 个随机变量,下面X(2){X}^{(2)}prp-r 个随机变量

所以给定X(2)\boldsymbol{X}^{(2)}时,X(1)\boldsymbol{X}^{(1)}的条件分布为:

(X(1)X(2))Nr(μ12,Σ112)\left( \boldsymbol{X}^{(1)} \mid \boldsymbol{X}^{(2)} \right) \sim N_r\left( \boldsymbol{\mu}_{1\cdot2}, \boldsymbol{\Sigma}_{11\cdot2} \right)

其中:

μ12=μ(1)+Σ12Σ221(x(2)μ(2))\boldsymbol{\mu}_{1\cdot2} = \boldsymbol{\mu}^{(1)} + \boldsymbol{\Sigma}_{12} \boldsymbol{\Sigma}_{22}^{-1} \left( \boldsymbol{x}^{(2)} - \boldsymbol{\mu}^{(2)} \right) Σ112=Σ11Σ12Σ221Σ21\boldsymbol{\Sigma}_{11\cdot2} = \boldsymbol{\Sigma}_{11} - \boldsymbol{\Sigma}_{12} \boldsymbol{\Sigma}_{22}^{-1} \boldsymbol{\Sigma}_{21}
条件期望即为:
E(X(1)X(2))=μ12=μ(1)+Σ12Σ221(x(2)μ(2))\mathbf{E}(X^{(1)} | X^{(2)}) = \boldsymbol{\mu}_{1\cdot2} = \boldsymbol{\mu}^{(1)} + \boldsymbol{\Sigma}_{12} \boldsymbol{\Sigma}_{22}^{-1} \left( x^{(2)} - \boldsymbol{\mu}^{(2)} \right)

你应该看不懂,但是你至少要完整的看一遍,下面我来解释一下:

矩阵分块后会变成这样:

X=[X(1)X(2)]rpr,μ=[μ(1)μ(2)],Σ=[Σ11Σ12Σ21Σ22]rpr\mathbf{X} = \begin{bmatrix} \mathbf{X}^{(1)} \\ \mathbf{X}^{(2)} \end{bmatrix} \begin{array}{c} r \\ p-r \end{array}, \quad \boldsymbol{\mu} = \begin{bmatrix} \boldsymbol{\mu}^{(1)} \\ \boldsymbol{\mu}^{(2)} \end{bmatrix}, \quad \boldsymbol{\Sigma} = \begin{bmatrix} \boldsymbol{\Sigma}_{11} & \boldsymbol{\Sigma}_{12} \\ \boldsymbol{\Sigma}_{21} & \boldsymbol{\Sigma}_{22} \end{bmatrix} \begin{array}{c} r \\ p-r \end{array} \begin{array}{cc}\end{array}

其中每个部分的大小:

  • Σ11\boldsymbol{\Sigma}_{11}r×rr \times rX(1)\boldsymbol{X}^{(1)}的协方差)
  • Σ22\boldsymbol{\Sigma}_{22}(pr)×(pr)(p - r) \times (p - r)X(2)\boldsymbol{X}^{(2)}的协方差)
  • Σ21:(pr)×r\Sigma_{21}: (p - r) \times r
  • Σ12\boldsymbol{\Sigma}_{12}r×(pr)r \times (p - r),且 Σ21=Σ12\boldsymbol{\Sigma}_{21} = \boldsymbol{\Sigma}_{12}^\top

也许你还不懂,那就慢慢求一下这题:

我们需要求E(ξζ=4)E(\xi | \zeta = 4),首先我们肯定要求出那些乱七八糟的协方差了。然后带入公式了。

但是求协方差要知道概率分布,不然怎么分块呢?但我们现在只知道[ξη]\begin{bmatrix} \xi \\ \eta \end{bmatrix}的分布,所以我们需要先求[ξζ]\begin{bmatrix} \xi \\ \zeta \end{bmatrix}的联合概率分布才能分块。

联合概率分布

联合概率分布怎么求呢?也是用到上面学的:

XNp(μ,Σ)X \sim N_p(\mu, \Sigma), BBs×ps \times p常数矩阵,ddss维常数向量,令 Z=BX+dZ = BX + d,则ZNs(Bμ+d,BΣB)Z \sim N_s(B\mu + d, B\Sigma B')

这个性质了。

我们可以看作Z=[ξζ]=[ξξ+η]Z = \begin{bmatrix} \xi \\ \zeta \end{bmatrix} = \begin{bmatrix} \xi \\ \xi + \eta \end{bmatrix},此时我们需要确定 B 和 d,凑出Z=BX+dZ = BX + d

稍加思考就可以得出:

[1011][ξη]+[00]=[ξξ+η]\begin{bmatrix} 1 & 0 \\ 1 & 1 \end{bmatrix}\begin{bmatrix} \xi \\ \eta \end{bmatrix} + \begin{bmatrix} 0 \\ 0 \end{bmatrix} = \begin{bmatrix} \xi \\ \xi + \eta \end{bmatrix}

所以 A=[1011],d=[00]A = \begin{bmatrix} 1 & 0 \\ 1 & 1 \end{bmatrix}, d = \begin{bmatrix} 0 \\ 0 \end{bmatrix}

根据公式:

  • 均值: Aμ+d=[1011][34]+[00]=[37]A\mu + d = \begin{bmatrix} 1 & 0 \\ 1 & 1 \end{bmatrix} \begin{bmatrix} 3 \\ 4 \end{bmatrix} + \begin{bmatrix} 0 \\ 0 \end{bmatrix}= \begin{bmatrix} 3 \\ 7 \end{bmatrix}

  • 协方差:AΣA=[1011][1113][1101]=[1226]A\Sigma A^\top = \begin{bmatrix} 1 & 0 \\ 1 & 1 \end{bmatrix} \begin{bmatrix} 1 & 1 \\ 1 & 3 \end{bmatrix} \begin{bmatrix} 1 & 1 \\ 0 & 1 \end{bmatrix} = \begin{bmatrix} 1 & 2 \\ 2 & 6 \end{bmatrix}

所以(ξ,ζ)(\xi, \zeta)的联合分布为: [ξζ]N([37],[1226])\begin{bmatrix} \xi \\ \zeta \end{bmatrix} \sim N\left( \begin{bmatrix} 3 \\ 7 \end{bmatrix}, \begin{bmatrix} 1 & 2 \\ 2 & 6 \end{bmatrix} \right)

分块

好了,现在我们可以来看分块了,分块就是条件前后分块

所以这里是这么分块的: X(1)=ξ (1×1),X(2)=ζ (1×1)\boldsymbol{X}^{(1)} = \xi \ (1 \times 1), \quad \boldsymbol{X}^{(2)} = \zeta \ (1 \times 1) 分出来的都是1×11\times1的标量,这就很简单了。

因为协方差和均值也都是1×11\times1的,都是标量,就相当于对着Σ\boldsymbol{\Sigma}切两刀分成4分

  • μ(1)=3\mu^{(1)} = 3

  • μ(2)=7\mu^{(2)} = 7

  • Σ11=1\boldsymbol{\Sigma}_{11}= 1

  • Σ22=6\boldsymbol{\Sigma}_{22} = 6

  • Σ21=2\Sigma_{21} = 2

  • Σ12=2\boldsymbol{\Sigma}_{12} = 2

再带入条件期望的公式:

E(X(1)X(2))=μ(1)+Σ12Σ221(x(2)μ(2))\mathbf{E}(X^{(1)} | X^{(2)}) = \boldsymbol{\mu}^{(1)} + \boldsymbol{\Sigma}_{12} \boldsymbol{\Sigma}_{22}^{-1} \left( x^{(2)} - \boldsymbol{\mu}^{(2)} \right) E(ξζ=4)=3+216(47)=3+26(3)=31=2E(\xi \mid \zeta = 4) = 3 + 2 \cdot \frac{1}{6} \cdot (4 - 7) = 3 + \frac{2}{6} \cdot (-3) = 3 - 1 = 2

公式出处为 ppt p18页


多元正态分布均值向量和协方差矩阵的极大似然估计量分别服从什么分布?

X1,,XnNp(μ,Σ)\mathbf{X}_1,\dots,\mathbf{X}_n \overset{}{\sim} N_p(\boldsymbol{\mu}, \boldsymbol{\Sigma}),则:

  • 样本均值向量 Xˉ=1nj=1nXj\bar{\mathbf{X}} = \frac{1}{n}\sum_{j=1}^n \mathbf{X}_j 服从 XˉNp(μ,Σn)\bar{\mathbf{X}} \sim N_p\left(\boldsymbol{\mu}, \frac{\boldsymbol{\Sigma}}{n}\right)

  • 样本协方差矩阵满足

    • (n1)S=j=1n(XjXˉ)(XjXˉ)Wp(n1,Σ)(n-1)\mathbf{S} = \sum_{j=1}^n (\mathbf{X}_j - \bar{\mathbf{X}})(\mathbf{X}_j - \bar{\mathbf{X}})' \sim W_p(n-1, \boldsymbol{\Sigma}),即服从 Wishart 分布
    • 并且 Xˉ\bar{\mathbf{X}}S\mathbf{S} 相互独立。

例题

已知 XNp(μ,Σ)\mathbf{X} \sim N_p(\boldsymbol{\mu}, \boldsymbol{\Sigma})(X1,X2,,Xn)(\mathbf{X}_1, \mathbf{X}_2, \cdots, \mathbf{X}_n)是从该分布中随机抽取的nn 个样本。 证明:μ\boldsymbol{\mu}的极大似然估计量为X=1nj=1nXj\overline{\mathbf{X}} = \frac{1}{n} \sum_{j=1}^n \mathbf{X}_j


f(x)=1(2π)p/2Σ1/2e12(xμ)Σ1(xμ)f(\mathbf{x}) = \frac{1}{(2\pi)^{p/2} |\boldsymbol{\Sigma}|^{1/2}} \mathrm{e}^{-\frac{1}{2} (\mathbf{x} - \boldsymbol{\mu})' \boldsymbol{\Sigma}^{-1} (\mathbf{x} - \boldsymbol{\mu})},得

L(μ,Σ)=j=1n(2π)p/2Σ1/2exp(12(Xjμ)Σ1(Xjμ)).L(\boldsymbol{\mu}, \boldsymbol{\Sigma}) = \prod_{j=1}^{n} (2\pi)^{-p/2} |\boldsymbol{\Sigma}|^{-1/2} \exp\left( -\frac{1}{2} (\mathbf{X}_j - \boldsymbol{\mu})^\top \boldsymbol{\Sigma}^{-1} (\mathbf{X}_j - \boldsymbol{\mu}) \right). L(μ,Σ)=1(2π)pn/2Σn/2e12j=1n(xjμ)Σ1(xjμ)L(\boldsymbol{\mu}, \boldsymbol{\Sigma}) = \frac{1}{(2\pi)^{pn/2} |\boldsymbol{\Sigma}|^{n/2}} \mathrm{e}^{-\frac{1}{2} \sum_{j=1}^n (\mathbf{x}_j - \boldsymbol{\mu})' \boldsymbol{\Sigma}^{-1} (\mathbf{x}_j - \boldsymbol{\mu})}

这一步就是对每个f(x)f(\mathbf{x})求乘积,再稍微化简一下,没什么好说的。


ln(L(μ,Σ))=np2log(2π)n2logΣ12j=1n(Xjμ)Σ1(Xjμ)ln(L(\boldsymbol{\mu}, \boldsymbol{\Sigma})) = -\frac{np}{2} \log(2\pi) - \frac{n}{2} \log|\boldsymbol{\Sigma}| - \frac{1}{2} \sum_{j=1}^n (\mathbf{X}_j - \boldsymbol{\mu})^\top \boldsymbol{\Sigma}^{-1} (\mathbf{X}_j - \boldsymbol{\mu})

极大似然函数一般都是要取对数ln的,这就是取对数的结果。这边不涉及多元的知识,所以也不多赘述。

但是,观察这个式子,我们要求的是 μ\mu 的估计量,而前面的

np2log(2π)n2logΣ-\frac{np}{2} \log(2\pi) - \frac{n}{2} \log|\boldsymbol{\Sigma}|

这些和 μ\mu 是无关的,可以视作常数,要使得ln(L(μ))ln(L(\boldsymbol{\mu}))最大,就是要使得j=1n(Xjμ)Σ1(Xjμ)\sum_{j=1}^n (\mathbf{X}_j - \boldsymbol{\mu})^\top \boldsymbol{\Sigma}^{-1} (\mathbf{X}_j - \boldsymbol{\mu})最小,因为是减去嘛。


此时,我们的目标就成了这个:

μ^=argminμj=1n(xjμ)Σ1(xjμ)\hat{\mu} = \arg \min_{\mu} \sum_{j=1}^n (\mathbf{x}_j - \mu)' \Sigma^{-1} (\mathbf{x}_j - \mu)

这句话的意思是:μ^\hat{\mu} 就是让 j=1n(xjμ)Σ1(xjμ)\sum_{j=1}^{n} (\mathbf{x}_j - \mu)' \Sigma^{-1} (\mathbf{x}_j - \mu) 取得最小值的 μ\mu 的取值。

反正现在就是要求 j=1n(xjμ)Σ1(xjμ)\sum_{j=1}^n (\mathbf{x}_j - \mu)' \Sigma^{-1} (\mathbf{x}_j - \mu) 最小值啦!


求最小值都知道,求导呗! 但在求导之前要准备一下,不然你也不会求,不是嘛!

所以把这个展开 (xjμ)Σ1(xjμ)(\mathbf{x}_j - \mu)' \Sigma^{-1} (\mathbf{x}_j - \mu),可以先把中间的 Σ1\Sigma^{-1} 忽略正常展开,再在每一项中间乘上这个。

(xjμ)Σ1(xjμ)=xjΣ1xj2μΣ1xj+μΣ1μ(\mathbf{x}_j - \boldsymbol{\mu})' \boldsymbol{\Sigma}^{-1} (\mathbf{x}_j - \boldsymbol{\mu}) = \mathbf{x}_j' \boldsymbol{\Sigma}^{-1} \mathbf{x}_j - 2 \boldsymbol{\mu}' \boldsymbol{\Sigma}^{-1} \mathbf{x}_j + \boldsymbol{\mu}' \boldsymbol{\Sigma}^{-1} \boldsymbol{\mu}

看一下老师的ppt,老师给出了两个公式:

这正好可以为我们求导提供帮助:

xAxx=(A+A)x,xAx=A\frac{\partial \mathbf{x}' \mathbf{A} \mathbf{x}}{\partial \mathbf{x}} = (\mathbf{A} + \mathbf{A}') \mathbf{x}, \quad \frac{\partial \mathbf{x}' \mathbf{A}}{\partial \mathbf{x}} = \mathbf{A}

求导公式: (xjμ)Σ1(xjμ)μ=(xjΣ1xj2μΣ1xj+μΣ1μ)μ\frac{\partial(\mathbf{x}_j - \boldsymbol{\mu})' \boldsymbol{\Sigma}^{-1} (\mathbf{x}_j - \boldsymbol{\mu})}{\partial \boldsymbol{\mu}} = \frac{\partial(\mathbf{x}_j' \boldsymbol{\Sigma}^{-1} \mathbf{x}_j - 2 \boldsymbol{\mu}' \boldsymbol{\Sigma}^{-1} \mathbf{x}_j + \boldsymbol{\mu}' \boldsymbol{\Sigma}^{-1} \boldsymbol{\mu})}{\partial \boldsymbol{\mu}}

等价于三者求导相加(利用了老师给的公式):

  • μ(xjΣ1xj)=0\frac{\partial}{\partial \boldsymbol{\mu}} \left( \mathbf{x}_j' \boldsymbol{\Sigma}^{-1} \mathbf{x}_j \right) = 0(和 μ\mu 无关,所以为0)

  • μ(2μΣ1xj)=2Σ1xj\frac{\partial}{\partial \boldsymbol{\mu}} \left( -2 \boldsymbol{\mu}' \boldsymbol{\Sigma}^{-1} \mathbf{x}_j \right) = -2 \boldsymbol{\Sigma}^{-1} \mathbf{x}_j

  • μ(μΣ1μ)=2Σ1μ\frac{\partial}{\partial \boldsymbol{\mu}} \left( \boldsymbol{\mu}' \boldsymbol{\Sigma}^{-1} \boldsymbol{\mu} \right) = 2 \boldsymbol{\Sigma}^{-1} \boldsymbol{\mu}


最后加上求和符号,我们可以写成这个

f(μ)μj=1n(xjμ)Σ1(xjμ)=j=1n2Σ1(xjμ)=0\nabla f(\boldsymbol{\mu}) \equiv \frac{\partial}{\partial \boldsymbol{\mu}} \sum_{j=1}^n (\mathbf{x}_j - \boldsymbol{\mu})' \boldsymbol{\Sigma}^{-1} (\mathbf{x}_j - \boldsymbol{\mu}) = -\sum_{j=1}^n 2 \boldsymbol{\Sigma}^{-1} (\mathbf{x}_j - \boldsymbol{\mu}) = \mathbf{0}

样本均值是这个 xˉ=1nj=1nxj\bar{\mathbf{x}} = \frac{1}{n} \sum_{j=1}^{n} \mathbf{x}_j,所以可以把求和符号代入:

f(μ)=2nΣ1xˉ+2nΣ1μ=2nΣ1(μxˉ).\nabla f(\boldsymbol{\mu}) = -2n \boldsymbol{\Sigma}^{-1} \bar{\mathbf{x}} + 2n \boldsymbol{\Sigma}^{-1} \boldsymbol{\mu} = 2n \boldsymbol{\Sigma}^{-1} (\boldsymbol{\mu} - \bar{\mathbf{x}}).

然后,学过数学的都知道,求驻点,令导数值为0

f(μ)=0    2nΣ1(μxˉ)=0\nabla f(\mu) = 0 \implies 2n\Sigma^{-1}(\mu - \bar{\mathbf{x}}) = 0

因为Σ1Σ^{-1} 正定可逆(人话就是矩阵每个元素大于0,所以它不能为0)

μxˉ=0    μ=xˉ\mu - \bar{x} = 0 \implies \mu = \bar{x}

所以驻点为μ^=xˉ\hat{\mu} = \bar{x}


驻点求出来了,怎么证明这是极小值点呢?难道不会是极大值吗?

不会,因为海塞矩阵是正定矩阵,你要问我什么是海塞矩阵,我只能说没必要了解这么多(我也不知道),补上这句就行了:

2f(μ)=μf(μ)=j=1n2Σ1>0, 目标函数的海塞矩阵正定\nabla^2 f(\boldsymbol{\mu}) = \frac{\partial}{\partial \boldsymbol{\mu}} \nabla f(\boldsymbol{\mu})' = \sum_{j=1}^n 2\boldsymbol{\Sigma}^{-1} > 0, \text{ 目标函数的海塞矩阵正定} μ 的极大似然估计量为 μ^=X=1nj=1nXj\boldsymbol{\mu} \text{ 的极大似然估计量为 } \hat{\boldsymbol{\mu}} = \overline{\mathbf{X}} = \frac{1}{n} \sum_{j=1}^n \mathbf{X}_j

简述 Wishart 分布、Hotelling T2T^2 分布和 Wilks 分布的定义。

  • Wishart 分布

    • X1,,XnNp(0,Σ)\mathbf{X}_1,\dots,\mathbf{X}_n \overset{}{\sim} N_p(\mathbf{0}, \boldsymbol{\Sigma}),则 W=j=1nXjXjWp(n,Σ)\mathbf{W} = \sum_{j=1}^n \mathbf{X}_j \mathbf{X}_j' \sim W_p(n, \boldsymbol{\Sigma})
    • 它是多元正态样本协方差矩阵的分布。
  • Hotelling T2T^2 分布

    • XNp(0,Σ)\mathbf{X} \sim N_p(\mathbf{0}, \boldsymbol{\Sigma})YWp(n,Σ)\mathbf{Y} \sim W_p(n, \boldsymbol{\Sigma}) 且独立,则 T2=nXY1XT2(p,n)T^2 = n \mathbf{X}' \mathbf{Y}^{-1} \mathbf{X} \sim T^2(p, n)
    • FF 分布的关系为 n+1ppnT2(p,n)Fp,n+1p\frac{n+1-p}{pn} T^2(p,n) \sim F_{p,\, n+1-p}
  • Wilks 分布

    • AWp(m,Σ)\mathbf{A} \sim W_p(m, \boldsymbol{\Sigma})BWp(n,Σ)\mathbf{B} \sim W_p(n, \boldsymbol{\Sigma}) 独立,则 Λ=AA+BΛ(p,m,n)\Lambda = \frac{|\mathbf{A}|}{|\mathbf{A}+\mathbf{B}|} \sim \Lambda(p, m, n)
    • 常用于多元方差分析的似然比检验。

正态分布图形检验的常用方法有哪些?判别标准是什么?

常用方法及判别标准:

  • 直方图:观察是否对称、钟形。偏度 ≈ 0(对称),峰度 ≈ 3(尾部厚度适中)。

  • Q-Q 图:横坐标为标准正态理论分位数,纵坐标为样本次序统计量。若点大致落在一条直线上,则服从正态分布。

  • 卡方图(多元):横坐标为 χp2\chi_p^2 分位数,纵坐标为样本马氏距离平方 d(j)2=(xjxˉ)S1(xjxˉ)d_{(j)}^2 = (\mathbf{x}_j - \bar{\mathbf{x}})'\mathbf{S}^{-1}(\mathbf{x}_j - \bar{\mathbf{x}}) 的次序统计量。若点大致呈线性关系,则服从多元正态分布。

  • 散点图矩阵(多元):观察二维散点轮廓是否近似椭圆。


Thanks for reading!

多元统计分析-一二章计算详解

周二 6月 02 2026
3080 字 · 13 分钟

Comments

cover

青山绿野

渡边 雅二