什么是多元统计分析?
多元统计分析是一元统计分析的推广,旨在研究多个随机变量之间相互依赖关系及其内在统计规律的一门学科。
多元统计分析的主要方法及应用。
均值向量的推断和比较:如单个总体均值向量的参数估计与假设检验;不同总体均值向量的比较。 应用:比较不同材质灯泡的寿命与亮度。
多元线性回归模型:主要用于预测与因果推断,具体包含简单线性回归、多重线性回归以及多元多重线性回归 应用:经济预测、生物医学中的风险因素分析。
多元相关分析:探讨多个随机变量之间的相关关系,包括简单相关、偏相关、复相关及典型相关分析。
应用:分析两组变量之间的整体相关性。
主成分分析和因子分析:数据降维,用少数几个主成分/因子保留原始变量的大部分信息。 应用:图像压缩、综合评价指标构建。
分类分析和聚类分析:分类将新对象归入已知类别;聚类按相似性将对象分簇。
应用:医疗诊断(分类)、古生物骨骼形态分组(聚类)。
什么是多元正态分布?什么是马氏距离?什么是广义方差?
- 多元正态分布:设 Y=(Y1,…,Yp)′∼Np(0,Ip),则通过仿射变换 X=AY+μ 得到的随机向量服从 p 维多元正态分布,记作 X∼Np(μ,Σ),其中 Σ=AA′。其密度函数为:
f(x)=(2π)p/2∣Σ∣1/21exp(−21(x−μ)′Σ−1(x−μ)).
- exp(a)=ea
- I=E(单位阵)
- 马氏距离就是exp内部的一部分开根号
- A′=AT
- p 为 随机变量的维数(即列数),随机变量为列向量
例题
已知 Y∼N2([00],[1001])。如果 X=AY+μ,A=[1112],μ=[21],求解
(1) X的密度函数f(X);
随机变量是 2维 的
根据密度函数公式可知,我们需要求解 X 的 μ 和 Σ 才能写出密度函数。
可以利用以下性质:
X∼Np(μ,Σ), B 为s×p常数矩阵,d为s维常数向量,令 Z=BX+d,则Z∼Ns(Bμ+d,BΣB′)。(PPT p17页给出此性质)
所以μX=μ=[21],ΣX=AIA′=[2335],可以写出密度函数:
f(X)=2π1exp(−21[x1−2x2−1][2335]−1[x1−2x2−1])(2) 在 X 服从的分布下,计算点(1,1)、点 (−1,1)到μ的马氏距离;
某点 x 到总体中心 μ 的马氏距离为 (x−μ)′Σ−1(x−μ)
先求 Σ−1
Σ=[2335],∣Σ∣=1,Σ−1=11[5−3−32]=[5−3−32].逆矩阵求解方法请看考研线性代数的内容。
对点 (1,1)
x−μ=(1−2,1−1)′=(−1,0)′ x−μ 是一个列向量
平方马氏距离:
d2=(x−μ)′Σ−1(x−μ)=(−1,0)[5−3−32][−10]=(−1,0)[−53]=5 d=5对点 (−1,1)
x−μ=(−3,0)′ d2=(−3,0)[5−3−32][−30]=45 d=35(3)X 的广义方差。
总体的广义方差为 ∣Σ∣
广义方差即 ∣Σ∣=10−9=1。
例题
已知 ζ=ξ+η,[ξη]∼N([34],[1113])。其中,ζ 为某人知晓的含有产品价值信息(ξ)和随机扰动项(η)的信号。如果此人收到的信号 ζ=4,问产品价值的条件期望 E(ξ∣ζ=4) 是多少?
解析:
先给 X 分个块。
X=[X(1)X(2)]rp−r∼Np(μ,Σ) (Σ>0)这个指上部分X(1) 有 r 个随机变量,下面X(2) 有 p−r 个随机变量
所以给定X(2)时,X(1)的条件分布为:
(X(1)∣X(2))∼Nr(μ1⋅2,Σ11⋅2)其中:
μ1⋅2=μ(1)+Σ12Σ22−1(x(2)−μ(2)) Σ11⋅2=Σ11−Σ12Σ22−1Σ21条件期望即为:
E(X(1)∣X(2))=μ1⋅2=μ(1)+Σ12Σ22−1(x(2)−μ(2))你应该看不懂,但是你至少要完整的看一遍,下面我来解释一下:
矩阵分块后会变成这样:
X=[X(1)X(2)]rp−r,μ=[μ(1)μ(2)],Σ=[Σ11Σ21Σ12Σ22]rp−r其中每个部分的大小:
- Σ11:r×r(X(1)的协方差)
- Σ22:(p−r)×(p−r)(X(2)的协方差)
- Σ21:(p−r)×r
- Σ12:r×(p−r),且 Σ21=Σ12⊤
也许你还不懂,那就慢慢求一下这题:
我们需要求E(ξ∣ζ=4),首先我们肯定要求出那些乱七八糟的协方差了。然后带入公式了。
但是求协方差要知道概率分布,不然怎么分块呢?但我们现在只知道[ξη]的分布,所以我们需要先求[ξζ]的联合概率分布才能分块。
联合概率分布
联合概率分布怎么求呢?也是用到上面学的:
X∼Np(μ,Σ), B 为s×p常数矩阵,d为s维常数向量,令 Z=BX+d,则Z∼Ns(Bμ+d,BΣB′)
这个性质了。
我们可以看作Z=[ξζ]=[ξξ+η],此时我们需要确定 B 和 d,凑出Z=BX+d
稍加思考就可以得出:
[1101][ξη]+[00]=[ξξ+η]
所以 A=[1101],d=[00]
根据公式:
均值: Aμ+d=[1101][34]+[00]=[37]
协方差:AΣA⊤=[1101][1113][1011]=[1226]
所以(ξ,ζ)的联合分布为: [ξζ]∼N([37],[1226])
分块
好了,现在我们可以来看分块了,分块就是条件前后分块
所以这里是这么分块的: X(1)=ξ (1×1),X(2)=ζ (1×1) 分出来的都是1×1的标量,这就很简单了。
因为协方差和均值也都是1×1的,都是标量,就相当于对着Σ切两刀分成4分
μ(1)=3
μ(2)=7
Σ11=1
Σ22=6
Σ21=2
Σ12=2
再带入条件期望的公式:
E(X(1)∣X(2))=μ(1)+Σ12Σ22−1(x(2)−μ(2)) E(ξ∣ζ=4)=3+2⋅61⋅(4−7)=3+62⋅(−3)=3−1=2公式出处为 ppt p18页
多元正态分布均值向量和协方差矩阵的极大似然估计量分别服从什么分布?
设 X1,…,Xn∼Np(μ,Σ),则:
样本均值向量 Xˉ=n1∑j=1nXj 服从 Xˉ∼Np(μ,nΣ)。
样本协方差矩阵满足
- (n−1)S=∑j=1n(Xj−Xˉ)(Xj−Xˉ)′∼Wp(n−1,Σ),即服从 Wishart 分布。
- 并且 Xˉ 与 S 相互独立。
例题
已知 X∼Np(μ,Σ),(X1,X2,⋯,Xn)是从该分布中随机抽取的n 个样本。 证明:μ的极大似然估计量为X=n1∑j=1nXj。
由 f(x)=(2π)p/2∣Σ∣1/21e−21(x−μ)′Σ−1(x−μ),得
L(μ,Σ)=j=1∏n(2π)−p/2∣Σ∣−1/2exp(−21(Xj−μ)⊤Σ−1(Xj−μ)). L(μ,Σ)=(2π)pn/2∣Σ∣n/21e−21∑j=1n(xj−μ)′Σ−1(xj−μ)这一步就是对每个f(x)求乘积,再稍微化简一下,没什么好说的。
ln(L(μ,Σ))=−2nplog(2π)−2nlog∣Σ∣−21j=1∑n(Xj−μ)⊤Σ−1(Xj−μ)极大似然函数一般都是要取对数ln的,这就是取对数的结果。这边不涉及多元的知识,所以也不多赘述。
但是,观察这个式子,我们要求的是 μ 的估计量,而前面的
−2nplog(2π)−2nlog∣Σ∣这些和 μ 是无关的,可以视作常数,要使得ln(L(μ))最大,就是要使得∑j=1n(Xj−μ)⊤Σ−1(Xj−μ)最小,因为是减去嘛。
为什么这里是让它最小呢,你也没确定它的正负啊?
(Xj−μ)⊤Σ−1(Xj−μ)是马氏距离的平方,可以证明它是非负的。 所以你在证明的时候可以补充一句:这是非负的。
此时,我们的目标就成了这个:
μ^=argμminj=1∑n(xj−μ)′Σ−1(xj−μ)这句话的意思是:μ^ 就是让 ∑j=1n(xj−μ)′Σ−1(xj−μ) 取得最小值的 μ 的取值。
反正现在就是要求 ∑j=1n(xj−μ)′Σ−1(xj−μ) 最小值啦!
求最小值都知道,求导呗! 但在求导之前要准备一下,不然你也不会求,不是嘛!
所以把这个展开 (xj−μ)′Σ−1(xj−μ),可以先把中间的 Σ−1 忽略正常展开,再在每一项中间乘上这个。
(xj−μ)′Σ−1(xj−μ)=xj′Σ−1xj−2μ′Σ−1xj+μ′Σ−1μ看一下老师的ppt,老师给出了两个公式:
这正好可以为我们求导提供帮助:
∂x∂x′Ax=(A+A′)x,∂x∂x′A=A求导公式: ∂μ∂(xj−μ)′Σ−1(xj−μ)=∂μ∂(xj′Σ−1xj−2μ′Σ−1xj+μ′Σ−1μ)
等价于三者求导相加(利用了老师给的公式):
∂μ∂(xj′Σ−1xj)=0(和 μ 无关,所以为0)
∂μ∂(−2μ′Σ−1xj)=−2Σ−1xj
∂μ∂(μ′Σ−1μ)=2Σ−1μ
最后加上求和符号,我们可以写成这个
∇f(μ)≡∂μ∂j=1∑n(xj−μ)′Σ−1(xj−μ)=−j=1∑n2Σ−1(xj−μ)=0样本均值是这个 xˉ=n1∑j=1nxj,所以可以把求和符号代入:
∇f(μ)=−2nΣ−1xˉ+2nΣ−1μ=2nΣ−1(μ−xˉ).
然后,学过数学的都知道,求驻点,令导数值为0
∇f(μ)=0⟹2nΣ−1(μ−xˉ)=0因为Σ−1 正定可逆(人话就是矩阵每个元素大于0,所以它不能为0)
μ−xˉ=0⟹μ=xˉ所以驻点为μ^=xˉ。
驻点求出来了,怎么证明这是极小值点呢?难道不会是极大值吗?
不会,因为海塞矩阵是正定矩阵,你要问我什么是海塞矩阵,我只能说没必要了解这么多(我也不知道),补上这句就行了:
∇2f(μ)=∂μ∂∇f(μ)′=j=1∑n2Σ−1>0, 目标函数的海塞矩阵正定 μ 的极大似然估计量为 μ^=X=n1j=1∑nXj简述 Wishart 分布、Hotelling T2 分布和 Wilks 分布的定义。
Wishart 分布:
- 设 X1,…,Xn∼Np(0,Σ),则 W=∑j=1nXjXj′∼Wp(n,Σ)。
- 它是多元正态样本协方差矩阵的分布。
Hotelling T2 分布:
- 设 X∼Np(0,Σ),Y∼Wp(n,Σ) 且独立,则 T2=nX′Y−1X∼T2(p,n)。
- 与 F 分布的关系为 pnn+1−pT2(p,n)∼Fp,n+1−p。
Wilks 分布:
- 设 A∼Wp(m,Σ),B∼Wp(n,Σ) 独立,则 Λ=∣A+B∣∣A∣∼Λ(p,m,n)。
- 常用于多元方差分析的似然比检验。
正态分布图形检验的常用方法有哪些?判别标准是什么?
常用方法及判别标准:
直方图:观察是否对称、钟形。偏度 ≈ 0(对称),峰度 ≈ 3(尾部厚度适中)。
Q-Q 图:横坐标为标准正态理论分位数,纵坐标为样本次序统计量。若点大致落在一条直线上,则服从正态分布。
卡方图(多元):横坐标为 χp2 分位数,纵坐标为样本马氏距离平方 d(j)2=(xj−xˉ)′S−1(xj−xˉ) 的次序统计量。若点大致呈线性关系,则服从多元正态分布。
散点图矩阵(多元):观察二维散点轮廓是否近似椭圆。
多元统计分析-一二章计算详解
周二 6月 02 2026 3080 字 · 13 分钟