主成分分析的定义。
主成分分析是一种将多个变量 (X1,X2,...,Xp)转化为少数几个综合变量(主成分),并尽可能保留原始变量大部分信息的数据降维方法。其基本思想是通过线性组合构造主成分,使其方差最大
主成分方差贡献率、主成分载荷、主成分得分的定义。
- 主成分方差贡献率:指第i个主成分的方差特征值λi与所有特征值之和的比值,公式为λ1+λ2+⋯+λpλi。
- 主成分载荷:指原始变量和主成分之间的相关系数。
- 主成分得分:在实际应用中,为使主成分纯粹反映各原始变量的波动差异,主成分通常基于中心化后的数据计算,得到的数值即称为主成分得分。其公式为 Y~i=ei′(X−μ)。
主成分得分的几何含义。
主成分得分的几何含义是将原始数据(中心化)投影到特征向量上。
如何解释主成分?
主成分的解释通常依据主成分系数绝对值的相对大小来判断。此外,主成分载荷(即原始变量和主成分的相关系数)也一般用于辅助解释主成分。
如何选择主成分的个数?
选择主成分个数通常有以下几种方法和准则:
样本主成分的累计方差贡献率:通常认为80%~90%的累计方差贡献率可解释原始变量绝大多数的信息。
碎石图(特征值折线图):寻找曲线由陡降转为平缓的拐点,并保留拐点之前的主成分作为主要成分。
Kaiser-Harris准则:在标准化情形下,判别准则为特征值 λ^i∗>1。
平行分析:随机生成 n 组与原始数据矩阵相同维度的数据矩阵,保留那些实际数据特征值大于随机数据平均特征值的主成分。
先验经验和理论知识。
正交因子模型的基本假设。
正交因子模型形式为 X=LF+ϵ,EX=0。其基本假设包括:
- EF=0,Cov(F,F)=I。
- Eϵ=0,Cov(ϵ,ϵ)=Ψ为对角矩阵。
- F与ϵ独立。
在正交因子模型中,因子载荷具有哪些性质?
- 因子载荷是原始变量和公共因子的协方差,即L=ΣXF;在标准化情形下,因子载荷则是两者的相关系数,即 L=ρXF。
- 因子载荷不唯一。初始载荷矩阵 L乘以一个正交矩阵T后,可以得到新的因子载荷矩阵(即L∗)。
正交因子模型的协方差结构及相关概念。
正交因子模型的协方差结构为 Cov(X,X)≡Σ=LL′+Ψ。相关概念包括:
- 共同度(Communality):记为 hi2,等于 (Li)′Li(即 L矩阵中第i行元素的平方和)。
- 特殊度(Uniqueness):记为ψi。
- 变量 Xi 的方差可以分解为:Var(Xi)=hi2+ψi。
- 公共因子 Fj的方差贡献:等于(L(j))′L(j)(即 L矩阵中第j列元素的平方和)。
正交旋转如何影响共同度?
正交旋转不改变共同度。通过公式推导可知,旋转后的共同度(Li∗)′Li∗等于旋转前的共同度(Li)′Li=hi2。
在方差最大化标准下,正交旋转如何影响因子载荷?
在方差最大化准则下,正交旋转的目标是最大化各个公共因子标准化载荷平方的方差总和(maxT(V1+V2+⋯+Vm))。这样会使得因子载荷呈现出明显的“两极分化”特征(即方差较大),从而让公共因子的含义更容易被理解和解释。
例题
已知 Σ是随机向量X=[X1X2⋯Xp] 的协方差矩阵,λ1≥λ2≥⋯≥λp为 Σ 的特征值,e1,e2,⋯,ep 为对应的单位正交特征向量。证明:Yi=ei′X 为 X 的第 i 主成分,i=1,2,…,p。
主成分
这里有一些前置条件:
主成分的定义:
随机变量X1,X2,⋯,Xp的线性组合:
Y1Y2Yp=a1′X=a11X1+a12X2+⋯+a1pXp=a2′X=a21X1+a22X2+⋯+a2pXp⋮⋮=ap′X=ap1X1+ap2X2+⋯+appXpVar(Yi)=ai′Σai,Cov(Yi,Yk)=ai′Σak,i,k=1,2,⋯,p
主成分的要求:
主成分是不相关的线性组合,使方差 Var(Yi)=ai′Σai 尽可能大。
第一主成分=线性组合a1′X当 a1′a1=1 时,使得Var(a1′X)最大。
第二主成分=线性组合a2′X当a2′a2=1,Cov(a1′X,a2′X)=0时,使得Var(a2′X)最大。
第i个主成分=线性组合ai′X当 ai′ai=1,Cov(ak′X,ai′X)=0 (k<i)时,使得Var(ai′X) 最大。
- ai′ai=1 这是为了统一量纲,在同一个规则下找最大值,比如我说我绩点4.5,但是满绩是100,他说他绩点3.5,满绩 4,这样就不好比了。
- Cov(ak′X,ai′X)=0 (k<i) 是为了让每个主成分都无关,才能最大化利用方差信息。
证明
第一主成分
这里 ai′ai=1,而且要求 Var(Yi)=ai′Σai 的最大值。
等价于求解:maxaa′aa′Σa (除以1等于没除)
我们对 X 的 协方差矩阵 进行分解:
Σ=PΛP′=[e1e2⋯ep]λ1λ2⋱λpe1′e2′⋮ep′=i=1∑pλieiei′- P 是e1,e2,⋯,ep 为对应的单位特征向量,且两两正交构成的正交向量,所以P是正交矩阵,满足P−1=P′。
- Λ 由λ1≥λ2≥⋯≥λp为Σ 的特征值构成
令 a=Pb,所以 b=P′a,把 Σ 换掉:
a′aa′Σa=a′PP′aa′PΛP′a=b′bb′Λb
在这里
Λb=λ10⋮00λ2⋮0……⋱…00⋮λpb1b2⋮bp=λ1b1λ2b2⋮λpbp因此
b′(Λb)=[b1b2…bp]λ1b1λ2b2⋮λpbp=i=1∑pbi(λibi)=i=1∑pλibi2所以b′Λb=∑i=1pλibi2。所以可以继续连等:
a′aa′Σa=∑i=1pbi2∑i=1pλibi2≤λ1在主成分分析里面,特征值是按大小排列的,所以 λ1 是最大的,所以小于等于是成立的。
那什么时候是取“等号”呢?那肯定是 b1=1,其他是 0 的时候呗。 此时 b=(1,0,…,0)′,代入求 a
a1=Pb=e1继而可得Y1=e1′X,Var(Y1)=λ1。
其他主成分
第二主成分还是求解这个问题:
amaxa′aa′Σa但此时多了一些条件:
a′a=1, Cov(a′X,e1′X)=a′Σe1=0除了第一项,还要求第二与第一主成分的协方差为0
这些λ1≥λ2≥⋯≥λp为 Σ 的特征值,利用特征向量的等是关系:
Σe1=λ1e1这是线代的内容,特征值和特征向量的关系。
于是等式扩大:
Cov(a′X,e1′X)=a′Σe1=λ1a′e1=a′e1=0. a=Pb=a=b1e1+b2e2+⋯+bpep a′e1=e1′a=b1e1′e1+i=2∑pbie1′ei=b1⋅1+0=b1因此a′e1=0等价于 b1=0。
我们推出了第二主成分 协方差 为0 等价于 b1=0 所以回到之前的式子,没有 λ1 了,从 i = 2 开始:
a′aa′Σa=a′PP′aa′PΛP′a=b′bb′Λb=∑i=2pbi2∑i=2pλibi2≤λ2⟹a2=Pb=e2继而可得 Y2=e2′X, Var(Y2)=λ2。
类似的,可以证明,Yi=ei′X, Var(Yi)=λi, i=3,4,…,p。
例题
在正交因子模型中,为了便于解释,因子载荷 L往往需要进行正交旋转,即
X=LF+ε=(LT)(T′F)+ε=L∗F∗+ε其中,T 为正交矩阵。证明:
(1)EF∗=0,Cov(F∗,F∗)=I;
前提
因子分析的基本模型 X=LF+ε中,因子载荷、公共因子和特殊因子都是未知的,无法直接进行分析。
X1X2⋮Xp=因子载荷ℓ11ℓ21⋮ℓp1ℓ12ℓ22⋮ℓp2……⋱…ℓ1mℓ2m⋮ℓpm公共因子F1F2⋮Fm+特殊因子ε1ε2⋮εp一种常见且便于估计的形式是正交因子模型:
X=LF+ε,EX=0其基本假设为,假设知道了这题才能做:
- E(F)=0, Cov(F,F)=I
- 2.Eε=0, Cov(ε,ε)=Ψ为对角矩阵
- F与ε 独立
令 T为正交矩阵,则有
X=L(TT′)F+ε=(LT)(T′F)+ε=L∗F∗+ε这里就是说:F∗=T′F
证明:
期望:
E(F∗)=E(T′F)=T′E(F)=T′0=0协方差矩阵:
Cov(F∗,F∗)=Cov(T′F,T′F)=T′Cov(F)T=T′IT=T′T=I得证。
(2)正交旋转不改变共同度。
共同度
第 i个变量的共同度 hi2 定义为载荷矩阵第i行元素的平方和,即
hi2=j=1∑mlij2=li′li正交旋转
li 是 L 的第 i 行(行向量)
旋转后,L∗=LT,其第 i 行为l(i)∗=l(i)T。
证明
hi∗2=(liT)(liT)′=liTT′li′=liIli′=lili′=hi2
多元统计分析-第六章计算解
周日 6月 07 2026 2327 字 · 11 分钟