代价敏感学习、贝叶斯分类、二次判别分析和线性判别分析的关系
- 贝叶斯分类是代价敏感学习在误判损失相同 c(k∣i)=c情况下的简化。
- 二次判别分析是在贝叶斯分类的基础上,进一步假设总体πi服从多元正态分布Np(μi,Σi)时的分类方法。
- 线性判别分析则是在二次判别分析的基础上,再次增加假设,即各个总体πi的协方差矩阵均相等Σi=Σ 时的简化情形。
留出法和k折交叉验证的基本步骤
留出法
- 划分数据集: 将数据集分为训练集、验证集和测试集。
- 建立规则与计算表观错误率: 通过训练集建立分类规则,并计算训练集中的误分类样本数所占的比例(即表观错误率)。
- 估计实际错误率: 通过验证集来估计实际错误率,结果可用于模型选择或调整参数。
- 评估泛化性能: 利用独立于训练与验证的测试集,来评估模型在未知样本上的泛化表现。
k折交叉验证基本步骤:
- 划分数据集: 将数据集划分为测试集和非测试集(其中非测试集包含训练集和验证集)。
- 交叉验证与计算错误率: 将非测试集划分为k个大小大致相等的折(folds)。对每一折,将其余k-1折作为训练集训练分类器,再用该折作为验证集计算误分类样本数。最后将所有折的误分类样本数相加并除以非测试集总样本数,从而得到平均错误率。
- 评估泛化性能: 使用独立的测试集来评估模型在未知总体样本上的真实表现。
Fisher 判别函数的个数应如何选择?
- 在实际应用中,可以通过特征值贡献率(公式为 λ1+λ2+⋯+λpλ1+λ2+⋯+λr)来选择保留的判别函数个数,但这通常仅作为经验参考。
- 更为稳健的选择方式是采用以误分类概率为准则的模型选择方法,例如留出法或k折交叉验证。
- 从理论性质上讲,若令 s=rank(Σ−1B),则前s个判别函数所达到的分类效果,与考虑全部判别函数时的分类效果是完全相同的。
Fisher 判别分析和线性判别分析的关系
当各个总体的先验概率相等(即 p1=⋯=pg=g1),并且Fisher判别分析中使用的判别函数个数不少于 s 个(s=rank(Σ−1B))时,Fisher判别分析与线性判别分析这两种分类方法是完全等价的。
广义线性模型的定义
广义线性模型(GLM)是对经典线性回归模型的推广,它允许因变量不服从正态分布。它主要考虑因变量服从指数分布族的情形。在模型形式上,它通过一个连接函数(link function)g(⋅)将因变量的条件期望μ≡E(Y∣X=x)与线性预测子η≡xβ联系起来,即g(μj)=ηj≡β′xj
凝聚型层次聚类法的算法步骤
- 定义距离: 首先确定各个样品之间的距离,以及簇与簇之间的距离衡量标准。
- 初始化: 将每个样品自成一簇,此时样品间的距离即等于簇间距离。
- 合并最近簇: 在所有簇中寻找距离最小的一对簇,并将它们合并为一个新簇。
- 更新距离: 计算出刚刚形成的新簇与其余各个已有簇之间的距离。
- 重复合并: 不断重复上述的合并和更新距离步骤,每次合并距离最近的两簇,直到最终所有的样品都被归并为同一个大簇为止。
常见簇间连接法的定义。
(设 Dpq表示簇Cp和簇Cq 的簇间距离,djl表示样品距离)
- 最短距离法 (Single Linkage): 簇间距离定义为两簇中距离最近的两个样本点之间的距离,公式为Dpq=minj∈Cp,l∈Cqdjl。
- 最长距离法 (Complete Linkage): 簇间距离定义为两簇中距离最远的两个样本点之间的距离,公式为 Dpq=maxj∈Cp,l∈Cqdjl。
- 类平均法 (Average Linkage): 簇间距离定义为两簇中所有可能样本对距离的平均值,公式为 Dpq=npnq1∑j∈Cp,l∈Cqdjl。
- 重心法 (Centroid Linkage): 簇间距离定义为两簇重心(即样本均值)之间的距离,公式为 Dpq=dxˉp,xˉq。
- 中间距离法 (Median Linkage): 直接由递推公式定义,公式为 Drk2=21Dpk2+21Dqk2−41Dpq2。
- Ward法: 它的目标是最小化所有簇的簇内平方和,并在合并时选择使总簇内平方和增加最小的两簇。
Ward 法局部最优策略的算法步骤。
- 初始时,将每个样品自成一簇。
- 在每一步中,计算所有可能的合并方案,选择能使总簇内平方和(S)增加最小的两簇进行合并;此时的簇间距离定义为 Dpq=Sr−Sp−Sq。
- 重复执行上述合并过程,使得每次总簇数减少一簇,直到所有的样品最终被合并为一个簇。
非层次聚类法中初始划分和迭代优化的常见方式。
- 初始划分的常见方式:
- 直接划分样品: 通过随机分配或者凭经验判断,直接将所有的样品划分为K个簇。
- 选取初始凝聚点: 可以凭经验或随机选择K个样品作为凝聚点;也可以采用密度法,即以给定半径计算样品点周围的密度,按密度由高到低依次选取相距一定距离的点作为凝聚点。选好凝聚点后,将其他样品分配到距离其最近的凝聚点所在的簇。
- 迭代优化的常见方式:
- 批量修改法 (Batch Updating): 每次迭代时,依据当前的簇中心,将所有样品统一重新分配到最近的簇中,然后再统一更新各簇的中心,不断重复直至收敛。
- 逐个修改法 (Sequential Updating): 每次迭代时,依次逐个处理每个样品,将其分配至最近簇后立刻即时更新该簇的中心,待所有样品处理一轮后继续重复,直至收敛。
例题
假设有 g个总体π1,⋯,πg,其中总体 πi出现的先验概率为pi,对应的概率密度函数为 fi(x),i=1,…,g。现给定一个新的样品 x,我们需要判定其来自哪个总体。在代价敏感学习的框架下,分类规则是通过最小化平均误判损失来确定,即
R1,R2,…,RgminECM=i=1∑gpik=i∑P(k∣i)c(k∣i)其中,Ri表示将样品x判定为πi 的集合,P(k∣i)表示来自πi的样品被误判为πk 的概率,c(k∣i)表示来自πi的样品被误判为πk的损失。请证明以下结论:
(1) 对于样品x,若 ℓ=argmink=1,2,…,ghk(x),则将 x 判定为 πℓ。其中:hk(x)=∑i=kpifi(x)c(k∣i)
人话:ℓ 是 让 hk(x) 最小的拿个类别吗?
R1,R2,…,RgminECM=i=1∑gpik=i∑P(k∣i)c(k∣i)其中:
- Ri:将样品 x判定为πi的集合(决策区域)
- P(k∣i):来自 πi 的样品被误判为πk的概率( P(k∣i)=∫Rkfi(x)dx )
- c(k∣i):来自 πi 的样品被误判为πk 的损失
代入到ECM中:
ECM=i=1∑gpik=i∑c(k∣i)∫Rkfi(x)dx交换求和与积分次序(就不证明为什么了):
ECM=i=1∑gk=i∑∫Rkpifi(x)c(k∣i)dx这里是外层对i求和,我们改写成对k求和,其余没变:
ECM=k=1∑gi=k∑∫Rkpifi(x)c(k∣i)dx
双重求和 ∑i=1g∑k=i,含义是:
先固定 i(真实类),再对所有不等于 i 的 k(误判类)求和。这等价于先固定 k(误判类),再对所有不等于 k的i(真实类)求和,即 ∑k=1g∑i=k。两者遍历的指标对 (i,k) 完全相同,只是交换了求和次序,因此可以改写。
Rk是将样品x判定为总体 πk 的决策区域。
由于积分区域 Rk 与内层求和无关,可交换积分与求和(凑出表达式):
ECM=k=1∑g∫Rki=k∑pifi(x)c(k∣i)dx=k=1∑g∫Rkhk(x)dx我们分类的依据就是ECM最小,所以:
对于每一个固定的样本点 x,它只能判为 πℓ 。此时它对 ECM 的贡献是 hℓ(x)。为了使总 ECM 最小,应当对每个 x 选择使 hℓ(x) 最小的类别 ℓ,即
ℓ=argmink=1,…,ghk(x).因此,分类规则为:将x判给使得hk(x)最小的类πℓ。
(2) 如果所有误判损失 c(j∣i) 均相等,分类规则可简化为:若ℓ=argmaxk=1,2,…,gpkfk(x),则将样品 x判定为πℓ。
若所有误判损失相等,即 c(k∣i)=c(常数)对 k=i。
hk(x)=i=k∑pifi(x)c这里全体求和 ∑i=1gpifi(x) 可以分成i=k和i=k 两部分,所以可以拆开:
i=1∑gpifi(x)=pkfk(x)+i=k∑pifi(x) i=k∑pifi(x)=i=1∑gpifi(x)−pkfk(x)所以: hk(x)=∑i=kpifi(x)c=c(∑i=1gpifi(x)−pkfk(x)). 由于 ∑i=1gpifi(x) 与k无关,最小化hk(x)等价于最大化pkfk(x)(因为是减去而且是非负的)。故分类规则变为 ℓ=argmaxk=1,…,gpkfk(x).
例题
已知样品由 3 个变量 (X1,X2,X3)构成。样品 1 的观测值为x1=(2,1,4),样品 2 的观测值为 x2=(3,6,7),请分别计算样品 1 和样品 2 的曼哈顿距离、欧式距离、切比雪夫距离、堪培拉距离和余弦距离(计算结果保留小数点后两位)。
曼哈顿距离
dman=i=1∑3∣x1i−x2i∣=∣2−3∣+∣1−6∣+∣4−7∣=1+5+3=9.00欧式距离
deuc=i=1∑3(x1i−x2i)2=(2−3)2+(1−6)2+(4−7)2=1+25+9=35≈5.92切比雪夫距离(L∞距离)
dche=imax∣x1i−x2i∣=max(1,5,3)=5.00堪培拉距离
dcan=i=1∑3∣x1i∣+∣x2i∣∣x1i−x2i∣=2+31+1+65+4+73=1.1870≈1.19余弦距离(1 − 余弦相似度)
余弦相似度:
cosθ=∥x1∥∥x2∥x1⋅x2=22+12+42⋅32+62+722×3+1×6+4×7=21⋅946+6+28=197440≈44.43040≈0.9003余弦距离:
dcos=1−cosθ≈1−0.9003=0.0997≈0.10例题
已知样品由 5 个二元变量构成,用以描述样品的 5 种特征:变量取值为 1 表示该特征存在,取值为 0 表示该特征缺失。样品 1 与样品 2 的观测值如下表所示:
| 样品 | 变量 | 变量 | 变量 | 变量 | 变量 |
|---|
| 1号 | 2号 | 3号 | 4号 | 5号 |
| 样品1 | 1 | 0 | 0 | 1 | 1 |
| 样品2 | 1 | 1 | 0 | 1 | 0 |
请分别计算样品 1 和样品 2 的简单匹配系数、Dice 系数和 Rogers-Tanimoto 系数。
根据样品1和样品2的二元变量观测值,计算列联表:
- a = 2(两样品 同时 为 1)
- b = 1(样品1 为 1 样品2 为 0)
- c = 1(样品1 为 0 样品2 为 1)
- d = 1(两样品 同时 为 0)
则各系数如下:
简单匹配系数
SMC=a+b+c+da+d=52+1=53=0.60Dice系数
Dice=2a+b+c2a=4+1+12×2=64=32≈0.67ogers-Tanimoto系数
R=a+d+2(b+c)a+d=3+2×22+1=73≈0.43简单匹配系数 0.60,Dice系数 0.67,Rogers-Tanimoto系数 0.43。
多元统计分析-第七章计算解
周日 6月 07 2026 2888 字 · 11 分钟