代价敏感学习、贝叶斯分类、二次判别分析和线性判别分析的关系

贝叶斯分类是代价敏感学习在误判损失相同 $c(k|i) = c$ 情况下的简化。
二次判别分析是在贝叶斯分类的基础上，进一步假设总体 $\pi_i$ 服从多元正态分布 $N_p(\mu_i, \Sigma_i)$ 时的分类方法。
线性判别分析则是在二次判别分析的基础上，再次增加假设，即各个总体 $\pi_i$ 的协方差矩阵均相等 $\Sigma_i = \Sigma$ 时的简化情形。

留出法和k折交叉验证的基本步骤

留出法

划分数据集： 将数据集分为训练集、验证集和测试集。
建立规则与计算表观错误率： 通过训练集建立分类规则，并计算训练集中的误分类样本数所占的比例（即表观错误率）。
估计实际错误率： 通过验证集来估计实际错误率，结果可用于模型选择或调整参数。
评估泛化性能： 利用独立于训练与验证的测试集，来评估模型在未知样本上的泛化表现。

k折交叉验证基本步骤：

划分数据集： 将数据集划分为测试集和非测试集（其中非测试集包含训练集和验证集）。
交叉验证与计算错误率： 将非测试集划分为k个大小大致相等的折（folds）。对每一折，将其余k-1折作为训练集训练分类器，再用该折作为验证集计算误分类样本数。最后将所有折的误分类样本数相加并除以非测试集总样本数，从而得到平均错误率。
评估泛化性能： 使用独立的测试集来评估模型在未知总体样本上的真实表现。

Fisher 判别函数的个数应如何选择？

在实际应用中，可以通过特征值贡献率（公式为 $\frac{\lambda_1+\lambda_2+\dots+\lambda_r}{\lambda_1+\lambda_2+\dots+\lambda_p}$ ）来选择保留的判别函数个数，但这通常仅作为经验参考。
更为稳健的选择方式是采用以误分类概率为准则的模型选择方法，例如留出法或k折交叉验证。
从理论性质上讲，若令 $s = rank(\Sigma^{-1} B)$ ，则前s个判别函数所达到的分类效果，与考虑全部判别函数时的分类效果是完全相同的。

Fisher 判别分析和线性判别分析的关系

当各个总体的先验概率相等（即 $p_1 = \cdots = p_g = \frac{1}{g}$ ），并且Fisher判别分析中使用的判别函数个数不少于 $s$ 个（ $s = rank(\Sigma^{-1}B)$ ）时，Fisher判别分析与线性判别分析这两种分类方法是完全等价的。

广义线性模型的定义

广义线性模型（GLM）是对经典线性回归模型的推广，它允许因变量不服从正态分布。它主要考虑因变量服从指数分布族的情形。在模型形式上，它通过一个连接函数（link function） $g(\cdot)$ 将因变量的条件期望 $\mu \equiv E(Y|X = x)$ 与线性预测子 $\eta \equiv x\beta$ 联系起来，即 $g(\mu_j) = \eta_j \equiv \beta' x_j$

凝聚型层次聚类法的算法步骤

定义距离： 首先确定各个样品之间的距离，以及簇与簇之间的距离衡量标准。
初始化： 将每个样品自成一簇，此时样品间的距离即等于簇间距离。
合并最近簇： 在所有簇中寻找距离最小的一对簇，并将它们合并为一个新簇。
更新距离： 计算出刚刚形成的新簇与其余各个已有簇之间的距离。
重复合并： 不断重复上述的合并和更新距离步骤，每次合并距离最近的两簇，直到最终所有的样品都被归并为同一个大簇为止。

常见簇间连接法的定义。

(设 $D_{pq}$ 表示簇 $C_p$ 和簇 $C_q$ 的簇间距离， $d_{jl}$ 表示样品距离)

最短距离法 (Single Linkage)：簇间距离定义为两簇中距离最近的两个样本点之间的距离，公式为 $D_{pq} = min_{j \in C_p, l \in C_q} d_{jl}$ 。
最长距离法 (Complete Linkage)：簇间距离定义为两簇中距离最远的两个样本点之间的距离，公式为 $D_{pq} = max_{j \in C_p, l \in C_q} d_{jl}$ 。
类平均法 (Average Linkage)：簇间距离定义为两簇中所有可能样本对距离的平均值，公式为 $D_{pq} = \frac{1}{n_p n_q} \sum_{j \in C_p, l \in C_q} d_{jl}$ 。
重心法 (Centroid Linkage)：簇间距离定义为两簇重心（即样本均值）之间的距离，公式为 $D_{pq} = d_{\bar{x}_p, \bar{x}_q}$ 。
中间距离法 (Median Linkage)：直接由递推公式定义，公式为 $D_{rk}^2 = \frac{1}{2} D_{pk}^2 + \frac{1}{2} D_{qk}^2 - \frac{1}{4} D_{pq}^2$ 。
Ward法：它的目标是最小化所有簇的簇内平方和，并在合并时选择使总簇内平方和增加最小的两簇。

Ward 法局部最优策略的算法步骤。

初始时，将每个样品自成一簇。
在每一步中，计算所有可能的合并方案，选择能使总簇内平方和（ $S$ ）增加最小的两簇进行合并；此时的簇间距离定义为 $D_{pq} = S_r - S_p - S_q$ 。
重复执行上述合并过程，使得每次总簇数减少一簇，直到所有的样品最终被合并为一个簇。

非层次聚类法中初始划分和迭代优化的常见方式。

初始划分的常见方式:
- 直接划分样品: 通过随机分配或者凭经验判断，直接将所有的样品划分为K个簇。
- 选取初始凝聚点: 可以凭经验或随机选择K个样品作为凝聚点；也可以采用密度法，即以给定半径计算样品点周围的密度，按密度由高到低依次选取相距一定距离的点作为凝聚点。选好凝聚点后，将其他样品分配到距离其最近的凝聚点所在的簇。
迭代优化的常见方式:
- 批量修改法 (Batch Updating): 每次迭代时，依据当前的簇中心，将所有样品统一重新分配到最近的簇中，然后再统一更新各簇的中心，不断重复直至收敛。
- 逐个修改法 (Sequential Updating): 每次迭代时，依次逐个处理每个样品，将其分配至最近簇后立刻即时更新该簇的中心，待所有样品处理一轮后继续重复，直至收敛。

例题

假设有 $g$ 个总体 $\pi_1,\cdots,\pi_g$ ，其中总体 $\pi_i$ 出现的先验概率为 $p_i$ ，对应的概率密度函数为 $f_i(\mathbf{x})$ ， $i=1,\dots,g$ 。现给定一个新的样品 $\mathbf{x}$ ，我们需要判定其来自哪个总体。在代价敏感学习的框架下，分类规则是通过最小化平均误判损失来确定，即

\min_{R_1,R_2,\dots,R_g} \text{ECM} = \sum_{i=1}^g p_i \left( \sum_{k\neq i} P(k|i) c(k|i) \right)

其中， $R_i$ 表示将样品 $\mathbf{x}$ 判定为 $\pi_i$ 的集合， $P(k|i)$ 表示来自 $\pi_i$ 的样品被误判为 $\pi_k$ 的概率， $c(k|i)$ 表示来自 $\pi_i$ 的样品被误判为 $\pi_k$ 的损失。请证明以下结论：

(1) 对于样品 $\mathbf{x}$ ，若 $\ell = \arg\min_{k=1,2,\dots,g} h_k(\mathbf{x})$ ，则将 $\mathbf{x}$ 判定为 $\pi_\ell$ 。其中： $h_k(\mathbf{x}) = \sum_{i\neq k} p_i f_i(\mathbf{x}) c(k|i)$

人话： $\ell$ 是让 $h_k(\mathbf{x})$ 最小的拿个类别吗？

\min_{R_1,R_2,\dots,R_g} \text{ECM} = \sum_{i=1}^g p_i \left( \sum_{k\neq i} P(k|i) c(k|i) \right)

其中：

$\displaystyle R_i$ ：将样品 $\mathbf{x}$ 判定为 $\pi_i$ 的集合（决策区域）
$\displaystyle P(k|i)$ ：来自 $\pi_i$ 的样品被误判为 $\pi_k$ 的概率（ $\displaystyle P(k|i) = \int_{R_k} f_i(\mathbf{x}) d\mathbf{x}$ ）
$\displaystyle c(k|i)$ ：来自 $\pi_i$ 的样品被误判为 $\pi_k$ 的损失

代入到ECM中：

\mathrm{ECM} = \sum_{i=1}^g p_i \sum_{k\neq i} c(k|i) \int_{R_k} f_i(\mathbf{x}) \, d\mathbf{x}

交换求和与积分次序（就不证明为什么了）：

\mathrm{ECM} = \sum_{i=1}^{g} \sum_{k \neq i} \int_{R_k} p_i f_i(\mathbf{x}) c(k|i) \, d\mathbf{x}

这里是外层对i求和，我们改写成对k求和，其余没变：

\mathrm{ECM} = \sum_{k=1}^{g} \sum_{i \neq k} \int_{R_k} p_i f_i(\mathbf{x}) c(k|i) \, d\mathbf{x}

双重求和 $\sum_{i=1}^{g} \sum_{k \neq i}$ ，含义是：

先固定 $i$ （真实类），再对所有不等于 $i$ 的 $k$ （误判类）求和。这等价于先固定 $k$ （误判类），再对所有不等于 $k$ 的 $i$ （真实类）求和，即 $\sum_{k=1}^{g} \sum_{i \neq k}$ 。两者遍历的指标对 $(i,k)$ 完全相同，只是交换了求和次序，因此可以改写。

$R_k$ 是将样品 $\boldsymbol{x}$ 判定为总体 $\pi_k$ 的决策区域。

由于积分区域 $R_k$ 与内层求和无关，可交换积分与求和（凑出表达式）：

\mathrm{ECM} = \sum_{k=1}^{g} \int_{R_k} \left( \sum_{i \neq k} p_i f_i(\mathbf{x}) c(k|i) \right) d\mathbf{x} = \sum_{k=1}^{g} \int_{R_k} h_k(\mathbf{x}) d\mathbf{x}

我们分类的依据就是ECM最小，所以：

对于每一个固定的样本点 $\mathbf{x}$ ，它只能判为 $\pi_\ell$ 。此时它对 ECM 的贡献是 $h_\ell(\mathbf{x})$ 。为了使总 ECM 最小，应当对每个 $\mathbf{x}$ 选择使 $h_\ell(\mathbf{x})$ 最小的类别 $\ell$ ，即

$\ell = \arg\min_{k=1,\dots,g} h_k(\mathbf{x}).$ 因此，分类规则为：将 $\mathbf{x}$ 判给使得 $h_k(\mathbf{x})$ 最小的类 $\pi_\ell$ 。

(2) 如果所有误判损失 $c(j|i)$ 均相等，分类规则可简化为：若 $\ell = \arg\max_{k=1,2,\dots,g} p_k f_k(\mathbf{x})$ ，则将样品 $\mathbf{x}$ 判定为 $\pi_\ell$ 。

若所有误判损失相等，即 $c(k|i) = c$ （常数）对 $k \neq i$ 。

h_k(\mathbf{x}) = \sum_{i \neq k} p_i f_i(\mathbf{x}) c

这里全体求和 $\sum_{i=1}^{g} p_i f_i(x)$ 可以分成 $i = k$ 和 $i \neq k$ 两部分，所以可以拆开:

\sum_{i=1}^{g} p_i f_i(\mathbf{x}) = p_k f_k(\mathbf{x}) + \sum_{i \neq k} p_i f_i(\mathbf{x})

\sum_{i \neq k} p_i f_i(\mathbf{x}) = \sum_{i=1}^g p_i f_i(\mathbf{x}) - p_k f_k(\mathbf{x})

所以： $h_k(\mathbf{x}) = \sum_{i \neq k} p_i f_i(\mathbf{x}) c = c \left( \sum_{i=1}^g p_i f_i(\mathbf{x}) - p_k f_k(\mathbf{x}) \right).$ 由于 $\sum_{i=1}^g p_i f_i(\mathbf{x})$ 与 $k$ 无关，最小化 $h_k(\mathbf{x})$ 等价于最大化 $p_k f_k(\mathbf{x})$ （因为是减去而且是非负的）。故分类规则变为 $\ell = \arg\max_{k=1,\dots,g} p_k f_k(\mathbf{x}).$

例题

已知样品由 3 个变量 $(X_1,X_2,X_3)$ 构成。样品 1 的观测值为 $\mathbf{x}_1 = (2,1,4)$ ，样品 2 的观测值为 $\mathbf{x}_2 = (3,6,7)$ ，请分别计算样品 1 和样品 2 的曼哈顿距离、欧式距离、切比雪夫距离、堪培拉距离和余弦距离（计算结果保留小数点后两位）。

曼哈顿距离

d_{\text{man}} = \sum_{i=1}^{3} |x_{1i} - x_{2i}| = |2-3| + |1-6| + |4-7| = 1+5+3 = 9.00

欧式距离

d_{\text{euc}} = \sqrt{\sum_{i=1}^{3} (x_{1i} - x_{2i})^2} = \sqrt{(2-3)^2 + (1-6)^2 + (4-7)^2} = \sqrt{1+25+9} = \sqrt{35} \approx 5.92

切比雪夫距离（L∞距离）

d_{\text{che}} = \max_{i} |x_{1i} - x_{2i}| = \max(1,5,3) = 5.00

堪培拉距离

d_{\text{can}} = \sum_{i=1}^{3} \frac{|x_{1i} - x_{2i}|}{|x_{1i}| + |x_{2i}|} = \frac{1}{2+3} + \frac{5}{1+6} + \frac{3}{4+7} = 1.1870 \approx 1.19

余弦距离（1 − 余弦相似度）

余弦相似度：

\cos \theta = \frac{\mathbf{x}_1 \cdot \mathbf{x}_2}{\|\mathbf{x}_1\| \|\mathbf{x}_2\|} = \frac{2\times3 + 1\times6 + 4\times7}{\sqrt{2^2+1^2+4^2} \cdot \sqrt{3^2+6^2+7^2}} = \frac{6+6+28}{\sqrt{21}\cdot\sqrt{94}} = \frac{40}{\sqrt{1974}} \approx \frac{40}{44.430} \approx 0.9003

余弦距离：

d_{\text{cos}} = 1 - \cos \theta \approx 1 - 0.9003 = 0.0997 \approx 0.10

例题

已知样品由 5 个二元变量构成，用以描述样品的 5 种特征：变量取值为 1 表示该特征存在，取值为 0 表示该特征缺失。样品 1 与样品 2 的观测值如下表所示：

样品	变量	变量	变量	变量	变量
	1号	2号	3号	4号	5号
样品1	1	0	0	1	1
样品2	1	1	0	1	0

请分别计算样品 1 和样品 2 的简单匹配系数、Dice 系数和 Rogers-Tanimoto 系数。

根据样品1和样品2的二元变量观测值，计算列联表：

a = 2（两样品同时为 1）
b = 1（样品1 为 1 样品2 为 0）
c = 1（样品1 为 0 样品2 为 1）
d = 1（两样品同时为 0）

则各系数如下：

简单匹配系数

\text{SMC} = \frac{a+d}{a+b+c+d} = \frac{2+1}{5} = \frac{3}{5} = 0.60

Dice系数

\text{Dice} = \frac{2a}{2a+b+c} = \frac{2\times2}{4+1+1} = \frac{4}{6} = \frac{2}{3} \approx 0.67

ogers-Tanimoto系数

R = \frac{a+d}{a+d+2(b+c)} = \frac{2+1}{3+2\times2} = \frac{3}{7} \approx 0.43

简单匹配系数 0.60，Dice系数 0.67，Rogers-Tanimoto系数 0.43。

Thanks for reading!

多元统计分析-第七章计算解

周日 6月 07 2026

2888 字 · 11 分钟

期末复习多元统计分析

多元统计分析-第七章计算解

代价敏感学习、贝叶斯分类、二次判别分析和线性判别分析的关系

留出法和k折交叉验证的基本步骤

留出法

k折交叉验证基本步骤：

Fisher 判别函数的个数应如何选择？

Fisher 判别分析和线性判别分析的关系

广义线性模型的定义

凝聚型层次聚类法的算法步骤

常见簇间连接法的定义。

Ward 法局部最优策略的算法步骤。

非层次聚类法中初始划分和迭代优化的常见方式。

例题

(1) 对于样品 $\mathbf{x}$ ，若 $\ell = \arg\min_{k=1,2,\dots,g} h_k(\mathbf{x})$ ，则将 $\mathbf{x}$ 判定为 $\pi_\ell$ 。其中： $h_k(\mathbf{x}) = \sum_{i\neq k} p_i f_i(\mathbf{x}) c(k|i)$

(2) 如果所有误判损失 $c(j|i)$ 均相等，分类规则可简化为：若 $\ell = \arg\max_{k=1,2,\dots,g} p_k f_k(\mathbf{x})$ ，则将样品 $\mathbf{x}$ 判定为 $\pi_\ell$ 。

例题

曼哈顿距离

欧式距离

切比雪夫距离（L∞距离）

堪培拉距离

余弦距离（1 − 余弦相似度）

余弦相似度：

余弦距离：

例题

简单匹配系数

Dice系数

ogers-Tanimoto系数

多元统计分析-第七章计算解

Comments

青山绿野

多元统计分析-第七章计算解

代价敏感学习、贝叶斯分类、二次判别分析和线性判别分析的关系

留出法和k折交叉验证的基本步骤

留出法

k折交叉验证基本步骤：

Fisher 判别函数的个数应如何选择？

Fisher 判别分析和线性判别分析的关系

广义线性模型的定义

凝聚型层次聚类法的算法步骤

常见簇间连接法的定义。

Ward 法局部最优策略的算法步骤。

非层次聚类法中初始划分和迭代优化的常见方式。

例题

(2) 如果所有误判损失 c(j∣i)c(j|i)c(j∣i) 均相等，分类规则可简化为：若ℓ=arg⁡max⁡k=1,2,…,gpkfk(x)\ell = \arg\max_{k=1,2,\dots,g} p_k f_k(\mathbf{x})ℓ=argmaxk=1,2,…,g​pk​fk​(x)，则将样品 x\mathbf{x}x判定为πℓ\pi_\ellπℓ​。

例题

曼哈顿距离

欧式距离

切比雪夫距离（L∞距离）

堪培拉距离

余弦距离（1 − 余弦相似度）

余弦相似度：

余弦距离：

例题

简单匹配系数

Dice系数

ogers-Tanimoto系数

多元统计分析-第七章计算解

Comments

青山绿野

(2) 如果所有误判损失 $c(j|i)$ 均相等，分类规则可简化为：若 $\ell = \arg\max_{k=1,2,\dots,g} p_k f_k(\mathbf{x})$ ，则将样品 $\mathbf{x}$ 判定为 $\pi_\ell$ 。