机器学习-简答

MeLssnow — Fri, 22 May 2026 19:27:00 GMT

This rendering was automatically generated by Ryuchan Feed and may have formatting issues. For the best experience, please visit: https://www.melssnow.cn/blog/machine-learning/

机器学习概念

机器学习是一种从数据当中发现复杂规律，并且利用规律对未来时刻、未知状况进行预测和判定的方法，是当下被认为最有可能实现人工智能的方法。

监督学习和无监督学习的区别？

监督学习：指模型在有标注数据的监督下进行训练，目标是学习从输入特征 $X$ 到输出标签 $Y$ 的映射关系。模型通过对比预测结果与真实标签来调整参数。(如分类和回归)

无监督学习：指模型在没有标注数据的情况下进行训练、目标是发现数据的内在结构和模式。(如聚类、降维、异常检测)

机器学习-2-统计基础

参数估计的几种方法的区别

蒙特卡罗方法

定义：蒙特卡罗方法是一类基于随机抽样的数值计算方法。当需要计算某个关于参数 $θ$ 的期望，我们能从后验分布中独立抽取大量样本,然后用样本均值来近似期望值。 其适用于概率密度函数很复杂，或者不知道的情况。

特点：优点：简单通用，适用于高维问题。缺点：收敛速度较慢，且需要有效的抽样方法。

最大似然估计

定义：最大似然估计是一种频率学派的点估计方法。在给定独立同分布的样本，其联合概率密度函数为$L(\theta) = \prod_{i=1}^n p(X_i|\theta)$。MLE 寻找使得当前观测样本数据出现概率最大的参数值作为估计值。通常最大化对数似然函数 $\ell(\theta) = \sum_{i=1}^n \log p(X_i|\theta)$。通过求导并令导数为零，解出 $\hat{\theta}_{\text{MLE}}$。 其需要事先知道随机变量的分布。

特点：优点：样本量 $n→∞$ 时，估计值依概率收敛到真值。缺点：完全依赖数据，无先验信息；在小样本下可能偏差较大。

贝叶斯框架下的MAP估计

定义：最大后验估计是贝叶斯学派的一种点估计方法。它在给定数据的条件下，选择使后验概率密度 $p(θ∣X)$ 最大的参数值。 需要对参数有一些先验知识。

特点：优点：融合了先验知识，可解决MLE的过拟合问题，小样本下更稳健。缺点：后验分布可能没有简单解析形式，需用数值优化。且先验的选择带有主观性。

什么是KL散度，为什么说它是不对称的距离度量？

是衡量两计概分布之间差异的一种方法。其并非距离度量，用于度量两概分布 P 和 Q 的差异，表示当用分布 Q 来近似真实分布 P 时，所损失的信息量。

机器学习-3-回归学习

简述线性回归模型与线性基函数回归模型的联系与区别

线性回归：

直接用原始特征 $x_1, x_2, ..., x_K$ 的线性组合来拟合，模型为 $\hat{y} = w_0 + w_1 x_1 + ... + w_K x_K$。可以看作是基函数取 $\phi(x) = [1, x_1, x_2, ..., x_K]^T$。

线性基函数回归：

先将原始特征 x 映射到一组新的基函数 $\phi(x) = [\phi_0(x), \phi_1(x), ..., \phi_{M-1}(x)]^T$（比如多项式、高斯、sigmoid等），然后再用这些基函数的线性组合 $\hat{y} = w^T \phi(x)$来拟合。这个模型对参数 w 仍然是线性的，但对输入 x 可以是非线性的。

联系：

线性基函数回归是线性回归的推广，线性回归可视为线性基函数回归的一个特例。当基函数取 $\phi(x) = \bar{x} = [1, x_1, x_2, ..., x_K]^T$ 时，线性基函数回归退化为标准线性回归。两者都对参数向量 w 是线性的，因此参数估计方法通用。

区别：

线性回归直接使用原始特征的线性组合，只能拟合线性关系。

线性基函数回归通过对输入向量进行非线性映射，引入多项式、交叉项等非线性基函数，从而能拟合非线性关系，但模型关于参数仍然是线性的，故仍可用线性方法求解。

比较批处理最小二乘法、梯度下降法和随机梯度下降法（SGD）的优缺点

方法	优点	缺点
批处理最小二乘	一次计算得到精确解	需要求逆矩阵，当特征维数高或样本量大时计算量大
梯度下降（批量GD）	避免矩阵求逆，适用于大数据集；实现简单	每次迭代需计算全部样本的梯度，收敛慢；需要手动选择学习率
随机梯度下降（SGD）	每次仅用一个样本更新参数，计算快，可在线学习；容易跳出局部最优	梯度估计噪声大；最终解精度不如批处理

批量梯度下降

在每次迭代更新参数时，都需要⽤到全部的训练样本数据来计算⽬标函数的梯度。

随机梯度下降

在每次迭代更新参数时，从训练样本集中随机选取⼀个训练样本来计算⽬标函数的梯度。

⼩批量梯度下降

在每次迭代更新参数时，选取训练样本集中给定数量的训练样本来计算⽬标函数的梯度。

什么是正则化线性回归？岭回归(L2)与套索回归（L1）有何区别？

正则化线性回归：在原始损失函数基础上添加惩罚项，用于控制模型复杂度、防止过拟合。

L1正则化在损失函数中加入权值向量$w$的绝对值之和。 L2正则化在损失函数中加入权值向量$w$的平方和。

区别： L1功能是使权重稀疏，有利于高维特征选择。 L2功能是使权重平滑但不为零；

过拟合和欠拟合如何产生？如何缓解？

过拟合：

模型在训练样本集上表现很好，但在测试样本集上表现不佳，过度记忆了训练数据的噪声和细节，模型泛化能力差的现象。

原因：

训练样本数量过少；特征向量维数过高；模型过于复杂。

欠拟合：

模型在训练数据和测试数据上都表现得非常差。意味着模型过于简单，无法捕捉数据中的有效模式。

原因：

模型的学习能力不足；现有的数据特征与其对应的标签之间的相关性不强。

方法：

增加训练数据集：更好训练数据的总体模式。
正则化：限制模型的复杂度。
简化模型：选择简单模型或减少输入参数。
提前停止：集成方法。

机器学习-4-分类学习

逻辑回归和线性回归的联系和区别

线性回归预测连续变量，输出连续值,损失函数使用最小二乘法来最小化预测值和实际值的误差。

逻辑回归预测分类变量（一般为二分类），输出一个概率值（0,1之间）

联系：

二者都是线性模型，它们都假设输出变量是输入变量的线性组合。
二者都可以处理连续和离散的输入特征。
二者的参数估计都可以通过最大似然估计或梯度下降来实现。

为什么说逻辑回归比最小二乘分类（LS分类）对异常点更鲁棒？

最小二乘分类（直接用线性回归拟合类标签0/1）对异常点非常敏感，因为它最小化均方误差，异常点的误差会平方放大，从而严重拉偏决策边界。

而逻辑回归使用交叉熵损失，且输出通过Sigmoid函数压缩在(0,1)之间，对远离决策边界的极端点给出的梯度较小，因此受异常点影响较小。

朴素贝叶斯（Naïve Bayes）分类器为什么称为“朴素”？它的基本方法是什么？如何学习参数？

“朴素”含义：在给定类别标签的条件下，各个特征之间相互独立,忽略了真实数据中特征之间可能的相关性。

基本方法：每个特征服从类别条件独立分布。对于给定的样本，朴素贝叶斯分类器计算每个类别的后验概率，选择具有最大后验概率的类别作为预测结果。后验概率的计算利用了贝叶斯定理，将先验概率和样本特征的条件概率相结合。

参数学习：采用最大似然估计。

分类模型的区别

判别函数模型、概率判别模型、生成模型。

判别（判决）函数模型直接学习决策边界，对后验概率 $p(y∣x)$ 建模，输出类别标签，数据效率更高，对异常点处理能力弱，常用于分类，判决等

生成模型先学习联合概率 $p(x ∣ y)$ 和 $p(y)$，学习数据生成规律，再由贝叶斯公式得到后验概率，可通过分布检测异常，典型代表是朴素贝叶斯。其核心假设是“给定类别下特征相互独立”，因此当特征相关时效果差；优点是能生成新样本、处理缺失数据。

逻辑回归与朴素贝叶斯对比：逻辑回归不要求特征独立，能自动学习特征间关系；朴素贝叶斯假设强独立，计算快但易因相关特征而失真。逻辑回归用梯度下降等优化，朴素贝叶斯直接数数得到参数。

机器学习-5-流程和评估

简述训练集、验证集、测试集各自的用途。当只有一组带标签数据时，如何划分？

训练集：用于训练模型参数（如线性回归的权重）。
验证集：用于选择超参数和模型选择，不参与参数训练。
测试集：用于评估最终模型的泛化能力，只能使用一次。

划分方法：将数据集按比例（如80%训练 + 20%验证）划分，先训练集训练，验证集选超参数，再用独立测试集测试。若没有独立测试集，可用交叉验证。

什么是K折交叉验证？什么是留一验证（LOOCV）？

K折交叉验证：将训练集随机分成K份（K folds），依次取其中一份作为验证集，其余$K-1$份作为训练集，训练并验证一次。重复K次，取K次验证作为最终验证误差。常见K=5或10。

留一验证（LOOCV）：K折交叉验证的特例，令 $K=N$（N为样本数），每次只留一个样本作为验证集，其余$N-1$个样本训练。计算量大，但适合小样本数据集。

机器学习模型的泛化误差可以分解为哪三个部分？分别解释其含义。

泛化误差可分解为三个部分： $$ \text{泛化误差} = \text{偏差}^2 + \text{方差} + \text{固有误差} $$

偏差（Bias）
模型预测值与真实值之间的差异。反映模型本身的拟合能力。模型越简单，偏差越大（欠拟合）。
方差（Variance）
不同训练集上训练的模型预测值之间的变动程度。反映模型对训练数据变化的敏感度。模型越复杂，方差越大（过拟合）。
固有误差（Irreducible Error）
数据本身存在的噪声，无法通过任何模型消除。

偏差和方差之间存在权衡（trade-off）。总泛化误差呈U形曲线，模型过简单或过复杂都会导致高误差。

请准确写出精度，查全率是如何定义的？二者之间是什么关系？

精度：在所有被预测为正的样本中，有多少是真正的正例

$\text{precision} = \frac{\text{TP}}{\text{TP} + \text{FP}}$

查全率：在所有实际为正的样本中，有多少被正确识别为正类

$\text{Recall} = \frac{\text{TP}}{\text{TP} + \text{FN}}$

真实\预测	正	负
正	TP	FN
负	FP	TN

注：高精度、低查全率；高查全率、低精度。

什么是ROC曲线？AUC值有什么意义？

ROC曲线（受试者工作特征曲线）以真正率为纵轴，以假正率为横轴，通过改变分类阈值绘制出的曲线。

真正例率：$TPR = \frac{TP}{TP + FN}$
假正例率：$FPR = \frac{FP}{TN + FP}$

AUC是ROC曲线下的面积，取值范围在 $0.5$ 到 $1$ 之间。AUC越接近 $1$，分类器性能越好；$AUC = 0.5$ 表示分类器相当于随机猜测。AUC可以综合评价分类器在不同阈值下的表现，且不受样本不平衡的影响。

机器学习-6-核与SVM

支持向量机的思想和对核技巧的作用

支持向量机（SVM）是一种二分类模型，其核心思想是：在特征空间中寻找一个分类超平面，使得两类样本不仅被正确分开，而且离超平面最近的样本到超平面的距离最大化。这一“最大间隔”原则能够提高模型的泛化能力，使噪声和扰动对分类器影响更小。

核技巧的作用

核函数 $k(\mathbf{x}, \mathbf{x}')$ 定义为特征映射函数 $\phi(\mathbf x)$ 的内积，即
$k(\mathbf{x}, \mathbf{x}') = \phi(\mathbf{x})^T \phi(\mathbf{x}')$

核技巧的核心思想是：无需显式计算高维特征映射 $ϕ(x)$ 的内积，而是直接用核函数 $k(x,x′)=ϕ(x)^Tϕ(x′)$ 替代。

在SVM的对偶问题中，目标函数和决策函数只依赖于样本之间的内积
$ϕ(x_n)^Tϕ(x_m)$。通过引入核函数，我们可以隐式地将数据映射到高维特征空间，在该空间中实现线性分类，而计算复杂度仍保持为低维空间的规模。

核技巧的具体作用：

将原始线性不可分的数据映射到高维空间，使其变得**线性可分。
不需要显式计算高维特征向量，所有运算都在核函数的值上进行，计算量可控。
核技巧可推广到其他算法，不仅限于SVM。
通过选择不同核函数，可以灵活地适应不同数据分布。

简答题3：如何从简单核函数构造新的核函数？请列举至少三种构造方式。

设 $k_1(\mathbf{x}, \mathbf{x}')$ 和 $k_2(\mathbf{x}, \mathbf{x}')$ 是有效核函数，则以下方式构造的新核也是有效核：

数乘： $$ k(\mathbf{x}, \mathbf{x}') = c \cdot k_1(\mathbf{x}, \mathbf{x}'), \quad c > 0 $$
函数加权： $$ k(\mathbf{x}, \mathbf{x}') = f(\mathbf{x}) , k_1(\mathbf{x}, \mathbf{x}') , f(\mathbf{x}') $$ 其中 $f(\cdot)$ 是任意函数。
多项式变换： $$ k(\mathbf{x}, \mathbf{x}') = q\bigl(k_1(\mathbf{x}, \mathbf{x}')\bigr) $$ 其中 $q(\cdot)$ 是非负系数的多项式。
指数运算： $$ k(\mathbf{x}, \mathbf{x}') = \exp\bigl(k_1(\mathbf{x}, \mathbf{x}')\bigr) $$
加法： $$ k(\mathbf{x}, \mathbf{x}') = k_1(\mathbf{x}, \mathbf{x}') + k_2(\mathbf{x}, \mathbf{x}') $$
乘法： $$ k(\mathbf{x}, \mathbf{x}') = k_1(\mathbf{x}, \mathbf{x}') , k_2(\mathbf{x}, \mathbf{x}') $$
核嵌套： $$ k(\mathbf{x}, \mathbf{x}') = k_3\bigl(\phi(\mathbf{x}), \phi(\mathbf{x}')\bigr) $$ 其中 $\phi$ 是任意映射。
线性变换下的核： $$ k(\mathbf{x}, \mathbf{x}') = \mathbf{x}^\mathsf{T} \mathbf{A} \mathbf{x}' $$ 其中 $\mathbf{A}$ 是对称半正定矩阵。

常用例子：

多项式核： $$ k(\mathbf{x}, \mathbf{x}') = (\mathbf{x}^\mathsf{T} \mathbf{x}' + c)^M $$
高斯核： $$ k(\mathbf{x}, \mathbf{x}') = \exp\left(-\frac{|\mathbf{x} - \mathbf{x}'|^2}{2\sigma^2}\right) $$

简述SVM中核函数的选择（以线性核、多项式核、高斯核为例）及其对分类效果的影响。

常见核函数：

线性核：$k(x,x′)=xTx′$。相当于不加非线性映射，适用于线性可分或高维稀疏数据（如文本分类），计算最快。
多项式核：$k(x,x′)=(xTx′+c)M$。可以生成 M 阶多项式特征，能拟合较复杂的非线性边界，但参数 M 过大会导致过拟合。
高斯核（RBF核）：$k(x,x′)=exp⁡(−∥x−x′∥2/2σ2)$。对应无限维特征空间，能逼近任意复杂形状的决策边界，是最常用的核函数。但 σ 过小会导致过拟合，过大则接近线性核。

机器学习-7-决策树与集成学习

决策树的基本思想是什么？它有哪些主要优点？

决策树是一种分层的决策结构，可用于分类和回归。其基本思想是通过对特征向量进行分层判决，从根结点开始，根据特征的取值沿着树的分支逐步向下，最终到达叶结点得到预测结果。

主要优点：

推断速度快：只需沿着树的分支进行几次比较即可得出结果。
可解释性强：树结构直观，易于理解。
对混合属性数据有效：能同时处理离散特征和连续特征。
不要求特征独立：与朴素贝叶斯不同，决策树能够处理特征间的相关性。

ID3算法中如何选择最优特征？什么是信息增益？它有什么缺点？

ID3算法使用信息增益作为选择特征的标准。信息增益定义为：选择特征A后，数据集不纯性下降的量，即

$$G(D,A)=H(D)−H(D∣A)$$

其中 $H(D)$ 是数据集的经验熵，$H(D∣A)$ 是给定特征 A 后的条件熵。算法计算每个特征的信息增益，选择增益最大的特征作为当前结点的分裂特征。

缺点：信息增益倾向于选择取值数目多的特征。

例如，若一个特征每个样本取值都不同（如ID编号），按该特征分裂后每个子集只有一个样本，条件熵为0，信息增益最大，但这种划分没有泛化能力，容易过拟合。

C4.5算法对ID3做了哪些改进？

C4.5是ID3的改进版本，主要改进包括：

使用信息增益率代替信息增益：解决ID3偏向取值多特征的问题。信息增益率 = 信息增益 / 特征自身的熵（分裂信息），对取值多的特征进行惩罚。
引入剪枝技术：在树构造完成后进行后剪枝，或构造过程中预剪枝，防止过拟合。
能够处理连续特征：将连续特征离散化，选择最佳切分点。
能够处理缺失特征：对特征值缺失的样本，可以按概率分配到各分支。

CART算法与ID3/C4.5的主要区别是什么？CART用于分类时使用什么不纯性度量？

CART（Classification and Regression Tree）的主要区别：

CART生成的是二叉树，而ID3/C4.5生成多叉树。
CART既可以用于分类，也可以用于回归。
CART在分类时使用基尼指数（Gini index）作为不纯性度量，而不是信息熵或信息增益率。

随机森林的基本思想是什么？它是如何体现集成学习的思想的？

随机森林的基本思想是：通过集成多棵决策树来提升预测性能。

具体包含三个核心要点：

样本随机：对原始训练集进行多次有放回的自助采样，生成多个不同的训练子集。
特征随机：在每棵树每个结点分裂时，随机选取一部分特征（而非全部特征）进行最优分裂。
集成输出：将多棵树的预测结果进行投票（分类）或平均（回归）,多个差异化的树共同决策，降低了过拟合风险。这些体现了集成思想。

AdaBoost算法的基本思想是什么？它是如何体现集成学习的思想的？

AdaBoost（Adaptive Boosting）是一种串行式集成学习方法，通过迭代训练多个弱分类器，并将它们线性组合成一个强分类器。

基本思想：

每一轮训练一个弱分类器（如决策树桩），重点关注上一轮被错误分类的样本。
提高错误分类样本的权重，降低正确分类样本的权重，使下一轮分类器更关注“难题”。
最终将所有弱分类器加权投票，权重 $α_t$ 与其分类准确率正相关。

多个弱学习器串行接力、不断纠错，共同组合成一个强学习器，这体现了集成思想。

机器学习-12-无监督学习-1

K-means聚类的核心思想是什么？

K-means的核心思想是：将N个样本划分到K个簇中，使得每个样本与其所属簇中心之间的距离平方和最小。它通过迭代“指派样本到最近中心”和“重新计算簇均值”两步来优化目标。 K-means属于硬聚类，因为每个样本被唯一地指派给一个簇，不给出样本属于各簇的概率。

混合高斯模型（GMM）与K-means的主要区别是什么？

输出类型：K-means输出硬簇标签；GMM输出样本属于每个簇的概率（软聚类）。
簇形状：K-means假设簇是球形的（各向同性），对异常值敏感；GMM通过协方差矩阵可适应任意椭圆形状和不同大小。
优势：GMM能处理簇重叠、不同方向伸展的数据，并能给出归属的置信度，适用于更复杂的数据分布。

机器学习-13-无监督学习-2

什么是主成分分析（PCA）？它的主要目标是什么？

主成分分析（PCA）是一种无监督的线性降维方法。它的主要目标是将高维数据变换到低维空间，同时尽可能多地保留原始数据中的信息（即方差）。具体来说，PCA寻找若干个原始特征的线性组合（称为主成分），使得这些主成分能解释原始数据中绝大部分的信息。

第二主成分与第一主成分之间有什么关系？后续主成分如何构造？

第二主成分是原始特征的另一个线性组合，它满足两个条件：

与第一主成分不相关（即载荷向量正交），
是在与第一主成分不相关的所有线性组合中具有最大的方差。

类似地，后续每个主成分都与之前所有主成分不相关，并且方差依次递减。这样得到的主成分彼此正交，且按方差大小排序。

从几何角度看，PCA的第一主成分有什么直观意义？

从几何角度看，第一主成分对应着p维空间中距离所有样本点最近的一条直线（以欧氏距离平方的均值为衡量标准）。换句话说，将所有样本点投影到这条直线上，投影后的点之间的方差最大，且投影误差的平方和最小。前两个主成分则张成一个平面，该平面是与所有样本点最接近的平面。因此，PCA本质上是寻找能最好地近似原始数据点的低维线性子空间。

机器学习-14-强化学习-1

强化学习的基本要素有哪些？智能体与环境的交互过程是怎样的？

强化学习包含三个基本要素：状态（State）、动作（Action）、奖励（Reward）。智能体（Agent）在时刻 t 感知环境状态 $S_t$，根据策略 π 选择动作 $A_t$ 并执行；环境接收到动作后，给出即时奖励 $R_{t+1}$ 并转移到新状态 $S_{t+1}$。智能体的目标是最大化长期累积折扣奖励。这一交互过程产生序列 {$S_0,A_0,R_1,S_1,A_1,R_2,…$ }。强化学习的核心在于平衡探索（尝试未知动作）与利用（执行已知高奖励动作）。

什么是马尔可夫决策过程（MDP）？它由哪些元素组成？

马尔可夫决策过程（MDP）是描述强化学习问题的数学模型，它满足马尔可夫性，即下一状态只依赖于当前状态和动作，与历史无关。MDP由一个五元组 ($S,A,r,P_{ss′}^{a},γ$) 构成：

S：状态集合
A：动作集合
$P_{ss′}^{a}$：状态转移概率，表示在状态 s 执行动作 a 后转移到 s′ 的概率
r(s,a)：奖励函数，表示在状态 s 执行动作 a 获得的即时奖励期望
γ∈[0,1]：折扣因子，用于平衡当前和未来奖励

贝尔曼期望方程的作用是什么？请用文字描述状态值函数的贝尔曼方程。

贝尔曼期望方程刻画了MDP中不同状态值函数（或动作值函数）之间的递归关系。它将当前状态的值函数与后继状态的值函数联系起来，是求解策略评估的基础。

状态值函数的贝尔曼方程为：
一个状态的值等于从该状态出发，按照策略选择动作后，获得的即时奖励加上折扣后的下一状态值的期望。

蒙特卡洛（MC）强化学习与动态规划（DP）的主要区别是什么？MC适用于什么环境？

是否需要模型：DP需要已知状态转移概率和奖励函数，是“规划”方法；MC不需要模型，直接从与环境交互产生的经验片段中学习。
更新时机：DP通过贝尔曼方程自举（用当前估计值更新自身），每一步都可更新；MC必须等到一个完整的片段结束后，才能根据实际累积奖励 $G_t$ 更新值函数。
适用环境：MC适用于“分幕式”任务（有明确终止状态），如棋类对局、游戏关卡等。它不要求状态转移概率已知，但必须能采集到完整的交互序列。

Sarsa算法和Q-learning算法分别属于on-policy还是off-policy？

Sarsa 是 on-policy 算法，它评估和改进的是同一个策略（通常为 $ϵ$-贪婪策略）。更新时使用的下一个动作 $A′$ 是实际将要执行的动作。
Q-learning 是 off-policy 算法，它用一个策略（如 ϵ-贪婪）产生行为，但更新时使用另一个策略（贪婪策略）来构造TD目标。更新公式中，目标使用 $max⁡_{a′} Q(S′,a′)$，即假设下一步会采取最优动作，而不论实际执行了哪个动作。

因此，Sarsa更加保守（考虑了探索可能导致的惩罚），而Q-learning更激进（总是朝着最优方向更新）。

在强化学习中，“探索”与“利用”分别指什么？为什么需要平衡二者？常用策略是什么？

利用：根据当前已有的经验，选择已知能获得最大奖励的动作，以最大化短期收益。
探索：尝试未充分执行过的动作，以便发现可能带来更高长期收益的新策略。

如果只利用不探索，智能体可能陷入局部最优，错过更好的策略；如果只探索不利用，则无法积累有效经验。平衡二者是强化学习的关键挑战。

常用策略是 ϵ-贪婪策略：以 1−ϵ 的概率选择当前估计值最大的动作（利用），以 ϵ 的概率随机选择其他动作（探索）。ϵ 通常设置为较小的正数（如0.1），也可随训练逐渐衰减。

马尔可夫过程的两种贪婪策略，以及基本思想？

两种贪婪策略分别是纯贪婪策略和ϵ-贪婪策略。

纯贪婪策略：在每个状态下始终选择当前动作值函数 $Q(s,a)$ 最大的动作。其基本思想是“永远只利用已有经验，不探索”，容易陷入局部最优。
ϵ-贪婪策略：以 $1−ϵ$ 的概率选择当前最优动作（贪婪），以 $ϵ$ 的概率随机选择其他动作。其基本思想是“在利用的同时留出小部分机会进行探索”，平衡了利用与探索的关系，是强化学习中最常用的策略。