机器学习-简答

机器学习-简答

周五 5月 22 2026
6939 字 · 25 分钟

机器学习概念

机器学习是一种从数据当中发现复杂规律,并且利用规律对未来时刻未知状况进行预测和判定的方法,是当下被认为最有可能实现人工智能的方法。

监督学习和无监督学习的区别?

监督学习:指模型在有标注数据的监督下进行训练,目标是学习从输入特征 XX输出标签 YY映射关系。模型通过对比预测结果与真实标签来调整参数。(如分类和回归)

无监督学习:指模型在没有标注数据的情况下进行训练、目标是发现数据的内在结构和模式。(如聚类、降维、异常检测)


机器学习-2-统计基础

参数估计的几种方法的区别

蒙特卡罗方法

定义: 蒙特卡罗方法是一类基于随机抽样的数值计算方法。 当需要计算某个关于参数 θθ 的期望,我们能从后验分布中独立抽取大量样本,然后用样本均值来近似期望值。 其适用于概率密度函数很复杂,或者不知道的情况。

特点: 优点:简单通用,适用于高维问题。 缺点:收敛速度较慢,且需要有效的抽样方法。

最大似然估计

定义:最大似然估计是一种频率学派的点估计方法。 在给定独立同分布的样本,其联合概率密度函数为L(θ)=i=1np(Xiθ)L(\theta) = \prod_{i=1}^n p(X_i|\theta)。MLE 寻找使得当前观测样本数据出现概率最大的参数值作为估计值。通常最大化对数似然函数 (θ)=i=1nlogp(Xiθ)\ell(\theta) = \sum_{i=1}^n \log p(X_i|\theta)。通过求导并令导数为零,解出 θ^MLE\hat{\theta}_{\text{MLE}}其需要事先知道随机变量的分布。

特点: 优点:样本量 nn→∞ 时,估计值依概率收敛到真值。 缺点:完全依赖数据,无先验信息;在小样本下可能偏差较大。

贝叶斯框架下的MAP估计

定义:最大后验估计是贝叶斯学派的一种点估计方法。 它在给定数据的条件下,选择使后验概率密度 p(θX)p(θ∣X) 最大的参数值。 需要对参数有一些先验知识。

特点: 优点:融合了先验知识,可解决MLE的过拟合问题,小样本下更稳健。 缺点:后验分布可能没有简单解析形式,需用数值优化。且先验的选择带有主观性。

什么是KL散度,为什么说它是不对称的距离度量?

是衡量两计概分布之间差异的一种方法。其并非距离度量,用于度量两概分布 P 和 Q 的差异,表示当用分布 Q 来近似真实分布 P 时,所损失的信息量。


机器学习-3-回归学习

简述线性回归模型与线性基函数回归模型的联系与区别

线性回归:

直接用原始特征 x1,x2,...,xKx_1, x_2, ..., x_K 的线性组合来拟合,模型为 y^=w0+w1x1+...+wKxK\hat{y} = w_0 + w_1 x_1 + ... + w_K x_K。可以看作是基函数取 ϕ(x)=[1,x1,x2,...,xK]T\phi(x) = [1, x_1, x_2, ..., x_K]^T

线性基函数回归:

先将原始特征 x 映射到一组新的基函数 ϕ(x)=[ϕ0(x),ϕ1(x),...,ϕM1(x)]T\phi(x) = [\phi_0(x), \phi_1(x), ..., \phi_{M-1}(x)]^T(比如多项式、高斯、sigmoid等),然后再用这些基函数的线性组合 y^=wTϕ(x)\hat{y} = w^T \phi(x)来拟合。这个模型对参数 w 仍然是线性的,但对输入 x 可以是非线性的。

联系

线性基函数回归是线性回归的推广,线性回归可视为线性基函数回归的一个特例。当基函数取 ϕ(x)=xˉ=[1,x1,x2,...,xK]T\phi(x) = \bar{x} = [1, x_1, x_2, ..., x_K]^T 时,线性基函数回归退化为标准线性回归。两者都对参数向量 w 是线性的,因此参数估计方法通用。

区别

线性回归直接使用原始特征的线性组合,只能拟合线性关系

线性基函数回归通过对输入向量进行非线性映射,引入多项式、交叉项等非线性基函数,从而能拟合非线性关系,但模型关于参数仍然是线性的,故仍可用线性方法求解。

比较批处理最小二乘法、梯度下降法和随机梯度下降法(SGD)的优缺点

需要梯度下降算法的原因

方法优点缺点
批处理最小二乘一次计算得到精确解需要求逆矩阵,当特征维数高或样本量大时计算量大
梯度下降(批量GD)避免矩阵求逆,适用于大数据集;
实现简单
每次迭代需计算全部样本的梯度,收敛慢;
需要手动选择学习率
随机梯度下降(SGD)每次仅用一个样本更新参数,计算快,可在线学习;
容易跳出局部最优
梯度估计噪声大;
最终解精度不如批处理

批量梯度下降

在每次迭代更新参数时,都需要⽤到全部的训练样本数据来计算⽬标函数的梯度。

随机梯度下降

在每次迭代更新参数时,从训练样本集中随机选取⼀个训练样本来计算⽬标函数的梯度。

⼩批量梯度下降

在每次迭代更新参数时,选取训练样本集中给定数量的训练样本来计算⽬标函数的梯度。

什么是正则化线性回归?岭回归(L2)与套索回归(L1)有何区别?

正则化线性回归:在原始损失函数基础上添加惩罚项,用于控制模型复杂度、防止过拟合。

L1正则化在损失函数中加入权值向量ww绝对值之和。 L2正则化在损失函数中加入权值向量ww平方和

区别: L1功能是使权重稀疏,有利于高维特征选择。 L2功能是使权重平滑但不为零;

过拟合和欠拟合如何产生?如何缓解?

过拟合:

模型在训练样本集上表现很好,但在测试样本集上表现不佳,过度记忆了训练数据的噪声和细节,模型泛化能力差的现象。

原因:

训练样本数量过少;特征向量维数过高;模型过于复杂。

欠拟合:

模型在训练数据和测试数据上都表现得非常差。意味着模型过于简单,无法捕捉数据中的有效模式

原因:

模型的学习能力不足;现有的数据特征与其对应的标签之间的相关性不强。

方法:

  1. 增加训练数据集:更好训练数据的总体模式。
  2. 正则化:限制模型的复杂度。
  3. 简化模型:选择简单模型或减少输入参数。
  4. 提前停止:集成方法。

机器学习-4-分类学习

逻辑回归和线性回归的联系和区别

线性回归预测连续变量输出连续值,损失函数使用最小二乘法来最小化预测值和实际值的误差。

逻辑回归预测分类变量(一般为二分类),输出一个概率值(0,1之间)

联系:

  1. 二者都是线性模型,它们都假设输出变量输入变量的线性组合。
  2. 二者都可以处理连续和离散的输入特征。
  3. 二者的参数估计都可以通过最大似然估计梯度下降来实现。

为什么说逻辑回归比最小二乘分类(LS分类)对异常点更鲁棒?

最小二乘分类(直接用线性回归拟合类标签0/1)对异常点非常敏感,因为它最小化均方误差,异常点的误差会平方放大,从而严重拉偏决策边界。

而逻辑回归使用交叉熵损失,且输出通过Sigmoid函数压缩在(0,1)之间,对远离决策边界的极端点给出的梯度较小,因此受异常点影响较小。

朴素贝叶斯(Naïve Bayes)分类器为什么称为“朴素”?它的基本方法是什么?如何学习参数?

“朴素”含义:在给定类别标签的条件下,各个特征之间相互独立,忽略了真实数据中特征之间可能的相关性。

基本方法:每个特征服从类别条件独立分布。对于给定的样本,朴素贝叶斯分类器计算每个类别的后验概率,选择具有最大后验概率的类别作为预测结果。后验概率的计算利用了贝叶斯定理,将先验概率和样本特征的条件概率相结合。

参数学习:采用最大似然估计。

分类模型的区别

判别函数模型概率判别模型生成模型

判别(判决)函数模型直接学习决策边界,对后验概率 p(yx)p(y∣x) 建模,输出类别标签,数据效率更高,对异常点处理能力弱,常用于分类,判决等

生成模型先学习联合概率 p(xy)p(x ∣ y)p(y)p(y)学习数据生成规律,再由贝叶斯公式得到后验概率,可通过分布检测异常,典型代表是朴素贝叶斯。 其核心假设是“给定类别下特征相互独立”,因此当特征相关时效果差;优点是能生成新样本处理缺失数据

判别模型和生成模型的区别

逻辑回归与朴素贝叶斯对比:逻辑回归不要求特征独立,能自动学习特征间关系;朴素贝叶斯假设强独立,计算快但易因相关特征而失真。逻辑回归用梯度下降等优化,朴素贝叶斯直接数数得到参数。


机器学习-5-流程和评估

简述训练集、验证集、测试集各自的用途。当只有一组带标签数据时,如何划分?

  • 训练集:用于训练模型参数(如线性回归的权重)。
  • 验证集:用于选择超参数和模型选择,不参与参数训练。
  • 测试集:用于评估最终模型的泛化能力,只能使用一次。

划分方法:将数据集按比例(如80%训练 + 20%验证)划分,先训练集训练,验证集选超参数,再用独立测试集测试。若没有独立测试集,可用交叉验证。

什么是K折交叉验证?什么是留一验证(LOOCV)?

K折交叉验证:将训练集随机分成K份(K folds),依次取其中一份作为验证集,其余K1K-1份作为训练集,训练并验证一次。重复K次,取K次验证作为最终验证误差。常见K=5或10。

留一验证(LOOCV):K折交叉验证的特例,令 K=NK=N(N为样本数),每次只留一个样本作为验证集,其余N1N-1个样本训练。计算量大,但适合小样本数据集。

机器学习模型的泛化误差可以分解为哪三个部分?分别解释其含义。

泛化误差可分解为三个部分:

泛化误差=偏差2+方差+固有误差\text{泛化误差} = \text{偏差}^2 + \text{方差} + \text{固有误差}
  1. 偏差(Bias)
    模型预测值与真实值之间的差异。反映模型本身的拟合能力。模型越简单,偏差越大(欠拟合)。
  2. 方差(Variance)
    不同训练集上训练的模型预测值之间的变动程度。反映模型对训练数据变化的敏感度。模型越复杂,方差越大(过拟合)。
  3. 固有误差(Irreducible Error)
    数据本身存在的噪声,无法通过任何模型消除。

偏差和方差之间存在权衡(trade-off)。总泛化误差呈U形曲线,模型过简单或过复杂都会导致高误差。

请准确写出精度,查全率是如何定义的?二者之间是什么关系?

精度:在所有被预测为正的样本中,有多少是真正的正例

precision=TPTP+FP\text{precision} = \frac{\text{TP}}{\text{TP} + \text{FP}}

查全率:在所有实际为正的样本中,有多少被正确识别为正类

Recall=TPTP+FN\text{Recall} = \frac{\text{TP}}{\text{TP} + \text{FN}}

真实\预测
TPFN
FPTN

注:高精度、低查全率;高查全率、低精度。

什么是ROC曲线?AUC值有什么意义?

ROC曲线(受试者工作特征曲线)以真正率为纵轴,以假正率为横轴,通过改变分类阈值绘制出的曲线。

  • 真正例率:TPR=TPTP+FNTPR = \frac{TP}{TP + FN}
  • 假正例率:FPR=FPTN+FPFPR = \frac{FP}{TN + FP}

AUC是ROC曲线下的面积,取值范围在 0.50.511 之间。AUC越接近 11,分类器性能越好;AUC=0.5AUC = 0.5 表示分类器相当于随机猜测。AUC可以综合评价分类器在不同阈值下的表现,且不受样本不平衡的影响。


机器学习-6-核与SVM

支持向量机的思想和对核技巧的作用

支持向量机(SVM)是一种二分类模型,其核心思想是:在特征空间中寻找一个分类超平面,使得两类样本不仅被正确分开,而且离超平面最近的样本到超平面的距离最大化。 这一“最大间隔”原则能够提高模型的泛化能力,使噪声和扰动对分类器影响更小。

核技巧的作用

核函数 k(x,x)k(\mathbf{x}, \mathbf{x}') 定义为特征映射函数 ϕ(x)\phi(\mathbf x) 的内积,即
k(x,x)=ϕ(x)Tϕ(x)k(\mathbf{x}, \mathbf{x}') = \phi(\mathbf{x})^T \phi(\mathbf{x}')

核技巧的核心思想是:无需显式计算高维特征映射 ϕ(x)ϕ(x) 的内积,而是直接用核函数 k(x,x)=ϕ(x)Tϕ(x)k(x,x′)=ϕ(x)^Tϕ(x′) 替代

在SVM的对偶问题中,目标函数决策函数只依赖于样本之间的内积 
ϕ(xn)Tϕ(xm)ϕ(x_n)^Tϕ(x_m)。通过引入核函数,我们可以隐式地将数据映射到高维特征空间,在该空间中实现线性分类,而计算复杂度仍保持为低维空间的规模。

核技巧的具体作用

  1. 将原始线性不可分的数据映射到高维空间,使其变得**线性可分。
  2. 不需要显式计算高维特征向量,所有运算都在核函数的值上进行,计算量可控。
  3. 核技巧可推广到其他算法,不仅限于SVM。
  4. 通过选择不同核函数,可以灵活地适应不同数据分布

简答题3:如何从简单核函数构造新的核函数?请列举至少三种构造方式。

k1(x,x)k_1(\mathbf{x}, \mathbf{x}')k2(x,x)k_2(\mathbf{x}, \mathbf{x}') 是有效核函数,则以下方式构造的新核也是有效核:

  1. 数乘

    k(x,x)=ck1(x,x),c>0k(\mathbf{x}, \mathbf{x}') = c \cdot k_1(\mathbf{x}, \mathbf{x}'), \quad c > 0
  2. 函数加权

    k(x,x)=f(x)k1(x,x)f(x)k(\mathbf{x}, \mathbf{x}') = f(\mathbf{x}) \, k_1(\mathbf{x}, \mathbf{x}') \, f(\mathbf{x}')

    其中 f()f(\cdot) 是任意函数。

  3. 多项式变换

    k(x,x)=q(k1(x,x))k(\mathbf{x}, \mathbf{x}') = q\bigl(k_1(\mathbf{x}, \mathbf{x}')\bigr)

    其中 q()q(\cdot) 是非负系数的多项式。

  4. 指数运算

    k(x,x)=exp(k1(x,x))k(\mathbf{x}, \mathbf{x}') = \exp\bigl(k_1(\mathbf{x}, \mathbf{x}')\bigr)
  5. 加法

    k(x,x)=k1(x,x)+k2(x,x)k(\mathbf{x}, \mathbf{x}') = k_1(\mathbf{x}, \mathbf{x}') + k_2(\mathbf{x}, \mathbf{x}')
  6. 乘法

    k(x,x)=k1(x,x)k2(x,x)k(\mathbf{x}, \mathbf{x}') = k_1(\mathbf{x}, \mathbf{x}') \, k_2(\mathbf{x}, \mathbf{x}')
  7. 核嵌套

    k(x,x)=k3(ϕ(x),ϕ(x))k(\mathbf{x}, \mathbf{x}') = k_3\bigl(\phi(\mathbf{x}), \phi(\mathbf{x}')\bigr)

    其中 ϕ\phi 是任意映射。

  8. 线性变换下的核

    k(x,x)=xTAxk(\mathbf{x}, \mathbf{x}') = \mathbf{x}^\mathsf{T} \mathbf{A} \mathbf{x}'

    其中 A\mathbf{A} 是对称半正定矩阵。

常用例子

  • 多项式核: k(x,x)=(xTx+c)Mk(\mathbf{x}, \mathbf{x}') = (\mathbf{x}^\mathsf{T} \mathbf{x}' + c)^M
  • 高斯核: k(x,x)=exp(xx22σ2)k(\mathbf{x}, \mathbf{x}') = \exp\left(-\frac{\|\mathbf{x} - \mathbf{x}'\|^2}{2\sigma^2}\right)

简述SVM中核函数的选择(以线性核、多项式核、高斯核为例)及其对分类效果的影响。

常见核函数

  • 线性核k(x,x)=xTxk(x,x′)=xTx′。相当于不加非线性映射,适用于线性可分高维稀疏数据(如文本分类),计算最快。

  • 多项式核k(x,x)=(xTx+c)Mk(x,x′)=(xTx′+c)M。可以生成 M 阶多项式特征,能拟合较复杂的非线性边界,但参数 M 过大会导致过拟合。

  • 高斯核(RBF核)k(x,x)=exp(xx′∥2/2σ2)k(x,x′)=exp⁡(−∥x−x′∥2/2σ2)。对应无限维特征空间,能逼近任意复杂形状的决策边界,是最常用的核函数。但 σ 过小会导致过拟合,过大则接近线性核。


机器学习-7-决策树与集成学习

决策树的基本思想是什么?它有哪些主要优点?

决策树是一种分层的决策结构,可用于分类和回归。其基本思想是通过对特征向量进行分层判决,从根结点开始,根据特征的取值沿着树的分支逐步向下,最终到达叶结点得到预测结果。

主要优点:

  • 推断速度快:只需沿着树的分支进行几次比较即可得出结果。
  • 可解释性强:树结构直观,易于理解。
  • 对混合属性数据有效:能同时处理离散特征连续特征
  • 不要求特征独立:与朴素贝叶斯不同,决策树能够处理特征间的相关性。

ID3算法中如何选择最优特征?什么是信息增益?它有什么缺点?

ID3算法使用信息增益作为选择特征的标准。 信息增益定义为:选择特征A后,数据集不纯性下降的量,即

G(D,A)=H(D)H(DA)G(D,A)=H(D)−H(D∣A)

其中 H(D)H(D) 是数据集的经验熵H(DA)H(D∣A) 是给定特征 A 后的条件熵。算法计算每个特征的信息增益,选择增益最大的特征作为当前结点的分裂特征。

缺点:信息增益倾向于选择取值数目多的特征。

例如,若一个特征每个样本取值都不同(如ID编号),按该特征分裂后每个子集只有一个样本,条件熵为0,信息增益最大,但这种划分没有泛化能力,容易过拟合。

C4.5算法对ID3做了哪些改进?

C4.5是ID3的改进版本,主要改进包括:

  1. 使用信息增益率代替信息增益:解决ID3偏向取值多特征的问题。信息增益率 = 信息增益 / 特征自身的熵(分裂信息),对取值多的特征进行惩罚。
  2. 引入剪枝技术:在树构造完成后进行后剪枝,或构造过程中预剪枝,防止过拟合。
  3. 能够处理连续特征:将连续特征离散化,选择最佳切分点。
  4. 能够处理缺失特征:对特征值缺失的样本,可以按概率分配到各分支。

CART算法与ID3/C4.5的主要区别是什么?CART用于分类时使用什么不纯性度量?

CART(Classification and Regression Tree)的主要区别:

  • CART生成的是二叉树,而ID3/C4.5生成多叉树。
  • CART既可以用于分类,也可以用于回归。
  • CART在分类时使用基尼指数(Gini index)作为不纯性度量,而不是信息熵或信息增益率。

随机森林的基本思想是什么?它是如何体现集成学习的思想的?

随机森林的基本思想是:通过集成多棵决策树来提升预测性能

具体包含三个核心要点:

  1. 样本随机:对原始训练集进行多次有放回的自助采样,生成多个不同的训练子集。
  2. 特征随机:在每棵树每个结点分裂时,随机选取一部分特征(而非全部特征)进行最优分裂。
  3. 集成输出:将多棵树的预测结果进行投票(分类)或平均(回归),多个差异化的树共同决策,降低了过拟合风险。 这些体现了集成思想。

AdaBoost算法的基本思想是什么?它是如何体现集成学习的思想的?

AdaBoost(Adaptive Boosting)是一种串行式集成学习方法,通过迭代训练多个弱分类器,并将它们线性组合成一个强分类器。

基本思想

  • 每一轮训练一个弱分类器(如决策树桩),重点关注上一轮被错误分类的样本。
  • 提高错误分类样本的权重,降低正确分类样本的权重,使下一轮分类器更关注“难题”。
  • 最终将所有弱分类器加权投票,权重 αtα_t 与其分类准确率正相关。

多个弱学习器串行接力、不断纠错,共同组合成一个强学习器,这体现了集成思想。


机器学习-12-无监督学习-1

K-means聚类的核心思想是什么?

K-means的核心思想是:将N个样本划分到K个簇中,使得每个样本与其所属簇中心之间的距离平方和最小。它通过迭代“指派样本到最近中心”和“重新计算簇均值”两步来优化目标。 K-means属于硬聚类,因为每个样本被唯一地指派给一个簇,不给出样本属于各簇的概率。

混合高斯模型(GMM)与K-means的主要区别是什么?

  • 输出类型:K-means输出硬簇标签;GMM输出样本属于每个簇的概率(软聚类)。
  • 簇形状:K-means假设簇是球形的(各向同性),对异常值敏感;GMM通过协方差矩阵可适应任意椭圆形状和不同大小。
  • 优势:GMM能处理簇重叠、不同方向伸展的数据,并能给出归属的置信度,适用于更复杂的数据分布。

机器学习-13-无监督学习-2

什么是主成分分析(PCA)?它的主要目标是什么?

主成分分析(PCA)是一种无监督的线性降维方法。它的主要目标是将高维数据变换到低维空间,同时尽可能多地保留原始数据中的信息(即方差)。 具体来说,PCA寻找若干个原始特征的线性组合(称为主成分),使得这些主成分能解释原始数据中绝大部分的信息。

第二主成分与第一主成分之间有什么关系?后续主成分如何构造?

第二主成分是原始特征的另一个线性组合,它满足两个条件:

  • 与第一主成分不相关(即载荷向量正交),
  • 是在与第一主成分不相关的所有线性组合中具有最大的方差。

类似地,后续每个主成分都与之前所有主成分不相关,并且方差依次递减。这样得到的主成分彼此正交,且按方差大小排序。

从几何角度看,PCA的第一主成分有什么直观意义?

从几何角度看,第一主成分对应着p维空间中距离所有样本点最近的一条直线(以欧氏距离平方的均值为衡量标准)。换句话说,将所有样本点投影到这条直线上,投影后的点之间的方差最大,且投影误差的平方和最小。前两个主成分则张成一个平面,该平面是与所有样本点最接近的平面。因此,PCA本质上是寻找能最好地近似原始数据点的低维线性子空间。


机器学习-14-强化学习-1

强化学习的基本要素有哪些?智能体与环境的交互过程是怎样的?

强化学习包含三个基本要素:状态(State)动作(Action)奖励(Reward)。智能体(Agent)在时刻 t 感知环境状态 StS_t​,根据策略 π 选择动作 AtA_t 并执行;环境接收到动作后,给出即时奖励 Rt+1R_{t+1} 并转移到新状态 St+1S_{t+1}​。智能体的目标是最大化长期累积折扣奖励。这一交互过程产生序列 {S0,A0,R1,S1,A1,R2,S_0,A_0,R_1,S_1,A_1,R_2,… }。强化学习的核心在于平衡探索(尝试未知动作)与利用(执行已知高奖励动作)。

什么是马尔可夫决策过程(MDP)?它由哪些元素组成?

马尔可夫决策过程(MDP)是描述强化学习问题的数学模型,它满足马尔可夫性,即下一状态只依赖于当前状态和动作,与历史无关。MDP由一个五元组 (S,A,r,Pssa,γS,A,r,P_{ss′}^{a},γ) 构成:

  • S:状态集合
  • A:动作集合
  • PssaP_{ss′}^{a}:状态转移概率,表示在状态 s 执行动作 a 后转移到 s′ 的概率
  • r(s,a):奖励函数,表示在状态 s 执行动作 a 获得的即时奖励期望
  • γ∈[0,1]:折扣因子,用于平衡当前和未来奖励

贝尔曼期望方程的作用是什么?请用文字描述状态值函数的贝尔曼方程。

贝尔曼期望方程刻画了MDP中不同状态值函数(或动作值函数)之间的递归关系。它将当前状态的值函数与后继状态的值函数联系起来,是求解策略评估的基础。

状态值函数的贝尔曼方程为:
一个状态的值等于从该状态出发,按照策略选择动作后,获得的即时奖励加上折扣后的下一状态值的期望。

蒙特卡洛(MC)强化学习与动态规划(DP)的主要区别是什么?MC适用于什么环境?

  • 是否需要模型:DP需要已知状态转移概率和奖励函数,是“规划”方法;MC不需要模型,直接从与环境交互产生的经验片段中学习。
  • 更新时机:DP通过贝尔曼方程自举(用当前估计值更新自身),每一步都可更新;MC必须等到一个完整的片段结束后,才能根据实际累积奖励 GtG_t​ 更新值函数。
  • 适用环境:MC适用于“分幕式”任务(有明确终止状态),如棋类对局、游戏关卡等。它不要求状态转移概率已知,但必须能采集到完整的交互序列。

Sarsa算法和Q-learning算法分别属于on-policy还是off-policy?

  • Sarsaon-policy 算法,它评估和改进的是同一个策略(通常为 ϵϵ-贪婪策略)。更新时使用的下一个动作 AA′ 是实际将要执行的动作。

  • Q-learningoff-policy 算法,它用一个策略(如 ϵ-贪婪)产生行为,但更新时使用另一个策略(贪婪策略)来构造TD目标。更新公式中,目标使用 maxaQ(S,a)max⁡_{a′} Q(S′,a′),即假设下一步会采取最优动作,而不论实际执行了哪个动作。

因此,Sarsa更加保守(考虑了探索可能导致的惩罚),而Q-learning更激进(总是朝着最优方向更新)。

在强化学习中,“探索”与“利用”分别指什么?为什么需要平衡二者?常用策略是什么?

  • 利用:根据当前已有的经验,选择已知能获得最大奖励的动作,以最大化短期收益。
  • 探索:尝试未充分执行过的动作,以便发现可能带来更高长期收益的新策略。

如果只利用不探索,智能体可能陷入局部最优,错过更好的策略; 如果只探索不利用,则无法积累有效经验。平衡二者是强化学习的关键挑战。

常用策略是 ϵ-贪婪策略:以 1−ϵ 的概率选择当前估计值最大的动作(利用),以 ϵ 的概率随机选择其他动作(探索)。ϵ 通常设置为较小的正数(如0.1),也可随训练逐渐衰减。

马尔可夫过程的两种贪婪策略,以及基本思想?

两种贪婪策略分别是纯贪婪策略ϵ-贪婪策略

  • 纯贪婪策略:在每个状态下始终选择当前动作值函数 Q(s,a)Q(s,a) 最大的动作。其基本思想是“永远只利用已有经验,不探索”,容易陷入局部最优。

  • ϵ-贪婪策略:以 1ϵ1−ϵ 的概率选择当前最优动作(贪婪),以 ϵϵ 的概率随机选择其他动作。其基本思想是“在利用的同时留出小部分机会进行探索”,平衡了利用与探索的关系,是强化学习中最常用的策略。


Thanks for reading!

机器学习-简答

周五 5月 22 2026
6939 字 · 25 分钟

Comments

cover

きゅうくらりん

いよわ/可不