<?xml version="1.0" encoding="UTF-8"?><?xml-stylesheet href="/rss-style.xsl" type="text/xsl"?><rss version="2.0" xmlns:content="http://purl.org/rss/1.0/modules/content/" xmlns:dc="http://purl.org/dc/elements/1.1/" xmlns:atom="http://www.w3.org/2005/Atom" xmlns:version="2.0"><channel><title>MeLssnow</title><description> feedId:172229198194932736+userId:166528077360436224</description><link>https://www.melssnow.cn/</link><language>zh</language><item><title>机器学习-简答</title><link>https://www.melssnow.cn/blog/machine-learning/</link><guid isPermaLink="true">https://www.melssnow.cn/blog/machine-learning/</guid><description>机器学习简答题汇总</description><content:encoded>&lt;blockquote&gt;This rendering was automatically generated by Ryuchan Feed and may have formatting issues. For the best experience, please visit: &lt;a href=&quot;https://www.melssnow.cn/blog/machine-learning/&quot;&gt;https://www.melssnow.cn/blog/machine-learning/&lt;/a&gt;&lt;/blockquote&gt; &lt;h1&gt;机器学习概念&lt;/h1&gt;
&lt;p&gt;机器学习是一种从数据当中发现&lt;strong&gt;复杂规律&lt;/strong&gt;，并且利用规律对&lt;strong&gt;未来时刻&lt;/strong&gt;、&lt;strong&gt;未知状况&lt;/strong&gt;进行&lt;strong&gt;预测和判定&lt;/strong&gt;的方法，是当下被认为最有可能实现人工智能的方法。&lt;/p&gt;
&lt;h1&gt;监督学习和无监督学习的区别？&lt;/h1&gt;
&lt;p&gt;监督学习：指模型在&lt;strong&gt;有标注数据&lt;/strong&gt;的监督下进行训练，目标是学习从&lt;strong&gt;输入特征&lt;/strong&gt; $X$ 到&lt;strong&gt;输出标签&lt;/strong&gt; $Y$ 的&lt;strong&gt;映射关系&lt;/strong&gt;。模型通过对比预测结果与真实标签来调整参数。(如分类和回归)&lt;/p&gt;
&lt;p&gt;无监督学习：指模型在&lt;strong&gt;没有标注数据&lt;/strong&gt;的情况下进行训练、目标是发现数据的&lt;strong&gt;内在结构和模式&lt;/strong&gt;。(如聚类、降维、异常检测)&lt;/p&gt;
&lt;hr&gt;
&lt;p&gt;&lt;code&gt;机器学习-2-统计基础&lt;/code&gt;&lt;/p&gt;
&lt;h1&gt;参数估计的几种方法的区别&lt;/h1&gt;
&lt;h2&gt;蒙特卡罗方法&lt;/h2&gt;
&lt;p&gt;&lt;strong&gt;定义&lt;/strong&gt;：
蒙特卡罗方法是一类基于&lt;strong&gt;随机抽样&lt;/strong&gt;的数值计算方法。
当需要计算某个关于参数 $θ$ 的期望，我们能从&lt;strong&gt;后验分布&lt;/strong&gt;中独立抽取大量样本,然后用样本均值来近似期望值。
&lt;strong&gt;其适用于概率密度函数很复杂，或者不知道的情况。&lt;/strong&gt;&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;特点&lt;/strong&gt;：
优点：简单通用，适用于高维问题。
缺点：收敛速度较慢，且需要有效的抽样方法。&lt;/p&gt;
&lt;h2&gt;最大似然估计&lt;/h2&gt;
&lt;p&gt;&lt;strong&gt;定义&lt;/strong&gt;：最大似然估计是一种频率学派的点估计方法。
在给定&lt;strong&gt;独立同分布&lt;/strong&gt;的样本，其联合概率密度函数为$L(\theta) = \prod_{i=1}^n p(X_i|\theta)$。MLE 寻找使得当前观测样本数据出现概率最大的参数值作为估计值。通常最大化对数似然函数 $\ell(\theta) = \sum_{i=1}^n \log p(X_i|\theta)$。通过求导并令导数为零，解出 $\hat{\theta}_{\text{MLE}}$。
&lt;strong&gt;其需要事先知道随机变量的分布。&lt;/strong&gt;&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;特点&lt;/strong&gt;：
优点：样本量 $n→∞$ 时，估计值依概率收敛到真值。
缺点：完全依赖数据，无先验信息；在&lt;strong&gt;小样本&lt;/strong&gt;下可能偏差较大。&lt;/p&gt;
&lt;h2&gt;贝叶斯框架下的MAP估计&lt;/h2&gt;
&lt;p&gt;&lt;strong&gt;定义&lt;/strong&gt;：最大后验估计是贝叶斯学派的一种点估计方法。
它在给定数据的条件下，选择使后验概率密度 $p(θ∣X)$ 最大的参数值。
&lt;strong&gt;需要对参数有一些先验知识。&lt;/strong&gt;&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;特点&lt;/strong&gt;：
优点：融合了先验知识，可解决MLE的过拟合问题，小样本下更稳健。
缺点：后验分布可能没有简单解析形式，需用数值优化。且先验的选择带有主观性。&lt;/p&gt;
&lt;h1&gt;什么是KL散度，为什么说它是不对称的距离度量？&lt;/h1&gt;
&lt;p&gt;是衡量两计概分布之间差异的一种方法。其并非距离度量，用于度量两概分布 P 和 Q 的差异，表示当用分布 Q 来近似真实分布 P 时，所损失的信息量。&lt;/p&gt;
&lt;hr&gt;
&lt;p&gt;&lt;code&gt;机器学习-3-回归学习&lt;/code&gt;&lt;/p&gt;
&lt;h1&gt;简述线性回归模型与线性基函数回归模型的联系与区别&lt;/h1&gt;
&lt;h2&gt;线性回归：&lt;/h2&gt;
&lt;p&gt;直接用原始特征 $x_1, x_2, ..., x_K$ 的线性组合来拟合，模型为 $\hat{y} = w_0 + w_1 x_1 + ... + w_K x_K$。可以看作是基函数取 $\phi(x) = [1, x_1, x_2, ..., x_K]^T$。&lt;/p&gt;
&lt;h2&gt;线性基函数回归：&lt;/h2&gt;
&lt;p&gt;先将原始特征 x 映射到一组新的&lt;strong&gt;基函数&lt;/strong&gt; $\phi(x) = [\phi_0(x), \phi_1(x), ..., \phi_{M-1}(x)]^T$（比如多项式、高斯、sigmoid等），然后再用这些基函数的线性组合 $\hat{y} = w^T \phi(x)$来拟合。这个模型对参数 w 仍然是线性的，但对输入 x 可以是非线性的。&lt;/p&gt;
&lt;h2&gt;&lt;strong&gt;联系&lt;/strong&gt;：&lt;/h2&gt;
&lt;p&gt;线性基函数回归是线性回归的推广，线性回归可视为线性基函数回归的一个特例。当基函数取 $\phi(x) = \bar{x} = [1, x_1, x_2, ..., x_K]^T$ 时，线性基函数回归退化为标准线性回归。两者都对参数向量 w 是线性的，因此参数估计方法通用。&lt;/p&gt;
&lt;h2&gt;&lt;strong&gt;区别&lt;/strong&gt;：&lt;/h2&gt;
&lt;p&gt;&lt;strong&gt;线性回归&lt;/strong&gt;直接使用原始特征的线性组合，只能&lt;strong&gt;拟合线性关系&lt;/strong&gt;。&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;线性基函数回归&lt;/strong&gt;通过对输入向量进行&lt;strong&gt;非线性映射&lt;/strong&gt;，引入多项式、交叉项等非线性基函数，从而能拟合非线性关系，但模型关于参数仍然是线性的，故仍可用线性方法求解。&lt;/p&gt;
&lt;h1&gt;比较批处理最小二乘法、梯度下降法和随机梯度下降法（SGD）的优缺点&lt;/h1&gt;
&lt;p&gt;&lt;img src=&quot;https://origin.picgo.net/2026/05/22/Pasted-image-20260518190139c56a139c3c172cdd.png&quot; alt=&quot;需要梯度下降算法的原因&quot;&gt;&lt;/p&gt;
&lt;table&gt;
&lt;thead&gt;
&lt;tr&gt;
&lt;th align=&quot;center&quot;&gt;方法&lt;/th&gt;
&lt;th align=&quot;center&quot;&gt;优点&lt;/th&gt;
&lt;th align=&quot;center&quot;&gt;缺点&lt;/th&gt;
&lt;/tr&gt;
&lt;/thead&gt;
&lt;tbody&gt;&lt;tr&gt;
&lt;td align=&quot;center&quot;&gt;&lt;strong&gt;批处理最小二乘&lt;/strong&gt;&lt;/td&gt;
&lt;td align=&quot;center&quot;&gt;一次计算得到精确解&lt;/td&gt;
&lt;td align=&quot;center&quot;&gt;需要求逆矩阵，当特征维数高或样本量大时计算量大&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td align=&quot;center&quot;&gt;&lt;strong&gt;梯度下降（批量GD）&lt;/strong&gt;&lt;/td&gt;
&lt;td align=&quot;center&quot;&gt;避免矩阵求逆，适用于大数据集；&lt;br&gt;实现简单&lt;/td&gt;
&lt;td align=&quot;center&quot;&gt;每次迭代需计算全部样本的梯度，收敛慢；&lt;br&gt;需要手动选择学习率&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td align=&quot;center&quot;&gt;&lt;strong&gt;随机梯度下降（SGD）&lt;/strong&gt;&lt;/td&gt;
&lt;td align=&quot;center&quot;&gt;每次仅用一个样本更新参数，计算快，可在线学习；&lt;br&gt;容易跳出局部最优&lt;/td&gt;
&lt;td align=&quot;center&quot;&gt;梯度估计噪声大；&lt;br&gt;最终解精度不如批处理&lt;/td&gt;
&lt;/tr&gt;
&lt;/tbody&gt;&lt;/table&gt;
&lt;h2&gt;批量梯度下降&lt;/h2&gt;
&lt;p&gt;在每次迭代更新参数时，都需要⽤到&lt;strong&gt;全部的训练样本&lt;/strong&gt;数据来计算⽬标函数的梯度。&lt;/p&gt;
&lt;h2&gt;随机梯度下降&lt;/h2&gt;
&lt;p&gt;在每次迭代更新参数时，从训练样本集中&lt;strong&gt;随机选取⼀个训练样本&lt;/strong&gt;来计算⽬标函数的梯度。&lt;/p&gt;
&lt;h2&gt;⼩批量梯度下降&lt;/h2&gt;
&lt;p&gt;在每次迭代更新参数时，选取训练样本集中&lt;strong&gt;给定数量&lt;/strong&gt;的训练样本来计算⽬标函数的梯度。&lt;/p&gt;
&lt;h1&gt;什么是正则化线性回归？岭回归(L2)与套索回归（L1）有何区别？&lt;/h1&gt;
&lt;p&gt;&lt;strong&gt;正则化线性回归&lt;/strong&gt;：在原始&lt;strong&gt;损失函数&lt;/strong&gt;基础上添加&lt;strong&gt;惩罚项&lt;/strong&gt;，用于控制模型&lt;strong&gt;复杂度&lt;/strong&gt;、防止过拟合。&lt;/p&gt;
&lt;p&gt;L1正则化在损失函数中加入&lt;strong&gt;权值向量&lt;/strong&gt;$w$的&lt;strong&gt;绝对值之和&lt;/strong&gt;。
L2正则化在损失函数中加入&lt;strong&gt;权值向量&lt;/strong&gt;$w$的&lt;strong&gt;平方和&lt;/strong&gt;。&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;区别&lt;/strong&gt;：
L1功能是使&lt;strong&gt;权重稀疏&lt;/strong&gt;，有利于&lt;strong&gt;高维特征选择&lt;/strong&gt;。
L2功能是使&lt;strong&gt;权重平滑&lt;/strong&gt;但不为零；&lt;/p&gt;
&lt;h1&gt;过拟合和欠拟合如何产生？如何缓解？&lt;/h1&gt;
&lt;h2&gt;过拟合：&lt;/h2&gt;
&lt;p&gt;模型在&lt;strong&gt;训练样本集&lt;/strong&gt;上表现很好，但在&lt;strong&gt;测试样本集&lt;/strong&gt;上表现不佳，过度记忆了&lt;strong&gt;训练数据&lt;/strong&gt;的噪声和细节，模型&lt;strong&gt;泛化能力&lt;/strong&gt;差的现象。&lt;/p&gt;
&lt;h3&gt;原因：&lt;/h3&gt;
&lt;p&gt;训练样本数量过少；特征向量维数过高；模型过于复杂。&lt;/p&gt;
&lt;h2&gt;欠拟合：&lt;/h2&gt;
&lt;p&gt;模型在训练数据和测试数据上都表现得非常差。意味着&lt;strong&gt;模型过于简单&lt;/strong&gt;，无法捕捉数据中的&lt;strong&gt;有效模式&lt;/strong&gt;。&lt;/p&gt;
&lt;h3&gt;原因：&lt;/h3&gt;
&lt;p&gt;模型的学习能力不足；现有的数据特征与其对应的标签之间的相关性不强。 &lt;/p&gt;
&lt;p&gt;方法：&lt;/p&gt;
&lt;ol&gt;
&lt;li&gt;增加训练数据集：更好训练数据的总体模式。&lt;/li&gt;
&lt;li&gt;正则化：限制模型的复杂度。&lt;/li&gt;
&lt;li&gt;简化模型：选择简单模型或减少输入参数。&lt;/li&gt;
&lt;li&gt;提前停止：集成方法。&lt;/li&gt;
&lt;/ol&gt;
&lt;hr&gt;
&lt;p&gt;&lt;code&gt;机器学习-4-分类学习&lt;/code&gt;&lt;/p&gt;
&lt;h1&gt;逻辑回归和线性回归的联系和区别&lt;/h1&gt;
&lt;p&gt;线性回归预测&lt;strong&gt;连续变量&lt;/strong&gt;，&lt;strong&gt;输出连续值&lt;/strong&gt;,损失函数使用&lt;strong&gt;最小二乘法&lt;/strong&gt;来最小化预测值和实际值的误差。&lt;/p&gt;
&lt;p&gt;逻辑回归预测&lt;strong&gt;分类变量&lt;/strong&gt;（一般为二分类），输出一个&lt;strong&gt;概率值&lt;/strong&gt;（0,1之间）&lt;/p&gt;
&lt;p&gt;联系：&lt;/p&gt;
&lt;ol&gt;
&lt;li&gt;二者都是&lt;strong&gt;线性模型&lt;/strong&gt;，它们都假设&lt;strong&gt;输出变量&lt;/strong&gt;是&lt;strong&gt;输入变量&lt;/strong&gt;的线性组合。&lt;/li&gt;
&lt;li&gt;二者都可以处理连续和离散的输入特征。&lt;/li&gt;
&lt;li&gt;二者的参数估计都可以通过&lt;strong&gt;最大似然估计&lt;/strong&gt;或&lt;strong&gt;梯度下降&lt;/strong&gt;来实现。&lt;/li&gt;
&lt;/ol&gt;
&lt;h1&gt;为什么说逻辑回归比最小二乘分类（LS分类）对异常点更鲁棒？&lt;/h1&gt;
&lt;p&gt;最小二乘分类（直接用线性回归拟合类标签0/1）对异常点非常敏感，因为它最小化均方误差，异常点的误差会平方放大，从而严重拉偏决策边界。&lt;/p&gt;
&lt;p&gt;而逻辑回归使用交叉熵损失，且输出通过Sigmoid函数压缩在(0,1)之间，对远离决策边界的极端点给出的梯度较小，因此受异常点影响较小。&lt;/p&gt;
&lt;h1&gt;朴素贝叶斯（Naïve Bayes）分类器为什么称为“朴素”？它的基本方法是什么？如何学习参数？&lt;/h1&gt;
&lt;p&gt;&lt;strong&gt;“朴素”含义&lt;/strong&gt;：在给定类别标签的条件下，各个特征之间&lt;strong&gt;相互独立&lt;/strong&gt;,忽略了真实数据中特征之间可能的相关性。&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;基本方法&lt;/strong&gt;：每个特征服从类别条件独立分布。对于给定的样本，朴素贝叶斯分类器计算每个类别的后验概率，选择具有最大后验概率的类别作为预测结果。后验概率的计算利用了贝叶斯定理，将先验概率和样本特征的条件概率相结合。&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;参数学习&lt;/strong&gt;：采用最大似然估计。&lt;/p&gt;
&lt;h1&gt;分类模型的区别&lt;/h1&gt;
&lt;p&gt;&lt;strong&gt;判别函数模型&lt;/strong&gt;、&lt;strong&gt;概率判别模型&lt;/strong&gt;、&lt;strong&gt;生成模型&lt;/strong&gt;。&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;判别（判决）函数模型&lt;/strong&gt;直接学习决策边界，对后验概率 $p(y∣x)$ 建模，输出类别标签，数据效率更高，对异常点处理能力弱，常用于分类，判决等&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;生成模型&lt;/strong&gt;先学习联合概率 $p(x ∣ y)$ 和 $p(y)$，&lt;strong&gt;学习数据生成规律&lt;/strong&gt;，再由贝叶斯公式得到&lt;strong&gt;后验概率&lt;/strong&gt;，可通过分布检测异常，典型代表是朴素贝叶斯。
其核心假设是“给定类别下特征相互独立”，因此当特征相关时效果差；优点是能&lt;strong&gt;生成新样本&lt;/strong&gt;、&lt;strong&gt;处理缺失数据&lt;/strong&gt;。&lt;/p&gt;
&lt;p&gt;&lt;img src=&quot;https://origin.picgo.net/2026/05/22/Pasted-image-20260515165831b9f49a55863caabc.png&quot; alt=&quot;判别模型和生成模型的区别&quot;&gt;&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;逻辑回归与朴素贝叶斯对比&lt;/strong&gt;：逻辑回归不要求特征独立，能自动学习特征间关系；朴素贝叶斯假设强独立，计算快但易因相关特征而失真。逻辑回归用梯度下降等优化，朴素贝叶斯直接数数得到参数。&lt;/p&gt;
&lt;hr&gt;
&lt;p&gt;&lt;code&gt;机器学习-5-流程和评估&lt;/code&gt;&lt;/p&gt;
&lt;h1&gt;简述训练集、验证集、测试集各自的用途。当只有一组带标签数据时，如何划分？&lt;/h1&gt;
&lt;ul&gt;
&lt;li&gt;&lt;strong&gt;训练集&lt;/strong&gt;：用于训练模型参数（如线性回归的权重）。&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;验证集&lt;/strong&gt;：用于选择超参数和模型选择，不参与参数训练。&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;测试集&lt;/strong&gt;：用于评估最终模型的&lt;strong&gt;泛化能力&lt;/strong&gt;，只能使用一次。&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;&lt;strong&gt;划分方法&lt;/strong&gt;：将数据集按比例（如80%训练 + 20%验证）划分，先训练集训练，验证集选超参数，再用独立测试集测试。若没有独立测试集，可用交叉验证。&lt;/p&gt;
&lt;h1&gt;什么是K折交叉验证？什么是留一验证（LOOCV）？&lt;/h1&gt;
&lt;p&gt;&lt;strong&gt;K折交叉验证&lt;/strong&gt;：将训练集随机分成K份（K folds），依次取其中一份作为验证集，其余$K-1$份作为训练集，训练并验证一次。重复K次，取K次验证作为最终验证误差。常见K=5或10。&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;留一验证（LOOCV）&lt;/strong&gt;：K折交叉验证的特例，令 $K=N$（N为样本数），每次只留一个样本作为验证集，其余$N-1$个样本训练。计算量大，但适合小样本数据集。&lt;/p&gt;
&lt;h1&gt;机器学习模型的泛化误差可以分解为哪三个部分？分别解释其含义。&lt;/h1&gt;
&lt;p&gt;泛化误差可分解为三个部分：
$$
\text{泛化误差} = \text{偏差}^2 + \text{方差} + \text{固有误差}
$$&lt;/p&gt;
&lt;ol&gt;
&lt;li&gt;&lt;strong&gt;偏差（Bias）&lt;/strong&gt;&lt;br&gt;模型预测值与真实值之间的差异。反映模型本身的拟合能力。模型越简单，偏差越大（欠拟合）。&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;方差（Variance）&lt;/strong&gt;&lt;br&gt;不同训练集上训练的模型预测值之间的变动程度。反映模型对训练数据变化的敏感度。模型越复杂，方差越大（过拟合）。&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;固有误差（Irreducible Error）&lt;/strong&gt;&lt;br&gt;数据本身存在的噪声，无法通过任何模型消除。&lt;/li&gt;
&lt;/ol&gt;
&lt;p&gt;偏差和方差之间存在权衡（trade-off）。总泛化误差呈U形曲线，模型过简单或过复杂都会导致高误差。&lt;/p&gt;
&lt;h1&gt;请准确写出精度，查全率是如何定义的？二者之间是什么关系？&lt;/h1&gt;
&lt;p&gt;精度：在所有被预测为正的样本中，有多少是真正的正例&lt;/p&gt;
&lt;p&gt;$\text{precision} = \frac{\text{TP}}{\text{TP} + \text{FP}}$&lt;/p&gt;
&lt;p&gt;查全率：在所有实际为正的样本中，有多少被正确识别为正类&lt;/p&gt;
&lt;p&gt;$\text{Recall} = \frac{\text{TP}}{\text{TP} + \text{FN}}$&lt;/p&gt;
&lt;table&gt;
&lt;thead&gt;
&lt;tr&gt;
&lt;th&gt;真实\预测&lt;/th&gt;
&lt;th&gt;正&lt;/th&gt;
&lt;th&gt;负&lt;/th&gt;
&lt;/tr&gt;
&lt;/thead&gt;
&lt;tbody&gt;&lt;tr&gt;
&lt;td&gt;正&lt;/td&gt;
&lt;td&gt;TP&lt;/td&gt;
&lt;td&gt;FN&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;负&lt;/td&gt;
&lt;td&gt;FP&lt;/td&gt;
&lt;td&gt;TN&lt;/td&gt;
&lt;/tr&gt;
&lt;/tbody&gt;&lt;/table&gt;
&lt;p&gt;注：高精度、低查全率；高查全率、低精度。&lt;/p&gt;
&lt;h1&gt;什么是ROC曲线？AUC值有什么意义？&lt;/h1&gt;
&lt;p&gt;ROC曲线（受试者工作特征曲线）以&lt;strong&gt;真正率&lt;/strong&gt;为纵轴，以&lt;strong&gt;假正率&lt;/strong&gt;为横轴，通过改变&lt;strong&gt;分类阈值&lt;/strong&gt;绘制出的曲线。&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;真正例率：$TPR = \frac{TP}{TP + FN}$&lt;/li&gt;
&lt;li&gt;假正例率：$FPR = \frac{FP}{TN + FP}$&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;AUC是ROC曲线下的面积，取值范围在 $0.5$ 到 $1$ 之间。AUC越接近 $1$，分类器性能越好；$AUC = 0.5$ 表示分类器相当于随机猜测。AUC可以综合评价分类器在不同阈值下的表现，且不受样本不平衡的影响。&lt;/p&gt;
&lt;hr&gt;
&lt;p&gt;&lt;code&gt;机器学习-6-核与SVM&lt;/code&gt;&lt;/p&gt;
&lt;h1&gt;支持向量机的思想和对核技巧的作用&lt;/h1&gt;
&lt;p&gt;支持向量机（SVM）是一种&lt;strong&gt;二分类模型&lt;/strong&gt;，其核心思想是：在特征空间中寻找一个&lt;strong&gt;分类超平面&lt;/strong&gt;，使得两类样本不仅被&lt;strong&gt;正确分开&lt;/strong&gt;，而且离超平面最近的样本到超平面的&lt;strong&gt;距离最大化&lt;/strong&gt;。
这一“最大间隔”原则能够提高模型的&lt;strong&gt;泛化能力&lt;/strong&gt;，使噪声和扰动对分类器影响更小。&lt;/p&gt;
&lt;h2&gt;核技巧的作用&lt;/h2&gt;
&lt;p&gt;核函数 $k(\mathbf{x}, \mathbf{x}&amp;#39;)$ 定义为特征映射函数 $\phi(\mathbf x)$ 的内积，即&lt;br&gt;$k(\mathbf{x}, \mathbf{x}&amp;#39;) = \phi(\mathbf{x})^T \phi(\mathbf{x}&amp;#39;)$&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;核技巧&lt;/strong&gt;的核心思想是：&lt;strong&gt;无需显式计算高维特征映射 $ϕ(x)$ 的内积，而是直接用核函数 $k(x,x′)=ϕ(x)^Tϕ(x′)$ 替代&lt;/strong&gt;。&lt;/p&gt;
&lt;p&gt;在SVM的对偶问题中，&lt;strong&gt;目标函数&lt;/strong&gt;和&lt;strong&gt;决策函数&lt;/strong&gt;只依赖于样本之间的&lt;strong&gt;内积&lt;/strong&gt; &lt;br&gt;$ϕ(x_n)^Tϕ(x_m)$。通过引入核函数，我们可以&lt;strong&gt;隐式地将数据映射到高维特征空间&lt;/strong&gt;，在该空间中实现&lt;strong&gt;线性分类&lt;/strong&gt;，而&lt;strong&gt;计算复杂度&lt;/strong&gt;仍保持为低维空间的规模。&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;核技巧的具体作用&lt;/strong&gt;：&lt;/p&gt;
&lt;ol&gt;
&lt;li&gt;将原始线性不可分的数据映射到&lt;strong&gt;高维空间&lt;/strong&gt;，使其变得**线性可分。&lt;/li&gt;
&lt;li&gt;不需要显式计算高维特征向量，所有运算都在核函数的值上进行，计算量可控。&lt;/li&gt;
&lt;li&gt;核技巧可推广到&lt;strong&gt;其他算法&lt;/strong&gt;，不仅限于SVM。&lt;/li&gt;
&lt;li&gt;通过选择不同核函数，可以灵活地适应&lt;strong&gt;不同数据分布&lt;/strong&gt;。&lt;/li&gt;
&lt;/ol&gt;
&lt;h1&gt;简答题3：如何从简单核函数构造新的核函数？请列举至少三种构造方式。&lt;/h1&gt;
&lt;p&gt;设 $k_1(\mathbf{x}, \mathbf{x}&amp;#39;)$ 和 $k_2(\mathbf{x}, \mathbf{x}&amp;#39;)$ 是有效核函数，则以下方式构造的新核也是有效核：&lt;/p&gt;
&lt;ol&gt;
&lt;li&gt;&lt;p&gt;&lt;strong&gt;数乘&lt;/strong&gt;：
$$
k(\mathbf{x}, \mathbf{x}&amp;#39;) = c \cdot k_1(\mathbf{x}, \mathbf{x}&amp;#39;), \quad c &amp;gt; 0
$$&lt;/p&gt;
&lt;/li&gt;
&lt;li&gt;&lt;p&gt;&lt;strong&gt;函数加权&lt;/strong&gt;：
$$
k(\mathbf{x}, \mathbf{x}&amp;#39;) = f(\mathbf{x}) , k_1(\mathbf{x}, \mathbf{x}&amp;#39;) , f(\mathbf{x}&amp;#39;)
$$
其中 $f(\cdot)$ 是任意函数。&lt;/p&gt;
&lt;/li&gt;
&lt;li&gt;&lt;p&gt;&lt;strong&gt;多项式变换&lt;/strong&gt;：
$$
k(\mathbf{x}, \mathbf{x}&amp;#39;) = q\bigl(k_1(\mathbf{x}, \mathbf{x}&amp;#39;)\bigr)
$$
其中 $q(\cdot)$ 是非负系数的多项式。&lt;/p&gt;
&lt;/li&gt;
&lt;li&gt;&lt;p&gt;&lt;strong&gt;指数运算&lt;/strong&gt;：
$$
k(\mathbf{x}, \mathbf{x}&amp;#39;) = \exp\bigl(k_1(\mathbf{x}, \mathbf{x}&amp;#39;)\bigr)
$$&lt;/p&gt;
&lt;/li&gt;
&lt;li&gt;&lt;p&gt;&lt;strong&gt;加法&lt;/strong&gt;：
$$
k(\mathbf{x}, \mathbf{x}&amp;#39;) = k_1(\mathbf{x}, \mathbf{x}&amp;#39;) + k_2(\mathbf{x}, \mathbf{x}&amp;#39;)
$$&lt;/p&gt;
&lt;/li&gt;
&lt;li&gt;&lt;p&gt;&lt;strong&gt;乘法&lt;/strong&gt;：
$$
k(\mathbf{x}, \mathbf{x}&amp;#39;) = k_1(\mathbf{x}, \mathbf{x}&amp;#39;) , k_2(\mathbf{x}, \mathbf{x}&amp;#39;)
$$&lt;/p&gt;
&lt;/li&gt;
&lt;li&gt;&lt;p&gt;&lt;strong&gt;核嵌套&lt;/strong&gt;：
$$
k(\mathbf{x}, \mathbf{x}&amp;#39;) = k_3\bigl(\phi(\mathbf{x}), \phi(\mathbf{x}&amp;#39;)\bigr)
$$
其中 $\phi$ 是任意映射。&lt;/p&gt;
&lt;/li&gt;
&lt;li&gt;&lt;p&gt;&lt;strong&gt;线性变换下的核&lt;/strong&gt;：
$$
k(\mathbf{x}, \mathbf{x}&amp;#39;) = \mathbf{x}^\mathsf{T} \mathbf{A} \mathbf{x}&amp;#39;
$$
其中 $\mathbf{A}$ 是对称半正定矩阵。&lt;/p&gt;
&lt;/li&gt;
&lt;/ol&gt;
&lt;p&gt;&lt;strong&gt;常用例子&lt;/strong&gt;：  &lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;多项式核：
$$
k(\mathbf{x}, \mathbf{x}&amp;#39;) = (\mathbf{x}^\mathsf{T} \mathbf{x}&amp;#39; + c)^M
$$&lt;/li&gt;
&lt;li&gt;高斯核：
$$
k(\mathbf{x}, \mathbf{x}&amp;#39;) = \exp\left(-\frac{|\mathbf{x} - \mathbf{x}&amp;#39;|^2}{2\sigma^2}\right)
$$&lt;/li&gt;
&lt;/ul&gt;
&lt;h2&gt;简述SVM中核函数的选择（以线性核、多项式核、高斯核为例）及其对分类效果的影响。&lt;/h2&gt;
&lt;p&gt;&lt;strong&gt;常见核函数&lt;/strong&gt;：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;p&gt;&lt;strong&gt;线性核&lt;/strong&gt;：$k(x,x′)=xTx′$。相当于不加非线性映射，适用于&lt;strong&gt;线性可分&lt;/strong&gt;或&lt;strong&gt;高维稀疏&lt;/strong&gt;数据（如文本分类），计算最快。&lt;/p&gt;
&lt;/li&gt;
&lt;li&gt;&lt;p&gt;&lt;strong&gt;多项式核&lt;/strong&gt;：$k(x,x′)=(xTx′+c)M$。可以生成 M 阶多项式特征，能拟合较复杂的&lt;strong&gt;非线性边界&lt;/strong&gt;，但参数 M 过大会导致过拟合。&lt;/p&gt;
&lt;/li&gt;
&lt;li&gt;&lt;p&gt;&lt;strong&gt;高斯核（RBF核）&lt;/strong&gt;：$k(x,x′)=exp⁡(−∥x−x′∥2/2σ2)$。对应&lt;strong&gt;无限维&lt;/strong&gt;特征空间，能逼近任意复杂形状的决策边界，&lt;strong&gt;是最常用的核函数&lt;/strong&gt;。但 σ 过小会导致过拟合，过大则接近线性核。&lt;/p&gt;
&lt;/li&gt;
&lt;/ul&gt;
&lt;hr&gt;
&lt;p&gt;&lt;code&gt;机器学习-7-决策树与集成学习&lt;/code&gt;&lt;/p&gt;
&lt;h1&gt;决策树的基本思想是什么？它有哪些主要优点？&lt;/h1&gt;
&lt;p&gt;决策树是一种&lt;strong&gt;分层&lt;/strong&gt;的决策结构，可用于&lt;strong&gt;分类和回归&lt;/strong&gt;。其基本思想是通过对特征向量进行分层判决，从&lt;strong&gt;根结点&lt;/strong&gt;开始，根据特征的取值沿着树的分支逐步向下，最终到达叶结点得到预测结果。&lt;/p&gt;
&lt;p&gt;主要优点：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;strong&gt;推断速度快&lt;/strong&gt;：只需沿着树的分支进行几次比较即可得出结果。&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;可解释性强&lt;/strong&gt;：树结构直观，易于理解。&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;对混合属性数据有效&lt;/strong&gt;：能同时处理&lt;strong&gt;离散特征&lt;/strong&gt;和&lt;strong&gt;连续特征&lt;/strong&gt;。&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;不要求特征独立&lt;/strong&gt;：与朴素贝叶斯不同，决策树能够处理特征间的相关性。&lt;/li&gt;
&lt;/ul&gt;
&lt;h1&gt;ID3算法中如何选择最优特征？什么是信息增益？它有什么缺点？&lt;/h1&gt;
&lt;p&gt;ID3算法使用&lt;strong&gt;信息增益&lt;/strong&gt;作为选择特征的标准。
信息增益定义为：选择特征A后，&lt;strong&gt;数据集不纯性&lt;/strong&gt;下降的量，即&lt;/p&gt;
&lt;p&gt;$$G(D,A)=H(D)−H(D∣A)$$&lt;/p&gt;
&lt;p&gt;其中 $H(D)$ 是数据集的&lt;strong&gt;经验熵&lt;/strong&gt;，$H(D∣A)$ 是给定特征 A 后的条件熵。算法计算每个特征的信息增益，选择增益最大的特征作为当前结点的分裂特征。&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;缺点&lt;/strong&gt;：信息增益倾向于选择&lt;strong&gt;取值数目多&lt;/strong&gt;的特征。&lt;/p&gt;
&lt;p&gt;例如，若一个特征每个样本取值都不同（如ID编号），按该特征分裂后每个子集只有一个样本，条件熵为0，信息增益最大，但这种划分没有泛化能力，容易过拟合。&lt;/p&gt;
&lt;h1&gt;C4.5算法对ID3做了哪些改进？&lt;/h1&gt;
&lt;p&gt;C4.5是ID3的改进版本，主要改进包括：&lt;/p&gt;
&lt;ol&gt;
&lt;li&gt;&lt;strong&gt;使用信息增益率代替信息增益&lt;/strong&gt;：解决ID3偏向取值多特征的问题。信息增益率 = 信息增益 / 特征自身的熵（分裂信息），对取值多的特征进行惩罚。&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;引入剪枝技术&lt;/strong&gt;：在树构造完成后进行&lt;strong&gt;后剪枝&lt;/strong&gt;，或构造过程中&lt;strong&gt;预剪枝&lt;/strong&gt;，防止过拟合。&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;能够处理连续特征&lt;/strong&gt;：将连续特征&lt;strong&gt;离散化&lt;/strong&gt;，选择最佳切分点。&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;能够处理缺失特征&lt;/strong&gt;：对特征值缺失的样本，可以按概率分配到各分支。&lt;/li&gt;
&lt;/ol&gt;
&lt;h1&gt;CART算法与ID3/C4.5的主要区别是什么？CART用于分类时使用什么不纯性度量？&lt;/h1&gt;
&lt;p&gt;CART（Classification and Regression Tree）的主要区别：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;CART生成的是&lt;strong&gt;二叉树&lt;/strong&gt;，而ID3/C4.5生成多叉树。&lt;/li&gt;
&lt;li&gt;CART既可以用于分类，也可以用于回归。&lt;/li&gt;
&lt;li&gt;CART在分类时使用&lt;strong&gt;基尼指数&lt;/strong&gt;（Gini index）作为&lt;strong&gt;不纯性&lt;/strong&gt;度量，而不是信息熵或信息增益率。&lt;/li&gt;
&lt;/ul&gt;
&lt;h1&gt;随机森林的基本思想是什么？它是如何体现集成学习的思想的？&lt;/h1&gt;
&lt;p&gt;随机森林的基本思想是：&lt;strong&gt;通过集成多棵决策树来提升预测性能&lt;/strong&gt;。&lt;/p&gt;
&lt;p&gt;具体包含三个核心要点：&lt;/p&gt;
&lt;ol&gt;
&lt;li&gt;&lt;strong&gt;样本随机&lt;/strong&gt;：对原始训练集进行多次有放回的&lt;strong&gt;自助采样&lt;/strong&gt;，生成多个不同的训练子集。&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;特征随机&lt;/strong&gt;：在每棵树每个结点分裂时，随机选取一部分特征（而非全部特征）进行最优分裂。&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;集成输出&lt;/strong&gt;：将多棵树的预测结果进行投票（分类）或平均（回归）,多个差异化的树共同决策，降低了过拟合风险。
这些体现了集成思想。&lt;/li&gt;
&lt;/ol&gt;
&lt;h1&gt;AdaBoost算法的基本思想是什么？它是如何体现集成学习的思想的？&lt;/h1&gt;
&lt;p&gt;AdaBoost（Adaptive Boosting）是一种串行式集成学习方法，通过迭代训练多个弱分类器，并将它们线性组合成一个强分类器。&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;基本思想&lt;/strong&gt;：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;每一轮训练一个弱分类器（如决策树桩），重点关注上一轮被错误分类的样本。&lt;/li&gt;
&lt;li&gt;提高错误分类样本的权重，降低正确分类样本的权重，使下一轮分类器更关注“难题”。&lt;/li&gt;
&lt;li&gt;最终将所有弱分类器加权投票，权重 $α_t$ 与其分类准确率正相关。&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;多个弱学习器串行接力、不断纠错，共同组合成一个强学习器，这体现了集成思想。&lt;/p&gt;
&lt;hr&gt;
&lt;p&gt;&lt;code&gt;机器学习-12-无监督学习-1&lt;/code&gt;&lt;/p&gt;
&lt;h1&gt;K-means聚类的核心思想是什么？&lt;/h1&gt;
&lt;p&gt;K-means的核心思想是：将N个样本划分到K个簇中，使得每个样本与其所属簇中心之间的距离平方和最小。它通过迭代“指派样本到最近中心”和“重新计算簇均值”两步来优化目标。
K-means属于&lt;strong&gt;硬聚类&lt;/strong&gt;，因为每个样本被唯一地指派给一个簇，不给出样本属于各簇的概率。&lt;/p&gt;
&lt;h1&gt;混合高斯模型（GMM）与K-means的主要区别是什么？&lt;/h1&gt;
&lt;ul&gt;
&lt;li&gt;&lt;strong&gt;输出类型&lt;/strong&gt;：K-means输出硬簇标签；GMM输出样本属于每个簇的概率（软聚类）。&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;簇形状&lt;/strong&gt;：K-means假设簇是球形的（各向同性），对异常值敏感；GMM通过协方差矩阵可适应任意椭圆形状和不同大小。&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;优势&lt;/strong&gt;：GMM能处理簇重叠、不同方向伸展的数据，并能给出归属的置信度，适用于更复杂的数据分布。&lt;/li&gt;
&lt;/ul&gt;
&lt;hr&gt;
&lt;p&gt;&lt;code&gt;机器学习-13-无监督学习-2&lt;/code&gt;&lt;/p&gt;
&lt;h1&gt;什么是主成分分析（PCA）？它的主要目标是什么？&lt;/h1&gt;
&lt;p&gt;主成分分析（PCA）是一种无监督的线性降维方法。它的主要目标是将高维数据变换到低维空间，同时尽可能多地保留原始数据中的信息（即方差）。
具体来说，PCA寻找若干个原始特征的线性组合（称为主成分），使得这些主成分能解释原始数据中绝大部分的信息。&lt;/p&gt;
&lt;h1&gt;第二主成分与第一主成分之间有什么关系？后续主成分如何构造？&lt;/h1&gt;
&lt;p&gt;第二主成分是原始特征的另一个线性组合，它满足两个条件：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;与第一主成分不相关（即载荷向量正交），&lt;/li&gt;
&lt;li&gt;是在与第一主成分不相关的所有线性组合中具有最大的方差。&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;类似地，后续每个主成分都与之前所有主成分不相关，并且方差依次递减。这样得到的主成分彼此正交，且按方差大小排序。&lt;/p&gt;
&lt;h1&gt;从几何角度看，PCA的第一主成分有什么直观意义？&lt;/h1&gt;
&lt;p&gt;从几何角度看，第一主成分对应着p维空间中距离所有样本点最近的一条直线（以欧氏距离平方的均值为衡量标准）。换句话说，将所有样本点投影到这条直线上，投影后的点之间的方差最大，且投影误差的平方和最小。前两个主成分则张成一个平面，该平面是与所有样本点最接近的平面。因此，PCA本质上是寻找能最好地近似原始数据点的低维线性子空间。&lt;/p&gt;
&lt;hr&gt;
&lt;p&gt;&lt;code&gt;机器学习-14-强化学习-1&lt;/code&gt;&lt;/p&gt;
&lt;h1&gt;强化学习的基本要素有哪些？智能体与环境的交互过程是怎样的？&lt;/h1&gt;
&lt;p&gt;强化学习包含三个基本要素：&lt;strong&gt;状态（State）&lt;/strong&gt;、&lt;strong&gt;动作（Action）&lt;/strong&gt;、&lt;strong&gt;奖励（Reward）&lt;/strong&gt;。智能体（Agent）在时刻 t 感知环境状态 $S_t$​，根据策略 π 选择动作 $A_t$ 并执行；环境接收到动作后，给出即时奖励 $R_{t+1}$ 并转移到新状态 $S_{t+1}$​。智能体的目标是最大化长期累积折扣奖励。这一交互过程产生序列 {$S_0,A_0,R_1,S_1,A_1,R_2,…$ }。强化学习的核心在于平衡&lt;strong&gt;探索&lt;/strong&gt;（尝试未知动作）与&lt;strong&gt;利用&lt;/strong&gt;（执行已知高奖励动作）。&lt;/p&gt;
&lt;h1&gt;什么是马尔可夫决策过程（MDP）？它由哪些元素组成？&lt;/h1&gt;
&lt;p&gt;马尔可夫决策过程（MDP）是描述强化学习问题的数学模型，它满足马尔可夫性，即下一状态只依赖于当前状态和动作，与历史无关。MDP由一个五元组 ($S,A,r,P_{ss′}^{a},γ$) 构成：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;S：状态集合&lt;/li&gt;
&lt;li&gt;A：动作集合&lt;/li&gt;
&lt;li&gt;$P_{ss′}^{a}$：状态转移概率，表示在状态 s 执行动作 a 后转移到 s′ 的概率&lt;/li&gt;
&lt;li&gt;r(s,a)：奖励函数，表示在状态 s 执行动作 a 获得的即时奖励期望&lt;/li&gt;
&lt;li&gt;γ∈[0,1]：折扣因子，用于平衡当前和未来奖励&lt;/li&gt;
&lt;/ul&gt;
&lt;h1&gt;贝尔曼期望方程的作用是什么？请用文字描述状态值函数的贝尔曼方程。&lt;/h1&gt;
&lt;p&gt;贝尔曼期望方程刻画了MDP中不同状态值函数（或动作值函数）之间的递归关系。它将当前状态的值函数与后继状态的值函数联系起来，是求解策略评估的基础。&lt;/p&gt;
&lt;p&gt;状态值函数的贝尔曼方程为：&lt;br&gt;一个状态的值等于从该状态出发，按照策略选择动作后，获得的即时奖励加上折扣后的下一状态值的期望。&lt;/p&gt;
&lt;h1&gt;蒙特卡洛（MC）强化学习与动态规划（DP）的主要区别是什么？MC适用于什么环境？&lt;/h1&gt;
&lt;ul&gt;
&lt;li&gt;&lt;strong&gt;是否需要模型&lt;/strong&gt;：DP需要已知状态转移概率和奖励函数，是“规划”方法；MC不需要模型，直接从与环境交互产生的经验片段中学习。&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;更新时机&lt;/strong&gt;：DP通过贝尔曼方程自举（用当前估计值更新自身），每一步都可更新；MC必须等到一个完整的片段结束后，才能根据实际累积奖励 $G_t$​ 更新值函数。&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;适用环境&lt;/strong&gt;：MC适用于“分幕式”任务（有明确终止状态），如棋类对局、游戏关卡等。它不要求状态转移概率已知，但必须能采集到完整的交互序列。&lt;/li&gt;
&lt;/ul&gt;
&lt;h1&gt;Sarsa算法和Q-learning算法分别属于on-policy还是off-policy？&lt;/h1&gt;
&lt;ul&gt;
&lt;li&gt;&lt;p&gt;&lt;strong&gt;Sarsa&lt;/strong&gt; 是 &lt;strong&gt;on-policy&lt;/strong&gt; 算法，它评估和改进的是同一个策略（通常为 $ϵ$-贪婪策略）。更新时使用的下一个动作 $A′$ 是实际将要执行的动作。&lt;/p&gt;
&lt;/li&gt;
&lt;li&gt;&lt;p&gt;&lt;strong&gt;Q-learning&lt;/strong&gt; 是 &lt;strong&gt;off-policy&lt;/strong&gt; 算法，它用一个策略（如 ϵ-贪婪）产生行为，但更新时使用另一个策略（贪婪策略）来构造TD目标。更新公式中，目标使用 $max⁡_{a′} Q(S′,a′)$，即假设下一步会采取最优动作，而不论实际执行了哪个动作。&lt;/p&gt;
&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;因此，Sarsa更加保守（考虑了探索可能导致的惩罚），而Q-learning更激进（总是朝着最优方向更新）。&lt;/p&gt;
&lt;h1&gt;在强化学习中，“探索”与“利用”分别指什么？为什么需要平衡二者？常用策略是什么？&lt;/h1&gt;
&lt;ul&gt;
&lt;li&gt;&lt;strong&gt;利用&lt;/strong&gt;：根据当前已有的经验，选择已知能获得最大奖励的动作，以最大化短期收益。&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;探索&lt;/strong&gt;：尝试未充分执行过的动作，以便发现可能带来更高长期收益的新策略。&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;如果只利用不探索，智能体可能陷入局部最优，错过更好的策略；
如果只探索不利用，则无法积累有效经验。平衡二者是强化学习的关键挑战。&lt;/p&gt;
&lt;p&gt;常用策略是 &lt;strong&gt;ϵ-贪婪策略&lt;/strong&gt;：以 1−ϵ 的概率选择当前估计值最大的动作（利用），以 ϵ 的概率随机选择其他动作（探索）。ϵ 通常设置为较小的正数（如0.1），也可随训练逐渐衰减。&lt;/p&gt;
&lt;h1&gt;马尔可夫过程的两种贪婪策略，以及基本思想？&lt;/h1&gt;
&lt;p&gt;两种贪婪策略分别是&lt;strong&gt;纯贪婪策略&lt;/strong&gt;和&lt;strong&gt;ϵ-贪婪策略&lt;/strong&gt;。&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;p&gt;&lt;strong&gt;纯贪婪策略&lt;/strong&gt;：在每个状态下始终选择当前动作值函数 $Q(s,a)$ 最大的动作。其基本思想是“永远只利用已有经验，不探索”，容易陷入局部最优。&lt;/p&gt;
&lt;/li&gt;
&lt;li&gt;&lt;p&gt;&lt;strong&gt;ϵ-贪婪策略&lt;/strong&gt;：以 $1−ϵ$ 的概率选择当前最优动作（贪婪），以 $ϵ$ 的概率随机选择其他动作。其基本思想是“在利用的同时留出小部分机会进行探索”，平衡了利用与探索的关系，是强化学习中最常用的策略。&lt;/p&gt;
&lt;/li&gt;
&lt;/ul&gt;
</content:encoded><dc:creator>MeLssnow</dc:creator><pubDate>Fri, 22 May 2026 19:27:00 GMT</pubDate></item></channel></rss>