
机器学习-简答
机器学习简答题汇总
机器学习概念
机器学习是一种从数据当中发现复杂规律,并且利用规律对未来时刻、未知状况进行预测和判定的方法,是当下被认为最有可能实现人工智能的方法。
监督学习和无监督学习的区别?
监督学习:指模型在有标注数据的监督下进行训练,目标是学习从输入特征 到输出标签 的映射关系。模型通过对比预测结果与真实标签来调整参数。(如分类和回归)
无监督学习:指模型在没有标注数据的情况下进行训练、目标是发现数据的内在结构和模式。(如聚类、降维、异常检测)
机器学习-2-统计基础
参数估计的几种方法的区别
蒙特卡罗方法
定义: 蒙特卡罗方法是一类基于随机抽样的数值计算方法。 当需要计算某个关于参数 的期望,我们能从后验分布中独立抽取大量样本,然后用样本均值来近似期望值。 其适用于概率密度函数很复杂,或者不知道的情况。
特点: 优点:简单通用,适用于高维问题。 缺点:收敛速度较慢,且需要有效的抽样方法。
最大似然估计
定义:最大似然估计是一种频率学派的点估计方法。 在给定独立同分布的样本,其联合概率密度函数为。MLE 寻找使得当前观测样本数据出现概率最大的参数值作为估计值。通常最大化对数似然函数 。通过求导并令导数为零,解出 。 其需要事先知道随机变量的分布。
特点: 优点:样本量 时,估计值依概率收敛到真值。 缺点:完全依赖数据,无先验信息;在小样本下可能偏差较大。
贝叶斯框架下的MAP估计
定义:最大后验估计是贝叶斯学派的一种点估计方法。 它在给定数据的条件下,选择使后验概率密度 最大的参数值。 需要对参数有一些先验知识。
特点: 优点:融合了先验知识,可解决MLE的过拟合问题,小样本下更稳健。 缺点:后验分布可能没有简单解析形式,需用数值优化。且先验的选择带有主观性。
什么是KL散度,为什么说它是不对称的距离度量?
是衡量两计概分布之间差异的一种方法。其并非距离度量,用于度量两概分布 P 和 Q 的差异,表示当用分布 Q 来近似真实分布 P 时,所损失的信息量。
机器学习-3-回归学习
简述线性回归模型与线性基函数回归模型的联系与区别
线性回归:
直接用原始特征 的线性组合来拟合,模型为 。可以看作是基函数取 。
线性基函数回归:
先将原始特征 x 映射到一组新的基函数 (比如多项式、高斯、sigmoid等),然后再用这些基函数的线性组合 来拟合。这个模型对参数 w 仍然是线性的,但对输入 x 可以是非线性的。
联系:
线性基函数回归是线性回归的推广,线性回归可视为线性基函数回归的一个特例。当基函数取 时,线性基函数回归退化为标准线性回归。两者都对参数向量 w 是线性的,因此参数估计方法通用。
区别:
线性回归直接使用原始特征的线性组合,只能拟合线性关系。
线性基函数回归通过对输入向量进行非线性映射,引入多项式、交叉项等非线性基函数,从而能拟合非线性关系,但模型关于参数仍然是线性的,故仍可用线性方法求解。
比较批处理最小二乘法、梯度下降法和随机梯度下降法(SGD)的优缺点

| 方法 | 优点 | 缺点 |
|---|---|---|
| 批处理最小二乘 | 一次计算得到精确解 | 需要求逆矩阵,当特征维数高或样本量大时计算量大 |
| 梯度下降(批量GD) | 避免矩阵求逆,适用于大数据集; 实现简单 | 每次迭代需计算全部样本的梯度,收敛慢; 需要手动选择学习率 |
| 随机梯度下降(SGD) | 每次仅用一个样本更新参数,计算快,可在线学习; 容易跳出局部最优 | 梯度估计噪声大; 最终解精度不如批处理 |
批量梯度下降
在每次迭代更新参数时,都需要⽤到全部的训练样本数据来计算⽬标函数的梯度。
随机梯度下降
在每次迭代更新参数时,从训练样本集中随机选取⼀个训练样本来计算⽬标函数的梯度。
⼩批量梯度下降
在每次迭代更新参数时,选取训练样本集中给定数量的训练样本来计算⽬标函数的梯度。
什么是正则化线性回归?岭回归(L2)与套索回归(L1)有何区别?
正则化线性回归:在原始损失函数基础上添加惩罚项,用于控制模型复杂度、防止过拟合。
L1正则化在损失函数中加入权值向量的绝对值之和。 L2正则化在损失函数中加入权值向量的平方和。
区别: L1功能是使权重稀疏,有利于高维特征选择。 L2功能是使权重平滑但不为零;
过拟合和欠拟合如何产生?如何缓解?
过拟合:
模型在训练样本集上表现很好,但在测试样本集上表现不佳,过度记忆了训练数据的噪声和细节,模型泛化能力差的现象。
原因:
训练样本数量过少;特征向量维数过高;模型过于复杂。
欠拟合:
模型在训练数据和测试数据上都表现得非常差。意味着模型过于简单,无法捕捉数据中的有效模式。
原因:
模型的学习能力不足;现有的数据特征与其对应的标签之间的相关性不强。
方法:
- 增加训练数据集:更好训练数据的总体模式。
- 正则化:限制模型的复杂度。
- 简化模型:选择简单模型或减少输入参数。
- 提前停止:集成方法。
机器学习-4-分类学习
逻辑回归和线性回归的联系和区别
线性回归预测连续变量,输出连续值,损失函数使用最小二乘法来最小化预测值和实际值的误差。
逻辑回归预测分类变量(一般为二分类),输出一个概率值(0,1之间)
联系:
- 二者都是线性模型,它们都假设输出变量是输入变量的线性组合。
- 二者都可以处理连续和离散的输入特征。
- 二者的参数估计都可以通过最大似然估计或梯度下降来实现。
为什么说逻辑回归比最小二乘分类(LS分类)对异常点更鲁棒?
最小二乘分类(直接用线性回归拟合类标签0/1)对异常点非常敏感,因为它最小化均方误差,异常点的误差会平方放大,从而严重拉偏决策边界。
而逻辑回归使用交叉熵损失,且输出通过Sigmoid函数压缩在(0,1)之间,对远离决策边界的极端点给出的梯度较小,因此受异常点影响较小。
朴素贝叶斯(Naïve Bayes)分类器为什么称为“朴素”?它的基本方法是什么?如何学习参数?
“朴素”含义:在给定类别标签的条件下,各个特征之间相互独立,忽略了真实数据中特征之间可能的相关性。
基本方法:每个特征服从类别条件独立分布。对于给定的样本,朴素贝叶斯分类器计算每个类别的后验概率,选择具有最大后验概率的类别作为预测结果。后验概率的计算利用了贝叶斯定理,将先验概率和样本特征的条件概率相结合。
参数学习:采用最大似然估计。
分类模型的区别
判别函数模型、概率判别模型、生成模型。
判别(判决)函数模型直接学习决策边界,对后验概率 建模,输出类别标签,数据效率更高,对异常点处理能力弱,常用于分类,判决等
生成模型先学习联合概率 和 ,学习数据生成规律,再由贝叶斯公式得到后验概率,可通过分布检测异常,典型代表是朴素贝叶斯。 其核心假设是“给定类别下特征相互独立”,因此当特征相关时效果差;优点是能生成新样本、处理缺失数据。

逻辑回归与朴素贝叶斯对比:逻辑回归不要求特征独立,能自动学习特征间关系;朴素贝叶斯假设强独立,计算快但易因相关特征而失真。逻辑回归用梯度下降等优化,朴素贝叶斯直接数数得到参数。
机器学习-5-流程和评估
简述训练集、验证集、测试集各自的用途。当只有一组带标签数据时,如何划分?
- 训练集:用于训练模型参数(如线性回归的权重)。
- 验证集:用于选择超参数和模型选择,不参与参数训练。
- 测试集:用于评估最终模型的泛化能力,只能使用一次。
划分方法:将数据集按比例(如80%训练 + 20%验证)划分,先训练集训练,验证集选超参数,再用独立测试集测试。若没有独立测试集,可用交叉验证。
什么是K折交叉验证?什么是留一验证(LOOCV)?
K折交叉验证:将训练集随机分成K份(K folds),依次取其中一份作为验证集,其余份作为训练集,训练并验证一次。重复K次,取K次验证作为最终验证误差。常见K=5或10。
留一验证(LOOCV):K折交叉验证的特例,令 (N为样本数),每次只留一个样本作为验证集,其余个样本训练。计算量大,但适合小样本数据集。
机器学习模型的泛化误差可以分解为哪三个部分?分别解释其含义。
泛化误差可分解为三个部分:
- 偏差(Bias)
模型预测值与真实值之间的差异。反映模型本身的拟合能力。模型越简单,偏差越大(欠拟合)。 - 方差(Variance)
不同训练集上训练的模型预测值之间的变动程度。反映模型对训练数据变化的敏感度。模型越复杂,方差越大(过拟合)。 - 固有误差(Irreducible Error)
数据本身存在的噪声,无法通过任何模型消除。
偏差和方差之间存在权衡(trade-off)。总泛化误差呈U形曲线,模型过简单或过复杂都会导致高误差。
请准确写出精度,查全率是如何定义的?二者之间是什么关系?
精度:在所有被预测为正的样本中,有多少是真正的正例
查全率:在所有实际为正的样本中,有多少被正确识别为正类
| 真实\预测 | 正 | 负 |
|---|---|---|
| 正 | TP | FN |
| 负 | FP | TN |
注:高精度、低查全率;高查全率、低精度。
什么是ROC曲线?AUC值有什么意义?
ROC曲线(受试者工作特征曲线)以真正率为纵轴,以假正率为横轴,通过改变分类阈值绘制出的曲线。
- 真正例率:
- 假正例率:
AUC是ROC曲线下的面积,取值范围在 到 之间。AUC越接近 ,分类器性能越好; 表示分类器相当于随机猜测。AUC可以综合评价分类器在不同阈值下的表现,且不受样本不平衡的影响。
机器学习-6-核与SVM
支持向量机的思想和对核技巧的作用
支持向量机(SVM)是一种二分类模型,其核心思想是:在特征空间中寻找一个分类超平面,使得两类样本不仅被正确分开,而且离超平面最近的样本到超平面的距离最大化。 这一“最大间隔”原则能够提高模型的泛化能力,使噪声和扰动对分类器影响更小。
核技巧的作用
核函数 定义为特征映射函数 的内积,即
核技巧的核心思想是:无需显式计算高维特征映射 的内积,而是直接用核函数 替代。
在SVM的对偶问题中,目标函数和决策函数只依赖于样本之间的内积
。通过引入核函数,我们可以隐式地将数据映射到高维特征空间,在该空间中实现线性分类,而计算复杂度仍保持为低维空间的规模。
核技巧的具体作用:
- 将原始线性不可分的数据映射到高维空间,使其变得**线性可分。
- 不需要显式计算高维特征向量,所有运算都在核函数的值上进行,计算量可控。
- 核技巧可推广到其他算法,不仅限于SVM。
- 通过选择不同核函数,可以灵活地适应不同数据分布。
简答题3:如何从简单核函数构造新的核函数?请列举至少三种构造方式。
设 和 是有效核函数,则以下方式构造的新核也是有效核:
数乘:
函数加权:
其中 是任意函数。
多项式变换:
其中 是非负系数的多项式。
指数运算:
加法:
乘法:
核嵌套:
其中 是任意映射。
线性变换下的核:
其中 是对称半正定矩阵。
常用例子:
- 多项式核:
- 高斯核:
简述SVM中核函数的选择(以线性核、多项式核、高斯核为例)及其对分类效果的影响。
常见核函数:
线性核:。相当于不加非线性映射,适用于线性可分或高维稀疏数据(如文本分类),计算最快。
多项式核:。可以生成 M 阶多项式特征,能拟合较复杂的非线性边界,但参数 M 过大会导致过拟合。
高斯核(RBF核):。对应无限维特征空间,能逼近任意复杂形状的决策边界,是最常用的核函数。但 σ 过小会导致过拟合,过大则接近线性核。
机器学习-7-决策树与集成学习
决策树的基本思想是什么?它有哪些主要优点?
决策树是一种分层的决策结构,可用于分类和回归。其基本思想是通过对特征向量进行分层判决,从根结点开始,根据特征的取值沿着树的分支逐步向下,最终到达叶结点得到预测结果。
主要优点:
- 推断速度快:只需沿着树的分支进行几次比较即可得出结果。
- 可解释性强:树结构直观,易于理解。
- 对混合属性数据有效:能同时处理离散特征和连续特征。
- 不要求特征独立:与朴素贝叶斯不同,决策树能够处理特征间的相关性。
ID3算法中如何选择最优特征?什么是信息增益?它有什么缺点?
ID3算法使用信息增益作为选择特征的标准。 信息增益定义为:选择特征A后,数据集不纯性下降的量,即
其中 是数据集的经验熵, 是给定特征 A 后的条件熵。算法计算每个特征的信息增益,选择增益最大的特征作为当前结点的分裂特征。
缺点:信息增益倾向于选择取值数目多的特征。
例如,若一个特征每个样本取值都不同(如ID编号),按该特征分裂后每个子集只有一个样本,条件熵为0,信息增益最大,但这种划分没有泛化能力,容易过拟合。
C4.5算法对ID3做了哪些改进?
C4.5是ID3的改进版本,主要改进包括:
- 使用信息增益率代替信息增益:解决ID3偏向取值多特征的问题。信息增益率 = 信息增益 / 特征自身的熵(分裂信息),对取值多的特征进行惩罚。
- 引入剪枝技术:在树构造完成后进行后剪枝,或构造过程中预剪枝,防止过拟合。
- 能够处理连续特征:将连续特征离散化,选择最佳切分点。
- 能够处理缺失特征:对特征值缺失的样本,可以按概率分配到各分支。
CART算法与ID3/C4.5的主要区别是什么?CART用于分类时使用什么不纯性度量?
CART(Classification and Regression Tree)的主要区别:
- CART生成的是二叉树,而ID3/C4.5生成多叉树。
- CART既可以用于分类,也可以用于回归。
- CART在分类时使用基尼指数(Gini index)作为不纯性度量,而不是信息熵或信息增益率。
随机森林的基本思想是什么?它是如何体现集成学习的思想的?
随机森林的基本思想是:通过集成多棵决策树来提升预测性能。
具体包含三个核心要点:
- 样本随机:对原始训练集进行多次有放回的自助采样,生成多个不同的训练子集。
- 特征随机:在每棵树每个结点分裂时,随机选取一部分特征(而非全部特征)进行最优分裂。
- 集成输出:将多棵树的预测结果进行投票(分类)或平均(回归),多个差异化的树共同决策,降低了过拟合风险。 这些体现了集成思想。
AdaBoost算法的基本思想是什么?它是如何体现集成学习的思想的?
AdaBoost(Adaptive Boosting)是一种串行式集成学习方法,通过迭代训练多个弱分类器,并将它们线性组合成一个强分类器。
基本思想:
- 每一轮训练一个弱分类器(如决策树桩),重点关注上一轮被错误分类的样本。
- 提高错误分类样本的权重,降低正确分类样本的权重,使下一轮分类器更关注“难题”。
- 最终将所有弱分类器加权投票,权重 与其分类准确率正相关。
多个弱学习器串行接力、不断纠错,共同组合成一个强学习器,这体现了集成思想。
机器学习-12-无监督学习-1
K-means聚类的核心思想是什么?
K-means的核心思想是:将N个样本划分到K个簇中,使得每个样本与其所属簇中心之间的距离平方和最小。它通过迭代“指派样本到最近中心”和“重新计算簇均值”两步来优化目标。 K-means属于硬聚类,因为每个样本被唯一地指派给一个簇,不给出样本属于各簇的概率。
混合高斯模型(GMM)与K-means的主要区别是什么?
- 输出类型:K-means输出硬簇标签;GMM输出样本属于每个簇的概率(软聚类)。
- 簇形状:K-means假设簇是球形的(各向同性),对异常值敏感;GMM通过协方差矩阵可适应任意椭圆形状和不同大小。
- 优势:GMM能处理簇重叠、不同方向伸展的数据,并能给出归属的置信度,适用于更复杂的数据分布。
机器学习-13-无监督学习-2
什么是主成分分析(PCA)?它的主要目标是什么?
主成分分析(PCA)是一种无监督的线性降维方法。它的主要目标是将高维数据变换到低维空间,同时尽可能多地保留原始数据中的信息(即方差)。 具体来说,PCA寻找若干个原始特征的线性组合(称为主成分),使得这些主成分能解释原始数据中绝大部分的信息。
第二主成分与第一主成分之间有什么关系?后续主成分如何构造?
第二主成分是原始特征的另一个线性组合,它满足两个条件:
- 与第一主成分不相关(即载荷向量正交),
- 是在与第一主成分不相关的所有线性组合中具有最大的方差。
类似地,后续每个主成分都与之前所有主成分不相关,并且方差依次递减。这样得到的主成分彼此正交,且按方差大小排序。
从几何角度看,PCA的第一主成分有什么直观意义?
从几何角度看,第一主成分对应着p维空间中距离所有样本点最近的一条直线(以欧氏距离平方的均值为衡量标准)。换句话说,将所有样本点投影到这条直线上,投影后的点之间的方差最大,且投影误差的平方和最小。前两个主成分则张成一个平面,该平面是与所有样本点最接近的平面。因此,PCA本质上是寻找能最好地近似原始数据点的低维线性子空间。
机器学习-14-强化学习-1
强化学习的基本要素有哪些?智能体与环境的交互过程是怎样的?
强化学习包含三个基本要素:状态(State)、动作(Action)、奖励(Reward)。智能体(Agent)在时刻 t 感知环境状态 ,根据策略 π 选择动作 并执行;环境接收到动作后,给出即时奖励 并转移到新状态 。智能体的目标是最大化长期累积折扣奖励。这一交互过程产生序列 { }。强化学习的核心在于平衡探索(尝试未知动作)与利用(执行已知高奖励动作)。
什么是马尔可夫决策过程(MDP)?它由哪些元素组成?
马尔可夫决策过程(MDP)是描述强化学习问题的数学模型,它满足马尔可夫性,即下一状态只依赖于当前状态和动作,与历史无关。MDP由一个五元组 () 构成:
- S:状态集合
- A:动作集合
- :状态转移概率,表示在状态 s 执行动作 a 后转移到 s′ 的概率
- r(s,a):奖励函数,表示在状态 s 执行动作 a 获得的即时奖励期望
- γ∈[0,1]:折扣因子,用于平衡当前和未来奖励
贝尔曼期望方程的作用是什么?请用文字描述状态值函数的贝尔曼方程。
贝尔曼期望方程刻画了MDP中不同状态值函数(或动作值函数)之间的递归关系。它将当前状态的值函数与后继状态的值函数联系起来,是求解策略评估的基础。
状态值函数的贝尔曼方程为:
一个状态的值等于从该状态出发,按照策略选择动作后,获得的即时奖励加上折扣后的下一状态值的期望。
蒙特卡洛(MC)强化学习与动态规划(DP)的主要区别是什么?MC适用于什么环境?
- 是否需要模型:DP需要已知状态转移概率和奖励函数,是“规划”方法;MC不需要模型,直接从与环境交互产生的经验片段中学习。
- 更新时机:DP通过贝尔曼方程自举(用当前估计值更新自身),每一步都可更新;MC必须等到一个完整的片段结束后,才能根据实际累积奖励 更新值函数。
- 适用环境:MC适用于“分幕式”任务(有明确终止状态),如棋类对局、游戏关卡等。它不要求状态转移概率已知,但必须能采集到完整的交互序列。
Sarsa算法和Q-learning算法分别属于on-policy还是off-policy?
Sarsa 是 on-policy 算法,它评估和改进的是同一个策略(通常为 -贪婪策略)。更新时使用的下一个动作 是实际将要执行的动作。
Q-learning 是 off-policy 算法,它用一个策略(如 ϵ-贪婪)产生行为,但更新时使用另一个策略(贪婪策略)来构造TD目标。更新公式中,目标使用 ,即假设下一步会采取最优动作,而不论实际执行了哪个动作。
因此,Sarsa更加保守(考虑了探索可能导致的惩罚),而Q-learning更激进(总是朝着最优方向更新)。
在强化学习中,“探索”与“利用”分别指什么?为什么需要平衡二者?常用策略是什么?
- 利用:根据当前已有的经验,选择已知能获得最大奖励的动作,以最大化短期收益。
- 探索:尝试未充分执行过的动作,以便发现可能带来更高长期收益的新策略。
如果只利用不探索,智能体可能陷入局部最优,错过更好的策略; 如果只探索不利用,则无法积累有效经验。平衡二者是强化学习的关键挑战。
常用策略是 ϵ-贪婪策略:以 1−ϵ 的概率选择当前估计值最大的动作(利用),以 ϵ 的概率随机选择其他动作(探索)。ϵ 通常设置为较小的正数(如0.1),也可随训练逐渐衰减。
马尔可夫过程的两种贪婪策略,以及基本思想?
两种贪婪策略分别是纯贪婪策略和ϵ-贪婪策略。
纯贪婪策略:在每个状态下始终选择当前动作值函数 最大的动作。其基本思想是“永远只利用已有经验,不探索”,容易陷入局部最优。
ϵ-贪婪策略:以 的概率选择当前最优动作(贪婪),以 的概率随机选择其他动作。其基本思想是“在利用的同时留出小部分机会进行探索”,平衡了利用与探索的关系,是强化学习中最常用的策略。