什么是深度学习？

深度学习是机器学习的一个分支，其核心思想是利用构建和训练人工神经网络来模拟人脑处理信息的方式，从数据中自动提取特征并进行决策，来解决复杂的模式识别和预测问题。深度学习在计算机视觉、自然语言处理等领域有广泛应用。

深度学习与神经网络的关系，神经网络与人脑结构存在哪些相似之处？

关系：深度学习是基于神经网络的一种机器学习方法，深度学习模型由多层神经网络构成，通过多层网络的学习来实现模式识别和预测问题。

神经网络与人脑结构的相似之处：

结构相似性：两者都由大量处理单元和连接通道组成。
信息传递方式相似：神经网络通过激活函数的非线性映射传递信息，人脑通过突触连接传递信息。
学习机制相似：神经网络通过学习样本调整权重，人脑通过突触连接的变化实现学习。

计算机视觉的定义

计算机视觉是一门研究如何使计算机“看”世界的科学，它通过模拟人类的视觉系统，让计算机能够理解和解析图像或视频中的信息。

列举出深度学习在当前的主要应用领域

计算机视觉（图像分类、目标检测、面部识别、图像生成）
自然语言处理 (机器翻译、语音识别、文本生成、情感分析）
医疗与健康 (医学影像分析、疾病预测、药物研发、机器人手术）
自动驾驶与智能交通 (环境感知、驾驶决策、交通监控)
游戏与娱乐 (游戏AI、内容生成、虚拟现实)等。

BP神经网络的全称是什么？它的多层前馈网络基本思想和利用的技术是什么？

BP神经网络，即反向传播神经网络（Back Propagation）。

它是一种按误差反向传播训练的多层前馈网络，利用梯度下降技术，期望使得网络的实际和期望输出值的均方误差最小。

在信息正向传播过程中，输入层、中间层和最后一个隐藏层分别负责什么？

输入层：各神经元负责接收来自外界的输入信息，并传递给中间层的各神经元。
中间层：是内部信息处理层，负责信息变换，根据信息变化能力的需求，可设计为单隐藏层或者多隐藏层结构。
最后一个隐藏层：传递到输出层各神经元的信息，经进一步处理后完成一次学习的正向传播处理过程，由输出层向外界输出信息处理结果。

神经网络进行复杂计算的核心逻辑包括哪两个方面？

正向传播：将输入数据传递给网络，并依次计算每一层的输出。
反向传播：计算损失函数，并通过计算梯度来更新网络中的权重和偏置。

为什么神经网络中必须引入激活函数？

激活函数的作用是引入非线性因素 。如果没有激活函数，整个神经网络即使叠加再多层，也只是在进行线性组合（等同于单层效果），无法解决复杂的非线性问题 。

请列举出常见的四种激活函数及其特点。

Sigmoid 函数：其公式为 $f(x) = \frac{1}{1 + e^{-x}}$ ，输出范围在 $(0,1)$ 之间，常用于二分类模型的输出层。
Tanh 函数：双曲正切函数，公式为 $f(x) = \frac{e^x - e^{-x}}{e^x + e^{-x}}$ ，输出范围在 $(-1,1)$ 之间。
ReLU 函数：修正线性单元，公式为 $f(x) = \max(0, x)$ 。在 $x > 0$ 时输出本身，在 $x \le 0$ 时输出 0。它是目前最常用的激活函数，能有效缓解梯度消失问题。
Softmax 函数： $p_i = \text{softmax}(z_i) = \frac{e^{z_i}}{\sum_{j=1}^{K} e^{z_j}}$ 常用于多分类问题的输出层，能将网络的输出转化为概率分布，所有分类的概率之和为 1 。

单层感知器是怎么进行参数权重更新的？具体的计算流程是怎样的？有什么局限性？

权重更新公式 当实际输出 o 与预期输出 y 不一致时，按下式更新权值： $w′←w+α⋅(y−o)⋅x$ 其中，α 为学习率，x 为输入。

具体计算流程:

计算神经元的加权和 $sum=∑w_ix_i$
通过激活函数得到实际输出 $o=sgn(sum)$ 。
比较实际输出 o 与预期输出 y。
若不一致，则按上述公式更新每一个权值 $w_i$ 。
重复以上步骤，直到输出一致或达到停止条件。

它的局限性在于只能解决线性可分问题（如“与”、“或”、“非”逻辑门），无法解决异或（XOR）等非线性可分问题 。

什么是多层感知器？单层感知器与多层感知器的关系？

什么是多层感知器：
多层感知器的隐藏层包含多个神经元，可以解决线性不可分问题（如异或运算）。
单层感知器与多层感知器的关系：
- 单层感知器：只有一个神经元，只能解决线性可分问题。
- 多层感知器：由多个感知器（神经元）分层组合而成，能够拟合任意复杂函数，可以解决线性不可分问题。

多层感知机是怎样进行信息的前向传播的？

输入层接收数据：输入层接受来自外部的数据，作为起始点。
逐层计算：
- 每一层神经元计算输入加权和并加上偏置： $z=Wx+b$ 。
- 然后将加权和通过激活函数（如ReLU、Sigmoid等）得到该层的输出。
传递到下一层：
隐藏层的输出作为下一层的输入，依次经过所有隐藏层，最后到达输出层。
输出层产生最终结果：
输出层同样先计算加权和，再通过激活函数（如Sigmoid、SoftMax）得到最终输出。

多层感知器是如何进行参数反向传播的？

引入反向传播算法，将误差从输出层由后向前逐层传播，利用后一层的误差估计前一层的误差。用于更新每一个权值，使神经网络整体逼近损失函数的局部最小值。
具体原理：
- 利用链式法则求偏导：
  $\frac{\partial \text{Loss}}{\partial w_k} = \frac{\partial \text{Loss}}{\partial f_3} \cdot \frac{\partial f_3}{\partial f_2} \cdot \frac{\partial f_2}{\partial f_1} \cdot \frac{\partial f_1}{\partial w_k}$

梯度下降的原理是什么？

核心思想：在权值空间中朝着误差最速下降的方向搜索，找到损失函数的局部最小值。权值每次更新都沿着损失函数梯度下降的反方向移动一小步，使损失逐渐减小。
更新公式： $\Delta w = -\alpha \nabla \text{Loss}(w) = -\alpha \frac{\partial \text{Loss}}{\partial w}$
其中 w 为权值， $\alpha$ 为学习率， $\text{Loss}(\cdot)$ 为损失函数（计算实际输出与期望输出的误差）。

正则化分为哪几种？正则化的作用是什么？

正则化的种类：
- 批标准化：对神经网络中的每层进行标准化处理，使得输入数据的均值接近于0，方差接近于1，来减少梯度消失和梯度爆炸问题，加速收敛速度，并增强稳定性和泛化能力。
- Dropout正则化：Dropout则在训练时随机丢弃一部分神经元，防止神经元之间过度依赖，减少过拟合。
- L1正则化在损失函数中加入权值向量 $w$ 的绝对值之和,使权重稀疏，有利于高维特征选择。
- L2正则化在损失函数中加入权值向量 $w$ 的平方和,使权重平滑但不为零。
正则化的作用：在原始损失函数基础上添加惩罚项，用于控制模型复杂度、防止过拟合。

卷积神经网络（CNN）最主要的应用领域是什么？相比于全连接神经网络，它有哪些进步之处？

CNN最主要的应用是在图像识别领域。相比于全连接神经网络，它的进步之处在于引入了卷积层结构和池化层结构，这两种层结构是CNN的重要组成部分。

一个经典的卷积神经网络主要包含哪5个基本结构层？它们各自的作用是什么？

输入层：整个神经网络的输入，在图像处理中通常代表图像的像素矩阵。
卷积层：通过卷积操作，用于获得更多图像的抽象特征。
池化层：通过下采样操作，用于减少网络中的参数。
全连接层：将特征平铺，为后续分类任务做准备。
输出层：给出最终的分类概率或识别结果。

卷积神经网络是怎样进行卷积的？

卷积核滑动：卷积核在输入图像上滑动，每次覆盖一个局部区域。
局部运算：将卷积核与图像对应位置的元素相乘求和，得到输出值。
遍历整张图像：卷积核按一定步长向右、向下移动，重复运算，最终生成一张特征图。
多通道处理：对于彩色图像（多通道），卷积核的每一层与输入通道分别卷积，然后将各通道结果相加，得到一个单通道输出。使用多个卷积核可得到多个输出通道。

卷积层和池化层的作用分别是什么？

卷积层的作用：

通过卷积核在图像上滑动计算局部相似性，提取图像特征
卷积层引入了稀疏连接和参数共享，大幅减少参数量，降低复杂度，减少过拟合。

池化层的作用：

减小特征图的空间尺寸，降低计算量。
通过取局部区域的最大值或平均值来保留重要特征、去除冗余细节。
池化没有需要学习的参数，是一种简单的汇总操作，防止过拟合。

两者区别：

卷积核的权重需要通过训练学习得到；池化没有参数需要优化。
一个卷积核只产生一个输出通道。
池化则分层处理，输出通道数等于输入通道数。

全连接神经网络在处理大尺寸图像（如高清彩色图像）时存在什么缺陷？CNN是如何解决的？

缺陷：全连接网络的每个像素与下一层每个节点都有权重连接。当图像分辨率很高且通道数多时，权值（参数）数量会发生爆炸性增长，导致计算量巨大，且极易引发过拟合。
解决方式：CNN通过卷积层的 稀疏连接和参数共享 来减少网络连接的参数量。

什么是词嵌入（Word Embedding）？它主要解决文本序列研究中的什么重要问题？

把一个维数是词的数量的高维空间嵌入到一个维数低的向量空间中，单词或词组被映射为向量。

它主要用于解决“如何描述、刻画词和词之间的相关性”这一问题。

在几何上如何理解词语的语义相关性？

在几何上，每一个词都可以表示为高维空间中的一个点。两个词之间的语义相关性可以通过它们在空间中的距离或者夹角余弦值来度量。

距离越近或夹角余弦值越接近 1，说明两个词的语义相关性越高。

传统的独热编码（One-Hot Encoding）在表示词向量时存在什么缺陷？词嵌入层（Embedding Layer）有什么优势？

One-Hot 缺陷：
- 词向量维度取决于词表的大小，会导致向量极度稀疏。
- 两个不同词的 One-Hot 向量都是正交的，无法体现词与词之间的语义相关性。
Embedding 优势：
- 它将高维稀疏的 One-Hot 向量映射为低维、稠密的连续实数向量。
- 让语义相近的词在空间中距离更近，从而有效地捕获语义关系。

Word2Vec 是什么

Word2Vec是目前最常用的词嵌入模型之一。Word2Vec实际是一种浅层的神经网络模型,它有两种网络结构,分别是CBOW 和连续词袋 Skip-gram

CBOW获得中间词两边的上下文,然后用周围的词去预测中间的词,把中间词当做y,把窗口中的其它词当做x输入。

Skip-gram是通过当前词来预测窗口中上下文词出现的概率模型,把当前词当做x, 把窗口中其它词当做y。通过一个隐层接一个Softmax激活函数来预测其它词的概率。

循环神经网络（RNN）的主要特点是什么？它的优点和缺点分别是什么？

是状态空间模型在文本序列数据上的一种具体的实现方法。

主要特点：
- RNN对具有序列特性的数据非常有效，能挖掘数据中的时序信息和语义信息。
- 隐藏层的状态不仅取决于当前输入，还取决于前一时刻的状态，因此具有记忆性。
优点：
- 能够处理长度不固定的序列数据。
- 能够结合上下文信息进行预测，克服了全连接网络孤立处理每个输入的缺点。
缺点：
- 无法实现长期记忆性:当相关信息距离当前位置较远时，信息在层层传递中会不断衰减，导致无法有效利用远处的信息。
- 数学计算问题:进行反向传播时，梯度的计算涉及参数矩阵的连乘，因此当序列过长时，易引发梯度消失或梯度爆炸问题，导致无法捕捉长距离的依赖关系。

LSTM与RNN的区别是什么？它的主要优势是什么？它是通过什么机制（门控结构）实现的？

LSTM与RNN的区别：
- RNN只继承一个短期状态 $h_{t−1}$ ，而LSTM同时继承短期状态 $h_{t−1}$ 和长期状态 $c_{t−1}$ 。
- RNN的内部构简单（仅一个tanh变换），LSTM的内部结构复杂，(包含多个门控单元）。
LSTM的主要优势：
- 兼顾长期记忆性和短期记忆性，能够有效处理长距离依赖问题。
实现机制（三个门控结构）：
- 遗忘门（Forget Gate）：决定从上一时刻的细胞状态中丢弃哪些信息。
- 输入门（Input Gate）：决定当前的输入信息中有哪些需要被选择性地更新或保存到当前的细胞状态中。
- 输出门（Output Gate）：基于当前的细胞状态，决定最终向下一个时间步输出哪些隐藏层状态信息。

总结：LSTM通过遗忘门、输入门、输出门三个门控结构，有选择地记忆、更新和输出信息，从而解决了传统RNN无法长期记忆的问题。

Thanks for reading!

深度学习-简答

周六 5月 23 2026

4846 字 · 22 分钟

期末复习深度学习

深度学习-简答

什么是深度学习？

深度学习与神经网络的关系，神经网络与人脑结构存在哪些相似之处？

计算机视觉的定义

列举出深度学习在当前的主要应用领域

BP神经网络的全称是什么？它的多层前馈网络基本思想和利用的技术是什么？

在信息正向传播过程中，输入层、中间层和最后一个隐藏层分别负责什么？

神经网络进行复杂计算的核心逻辑包括哪两个方面？

为什么神经网络中必须引入激活函数？

请列举出常见的四种激活函数及其特点。

单层感知器是怎么进行参数权重更新的？具体的计算流程是怎样的？有什么局限性？

什么是多层感知器？单层感知器与多层感知器的关系？

多层感知机是怎样进行信息的前向传播的？

多层感知器是如何进行参数反向传播的？

梯度下降的原理是什么？

正则化分为哪几种？正则化的作用是什么？

卷积神经网络（CNN）最主要的应用领域是什么？相比于全连接神经网络，它有哪些进步之处？

一个经典的卷积神经网络主要包含哪5个基本结构层？它们各自的作用是什么？

卷积神经网络是怎样进行卷积的？

卷积层和池化层的作用分别是什么？

卷积层的作用：

池化层的作用：

两者区别：

全连接神经网络在处理大尺寸图像（如高清彩色图像）时存在什么缺陷？CNN是如何解决的？

什么是词嵌入（Word Embedding）？它主要解决文本序列研究中的什么重要问题？

在几何上如何理解词语的语义相关性？

传统的独热编码（One-Hot Encoding）在表示词向量时存在什么缺陷？词嵌入层（Embedding Layer）有什么优势？

Word2Vec 是什么

循环神经网络（RNN）的主要特点是什么？它的优点和缺点分别是什么？

LSTM与RNN的区别是什么？它的主要优势是什么？它是通过什么机制（门控结构）实现的？

深度学习-简答

Comments

青山绿野