神经网络与深度学习:神经网络基础(第1-2讲)

4174 个字
21 分钟
神经网络与深度学习:神经网络基础(第1-2讲)

神经网络与深度学习:神经网络基础(第 1-2 讲)#

本文涵盖神经网络基础的第 1-2 讲核心内容。第一部分介绍神经网络入门知识,包括感知机、Sigmoid 神经元、网络架构、手写数字识别以及梯度下降算法;第二部分深入讲解反向传播算法,包括符号定义、四个基本方程、算法步骤及其全局直觉理解。

第一部分:神经网络入门#

1.1 感知机(Perceptron)#

感知机是最简单的人工神经元模型,接收多个输入信号,产生单一的二进制输出。

核心思想:感知机通过对输入的加权求和,与阈值比较来做出决策。

基本定义

  • 输入:x1,x2,x3,,xnx_1, x_2, x_3, \ldots, x_n(多个二进制或实数输入)

  • 权重:w1,w2,,wnw_1, w_2, \ldots, w_n(表示各输入的重要性)

  • 输出:单一的二进制输出(0 或 1)

输出规则

原始形式(使用阈值 threshold):

output={0if jwjxjthreshold1if jwjxj>threshold\text{output} = \begin{cases} 0 & \text{if } \sum_j w_j x_j \leq \text{threshold} \\ 1 & \text{if } \sum_j w_j x_j > \text{threshold} \end{cases}

引入偏置 b=thresholdb = -\text{threshold} 简化表示:

output={0if wx+b01if wx+b>0\text{output} = \begin{cases} 0 & \text{if } \mathbf{w} \cdot \mathbf{x} + b \leq 0 \\ 1 & \text{if } \mathbf{w} \cdot \mathbf{x} + b > 0 \end{cases}

逻辑门实现

感知机可以实现基本逻辑门:NAND 门、AND 门、OR 门。由于 NAND 门是通用门(可以组合构建任何逻辑运算),感知机具有通用计算能力。

感知机 vs Sigmoid 神经元 对比

特性感知机Sigmoid 神经元
输出值二进制:0 或 1连续值:0 到 1 之间
激活函数阶跃函数(step function)Sigmoid 函数 σ(z)\sigma(z)
可微性不可微(不连续)处处可微(光滑曲线)
权重微调响应小变化可能导致输出完全翻转小变化仅导致输出的小变化
学习适用性难以用梯度方法学习适合梯度下降优化

1.2 Sigmoid 神经元#

感知机的问题

感知机的输出是阶跃函数,权重或偏置的微小变化可能导致输出从 0 突变到 1(或反之)。这使得我们无法通过逐步微调权重来”学习”——因为微小调整的效果不可预测。

Sigmoid 神经元的解决方案

Sigmoid 神经元的输出为:

output=σ(wx+b)\text{output} = \sigma(\mathbf{w} \cdot \mathbf{x} + b)

其中 Sigmoid 函数定义为:

σ(z)=11+ez\sigma(z) = \frac{1}{1 + e^{-z}}

关键性质:由于 σ\sigma 是光滑函数,权重和偏置的微小变化只会导致输出的微小变化:

ΔoutputjoutputwjΔwj+outputbΔb\Delta \text{output} \approx \sum_j \frac{\partial \text{output}}{\partial w_j} \Delta w_j + \frac{\partial \text{output}}{\partial b} \Delta b

Sigmoid 函数特性

  • 输出范围:(0, 1)

  • z+z \to +\infty 时,σ(z)1\sigma(z) \to 1

  • zz \to -\infty 时,σ(z)0\sigma(z) \to 0

  • 处处光滑可微

  • 导数:σ(z)=σ(z)(1σ(z))\sigma'(z) = \sigma(z)(1-\sigma(z))

阶跃函数特性

  • 输出值:仅 0 或 1

  • z>0z > 0 时,输出 = 1

  • z0z \leq 0 时,输出 = 0

  • z=0z=0 处不连续

  • 导数:除 z=0z=0 外处处为 0


1.3 神经网络架构#

神经网络由多层神经元组成,信息从输入层经过隐藏层最终到达输出层。

  • 输入层(Input Layer):接收外部数据,神经元数量由输入特征维度决定

  • 隐藏层(Hidden Layers):执行中间计算,可以有一层或多层

  • 输出层(Output Layer):产生最终结果

前馈网络(Feedforward Networks):信息仅从前往后流动,没有循环连接。前一层的输出作为下一层的输入。


1.4 使用神经网络识别手写数字#

以 MNIST 手写数字识别为例,展示神经网络的实际应用。

网络结构

  • 输入层:784 个神经元(28x28 像素图像,每个像素作为一个输入,灰度值 0.0-1.0)

  • 隐藏层:例如 15 或 30 个神经元(可调节)

  • 输出层:10 个神经元(对应数字 0-9,哪个神经元激活值最高即为预测结果)

网络结构简记:784 → 隐藏层(15/30) → 10

MNIST 数据集包含 60,000 张训练图像和 10,000 张测试图像。每张图像是 28x28 的灰度图,已经过居中和归一化处理。


1.5 梯度下降算法#

梯度下降是训练神经网络的核心优化方法。

代价函数(Cost Function)

均方误差(MSE)代价函数:

C(w,b)=12nxy(x)a2C(\mathbf{w}, b) = \frac{1}{2n} \sum_x \| y(x) - a \|^2

其中 nn 是训练样本数,y(x)y(x) 是期望输出,aa 是网络实际输出。

梯度

C=(Cv1,Cv2)T\nabla C = \left( \frac{\partial C}{\partial v_1}, \frac{\partial C}{\partial v_2} \right)^T

梯度向量指向函数增长最快的方向,负梯度方向即为下降最快方向。

参数更新规则

vv=vηC\mathbf{v} \to \mathbf{v}' = \mathbf{v} - \eta \nabla C

对于神经网络的权重和偏置:

wkwk=wkηCwkw_k \to w_k' = w_k - \eta \frac{\partial C}{\partial w_k}

blbl=blηCblb_l \to b_l' = b_l - \eta \frac{\partial C}{\partial b_l}

其中 η\eta 为学习率(learning rate),控制每步更新的幅度。


1.6 随机梯度下降(SGD)#

问题:当训练集很大时,计算所有样本的梯度非常耗时。

解决方案:使用 Mini-batch 随机梯度下降。

  • 随机选取 mm 个训练样本作为一个 mini-batch

  • 用 mini-batch 的平均梯度估计全局梯度:

C1mj=1mCXj\nabla C \approx \frac{1}{m} \sum_{j=1}^{m} \nabla C_{X_j}

更新规则

wkwk=wkηmjCXjwkw_k \to w_k' = w_k - \frac{\eta}{m} \sum_j \frac{\partial C_{X_j}}{\partial w_k}

blbl=blηmjCXjblb_l \to b_l' = b_l - \frac{\eta}{m} \sum_j \frac{\partial C_{X_j}}{\partial b_l}

Epoch:当所有训练样本都被使用过一次(即遍历完所有 mini-batch),称为完成了一个 epoch。之后打乱数据重新划分 mini-batch,开始下一个 epoch 的训练。


第二部分:前向传播和反向传播算法#

2.1 前向传播(Forward Propagation)#

前向传播就是把输入数据从第一层开始,逐层计算,一直算到输出层得到最终结果的过程。信息只往一个方向流动:输入 → 隐藏层 → 输出。

预测时前向传播就是使用网络的全部过程——给输入,算输出
训练时前向传播是第一步,算出预测值后才能计算损失,然后才能反向传播求梯度
计算中间值前向传播过程中保存的每一层的 zlz^lala^l,在反向传播时要用到

基本步骤#

对于第 ll 层的每个神经元,计算分两步:

第一步:计算加权输入 z

zl=wlal1+blz^l = w^l \cdot a^{l-1} + b^l

第二步:通过激活函数得到输出 a

al=σ(zl)a^l = \sigma(z^l)

合并写成一个简洁形式:

al=σ(wlal1+bl)\boxed{a^l = \sigma(w^l \cdot a^{l-1} + b^l)}

其中:

  • al1a^{l-1}:上一层的输出(第一层时就是输入 x)

  • wlw^l:第 l 层的权重矩阵

  • blb^l:第 l 层的偏置向量

  • σ\sigma:激活函数(如 sigmoid)


逐层传递过程#

以一个 3 层网络为例(输入层 → 隐藏层 → 输出层):

输入 x → [第1层计算] → a¹ → [第2层计算] → a² → [第3层计算] → a³ (最终输出)
输入计算输出
输入层原始数据 x无计算a0=xa^0 = x
隐藏层a0a^0z1=w1a0+b1z^1 = w^1 a^0 + b^1a1=σ(z1)a^1 = \sigma(z^1)a1a^1
输出层a1a^1z2=w2a1+b2z^2 = w^2 a^1 + b^2a2=σ(z2)a^2 = \sigma(z^2)a2a^2(最终预测)

示例

一个最简单的网络:2 个输入 → 2 个隐藏神经元 → 1 个输出

参数:

w1=(0.30.50.40.2),b1=(0.10.1)w^1 = \begin{pmatrix} 0.3 & 0.5 \\ 0.4 & 0.2 \end{pmatrix}, \quad b^1 = \begin{pmatrix} 0.1 \\ -0.1 \end{pmatrix}

w2=(0.60.7),b2=0.2w^2 = \begin{pmatrix} 0.6 & 0.7 \end{pmatrix}, \quad b^2 = -0.2

输入: x=(1,0.5)Tx = (1, 0.5)^T


第一步:计算隐藏层

z1=w1x+b1=(0.3×1+0.5×0.50.4×1+0.2×0.5)+(0.10.1)=(0.55+0.10.500.1)=(0.650.40)z^1 = w^1 \cdot x + b^1 = \begin{pmatrix} 0.3\times1 + 0.5\times0.5 \\ 0.4\times1 + 0.2\times0.5 \end{pmatrix} + \begin{pmatrix} 0.1 \\ -0.1 \end{pmatrix} = \begin{pmatrix} 0.55 + 0.1 \\ 0.50 - 0.1 \end{pmatrix} = \begin{pmatrix} 0.65 \\ 0.40 \end{pmatrix}

a1=σ(z1)=(σ(0.65)σ(0.40))=(0.6570.599)a^1 = \sigma(z^1) = \begin{pmatrix} \sigma(0.65) \\ \sigma(0.40) \end{pmatrix} = \begin{pmatrix} 0.657 \\ 0.599 \end{pmatrix}


第二步:计算输出层

z2=w2a1+b2=0.6×0.657+0.7×0.599+(0.2)=0.394+0.4190.2=0.613z^2 = w^2 \cdot a^1 + b^2 = 0.6\times0.657 + 0.7\times0.599 + (-0.2) = 0.394 + 0.419 - 0.2 = 0.613

a2=σ(0.613)=0.649a^2 = \sigma(0.613) = 0.649


结果: 输入 (1,0.5)(1, 0.5),网络输出 0.649\boxed{0.649}

2.2 反向传播 (Backward Propagation)#

符号定义与矩阵表示#

为了精确描述反向传播,首先建立统一的符号体系。

符号含义
wjklw^l_{jk}从第 (l1)(l-1) 层第 kk 个神经元到第 ll 层第 jj 个神经元的权重
bjlb^l_jll 层第 jj 个神经元的偏置
ajla^l_jll 层第 jj 个神经元的激活值
zjlz^l_jll 层第 jj 个神经元的加权输入
δjl\delta^l_jll 层第 jj 个神经元的误差

矩阵形式

激活值的递推关系:

al=σ(wlal1+bl)a^l = \sigma(w^l \cdot a^{l-1} + b^l)

定义加权输入(weighted input):

zl=wlal1+blz^l = w^l \cdot a^{l-1} + b^l

因此 al=σ(zl)a^l = \sigma(z^l),即每层的激活值是对加权输入施加激活函数的结果。


反向传播的 4 个基本方程#

以下四个方程是反向传播算法的数学基础,它们给出了计算代价函数关于网络中任意权重和偏置的梯度的完整方法。

定义误差:δjl=Czjl\delta^l_j = \frac{\partial C}{\partial z^l_j}(代价函数对第 ll 层第 jj 个神经元加权输入的偏导数)

方程公式含义
BP1δjL=CajLσ(zjL)\delta^L_j = \frac{\partial C}{\partial a^L_j} \cdot \sigma'(z^L_j)输出层误差:代价函数对输出激活的变化率乘以激活函数的导数
BP2δl=((wl+1)Tδl+1)σ(zl)\delta^l = ((w^{l+1})^T \delta^{l+1}) \odot \sigma'(z^l)误差反向传播:用下一层的误差和权重矩阵计算当前层误差
BP3Cbjl=δjl\frac{\partial C}{\partial b^l_j} = \delta^l_j偏置梯度:等于该神经元的误差
BP4Cwjkl=akl1δjl\frac{\partial C}{\partial w^l_{jk}} = a^{l-1}_k \cdot \delta^l_j权重梯度:等于前一层激活值乘以当前层误差

理解要点

  • BP1 是起点:从输出层开始计算误差

  • BP2 是递推:将误差从后向前传播(这就是”反向传播”名称的由来)

  • BP3 + BP4 是目标:将误差转化为我们需要的梯度信息

  • \odot 表示 Hadamard 积(逐元素相乘)


算法步骤#

反向传播算法结合随机梯度下降的完整步骤:

  1. 输入:取一个 mini-batch(m 个训练样本)

  2. 前向传播:对每个样本 xx,逐层计算 zl=wlal1+blz^l = w^l a^{l-1} + b^lal=σ(zl)a^l = \sigma(z^l)

  3. 计算输出层误差δL=aCσ(zL)\delta^L = \nabla_a C \odot \sigma'(z^L)

  4. 反向传播误差:从 l=L1,L2,,2l = L-1, L-2, \ldots, 2 逐层计算 δl=((wl+1)Tδl+1)σ(zl)\delta^l = ((w^{l+1})^T \delta^{l+1}) \odot \sigma'(z^l)

  5. 计算梯度Cwjkl=akl1δjl\frac{\partial C}{\partial w^l_{jk}} = a^{l-1}_k \delta^l_jCbjl=δjl\frac{\partial C}{\partial b^l_j} = \delta^l_j

  6. 更新参数wlwlηmxδx,l(ax,l1)Tw^l \to w^l - \frac{\eta}{m} \sum_x \delta^{x,l} (a^{x,l-1})^Tblblηmxδx,lb^l \to b^l - \frac{\eta}{m} \sum_x \delta^{x,l}


反向传播的全局观#

从直觉上理解反向传播,可以想象对某个权重做一个微小的扰动,然后追踪这个扰动如何”涟漪般”传播到最终的代价函数。

直觉理解

假设对权重 wjklw^l_{jk} 做微小变化 Δwjkl\Delta w^l_{jk}

  1. 首先引起第 ll 层第 jj 个神经元激活值的变化:Δajl\Delta a^l_j

  2. 该变化传播到第 (l+1)(l+1) 层所有与之连接的神经元

  3. 继续逐层传播,经过第 (l+2),(l+3),(l+2), (l+3), \ldots

  4. 最终到达输出层,引起代价函数的变化 ΔC\Delta C

路径求和公式

代价函数关于权重的偏导数可以表达为所有从该权重到输出的路径上偏导数乘积的求和:

Cwjkl=pathsedges along path(partial derivatives)\frac{\partial C}{\partial w^l_{jk}} = \sum_{\text{paths}} \prod_{\text{edges along path}} \text{(partial derivatives)}

具体展开:

Cwjkl=pl,pl+1,,pLCapLLσ(zpLL)wpL,pL1Lσ(zpl+1l+1)wpl+1,jl+1σ(zjl)akl1\frac{\partial C}{\partial w^l_{jk}} = \sum_{p_l, p_{l+1}, \ldots, p_L} \frac{\partial C}{\partial a^L_{p_L}} \cdot \sigma'(z^L_{p_L}) \cdot w^L_{p_L, p_{L-1}} \cdots \sigma'(z^{l+1}_{p_{l+1}}) \cdot w^{l+1}_{p_{l+1}, j} \cdot \sigma'(z^l_j) \cdot a^{l-1}_k

总结:反向传播不是什么”魔法”——它本质上就是链式法则的系统应用。通过从输出层开始逐层向后计算误差,我们能高效地获得所有参数的梯度,而不需要对每个参数单独做扰动实验。这使得训练拥有数百万参数的深度网络成为可能。

案例:

示例:2 层网络的完整前向传播与反向传播#

输入层(1个) → 隐藏层(1个神经元) → 输出层(1个神经元)
x → a¹ → a²(预测值)

参数:

  • 隐藏层:权重 w1w^1,偏置 b1b^1

  • 输出层:权重 w2w^2,偏置 b2b^2

  • 激活函数:sigmoid σ(z)=11+ez\sigma(z) = \frac{1}{1+e^{-z}}

参数
w1w^10.4
b1b^10.1
w2w^20.6
b2b^20.2
输入 xx2.0
期望输出 yy1.0
学习率 η\eta0.5

代价函数:C=12(a2y)2C = \frac{1}{2}(a^2 - y)^2


前向传播#

第 1 层(隐藏层)

z1=w1x+b1=0.4×2.0+0.1=0.9z^1 = w^1 \cdot x + b^1 = 0.4 \times 2.0 + 0.1 = 0.9

a1=σ(z1)=σ(0.9)=11+e0.9=11+0.407=0.711a^1 = \sigma(z^1) = \sigma(0.9) = \frac{1}{1+e^{-0.9}} = \frac{1}{1+0.407} = 0.711

第 2 层(输出层)

z2=w2a1+b2=0.6×0.711+0.2=0.427+0.2=0.627z^2 = w^2 \cdot a^1 + b^2 = 0.6 \times 0.711 + 0.2 = 0.427 + 0.2 = 0.627

a2=σ(z2)=σ(0.627)=11+e0.627=11+0.534=0.652a^2 = \sigma(z^2) = \sigma(0.627) = \frac{1}{1+e^{-0.627}} = \frac{1}{1+0.534} = 0.652

计算代价

C=12(a2y)2=12(0.6521)2=12(0.348)2=0.0606C = \frac{1}{2}(a^2 - y)^2 = \frac{1}{2}(0.652 - 1)^2 = \frac{1}{2}(0.348)^2 = 0.0606


前向传播汇总:

变量
z1z^10.9
a1a^10.711
z2z^20.627
a2a^20.652
CC0.0606

反向传播——用链式法则推导每个梯度#

现在的目标是求:Cw2\frac{\partial C}{\partial w^2}Cb2\frac{\partial C}{\partial b^2}Cw1\frac{\partial C}{\partial w^1}Cb1\frac{\partial C}{\partial b^1}


2.1 输出层权重#

Cw2\frac{\partial C}{\partial w^2}(输出层权重)

依赖链路: w2z2a2Cw^2 \rightarrow z^2 \rightarrow a^2 \rightarrow C

用链式法则展开:

Cw2=Ca2a2z2z2w2\frac{\partial C}{\partial w^2} = \frac{\partial C}{\partial a^2} \cdot \frac{\partial a^2}{\partial z^2} \cdot \frac{\partial z^2}{\partial w^2}

逐项计算:

Ca2=a2y=0.6521=0.348\frac{\partial C}{\partial a^2} = a^2 - y = 0.652 - 1 = -0.348

a2z2=σ(z2)=a2(1a2)=0.652×0.348=0.227\frac{\partial a^2}{\partial z^2} = \sigma'(z^2) = a^2(1-a^2) = 0.652 \times 0.348 = 0.227

z2w2=a1=0.711\frac{\partial z^2}{\partial w^2} = a^1 = 0.711

相乘:

Cw2=(0.348)×0.227×0.711=0.0562\frac{\partial C}{\partial w^2} = (-0.348) \times 0.227 \times 0.711 = \boxed{-0.0562}


2.2 输出层偏置#

Cb2\frac{\partial C}{\partial b^2}(输出层偏置)

依赖链路: b2z2a2Cb^2 \rightarrow z^2 \rightarrow a^2 \rightarrow C

Cb2=Ca2a2z2z2b2\frac{\partial C}{\partial b^2} = \frac{\partial C}{\partial a^2} \cdot \frac{\partial a^2}{\partial z^2} \cdot \frac{\partial z^2}{\partial b^2}

前两项和上面一样,第三项:

z2b2=1\frac{\partial z^2}{\partial b^2} = 1

相乘:

Cb2=(0.348)×0.227×1=0.0790\frac{\partial C}{\partial b^2} = (-0.348) \times 0.227 \times 1 = \boxed{-0.0790}


定义输出层误差: δ2=Ca2σ(z2)=(0.348)×0.227=0.0790\delta^2 = \frac{\partial C}{\partial a^2} \cdot \sigma'(z^2) = (-0.348) \times 0.227 = -0.0790

有了 δ2\delta^2,后面的计算更简洁:

  • Cw2=δ2a1=0.0790×0.711=0.0562\frac{\partial C}{\partial w^2} = \delta^2 \cdot a^1 = -0.0790 \times 0.711 = -0.0562

  • Cb2=δ2=0.0790\frac{\partial C}{\partial b^2} = \delta^2 = -0.0790


2.3 隐藏层权重#

Cw1\frac{\partial C}{\partial w^1}(隐藏层权重)——链式法则的关键

依赖链路更长了: w1z1a1z2a2Cw^1 \rightarrow z^1 \rightarrow a^1 \rightarrow z^2 \rightarrow a^2 \rightarrow C

Cw1=Ca2a2z2z2a1a1z1z1w1\frac{\partial C}{\partial w^1} = \frac{\partial C}{\partial a^2} \cdot \frac{\partial a^2}{\partial z^2} \cdot \frac{\partial z^2}{\partial a^1} \cdot \frac{\partial a^1}{\partial z^1} \cdot \frac{\partial z^1}{\partial w^1}

逐项计算:

Ca2=0.348(已算过)\frac{\partial C}{\partial a^2} = -0.348 \quad \text{(已算过)}

a2z2=0.227(已算过)\frac{\partial a^2}{\partial z^2} = 0.227 \quad \text{(已算过)}

z2a1=w2=0.6\frac{\partial z^2}{\partial a^1} = w^2 = 0.6

a1z1=σ(z1)=a1(1a1)=0.711×0.289=0.205\frac{\partial a^1}{\partial z^1} = \sigma'(z^1) = a^1(1-a^1) = 0.711 \times 0.289 = 0.205

z1w1=x=2.0\frac{\partial z^1}{\partial w^1} = x = 2.0

全部相乘:

Cw1=(0.348)×0.227×0.6×0.205×2.0\frac{\partial C}{\partial w^1} = (-0.348) \times 0.227 \times 0.6 \times 0.205 \times 2.0

=0.0790×0.6×0.205×2.0= -0.0790 \times 0.6 \times 0.205 \times 2.0

=0.0474×0.205×2.0= -0.0474 \times 0.205 \times 2.0

=0.00972×2.0=0.0194= -0.00972 \times 2.0 = \boxed{-0.0194}


2.4 隐藏层偏置#

Cb1\frac{\partial C}{\partial b^1}(隐藏层偏置)

链路: b1z1a1z2a2Cb^1 \rightarrow z^1 \rightarrow a^1 \rightarrow z^2 \rightarrow a^2 \rightarrow C

w1w^1 的链路只有最后一项不同:z1b1=1\frac{\partial z^1}{\partial b^1} = 1(而不是 x=2x = 2

Cb1=(0.348)×0.227×0.6×0.205×1=0.00972\frac{\partial C}{\partial b^1} = (-0.348) \times 0.227 \times 0.6 \times 0.205 \times 1 = \boxed{-0.00972}

隐藏层误差:δ1=w2δ2σ(z1)=0.6×(0.0790)×0.205=0.00972\delta^1 = w^2 \cdot \delta^2 \cdot \sigma'(z^1) = 0.6 \times (-0.0790) \times 0.205 = -0.00972

验证:

  • Cw1=δ1x=0.00972×2.0=0.0194\frac{\partial C}{\partial w^1} = \delta^1 \cdot x = -0.00972 \times 2.0 = -0.0194

  • Cb1=δ1=0.00972\frac{\partial C}{\partial b^1} = \delta^1 = -0.00972

链式法则 = 路径上所有偏导数连乘:从 C 到任何参数,就是沿着依赖路径把每一步的局部导数相乘

反向传播就是从输出层开始,沿着”C → a² → z² → a¹ → z¹ → 参数”的路径,用链式法则把每一步的局部导数连乘起来,得到代价函数对每个参数的梯度。误差像水流一样从后往前”流淌”,每经过一层就被 σ(z)\sigma'(z) 和权重”衰减”一些——这既是反向传播的精妙之处,也是深层网络梯度消失的根源。


梯度汇总 & 参数更新#

参数梯度更新:θ=θ0.5×\theta' = \theta - 0.5 \times梯度新值
w2w^2-0.05620.60.5×(0.0562)0.6 - 0.5\times(-0.0562)0.628
b2b^2-0.07900.20.5×(0.0790)0.2 - 0.5\times(-0.0790)0.240
w1w^1-0.01940.40.5×(0.0194)0.4 - 0.5\times(-0.0194)0.410
b1b^1-0.009720.10.5×(0.00972)0.1 - 0.5\times(-0.00972)0.105

所有梯度为负,所以所有参数都增大,这意味着网络输出 a2a^2 会增大(更接近目标值 y=1y=1),代价 C 会减小。

梯度的用途:更新参数,让 C 变小。

wwηCww \leftarrow w - \eta \cdot \frac{\partial C}{\partial w}

整个训练过程就是不断重复这个循环:

前向传播:用当前参数算出预测值
计算 C:看预测值和真实值差多少
反向传播:算出每个参数的梯度(C对该参数有多敏感)
更新参数:沿着梯度反方向调整参数,让C减小
回到第一步,重复……直到 C 足够小

C 足够小,说明对于所有训练样本,网络的预测值 a 非常接近真实标签 y

也就是得到了一组好的参数 wb,使网络 “学会” 了输入到输出的映射规律,预测 ≈ 真实标签

梯度消失(Vanishing Gradient)#

反向传播时,梯度从输出层往输入层逐层传递。如果每经过一层梯度都变小,传到前面几层时梯度就接近于 0,导致前面的层几乎无法更新权重 —— 这就是梯度消失。

越靠近输入,梯度越小

Cw2=0.0562|\frac{\partial C}{\partial w^2}| = 0.0562Cw1=0.0194|\frac{\partial C}{\partial w^1}| = 0.0194。隐藏层梯度只有输出层的 1/3


回顾反向传播的误差递推公式(BP2)

误差每经过一层就要乘以 σ(z)\sigma'(z)(最大值 0.25)和权重,不断缩小,层数越多,前面层的梯度越小,学习越慢,多层连乘后梯度趋近于 0,前面的层几乎学不到东西。这是深层网络训练困难的核心原因,也是 ReLU、残差连接、LSTM 等技术诞生的动机。

(注:内容由 AI 生成,请谨慎参考)

分享到社交平台

将本文分享给你的朋友们

神经网络与深度学习:神经网络基础(第1-2讲)
https://firefly.cuteleaf.cn/posts/神经网络/神经网络与深度学习神经网络基础第1-2讲/
作者
Zhongye
发布于
2026-06-07
版权声明
CC BY-NC-SA 4.0

评论

Profile Image of the Author
Zhongye
南漂中
公告
新的博客站!旧站点传送门 zhongye1.github.io/Arknight-notes
音乐
专辑封面

音乐

暂无播放

0:00 0:00
暂无歌词
分类
标签
站点统计
文章数
147
分类数
15
标签数
214
总字数
365,610
运行天数
0
最后更新
0 天前

目录