ImageNet Classification with Deep Convolutional Neural Networks

CNN

Computer Vision

Published

January 17, 2026

📍 NIPS 2012 👥 Krizhevsky, Sutskever, Hinton 📄 NIPS 📄 arXiv

cnn imagenet deep-learning computer-vision

一句话总结

使用深度卷积神经网络在 ImageNet 上取得突破性成果，开启了深度学习在计算机视觉领域的时代。

正文精读

1. 引言（Introduction）

1.1 本章研究背景与核心问题

本节的核心目标是回答一个在 2012 年前后仍未被解决的问题：

深度卷积神经网络（CNN）是否能够在真实世界、大规模、高分辨率视觉任务上取得显著优势？

在此之前，主流的视觉识别方法通常基于：人工设计特征（SIFT、HOG 等），特征编码（Bag-of-Words、Fisher Vector），线性或核方法分类器（SVM）

这些方法在中小规模数据集（如 Caltech-101、CIFAR）上取得了较好效果，但在复杂真实场景下逐渐暴露出性能瓶颈。

1.2 数据规模与任务复杂性的矛盾

作者指出，早期视觉数据集规模通常只有数万张图像，在这种条件下：

可以通过数据增强弥补样本不足
模型容量不需要很大
过拟合是主要问题

然而，现实世界的目标识别任务具有显著的复杂性：目标外观变化大（姿态、尺度、视角），光照条件不稳定，背景高度多样，遮挡普遍存在

这类复杂性无法仅通过“小模型 + 数据增强”解决。

ImageNet 数据集的出现构成了关键转折点：超过 1500 万张高分辨率图像，超过 2 万个类别，为高容量模型提供了可行的数据基础

1.3 欠定问题与归纳偏置（Inductive Bias）1. 归纳偏置（Inductive Bias）的基本概念

作者强调一个重要观点：

即便 ImageNet 规模巨大，目标识别问题仍然是欠定的（underdetermined）

原因在于：真实世界状态空间远大于可观测样本，不可能穷举所有物体外观组合

因此，模型必须内置合理的先验结构假设（inductive bias）。

卷积神经网络通过以下假设引入有效先验：

1. 局部性（Locality）：空间邻近像素高度相关
2. 平稳性（Stationarity）：相同模式可在不同空间位置重复出现

相较于全连接网络，CNN：参数数量显著减少，更容易训练，理论最优性能损失很小

1.4 计算资源的限制与突破

尽管 CNN 在结构上具有优势，但在 2010 年之前，其在大规模、高分辨率图像上的应用受到以下限制：卷积运算计算量巨大，CPU 难以承受训练开销，显存限制模型规模

作者指出，GPU 的发展改变了这一局面：高并行度适合卷积运算，显著加速前向与反向传播，使“大而深的 CNN”成为现实

1.5 本文的主要贡献预览

在引言中，作者明确列出了本文的核心贡献：

训练了当时规模最大的 CNN 之一，并在 ImageNet 上取得显著领先结果
提出了并系统验证了多项关键设计：
- ReLU 非饱和激活函数
- GPU 并行训练策略
- Dropout 正则化方法
证明网络深度本身是性能提升的重要因素
显示性能仍受限于硬件与数据规模，而非模型设计上限

1.6 研究视角总结（事后回看）

从今天的视角来看，本章的意义在于：

ImageNet + CNN 构成了深度视觉革命的基础
成功并非源于单一技巧，而是系统性协同结果
CNN 的成功本质上是“正确归纳偏置 + 足够数据 + 足够算力”的结果

2. 数据集（The Dataset）

2.1 ImageNet 与 ILSVRC 子集

ImageNet 是一个大规模、层级化的视觉数据库，包含：超过 1500 万张高分辨率图像，超过 22,000 个语义类别，图像来源于互联网，并通过人工标注完成

AlexNet 实验并未使用完整 ImageNet，而是采用 ILSVRC（ImageNet Large Scale Visual Recognition Challenge）子集：1000 个类别，每类约 1000 张图像，数据划分：约 1.2M 训练集，50k 验证集，150k 测试集

该子集显著提高了任务难度，要求模型进行细粒度语义区分。

2.2 ILSVRC-2010 与 ILSVRC-2012 的区别

ILSVRC-2010 是唯一一个公开测试集标签的版本，因此：可用于严格的定量分析与方法比较，是本文主要实验分析的基础

ILSVRC-2012 的测试集标签不公开：只能通过官方评测服务器获得结果，主要用于竞赛成绩报告

2.3 评测指标：Top-1 与 Top-5 Error

ImageNet 采用两种错误率指标：

Top-1 error：预测概率最高的类别不等于真实类别
Top-5 error：真实类别不在预测概率最高的前五个类别中

在 1000 类的大规模分类任务中，Top-5 error 更能反映模型对语义空间的整体理解能力。

Top-5 error衡量模型是否“理解了大致语义空间”，而不仅是精确命中

2.4 图像尺寸统一与裁剪策略

由于 ImageNet 图像尺寸不统一，作者采用如下预处理流程：

将图像等比例缩放，使短边长度为 256
从缩放后的图像中心裁剪出 \(256\times256\) 区域
训练阶段随机裁剪 \(224\times224\) patch
测试阶段采用多裁剪策略（详见后文）

该策略在不引入复杂人工特征的前提下，提高了模型的平移鲁棒性。

2.5 极简预处理原则

除尺寸调整与裁剪外，作者未进行任何复杂预处理：不使用手工特征，不进行边缘或纹理增强，直接使用原始 RGB 像素值作为输入

该设计体现了“端到端学习表示”的核心思想。

2.6 像素均值去除（Mean Subtraction）

在训练前，对每个像素减去训练集像素均值：

从优化角度看，有助于梯度稳定与加速收敛
从建模角度看，强化亮度变化信息，削弱绝对强度偏置
为后续 ReLU 激活与大规模 SGD 训练提供数值稳定性

2.7 本节总结

本章通过合理的数据选择与预处理设计：定义了一个公平且具有挑战性的学习任务，为高容量 CNN 的成功训练奠定了基础，减少了人为特征设计带来的额外归纳偏置

3. 网络结构（The Architecture）

3.1 ReLU 非线性：深度网络可训练性的关键

3.1.1 饱和型非线性的根本问题

在 AlexNet 之前，卷积神经网络普遍采用： \(\tanh(x)\)， \(\sigma(x) = (1 + e^{-x})^{-1}\)

这类激活函数的共同问题在于：在输入绝对值较大时，梯度趋近于 0。反向传播过程中梯度迅速衰减。网络越深，训练越慢，甚至无法收敛

这并非“效果不够好”，而是一个优化层面的结构性障碍。

3.1.2 ReLU 的定义与关键性质

AlexNet 使用 Rectified Linear Unit（ReLU）： \[ f(x) = \max(0, x) \]

其核心优势并非表达能力，而是优化几何结构的改变：

非饱和性（non-saturating）
- 在正半轴梯度恒为 1
- 梯度在深层网络中更易传播
稀疏激活
- 大量神经元输出为 0
- 具有隐式正则化效果
计算效率
- 无指数或除法运算
- 更适合 GPU 加速

3.1.3 实证结果与关键结论

论文在 CIFAR-10 上给出对比实验（Figure 1）：使用 ReLU 的 4 层 CNN，达到相同训练误差所需迭代次数，约为 tanh 网络的 1/6

这说明：

ReLU 的引入，使“深 CNN 可训练”第一次成为现实工程事实。

这是 AlexNet 成功的首要前提。

3.1.4 事后视角

从今天回看：ReLU 已成为深度学习默认非线性，后续的 Leaky ReLU、ELU、GELU 等，均延续“非饱和”这一核心思想

AlexNet 的贡献不在于“发明 ReLU”，而在于首次在大规模视觉任务中系统性验证其决定性作用。

3.2 多 GPU 训练：为规模而生的工程设计

3.2.1 硬件约束下的现实问题

AlexNet 约包含：6000 万参数，数十万神经元

而当时的 NVIDIA GTX 580：显存仅 3GB，单卡无法容纳完整模型

因此，多 GPU 并非“为了更快”，而是：

为了让模型能够被训练。

3.2.2 模型并行而非简单数据并行

AlexNet 采用的是模型并行（model parallelism）：不同 GPU 负责不同 kernel maps，参数在结构上被显式拆分

关键设计在于：并非所有层都跨 GPU 通信，通信模式是人为设计并通过验证确定的

例如：第三卷积层：跨 GPU 全连接（信息融合），第四、五卷积层：仅连接同一 GPU 的特征图（减少通信）

3.2.3 设计哲学与实验效果

这种设计体现了一个重要工程原则：

通信成本是瓶颈，网络结构必须为硬件让路。

实验结果显示：相比“单 GPU、减半规模模型”，Top-1 error ↓ 1.7%，Top-5 error ↓ 1.2%，训练时间并未增加

3.2.4 历史意义

这是早期深度学习中：模型结构 × 硬件架构联合设计的典型案例，为后续分布式训练、模型并行奠定实践基础

3.3 局部响应归一化（LRN）：早期归一化机制的探索

3.3.1 LRN 的数学形式

对 ReLU 输出 \(a^i_{x,y}\)，定义： \[ b^i_{x,y} = \frac{a^i_{x,y}} {\left( k + \alpha \sum_{j=i-n/2}^{i+n/2} (a^j_{x,y})^2 \right)^\beta}. \]

其中\(a^i_{x,y}\)是在\((x,y)\)位置第\(i\)个通道的激活值，\(n\)个相邻通道，\(N\)个总通道数，其实也就是相应卷积核数

其含义是：在同一空间位置，相邻通道之间形成竞争关系，强激活被抑制，弱激活相对突出

3.3.2 设计动机

尽管 ReLU 不会饱和，作者仍发现：额外的归一化有助于泛化，灵感来源于生物神经系统中的 lateral inhibition

作者特别指出：该方法并非对比度归一化（contrast normalization），更接近亮度归一化（brightness normalization）。2.Contrast Normalization（对比度归一化）

3.3.3 实验效果与历史评价

LRN 带来的改进：Top-1 error ↓ 1.4%，Top-5 error ↓ 1.2%

但从事后视角看：LRN 已被 BatchNorm、LayerNorm 等机制取代，其价值在于揭示了深网络中归一化的必要性

3.4 重叠池化（Overlapping Pooling）

3.4.1 传统池化的局限

传统 max pooling：窗口大小 \(z\)，步长 \(s = z\)，相邻池化区域不重叠

其问题在于：信息损失较大，对位置变化敏感

3.4.2 AlexNet 的选择与效果

AlexNet 使用：窗口 \(z = 3\)，步长 \(s = 2\)

即重叠池化（overlapping pooling）：

提供更平滑的空间下采样
减少过拟合倾向
Top-1 error ↓ 0.4%
Top-5 error ↓ 0.3%

3.5 整体网络结构与参数分布

3.5.1 网络整体概览

AlexNet 包含：5 个卷积层，3 个全连接层，最终接 1000-way softmax

训练目标为最大化多项逻辑回归的对数似然。

3.5.2 关键结构特征

第一层使用 \(11\times11\) 大卷积核，stride=4
→ 快速降采样 + 大感受野
归一化与池化仅用于前两层
→ 控制计算量
全连接层（4096 × 2）
→ 占据绝大多数参数

3.5.3 深度的重要性

作者通过消融实验发现：移除任意一个卷积层，即便该层参数占比 <1%，性能仍显著下降

这提供了一个重要结论：

深度本身是性能提升的关键因素，而非单纯参数数量。

3.6 本章总结（Takeaways）

ReLU 解决了深 CNN 的可训练性问题
多 GPU 设计突破了硬件限制
归一化与池化机制改善泛化
AlexNet 首次系统性验证：
- 深度
- 规模
- 工程设计在大规模视觉任务中的决定性作用

4. 减少过拟合（Reducing Overfitting）

在完成网络结构设计之后，AlexNet 面临的主要挑战从“是否可训练”转向“是否具有良好的泛化能力”。尽管 ImageNet 提供了约一百二十万张带标注的训练样本，但对于一个包含约六千万参数的深度卷积神经网络而言，这一规模仍然不足以从统计意义上完全约束模型参数。因此，本章的目标在于系统性地引入随机性，以在不缩减模型容量的前提下抑制过拟合。

4.1 数据增强（Data Augmentation）

4.1.1 随机裁剪与水平翻转

设原始输入图像经过等比例缩放并中心裁剪后得到大小为 \(256 \times 256\) 的图像 \(I\)。在训练阶段，网络并不直接使用 \(I\)，而是从中随机采样一个空间子区域 \(I^{(k)}\)，其尺寸为 \(224 \times 224\)。该采样过程可以形式化为一个随机算子 \[ I^{(k)} = T_k(I), \] 其中 \(T_k\) 表示一次随机空间裁剪与可能的水平翻转操作。训练目标因此不再是最小化单一输入上的经验风险，而是最小化关于所有可能变换的期望损失 \[ \mathbb{E}_{T}\left[ \ell\big(f_\theta(T(I)), y\big) \right], \] 其中 \(f_\theta\) 表示参数为 \(\theta\) 的网络，\(\ell(\cdot)\) 为分类损失函数。该期望的引入迫使模型学习对目标空间位置变化保持不变的表示，从而显著缓解过拟合。

4.1.2 测试阶段的多裁剪预测

在测试阶段，为了与训练阶段的随机输入分布保持一致，AlexNet 对每一张测试图像构造多个确定性的裁剪视角。设 \(\{T_1, T_2, \dots, T_{10}\}\) 表示从原始图像生成的十种裁剪与翻转操作，则最终预测分布由以下形式给出 \[ p(y \mid I) = \frac{1}{10} \sum_{k=1}^{10} p\big(y \mid f_\theta(T_k(I))\big). \] 这一过程可以理解为在输入空间中对模型进行近似集成，从而降低单一裁剪带来的预测方差。

4.1.3 基于 PCA 的颜色扰动

作者首先在整个训练集的 RGB 像素空间中计算协方差矩阵并执行主成分分析，得到特征向量 \(p_1, p_2, p_3\) 及对应特征值 \(\lambda_1, \lambda_2, \lambda_3\)。对于任意训练图像中的像素向量

是所有训练集图像进行PCA，不是对每一类计算

\[ I_{x,y} = \begin{bmatrix} I^R_{x,y} \\ I^G_{x,y} \\ I^B_{x,y} \end{bmatrix}, \] 其增强后的像素值定义为 \[ \tilde{I}_{x,y} = I_{x,y} + \sum_{i=1}^{3} \alpha_i \lambda_i p_i, \] 其中 \(\alpha_i \sim \mathcal{N}(0, 0.1^2)\)。该扰动沿着训练数据中真实出现的主要颜色变化方向施加，从而在不破坏图像结构的前提下模拟光照条件变化。

4.2 Dropout

4.2.1 全连接层中的过拟合来源

AlexNet 的参数主要集中于两个维度为 \(4096\) 的全连接层中。由于这些层缺乏卷积层所具有的空间结构约束，其神经元容易形成高度依赖的共适应关系，从而导致严重的过拟合现象。

4.2.2 训练阶段的 Dropout 机制

在训练阶段，对于某一隐藏层的激活向量 \(h \in \mathbb{R}^d\)，Dropout 通过引入一个随机掩码向量 \[ m \sim \text{Bernoulli}(p)^d \] 来生成新的激活 \[ \tilde{h} = m \odot h, \] 其中 \(\odot\) 表示逐元素乘法，AlexNet 中通常取 \(p = 0.5\)。被置零的神经元在该次前向传播与反向传播中均不参与计算，因此每一次迭代实际上都在训练一个不同的子网络。

4.2.3 测试阶段的期望等价近似

在测试阶段，AlexNet 使用完整网络进行前向传播，并将隐藏层激活按保留概率进行缩放，即 \[ h_{\text{test}} = p \cdot h. \] 该操作可以视为对训练阶段所有随机子网络预测结果的几何平均的一种近似，从而在计算代价可控的前提下实现模型集成效果。

4.2.4 训练代价与泛化收益

作者指出，引入 Dropout 会显著增加模型达到收敛所需的训练迭代次数，但若缺少该机制，全连接层将出现不可接受的过拟合现象。这表明，在 AlexNet 的规模下，泛化能力的获得依赖于在模型内部显式引入随机性，而非简单压缩模型容量。

4.3 本章总结

通过在输入空间引入随机变换以及在模型内部引入随机失活机制，AlexNet 成功抑制了大规模深度卷积网络在 ImageNet 上的过拟合问题。本章表明，在深度学习框架下，泛化能力的提升往往依赖于对不确定性的系统性建模，而不是对模型复杂度的回避。

5. 学习细节（Details of Learning）

5.0 本章定位

在网络结构与正则化方法确定之后，AlexNet 的关键问题转化为如何在实际计算资源约束下稳定地优化一个高维、非凸目标函数。本章系统性地描述了训练过程中所采用的损失函数形式、优化算法、正则化项以及参数初始化与学习率调度策略，从而使整个模型训练过程具备可复现性。

5.1 优化目标与损失函数

AlexNet 将 ImageNet 分类任务建模为一个多项逻辑回归问题。设网络最后一层的线性输出为 \(z \in \mathbb{R}^{1000}\)，则对应的 Softmax 概率分布定义为 \[ p(y=i \mid x) = \frac{\exp(z_i)}{\sum_{j=1}^{1000} \exp(z_j)}. \] 训练目标为最小化负对数似然损失，即 \[ \mathcal{L}(\theta) = - \sum_{n=1}^{N} \log p(y^{(n)} \mid x^{(n)};\theta), \] 该目标函数等价于在模型参数空间中执行最大似然估计。

5.2 带动量的随机梯度下降

模型参数通过带动量的随机梯度下降进行更新。设第 \(t\) 次迭代中的参数为 \(\theta_t\)，动量变量为 \(v_t\)，则更新规则为 \[ v_{t+1} = \mu v_t - \eta \nabla_\theta \mathcal{L}(\theta_t), \] \[ \theta_{t+1} = \theta_t + v_{t+1}. \] 其中 \(\eta\) 表示学习率，\(\mu\) 表示动量系数。动量机制能够在降低梯度噪声的同时加速一致下降方向上的收敛。

5.3 权重衰减

为抑制参数规模过大导致的过拟合，AlexNet 在优化目标中加入 \(L_2\) 正则项。修正后的目标函数为 \[ \mathcal{L}_{\text{total}}(\theta) = \mathcal{L}(\theta) + \lambda \|\theta\|_2^2. \] 在梯度下降更新中，该正则项等价于对参数施加一个与学习率相关的缩放因子，从而持续抑制权重幅值的增长。

5.4 学习率调度策略

训练过程中采用分阶段的学习率调度策略。当验证集误差不再下降时，学习率被缩小为原值的十分之一。该策略可形式化为分段常数函数 \[ \eta_t = \begin{cases} \eta_0, & t < t_1, \\ 0.1\,\eta_0, & t_1 \le t < t_2, \\ 0.01\,\eta_0, & t \ge t_2. \end{cases} \] 该调度方式在实践中显著提高了深度网络训练的稳定性。

5.5 参数初始化

所有权重参数均从零均值高斯分布中采样，即 \[ w \sim \mathcal{N}(0, \sigma^2), \] 其中 \(\sigma\) 被设为较小常数以避免初始激活值过大。偏置参数初始化为常数，在部分层中取正值，以确保 ReLU 单元在训练初期处于激活状态。

5.6 小批量训练

模型训练采用小批量随机梯度下降，每次更新基于一个固定规模的样本子集。小批量策略在计算效率与梯度估计稳定性之间取得了平衡，并充分利用了 GPU 的并行计算能力。

5.7 本章总结

本章展示了 AlexNet 在优化与训练层面的系统性设计。通过合理选择损失函数、优化算法、正则化方式以及学习率调度策略，作者在当时的计算条件下成功训练了一个大规模深度卷积神经网络，为后续深度学习实践提供了重要范式。

6. 实验结果（Results）

6.0 本章定位

在前几章详细介绍网络结构、正则化方法以及训练细节之后，本章通过在 ImageNet 大规模分类任务上的实验结果，对前述设计决策进行系统性验证。该部分的重点不仅在于报告数值性能，更在于说明深度卷积神经网络在真实复杂视觉任务中所展现出的优势。

6.1 ImageNet 分类性能

AlexNet 在 ILSVRC-2010 与 ILSVRC-2012 数据集上均取得了显著优于既有方法的性能表现。评测指标采用 Top-1 error 与 Top-5 error，其中 Top-5 error 在包含一千个类别的分类任务中尤为重要。实验结果表明，AlexNet 在单模型设置下即实现了对传统手工特征方法的明显超越。

6.2 单模型与模型集成

作者进一步考察了多模型集成对性能的影响。设第 \(k\) 个模型对输入 \(x\) 的预测分布为 \(p_k(y \mid x)\)，则 \(K\) 个模型的集成预测定义为 \[ p_{\mathrm{ens}}(y \mid x) = \frac{1}{K} \sum_{k=1}^{K} p_k(y \mid x). \] 实验结果显示，模型集成能够进一步降低分类错误率，但即使不使用集成，单个 AlexNet 模型的性能也已经显著领先于当时所有非深度学习方法。这一现象表明，性能提升的核心来源在于模型结构与训练方法本身，而非后期的集成策略。

6.3 错误分析

通过对错误分类样本的定性分析，作者发现部分错误源于图像本身的歧义性，例如目标尺寸过小或严重遮挡；另一些错误则反映了细粒度类别之间的语义重叠。这些现象说明，模型性能在一定程度上受限于数据标注与任务定义本身，而不仅仅是特征表达能力。

6.4 设计决策的经验验证

综合实验结果可以看出，ReLU 激活函数的使用使得深层网络能够稳定训练并达到更低的经验风险；数据增强与 Dropout 有效缓解了过拟合问题；而足够大的模型容量则为复杂视觉模式的学习提供了必要条件。本章的实验结果从经验层面对前文所有关键设计选择进行了验证。

6.5 本章总结

本章表明，AlexNet 在 ImageNet 上取得的成功并非源于单一技巧，而是多项结构设计与训练策略协同作用的结果。这些结果标志着深度卷积神经网络在大规模视觉识别任务中对传统方法的系统性超越。

补充

1.卷积神经网络（CNN）的核心归纳偏置

1.1 归纳偏置（Inductive Bias）的基本概念

在监督学习中，我们希望通过有限样本学习一个映射 \[ f: \mathcal{X} \rightarrow \mathcal{Y}. \]

当输入空间 \(\mathcal{X}\) 极其复杂（如自然图像）而样本数量有限时，问题往往是欠定的（underdetermined）：
存在大量不同的函数 \(f\) 都能在训练集上达到相似误差。

此时，模型的结构假设决定了它更倾向于哪一类函数，这种结构性偏好被称为：

归纳偏置（Inductive Bias）

归纳偏置不是通过数据学习得到的，而是直接写进模型结构中的。

1.2 自然图像的结构性假设

AlexNet 在引言中隐含但非常关键的论点是：

自然图像不是“任意高维向量”，而是具有稳定统计结构的空间信号。

卷积神经网络（CNN）的核心归纳偏置可以概括为两点： 1. 局部性（Locality） 2. 平稳性（Stationarity）

1.3 局部性（Locality）

1.3.1 局部相关性的经验事实

对自然图像而言，像素之间的统计相关性通常满足：空间距离越近，相关性越强；空间距离越远，相关性越弱

直观上：边缘、角点、纹理等基本视觉结构，都是由局部像素模式构成。远距离像素往往属于不同物体或背景区域

这意味着，建模时不必让每个神经元“直接看到全图”。

1.3.2 局部感受野（Receptive Field）

卷积层中的神经元仅连接到输入图像的一个小邻域（如 \(3\times3\)、\(5\times5\)）：

单个神经元：检测局部模式
多层堆叠：逐步扩大有效感受野

这体现了一种层级建模思想：

全局结构应当由局部结构逐级组合得到，而非一次性建模。

1.3.3 参数规模的数量级差异

设输入图像尺寸为 \(224\times224\times3\)：

全连接层（MLP）
若连接到 1000 个神经元： \[ 224 \times 224 \times 3 \times 1000 \approx 1.5\times10^8 \text{ 参数} \]
卷积层
使用 96 个 \(11\times11\times3\) 卷积核： \[ 11 \times 11 \times 3 \times 96 \approx 3.5\times10^4 \text{ 参数} \]

这是数量级的减少，直接带来：更强泛化能力，更低过拟合风险，更可行的训练计算量（尤其在 2012 年硬件条件下）

1.4 平稳性（Stationarity）

1.4.1 平稳性的工程含义

在 CNN 的语境中，平稳性并非严格的统计平稳性定义，而是指：

图像中“局部统计结构”在不同空间位置大致相似。

例如：边缘可以出现在任意位置，角点不依赖于绝对坐标，纹理模式具有空间重复性

1.4.3 平移等变性（Translation Equivariance）

卷积天然满足平移等变性： \[ \text{Conv}(T_\Delta I) = T_\Delta \text{Conv}(I), \] 其中 \(T_\Delta\) 表示空间平移算子。

这意味着：输入平移 → 特征图同步平移，后续通过 pooling / 下采样，逐步获得近似不变性

这是 CNN 在视觉任务中表现稳定的重要原因之一。

1.5局部性 + 平稳性的协同作用

两种归纳偏置共同定义了 CNN 的核心思想：

局部性：规则只作用于小邻域
平稳性：同一规则在整幅图像中复用

可以将 CNN 理解为：

在整幅图像上反复应用“局部模式检测器”，并通过层级堆叠将其组合成高层语义表示。

相比之下，MLP：忽略空间结构，参数冗余严重，泛化能力依赖极大量数据

1.6 假设的局限性与后续发展

CNN 的归纳偏置并非完美：平稳性在复杂场景中并不严格成立（前景 vs 背景），局部性限制了长程依赖建模效率

因此，后续工作引入：注意力机制（内容自适应），大核卷积，CNN + Transformer 混合结构

但即便如此，局部性与平稳性仍是视觉建模中最成功、最有效的结构先验之一。

2.Contrast Normalization（对比度归一化）

在 2012 年之前的视觉网络中，Contrast Normalization（对比度归一化）是一个非常常见、而且有比较明确含义的操作，通常发生在空间维度。

典型 contrast normalization 的核心思想是：

在一个空间邻域内，减去均值，再除以标准差，让局部patch的亮暗对比更突出，对光照变化更不敏感

3.Brightness Normalization（亮度归一化）

这里的“brightness”不是 RGB 像素的亮度，而是一个抽象意义上的亮度：

某个空间位置处，整体神经激活的“能量水平”有多高

目标是防止某些通道响应过大，改善泛化

4.Dropout 与多模型集成的关系

4.1 问题背景与常见表述

在深度学习文献中，Dropout 常被描述为一种“近似多模型集成”的方法。这一说法在工程实践中被广泛接受，但在理论层面，其含义与适用范围常被误解。本附录的目标在于澄清这一表述的数学基础，明确指出 Dropout 在何种意义下可以被理解为模型集成，以及这一解释在哪些条件下是严格成立的，在哪些条件下仅是一阶近似。

4.2 Dropout 训练目标的期望形式

设神经网络的参数为 \(\theta\)，输入为 \(x\)，标签为 \(y\)。在引入 Dropout 后，每一次前向传播都会采样一个随机掩码向量 \[ m \in \{0,1\}^d,\quad m_i \sim \mathrm{Bernoulli}(p), \] 从而得到一个依赖于 \(m\) 的子网络 \(f(x;\theta,m)\)。此时，Dropout 训练所最小化的目标函数可以写为 \[ \min_{\theta}\ \mathbb{E}_{m}\left[ \mathcal{L}\big(f(x;\theta,m), y\big) \right]. \] 该形式表明，训练过程并非针对单一确定模型进行优化，而是针对由所有可能掩码 \(m\) 所诱导的模型族的期望风险进行最小化。从目标函数层面看，这已经具备了模型平均或集成学习的基本形式。

4.3 线性模型中的严格等价性

在简单线性模型中，Dropout 与模型平均之间的关系可以被严格证明。考虑线性回归模型 \[ f(x) = w^\top x, \] 在输入层引入 Dropout 后，模型变为 \[ f(x;m) = w^\top (m \odot x). \] 若采用平方损失函数，则训练目标为 \[ \mathbb{E}_{m}\left[(y - w^\top (m \odot x))^2\right]. \] 可以解析地推导出 \[ \mathbb{E}_{m}\left[(y - w^\top (m \odot x))^2\right] = (y - p\, w^\top x)^2 + p(1-p)\sum_i w_i^2 x_i^2. \] 该结果表明，在该情形下，Dropout 等价于对确定性模型引入一个与数据相关的 \(L_2\) 正则项。这一结论在统计意义上是严格成立的，说明在简单模型中，Dropout 的确可以被解释为对一组随机子模型进行平均优化。

4.4 广义线性模型中的近似等价

对于逻辑回归等广义线性模型，Dropout 不再具有完全解析的等价形式。然而，可以证明，引入 Dropout 后的优化目标仍可被写为原始经验风险加上一个与输入分布相关的正则化项。尽管这一正则项的形式更加复杂，但其作用机制与线性模型中的结论一致，即抑制模型对特定特征组合的过度依赖。因此，在广义线性模型中，将 Dropout 解释为一种模型平均的近似仍然是合理的。

4.5 深度非线性网络中的近似解释

在深度神经网络中，由于非线性激活函数的存在，不同掩码 \(m\) 所对应的子网络在结构和函数形式上均不再满足线性可加性。因此，严格意义上的“模型平均”等价关系不再成立。换言之，不存在一个统一的解析表达式，使得 Dropout 网络的输出严格等于所有子网络输出的平均。

尽管如此，在测试阶段采用的缩放策略仍具有明确的数学依据。对于某一隐藏层激活 \(h\)，有 \[ \mathbb{E}[m \odot h] = p h. \] 当后续计算在局部区域内近似线性时，可以得到 \[ \mathbb{E}_{m}\big[f(x;\theta,m)\big] \approx f(x;\theta,p), \] 其中右侧表示在测试阶段使用确定性缩放网络的输出。这一关系并非严格等式，而是一阶近似，但在实践中被证明足以捕捉模型平均的主要效果。

4.6 参数共享子模型族的视角

与传统集成学习方法不同，Dropout 并非训练多个相互独立的模型，而是定义了一个指数规模的子模型族 \[ \{ f(x;\theta,m) \mid m \in \{0,1\}^d \}, \] 其中所有子模型共享同一组参数 \(\theta\)。训练过程可以被理解为在该模型族上进行参数共享的随机优化，而测试阶段的确定性网络则提供了对该族模型预测的有效近似平均。因此，将 Dropout 理解为“参数共享的随机子模型集成”比将其等同于传统 ensemble 更为准确。

4.7 小结

综上所述，Dropout 并非在所有情形下严格等价于多模型集成。在简单模型中，这种等价关系可以被严格证明；在深度非线性网络中，Dropout 更应被视为对指数数量的参数共享子网络进行期望意义下的近似平均。测试阶段的缩放策略并非经验技巧，而是对该模型平均的一阶近似实现。

Categories