Very Deep Convolutional Networks for Large-Scale Image Recognition

CNN

Computer Vision

Published

January 19, 2026

📍 ICLR 2015 👥 Simonyan, Zisserman (VGG) 📄 arXiv

vgg cnn imagenet deep-learning computer-vision

一句话总结

通过使用非常小的 \(3\times 3\) 卷积核并增加网络深度至 16-19 层，VGG 网络在 ImageNet 2014 挑战赛中取得分类和定位任务的第一、第二名，证明了网络深度是提升 CNN 性能的关键因素。

1 Introduction

本文首先指出，近年来卷积神经网络在大规模图像与视频识别任务上取得了显著成功。作者将这一进展归因于两个关键外部条件的成熟。一方面，大规模公开数据集（如 ImageNet）的出现，使得模型可以在足够多样且具有统计代表性的数据上进行训练。另一方面，高性能计算资源的普及，尤其是 GPU 以及大规模分布式计算系统，使得深层网络的训练在工程上成为可行方案。作者通过回顾相关工作，强调当前的 ConvNet 已经从早期的探索性方法，发展为计算机视觉领域的主流工具。

在这一背景下，作者进一步强调 ImageNet Large-Scale Visual Recognition Challenge 在推动视觉识别系统演进中的核心作用。ILSVRC 提供了一个统一且严格的评测平台，使得不同架构与训练策略的改进能够被直接比较。作者指出，ILSVRC 的发展历程体现了视觉识别方法的代际更替：从 2011 年依赖高维浅层特征编码的方法，到 2012 年以后由深层卷积神经网络主导的大规模分类体系。这一回顾的目的在于说明，ConvNet 架构的具体设计选择确实会对性能产生实质性影响。

在 AlexNet 之后，研究者围绕 ConvNet 架构提出了多种改进方向。作者在引言中总结了其中较为典型的两类。一类改进集中在卷积层的局部参数设置上，例如减小第一层卷积的感受野尺寸以及步幅，以获得更细粒度的特征表达。另一类改进则侧重于训练与测试阶段的策略调整，例如在整幅图像上进行更密集的评估，以及采用多尺度训练和测试来增强模型对尺度变化的鲁棒性。作者指出，这些方法在实践中均带来了性能提升，但往往同时改变了多个因素，从而使得单一设计选择的影响难以被清晰评估。

基于上述观察，作者提出本文关注的核心问题是卷积神经网络的深度。作者认为，网络深度本身是一个至关重要但当时缺乏系统对照实验验证的架构维度。本文的研究思路是在尽量固定其他设计原则的前提下，通过逐步增加卷积层数，来公平地评估网络加深对识别性能的影响。这种表述隐含了控制变量的实验设计思想，即希望将性能提升尽可能归因于深度这一单一因素。

为了使更深的网络在计算和优化层面都保持可行，作者在引言中提前点出其采用的基本设计策略，即在所有卷积层中主要使用 \(3\times 3\) 的小卷积核。作者暗示，这种设计可以在不显著增加参数规模的前提下，通过堆叠多层卷积逐步扩大有效感受野，并在每一层引入非线性变换，从而增强模型的表达能力。虽然具体的结构与参数分析将在后文展开，但这一设计动机在引言中已经被明确确立。

随后，作者概述了本文的主要实验结论。通过将网络深度推进到 16 至 19 个带权重层，所提出的卷积网络在 ILSVRC 的分类与定位任务上相较当时的主流配置取得了显著性能提升。作者强调，这种提升并非依赖于复杂的新模块或特殊结构，而是在统一设计原则下，通过单纯增加深度所获得的结果。

除了在 ImageNet 上的性能提升，作者还指出所学习到的深层视觉表示具有良好的迁移能力。当这些模型被用作其他视觉任务的特征提取器时，即便配合相对简单的下游分类器，也能够达到当时的最优或接近最优性能。作者在引言中明确表示将公开其中表现最好的两个模型，以便其他研究者直接使用深层视觉表征开展后续研究。

2 ConvNet Configurations

2.1 Architecture

2.1.1 输入与预处理：固定输入尺寸与最小化预处理的对照实验思想

作者规定训练阶段输入为固定大小的 \(224\times224\) RGB 图像，这一设计首先是为了在比较不同网络深度时保持输入分辨率一致，从而避免由输入尺度变化引起的特征图尺寸与参数量变化干扰“深度”这一自变量。

预处理仅执行逐像素减去训练集计算得到的 RGB 均值。可将每个像素的三通道向量记为 \(x_{ij}\in\mathbb{R}^3\)，训练集均值为 \(\mu\in\mathbb{R}^3\)，则预处理为 \[ \tilde{x}_{ij}=x_{ij}-\mu. \] 该操作相当于对输入进行通道维度的中心化，有利于优化稳定性，同时又不引入复杂的归一化结构，从而使架构对比更聚焦于网络本身。

2.1.2 卷积层设计原则：统一使用 \(3\times3\)，stride 为 1，并用 padding 保持分辨率

输入经过一系列卷积层。作者强调绝大多数卷积层使用 \(3\times3\) 卷积核，这是能够表达“左右、上下、中心”局部空间关系的最小卷积核尺寸。

作者将所有卷积层的步幅固定为 1，并通过空间 padding 保证卷积前后空间分辨率不变。用一维形式写出卷积输出长度的标准关系为 \[ H_{\text{out}}=\left\lfloor\frac{H_{\text{in}}+2p-k}{s}\right\rfloor+1 \] 其中 \(H_{\text{in}}\) 是输入高度，\(k\) 是核大小，\(p\) 是 padding，\(s\) 是 stride。对 \(3\times3\) 卷积令 \(k=3\)、\(s=1\)、\(p=1\)，则 \[ H_{\text{out}}=\left\lfloor\frac{H_{\text{in}}+2-3}{1}\right\rfloor+1=H_{\text{in}} \] 宽度方向同理，因此空间分辨率被严格保持。这一“保持分辨率”的卷积堆叠策略，使得网络可以通过加深层数逐步扩大有效感受野，同时不必在浅层就过早丢失空间细节。

2.1.3 \(1\times1\) 卷积：通道混合的线性变换与非线性增益

作者指出在某个配置中使用 \(1\times1\) 卷积。\(1\times1\) 卷积不改变空间邻域覆盖范围，它对每个空间位置 \((i,j)\) 的通道向量执行一次线性映射并接非线性。若输入特征在该位置的通道向量为 \(x_{ij}\in\mathbb{R}^{C_{\text{in}}}\)，\(1\times1\) 卷积权重为 \(W\in\mathbb{R}^{C_{\text{out}}\times C_{\text{in}}}\)，偏置为 \(b\in\mathbb{R}^{C_{\text{out}}}\)，则输出为 \[ y_{ij}=W x_{ij}+b \] 再经过 ReLU 得到 \[ z_{ij}=\max(0, y_{ij}) \] 因此该层的作用主要是增加通道间的交互与额外的非线性，而不直接扩大空间感受野。作者在 2.1 中先给出这种“可视为线性变换”的理解，为后续 2.3 讨论“增加非线性但不改变感受野”的设计动机做铺垫。

2.1.4 空间下采样：\(2\times2\) 最大池化与分辨率减半

作者采用最大池化进行空间下采样，并指出网络中共有五个 max-pooling 层，它们只出现在部分卷积层之后。每个池化层使用 \(2\times2\) 窗口且步幅为 2。对任意通道，若输入特征图为 \(a\)，则池化输出为 \[ b_{ij}=\max_{(u,v)\in\{0,1\}^2} a_{2i+u,\,2j+v} \] 该操作使空间尺寸近似减半。用输出尺寸公式表示，对 \(k=2\)、\(s=2\) 且通常 \(p=0\) 的池化， \[ H_{\text{out}}=\left\lfloor\frac{H_{\text{in}}-2}{2}\right\rfloor+1, \] 在常见的偶数尺寸下可近似理解为 \(H_{\text{out}}\approx H_{\text{in}}/2\)，宽度同理。由于 VGG 在卷积层中不使用大步幅卷积进行激进下采样，而是通过这种规则的池化逐步降低分辨率，因此浅层能够保留更充分的空间细节信息。

2.1.5 全连接、激活与归一化：统一 FC 头部，ReLU 全覆盖，并用对照验证 LRN 的价值

在卷积堆叠之后，作者统一使用三层全连接结构，且对所有网络配置保持一致。前两层均为 4096 维，最后一层为 1000 维以对应 ImageNet 的 1000 类。记最后一层的 logits 为 \(s\in\mathbb{R}^{1000}\)，则 softmax 概率为 \[ p_c=\frac{e^{s_c}}{\sum_{k=1}^{1000} e^{s_k}}. \] 这一“固定 FC 头部”的策略是控制变量的重要组成部分，确保深度对比主要反映卷积特征提取部分的差异。

作者还指出所有隐藏层都使用 ReLU 非线性。对任意标量激活 \(t\)，ReLU 定义为 \[ \operatorname{ReLU}(t)=\max(0,t). \] 在当时，ReLU 被认为能显著改善深网训练的优化效率，作者沿用这一经验性成功做法。

与 AlexNet 不同，作者强调除一个配置外，VGG 网络不包含 Local Response Normalization。LRN 在 AlexNet 中常用的形式是对通道维度做局部归一化，设同一空间位置处的第 \(i\) 个通道激活为 \(a_i\)，则归一化输出可写为 \[ b_i=\frac{a_i}{\left(k+\alpha\sum_{j=\max(0,\,i-n/2)}^{\min(N-1,\,i+n/2)} a_j^2\right)^{\beta}}, \] 其中 \(n\) 是归一化窗口的通道数，\(N\) 是通道总数，\(k,\alpha,\beta\) 为超参数。作者在 2.1 中提前说明仅保留一个含 LRN 的对照网络，其目的在于通过后续实验验证 LRN 是否在 ILSVRC 上带来可测的性能收益；若无收益，则其额外的内存占用与计算代价没有必要。这一判断将在后续实验章节得到定量结论支撑。

2.2 Configurations

在给出统一的网络设计原则之后，作者在本节中明确列出了用于实验对比的具体网络配置。这些配置在整体结构上保持一致，仅在卷积层的深度上有所差异，其目的在于通过控制变量的方式，系统评估网络加深所带来的性能变化。

作者共设计并评估了五种主要配置，分别标记为 A、B、C、D、E。配置 A 为最浅的网络，包含 11 个带权重层，其中包括 8 个卷积层与 3 个全连接层。配置 E 为最深的网络，包含 19 个带权重层，其中卷积层数量增加至 16 个，而全连接层始终保持为 3 层不变。其余配置在深度上介于二者之间，通过逐步增加卷积层数形成一组可比较的结构序列。

在所有配置中，卷积层的通道宽度遵循同一增长规则。网络从第一层的 64 个通道开始，在每一次空间下采样（即 max pooling 之后），通道数翻倍，依次为 64、128、256、512，最终在高层保持 512 通道。这种设计反映了一种经验性但非常重要的结构假设：随着空间分辨率降低，特征应在通道维度上变得更加丰富，从而维持整体表示能力。

为了理解这些配置在参数规模上的差异，作者在 Table 2 中报告了每个网络的参数量。尽管网络深度显著增加，从 A 到 E 的参数量仅从约 133M 增加到约 144M。这一结果并非偶然，而是 \(3\times3\) 小卷积核反复堆叠的直接后果。若设某一卷积块的输入与输出通道数均为 \(C\)，则单个 \(3\times3\) 卷积层的参数量为\(9C^2\)。当多个 \(3\times3\) 卷积层堆叠时，参数量随层数线性增长，而不会像大卷积核那样呈平方级上升。

配置 C 在这一系列中具有特殊性。与 B 和 D 不同，配置 C 在若干位置引入了 \(1\times1\) 卷积层。正如在 Section 2.1 中所讨论的，这类卷积不会扩大空间感受野，而是通过通道线性变换与非线性激活增加网络的表达能力。作者通过将 C 与 B、D 的性能对比，试图区分“增加非线性”与“增加空间建模能力”这两种因素对最终识别精度的影响。

需要强调的是，在所有配置中，全连接部分保持完全一致。这一设计确保了分类头的容量不随网络深度变化，从而使实验结果更清晰地反映卷积特征提取部分深度变化的影响。

2.3 Discussion

在本节中，作者对前述网络设计选择进行了集中讨论，并将其与当时主流的 ConvNet 架构进行对比，以进一步澄清 VGG 设计的核心思想。

作者首先讨论了 \(3\times3\) 卷积核反复堆叠与使用大卷积核之间的关系。考虑不包含池化的情况，两个连续的 \(3\times3\) 卷积层，其有效感受野大小为 \(5\times5\)，三个连续的 \(3\times3\) 卷积层，其有效感受野大小为 \(7\times7\)。一般地，在 stride 为 1 的条件下，\(L\) 层 \(3\times3\) 卷积的有效感受野可近似表示为 \[ R_L = 1 + 2L. \] 因此，从感受野覆盖范围的角度看，多层小卷积核可以等效于单层大卷积核。

然而，作者指出二者在表达能力与参数效率上存在本质差异。假设输入与输出通道数均为 \(C\)，则三层 \(3\times3\) 卷积的参数量为 \[ 3 \cdot 9 C^2 = 27 C^2, \] 而单层 \(7\times7\) 卷积的参数量为 \[ 49 C^2. \] 由此可见，在获得相同有效感受野的前提下，堆叠小卷积核不仅参数量更少，而且在每一层之后引入了额外的非线性变换，从而使整体决策函数具有更强的表达能力。作者将这一现象解释为一种隐式正则化，即通过结构约束迫使大卷积核被分解为多个小卷积核与非线性组合。

随后，作者讨论了 \(1\times1\) 卷积的作用。通过比较配置 C 与 D 的性能，作者发现虽然 \(1\times1\) 卷积能够通过增加非线性提升性能，但若缺乏足够的空间感受野扩展，其效果仍然受限。这一观察表明，在大规模图像识别任务中，空间上下文建模能力与非线性复杂度同等重要，二者缺一不可。

作者还将 VGG 的设计与当时其他顶级模型进行了对比。例如，AlexNet 和 ILSVRC 2013 的优秀模型通常在第一层使用较大的卷积核（如 \(11\times11\) 或 \(7\times7\)），并配合较大的步幅进行快速下采样。相比之下，VGG 从输入开始即使用小卷积核和单位步幅，通过逐步堆叠来扩大感受野。这种设计在计算上更加规则，也使得深度成为可以被单独分析的核心变量。

作者进一步指出，GoogLeNet 同样采用了较深的网络结构与小卷积核，但其网络拓扑更为复杂，并且在前几层采用了更激进的下采样策略以降低计算量。与之相比，VGG 的结构更加简单直接，其实验结果表明，即便不引入复杂的分支结构，仅通过增加深度，也能够在大规模分类任务上取得极具竞争力的性能。

最后，作者总结认为，使用小尺寸卷积核构建非常深的网络，是一种在表达能力、参数效率与可训练性之间取得良好平衡的设计策略。这一结论不仅解释了 VGG 在 ILSVRC 上取得的性能提升，也为后续大量基于深度堆叠的卷积网络架构提供了重要的设计依据。

3 Training and Evaluation

本节详细描述了用于训练与评估 very deep ConvNets 的具体实现细节。作者在一开始就强调，这些设置并非为了引入新的训练技巧，而是尽量采用当时成熟、标准且可复现的方法，以确保后续实验中性能差异能够主要归因于网络结构，尤其是网络深度的变化。

3.1 Training

作者使用 mini-batch 随机梯度下降方法（SGD）对网络进行端到端训练。训练目标是在 ImageNet ILSVRC-2012 分类任务上最小化负对数似然损失。设训练样本为 \((x,y)\)，其中 \(y\in\{1,\dots,1000\}\)，网络最后一层输出 logits \(s\in\mathbb{R}^{1000}\)，则 softmax 概率定义为 \[ p_k=\frac{e^{s_k}}{\sum_{j=1}^{1000}e^{s_j}}, \] 相应的分类损失为 \[ \ell(x,y)=-\log p_y. \] 作者指出，该损失函数与最大化正确类别对数似然等价，是 ImageNet 分类中最常用的训练目标。

mini-batch 大小设置为 256，动量参数设为 0.9。作者在这里没有进行额外解释，但这一组合在当时的大规模 ConvNet 训练中被广泛采用，其作用是通过动量项平滑参数更新轨迹，加速收敛并减少震荡。

学习率的初始值设为 \(10^{-2}\)。作者采用分段式衰减策略：当验证集精度不再提升时，将学习率乘以 0.1。整个训练过程通常持续约 370k 次迭代。需要注意的是，作者并未针对不同网络配置单独调节学习率或训练轮数，而是对所有模型使用统一的调度策略，这一点对于后续结构对比的公平性至关重要。

在正则化方面，作者使用 \(\ell_2\) 权重衰减，系数设置为 \(5\times10^{-4}\)。在数学上，这相当于在经验风险最小化目标中加入 \[ \frac{\lambda}{2}\|\theta\|_2^2,\quad \lambda=5\times10^{-4}, \] 从而在参数更新时引入额外的 \(+\lambda\theta\) 项。作者在实验中观察到，该权重衰减设置对泛化性能有显著影响，并在后续章节中多次提及其重要性。

参数初始化采用高斯分布随机初始化，均值为 0，方差较小。偏置项初始化为 0。作者没有引入当时尚未普及的 Batch Normalization，而是依赖 ReLU 非线性与较小的初始权重来缓解深层网络中的梯度不稳定问题。

3.2 Data Augmentation

为了减少过拟合并提升模型的泛化能力，作者在训练阶段采用了标准的数据增强策略。具体而言，训练图像首先被各向同性缩放，使其最短边等于某一尺度 \(S\)，随后从缩放后的图像中随机裁剪一个 \(224\times224\) 的区域作为网络输入。该裁剪过程在每一次迭代中随机进行，因此同一张图像在不同 iteration 中会对应不同的输入样本。

此外，作者还在训练阶段对裁剪后的图像随机进行水平翻转。需要注意的是，作者没有使用更复杂的数据增强方法，例如颜色扰动或仿射变换，其目的是避免训练技巧掩盖网络结构本身的影响。

从数学角度看，数据增强可以被理解为对训练分布的扩展。若记原始训练图像为 \(I\)，数据增强操作定义了一个随机变换分布 \(\mathcal{T}\)，则训练目标可写为 \[ \min_\theta\ \mathbb{E}_{(I,y)}\ \mathbb{E}_{x\sim\mathcal{T}(I)}\big[\ell(f_\theta(x),y)\big]. \] 随机裁剪与翻转使模型在训练阶段暴露于不同空间位置和镜像配置下的输入，从而学习到对平移与镜像变化更鲁棒的表示。

3.3 Multi-scale Training

在标准数据增强之外，作者进一步引入多尺度训练（scale jittering）以增强模型对尺度变化的适应能力。具体做法是：在每一次训练迭代中，先随机从预定义的尺度区间中采样一个尺度 \(S\)，再将训练图像的最短边缩放到该尺度，随后执行随机 \(224\times224\) 裁剪。

当使用固定尺度训练时，作者通常取 \(S=256\) 或 \(S=384\)。在多尺度训练设置下，作者使用 \(S\in[256,512]\)，即在该区间内随机采样训练尺度。作者在本节中特别指出，多尺度训练仅改变输入图像的缩放尺度，而不改变网络结构本身，因此可以被视为一种输入层面的正则化手段。

作者在后续实验中将展示，即便在测试阶段只使用单一尺度，多尺度训练仍然能够显著降低分类错误率。这一现象表明，scale jittering 有助于模型捕获多尺度图像统计特性，而不仅仅是在测试阶段“见过更多尺度”。

3.4 Evaluation

在测试阶段，作者同样使用与训练阶段一致的输入尺寸要求，即网络的输入始终为 \(224\times224\)。因此，测试图像在送入网络之前也需要先进行缩放与裁剪。作者在本节中区分了多种评估方式，其差异将在 Section 4 中通过系统实验进行比较。

首先是单尺度测试（single-scale evaluation）。对于使用固定尺度 \(S\) 训练的模型，测试时将图像最短边缩放到 \(Q=S\)；对于使用尺度抖动训练的模型（\(S\in[S_{\min},S_{\max}]\)），作者规定单尺度测试取 \[ Q=\tfrac{1}{2}(S_{\min}+S_{\max}). \] 这一约定在后续表格中被严格遵守，是理解实验结果的重要前提。

其次是多尺度测试（multi-scale evaluation）。作者在测试阶段对同一张图像使用多个测试尺度 \(Q_1,\dots,Q_M\) 进行前向传播，并对得到的 softmax 后验概率进行平均。设在第 \(m\) 个尺度下得到的后验为 \(p^{(m)}\)，则最终预测概率为 \[ p=\frac{1}{M}\sum_{m=1}^M p^{(m)}. \] 作者强调，平均的是 softmax 输出的后验概率，而非 logits。

此外，作者还在 Section 4.3 中比较了 dense evaluation 与 multi-crop evaluation 两种评估方式。dense evaluation 通过在整张缩放后的图像上以卷积方式密集评估所有位置，而 multi-crop evaluation 则在固定位置裁剪多个 \(224\times224\) 区域并分别评估。两者在边界条件处理方式上的差异，被作者认为是其性能互补性的潜在来源。

作者在本节的结尾指出，尽管上述评估策略在当时已被广泛使用，但它们与 very deep ConvNet 的结构设计相结合，才能充分释放网络深度所带来的性能优势。后续 Section 4 将通过系统实验定量展示这些训练与评估选择的影响。

4 Classification Experiments

作者在本节明确：所有分类实验都在 ILSVRC-2012 数据集上进行，该数据集用于 ILSVRC 2012–2014 挑战，包含 1000 类。数据划分为训练集 1.3M 图像、验证集 50K 图像、测试集 100K 图像（测试集标签不公开）。分类性能用 top-1 error 与 top-5 error 两个指标衡量，其中 top-1 error 是多分类错误率，top-5 error 是 ground-truth 类别不在预测前 5 类中的比例，并且 top-5 是 ILSVRC 的主要评测标准。多数实验以验证集作为测试集，部分实验提交到官方 ILSVRC server，以 “VGG” 队名作为 ILSVRC-2014 参赛结果的一部分。

为了后续读表不混乱，需要把作者在本节使用的尺度符号写成明确的数学对象。作者沿用 Section 3 的约定：训练尺度记为 \(S\)（训练时把训练图像等比例缩放，使最短边为 \(S\)，再从中裁 \(224\times224\) crop），测试尺度记为 \(Q\)（测试时把测试图像等比例缩放，使最短边为 \(Q\)，再进行 dense 或 multi-crop 等评估）。在 Section 4.1 中作者还给出：当训练使用固定 \(S\) 时，单尺度测试取 \(Q=S\)；当训练使用抖动尺度 \(S\in[S_{\min},S_{\max}]\) 时，单尺度测试取 \[ Q=\tfrac{1}{2}(S_{\min}+S_{\max}). \] 这一点是后面读 Table 3 的关键，因为表中 train(S) 与 test(Q) 的对应关系不是随意选的。

4.1 Single-scale evaluation（单尺度测试下比较“结构因素”）

作者首先做单尺度测试：评估对象是 Section 2.2 的配置 A–E（以及 A-LRN），并在单一测试尺度 \(Q\) 下测 top-1/top-5 error，结果在 Table 3。作者在这一小节中给出一串非常“密集”的结论句，每一句都对应一个控制变量判断。

第一条结论是关于 LRN：

作者明确指出 A-LRN（使用 local response normalisation 的 A 网络）并没有优于不含任何 normalisation layer 的 A 网络，因此后续更深的架构（B–E）不再使用 normalisation。这里不是“主观选择”，而是通过 Table 3 的直接对照得出。具体数值为：A 在 train/test 都为 256 时 top-1 29.6、top-5 10.4；A-LRN 在同样条件下 top-1 29.7、top-5 10.5。也就是说，LRN 不带来收益甚至略差，并且作者强调其会增加内存和计算（这一点在前文已预告）。

第二条结论是关于“深度”：

作者观察到分类错误率随着 ConvNet 深度增加而下降，从 A 的 11 层到 E 的 19 层。这里的“深度”指带权重层数（conv+FC），与 Table 1 的定义一致。该结论在 Table 3 的一系列数值中体现得很直接，例如在固定训练/测试尺度 256 的条件下，从 A 的 29.6/10.4（top-1/top-5）到 D 的 27.0/8.8，再到更深网络的更低错误率（在其他设置下更明显）。作者还提出“saturates when the depth reaches 19 layers”，即到 19 层时收益趋于饱和，但也补了一句：更深模型在更大数据集上可能仍然有益，这是一句带条件的推断而非已证结论。

第三条结论是“同深度 C vs D 的结构差异”：

作者强调，尽管配置 C 与 D 都是 16 层，C 含有三个 \(1\times1\) 卷积层，而 D 全程使用 \(3\times3\) 卷积层。结果是 C 的表现差于 D。作者把这句话拆成两层因果：额外非线性确实有用（C 优于 B），但捕获空间上下文也同样重要，因此具有非平凡感受野的卷积（\(3\times3\)）带来更好的结果（D 优于 C）。这一段在原文中是非常“结论密集”的句式，必须完整保留其比较关系：C>B，同时 D>C，因而“仅增加非线性不足，空间感受野同样关键”。

把作者的“spatial context / receptive fields”落到数学上：\(1\times1\) 卷积在空间上不扩展感受野，它对每个像素位置只做通道线性变换 \[ y_{ij}=W x_{ij}+b, \] 而堆叠 \(3\times3\) 卷积在 stride=1 情况下会扩展有效感受野，近似满足 \[ R_L=1+2L. \] 因此 C 增加的是非线性层数但不改变空间邻域，D 增加的是空间邻域建模能力，这正对应作者对 C、D 差异的解释方向。

第四条结论是“深而小核 vs 浅而大核”的对照：

作者把 net B 改造成一个浅层网络：用 5 个 \(5\times5\) 卷积层替换 B 中每对 \(3\times3\) 卷积层（保持有效感受野一致，这一点在 Section 2.3 已解释），并报告该浅层网络的 top-1 error 在 center crop 设置下比 B 高 7%。这句话非常重要，因为它是对 Section 2.3“分解大卷积核带来好处”的实证支撑：即便有效感受野相同，深度与中间非线性仍然带来优势。

第五条结论是关于训练尺度抖动（scale jittering）：

作者在单尺度测试条件下也能看到训练时 scale jittering 的收益。具体是训练使用 \(S\in[256,512]\)（表中写作 \([256;512]\)）显著优于固定 \(S=256\) 或 \(S=384\) 的训练，即便测试只用一个尺度。作者把这一点解释为：scale jittering 作为训练集增强，有助于捕获 multi-scale image statistics。该结论在 Table 3 的 D/E 行中尤为清晰，例如 D 在固定训练/测试 384 时为 26.8/8.7，而训练抖动 \([256;512]\)、单尺度测试取 384 时变为 25.6/8.1；E 也从 26.9/8.7（384/384）变为 25.5/8.0（[256;512]/384）。

若 \(\mathcal{T}\) 表示“缩放到不同 \(S\) 再随机 crop”的增强分布，则优化目标是 \[ \min_\theta\ \mathbb{E}_{(I,y)}\ \mathbb{E}_{x\sim \mathcal{T}(I)}\big[\ell(f_\theta(x),y)\big], \] scale jittering扩大了 \(\mathcal{T}\) 的支持集，使模型在尺度方向上学习到更稳健的统计。

4.2 Multi-scale evaluation（测试时也做尺度抖动，且解释“训练/测试尺度不匹配会掉点”）

在做完单尺度测试后，作者评估测试时的 scale jittering：核心操作是对同一张测试图像用多个 \(Q\) 进行前向，得到多个类别后验（softmax outputs），再对后验进行平均。用符号表示：若第 \(m\) 个尺度输出后验为 \(p^{(m)}\)，则融合后验为 \[ p=\frac{1}{M}\sum_{m=1}^M p^{(m)}. \] 这一句“averaging the resulting class posteriors”在后面的融合（4.4）也会再次出现，所以这里要记牢：作者做融合时平均的是后验而非 logits。

作者在这里加入一个非常关键的“限定条件”：训练尺度与测试尺度差距过大，会导致性能下降。因此对于固定训练尺度 \(S\) 的模型，作者只在靠近训练尺度的三个测试尺度上评估： \[ Q=\{S-32,\ S,\ S+32\}. \] 而对于训练时已经做了 scale jittering 的模型（\(S\in[S_{\min},S_{\max}]\)），测试时可以在更宽的尺度范围评估： \[ Q=\{S_{\min},\ \tfrac{1}{2}(S_{\min}+S_{\max}),\ S_{\max}\}. \] 这两组 \(Q\) 的选择是原文里非常“细节但很关键”的实验设定，因为它解释了 Table 4 中每行的 \(Q\) 为什么是那三个数，而不是随意挑。对应表中，\(S=256\) 时 \(Q=224,256,288\)；\(S=384\) 时 \(Q=352,384,416\)；\(S\in[256,512]\) 时 \(Q=256,384,512\)。

作者结论是：测试时 scale jittering 相比单尺度测试（Table 3）带来更好性能；同样，最深的配置 D/E 最好；训练时做 jittering 优于固定 \(S\)。作者还给出一个“标杆数值”：验证集上最佳单网络表现为 24.8%/7.5% top-1/top-5（Table 4 中用加粗标出），并且在测试集上，配置 E 达到 7.3% top-5 error。注意这两句一个是 val，一个是 test，且一个是 best single-network，一个是 specific config E 的 test 结果，笔记里需要分别记清楚。Table 4 的关键行是：D 在 \(S\in[256,512], Q=256,384,512\) 时达到 24.8/7.5；E 在同样设置下也为 24.8/7.5。对比 Table 3 的单尺度结果可以看到多尺度测试的提升幅度。

4.3 Multi-crop evaluation（dense vs multi-crop，并点名“互补性来自边界条件处理不同”）

作者在 Table 5 对比两种评估方式：dense evaluation 与 multi-crop evaluation（细节在 Section 3.2）。作者并不仅仅比较谁更好，还做了“互补性检验”：将两者的 softmax outputs 做平均，发现组合优于各自单独使用。作者写得非常直接：multi-crop 略优于 dense；两者确实互补；其组合最好。这里最重要的细节是：组合方式仍然是平均 softmax outputs，而非平均 logits 或投票。

作者给出一个解释性假设（hypothesize）：互补性来源于卷积边界条件的不同处理。这个细节在 Section 3.2 有更具体的说明：对 crop 做卷积时，特征图边缘会用零填充；而 dense evaluation 在同一 crop 区域的“边缘 padding”来自原图相邻区域（经过卷积与池化传播），从而“实质上增加了整体感受野，捕获更多上下文”。因此 multi-crop 与 dense 的差异并不仅是“采样多少”，还包括“边界处看到的上下文不同”。这句话是理解 Table 5 结果的关键机制解释。

Table 5 的实验设定也必须记住：训练尺度 \(S\) 从 \([256,512]\) 采样；测试尺度取三值 \(\{256,384,512\}\)。在此设定下，D 与 E 的结果分别是：D 的 dense 24.8/7.5，multi-crop 24.6/7.5，multi-crop & dense 24.4/7.2；E 的 dense 24.8/7.5，multi-crop 24.6/7.4，multi-crop & dense 24.4/7.1。这里可以看到“互补”主要体现在 top-5 上的进一步下降，且 E 的组合达到 7.1。

4.4 ConvNet fusion（多模型融合：把“互补性”推广到模型之间）

作者指出，到目前为止评估的是单模型；本小节把多个模型的输出通过平均 softmax 后验进行融合，以利用模型之间的互补性，这也是 2012 与 2013 ILSVRC 顶级提交常用的策略。这里仍然强调融合对象是 “soft-max class posteriors”。

作者给出 ILSVRC 提交时的现实限制：当时只训练了 single-scale networks，并训练了一个 multi-scale 的 D（但其 multi-scale 是通过只 fine-tune 全连接层而非全网来得到）。由这些模型组成的 7 网络 ensemble 达到 7.3% ILSVRC test error。提交后，作者再考虑只用两个最佳 multi-scale 模型（D 与 E）的 ensemble：dense evaluation 下测试误差 7.0%，multi-crop & dense 进一步到 6.8%。作者还特意给出参照：最佳单模型（E，Table 5）是 7.1% error。这里的逻辑顺序是“7 模型 → 2 模型 → 单模型参照”，不要写反。

Table 6 列出融合用到的具体模型组合与误差，其中 ILSVRC submission 的 7 模型组合包括多个 D/C/E 的不同训练尺度与测试尺度配置；post-submission 则主要是 D 与 E 在 \(S\in[256,512], Q=256,384,512\) 的组合，并分别报告 dense、multi-crop、以及 combined multi-crop & dense 的 val/test 误差（例如 23.7/6.8/6.8）。这些具体组合写法（如 D/[256;512]/256,384,512）是作者用来精确标记“训练尺度/测试尺度/评估方式”的。

4.5 Comparison with the state of the art（与当时 SOTA 对比：强调“更深但结构经典”）

作者最后用 Table 7 与当时 SOTA 对比，并明确限定：只报告“不使用外部训练数据”的结果。作者给出一句非常强的结论：他们的 very deep ConvNets 显著优于 ILSVRC-2012/2013 的上一代最佳模型；与 ILSVRC-2014 分类冠军 GoogLeNet 的 6.7% error 相当有竞争力；并且显著优于 ILSVRC-2013 冠军 Clarifai（有外部数据 11.2%，无外部数据 11.7%）。作者强调“remarkable”的原因是：他们最佳结果只用两个模型融合，远少于多数 ILSVRC 提交使用的模型数。然后作者单独强调 single-net：他们的单网络达到 7.0% test error，比单个 GoogLeNet 好 0.9%。最后一句是“立论句”：他们没有脱离 LeCun et al. 1989 的经典 ConvNet 架构，而是通过显著增加深度来改进。这一句是全文思想的闭环，在笔记中不应缺失。

Table 7 的关键条目包括：VGG (2 nets, multi-crop & dense) 23.7/6.8/6.8；VGG (1 net, multi-crop & dense) 24.4/7.1/7.0；VGG (ILSVRC submission, 7 nets, dense) 24.7/7.5/7.3；以及 GoogLeNet、MSRA、Clarifai、Zeiler & Fergus、OverFeat、Krizhevsky 等的对照数值。注意表中部分方法未给 val top-1/top-5，只给 test top-5，这是当时论文常见写法，读表时要区分“缺失”与“未报告”。

5 Conclusion

在结论部分，作者首先重申本文的核心研究目标：系统研究卷积神经网络深度对大规模图像识别性能的影响。作者强调，本文并未提出新的卷积算子或复杂的网络模块，而是在统一且相对简单的架构设计原则下，通过显著增加网络深度，展示了分类性能的持续提升。

作者指出，实验结果清楚地表明，在使用小尺寸卷积核（主要是 \(3\times3\)）的前提下，可以构建非常深的卷积网络，并且这些网络在 ImageNet ILSVRC-2012 分类任务上取得了显著优于此前方法的性能。这里“very deep”在文中具有明确含义，指的是包含 16 至 19 个带权重层的网络配置，而非泛指“比以前稍深”。

作者特别强调，这种性能提升并非依赖于参数规模的急剧增长。由于采用了小卷积核并在空间下采样时同步增加通道数，不同深度模型之间的参数量差异相对有限。这一点对于理解深度本身的作用至关重要，因为它排除了“单纯更大模型容量”这一混杂因素。

在总结实验发现时，作者再次回到 Section 2.3 中提出的一个关键思想：多个小卷积核的堆叠不仅在感受野大小上可以等效于单个大卷积核，而且由于在每一层之后引入了非线性激活函数，使得整体判别函数具有更强的表达能力。作者在此将这一结构选择与实验结果直接对应，强调深度与非线性分解在性能提升中的共同作用。

作者还指出，本文所提出的 very deep ConvNets 在结构上并未偏离经典卷积神经网络框架。具体而言，网络仍然由卷积层、池化层和全连接层组成，并使用标准的 ReLU 非线性函数。这一表述并非随意强调“简单”，而是为了说明：即便在不引入复杂分支结构、注意力机制或特定任务模块的情况下，仅通过加深网络，也能够在大规模识别任务上达到极具竞争力的性能。

在结论中，作者进一步指出，本文提出的网络在 ILSVRC-2014 竞赛中构成了其参赛系统的基础，并在定位任务中获得第一名，在分类任务中获得第二名。这一事实被用来佐证本文方法在真实竞赛环境中的有效性，而不仅仅是在离线实验中的表现。

最后，作者将本文的贡献放置在更广泛的研究背景中进行定位。作者认为，本文的实验结果表明，网络深度是卷积神经网络设计中的一个关键因素，值得在后续研究中进一步系统探索。这一结论为之后一系列更深网络结构的提出提供了直接动机，也在一定程度上改变了社区对“深度是否可训练、是否有益”的认识。

结论部分整体语气保持克制，没有对未来工作进行过多猜测，而是将重点放在通过严格实验已经验证的事实之上。这种写作方式与全文强调的实验可控性与结论可信性保持一致。

补充

1. 关于最大池化的作用与必要性

在 VGG 这种以 \(3\times3\) 卷积为基本构件、且不使用 Batch Normalization 与残差连接的深层卷积网络中，最大池化并非可有可无的工程细节，而是承担了多重关键功能。理解为什么必须引入池化，需要从感受野、计算复杂度、表示不变性以及优化稳定性等多个层面进行分析。

首先，从几何意义上看，池化显著加速了感受野的增长。在 VGG 中，所有卷积层均采用 \(3\times3\) 卷积核、步幅为 1、并通过 padding 保持空间分辨率不变。在这种设置下，若忽略池化，仅通过堆叠卷积层来扩大感受野，则第 \(L\) 层神经元的有效感受野大小可以近似表示为 \[ R_L = 1 + 2L. \] 这意味着感受野随深度线性增长。如果完全不使用下采样操作，为了让高层特征覆盖较大的输入区域，网络必须变得极深。在 2014 至 2015 年这一时间背景下，由于缺乏 Batch Normalization、残差连接以及成熟的初始化技巧，仅依靠深度来扩大感受野在优化上是极不稳定的。通过在关键位置引入步幅为 2 的最大池化，网络可以在较少的层数内显著扩大高层神经元的感受野，从而在可训练的深度范围内获得全局上下文信息。

其次，从计算复杂度角度看，池化是控制运算规模的关键机制。卷积层的计算量近似与空间尺寸成正比，可写为 \[ \text{FLOPs} \propto H \cdot W \cdot C_{\text{in}} \cdot C_{\text{out}} \cdot k^2, \] 其中 \(H\) 和 \(W\) 为特征图的空间尺寸。如果空间分辨率始终保持不变，而通道数在网络中不断增加，则计算量会迅速变得不可接受。最大池化通过将空间尺寸从 \((H, W)\) 缩减为 \((H/2, W/2)\)，使得后续卷积层的计算复杂度按平方级下降，从而使得 VGG 这种“既深又宽”的结构在当时的计算资源条件下成为可能。

再次，从表示学习角度看，最大池化为网络引入了局部平移不变性。对于一个 \(2\times2\) 的最大池化窗口，其计算形式可以写为 \[ b_{ij} = \max_{(u,v)\in\{0,1\}^2} a_{2i+u,\,2j+v}. \] 当某个显著激活（例如边缘或角点响应）在该局部窗口内发生小幅位置变化时，池化后的输出保持不变。这种性质使网络对局部平移具有鲁棒性，更符合图像分类任务中“关心是否存在某种模式，而不严格关心其精确位置”的归纳偏置。

在此基础上，最大池化而非平均池化的选择也具有明确动机。平均池化保留的是局部区域的整体响应水平，而最大池化保留的是最显著的响应。在 ReLU 激活函数作用下，最大池化更接近一种“存在性判断”，即当且仅当某个判别性特征在局部区域内被强烈激活时，其信息才会被向上传递。这种机制使高层特征更倾向于表达语义性概念，而非局部强度的平均统计。

此外，在 VGG 这种不使用显式归一化机制的架构中，最大池化还在一定程度上起到了稳定激活分布的作用。由于池化操作会丢弃大量较小的激活值，仅保留每个局部区域中的主导响应，因此从统计意义上压缩了激活的有效自由度。这种效果虽然不能等同于归一化，但在实践中对缓解深层网络中激活分布的漂移具有一定帮助，可被视为一种隐式的弱正则化。

最后，需要指出的是，VGG 并未使用步幅大于 1 的卷积来替代池化，其原因与实验设计目标密切相关。通过将“特征提取”与“空间下采样”解耦，作者能够在保持结构规则性的同时，更清晰地分析不同深度网络的性能变化。这种设计选择体现了 VGG 论文强调控制变量、结构可解释性的整体思路。

综上所述，在 VGG 架构中，最大池化同时承担了加速感受野扩展、降低计算复杂度、引入局部平移不变性以及稳定训练过程等多重功能，是该网络能够在当时条件下成功扩展到较大深度的关键组成部分。

Categories