D2L-7-Modern Convolutional Neural Networks
本文最后更新于:1 年前
网络包括:AlexNet、VGG、NiN、GoogLeNet、ResNet、DenseNet
Pytorch手动计算维度太困难,英文版教材已经改为自动推导参数(Lazy)!!!可以看英文版的!!!
深度卷积神经网络AlexNet
- 经典机器学习的流水线看起来更像下面这样:
- 获取一个有趣的数据集。在早期,收集这些数据集需要昂贵的传感器(在当时最先进的图像也就100万像素)。
- 根据光学、几何学、其他知识以及偶然的发现,手工对特征数据集进行预处理。
- 通过标准的特征提取算法,如SIFT(尺度不变特征变换) (Lowe, 2004)和SURF(加速鲁棒特征) (Bay et al., 2006)或其他手动调整的流水线来输入数据。
- 将提取的特征送入最喜欢的分类器中(例如线性模型或其它核方法),以训练分类器。
- 观念上的重要改变!!!
- 人工特征提取 -> SVM(例如房价预测的问题,手动进行特征提取和调整这一步就很关键!)
- 通过CNN学习特征 -> Softmax回归(端到端,直接照片 -> 结果,这样整体进行学习!)
学习表征
- 设计一套新的特征函数、改进结果,并撰写论文是盛极一时的潮流。有些科学家的想法则与众不同:他们认为特征本身应该被学习。此外,他们还认为,在合理地复杂性前提下,特征应该由多个共同学习的神经网络层组成,每个层都有可学习的参数。在机器视觉中,最底层可能检测边缘、颜色和纹理。
- AlexNet在网络的最底层,模型学习到了一些类似于传统滤波器的特征抽取器。

AlexNet的更高层建立在这些底层表示的基础上,以表示更大的特征,如眼睛、鼻子、草叶等等。而更高的层可以检测整个物体,如人、飞机、狗或飞盘。最终的隐藏神经元可以学习图像的综合表示,从而使属于不同类别的数据易于区分。
- 深度卷积神经网络的突破出现在2012年。突破可归因于两个关键因素。
缺少的成分:数据
- 包含许多特征的深度模型需要大量的有标签数据,才能显著优于基于凸优化的传统方法(如线性方法和核方法)。 古老的时期,数据数量少,数据质量不高。2009年,ImageNet数据集发布,并发起ImageNet挑战赛:要求研究人员从100万个样本中训练模型,以区分1000个不同类别的对象。ImageNet数据集由斯坦福教授李飞飞小组的研究人员开发,利用谷歌图像搜索(Google Image Search)对每一类图像进行预筛选,并利用亚马逊众包(Amazon Mechanical Turk)来标注每张图片的相关类别。
缺少的成分:硬件
深度学习对计算资源要求很高,训练可能需要数百个迭代轮数,每次迭代都需要通过代价高昂的许多线性代数层传递数据。
用GPU训练神经网络改变了这一格局。图形处理器(Graphics Processing Unit,GPU)早年用来加速图形处理,使电脑游戏玩家受益。GPU可优化高吞吐量的4×4矩阵和向量乘法,从而服务于基本的图形任务。幸运的是,这些数学运算与卷积层的计算惊人地相似。由此,英伟达(NVIDIA)和ATI已经开始为通用计算操作优化gpu,甚至把它们作为通用GPU(general-purpose GPUs,GPGPU)来销售。
CPU vs GPU
- 中央处理器(Central Processing Unit,CPU)的每个核心都拥有高时钟频率的运行能力,和高达数MB的三级缓存(L3Cache)。 它们非常适合执行各种指令,具有分支预测器、深层流水线和其他使CPU能够运行各种程序的功能。 然而,这种明显的优势也是它的致命弱点:通用核心的制造成本非常高。 它们需要大量的芯片面积、复杂的支持结构(内存接口、内核之间的缓存逻辑、高速互连等等),而且它们在任何单个任务上的性能都相对较差。 现代笔记本电脑最多有4核,即使是高端服务器也很少超过64核,因为它们的性价比不高。
- GPU由100∼1000个小的处理单元组成(NVIDIA、ATI、ARM和其他芯片供应商之间的细节稍有不同),通常被分成更大的组(NVIDIA称之为warps)。 虽然每个GPU核心都相对较弱,有时甚至以低于1GHz的时钟频率运行,但庞大的核心数量使GPU比CPU快几个数量级。 例如,NVIDIA最近一代的Ampere GPU架构为每个芯片提供了高达312 TFlops的浮点性能,而CPU的浮点性能到目前为止还没有超过1 TFlops。 之所以有如此大的差距,原因其实很简单:首先,功耗往往会随时钟频率呈二次方增长。 对于一个CPU核心,假设它的运行速度比GPU快4倍,但可以使用16个GPU核代替,那么GPU的综合性能就是CPU的16×1/4=4倍。 其次,GPU内核要简单得多,这使得它们更节能。 此外,深度学习中的许多操作需要相对较高的内存带宽,而GPU拥有10倍于CPU的带宽。
当Alex Krizhevsky和Ilya Sutskever实现了可以在GPU硬件上运行的深度卷积神经网络时,一个重大突破出现了。他们意识到卷积神经网络中的计算瓶颈:卷积和矩阵乘法,都是可以在硬件上并行化的操作。 于是,他们使用两个显存为3GB的NVIDIA GTX580 GPU实现了快速卷积运算。他们的创新cuda-convnet几年来它一直是行业标准,并推动了深度学习热潮。
AlexNet
- 2012年,AlexNet横空出世。它首次证明了学习到的特征可以超越手工设计的特征。本书在这里提供的是一个稍微精简版本的AlexNet,去除了当年需要两个小型GPU同时运算的设计特点。

- AlexNet和LeNet的设计理念非常相似,但也存在显著差异。
- AlexNet比相对较小的LeNet5要深得多。AlexNet由八层组成:五个卷积层、两个全连接隐藏层和一个全连接输出层。
- AlexNet使用ReLU而不是sigmoid作为其激活函数。
模型设计
- AlexNet的第一层,卷积窗口的形状是11×11。 由于ImageNet中大多数图像的宽和高比MNIST图像的多10倍以上,因此,需要一个更大的卷积窗口来捕获目标。 第二层中的卷积窗口形状被缩减为5×5,然后是3×3。 此外,在第一层、第二层和第五层卷积层之后,加入窗口形状为3×3、步幅为2的最大汇聚层。 而且,AlexNet的卷积通道数目是LeNet的10倍。
- 在最后一个卷积层后有两个全连接层,分别有4096个输出。 这两个巨大的全连接层拥有将近1GB的模型参数。 由于早期GPU显存有限,原版的AlexNet采用了双数据流设计,使得每个GPU只负责存储和计算模型的一半参数。 幸运的是,现在GPU显存相对充裕,所以现在很少需要跨GPU分解模型(因此,本书的AlexNet模型在这方面与原始论文稍有不同)。
激活函数
- AlexNet将sigmoid激活函数改为更简单的ReLU激活函数。 一方面,ReLU激活函数的计算更简单,它不需要如sigmoid激活函数那般复杂的求幂运算。 另一方面,当使用不同的参数初始化方法时,ReLU激活函数使训练模型更加容易。 当sigmoid激活函数的输出非常接近于0或1时,这些区域的梯度几乎为0,因此反向传播无法继续更新一些模型参数。 相反,ReLU激活函数在正区间的梯度总是1。 因此,如果模型参数没有正确初始化,sigmoid函数可能在正区间内得到几乎为0的梯度,从而使模型无法得到有效的训练。
容量控制和预处理
- AlexNet通过暂退法( 4.6节)控制全连接层的模型复杂度,而LeNet只使用了权重衰减。 为了进一步扩充数据,AlexNet在训练时增加了大量的图像增强数据,如翻转、裁切和变色。 这使得模型更健壮,更大的样本量有效地减少了过拟合。
1 | |
- 我们构造一个高度和宽度都为224的单通道数据,来观察每一层输出的形状。
1 | |
读取数据集
- 尽管原文中AlexNet是在ImageNet上进行训练的,但本书在这里使用的是Fashion-MNIST数据集。因为即使在现代GPU上,训练ImageNet模型,同时使其收敛可能需要数小时或数天的时间。 将AlexNet直接应用于Fashion-MNIST的一个问题是,Fashion-MNIST图像的分辨率(28×28像素)低于ImageNet图像。 为了解决这个问题,我们将它们增加到224×224(通常来讲这不是一个明智的做法,但在这里这样做是为了有效使用AlexNet架构)。 这里需要使用
d2l.load_data_fashion_mnist函数中的resize参数执行此调整。
1 | |
训练模型
1 | |
使用块的网络VGG
块儿的思想!
VGG块
经典卷积神经网络的基本组成部分是下面的这个序列:
- 带填充以保持分辨率的卷积层;
- 非线性激活函数,如ReLU;
- 汇聚层,如最大汇聚层。
一个VGG块与之类似,由一系列卷积层组成,后面再加上用于空间下采样的最大汇聚层。在下面的代码中,我们定义了一个名为
vgg_block的函数来实现一个VGG块。
1 | |
VGG网络
- VGG网络可以分为两部分:第一部分主要由卷积层和汇聚层组成,第二部分由全连接层组成。
vgg_block函数中有超参数变量conv_arch。该变量指定了每个VGG块里卷积层个数和输出通道数。全连接模块则与AlexNet中的相同。
- 原始VGG网络有5个卷积块,其中前两个块各有一个卷积层,后三个块各包含两个卷积层。 第一个模块有64个输出通道,每个后续模块将输出通道数量翻倍,直到该数字达到512。由于该网络使用8个卷积层和3个全连接层,因此它通常被称为VGG-11。
1 | |
- 下面的代码实现了VGG-11。可以通过在
conv_arch上执行for循环来简单实现。
1 | |
- 接下来,我们将构建一个高度和宽度为224的单通道数据样本,以观察每个层输出的形状。
1 | |
- 正如从代码中所看到的,我们在每个块的高度和宽度减半,最终高度和宽度都为7。最后再展平表示,送入全连接层处理。
训练模型
- VGG-11比AlexNet计算量更大,因此我们构建了一个通道数较少的网络,足够用于训练Fashion-MNIST数据集。
1 | |
网络中的网络NiN
- LeNet、AlexNet和VGG都有一个共同的设计模式:通过一系列的卷积层与汇聚层来提取空间结构特征;然后通过全连接层对特征的表征进行处理。 AlexNet和VGG对LeNet的改进主要在于如何扩大和加深这两个模块。网络中的网络(NiN)提供了一个非常简单的解决方案:在每个像素的通道上分别使用多层感知机。
NiN块
- NiN的想法是在每个像素位置(针对每个高度和宽度)应用一个全连接层。 如果我们将权重连接到每个空间位置,我们可以将其视为1×1卷积层(如 6.4节中所述),或作为在每个像素位置上独立作用的全连接层。 从另一个角度看,即将空间维度中的每个像素视为单个样本,将通道维度视为不同特征(feature)。
- NiN块以一个普通卷积层开始,后面是两个1×1的卷积层。这两个1×1卷积层充当带有ReLU激活函数的逐像素全连接层。 第一层的卷积窗口形状通常由用户设置。 随后的卷积窗口形状固定为1×1。

全连接层效果很好,但是参数太多,容易过拟合,不用! -> 1x1改变通道数,从而不用全连接层。(AlexNet Plus)
1x1调整维度的想法很重要!!!
1 | |
NiN模型
- 最初的NiN网络是在AlexNet后不久提出的,显然从中得到了一些启示。 NiN使用窗口形状为11×11、5×5和3×3的卷积层,输出通道数量与AlexNet中的相同。 每个NiN块后有一个最大汇聚层,汇聚窗口形状为3×3,步幅为2。
- NiN和AlexNet之间的一个显著区别是NiN完全取消了全连接层。 相反,NiN使用一个NiN块,其输出通道数等于标签类别的数量。最后放一个全局平均汇聚层(global average pooling layer),生成一个对数几率 (logits)。NiN设计的一个优点是,它显著减少了模型所需参数的数量。然而,在实践中,这种设计有时会增加训练模型的时间。
1 | |
- 创建一个数据样本来查看每个块的输出形状。
1 | |
训练模型
- 我们使用Fashion-MNIST来训练模型。
1 | |
含并行连结的网络GoogLeNet
- GoogLeNet吸收了NiN中串联网络的思想,并在此基础上做了改进。 这篇论文的一个重点是解决了什么样大小的卷积核最合适的问题。 毕竟,以前流行的网络使用小到1×1,大到11×11的卷积核。 本文的一个观点是,有时使用不同大小的卷积核组合是有利的。
Inception块
- GoogLeNet中,基本的卷积块被称为Inception块(Inception block)
白色框是用来改变通道数的,蓝色框是真的卷积的昂!先通过1x1减少通道数,再输入3x3和5x5,可以显著减少3x3和5x5中,参数的数量。
- Inception块由四条并行路径组成。 前三条路径使用窗口大小为1×1、3×3和5×5的卷积层,从不同空间大小中提取信息。 中间的两条路径在输入上执行1×1卷积,以减少通道数,从而降低模型的复杂性。 第四条路径使用3×3最大汇聚层,然后使用1×1卷积层来改变通道数。 这四条路径都使用合适的填充来使输入与输出的高和宽一致,最后我们将每条线路的输出在通道维度上连结,并构成Inception块的输出。在Inception块中,通常调整的超参数是每层输出通道数。
1 | |
那么为什么GoogLeNet这个网络如此有效呢?首先我们考虑一下滤波器(filter)的组合,它们可以用各种滤波器尺寸探索图像,这意味着不同大小的滤波器可以有效地识别不同范围的图像细节。 同时,我们可以为不同的滤波器分配不同数量的参数。
GoogLeNet模型
- GoogLeNet一共使用9个Inception块和全局平均汇聚层的堆叠来生成其估计值。Inception块之间的最大汇聚层可降低维度。 第一个模块类似于AlexNet和LeNet,Inception块的组合从VGG继承,全局平均汇聚层避免了在最后使用全连接层。
- 第一个模块使用64个通道、7×7卷积层。
1 | |
- 第二个模块使用两个卷积层:第一个卷积层是64个通道、1×1卷积层;第二个卷积层使用将通道数量增加三倍的3×3卷积层。 这对应于Inception块中的第二条路径。
1 | |
- 第三个模块串联两个完整的Inception块。 第一个Inception块的输出通道数为64+128+32+32=256,四个路径之间的输出通道数量比为64:128:32:32=2:4:1:1。 第二个和第三个路径首先将输入通道的数量分别减少到96/192=1/2和16/192=1/12,然后连接第二个卷积层。第二个Inception块的输出通道数增加到128+192+96+64=480,四个路径之间的输出通道数量比为128:192:96:64=4:6:3:2。 第二条和第三条路径首先将输入通道的数量分别减少到128/256=1/2和32/256=1/8。
1 | |
- 第四模块更加复杂, 它串联了5个Inception块,其输出通道数分别是192+208+48+64=512、160+224+64+64=512、128+256+64+64=512、112+288+64+64=528和256+320+128+128=832。 这些路径的通道数分配和第三模块中的类似,首先是含3×3卷积层的第二条路径输出最多通道,其次是仅含1×1卷积层的第一条路径,之后是含5×5卷积层的第三条路径和含3×3最大汇聚层的第四条路径。 其中第二、第三条路径都会先按比例减小通道数。 这些比例在各个Inception块中都略有不同。
1 | |
- 第五模块包含输出通道数为256+320+128+128=832和384+384+128+128=1024的两个Inception块。 其中每条路径通道数的分配思路和第三、第四模块中的一致,只是在具体数值上有所不同。 需要注意的是,第五模块的后面紧跟输出层,该模块同NiN一样使用全局平均汇聚层,将每个通道的高和宽变成1。 最后我们将输出变成二维数组,再接上一个输出个数为标签类别数的全连接层。
1 | |
- GoogLeNet模型的计算复杂,而且不如VGG那样便于修改通道数。 为了使Fashion-MNIST上的训练短小精悍,我们将输入的高和宽从224降到96,这简化了计算。下面演示各个模块输出的形状变化。
1 | |
训练模型
1 | |
批量规范(正则)化
批量规范化(batch normalization)是一种流行且有效的技术,可持续加速深层网络的收敛速度。
训练深层网络
首先,数据预处理的方式通常会对最终结果产生巨大影响。 回想一下我们应用多层感知机来预测房价的例子( 4.10节)。 使用真实数据时,我们的第一步是标准化输入特征,使其平均值为0,方差为1。 直观地说,这种标准化可以很好地与我们的优化器配合使用,因为它可以将参数的量级进行统一。
第二,对于典型的多层感知机或卷积神经网络。中间层中的变量可能具有更广的变化范围:不论是沿着从输入到输出的层,跨同一层中的单元,或是随着时间的推移,模型参数的随着训练更新变幻莫测。 批量规范化的发明者非正式地假设,这些变量分布中的这种偏移可能会阻碍网络的收敛。 直观地说,我们可能会猜想,如果一个层的可变值是另一层的100倍,这可能需要对学习率进行补偿调整。
第三,更深层的网络很复杂,容易过拟合。 这意味着正则化变得更加重要。
批量规范化应用于单个可选层(也可以应用到所有层),其原理如下:在每次训练迭代中,我们首先规范化输入,即通过减去其均值并除以其标准差,其中两者均基于当前小批量处理。 接下来,我们应用比例系数和比例偏移。 正是由于这个基于批量统计的标准化,才有了批量规范化的名称。
如果我们尝试使用大小为1的小批量应用批量规范化,我们将无法学到任何东西。 这是因为在减去均值之后,每个隐藏单元将为0。 所以,只有使用足够大的小批量,批量规范化这种方法才是有效且稳定的。 请注意,在应用批量规范化时,批量大小的选择可能比没有批量规范化时更重要。从形式上来说,用$\mathbf{x} \in \mathcal{B}$表示一个来自小批量$\mathcal{B}$的输入,批量规范化BN根据以下表达式转换$x$:
$$
\mathrm{BN}(\mathbf{x}) = \boldsymbol{\gamma} \odot \frac{\mathbf{x} - \hat{\boldsymbol{\mu}}_\mathcal{B}}{\hat{\boldsymbol{\sigma}}_\mathcal{B}} + \boldsymbol{\beta}.
$$
$\hat{\boldsymbol{\mu}}_\mathcal{B}$是小批量$\mathcal{B}$的样本均值,$\hat{\boldsymbol{\sigma}}_\mathcal{B}$是小批量$\mathcal{B}$的样本标准差。 应用标准化后,生成的小批量的平均值为0和单位方差为1。 由于单位方差(与其他一些魔法数)是一个主观的选择,因此我们通常包含 拉伸参数(scale)$\boldsymbol{\gamma}$和偏移参数(shift)$\boldsymbol{\beta}$,它们的形状与x相同。 请注意,$\boldsymbol{\gamma}$和$\mathcal{B}$是需要与其他模型参数一起学习的参数。
- 在训练过程中,中间层的变化幅度不能过于剧烈,而批量规范化将每一层主动居中,并将它们重新调整为给定的平均值和大小(通过$\hat{\boldsymbol{\mu}}_\mathcal{B}$和${\hat{\boldsymbol{\sigma}}_\mathcal{B}}$)。
$$
\begin{split}\begin{aligned} \hat{\boldsymbol{\mu}}\mathcal{B} &= \frac{1}{|\mathcal{B}|} \sum{\mathbf{x} \in \mathcal{B}} \mathbf{x},\
\hat{\boldsymbol{\sigma}}\mathcal{B}^2 &= \frac{1}{|\mathcal{B}|} \sum{\mathbf{x} \in \mathcal{B}} (\mathbf{x} - \hat{\boldsymbol{\mu}}_{\mathcal{B}})^2 + \epsilon.\end{aligned}\end{split}
$$
我们在方差估计值中添加一个小的常量$\epsilon > 0$,以确保我们永远不会尝试除以零,即使在经验方差估计值可能消失的情况下也是如此。估计值$\hat{\boldsymbol{\mu}}_\mathcal{B}$和${\hat{\boldsymbol{\sigma}}_\mathcal{B}}$通过使用平均值和方差的噪声(noise)估计来抵消缩放问题。 乍看起来,这种噪声是一个问题,而事实上它是有益的。
- 由于尚未在理论上明确的原因,优化中的各种噪声源通常会导致更快的训练和较少的过拟合:这种变化似乎是正则化的一种形式。批量规范化层在”训练模式“(通过小批量统计数据规范化)和“预测模式”(通过数据集统计规范化)中的功能不同。 在训练过程中,我们无法得知使用整个数据集来估计平均值和方差,所以只能根据每个小批次的平均值和方差不断训练模型。 而在预测模式下,可以根据整个数据集精确计算批量规范化所需的平均值和方差
批量规范化层
- 批量规范化和其他层之间的一个关键区别是,由于批量规范化在完整的小批量上运行,因此我们不能像以前在引入其他层时那样忽略批量大小。 我们在下面讨论这两种情况:全连接层和卷积层,他们的批量规范化实现略有不同。
全连接层
- 我们将批量规范化层置于全连接层中的仿射变换和激活函数之间。 设全连接层的输入为x,权重参数和偏置参数分别为$\mathbf{W}$和$\mathbf{b}$,激活函数为$\phi$,批量规范化的运算符为$\mathrm{BN}$。 那么,使用批量规范化的全连接层的输出的计算详情如下:
$$
\mathbf{h} = \phi(\mathrm{BN}(\mathbf{W}\mathbf{x} + \mathbf{b}) ).
$$
均值和方差是在应用变换的”相同”小批量上计算的。
卷积层
- 对于卷积层,我们可以在卷积层之后和非线性激活函数之前应用批量规范化。 当卷积有多个输出通道时,我们需要对这些通道的“每个”输出执行批量规范化,每个通道都有自己的拉伸(scale)和偏移(shift)参数,这两个参数都是标量。 假设我们的小批量包含m个样本,并且对于每个通道,卷积的输出具有高度p和宽度q。 那么对于卷积层,我们在每个输出通道的m⋅p⋅q个元素上同时执行每个批量规范化。 因此,在计算平均值和方差时,我们会收集所有空间位置的值,然后在给定通道内应用相同的均值和方差,以便在每个空间位置对值进行规范化。
预测过程中的批量规范化
- 批量规范化在训练模式和预测模式下的行为通常不同。 首先,将训练好的模型用于预测时,我们不再需要样本均值中的噪声以及在微批次上估计每个小批次产生的样本方差了。 其次,例如,我们可能需要使用我们的模型对逐个样本进行预测。 一种常用的方法是通过移动平均估算整个训练数据集的样本均值和方差,并在预测时使用它们得到确定的输出。 可见,和暂退法一样,批量规范化层在训练模式和预测模式下的计算结果也是不一样的。
从零实现
- 代码:
1 | |
- 我们现在可以创建一个正确的
BatchNorm层。 这个层将保持适当的参数:拉伸gamma和偏移beta,这两个参数将在训练过程中更新。 此外,我们的层将保存均值和方差的移动平均值,以便在模型预测期间随后使用。 - 通常情况下,我们用一个单独的函数定义其数学原理,比如说
batch_norm。 然后,我们将此功能集成到一个自定义层中,其代码主要处理数据移动到训练设备(如GPU)、分配和初始化任何必需的变量、跟踪移动平均线(此处为均值和方差)等问题。 为了方便起见,我们并不担心在这里自动推断输入形状,因此我们需要指定整个特征的数量。 不用担心,深度学习框架中的批量规范化API将为我们解决上述问题,我们稍后将展示这一点。
1 | |
使用批量规范化层的 LeNet
- 批量规范化是在卷积层或全连接层之后、相应的激活函数之前应用的。
1 | |
- 训练:
1 | |
- 查看从第一个批量规范化层中学到的拉伸参数
gamma和偏移参数beta。
1 | |
简明实现
- 我们也可以直接使用深度学习框架中定义的
BatchNorm。 该代码看起来几乎与我们上面的代码相同。
1 | |
- 训练:
1 | |
争议
- 在提出批量规范化的论文中,作者除了介绍了其应用,还解释了其原理:通过减少内部协变量偏移(internal covariate shift)。 然而,这种解释有两个问题:
- 这种偏移与严格定义的协变量偏移(covariate shift)非常不同,所以这个名字用词不当
- 这种解释只提供了一种不明确的直觉,但留下了一个有待后续挖掘的问题:为什么这项技术如此有效?
总结
- 可学习的参数为$\gamma$和$\beta$
- 作用在
- 全连接层和卷积层输出上,激活函数前
- 全连接层和卷积层输入上
- 对全连接层,作用在特征维
- 对于卷积层,作用在通道维
- 没必要和Dropout一起使用,可能没那么有用了!!!
- 本质也是一个线性变换,因此在激活函数(例如ReLU前),去进行操作。
- 通道层可以当作是卷积层的特征维度,有多少个通道,可以当作有多少个特征!!!
- 批量归一化固定小批量中的均值和方差,然后学习出适合的偏移和缩放
- 可以加速收敛速度,但一般不改变模型精度
- 核心思想:把每一层的数值放在差不多的分布里面,结合可学习的参数进行合理的缩放偏移,完成了数据的进一步优化。发现:很多时候不会改变模型的精度,但可以加速收敛速度。
残差网络ResNet
函数类
- 假设有一类特定的神经网络架构$\mathcal{F}$,它包括学习速率和其他超参数设置。 对于所有$f \in \mathcal{F}$,存在一些参数集(例如权重和偏置),这些参数可以通过在合适的数据集上进行训练而获得。 现在假设$f^*$是我们真正想要找到的函数,如果是$f^* \in \mathcal{F}$,那我们可以轻而易举的训练得到它,但通常我们不会那么幸运。 相反,我们将尝试找到一个函数$f^*_\mathcal{F}$,这是我们在$\mathcal{F}$中的最佳选择。 例如,给定一个具有$\mathbf{X}$特性和$\mathbf{y}$标签的数据集,我们可以尝试通过解决以下优化问题来找到它:
$$
f^*_\mathcal{F} := \mathop{\mathrm{argmin}}_f L(\mathbf{X}, \mathbf{y}, f) \text{ subject to } f \in \mathcal{F}.
$$
- 怎样得到更近似真正$f^*$的函数呢? 唯一合理的可能性是,我们需要设计一个更强大的架构$\mathcal{F}’$。换句话说,我们预计$f^*_{\mathcal{F}’}$比$f^*_{\mathcal{F}}$更近似”。然而,如果$\mathcal{F} \not\subseteq \mathcal{F}’$,则无法保证新的体系“更近似”。 事实上,$f^*_{\mathcal{F}’}$可能更糟:对于非嵌套函数(non-nested function)类,较复杂的函数类并不总是向“真”函数$f^*$靠拢,相反对于嵌套函数(nested function)类$\mathcal{F}_1 \subseteq \ldots \subseteq \mathcal{F}_6$,我们可以避免上述问题。

只有当较复杂的函数类包含较小的函数类时,我们才能确保提高它们的性能。 对于深度神经网络,如果我们能将新添加的层训练成恒等映射(identity function)$f(\mathbf{x}) = \mathbf{x}$,新模型和原模型将同样有效。 同时,由于新模型可能得出更优的解来拟合训练数据集,因此添加层似乎更容易降低训练误差。
- 针对这一问题,何恺明等人提出了残差网络(ResNet)。残差网络的核心思想是:每个附加层都应该更容易地包含原始函数作为其元素之一。
残差块
- 假设我们的原始输入为$x$,而希望学出的理想映射为$f(\mathbf{x})$。左图虚线框中的部分需要直接拟合出该映射$f(\mathbf{x})$,而右图虚线框中的部分则需要拟合出残差映射$f(\mathbf{x}) - x$。 残差映射在现实中往往更容易优化。我们只需将右图虚线框内上方的加权运算(如仿射)的权重和偏置参数设成0,那么$f(\mathbf{x})$即为恒等映射。 实际中,当理想映射$f(\mathbf{x})$极接近于恒等映射时,残差映射也易于捕捉恒等映射的细微波动。
右图是ResNet的基础架构–残差块(residual block)。 在残差块中,输入可通过跨层数据线路更快地向前传播。
- ResNet沿用了VGG完整的3×3卷积层设计。 残差块里首先有2个有相同输出通道数的3×3卷积层。 每个卷积层后接一个批量规范化层和ReLU激活函数。 然后我们通过跨层数据通路,跳过这2个卷积运算,将输入直接加在最后的ReLU激活函数前。 这样的设计要求2个卷积层的输出与输入形状一样,从而使它们可以相加。 如果想改变通道数,就需要引入一个额外的1×1卷积层来将输入变换成需要的形状后再做相加运算。 残差块的实现如下:
1 | |
- 此代码生成两种类型的网络: 一种是当
use_1x1conv=False时,应用ReLU非线性函数之前,将输入添加到输出。 另一种是当use_1x1conv=True时,添加通过1×1卷积调整通道和分辨率。
- 输入和输出形状一致
1 | |
- 在增加输出通道数的同时,减半输出的高和宽。
1 | |
ResNet模型
- ResNet的前两层跟之前介绍的GoogLeNet中的一样: 在输出通道数为64、步幅为2的7×7卷积层后,接步幅为2的3×3的最大汇聚层。 不同之处在于ResNet每个卷积层后增加了批量规范化层。
1 | |
- GoogLeNet在后面接了4个由Inception块组成的模块。 ResNet则使用4个由残差块组成的模块,每个模块使用若干个同样输出通道数的残差块。 第一个模块的通道数同输入通道数一致。 由于之前已经使用了步幅为2的最大汇聚层,所以无须减小高和宽。 之后的每个模块在第一个残差块里将上一个模块的通道数翻倍,并将高和宽减半。
1 | |
- 接着在ResNet加入所有残差块,这里每个模块使用2个残差块。
1 | |
- 最后,与GoogLeNet一样,在ResNet中加入全局平均汇聚层,以及全连接层输出。
1 | |
- 每个模块有4个卷积层(不包括恒等映射的1×1卷积层)。 加上第一个7×7卷积层和最后一个全连接层,共有18层。 因此,这种模型通常被称为ResNet-18。 通过配置不同的通道数和模块里的残差块数可以得到不同的ResNet模型,例如更深的含152层的ResNet-152。 虽然ResNet的主体架构跟GoogLeNet类似,但ResNet架构更简单,修改也更方便。这些因素都导致了ResNet迅速被广泛使用。
- 观察一下ResNet中不同模块的输入形状是如何变化的。
1 | |
训练模型
1 | |
稠密连接网络DenseNet
- 稠密连接网络(DenseNet)在某种程度上是ResNet的逻辑扩展。
从ResNet到DenseNet
- 任意函数的泰勒展开式(Taylor expansion),它把这个函数分解成越来越高阶的项。在$x$接近0时,有:
$$
f(x) = f(0) + f’(0) x + \frac{f’’(0)}{2!} x^2 + \frac{f’’’(0)}{3!} x^3 + \ldots.
$$
- ResNet将函数展开为
$$
f(\mathbf{x}) = \mathbf{x} + g(\mathbf{x}).
$$
- ResNet将$f$分解为两部分:一个简单的线性项和一个复杂的非线性项。 那么再向前拓展一步,如果我们想将$f$拓展成超过两部分的信息呢? 一种方案便是DenseNet。

ResNet(左)与 DenseNet(右)在跨层连接上的主要区别:使用相加和使用连结。
- ResNet和DenseNet的关键区别在于,DenseNet输出是连接(用图中的[,]表示)而不是如ResNet的简单相加。 因此,在应用越来越复杂的函数序列后,我们执行从$x$到其展开式的映射:
$$
\mathbf{x} \to \left[
\mathbf{x},
f_1(\mathbf{x}),
f_2([\mathbf{x}, f_1(\mathbf{x})]), f_3([\mathbf{x}, f_1(\mathbf{x}), f_2([\mathbf{x}, f_1(\mathbf{x})])]), \ldots\right].
$$
- 将这些展开式结合到多层感知机中,再次减少特征的数量。 实现起来非常简单:我们不需要添加术语,而是将它们连接起来。 DenseNet这个名字由变量之间的“稠密连接”而得来,最后一层与之前的所有层紧密相连。
稠密网络主要由2部分构成:稠密块(dense block)和过渡层(transition layer)。 前者定义如何连接输入和输出,而后者则控制通道数量,使其不会太复杂。
稠密块体
- DenseNet使用了ResNet改良版的“批量规范化、激活和卷积”架构
1 | |
- 一个稠密块由多个卷积块组成,每个卷积块使用相同数量的输出通道。 然而,在前向传播中,我们将每个卷积块的输入和输出在通道维上连结。
1 | |
- 我们定义一个有2个输出通道数为10的
DenseBlock。 使用通道数为3的输入时,我们会得到通道数为3+2×10=23的输出。 卷积块的通道数控制了输出通道数相对于输入通道数的增长,因此也被称为增长率(growth rate)。
1 | |
过渡层
- 由于每个稠密块都会带来通道数的增加,使用过多则会过于复杂化模型。 而过渡层可以用来控制模型复杂度。 它通过1×1卷积层来减小通道数,并使用步幅为2的平均汇聚层减半高和宽,从而进一步降低模型复杂度。
1 | |
- 对上一个例子中稠密块的输出使用通道数为10的过渡层。 此时输出的通道数减为10,高和宽均减半。
1 | |
DenseNet模型
- DenseNet首先使用同ResNet一样的单卷积层和最大汇聚层。
1 | |
类似于ResNet使用的4个残差块,DenseNet使用的是4个稠密块。 与ResNet类似,我们可以设置每个稠密块使用多少个卷积层。 这里我们设成4,从而与 7.6节的ResNet-18保持一致。 稠密块里的卷积层通道数(即增长率)设为32,所以每个稠密块将增加128个通道。
- 在每个模块之间,ResNet通过步幅为2的残差块减小高和宽,DenseNet则使用过渡层来减半高和宽,并减半通道数。
1 | |
- 与ResNet类似,最后接上全局汇聚层和全连接层来输出结果。
1 | |
训练模型
- 由于这里使用了比较深的网络,本节里我们将输入高和宽从224降到96来简化计算。
1 | |
设计卷积网络架构
NAS(neural architecture search),它们的成本通常是巨大的,依赖于强力搜索、遗传算法、强化学习或某种其他形式的超参数优化。给定固定的搜索空间,NAS 使用搜索策略根据返回的性能估计自动选择架构。NAS 的结果是单个网络实例。EfficientNets 是这项研究的一个显着成果。
我们讨论一个与寻求单一最佳网络完全不同的想法。它的计算成本相对较低,可以带来科学见解,并且在结果质量方面非常有效。该策略结合了手动设计和 NAS 的优势。它通过在网络分布上运行 并优化分布来实现这一点,从而为整个网络系列获得良好的性能。它的结果是RegNets,特别是 RegNetX 和 RegNetY,以及一系列设计高性能 CNN 的指导原则。
Dependencies:
1 | |
AnyNet 设计空间
- 我们需要一个供探索网络系列的模板。本章设计的共同点之一是网络由茎、 体和头组成。茎通常通过具有较大窗口尺寸的卷积来执行初始图像处理。身体由多个块组成,执行从原始图像到对象表示所需的大量转换。最后,头部将其转换为所需的输出,例如通过用于多类分类的 softmax 回归器。身体又由多个阶段组成,以降低的分辨率对图像进行操作。每个阶段都由一个或多个块组成。这种模式对于所有网络都是通用的。
AnyNet 由茎、体和头组成。茎将 RGB 图像(3 个通道)作为输入,使用 3×3卷积步长为2,然后进行批量归一化,将分辨率减半$r \times r$到$r/2 \times r/2$。此外,它还生成$c_0$作为身体输入的通道。
我们先实现通用设计。
1 | |
- 每个阶段由
depthResNeXt 块组成,其中num_channels指定块宽度。请注意,第一个块将输入图像的高度和宽度减半。
1 | |
- 把网络的stem、body、head放在一起,我们就完成了AnyNet的实现。
1 | |
设计空间的分布和参数
- 更好的策略是尝试确定参数选择应如何关联的一般准则。例如,瓶颈比率、通道、块、组的数量或其在层之间的变化理想情况下应该由一组简单的规则来控制。The approach in Radosavovic et al. (2019) relies on the following four assumptions:
- 我们假设一般设计原则确实存在,因此满足这些要求的许多网络应该提供良好的性能。因此,识别网络上的分布可能是一个很好的策略。换句话说,我们假设大海捞针有很多好针。
- 在评估网络是否良好之前,我们不需要训练网络收敛。相反,使用中间结果作为最终准确性的可靠指导就足够了。使用(近似)代理来优化目标称为多保真度优化(Forrester等,2007)。因此,根据仅几次通过数据集后所达到的精度来进行设计优化,从而显着降低成本。
- 在较小规模(对于较小的网络)获得的结果可以推广到较大的网络。因此,对结构相似但块数较少、通道较少等的网络进行优化。只有最后我们才需要验证如此发现的网络是否也能在规模上提供良好的性能。
- 设计的各个方面可以近似分解,以便可以在某种程度上独立地推断它们对结果质量的影响。换句话说,优化问题是比较容易的。
- 这些假设使我们能够以较低的成本测试许多网络。特别是,我们可以从配置空间中均匀采样并评估其性能。随后,我们可以通过检查使用所述网络可以实现的误差/准确性的分布来评估参数选择的质量。
$$
F(e, p) \stackrel{\mathrm{def}}{=} P_{\mathrm{net} \sim p} {e(\mathrm{net}) \leq e}.
$$
- 我们现在的目标是找到一个分布$p$通过网络,大多数网络的错误率非常低,并且支持$p$很简洁。当然,这在计算上无法准确执行。我们求助于网络样本$\mathcal{Z} \stackrel{\mathrm{def}}{=} {\mathrm{net}_1, \ldots \mathrm{net}_n}$(有错误$e_1, \ldots, e_n$,分别)来自$p$并使用经验$\hat{F}(e, \mathcal{Z})$反而:
$$
\hat{F}(e, \mathcal{Z}) = \frac{1}{n}\sum_{i=1}^n \mathbf{1}(e_i \leq e).
$$
- 每当一组选择的 CDF 优先(或匹配)另一个 CDF 时,就可以得出其参数选择优越(或无关)。因此, Radosavovic等人。( 2020 )尝试共享网络瓶颈比率$k_i = k$适合所有阶段$i$网络的。这样就摆脱了3的4控制瓶颈比率的参数。为了评估这是否(负面)影响性能,我们可以从受约束和不受约束的分布中绘制网络,并比较相应的 CDF。

AnyNetA是原设计空间; AnyNetB联系瓶颈比率, AnyNetC也联系组宽度, AnyNetD增加跨阶段的网络深度。从左到右:(i)绑定瓶颈比率对性能没有影响,(ii)绑定组宽度对性能没有影响,(iii)跨阶段增加网络宽度(通道)可以提高性能,(iv)增加跨阶段的网络深度阶段提高性能。图片由 Radosavovic等人提供。(2020)。¶
- 接下来,我们寻找方法来减少舞台宽度和深度的多种潜在选择。这是一个合理的假设,随着我们深入,通道的数量应该增加,即 $w_{i+1} \geq w_i$($w_{i+1} \geq w_i$根据图 8.8.2中的符号 ),产生$\text{AnyNetX}D$。同样,同样合理的是,随着阶段的进展,它们应该变得更深,即$d_i \geq d{i-1}$,产生$\text{AnyNetX}_E$。这可以分别在图8.8.2的第三和第四图中通过实验得到验证。
监管网络
所结果的$\text{AnyNetX}_E$设计空间由简单的网络组成,遵循易于解释的设计原则:
- 分享瓶颈比例$k_i = k$适合所有阶段$i$;
- 共享组宽度$g_i = g$适合所有阶段$i$;
- 增加跨阶段的网络宽度:$c_{i} \leq c_{i+1}$;
- 跨阶段增加网络深度:$d_{i} \leq d_{i+1}$。
我们建议感兴趣的读者仔细阅读Radosavovic等人的文章,进一步了解如何为不同的计算量设计特定网络。(2020)。例如,一个有效的 32 层 RegNetX 变体由下式给出$k = 1$,$g = 16$(组宽度为16),$c_1 = 32$ 和 $c_2 = 80$第一阶段和第二阶段的通道分别选择为$d_1=4$和$d_2 = 6$块深。该设计令人惊讶的洞察力在于它即使在调查更大规模的网络时也适用。更好的是,它甚至适用于具有全局通道激活的挤压和激励 (SE) 网络设计 (RegNetY) (Hu等人,2018)。
1 | |
- 我们可以看到每个 RegNetX 阶段逐渐降低分辨率并增加输出通道。
1 | |
训练
- 在 Fashion-MNIST 数据集上训练 32 层 RegNetX 与之前一样。
1 | |
讨论
凭借理想的归纳偏差(假设或偏好),例如视觉的局部性和平移不变性(第 7.1 节),CNN 已成为该领域的主导架构。自 LeNet 以来一直如此,直到最近 Transformers(第 11.7 节) (Dosovitskiy et al. , 2021 , Touvron et al. , 2021) 在准确性方面开始超越 CNN。虽然最近在视觉方面取得的大部分进展 Transformers 都可以向后移植到 CNN 中 (Liu *et al.*,2022),只有在更高的计算成本下才有可能。同样重要的是,最近的硬件优化(NVIDIA Ampere 和 Hopper)只会拉大与Transformers的差距。
值得注意的是,Transformers 对局部性和平移不变性的归纳偏差程度明显低于 CNN。这并不是最重要的,因为大型图像集的可用性,例如 LAION-400m 和 LAION-5B (Schuhmann等人,2022),拥有多达 50 亿张学习结构的图像。令人惊讶的是,在这方面一些更相关的工作甚至包括 MLP (Tolstikhin等人,2021)。
总之,视觉 Transformers(第 11.8 节)目前在大规模图像分类的最先进性能方面处于领先地位,表明可扩展性胜过归纳偏差 (Dosovitskiy等人,2021)。这包括使用多头自注意力(第 11.5节)预训练大型 Transformer(第11.9节)。
