神经网络图片_一文看懂四种基本的神经网络架构

Ⅰ 手机上运行的深度神经网络模型-MobileNet

文章引用自《从MobileNet看轻量级神经网络的发展》，详情请点击原文观看

前言

随着深度学习的火热，计算机视觉领域内的卷积神经网络模型也层出不穷。从1998年的LeNet，到2012年引爆深度学习热潮的AlexNet，再到后来2014年的VGG，2015年的ResNet，深度学习网络模型在图像处理中应用的效果越来越好。神经网络体积越来越大，结构越来越复杂，预测和训练需要的硬件资源也逐步增多，往往只能在高算力的服务器中运行深度学习神经网络模型。移动设备因硬件资源和算力的限制，很难运行复杂的深度学习网络模型。

深度学习领域内也在努力促使神经网络向小型化发展。在保证模型准确率的同时体积更小，速度更快。到了2016年直至现在，业内提出了SqueezeNet、ShuffleNet、NasNet、MnasNet以及MobileNet等轻量级网络模型。这些模型使移动终端、嵌入式设备运行神经网络模型成为可能。而MobileNet在轻量级神经网络中较具代表性。

谷歌在2019年5月份推出了最新的MobileNetV3。新版MobileNet使用了更多新特性，使得MobileNet非常具有研究和分析意义，本文将对MobileNet进行详细解析。

MobileNet的优势

MobileNet网络拥有更小的体积，更少的计算量，更高的精度。在轻量级神经网络中拥有极大的优势。

1

更小的体积

MobileNet相比经典的大型网络，参数量明显更少，参数量越少模型体积越小。

2

更少的计算量

MobileNet优化网络结构使模型计算量成倍下降。

3

更高的准确率

MobileNet凭借网络结构优化，在更少的参数及更少的计算量情况下，网络精度反而超过了部分大型神经网络。在最新的MobileNetV3-Large中，实现ImageNet数据集Top1准确率达到75.2%。

4

更快的速度

使用Google Pixel-1手机测试，MobileNet各版本都能保持运行时间在120ms以下，最新版MobileNetV3-Large运行时间达到66ms，参数量和计算量更低的MobileNetV3-Small更是能达到22ms；GoogleNet运行速度约为250ms，而VGG-16由于一次性需要加载至内存的空间已超过500MB，手机系统会报内存溢出错误导致无法运行。

5

多种应用场景

MobileNet可以在移动终端实现众多的应用，包括目标检测，目标分类，人脸属性识别和人脸识别等。

MobileNet各版本介绍

1

MobileNetV1网络结构

整个网络不算平均池化层与softmax层，共28层；

在整个网络结构中步长为2的卷积较有特点，卷积的同时充当下采样的功能；

第一层之后的26层都为深度可分离卷积的重复卷积操作；

每一个卷积层（含常规卷积、深度卷积、逐点卷积）之后都紧跟着批规范化和ReLU激活函数；

最后一层全连接层不使用激活函数。

2

MobileNetV2网络结构

MobileNetV2中主要引入线性瓶颈结构和反向残差结构。

MobileNetV2网络模型中有共有17个Bottleneck层（每个Bottleneck包含两个逐点卷积层和一个深度卷积层），一个标准卷积层（conv），两个逐点卷积层（pw conv），共计有54层可训练参数层。MobileNetV2中使用线性瓶颈（Linear Bottleneck）和反向残差（Inverted Resials）结构优化了网络，使得网络层次更深了，但是模型体积更小，速度更快了。

3

MobileNetV3网络结构

MobileNetV3分为Large和Small两个版本，Large版本适用于计算和存储性能较高的平台，Small版本适用于硬件性能较低的平台。

Large版本共有15个bottleneck层，一个标准卷积层，三个逐点卷积层。

Small版本共有12个bottleneck层，一个标准卷积层，两个逐点卷积层。

MobileNetV3中引入了5×5大小的深度卷积代替部分3×3的深度卷积。引入Squeeze-and-excitation（SE）模块和h-swish（HS）激活函数以提高模型精度。结尾两层逐点卷积不使用批规范化（Batch Norm），MobileNetV3结构图中使用NBN标识。

（图片来源https://arxiv.org/pdf/1905.02244.pdf）

网络结构上相对于MobileNetV2的结尾部分做了优化，去除三个高阶层，如上图所示。去除后减少了计算量和参数量，但是模型的精度并没有损失。

值得一提的是，不论是Large还是Small版本，都是使用神经架构搜索（NAS）技术生成的网络结构。

4

MobileNet各版本特性

MobileNet实现计算量减小、参数量减少的同时保证了较高的准确率,这和其拥有的特性息息相关：

MobileNetV1提出的特性

MobileNetV2提出的特性

MobileNetV3提出的特性

MobileNet各个版本拥有的特性汇总

下文将对上表中的各个特性详细阐述。

MobileNet的特性详解

1

深度可分离卷积

从MobileNetV1开始，到V2、V3的线性瓶颈结构都大量使用了深度可分离卷积。

深度可分离卷积（Depthwise Separable Convolution）是一种卷积结构。它是由一层深度卷积（Depthwise convolution）与一层逐点卷积（Pointwise Convolution）组合而成的，每一层卷积之后都紧跟着批规范化和ReLU激活函数。跟标准卷积的区别就是精度基本不变的情况下，参数与计算量都明显减少。

深度卷积

深度卷积（Depthwise convolution, DW）不同于常规卷积操作，深度卷积中一个卷积核只有一维，负责一个通道，一个通道只被一个卷积核卷积；常规卷积每个卷积核的维度与输入维度相同，每个通道单独做卷积运算后相加。

以一张5x5x3（长和宽为5，RGB3通道）的彩色图片举例。每层深度卷积卷积核的数量与上一层的通道数相同（通道和卷积核一一对应）。设padding=1，stride=1，一个三通道的图像经过运算后生成了3个特征图，如下图所示：

深度卷积完成后的输出特征图通道数与输入层的通道数相同，无法扩展通道数。而且这种运算对输入层的每个通道独立进行卷积运算，没有有效的利用不同通道在相同空间位置上的特征信息。因此需要逐点卷积来将生成的特征图进行组合生成新的特征图。

逐点卷积

逐点卷积（Pointwise Convolution, PW）的运算与标准卷积运算非常相似。

逐点卷积卷积核大小为1×1xM（M为输入数据的维度），每次卷积一个像素的区域。逐点卷积运算会将上一层的特征图在深度方向上进行加权组合，生成新的特征图，新的特征图的大小与输入数据大小一致；然后组合各通道的特征图，以较少的计算量进行降维或升维操作（改变输出数据的维度）。

以一张5x5x3（长和宽为5，RGB3通道）的彩色图片举例，使用4个1x1x3的逐点卷积核进行卷积，逐点卷积运算后生成了4个特征图。这个例子是使用逐点卷积进行升维的操作，特征图从5x5x3 升维到5x5x4。如下图所示：

深度可分离卷积结构解析

将深度卷积和逐点卷积组成深度可分离卷积后的示意图，如下图所示：

首先进行深度卷积操作，得出的特征图各通道之间是不关联的。接着进行逐点卷积把深度卷积输出的特征图各通道关联起来。

深度可分离卷积使用了更小的空间代价（参数减少）和更少的时间代价（计算量更少）实现了标准卷积层一样的效果（提取特征）。

一般的设Df为输入特征图边长，Dk为卷积核边长，特征图和卷积核均为长宽一致，输入通道数为M，输出通道数为N，则:

标准卷积计算量为：Df×Df×Dk×Dk×M×N

深度卷积的计算量为：Df×Df×Dk×Dk×M

逐点卷积的计算量为：Df×Df×M×N

上图所示实现输入特征图大小为5×5×3，输出特成图大小为5×5×4，设padding=1，stride=1，深度卷积卷积核大小为3×3，标准卷积也使用3×3尺寸卷积核。实现相同的卷积效果，参数量（不包含偏置）与计算量对比如下表所示：

深度可分离卷积的演变

事实上深度可分离卷积不是在MobileNetV1中第一次提出的，而是在2016年由谷歌的Xception网络结构中提出的。MobileNetV1在Xception的基础上，对深度可分离卷积进行了改进，做到了计算量与参数量的下降：

假定M为输入层的通道数，N为输出层的通道数。

Xcenption的深度可分离卷积是由输入参数开始，使用1x1xMxN卷积将输入层的通道数转换为目标通道数，再通过3x3x1卷积核对每个通道进行卷积，每次卷积过后使用ReLU进行激活。

MobileNetV1的深度可分离卷积则是先使用3x3x1xM对输入层的每个通道分别卷积，之后通过1x1xMxN将输入层通道数转换为输出层通道数，每次卷积过后做一次批规范化操作，再使用ReLU进行激活。

这里我们使用MobileNetV1网络结构的第一个深度可分离卷积层来举例，输入层维度为112x112x32，输出层维度为112x112x64，Xception与MobileNet的深度可分离卷积的计算量与参数个数对比如下表：

由此可知将PW卷积与DW卷积的顺序调整后，优化了网络的空间复杂度和时间复杂度。

2

宽度因子

MobileNet本身的网络结构已经比较小并且执行延迟较低，但为了适配更定制化的场景，MobileNet提供了称为宽度因子（Width Multiplier）的超参数给我们调整。宽度因子在MobileNetV1、V2、V3都可以运用。

通过宽度因子，可以调整神经网络中间产生的特征的大小，调整的是特征数据通道数大小，从而调整了运算量的大小。

宽度因子简单来说就是新网络中每一个模块要使用的卷积核数量相较于标准的MobileNet比例。对于深度卷积结合1x1方式的卷积核，计算量为：

算式中α即为宽度因子，α常用的配置为1,0.75,0.5,0.25；当α等于1时就是标准的MobileNet。通过参数α可以非常有效的将计算量和参数数量约减到α的平方倍。

下图为MobileNetV1使用不同α系数进行网络参数的调整时，在ImageNet上的准确率、计算量、参数数量之间的关系（每一个项中最前面的数字表示α的取值）。

（数据来源https://arxiv.org/pdf/1704.04861.pdf）

可以看到当输入分辨率固定为224x224时，随着宽度因子的减少，模型的计算量和参数越来越小。从上表可以看到， 0.25 MobileNet的正确率比标准版1.0MobileNet低20%，但计算量和参数量几乎只有标准版1.0MobileNet计算量、参数量的10%！对于计算资源和存储资源都十分紧张的移动端平台，可以通过α宽度因子调节网络的餐数量是非常实用的，在真正使用时我们可以按需调整α宽度因子达到准确率与性能的平衡。

3

分辨率因子

MobileNet还提供了另一个超参数分辨率因子（Resolution Multiplier）供我们自定义网络结构，分辨率因子同样在MobileNetV1、V2、V3都可以运用。

分辨率因子一般用β来指代，β的取值范围在(0,1]之间，是作用于每一个模块输入尺寸的约减因子，简单来说就是将输入数据以及由此在每一个模块产生的特征图都变小了，结合宽度因子α，深度卷积结合1x1方式的卷积核计算量为：

下图为MobileNetV1使用不同的β系数作用于标准MobileNet时，在ImageNet上对精度和计算量的影响（α固定1.0）

（数据来源https://arxiv.org/pdf/1704.04861.pdf）

上图中的 224、192、160、128 对应的分辨率因子分别为 1、 6/7、5/7、4/7。

β=1时，输入图片的分辨率为224x224，卷积后的图像大小变化为： 224x224 、112x112、56x56、28x28、14x14、7x7。

β= 6/7时，输入图片的分辨率为192x192，卷积后各层特征图像大小变化为：192x192、96x96、48x48、24x24、12x12、6x6。

卷积特征图像的大小变化不会引起参数量的变化，只改变模型M-Adds计算量。上图中 224分辨率模型测试ImageNet数据集准确率为70.6%，192分辨率的模型准确率为69.1%，但是M-Adds计算量减少了151M，对移动平台计算资源紧张的情况下，同样可以通过β分辨率因子调节网络输入特征图的分辨率，做模型精度与计算量的取舍。

4

规范化

深度学习中的规范化操作（Normalization），有助于加快基于梯度下降法或随机梯度下降法模型的收敛速度，提升模型的精度，规范化的参数能够提升模型泛化能力，提高模型的可压缩性。

按照规范化操作涉及对象的不同可以分为两大类，一类是对输入值进行规范化操作，比如批规范化（Batch Normalization）、层规范化（Layer Normalization）、实例规范化（Instance Normalization）、组规范化（Group Normalization）方法都属于这一类。另外一类是对神经网络中参数进行规范化操作，比如使用L0,L1范数。

批规范化

批规范化（Batch Normalization）几乎存在于MobileNetV1、V2、V3的每个卷积层的后面，目的是加快训练收敛速度，提升准确率。

批规范化是一种对数值的特殊函数变换方法，也就是说假设原始的某个数值是 x，套上一个起到规范化作用的函数，对规范化之前的数值 x 进行转换，形成一个规范化后的数值，即：

所谓规范化，是希望转换后的数值满足一定的特性，至于对数值具体如何变换，跟规范化目标有关，不同的规范化目标导致具体方法中函数所采用的形式不同。通过自适应的重新参数化的方法，克服神经网络层数加深导致模型难以训练的问题。

参数规范化

参数规范化（Weight Normalization， WN）是规范化的一种, 通过人为的设定稀疏算法，去除模型中多余的参数（置为0）使得模型参数稀疏化，可以通过L1范式实现。

参数规范化是防止模型过分拟合训练数据。当训练一批样本的时候，随着训练的推移模型会越来越趋向于拟合样本数据。因为参数太多，会导致模型复杂度上升，容易过拟合。

需要保证模型"简单"的基础上最小化训练误差，这样得到的参数才具有好的泛化性能（也就是测试误差也小），而模型"简单"就是通过规则函数来实现的。

如上图所示，左侧分类明显的是欠拟合，模型并没有能够拟合数据。中间图示为合适的拟合，右边图示是过拟合，模型在训练样本中拟合度是很好的，但是却违背了特征分类规律，在新的测试样本中表现糟糕，影响模型的泛化能力。显然右侧模型在训练是受到额外参数干扰。参数规则化能够使参数稀疏，减少额外参数的干扰，提高泛化能力。

模型拥有稀疏的参数（模型中有大量参数为0），也有利于通过压缩算法压缩模型的大小。

5

线性瓶颈

线性瓶颈英文为Linear Bottleneck，是从Bottleneck结构演变而来的，被用于MobileNetV2与V3。

Bottleneck结构首次被提出是在ResNet网络中。该结构第一层使用逐点卷积，第二层使用3×3大小卷积核进行深度卷积，第三层再使用逐点卷积。MobileNet中的瓶颈结构最后一层逐点卷积使用的激活函数是Linear，所以称其为线性瓶颈结构（Linear Bottleneck）。线性瓶颈结构有两种，第一种是步长为1时使用残差结构，第二种是步长为2时不使用残差结构。

其中输入通道数为M，扩大倍数系数为T。T的值为大于0 的正数，当 0<T<1时，第一层逐点卷积起到的作用是降维。当 1<T时，第一层逐点卷积起到的作用是升维。

第二层为深度卷积，输入通道数 = 输出通道数 = M×T。

第三层为逐点卷积，作用是关联深度卷积后的特征图并输出指定通道数N。

线性瓶颈结构相对标准卷积能够减少参数数量，减少卷积计算量。从空间和时间上优化了网络。

6

反向残差

MobileNetV2中以ResNet的残差（Resials）结构为基础进行优化，提出了反向残差（Inverted Resials）的概念，之后也同样运用与MobileNetV3中。

ResNet中提出的残差结构解决训练中随着网络深度增加而出现的梯度消失问题，使反向传播过程中深度网络的浅层网络也能得到梯度，使浅层网络的参数也可训练，从而增加特征表达能力。

ResNet的残差结构实际是在线性瓶颈结构的基础上增加残差传播。如下图所示：

ResNet中的残差结构使用第一层逐点卷积降维，后使用深度卷积，再使用逐点卷积升维。

MobileNetV2版本中的残差结构使用第一层逐点卷积升维并使用Relu6激活函数代替Relu，之后使用深度卷积，同样使用Relu6激活函数，再使用逐点卷积降维，降维后使用Linear激活函数。这样的卷积操作方式更有利于移动端使用（有利于减少参数与M-Adds计算量），因维度升降方式与ResNet中的残差结构刚好相反，MobileNetV2将其称之为反向残差（Inverted Resials）。

7

5x5 的深度卷积

MobileNetV3中，深度卷积大量使用5x5大小的卷积核。这是因为使用神经结构搜索（NAS）技术计算出的MobileNetV3网络结构的过程中，发现了在深度卷积中使用5x5大小的卷积核比使用3x3大小的卷积核效果更好，准确率更高。关于NAS技术将会在下文的单独章节中做介绍。

8

Squeeze-and-excitation 模块

Squeeze-and-Excitation模块（简称SE模块）的首次提出是在2017年的Squeeze-and-Excitation Networks(SENet)网络结构中，在MNasNet中进行了改进，之后在MobileNetV3中大量使用。研究人员期望通过精确的建模卷积特征各个通道之间的作用关系来改善网络模型的表达能力。为了达到这个期望，提出了一种能够让网络模型对特征进行校准的机制，使得有效的权重大，无效或效果小的权重小的效果，这就是SE模块。

（图片来源https://arxiv.org/pdf/1905.02244.pdf）

如上图，MobileNetV3的SE模块被运用在线性瓶颈结构最后一层上，代替V2中最后的逐点卷积，改为先进行SE操作再逐点卷积。这样保持了网络结构每层的输入和输出，仅在中间做处理，类似于软件开发中的钩子。

SE模块结构详解

下图表示一个SE 模块。主要包含Squeeze和Excitation两部分。W，H表示特征图宽，高。C表示通道数，输入特征图大小为W×H×C。

压缩（Squeeze）

第一步是压缩（Squeeze）操作，如下图所示

这个操作就是一个全局平均池化（global average pooling）。经过压缩操作后特征图被压缩为1×1×C向量。

激励（Excitation）

接下来就是激励（Excitation）操作，如下图所示

由两个全连接层组成，其中SERatio是一个缩放参数，这个参数的目的是为了减少通道个数从而降低计算量。

第一个全连接层有C*SERatio个神经元，输入为1×1×C，输出1×1×C×SERadio。

第二个全连接层有C个神经元，输入为1×1×C×SERadio，输出为1×1×C。

scale操作

最后是scale操作，在得到1×1×C向量之后，就可以对原来的特征图进行scale操作了。很简单，就是通道权重相乘，原有特征向量为W×H×C，将SE模块计算出来的各通道权重值分别和原特征图对应通道的二维矩阵相乘，得出的结果输出。

这里我们可以得出SE模块的属性：

参数量 = 2×C×C×SERatio

计算量 = 2×C×C×SERatio

总体来讲SE模块会增加网络的总参数量，总计算量，因为使用的是全连接层计算量相比卷积层并不大，但是参数量会有明显上升，所以MobileNetV3-Large中的总参数量比MobileNetV2多了2M。

MobileNetV3中的SE模块

SE模块的使用是很灵活的，可以在已有网络上添加而不打乱网络原有的主体结构。

ResNet中添加SE模块形成SE-ResNet网络，SE模块是在bottleneck结构之后加入的，如下图左边所示。

MobileNetV3版本中SE模块加在了bottleneck结构的内部，在深度卷积后增加SE块，scale操作后再做逐点卷积，如上图右边所示。MobileNetV3版本的SERadio系数为0.25。使用SE模块后的MobileNetV3的参数量相比MobileNetV2多了约2M，达到5.4M，但是MobileNetV3的精度得到了很大的提升，在图像分类和目标检测中准确率都有明显提升。

9

h-swish激活函数

MobileNetV3中发现swish激活函数能够有效提高网络的精度，但是swish的计算量太大了，并不适合轻量级神经网络。MobileNetV3找到了类似swish激活函数但是计算量却少很多的替代激活函数h-swish（hard version of swish）如下所示：

sigmoid、h-sigmoid、swish、h-swish激活函数的比较：

（图片来源https://arxiv.org/pdf/1905.02244.pdf）

这种非线性在保持精度的情况下带来了很多优势，首先ReLU6在众多软硬件框架中都可以实现，其次量化时避免了数值精度的损失，运行快。这一非线性改变将模型的延时增加了15%。但它带来的网络效应对于精度和延时具有正向促进，剩下的开销可以通过融合非线性与先前层来消除。

Ⅱ 一文看懂四种基本的神经网络架构

原文链接：
http://blackblog.tech/2018/02/23/Eight-Neural-Network/

更多干货就在我的个人博客 http://blackblog.tech 欢迎关注

刚刚入门神经网络，往往会对众多的神经网络架构感到困惑，神经网络看起来复杂多样，但是这么多架构无非也就是三类，前馈神经网络，循环网络，对称连接网络，本文将介绍四种常见的神经网络，分别是CNN，RNN，DBN，GAN。通过这四种基本的神经网络架构，我们来对神经网络进行一定的了解。

神经网络是机器学习中的一种模型，是一种模仿动物神经网络行为特征，进行分布式并行信息处理的算法数学模型。这种网络依靠系统的复杂程度，通过调整内部大量节点之间相互连接的关系，从而达到处理信息的目的。
一般来说，神经网络的架构可以分为三类：

前馈神经网络：
这是实际应用中最常见的神经网络类型。第一层是输入，最后一层是输出。如果有多个隐藏层，我们称之为“深度”神经网络。他们计算出一系列改变样本相似性的变换。各层神经元的活动是前一层活动的非线性函数。

循环网络：
循环网络在他们的连接图中定向了循环，这意味着你可以按照箭头回到你开始的地方。他们可以有复杂的动态，使其很难训练。他们更具有生物真实性。
循环网络的目的使用来处理序列数据。在传统的神经网络模型中，是从输入层到隐含层再到输出层，层与层之间是全连接的，每层之间的节点是无连接的。但是这种普通的神经网络对于很多问题却无能无力。例如，你要预测句子的下一个单词是什么，一般需要用到前面的单词，因为一个句子中前后单词并不是独立的。
循环神经网路，即一个序列当前的输出与前面的输出也有关。具体的表现形式为网络会对前面的信息进行记忆并应用于当前输出的计算中，即隐藏层之间的节点不再无连接而是有连接的，并且隐藏层的输入不仅包括输入层的输出还包括上一时刻隐藏层的输出。

对称连接网络：
对称连接网络有点像循环网络，但是单元之间的连接是对称的（它们在两个方向上权重相同）。比起循环网络，对称连接网络更容易分析。这个网络中有更多的限制，因为它们遵守能量函数定律。没有隐藏单元的对称连接网络被称为“Hopfield 网络”。有隐藏单元的对称连接的网络被称为玻尔兹曼机。

其实之前的帖子讲过一些关于感知机的内容，这里再复述一下。
首先还是这张图
这是一个M-P神经元

一个神经元有n个输入，每一个输入对应一个权值w，神经元内会对输入与权重做乘法后求和，求和的结果与偏置做差，最终将结果放入激活函数中，由激活函数给出最后的输出，输出往往是二进制的，0 状态代表抑制，1 状态代表激活。

可以把感知机看作是 n 维实例空间中的超平面决策面，对于超平面一侧的样本，感知器输出 1，对于另一侧的实例输出 0，这个决策超平面方程是 w⋅x=0。那些可以被某一个超平面分割的正反样例集合称为线性可分(linearly separable)样例集合，它们就可以使用图中的感知机表示。
与、或、非问题都是线性可分的问题，使用一个有两输入的感知机能容易地表示，而异或并不是一个线性可分的问题，所以使用单层感知机是不行的，这时候就要使用多层感知机来解决疑惑问题了。

如果我们要训练一个感知机，应该怎么办呢？
我们会从随机的权值开始，反复地应用这个感知机到每个训练样例，只要它误分类样例就修改感知机的权值。重复这个过程，直到感知机正确分类所有的样例。每一步根据感知机训练法则来修改权值，也就是修改与输入 xi 对应的权 wi，法则如下：

这里 t 是当前训练样例的目标输出，o 是感知机的输出，η 是一个正的常数称为学习速率。学习速率的作用是缓和每一步调整权的程度，它通常被设为一个小的数值（例如 0.1），而且有时会使其随着权调整次数的增加而衰减。

多层感知机，或者说是多层神经网络无非就是在输入层与输出层之间加了多个隐藏层而已，后续的CNN，DBN等神经网络只不过是将重新设计了每一层的类型。感知机可以说是神经网络的基础，后续更为复杂的神经网络都离不开最简单的感知机的模型，

谈到机器学习，我们往往还会跟上一个词语，叫做模式识别，但是真实环境中的模式识别往往会出现各种问题。比如：
图像分割：真实场景中总是掺杂着其它物体。很难判断哪些部分属于同一个对象。对象的某些部分可以隐藏在其他对象的后面。
物体光照：像素的强度被光照强烈影响。
图像变形：物体可以以各种非仿射方式变形。例如，手写也可以有一个大的圆圈或只是一个尖头。
情景支持：物体所属类别通常由它们的使用方式来定义。例如，椅子是为了让人们坐在上面而设计的，因此它们具有各种各样的物理形状。
卷积神经网络与普通神经网络的区别在于，卷积神经网络包含了一个由卷积层和子采样层构成的特征抽取器。在卷积神经网络的卷积层中，一个神经元只与部分邻层神经元连接。在CNN的一个卷积层中，通常包含若干个特征平面(featureMap)，每个特征平面由一些矩形排列的的神经元组成，同一特征平面的神经元共享权值，这里共享的权值就是卷积核。卷积核一般以随机小数矩阵的形式初始化，在网络的训练过程中卷积核将学习得到合理的权值。共享权值（卷积核）带来的直接好处是减少网络各层之间的连接，同时又降低了过拟合的风险。子采样也叫做池化（pooling），通常有均值子采样（mean pooling）和最大值子采样（max pooling）两种形式。子采样可以看作一种特殊的卷积过程。卷积和子采样大大简化了模型复杂度，减少了模型的参数。
卷积神经网络由三部分构成。第一部分是输入层。第二部分由n个卷积层和池化层的组合组成。第三部分由一个全连结的多层感知机分类器构成。
这里举AlexNet为例：

·输入：224×224大小的图片，3通道
·第一层卷积：11×11大小的卷积核96个，每个GPU上48个。
·第一层max-pooling：2×2的核。
·第二层卷积：5×5卷积核256个，每个GPU上128个。
·第二层max-pooling：2×2的核。
·第三层卷积：与上一层是全连接，3*3的卷积核384个。分到两个GPU上个192个。
·第四层卷积：3×3的卷积核384个，两个GPU各192个。该层与上一层连接没有经过pooling层。
·第五层卷积：3×3的卷积核256个，两个GPU上个128个。
·第五层max-pooling：2×2的核。
·第一层全连接：4096维，将第五层max-pooling的输出连接成为一个一维向量，作为该层的输入。
·第二层全连接：4096维
·Softmax层：输出为1000，输出的每一维都是图片属于该类别的概率。

卷积神经网络在模式识别领域有着重要应用，当然这里只是对卷积神经网络做了最简单的讲解，卷积神经网络中仍然有很多知识，比如局部感受野，权值共享，多卷积核等内容，后续有机会再进行讲解。

传统的神经网络对于很多问题难以处理，比如你要预测句子的下一个单词是什么，一般需要用到前面的单词，因为一个句子中前后单词并不是独立的。RNN之所以称为循环神经网路，即一个序列当前的输出与前面的输出也有关。具体的表现形式为网络会对前面的信息进行记忆并应用于当前输出的计算中，即隐藏层之间的节点不再无连接而是有连接的，并且隐藏层的输入不仅包括输入层的输出还包括上一时刻隐藏层的输出。理论上，RNN能够对任何长度的序列数据进行处理。
这是一个简单的RNN的结构，可以看到隐藏层自己是可以跟自己进行连接的。

那么RNN为什么隐藏层能够看到上一刻的隐藏层的输出呢，其实我们把这个网络展开来开就很清晰了。

从上面的公式我们可以看出，循环层和全连接层的区别就是循环层多了一个权重矩阵 W。
如果反复把式2带入到式1，我们将得到：

在讲DBN之前，我们需要对DBN的基本组成单位有一定的了解，那就是RBM，受限玻尔兹曼机。
首先什么是玻尔兹曼机？
[图片上传失败...(image-d36b31-1519636788074)]
如图所示为一个玻尔兹曼机，其蓝色节点为隐层，白色节点为输入层。
玻尔兹曼机和递归神经网络相比，区别体现在以下几点：
1、递归神经网络本质是学习一个函数，因此有输入和输出层的概念，而玻尔兹曼机的用处在于学习一组数据的“内在表示”，因此其没有输出层的概念。
2、递归神经网络各节点链接为有向环，而玻尔兹曼机各节点连接成无向完全图。

而受限玻尔兹曼机是什么呢？
最简单的来说就是加入了限制，这个限制就是将完全图变成了二分图。即由一个显层和一个隐层构成，显层与隐层的神经元之间为双向全连接。

h表示隐藏层，v表示显层
在RBM中，任意两个相连的神经元之间有一个权值w表示其连接强度，每个神经元自身有一个偏置系数b（对显层神经元）和c（对隐层神经元）来表示其自身权重。
具体的公式推导在这里就不展示了

DBN是一个概率生成模型，与传统的判别模型的神经网络相对，生成模型是建立一个观察数据和标签之间的联合分布，对P(Observation|Label)和 P(Label|Observation)都做了评估，而判别模型仅仅而已评估了后者，也就是P(Label|Observation)。
DBN由多个限制玻尔兹曼机（Restricted Boltzmann Machines）层组成，一个典型的神经网络类型如图所示。这些网络被“限制”为一个可视层和一个隐层，层间存在连接，但层内的单元间不存在连接。隐层单元被训练去捕捉在可视层表现出来的高阶数据的相关性。

生成对抗网络其实在之前的帖子中做过讲解，这里在说明一下。
生成对抗网络的目标在于生成，我们传统的网络结构往往都是判别模型，即判断一个样本的真实性。而生成模型能够根据所提供的样本生成类似的新样本，注意这些样本是由计算机学习而来的。
GAN一般由两个网络组成，生成模型网络，判别模型网络。
生成模型 G 捕捉样本数据的分布，用服从某一分布（均匀分布，高斯分布等）的噪声 z 生成一个类似真实训练数据的样本，追求效果是越像真实样本越好；判别模型 D 是一个二分类器，估计一个样本来自于训练数据（而非生成数据）的概率，如果样本来自于真实的训练数据，D 输出大概率，否则，D 输出小概率。
举个例子：生成网络 G 好比假币制造团伙，专门制造假币，判别网络 D 好比警察，专门检测使用的货币是真币还是假币，G 的目标是想方设法生成和真币一样的货币，使得 D 判别不出来，D 的目标是想方设法检测出来 G 生成的假币。
传统的判别网络：

生成对抗网络：

下面展示一个cDCGAN的例子（前面帖子中写过的）
生成网络

判别网络

最终结果，使用MNIST作为初始样本，通过学习后生成的数字，可以看到学习的效果还是不错的。

本文非常简单的介绍了四种神经网络的架构，CNN，RNN，DBN，GAN。当然也仅仅是简单的介绍，并没有深层次讲解其内涵。这四种神经网络的架构十分常见，应用也十分广泛。当然关于神经网络的知识，不可能几篇帖子就讲解完，这里知识讲解一些基础知识，帮助大家快速入（zhuang）门（bi）。后面的帖子将对深度自动编码器，Hopfield 网络长短期记忆网络（LSTM）进行讲解。

Ⅲ 直观理解LSTM（长短时记忆网络）

长短时神经网络是一种特殊的递归神经网络，所谓递归神经网络就是网络能够解决时间序列问题的预测。所谓递归神经网络就是网络中具有循环结构。递归神经网路从某种程度来说和传统的神经网络并非完全不同。可以将递归神经网络想象成有多层相同网络结构的神经网络，每一层将信息传递给下一层（以下借鉴一些十分易懂的图片）：

上述是为了便于理解网络送展示的示意图，实际上网络结构只是上图左边的一小块。

普通的RNN没有办法解决需要长时记忆的功能。比如试图预测“I grew up in France… I speak fluent French.”中最后一个词。最近信息显示下一个词可能是一门语言的名字，但是如果我们想要缩小选择范围，我们需要包含“法国”的那段上下文，从前面的信息推断后面的单词。相关信息与预测位置的间隔很大是完全有可能的。然而RNNs并没有办法解决这种问题。

LSTM作为效果比较好的递归神经网络，拥有者对长时时间序列问题很好的解决能力。

LSTM也有这样的链式结构，但其重复模块内部的机构不同。具体如下：

之下说明一下内部四个网络的具体意义。
主要分为：单元状态 + 门限。
单元状态：让信息以不变的方式向下流动，相当于一个传送带，但传送带上的东西会随着他通过每一个重复模块基于当时的输入有所增减。

门限：有能力向单元状态增加或者剔除信息的管理机构，相当于传送带上放东西或者拿走东西的那个人。在LSTM中由sigmoid函数和乘法加法来控制这个过程。

上图通过当前时间的输入和前一个时间的输出来通过sigmoid函数来使得单元状态乘以这个sigmoid函数的输出。若sigmoid函数输出0则该部分信息需要被遗忘，反之该部分信息继续在单元状态中继续传下去。

该门限功能是更新旧的单元状态。之前的遗忘门限层决定了遗忘或者添加哪些信息，由该门限层来执行实现。

最后，我们需要决定需要输出什么。这个输出将会建立在单元状态的基础上，但是个过滤版本。首先，我们运行一个sigmoid层来决定单元状态中哪些部分需要输出。然后我们将单元状态输入到tanh函数（将值转换成-1到1之间）中，然后乘以输出的sigmoid门限值，所以我们只输出了我们想要输出的那部分。

上面提到的是非常常规的LSTM网络，LSTM有许多不同的变种，下面来介绍几种。

就是使用耦合遗忘和输入门限。我们不单独决定遗忘哪些、添加哪些新信息，而是一起做出决定。在输入的时候才进行遗忘。在遗忘某些旧信息时才将新值添加到状态中。

它将遗忘和输入门限结合输入到单个“更新门限”中。同样还将单元状态和隐藏状态合并，并做出一些其他变化。所得模型比标准LSTM模型要简单，这种做法越来越流行。

Ⅳ 一文看懂卷积神经网络-CNN（基本原理+独特价值+实际应用）

在 CNN 出现之前，图像对于人工智能来说是一个难题，有2个原因：

图像需要处理的数据量太大，导致成本很高，效率很低

图像在数字化的过程中很难保留原有的特征，导致图像处理的准确率不高

下面就详细说明一下这2个问题：

图像是由像素构成的，每个像素又是由颜色构成的。

现在随随便便一张图片都是 1000×1000 像素以上的，每个像素都有RGB 3个参数来表示颜色信息。

假如我们处理一张 1000×1000 像素的图片，我们就需要处理3百万个参数！

1000×1000×3=3,000,000

这么大量的数据处理起来是非常消耗资源的，而且这只是一张不算太大的图片！

卷积神经网络 – CNN 解决的第一个问题就是「将复杂问题简化」，把大量参数降维成少量参数，再做处理。

更重要的是：我们在大部分场景下，降维并不会影响结果。比如1000像素的图片缩小成200像素，并不影响肉眼认出来图片中是一只猫还是一只狗，机器也是如此。

图片数字化的传统方式我们简化一下，就类似下图的过程：

假如有圆形是1，没有圆形是0，那么圆形的位置不同就会产生完全不同的数据表达。但是从视觉的角度来看，图像的内容（本质）并没有发生变化，只是位置发生了变化。

所以当我们移动图像中的物体，用传统的方式的得出来的参数会差异很大！这是不符合图像处理的要求的。

而 CNN 解决了这个问题，他用类似视觉的方式保留了图像的特征，当图像做翻转，旋转或者变换位置时，它也能有效的识别出来是类似的图像。

那么卷积神经网络是如何实现的呢？在我们了解 CNN 原理之前，先来看看人类的视觉原理是什么？

深度学习的许多研究成果，离不开对大脑认知原理的研究，尤其是视觉原理的研究。

1981 年的诺贝尔医学奖，颁发给了 David Hubel（出生于加拿大的美国神经生物学家）和TorstenWiesel，以及 Roger Sperry。前两位的主要贡献，是“ 发现了视觉系统的信息处理 ”，可视皮层是分级的。

人类的视觉原理如下：从原始信号摄入开始（瞳孔摄入像素 Pixels），接着做初步处理（大脑皮层某些细胞发现边缘和方向），然后抽象（大脑判定，眼前的物体的形状，是圆形的），然后进一步抽象（大脑进一步判定该物体是只气球）。下面是人脑进行人脸识别的一个示例：

对于不同的物体，人类视觉也是通过这样逐层分级，来进行认知的：

我们可以看到，在最底层特征基本上是类似的，就是各种边缘，越往上，越能提取出此类物体的一些特征（轮子、眼睛、躯干等），到最上层，不同的高级特征最终组合成相应的图像，从而能够让人类准确的区分不同的物体。

那么我们可以很自然的想到：可以不可以模仿人类大脑的这个特点，构造多层的神经网络，较低层的识别初级的图像特征，若干底层特征组成更上一层特征，最终通过多个层级的组合，最终在顶层做出分类呢？

答案是肯定的，这也是许多深度学习算法（包括CNN）的灵感来源。

典型的 CNN 由3个部分构成：

卷积层

池化层

全连接层

如果简单来描述的话：

卷积层负责提取图像中的局部特征；池化层用来大幅降低参数量级(降维)；全连接层类似传统神经网络的部分，用来输出想要的结果。

下面的原理解释为了通俗易懂，忽略了很多技术细节，如果大家对详细的原理感兴趣，可以看这个视频《卷积神经网络基础》。

卷积层的运算过程如下图，用一个卷积核扫完整张图片：

这个过程我们可以理解为我们使用一个过滤器（卷积核）来过滤图像的各个小区域，从而得到这些小区域的特征值。

在具体应用中，往往有多个卷积核，可以认为，每个卷积核代表了一种图像模式，如果某个图像块与此卷积核卷积出的值大，则认为此图像块十分接近于此卷积核。如果我们设计了6个卷积核，可以理解：我们认为这个图像上有6种底层纹理模式，也就是我们用6中基础模式就能描绘出一副图像。以下就是25种不同的卷积核的示例：

总结：卷积层的通过卷积核的过滤提取出图片中局部的特征，跟上面提到的人类视觉的特征提取类似。

池化层简单说就是下采样，他可以大大降低数据的维度。其过程如下：

上图中，我们可以看到，原始图片是20×20的，我们对其进行下采样，采样窗口为10×10，最终将其下采样成为一个2×2大小的特征图。

之所以这么做的原因，是因为即使做完了卷积，图像仍然很大（因为卷积核比较小），所以为了降低数据维度，就进行下采样。

总结：池化层相比卷积层可以更有效的降低数据维度，这么做不但可以大大减少运算量，还可以有效的避免过拟合。

这个部分就是最后一步了，经过卷积层和池化层处理过的数据输入到全连接层，得到最终想要的结果。

经过卷积层和池化层降维过的数据，全连接层才能”跑得动”，不然数据量太大，计算成本高，效率低下。

典型的 CNN 并非只是上面提到的3层结构，而是多层结构，例如 LeNet-5 的结构就如下图所示：

卷积层 – 池化层- 卷积层 – 池化层 – 卷积层 – 全连接层

在了解了 CNN 的基本原理后，我们重点说一下 CNN 的实际应用有哪些。

卷积神经网络 – CNN 很擅长处理图像。而视频是图像的叠加，所以同样擅长处理视频内容。下面给大家列一些比较成熟的应用�：

图像分类、检索

图像分类是比较基础的应用，他可以节省大量的人工成本，将图像进行有效的分类。对于一些特定领域的图片，分类的准确率可以达到 95%+，已经算是一个可用性很高的应用了。

典型场景：图像搜索…

目标定位检测

可以在图像中定位目标，并确定目标的位置及大小。

典型场景：自动驾驶、安防、医疗…

目标分割

简单理解就是一个像素级的分类。

他可以对前景和背景进行像素级的区分、再高级一点还可以识别出目标并且对目标进行分类。

典型场景：美图秀秀、视频后期加工、图像生成…

人脸识别

人脸识别已经是一个非常普及的应用了，在很多领域都有广泛的应用。

典型场景：安防、金融、生活…

骨骼识别

骨骼识别是可以识别身体的关键骨骼，以及追踪骨骼的动作。

典型场景：安防、电影、图像视频生成、游戏…

今天我们介绍了 CNN 的价值、基本原理和应用场景，简单总结如下：

CNN 的价值：

能够将大数据量的图片有效的降维成小数据量(并不影响结果)

能够保留图片的特征，类似人类的视觉原理

CNN 的基本原理：

卷积层 – 主要作用是保留图片的特征

池化层 – 主要作用是把数据降维，可以有效的避免过拟合

全连接层 – 根据不同任务输出我们想要的结果

CNN 的实际应用：

图片分类、检索

目标定位检测

目标分割

人脸识别

骨骼识别

本文首发在 easyAI - 人工智能知识库

《一文看懂卷积神经网络-CNN（基本原理+独特价值+实际应用）》

Ⅳ 循环神经网络（RNN）简介

循环神经网络英文名称为 ( Recurrent Neural Network, RNN )，其通过使用带自反馈的神经元，能够处理任意长度的时序数据。

给定输入时序序列

式中，表示一段时序数据，为时间长度

以一段英文段落为例，其时序数据可以表示为：

若是一段视频，将其每一帧通过CNN网络处理得到相应的编码向量

循环神经网络通过以下公式更新隐藏层的活性值

循环神经网络图示

RNN的基本模型如下图所示，为便于理解，图中将RNN的模型展开，按照时序方向对其前向传播流程进行介绍

RNN的基本模型

利用数学表达式整个过程可以变得更加清晰，RNN的前向传播公式如下：

将上述过程整合到一个RNN cell中，可以表示为如下图所示的过程：

RNN的前向传播示意图

缺陷:

没有利用到模型后续的信息，可以通过双向RNN网络进行优化

RNN主要有两种计算梯度的方式：随时间反向传播（BPTT）和实时循环学习法（RTRL）算法

本文中主要介绍随时间反向传播的方法（ BackPropagation Through Time ）

RNN的损失函数与任务有关，对于同步的序列对序列任务，其loss可以用交叉熵公式表示

然后通过BPTT算法便可以进行梯度的反向传播计算

梯度爆炸的解决方法：梯度修剪

梯度消失的解决方法：增加长程依赖 LSTM,GRU

GRU的基本思路：增加相关门（Relate Gate）和更新门（Update Gate），进而使得RNN单元具有记忆能力

首先从数学角度对GRU的前向传播过程进行介绍，具体公式如下：

公式中各变量的含义：

将上述数学公式转化为图像，可得

GRU Cell的前向传播流程

LSTM意为长短时记忆网络 （Long Short-Term Memory Network，LSTM） ，可以有效地解决简单神经网络的梯度消失和爆炸问题

在LSTM中，与GRU主要有两点不同

同样，先从数学公式入手，对LSTM的前向传播过程进行了解

基于数学公式的过程，可将LSTM CELL的前向传播过程总结为（图片借用于nndl）：

LSTM Cell的前向传播示意图

从上图中可以看出，LSTM在前向传播的过程中传输了两个状态：内部状态以及外部状态，在整个传播过程中 外部状态（隐状态） 每个时刻都会被重写，因此可以看作一种 短时记忆 ，而 内部状态 可以在某个时刻捕捉一些关键信息，并将此信息保存一段时间间隔，可以看作一种 长时记忆 （长的短时记忆）

此外，在LSTM网络初始化训练的时候，需要手动将遗忘门的数值设置的大一些，否则在参数初始化的时候，遗忘门的数据会被初始化为一个很小的值，前一时刻的内部状态大部分都会丢失，这样网络很难获取到长距离的依赖信息，并且相邻时间间隔的梯度会非常小，导致 梯度弥散 问题，因此遗忘门的 偏置变量的初始值 一般很大，取 1或2

将设置为1即可，但是长度非常的大的时候会造成记忆单元的饱和，降低性能

三个门不仅依赖于和，也依赖于

将两者合并为一个门，即：

首先，我们要理解什么是深层的RNN，对于单个的RNN cell，若将其在时间维度上展开，其深度与时间维度的长度成正比，但若将一个RNN cell看作为单个从的映射函数，则单个cell实际上是很浅显的一层，因此深层循环神经网络要做的就是把多个RNN cell组合起来，换句话说，就是增加从输入到输出的路径，使得网络的深度更深。

如何增加从输入到输出的路径呢？两种途径：

堆叠循环神经网络示意图

将网络带入到实际应用场景中：假如我们要翻译一段句子

在这里，is和are实际上是由后面的Lucy和they所决定的，而这种单向的按照时序进行传播的方式没有利用到后面的信息。因此诞生了双向循环网络

双向循环神经网络示意图

双向循环神经网络实际上就是简单的双层循环神经网络，只不过第二层网络的传播方式为按时序的逆向传播，其传播公式为：

导航:首页 > 编程大全 > 神经网络图片

神经网络图片

与神经网络图片相关的资料

友情链接