卷积神经网络运行时间_卷积神经网络

㈠卷积神经网络通俗理解

卷积神经网络通俗理解如下：

卷积神经网络(CNN)-结构

① CNN结构一般包含这几个层：

输入层：用于数据的输入
卷积层：使用卷积核进行特征提取和特征映射
激励层：由于卷积也是一种线性运算，因此需要增加非线性映射
池化层：进行下采样，对特征图稀疏处理，减少数据运算量。
全连接层：通常在CNN的尾部进行重新拟合，减少特征信息的损失
输出层：用于输出结果

② 中间还可以使用一些其他的功能层：

归一化层（Batch Normalization）：在CNN中对特征的归一化
切分层：对某些（图片）数据的进行分区域的单独学习
融合层：对独立进行特征学习的分支进行融合

卷积神经网络(CNN)-输入层

① CNN的输入层的输入格式保留了图片本身的结构。

② 对于黑白的 28×28的图片，CNN 的输入是一个 28×28 的二维神经元。

③ 对于 RGB 格式的 28×28 图片，CNN 的输入则是一个3×28×28 的三维神经元（RGB中的每一个颜色通道都有一个 28×28 的矩阵）

2）卷积神经网络(CNN)-卷积层

感受视野

① 在卷积层中有几个重要的概念：

local receptive fields（感受视野）
shared weights（共享权值）

② 假设输入的是一个 28×28 的的二维神经元，我们定义 5×5 的一个 local receptive fields（感受视野），即隐藏层的神经元与输入层的 5×5 个神经元相连，这个 5*5 的区域就称之为 Local Receptive Fields，

㈡卷积神经网络

关于花书中卷积网络的笔记记录于 https://www.jianshu.com/p/5a3c90ea0807 。

卷积神经网络（Convolutional Neural Network，CNN或ConvNet）是一种具有 局部连接、权重共享 等特性的深层前馈神经网络。卷积神经网络是受生物学上感受野的机制而提出。 感受野（Receptive Field） 主要是指听觉、视觉等神经系统中一些神经元的特性，即 神经元只接受其所支配的刺激区域内的信号 。

卷积神经网络最早是主要用来处理图像信息。如果用全连接前馈网络来处理图像时，会存在以下两个问题：

目前的卷积神经网络一般是由卷积层、汇聚层和全连接层交叉堆叠而成的前馈神经网络，使用反向传播算法进行训练。 卷积神经网络有三个结构上的特性：局部连接，权重共享以及汇聚 。这些特性使卷积神经网络具有一定程度上的平移、缩放和旋转不变性。

卷积（Convolution）是分析数学中一种重要的运算。在信号处理或图像处理中，经常使用一维或二维卷积。

一维卷积经常用在信号处理中，用于计算信号的延迟累积。假设一个信号发生器每个时刻t 产生一个信号，其信息的衰减率为，即在个时间步长后，信息为原来的倍。假设，那么在时刻t收到的信号为当前时刻产生的信息和以前时刻延迟信息的叠加：

我们把称为 滤波器（Filter）或卷积核（Convolution Kernel） 。假设滤波器长度为，它和一个信号序列的卷积为：

信号序列和滤波器的卷积定义为：

一般情况下滤波器的长度远小于信号序列长度，下图给出一个一维卷积示例，滤波器为：

二维卷积经常用在图像处理中。因为图像为一个两维结构，所以需要将一维卷积进行扩展。给定一个图像和滤波器，其卷积为：

下图给出一个二维卷积示例：

注意这里的卷积运算并不是在图像中框定卷积核大小的方框并将各像素值与卷积核各个元素相乘并加和，而是先把卷积核旋转180度，再做上述运算。

在图像处理中，卷积经常作为特征提取的有效方法。一幅图像在经过卷积操作后得到结果称为 特征映射（Feature Map） 。

最上面的滤波器是常用的高斯滤波器，可以用来对图像进行 平滑去噪 ；中间和最下面的过滤器可以用来 提取边缘特征 。

在机器学习和图像处理领域，卷积的主要功能是在一个图像（或某种特征）上滑动一个卷积核（即滤波器），通过卷积操作得到一组新的特征。在计算卷积的过程中，需要进行卷积核翻转（即上文提到的旋转180度）。 在具体实现上，一般会以互相关操作来代替卷积，从而会减少一些不必要的操作或开销。

互相关（Cross-Correlation）是一个衡量两个序列相关性的函数，通常是用滑动窗口的点积计算来实现 。给定一个图像和卷积核，它们的互相关为：

互相关和卷积的区别仅在于卷积核是否进行翻转。因此互相关也可以称为不翻转卷积 。当卷积核是可学习的参数时，卷积和互相关是等价的。因此，为了实现上（或描述上）的方便起见，我们用互相关来代替卷积。事实上，很多深度学习工具中卷积操作其实都是互相关操作。

在卷积的标准定义基础上，还可以引入滤波器的 滑动步长 和 零填充 来增加卷积多样性，更灵活地进行特征抽取。

滤波器的步长（Stride）是指滤波器在滑动时的时间间隔。

零填充（Zero Padding）是在输入向量两端进行补零。

假设卷积层的输入神经元个数为，卷积大小为，步长为，神经元两端各填补个零，那么该卷积层的神经元数量为。

一般常用的卷积有以下三类：

因为卷积网络的训练也是基于反向传播算法，因此我们重点关注卷积的导数性质：

假设。

，，。函数为一个标量函数。

则由有：

可以看出， 关于的偏导数为和的卷积 ：

同理得到：

当或时，，即相当于对进行的零填充。从而 关于的偏导数为和的宽卷积 。

用互相关的“卷积”表示，即为（注意 宽卷积运算具有交换性性质 ）：

在全连接前馈神经网络中，如果第层有个神经元，第层有个神经元，连接边有个，也就是权重矩阵有个参数。当和都很大时，权重矩阵的参数非常多，训练的效率会非常低。

如果采用卷积来代替全连接，第层的净输入为第层活性值和滤波器的卷积，即：

根据卷积的定义，卷积层有两个很重要的性质：

由于局部连接和权重共享，卷积层的参数只有一个m维的权重和1维的偏置，共个参数。参数个数和神经元的数量无关。此外，第层的神经元个数不是任意选择的，而是满足。

卷积层的作用是提取一个局部区域的特征，不同的卷积核相当于不同的特征提取器。

特征映射（Feature Map）为一幅图像（或其它特征映射）在经过卷积提取到的特征，每个特征映射可以作为一类抽取的图像特征。 为了提高卷积网络的表示能力，可以在每一层使用多个不同的特征映射，以更好地表示图像的特征。

在输入层，特征映射就是图像本身。如果是灰度图像，就是有一个特征映射，深度；如果是彩色图像，分别有RGB三个颜色通道的特征映射，深度。

不失一般性，假设一个卷积层的结构如下：

为了计算输出特征映射，用卷积核分别对输入特征映射进行卷积，然后将卷积结果相加，并加上一个标量偏置得到卷积层的净输入再经过非线性激活函数后得到输出特征映射。

在输入为，输出为的卷积层中，每个输出特征映射都需要个滤波器以及一个偏置。假设每个滤波器的大小为，那么共需要个参数。

汇聚层（Pooling Layer）也叫子采样层（Subsampling Layer），其作用是进行特征选择，降低特征数量，并从而减少参数数量。

常用的汇聚函数有两种：

其中为区域内每个神经元的激活值。

可以看出，汇聚层不但可以有效地减少神经元的数量，还可以使得网络对一些小的局部形态改变保持不变性，并拥有更大的感受野。

典型的汇聚层是将每个特征映射划分为大小的不重叠区域，然后使用最大汇聚的方式进行下采样。汇聚层也可以看做是一个特殊的卷积层，卷积核大小为，步长为，卷积核为函数或函数。过大的采样区域会急剧减少神经元的数量，会造成过多的信息损失。

一个典型的卷积网络是由卷积层、汇聚层、全连接层交叉堆叠而成。

目前常用卷积网络结构如图所示，一个卷积块为连续个卷积层和个汇聚层（通常设置为，为或）。一个卷积网络中可以堆叠个连续的卷积块，然后在后面接着个全连接层（的取值区间比较大，比如或者更大；一般为）。

目前，整个网络结构 趋向于使用更小的卷积核（比如和）以及更深的结构（比如层数大于50） 。此外，由于卷积的操作性越来越灵活（比如不同的步长），汇聚层的作用变得也越来越小，因此目前比较流行的卷积网络中， 汇聚层的比例也逐渐降低，趋向于全卷积网络 。

在全连接前馈神经网络中，梯度主要通过每一层的误差项进行反向传播，并进一步计算每层参数的梯度。在卷积神经网络中，主要有两种不同功能的神经层：卷积层和汇聚层。而参数为卷积核以及偏置，因此 只需要计算卷积层中参数的梯度。

不失一般性，第层为卷积层，第层的输入特征映射为，通过卷积计算得到第层的特征映射净输入，第层的第个特征映射净输入

由得：

同理可得，损失函数关于第层的第个偏置的偏导数为：

在卷积网络中，每层参数的梯度依赖其所在层的误差项。

卷积层和汇聚层中，误差项的计算有所不同，因此我们分别计算其误差项。

第层的第个特征映射的误差项的具体推导过程如下：

其中为第层使用的激活函数导数，为上采样函数（upsampling），与汇聚层中使用的下采样操作刚好相反。如果下采样是最大汇聚（max pooling），误差项中每个值会直接传递到上一层对应区域中的最大值所对应的神经元，该区域中其它神经元的误差项的都设为0。如果下采样是平均汇聚（meanpooling），误差项中每个值会被平均分配到上一层对应区域中的所有神经元上。

第层的第个特征映射的误差项的具体推导过程如下：

其中为宽卷积。

LeNet-5虽然提出的时间比较早，但是是一个非常成功的神经网络模型。基于LeNet-5 的手写数字识别系统在90年代被美国很多银行使用，用来识别支票上面的手写数字。LeNet-5 的网络结构如图：

不计输入层，LeNet-5共有7层，每一层的结构为：

AlexNet是第一个现代深度卷积网络模型，其首次使用了很多现代深度卷积网络的一些技术方法，比如采用了ReLU作为非线性激活函数，使用Dropout防止过拟合，使用数据增强来提高模型准确率等。AlexNet 赢得了2012 年ImageNet 图像分类竞赛的冠军。

AlexNet的结构如图，包括5个卷积层、3个全连接层和1个softmax层。因为网络规模超出了当时的单个GPU的内存限制，AlexNet 将网络拆为两半，分别放在两个GPU上，GPU间只在某些层（比如第3层）进行通讯。

AlexNet的具体结构如下：

在卷积网络中，如何设置卷积层的卷积核大小是一个十分关键的问题。 在Inception网络中，一个卷积层包含多个不同大小的卷积操作，称为Inception模块。Inception网络是由有多个inception模块和少量的汇聚层堆叠而成 。

v1版本的Inception模块，采用了4组平行的特征抽取方式，分别为1×1、3× 3、5×5的卷积和3×3的最大汇聚。同时，为了提高计算效率，减少参数数量，Inception模块在进行3×3、5×5的卷积之前、3×3的最大汇聚之后，进行一次1×1的卷积来减少特征映射的深度。如果输入特征映射之间存在冗余信息， 1×1的卷积相当于先进行一次特征抽取 。

㈢卷积神经网络

卷积神经网络 （Convolutional Neural Networks，CNN）是一种前馈神经网络。卷积神经网络是受生物学上感受野（Receptive Field）的机制而提出的。感受野主要是指听觉系统、本体感觉系统和视觉系统中神经元的一些性质。比如在视觉神经系统中，一个神经元的感受野是指视网膜上的特定区域，只有这个区域内的刺激才能够激活该神经元。

卷积神经网络又是怎样解决这个问题的呢？主要有三个思路：

在使用CNN提取特征时，到底使用哪一层的输出作为最后的特征呢？

答：倒数第二个全连接层的输出才是最后我们要提取的特征，也就是最后一个全连接层的输入才是我们需要的特征。

全连接层会忽视形状。卷积层可以保持形状不变。当输入数据是图像时，卷积层会以3维数据的形式接收输入数据，并同样以3维数据的形式输出至下一层。因此，在CNN中，可以（有可能）正确理解图像等具有形状的数据。

CNN中，有时将 卷积层的输入输出数据称为特征图（feature map） 。其中， 卷积层的输入数据称为输入特征图（input feature map） ， 输出数据称为输出特征图（output feature map）。

卷积层进行的处理就是 卷积运算 。卷积运算相当于图像处理中的“滤波器运算”。

滤波器相当于权重或者参数，滤波器数值都是学习出来的。 卷积层实现的是垂直边缘检测 。

边缘检测实际就是将图像由亮到暗进行区分，即边缘的过渡(edge transitions)。

卷积层对应到全连接层，左上角经过滤波器，得到的3，相当于一个神经元输出为3.然后相当于，我们把输入矩阵拉直为36个数据，但是我们只对其中的9个数据赋予了权重。

步幅为1 ，移动一个，得到一个1，相当于另一个神经单元的输出是1.

并且使用的是同一个滤波器，对应到全连接层，就是权值共享。

在这个例子中，输入数据是有高长方向的形状的数据，滤波器也一样，有高长方向上的维度。假设用（height, width）表示数据和滤波器的形状，则在本例中，输入大小是(4, 4)，滤波器大小是(3, 3)，输出大小是(2, 2)。另外，有的文献中也会用“核”这个词来表示这里所说的“滤波器”。

对于输入数据，卷积运算以一定间隔滑动滤波器的窗口并应用。这里所说的窗口是指图7-4中灰色的3 × 3的部分。如图7-4所示，将各个位置上滤
波器的元素和输入的对应元素相乘，然后再求和（有时将这个计算称为乘积累加运算）。然后，将这个结果保存到输出的对应位置。将这个过程在所有位置都进行一遍，就可以得到卷积运算的输出。

CNN中，滤波器的参数就对应之前的权重。并且，CNN中也存在偏置。

在进行卷积层的处理之前，有时要向输入数据的周围填入固定的数据（比如0等），这称为填充（padding），是卷积运算中经常会用到的处理。比如，在图7-6的例子中，对大小为(4, 4)的输入数据应用了幅度为1的填充。“幅度为1的填充”是指用幅度为1像素的0填充周围。

应用滤波器的位置间隔称为 步幅（stride） 。

假设输入大小为(H, W)，滤波器大小为(FH, FW)，输出大小为(OH, OW)，填充为P，步幅为S。

但是所设定的值必须使式（7.1）中的和分别可以除尽。当输出大小无法除尽时（结果是小数时），需要采取报错等对策。顺便说一下，根据深度学习的框架的不同，当值无法除尽时，有时会向最接近的整数四舍五入，不进行报错而继续运行。

之前的卷积运算的例子都是以有高、长方向的2维形状为对象的。但是，图像是3维数据，除了高、长方向之外，还需要处理通道方向。

在3维数据的卷积运算中，输入数据和滤波器的通道数要设为相同的值。

因此，作为4维数据，滤波器的权重数据要按(output_channel, input_channel, height, width)的顺序书写。比如，通道数为3、大小为5 × 5的滤
波器有20个时，可以写成(20, 3, 5, 5)。

对于每个通道，均使用自己的权值矩阵进行处理，输出时将多个通道所输出的值进行加和即可。

卷积运算的批处理，需要将在各层间传递的数据保存为4维数据。具体地讲，就是按(batch_num, channel, height, width)的顺序保存数据。

这里需要注意的是，网络间传递的是4维数据，对这N个数据进行了卷积运算。也就是说，批处理将N次的处理汇总成了1次进行。

池化是缩小高、长方向上的空间的运算。比如，如图7-14所示，进行将2 × 2的区域集约成1个元素的处理，缩小空间大小。

图7-14的例子是按步幅2进行2 × 2的Max池化时的处理顺序。“Max池化”是获取最大值的运算，“2 × 2”表示目标区域的大小。如图所示，从
2 × 2的区域中取出最大的元素。此外，这个例子中将步幅设为了2，所以2 × 2的窗口的移动间隔为2个元素。另外，一般来说，池化的窗口大小会和步幅设定成相同的值。比如，3 × 3的窗口的步幅会设为3，4 × 4的窗口的步幅会设为4等。

除了Max池化之外，还有Average池化等。相对于Max池化是从目标区域中取出最大值，Average池化则是计算目标区域的平均值。 在图像识别领域，主要使用Max池化。 因此，本书中说到“池化层”时，指的是Max池化。

池化层的特征
池化层有以下特征。
没有要学习的参数
池化层和卷积层不同，没有要学习的参数。池化只是从目标区域中取最大值（或者平均值），所以不存在要学习的参数。
通道数不发生变化
经过池化运算，输入数据和输出数据的通道数不会发生变化。如图7-15所示，计算是按通道独立进行的。

对微小的位置变化具有鲁棒性（健壮）
输入数据发生微小偏差时，池化仍会返回相同的结果。因此，池化对输入数据的微小偏差具有鲁棒性。比如，3 × 3的池化的情况下，如图
7-16所示，池化会吸收输入数据的偏差（根据数据的不同，结果有可能不一致）。

经过卷积层和池化层之后，进行Flatten，然后丢到全连接前向传播神经网络。

（找到一张图片使得某个filter响应最大。相当于filter固定，未知的是输入的图片。）未知的是输入的图片？？？

k是第k个filter，x是我们要找的参数。?这里我不是很明白。我得理解应该是去寻找最具有代表性的特征。

使用im2col来实现卷积层

卷积层的参数是需要学习的，但是池化层没有参数需要学习。全连接层的参数需要训练得到。

池化层不需要训练参数。全连接层的参数最多。卷积核的个数逐渐增多。激活层的size，逐渐减少。

最大池化只是计算神经网络某一层的静态属性，没有什么需要学习的，它只是一个静态属性 。

像这样展开之后，只需对展开的矩阵求各行的最大值，并转换为合适的形状即可（图7-22）。

参数
• input_dim ― 输入数据的维度：（通道，高，长）
• conv_param ― 卷积层的超参数（字典）。字典的关键字如下：
filter_num ― 滤波器的数量
filter_size ― 滤波器的大小
stride ― 步幅
pad ― 填充
• hidden_size ― 隐藏层（全连接）的神经元数量
• output_size ― 输出层（全连接）的神经元数量
• weitght_int_std ― 初始化时权重的标准差

LeNet

LeNet在1998年被提出，是进行手写数字识别的网络。如图7-27所示，它有连续的卷积层和池化层（正确地讲，是只“抽选元素”的子采样层），最后经全连接层输出结果。

和“现在的CNN”相比，LeNet有几个不同点。第一个不同点在于激活函数。LeNet中使用sigmoid函数，而现在的CNN中主要使用ReLU函数。
此外，原始的LeNet中使用子采样（subsampling）缩小中间数据的大小，而现在的CNN中Max池化是主流。

AlexNet

在LeNet问世20多年后，AlexNet被发布出来。AlexNet是引发深度学习热潮的导火线，不过它的网络结构和LeNet基本上没有什么不同，如图7-28所示。

AlexNet叠有多个卷积层和池化层，最后经由全连接层输出结果。虽然结构上AlexNet和LeNet没有大的不同，但有以下几点差异。
• 激活函数使用ReLU。
• 使用进行局部正规化的LRN（Local Response Normalization）层。
• 使用Dropout

TF2.0实现卷积神经网络

valid意味着不填充，same是填充
or the SAME padding, the output height and width are computed as:

out_height = ceil(float(in_height) / float(strides[1]))

out_width = ceil(float(in_width) / float(strides[2]))

And

For the VALID padding, the output height and width are computed as:

out_height = ceil(float(in_height - filter_height + 1) / float(strides[1]))

out_width = ceil(float(in_width - filter_width + 1) / float(strides[2]))
因此，我们可以设定 padding 策略。在 tf.keras.layers.Conv2D 中，当我们将 padding 参数设为 same 时，会将周围缺少的部分使用 0 补齐，使得输出的矩阵大小和输入一致。

㈣神经网络：卷积神经网络（CNN）

神经网络最早是由心理学家和神经学家提出的，旨在寻求开发和测试神经的计算模拟。

粗略地说，神经网络是一组连接的输入/输出单元，其中每个连接都与一个权相关联。在学习阶段，通过调整权值，使得神经网络的预测准确性逐步提高。由于单元之间的连接，神经网络学习又称连接者学习。

神经网络是以模拟人脑神经元的数学模型为基础而建立的，它由一系列神经元组成，单元之间彼此连接。从信息处理角度看，神经元可以看作是一个多输入单输出的信息处理单元，根据神经元的特性和功能，可以把神经元抽象成一个简单的数学模型。

神经网络有三个要素：拓扑结构、连接方式、学习规则

神经网络的拓扑结构：神经网络的单元通常按照层次排列，根据网络的层次数，可以将神经网络分为单层神经网络、两层神经网络、三层神经网络等。结构简单的神经网络，在学习时收敛的速度快，但准确度低。

神经网络的层数和每层的单元数由问题的复杂程度而定。问题越复杂，神经网络的层数就越多。例如，两层神经网络常用来解决线性问题，而多层网络就可以解决多元非线性问题

神经网络的连接：包括层次之间的连接和每一层内部的连接，连接的强度用权来表示。

根据层次之间的连接方式，分为：

1）前馈式网络：连接是单向的，上层单元的输出是下层单元的输入，如反向传播网络，Kohonen网络

2）反馈式网络：除了单项的连接外，还把最后一层单元的输出作为第一层单元的输入，如Hopfield网络

根据连接的范围，分为：

1）全连接神经网络：每个单元和相邻层上的所有单元相连

2）局部连接网络：每个单元只和相邻层上的部分单元相连

神经网络的学习

根据学习方法分：

感知器：有监督的学习方法，训练样本的类别是已知的，并在学习的过程中指导模型的训练

认知器：无监督的学习方法，训练样本类别未知，各单元通过竞争学习。

根据学习时间分：

离线网络：学习过程和使用过程是独立的

在线网络：学习过程和使用过程是同时进行的

根据学习规则分：

相关学习网络：根据连接间的激活水平改变权系数

纠错学习网络：根据输出单元的外部反馈改变权系数

自组织学习网络：对输入进行自适应地学习

摘自《数学之美》对人工神经网络的通俗理解：

神经网络种类很多，常用的有如下四种：

1）Hopfield网络，典型的反馈网络，结构单层，有相同的单元组成

2）反向传播网络，前馈网络，结构多层，采用最小均方差的纠错学习规则，常用于语言识别和分类等问题

3）Kohonen网络：典型的自组织网络，由输入层和输出层构成，全连接

4）ART网络：自组织网络

深度神经网络：

Convolutional Neural Networks(CNN)卷积神经网络

Recurrent neural Network(RNN)循环神经网络

Deep Belief Networks(DBN)深度信念网络

深度学习是指多层神经网络上运用各种机器学习算法解决图像，文本等各种问题的算法集合。深度学习从大类上可以归入神经网络，不过在具体实现上有许多变化。

深度学习的核心是特征学习，旨在通过分层网络获取分层次的特征信息，从而解决以往需要人工设计特征的重要难题。

Machine Learning vs. Deep Learning

神经网络（主要是感知器）经常用于分类

神经网络的分类知识体现在网络连接上，被隐式地存储在连接的权值中。

神经网络的学习就是通过迭代算法，对权值逐步修改的优化过程，学习的目标就是通过改变权值使训练集的样本都能被正确分类。

神经网络特别适用于下列情况的分类问题：

1) 数据量比较小，缺少足够的样本建立模型

2) 数据的结构难以用传统的统计方法来描述

3) 分类模型难以表示为传统的统计模型

缺点：

1) 需要很长的训练时间，因而对于有足够长训练时间的应用更合适。

2) 需要大量的参数，这些通常主要靠经验确定，如网络拓扑或“结构”。

3) 可解释性差。该特点使得神经网络在数据挖掘的初期并不看好。

优点：

1) 分类的准确度高

2)并行分布处理能力强

3)分布存储及学习能力高

4)对噪音数据有很强的鲁棒性和容错能力

最流行的基于神经网络的分类算法是80年代提出的后向传播算法。后向传播算法在多路前馈神经网络上学习。

定义网络拓扑

在开始训练之前，用户必须说明输入层的单元数、隐藏层数（如果多于一层）、每一隐藏层的单元数和输出层的单元数，以确定网络拓扑。

对训练样本中每个属性的值进行规格化将有助于加快学习过程。通常，对输入值规格化，使得它们落入0.0和1.0之间。

离散值属性可以重新编码，使得每个域值一个输入单元。例如，如果属性A的定义域为(a0,a1,a2)，则可以分配三个输入单元表示A。即，我们可以用I0 ,I1 ,I2作为输入单元。每个单元初始化为0。如果A = a0，则I0置为1；如果A = a1，I1置1；如此下去。

一个输出单元可以用来表示两个类（值1代表一个类，而值0代表另一个）。如果多于两个类，则每个类使用一个输出单元。

隐藏层单元数设多少个“最好” ，没有明确的规则。

网络设计是一个实验过程，并可能影响准确性。权的初值也可能影响准确性。如果某个经过训练的网络的准确率太低，则通常需要采用不同的网络拓扑或使用不同的初始权值，重复进行训练。

后向传播算法学习过程：

迭代地处理一组训练样本，将每个样本的网络预测与实际的类标号比较。

每次迭代后，修改权值，使得网络预测和实际类之间的均方差最小。

这种修改“后向”进行。即，由输出层，经由每个隐藏层，到第一个隐藏层（因此称作后向传播）。尽管不能保证，一般地，权将最终收敛，学习过程停止。

算法终止条件：训练集中被正确分类的样本达到一定的比例，或者权系数趋近稳定。

后向传播算法分为如下几步：

1) 初始化权

网络的权通常被初始化为很小的随机数（例如，范围从-1.0到1.0，或从-0.5到0.5）。

每个单元都设有一个偏置（bias），偏置也被初始化为小随机数。

2) 向前传播输入

对于每一个样本X，重复下面两步：

向前传播输入，向后传播误差

计算各层每个单元的输入和输出。输入层：输出=输入=样本X的属性；即，对于单元j，Oj = Ij = Xj。隐藏层和输出层：输入=前一层的输出的线性组合,即，对于单元j， Ij =wij Oi + θj，输出=

3) 向后传播误差

计算各层每个单元的误差。

输出层单元j，误差：

Oj是单元j的实际输出，而Tj是j的真正输出。

隐藏层单元j，误差：

wjk是由j到下一层中单元k的连接的权，Errk是单元k的误差

更新权和偏差，以反映传播的误差。

权由下式更新：

其中，△wij是权wij的改变。l是学习率，通常取0和1之间的值。

偏置由下式更新：

其中，△θj是偏置θj的改变。

Example

人类视觉原理：

深度学习的许多研究成果，离不开对大脑认知原理的研究，尤其是视觉原理的研究。1981 年的诺贝尔医学奖，颁发给了 David Hubel（出生于加拿大的美国神经生物学家）和Torsten Wiesel，以及Roger Sperry。前两位的主要贡献，是“发现了视觉系统的信息处理”，可视皮层是分级的。

人类的视觉原理如下：从原始信号摄入开始（瞳孔摄入像素Pixels），接着做初步处理（大脑皮层某些细胞发现边缘和方向），然后抽象（大脑判定，眼前的物体的形状，是圆形的），然后进一步抽象（大脑进一步判定该物体是只气球）。

对于不同的物体，人类视觉也是通过这样逐层分级，来进行认知的：

在最底层特征基本上是类似的，就是各种边缘，越往上，越能提取出此类物体的一些特征（轮子、眼睛、躯干等），到最上层，不同的高级特征最终组合成相应的图像，从而能够让人类准确的区分不同的物体。

可以很自然的想到：可以不可以模仿人类大脑的这个特点，构造多层的神经网络，较低层的识别初级的图像特征，若干底层特征组成更上一层特征，最终通过多个层级的组合，最终在顶层做出分类呢？答案是肯定的，这也是许多深度学习算法（包括CNN）的灵感来源。

卷积神经网络是一种多层神经网络，擅长处理图像特别是大图像的相关机器学习问题。卷积网络通过一系列方法，成功将数据量庞大的图像识别问题不断降维，最终使其能够被训练。

CNN最早由Yann LeCun提出并应用在手写字体识别上。LeCun提出的网络称为LeNet，其网络结构如下：

这是一个最典型的卷积网络，由卷积层、池化层、全连接层组成。其中卷积层与池化层配合，组成多个卷积组，逐层提取特征，最终通过若干个全连接层完成分类。

CNN通过卷积来模拟特征区分，并且通过卷积的权值共享及池化，来降低网络参数的数量级，最后通过传统神经网络完成分类等任务。

降低参数量级：如果使用传统神经网络方式，对一张图片进行分类，那么，把图片的每个像素都连接到隐藏层节点上，对于一张1000x1000像素的图片，如果有1M隐藏层单元，一共有10^12个参数，这显然是不能接受的。

但是在CNN里，可以大大减少参数个数，基于以下两个假设：

1）最底层特征都是局部性的，也就是说，用10x10这样大小的过滤器就能表示边缘等底层特征

2）图像上不同小片段，以及不同图像上的小片段的特征是类似的，也就是说，能用同样的一组分类器来描述各种各样不同的图像

基于以上两个假设，就能把第一层网络结构简化

用100个10x10的小过滤器，就能够描述整幅图片上的底层特征。

卷积运算的定义如下图所示：

如上图所示，一个5x5的图像，用一个3x3的卷积核：

   101

   010

   101

来对图像进行卷积操作（可以理解为有一个滑动窗口，把卷积核与对应的图像像素做乘积然后求和），得到了3x3的卷积结果。

这个过程可以理解为使用一个过滤器（卷积核）来过滤图像的各个小区域，从而得到这些小区域的特征值。在实际训练过程中，卷积核的值是在学习过程中学到的。

在具体应用中，往往有多个卷积核，可以认为，每个卷积核代表了一种图像模式，如果某个图像块与此卷积核卷积出的值大，则认为此图像块十分接近于此卷积核。如果设计了6个卷积核，可以理解为这个图像上有6种底层纹理模式，也就是用6种基础模式就能描绘出一副图像。以下就是24种不同的卷积核的示例：

池化的过程如下图所示：

可以看到，原始图片是20x20的，对其进行采样，采样窗口为10x10，最终将其采样成为一个2x2大小的特征图。

之所以这么做，是因为即使做完了卷积，图像仍然很大（因为卷积核比较小），所以为了降低数据维度，就进行采样。

即使减少了许多数据，特征的统计属性仍能够描述图像，而且由于降低了数据维度，有效地避免了过拟合。

在实际应用中，分为最大值采样（Max-Pooling）与平均值采样（Mean-Pooling）。

LeNet网络结构：

注意，上图中S2与C3的连接方式并不是全连接，而是部分连接。最后，通过全连接层C5、F6得到10个输出，对应10个数字的概率。

卷积神经网络的训练过程与传统神经网络类似，也是参照了反向传播算法

第一阶段，向前传播阶段：

a）从样本集中取一个样本(X,Yp)，将X输入网络；

b）计算相应的实际输出Op

第二阶段，向后传播阶段

a）计算实际输出Op与相应的理想输出Yp的差；

b）按极小化误差的方法反向传播调整权矩阵。

㈤卷积神经网络

一般由卷积层，汇聚层，和全连接层交叉堆叠而成，使用反向传播算法进行训练（反向传播，再重新看一下）
卷积神经网络有三个结构上的特性：局部连接，权重共享以及子采样

滤波器filter 卷积核convolution kernel
局部连接，其实就是根据时间，权重递减最后为0 参数就传播不到远处了

局部连接乘以滤波器得特征映射

互相关，是一个衡量两个序列相关性的函数，
互相关和卷积的区别在于卷积核仅仅是否进行翻转，因此互相关也可以称为不翻转卷积
使用卷积是为了进行特征抽取，卷积核是否进行翻转和其特征抽取的能力无关。
当卷积核是可以学习的参数，卷积和互相关是等价的，因此，其实两者差不多。

Tips：P是代表特征映射

导航:首页 > 编程大全 > 卷积神经网络运行时间

卷积神经网络运行时间

与卷积神经网络运行时间相关的资料

友情链接