神经网络模型教材_神经网络BP模型

Ⅰ 神经网络ART1模型

一、ART1模型概述

自适应共振理论(Adaptive Resonance Theory)简称ART，是于1976年由美国Boston大学S.Grossberg提出来的。

这一理论的显著特点是，充分利用了生物神经细胞之间自兴奋与侧抑制的动力学原理，让输入模式通过网络双向连接权的识别与比较，最后达到共振来完成对自身的记忆，并以同样的方法实现网络的回想。当提供给网络回想的是一个网络中记忆的、或是与已记忆的模式十分相似的模式时，网络将会把这个模式回想出来，提出正确的分类。如果提供给网络回想的是一个网络中不存在的模式，则网络将在不影响已有记忆的前提下，将这一模式记忆下来，并将分配一个新的分类单元作为这一记忆模式的分类标志。

S.Grossberg和G.A.Carpenter经过多年研究和不断发展，至今已提出了ART1，ART2和ART3三种网络结构。

ART1网络处理双极型(或二进制)数据，即观察矢量的分量是二值的，它只取0或1。

二、ART1模型原理

ART1网络是两层结构，分输入层(比较层)和输出层(识别层)。从输入层到输出层由前馈连接权连接，从输出层到输入层由反馈连接权连接。

设网络输入层有N个神经元，网络输出层有M个神经元，二值输入模式和输出向量分别为：X_p=(

，

，…，

)，Y_p=(

，

，…，

)，p=1，2，…，P，其中P为输入学习模式的个数。设前馈连接权和反馈连接权矩阵分别为W=(w_nm)_N×M，T=(t_nm)_N×M，n=1，2，…，N，m=1，2，…，M。

ART1网络的学习及工作过程，是通过反复地将输入学习模式由输入层向输出层自下而上的识别和由输出层向输入层自上而下的比较过程来实现的。当这种自下而上的识别和自上而下的比较达到共振，即输出向量可以正确反映输入学习模式的分类，且网络原有记忆没有受到不良影响时，网络对一个输入学习模式的记忆分类则告完成。

ART1网络的学习及工作过程，可以分为初始化阶段、识别阶段、比较阶段和探寻阶段。

1.初始化阶段

ART1网络需要初始化的参数主要有3个：

即W=(w_nm)_N×M，T=(t_nm)_N×M和ρ。

反馈连接权T=(t_nm)_N×M在网络的整个学习过程中取0或1二值形式。这一参数实际上反映了输入层和输出层之间反馈比较的范围或强度。由于网络在初始化前没有任何记忆，相当于一张白纸，即没有选择比较的余的。因此可将T的元素全部设置为1，即

t_nm=1，n=1，2，…，N，m=1，2，…，M。(1)

这意味着网络在初始状态时，输入层和输出层之间将进行全范围比较，随着学习过程的深入，再按一定规则选择比较范围。

前馈连接权W=(w_nm)_N×M在网络学习结束后，承担着对学习模式的记忆任务。在对W初始化时，应该给所有学习模式提供一个平等竞争的机会，然后通过对输入模式的竞争，按一定规则调整W。W的初始值按下式设置：

中国矿产资源评价新技术与评价新模型

ρ称为网络的警戒参数，其取值范围为0＜ρ≤1。

2.识别阶段

ART1网络的学习识别阶段发生在输入学习模式由输入层向输出层的传递过程中。在这一阶段，首先将一个输入学习模式X_p=(

，

，…，

)提供给网络的输入层，然后把作为输入学习模式的存储媒介的前馈连接权W=(w_nm)_N×M与表示对这一输入学习模式分类结果的输出层的各个神经元进行比较，以寻找代表正确分类结果的神经元g。这一比较与寻找过程是通过寻找输出层神经元最大加权输入值，即神经元之间的竞争过程实现的，如下式所示：

中国矿产资源评价新技术与评价新模型

至此，网络的识别过程只是告一段落，并没有最后结束。此时，神经元m=g是否真正有资格代表对输入学习模式X_p的正确分类，还有待于下面的比较和寻找阶段来进一步确定。一般情况下需要对代表同一输入学习模式的分类结果的神经元进行反复识别。

3.比较阶段

ART1网络的比较阶段的主要职能是完成以下检查任务，每当给已学习结束的网络提供一个供识别的输入模式时，首先检查一下这个模式是否是已学习过的模式，如果是，则让网络回想出这个模式的分类结果；如果不是，则对这个模式加以记忆，并分配一个还没有利用过的输出层神经元来代表这个模式的分类结果。

具体过程如下：把由输出层每个神经元反馈到输入层的各个神经元的反馈连接权向量T_m=(t_1m，t_2m，…，t_Nm)，m=1，2，…，M作为对已学习的输入模式的一条条记录，即让向量T_m=(t_1m，t_2m，…，t_Nm)与输出层第m个神经元所代表的某一学习输入模式X_p=(

，

，…，

)完全相等。

当需要网络对某个输入模式进行回想时，这个输入模式经过识别阶段，竞争到神经元g作为自己的分类结果后，要检查神经元g反馈回来的向量T_g是否与输入模式相等。如果相等，则说明这是一个已记忆过的模式，神经元g代表了这个模式的分类结果，识别与比较产生了共振，网络不需要再经过寻找阶段，直接进入下一个输入模式的识别阶段；如果不相符，则放弃神经元g的分类结果，进入寻找阶段。

在比较阶段，当用向量T_g与输入模式X_P进行比较时，允许二者之间有一定的差距，差距的大小由警戒参数ρ决定。

首先计算

中国矿产资源评价新技术与评价新模型

C_g表示向量T_g与输入模式X_P的拟合度。

在式中，

(t_ng*x_n)表示向量T_g=(t_1g，t_2g，…，t_Ng)与输入模式X_p=(

，

，…，

)的逻辑“与”。

当T_g=X_P时，C_g=1。

当C_g≥ρ时，说明拟合度大于要求，没有超过警戒线。

以上两种情况均可以承认识别结果。

当C_g≠1且C_g＞ρ时，按式(6)式(7)将前馈连接权W_g=(w_1g，w_2g，…，w_Ng)和反馈连接权T_g=(t_1g，t_2g，…，t_Ng)向着与X_P更接近的方向调整。

中国矿产资源评价新技术与评价新模型

t_ng(t+1)=t_ng(t)*x_n，n=1，2，…，N。(7)

当C_g＜ρ时，说明拟合度小于要求，超过警戒线，则拒绝识别结果，将神经元g重新复位为0，并将这个神经元排除在下次识别范围之外，网络转入寻找阶段。

4.寻找阶段

寻找阶段是网络在比较阶段拒绝识别结果之后转入的一个反复探寻的阶段，在这一阶段中，网络将在余下的输出层神经元中搜索输入模式X_p的恰当分类。只要在输出向量Y_p=(

，

，…

)中含有与这一输入模式X_p相对应、或在警戒线以内相对应的分类单元，则网络可以得到与记忆模式相符的分类结果。如果在已记忆的分类结果中找不到与现在输入的模式相对应的分类，但在输出向量中还有未曾使用过的单元，则可以给这个输入模式分配一个新的分类单元。在以上两种情况下，网络的寻找过程总能获得成功，也就是说共振终将发生。

三、总体算法

设网络输入层有N个神经元，网络输出层有M个神经元，二值输入模式和输出向量分别为：X_p=(

，

，…，

)，Y_p=(

，

，…，

)p=1，2，…，p，其中p为输入学习模式的个数。设前馈连接权和反馈连接权矩阵分别为W=(w_nm)_N×M，T=(t_nm)_N×M，n=1，2，…，N，m=1，2，…，M。

(1)网络初始化

t_nm(0)=1，

中国矿产资源评价新技术与评价新模型

n=1，2，…，N，m=1，2，…，M。

0＜ρ≤1。

(2)将输入模式X_p=(

，

，…，

)提供给网络的输入层

(3)计算输出层各神经元输入加权和

中国矿产资源评价新技术与评价新模型

(4)选择X_P的最佳分类结果

中国矿产资源评价新技术与评价新模型

令神经元g的输出为1。

(5)计算

中国矿产资源评价新技术与评价新模型

判断

中国矿产资源评价新技术与评价新模型

当式(8)成立，转到(7)，否则，转到(6)。

(6)取消识别结果，将输出层神经元g的输出值复位为0，并将这一神经元排除在下一次识别的范围之外，返回步骤(4)。当所有已利用过的神经元都无法满足式(8)，则选择一个新的神经元作为分类结果，转到步骤(7)。

(7)承认识别结果，并按下式调整连接权

中国矿产资源评价新技术与评价新模型

t_ng(t+1)=t_ng(t)*x_n，n=1，2，…，N。

(8)将步骤(6)复位的所有神经元重新加入识别范围之内，返回步骤(2)对下一模式进行识别。

(9)输出分类识别结果。

(10)结束。

四、实例

实例为ART1神经网络模型在柴北缘-东昆仑造山型金矿预测的应用。

1.建立综合预测模型

柴北缘—东昆仑地区位于青海省的西部，是中央造山带的西部成员——秦祁昆褶皱系的一部分，是典型的复合造山带(殷鸿福等，1998)。根据柴北缘—东昆仑地区地质概括以及造山型金矿成矿特点，选择与成矿相关密切的专题数据，建立柴北缘—东昆仑地区的综合信息找矿模型：

1)金矿重砂异常数据是金矿的重要找矿标志。

2)金矿水化异常数据是金矿的重要找矿标志。

3)金矿的化探异常数据控制金矿床的分布。

4)金矿的空间分布与通过该区的深大断裂有关。

5)研究区内断裂密集程度控制金矿的产出。

6)重力构造的存在与否是金矿存在的一个标志。

7)磁力构造线的存在也是金矿存在的一个重要标志。

8)研究区地质复杂程度也对金矿的产出具有重要的作用。

9)研究区存在的矿(化)点是一个重要的标志。

2.划分预测单元

预测工作是在单元上进行的，预测工作的结果是与单元有着较为直接的联系，在找矿模型指导下，以最大限度地反映成矿信息和预测单元面积最小为原则，通过对研究区内地质、地球物理、地球化学等的综合资料分析，对可能的成矿地段圈定了预测单元。采用网格化单元作为本次研究的预测单元，网格单元的大小是，40×40，将研究区划分成774个预测单元。

3.变量选择(表8-6)

4.ART1模型预测结果

ART1神经网络模型算法中，给定不同的阈值，将改变预测分类的结果。本次实验选取得阈值为ρ=0.41，系统根据此阈值进行计算获得计算结果，并通过将不同的分类结果赋予不同的颜色，最终获得ART模型预测单元的分类结果。分类的结果是形成29个类别。分类结果用不同的颜色表示，其具体结果地显示见图8-5。图形中颜色只代表类别号，不代表分类的好坏。将矿点专题图层叠加以后，可以看出，颜色为灰色的单元与矿的关系更为密切。

表8-6 预测变量标志的选择表

图8-5 东昆仑—柴北缘地区基于ARTL模型的金矿分类结果图

Ⅱ 请简述一下神经网络的PDB模型

资料1．人工神经网络理论基础
包括：
（1） PDP(Parallel Distribated Processing)模式
（2）容限理论
（3）网络拓扑
（4）混沌理论
1、PDP模式
PDP模式是一种认知心理的平行分布式模式。认知是信息处理过程，并且是知觉、注意、记忆、学习、表象、思维、概念形式、问题求解、语言、情绪、个性差异等等有机联系的处理过程。PDP模式是一种接近人类思维推论的模式。人脑中知识的表达是采用分布式的表达结构，人脑的控制是实行分布式的控制方式。相互作用、相互限制是PDP模式的基本思想，平行分布是PDP模式的基本构架。
PDP模式的实施，需要一种合理的表示方法，其中一种表示方法便是人工神经网络表示法。即采用类似于大脑神经网络的体系结构，在这种基本体系结构下，使人工神经网络经过学习训练，能适应多种知识体系。
参考：http://gamejedi.cn/bbs/dispbbs.asp?boardid=7&id=924&star=1&page=2

资料2．神经网络模型

信息加工模型有助于理论家把其理论假设进一步细致化、具体化。然而正如我们在第一节所讨论过的，遵循联结主义传统的学者对比提出了反对意见，认为这一模型假设认知过程是继时性流动，而事实并非总是如此，（参见Rumelhart, Hinton,和 McClelland, 1986），至少有一些认知过程更可能是同时发生的。比如说司机开车时可同时与人讲话。一种用得越来越多的模型是神经网络模型（或称并行分布模型）。这类模型认为不同的认知过程可以同时发生，这一假设与人们的主观感觉相一致：许多东西同时出现在脑海中。这一假设还与我们已知的大脑神经的操作相一致。

神经网络模型假设有一系列相互连接的加工单元，而且这些单元的激活水平是不同的。根据不同的传播规则，激活从一个单元传播到与之相连的其它单元。
参考：http://jpkc.ecnu.e.cn/jxcg/931045/stu/ygg02/gg021/gg02102/gg02102c.htm
3．

Ⅲ 神经网络控制的介绍

《神经网络控制》介绍了神经网络控制的基本理论与控制方法。全书共8章，包括神经网络和自动控制的基础知识、神经计算基础、神经网络模型、神经控制中的系统辨识、人工神经元控制系统、神经控制系统、模糊神经控制系统和神经控制中的遗传进化训练等内容。《神经网络控制》可作为高等工科院校工业自动化、计算机科学与技术、检测技术与仪器、电子信息、自动控制、电子信息工程等专业高年级学生、研究生教材或参考书，也供专业技术人员、技术管理人员或科技人员参考。《神经网络控制》备有电子教案，免费为教师提供，需要者请向出版社索取。

Ⅳ 神经网络BP模型

一、BP模型概述

误差逆传播(Error Back-Propagation)神经网络模型简称为BP(Back-Propagation)网络模型。

Pall Werbas博士于1974年在他的博士论文中提出了误差逆传播学习算法。完整提出并被广泛接受误差逆传播学习算法的是以Rumelhart和McCelland为首的科学家小组。他们在1986年出版“Parallel Distributed Processing，Explorations in the Microstructure of Cognition”(《并行分布信息处理》)一书中，对误差逆传播学习算法进行了详尽的分析与介绍，并对这一算法的潜在能力进行了深入探讨。

BP网络是一种具有3层或3层以上的阶层型神经网络。上、下层之间各神经元实现全连接，即下层的每一个神经元与上层的每一个神经元都实现权连接，而每一层各神经元之间无连接。网络按有教师示教的方式进行学习，当一对学习模式提供给网络后，神经元的激活值从输入层经各隐含层向输出层传播，在输出层的各神经元获得网络的输入响应。在这之后，按减小期望输出与实际输出的误差的方向，从输入层经各隐含层逐层修正各连接权，最后回到输入层，故得名“误差逆传播学习算法”。随着这种误差逆传播修正的不断进行，网络对输入模式响应的正确率也不断提高。

BP网络主要应用于以下几个方面：

1)函数逼近：用输入模式与相应的期望输出模式学习一个网络逼近一个函数；

2)模式识别：用一个特定的期望输出模式将它与输入模式联系起来；

3)分类：把输入模式以所定义的合适方式进行分类；

4)数据压缩：减少输出矢量的维数以便于传输或存储。

在人工神经网络的实际应用中，80%～90%的人工神经网络模型采用BP网络或它的变化形式，它也是前向网络的核心部分，体现了人工神经网络最精华的部分。

二、BP模型原理

下面以三层BP网络为例，说明学习和应用的原理。

1.数据定义

P对学习模式(x_p，d_p)，p=1，2，…，P；

输入模式矩阵X[N][P]=(x₁，x₂，…，x_P)；

目标模式矩阵d[M][P]=(d₁，d₂，…，d_P)。

三层BP网络结构

输入层神经元节点数S0=N，i=1，2，…，S0；

隐含层神经元节点数S1，j=1，2，…，S1；

神经元激活函数f1[S1]；

权值矩阵W1[S1][S0]；

偏差向量b1[S1]。

输出层神经元节点数S2=M，k=1，2，…，S2；

神经元激活函数f2[S2]；

权值矩阵W2[S2][S1]；

偏差向量b2[S2]。

学习参数

目标误差ϵ；

初始权更新值Δ₀；

最大权更新值Δ_max；

权更新值增大倍数η⁺；

权更新值减小倍数η^-。

2.误差函数定义

对第p个输入模式的误差的计算公式为

中国矿产资源评价新技术与评价新模型

y2_kp为BP网的计算输出。

3.BP网络学习公式推导

BP网络学习公式推导的指导思想是，对网络的权值W、偏差b修正，使误差函数沿负梯度方向下降，直到网络输出误差精度达到目标精度要求，学习结束。

各层输出计算公式

输入层

y0_i=x_i，i=1，2，…，S0；

隐含层

中国矿产资源评价新技术与评价新模型

y1_j=f1(z1_j)，

j=1，2，…，S1；

输出层

中国矿产资源评价新技术与评价新模型

y2_k=f2(z2_k)，

k=1，2，…，S2。

输出节点的误差公式

中国矿产资源评价新技术与评价新模型

对输出层节点的梯度公式推导

中国矿产资源评价新技术与评价新模型

E是多个y2_m的函数，但只有一个y2_k与w_kj有关，各y2_m间相互独立。

其中

中国矿产资源评价新技术与评价新模型

则

中国矿产资源评价新技术与评价新模型

设输出层节点误差为

δ2_k=(d_k-y2_k)·f2′(z2_k)，

则

中国矿产资源评价新技术与评价新模型

同理可得

中国矿产资源评价新技术与评价新模型

对隐含层节点的梯度公式推导

中国矿产资源评价新技术与评价新模型

E是多个y2_k的函数，针对某一个w1_ji，对应一个y1_j，它与所有的y2_k有关。因此，上式只存在对k的求和，其中

中国矿产资源评价新技术与评价新模型

则

中国矿产资源评价新技术与评价新模型

设隐含层节点误差为

中国矿产资源评价新技术与评价新模型

则

中国矿产资源评价新技术与评价新模型

同理可得

中国矿产资源评价新技术与评价新模型

4.采用弹性BP算法(RPROP)计算权值W、偏差b的修正值ΔW，Δb

1993年德国 Martin Riedmiller和Heinrich Braun 在他们的论文“A Direct Adaptive Method for Faster Backpropagation Learning：The RPROP Algorithm”中，提出Resilient Backpropagation算法——弹性BP算法(RPROP)。这种方法试图消除梯度的大小对权步的有害影响，因此，只有梯度的符号被认为表示权更新的方向。

权改变的大小仅仅由权专门的“更新值”

确定

中国矿产资源评价新技术与评价新模型

其中

表示在模式集的所有模式(批学习)上求和的梯度信息，(t)表示t时刻或第t次学习。

权更新遵循规则：如果导数是正(增加误差)，这个权由它的更新值减少。如果导数是负，更新值增加。

中国矿产资源评价新技术与评价新模型

RPROP算法是根据局部梯度信息实现权步的直接修改。对于每个权，我们引入它的

各自的更新值

，它独自确定权更新值的大小。这是基于符号相关的自适应过程，它基

于在误差函数E上的局部梯度信息，按照以下的学习规则更新

中国矿产资源评价新技术与评价新模型

其中0＜η^-＜1＜η⁺。

在每个时刻，如果目标函数的梯度改变它的符号，它表示最后的更新太大，更新值

应由权更新值减小倍数因子η^-得到减少；如果目标函数的梯度保持它的符号，更新值应由权更新值增大倍数因子η⁺得到增大。

为了减少自由地可调参数的数目，增大倍数因子η⁺和减小倍数因子η^–被设置到固定值

η⁺=1.2，

η^-=0.5，

这两个值在大量的实践中得到了很好的效果。

RPROP算法采用了两个参数：初始权更新值Δ₀和最大权更新值Δ_max

当学习开始时，所有的更新值被设置为初始值Δ₀，因为它直接确定了前面权步的大小，它应该按照权自身的初值进行选择，例如，Δ₀=0.1(默认设置)。

为了使权不至于变得太大，设置最大权更新值限制Δ_max，默认上界设置为

Δ_max=50.0。

在很多实验中，发现通过设置最大权更新值Δ_max到相当小的值，例如

Δ_max=1.0。

我们可能达到误差减小的平滑性能。

5.计算修正权值W、偏差b

第t次学习，权值W、偏差b的的修正公式

W^(t)=W^(t-1)+ΔW^(t)，

b^(t)=b^(t-1)+Δb^(t)，

其中，t为学习次数。

6.BP网络学习成功结束条件每次学习累积误差平方和

中国矿产资源评价新技术与评价新模型

每次学习平均误差

中国矿产资源评价新技术与评价新模型

当平均误差MSE＜ε，BP网络学习成功结束。

7.BP网络应用预测

在应用BP网络时，提供网络输入给输入层，应用给定的BP网络及BP网络学习得到的权值W、偏差b，网络输入经过从输入层经各隐含层向输出层的“顺传播”过程，计算出BP网的预测输出。

8.神经元激活函数f

线性函数

f(x)=x，

f′(x)=1，

f(x)的输入范围(-∞，+∞)，输出范围(-∞，+∞)。

一般用于输出层，可使网络输出任何值。

S型函数S(x)

中国矿产资源评价新技术与评价新模型

f(x)的输入范围(-∞，+∞)，输出范围(0，1)。

f′(x)=f(x)[1-f(x)]，

f′(x)的输入范围(-∞，+∞)，输出范围(0，

]。

一般用于隐含层，可使范围(-∞，+∞)的输入，变成(0，1)的网络输出，对较大的输入，放大系数较小；而对较小的输入，放大系数较大，所以可用来处理和逼近非线性的输入/输出关系。

在用于模式识别时，可用于输出层，产生逼近于0或1的二值输出。

双曲正切S型函数

中国矿产资源评价新技术与评价新模型

f(x)的输入范围(-∞，+∞)，输出范围(-1，1)。

f′(x)=1-f(x)·f(x)，

f′(x)的输入范围(-∞，+∞)，输出范围(0，1]。

一般用于隐含层，可使范围(-∞，+∞)的输入，变成(-1，1)的网络输出，对较大的输入，放大系数较小；而对较小的输入，放大系数较大，所以可用来处理和逼近非线性的输入/输出关系。

阶梯函数

类型1

中国矿产资源评价新技术与评价新模型

f(x)的输入范围(-∞，+∞)，输出范围{0，1}。

f′(x)=0。

类型2

中国矿产资源评价新技术与评价新模型

f(x)的输入范围(-∞，+∞)，输出范围{-1，1}。

f′(x)=0。

斜坡函数

类型1

中国矿产资源评价新技术与评价新模型

f(x)的输入范围(-∞，+∞)，输出范围[0，1]。

中国矿产资源评价新技术与评价新模型

f′(x)的输入范围(-∞，+∞)，输出范围{0，1}。

类型2

中国矿产资源评价新技术与评价新模型

f(x)的输入范围(-∞，+∞)，输出范围[-1，1]。

中国矿产资源评价新技术与评价新模型

f′(x)的输入范围(-∞，+∞)，输出范围{0，1}。

三、总体算法

1.三层BP网络(含输入层，隐含层，输出层)权值W、偏差b初始化总体算法

(1)输入参数X[N][P]，S₀，S₁，f₁[S₁]，S₂，f₂[S₂]；

(2)计算输入模式X[N][P]各个变量的最大值，最小值矩阵 X_max[N]，X_min[N]；

(3)隐含层的权值W₁，偏差b₁初始化。

情形1：隐含层激活函数f( )都是双曲正切S型函数

1)计算输入模式X[N][P]的每个变量的范围向量X_rng[N]；

2)计算输入模式X的每个变量的范围均值向量X_mid[N]；

3)计算W，b的幅度因子W_mag；

4)产生[-1，1]之间均匀分布的S₀×1维随机数矩阵R_and[S₁]；

5)产生均值为0，方差为1的正态分布的S₁×S₀维随机数矩阵Randnr[S₁][S₀]，随机数范围大致在[-1，1]；

6)计算W[S₁][S₀]，b[S₁]；

7)计算隐含层的初始化权值W₁[S₁][S₀]；

8)计算隐含层的初始化偏差b₁[S₁]；

9))输出W₁[S₁][S₀]，b₁[S₁]。

情形2：隐含层激活函数f( )都是S型函数

1)计算输入模式X[N][P]的每个变量的范围向量X_rng[N]；

2)计算输入模式X的每个变量的范围均值向量X_mid[N]；

3)计算W，b的幅度因子W_mag；

4)产生[-1，1]之间均匀分布的S₀×1维随机数矩阵R_and[S₁]；

5)产生均值为0，方差为1的正态分布的S₁×S₀维随机数矩阵R_andnr[S₁][S₀]，随机数范围大致在[-1，1]；

6)计算W[S₁][S₀]，b[S₁]；

7)计算隐含层的初始化权值W₁[S₁][S₀]；

8)计算隐含层的初始化偏差b₁[S₁]；

9)输出W₁[S₁][S₀]，b₁[S₁]。

情形3：隐含层激活函数f( )为其他函数的情形

1)计算输入模式X[N][P]的每个变量的范围向量X_rng[N]；

2)计算输入模式X的每个变量的范围均值向量X_mid[N]；

3)计算W，b的幅度因子W_mag；

4)产生[-1，1]之间均匀分布的S₀×1维随机数矩阵R_and[S₁]；

5)产生均值为0，方差为1的正态分布的S₁×S₀维随机数矩阵R_andnr[S₁][S₀]，随机数范围大致在[-1，1]；

6)计算W[S₁][S₀]，b[S₁]；

7)计算隐含层的初始化权值W₁[S₁][S₀]；

8)计算隐含层的初始化偏差b₁[S₁]；

9)输出W₁[S₁][S₀]，b₁[S₁]。

(4)输出层的权值W₂，偏差b₂初始化

1)产生[-1，1]之间均匀分布的S₂×S₁维随机数矩阵W₂[S₂][S₁]；

2)产生[-1，1]之间均匀分布的S₂×1维随机数矩阵b₂[S₂]；

3)输出W₂[S₂][S₁]，b₂[S₂]。

2.应用弹性BP算法(RPROP)学习三层BP网络(含输入层，隐含层，输出层)权值W、偏差b总体算法

函数：Train3BP_RPROP(S₀，X，P，S₁，W₁，b₁，f₁，S₂，W₂，b₂，f₂，d，TP)

(1)输入参数

P对模式(x_p，d_p)，p=1，2，…，P；

三层BP网络结构；

学习参数。

(2)学习初始化

；

2)各层W，b的梯度值

，

初始化为零矩阵。

(3)由输入模式X求第一次学习各层输出y₀，y₁，y₂及第一次学习平均误差MSE

(4)进入学习循环

epoch=1

(5)判断每次学习误差是否达到目标误差要求

如果MSE＜ϵ，

则，跳出epoch循环，

转到(12)。

(6)保存第epoch-1次学习产生的各层W，b的梯度值

，

(7)求第epoch次学习各层W，b的梯度值

，

1)求各层误差反向传播值δ；

2)求第p次各层W，b的梯度值

，

；

3)求p=1，2，…，P次模式产生的W，b的梯度值

，

的累加。

(8)如果epoch=1，则将第epoch-1次学习的各层W，b的梯度值

，

设为第epoch次学习产生的各层W，b的梯度值

，

。

(9)求各层W，b的更新

1)求权更新值Δ_ij更新；

2)求W，b的权更新值

，

；

3)求第epoch次学习修正后的各层W，b。

(10)用修正后各层W、b，由X求第epoch次学习各层输出y₀，y₁，y₂及第epoch次学习误差MSE

(11)epoch=epoch+1，

如果epoch≤MAX_EPOCH，转到(5)；

否则，转到(12)。

(12)输出处理

1)如果MSE＜ε，

则学习达到目标误差要求，输出W₁，b₁，W₂，b₂。

2)如果MSE≥ε，

则学习没有达到目标误差要求，再次学习。

(13)结束

3.三层BP网络(含输入层，隐含层，输出层)预测总体算法

首先应用Train3lBP_RPROP( )学习三层BP网络(含输入层，隐含层，输出层)权值W、偏差b，然后应用三层BP网络(含输入层，隐含层，输出层)预测。

函数：Simu3lBP( )。

1)输入参数：

P个需预测的输入数据向量x_p，p=1，2，…，P；

三层BP网络结构；

学习得到的各层权值W、偏差b。

2)计算P个需预测的输入数据向量x_p(p=1，2，…，P)的网络输出 y₂[S₂][P]，输出预测结果y₂[S₂][P]。

四、总体算法流程图

BP网络总体算法流程图见附图2。

五、数据流图

BP网数据流图见附图1。

六、实例

实例一全国铜矿化探异常数据BP 模型分类

1.全国铜矿化探异常数据准备

在全国铜矿化探数据上用稳健统计学方法选取铜异常下限值33.1，生成全国铜矿化探异常数据。

2.模型数据准备

根据全国铜矿化探异常数据，选取7类33个矿点的化探数据作为模型数据。这7类分别是岩浆岩型铜矿、斑岩型铜矿、矽卡岩型、海相火山型铜矿、陆相火山型铜矿、受变质型铜矿、海相沉积型铜矿，另添加了一类没有铜异常的模型(表8-1)。

3.测试数据准备

全国化探数据作为测试数据集。

4.BP网络结构

隐层数2，输入层到输出层向量维数分别为14，9、5、1。学习率设置为0.9，系统误差1e-5。没有动量项。

表8-1 模型数据表

续表

5.计算结果图

如图8-2、图8-3。

图8-2

图8-3 全国铜矿矿床类型BP模型分类示意图

实例二全国金矿矿石量品位数据BP 模型分类

1.模型数据准备

根据全国金矿储量品位数据，选取4类34个矿床数据作为模型数据，这4类分别是绿岩型金矿、与中酸性浸入岩有关的热液型金矿、微细浸染型型金矿、火山热液型金矿(表8-2)。

2.测试数据准备

模型样本点和部分金矿点金属量、矿石量、品位数据作为测试数据集。

3.BP网络结构

输入层为三维，隐层1层，隐层为三维，输出层为四维，学习率设置为0.8，系统误差1e-4，迭代次数5000。

表8-2 模型数据

4.计算结果

结果见表8-3、8-4。

表8-3 训练学习结果

表8-4 预测结果(部分)

续表

Ⅳ 深度学习之卷积神经网络经典模型

LeNet-5模型在CNN的应用中，文字识别系统所用的LeNet-5模型是非常经典的模型。LeNet-5模型是1998年，Yann LeCun教授提出的，它是第一个成功大规模应用在手写数字识别问题的卷积神经网络，在MNIST数据集中的正确率可以高达99.2%。

下面详细介绍一下LeNet-5模型工作的原理。
LeNet-5模型一共有7层，每层包含众多参数，也就是卷积神经网络中的参数。虽然层数只有7层，这在如今庞大的神经网络中可是说是非常少的了，但是包含了卷积层，池化层，全连接层，可谓麻雀虽小五脏俱全了。为了方便，我们把卷积层称为C层，下采样层叫做下采样层。
首先，输入层输入原始图像，原始图像被处理成32×32个像素点的值。然后，后面的隐层计在卷积和子抽样之间交替进行。C1层是卷积层，包含了六个特征图。每个映射也就是28x28个神经元。卷积核可以是5x5的十字形，这28×28个神经元共享卷积核权值参数，通过卷积运算，原始信号特征增强，同时也降低了噪声，当卷积核不同时，提取到图像中的特征不同；C2层是一个池化层，池化层的功能在上文已经介绍过了，它将局部像素值平均化来实现子抽样。
池化层包含了六个特征映射，每个映射的像素值为14x14，这样的池化层非常重要，可以在一定程度上保证网络的特征被提取，同时运算量也大大降低，减少了网络结构过拟合的风险。因为卷积层与池化层是交替出现的，所以隐藏层的第三层又是一个卷积层，第二个卷积层由16个特征映射构成，每个特征映射用于加权和计算的卷积核为10x10的。第四个隐藏层，也就是第二个池化层同样包含16个特征映射，每个特征映射中所用的卷积核是5x5的。第五个隐藏层是用5x5的卷积核进行运算，包含了120个神经元，也是这个网络中卷积运算的最后一层。
之后的第六层便是全连接层，包含了84个特征图。全连接层中对输入进行点积之后加入偏置，然后经过一个激活函数传输给输出层的神经元。最后一层，也就是第七层，为了得到输出向量，设置了十个神经元来进行分类，相当于输出一个包含十个元素的一维数组，向量中的十个元素即0到9。
AlexNet模型
AlexNet简介
2012年Imagenet图像识别大赛中，Alext提出的alexnet网络模型一鸣惊人，引爆了神经网络的应用热潮，并且赢得了2012届图像识别大赛的冠军，这也使得卷积神经网络真正意义上成为图像处理上的核心算法。上文介绍的LeNet-5出现在上个世纪，虽然是经典，但是迫于种种复杂的现实场景限制，只能在一些领域应用。不过，随着SVM等手工设计的特征的飞速发展，LeNet-5并没有形成很大的应用状况。随着ReLU与dropout的提出，以及GPU带来算力突破和互联网时代大数据的爆发，卷积神经网络带来历史的突破，AlexNet的提出让深度学习走上人工智能的最前端。
图像预处理
AlexNet的训练数据采用ImageNet的子集中的ILSVRC2010数据集，包含了1000类，共1.2百万的训练图像，50000张验证集，150000张测试集。在进行网络训练之前我们要对数据集图片进行预处理。首先我们要将不同分辨率的图片全部变成256x256规格的图像，变换方法是将图片的短边缩放到 256像素值，然后截取长边的中间位置的256个像素值，得到256x256大小的图像。除了对图片大小进行预处理，还需要对图片减均值，一般图像均是由RGB三原色构成，均值按RGB三分量分别求得，由此可以更加突出图片的特征，更方便后面的计算。
此外，对了保证训练的效果，我们仍需对训练数据进行更为严苛的处理。在256x256大小的图像中，截取227x227大小的图像，在此之后对图片取镜像，这样就使得原始数据增加了（256-224）x（256-224）x2= 2048倍。最后对RGB空间做PCA，然后对主成分做（0,0.1）的高斯扰动，结果使错误率下降1%。对测试数据而言，抽取以图像4个角落的大小为224224的图像，中心的224224大小的图像以及它们的镜像翻转图像，这样便可以获得10张图像，我们便可以利用softmax进行预测，对所有预测取平均作为最终的分类结果。
ReLU激活函数
之前我们提到常用的非线性的激活函数是sigmoid，它能够把输入的连续实值全部确定在0和1之间。但是这带来一个问题，当一个负数的绝对值很大时，那么输出就是0；如果是绝对值非常大的正数，输出就是1。这就会出现饱和的现象，饱和现象中神经元的梯度会变得特别小，这样必然会使得网络的学习更加困难。此外，sigmoid的output的值并不是0为均值，因为这会导致上一层输出的非0均值信号会直接输入到后一层的神经元上。所以AlexNet模型提出了ReLU函数，公式：f(x)=max(0,x)f(x)=max(0,x)。

用ReLU代替了Sigmoid，发现使用 ReLU 得到的SGD的收敛速度会比 sigmoid快很多，这成了AlexNet模型的优势之一。
Dropout
AlexNet模型提出了一个有效的模型组合方式，相比于单模型，只需要多花费一倍的时间，这种方式就做Dropout。在整个神经网络中，随机选取一半的神经元将它们的输出变成0。这种方式使得网络关闭了部分神经元，减少了过拟合现象。同时训练的迭代次数也得以增加。当时一个GTX580 GPU只有3GB内存，这使得大规模的运算成为不可能。但是，随着硬件水平的发展，当时的GPU已经可以实现并行计算了，并行计算之后两块GPU可以互相通信传输数据，这样的方式充分利用了GPU资源，所以模型设计利用两个GPU并行运算，大大提高了运算效率。
模型分析

AlexNet模型共有8层结构，其中前5层为卷积层，其中前两个卷积层和第五个卷积层有池化层，其他卷积层没有。后面3层为全连接层，神经元约有六十五万个，所需要训练的参数约六千万个。
图片预处理过后，进过第一个卷积层C1之后，原始的图像也就变成了55x55的像素大小，此时一共有96个通道。模型分为上下两块是为了方便GPU运算，48作为通道数目更加适合GPU的并行运算。上图的模型里把48层直接变成了一个面，这使得模型看上去更像一个立方体，大小为55x55x48。在后面的第二个卷积层C2中，卷积核的尺寸为5x5x48，由此再次进行卷积运算。在C1，C2卷积层的卷积运算之后，都会有一个池化层，使得提取特征之后的特征图像素值大大减小，方便了运算，也使得特征更加明显。而第三层的卷积层C3又是更加特殊了。第三层卷积层做了通道的合并，将之前两个通道的数据再次合并起来，这是一种串接操作。第三层后，由于串接，通道数变成256。全卷积的卷积核尺寸也就变成了13×13×25613×13×256。一个有4096个这样尺寸的卷积核分别对输入图像做4096次的全卷积操作，最后的结果就是一个列向量，一共有4096个数。这也就是最后的输出，但是AlexNet最终是要分1000个类，所以通过第八层，也就是全连接的第三层，由此得到1000个类输出。
Alexnet网络中各个层发挥了不同的作用，ReLU，多个CPU是为了提高训练速度，重叠pool池化是为了提高精度，且不容易产生过拟合，局部归一化响应是为了提高精度，而数据增益与dropout是为了减少过拟合。
VGG net
在ILSVRC-2014中，牛津大学的视觉几何组提出的VGGNet模型在定位任务第一名和分类任务第一名[[i]]。如今在计算机视觉领域，卷积神经网络的良好效果深得广大开发者的喜欢，并且上文提到的AlexNet模型拥有更好的效果，所以广大从业者学习者试图将其改进以获得更好地效果。而后来很多人经过验证认为，AlexNet模型中所谓的局部归一化响应浪费了计算资源，但是对性能却没有很大的提升。VGG的实质是AlexNet结构的增强版，它侧重强调卷积神经网络设计中的深度。将卷积层的深度提升到了19层，并且在当年的ImageNet大赛中的定位问题中获得了第一名的好成绩。整个网络向人们证明了我们是可以用很小的卷积核取得很好地效果，前提是我们要把网络的层数加深，这也论证了我们要想提高整个神经网络的模型效果，一个较为有效的方法便是将它的深度加深，虽然计算量会大大提高，但是整个复杂度也上升了，更能解决复杂的问题。虽然VGG网络已经诞生好几年了，但是很多其他网络上效果并不是很好地情况下，VGG有时候还能够发挥它的优势，让人有意想不到的收获。

与AlexNet网络非常类似，VGG共有五个卷积层，并且每个卷积层之后都有一个池化层。当时在ImageNet大赛中，作者分别尝试了六种网络结构。这六种结构大致相同，只是层数不同，少则11层，多达19层。网络结构的输入是大小为224*224的RGB图像，最终将分类结果输出。当然，在输入网络时，图片要进行预处理。
VGG网络相比AlexNet网络，在网络的深度以及宽度上做了一定的拓展，具体的卷积运算还是与AlexNet网络类似。我们主要说明一下VGG网络所做的改进。第一点，由于很多研究者发现归一化层的效果并不是很好，而且占用了大量的计算资源，所以在VGG网络中作者取消了归一化层；第二点，VGG网络用了更小的3x3的卷积核，而两个连续的3x3的卷积核相当于5x5的感受野，由此类推，三个3x3的连续的卷积核也就相当于7x7的感受野。这样的变化使得参数量更小，节省了计算资源，将资源留给后面的更深层次的网络。第三点是VGG网络中的池化层特征池化核改为了2x2，而在AlexNet网络中池化核为3x3。这三点改进无疑是使得整个参数运算量下降，这样我们在有限的计算平台上能够获得更多的资源留给更深层的网络。由于层数较多，卷积核比较小，这样使得整个网络的特征提取效果很好。其实由于VGG的层数较多，所以计算量还是相当大的，卷积层比较多成了它最显著的特点。另外，VGG网络的拓展性能比较突出，结构比较简洁，所以它的迁移性能比较好，迁移到其他数据集的时候泛化性能好。到现在为止，VGG网络还经常被用来提出特征。所以当现在很多较新的模型效果不好时，使用VGG可能会解决这些问题。
GoogleNet
谷歌于2014年Imagenet挑战赛（ILSVRC14）凭借GoogleNet再次斩获第一名。这个通过增加了神经网络的深度和宽度获得了更好地效果，在此过程中保证了计算资源的不变。这个网络论证了加大深度，宽度以及训练数据的增加是现有深度学习获得更好效果的主要方式。但是增加尺寸可能会带来过拟合的问题，因为深度与宽度的加深必然会带来过量的参数。此外，增加网络尺寸也带来了对计算资源侵占过多的缺点。为了保证计算资源充分利用的前提下去提高整个模型的性能，作者使用了Inception模型，这个模型在下图中有展示，可以看出这个有点像金字塔的模型在宽度上使用并联的不同大小的卷积核，增加了卷积核的输出宽度。因为使用了较大尺度的卷积核增加了参数。使用了1*1的卷积核就是为了使得参数的数量最少。

Inception模块
上图表格为网络分析图，第一行为卷积层，输入为224×224×3 ，卷积核为7x7，步长为2，padding为3，输出的维度为112×112×64，这里面的7x7卷积使用了 7×1 然后 1×7 的方式，这样便有(7+7)×64×3=2,688个参数。第二行为池化层，卷积核为3×33×3，滑动步长为2，padding为 1 ，输出维度：56×56×64，计算方式：1/2×(112+2×1?3+1)=56。第三行，第四行与第一行，第二行类似。第 5 行 Inception mole中分为4条支线，输入均为上层产生的 28×28×192 结果：第 1 部分，1×1 卷积层，输出大小为28×28×64；第 2 部分，先1×1卷积层，输出大小为28×28×96，作为输入进行3×3卷积层，输出大小为28×28×128；第 3部分，先1×1卷积层，输出大小为28×28×32，作为输入进行3×3卷积层，输出大小为28×28×32；而第3 部分3×3的池化层，输出大小为输出大小为28×28×32。第5行的Inception mole会对上面是个结果的输出结果并联，由此增加网络宽度。
ResNet
2015年ImageNet大赛中，MSRA何凯明团队的ResialNetworks力压群雄，在ImageNet的诸多领域的比赛中上均获得了第一名的好成绩，而且这篇关于ResNet的论文Deep Resial Learning for Image Recognition也获得了CVPR2016的最佳论文，实至而名归。
上文介绍了的VGG以及GoogleNet都是增加了卷积神经网络的深度来获得更好效果，也让人们明白了网络的深度与广度决定了训练的效果。但是，与此同时，宽度与深度加深的同时，效果实际会慢慢变差。也就是说模型的层次加深，错误率提高了。模型的深度加深，以一定的错误率来换取学习能力的增强。但是深层的神经网络模型牺牲了大量的计算资源，学习能力提高的同时不应当产生比浅层神经网络更高的错误率。这个现象的产生主要是因为随着神经网络的层数增加，梯度消失的现象就越来越明显。所以为了解决这个问题，作者提出了一个深度残差网络的结构Resial：

上图就是残差网络的基本结构，可以看出其实是增加了一个恒等映射，将原本的变换函数H(x)转换成了F(x)+x。示意图中可以很明显看出来整个网络的变化，这样网络不再是简单的堆叠结构，这样的话便很好地解决了由于网络层数增加而带来的梯度原来越不明显的问题。所以这时候网络可以做得很深，到目前为止，网络的层数都可以上千层，而能够保证很好地效果。并且，这样的简单叠加并没有给网络增加额外的参数跟计算量，同时也提高了网络训练的效果与效率。
在比赛中，为了证明自己观点是正确的，作者控制变量地设计几个实验。首先作者构建了两个plain网络，这两个网络分别为18层跟34层，随后作者又设计了两个残差网络，层数也是分别为18层和34层。然后对这四个模型进行控制变量的实验观察数据量的变化。下图便是实验结果。实验中，在plain网络上观测到明显的退化现象。实验结果也表明，在残差网络上，34层的效果明显要好于18层的效果，足以证明残差网络随着层数增加性能也是增加的。不仅如此，残差网络的在更深层的结构上收敛性能也有明显的提升，整个实验大为成功。

除此之外，作者还做了关于shortcut方式的实验，如果残差网络模块的输入输出维度不一致，我们如果要使维度统一，必须要对维数较少的进行増维。而增维的最好效果是用0来填充。不过实验数据显示三者差距很小，所以线性投影并不是特别需要。使用0来填充维度同时也保证了模型的复杂度控制在比较低的情况下。
随着实验的深入，作者又提出了更深的残差模块。这种模型减少了各个层的参数量，将资源留给更深层数的模型，在保证复杂度很低的情况下，模型也没有出现梯度消失很明显的情况，因此目前模型最高可达1202层，错误率仍然控制得很低。但是层数如此之多也带来了过拟合的现象，不过诸多研究者仍在改进之中，毕竟此时的ResNet已经相对于其他模型在性能上遥遥领先了。
残差网络的精髓便是shortcut。从一个角度来看，也可以解读为多种路径组合的一个网络。如下图：

ResNet可以做到很深，但是从上图中可以体会到，当网络很深，也就是层数很多时，数据传输的路径其实相对比较固定。我们似乎也可以将其理解为一个多人投票系统，大多数梯度都分布在论文中所谓的effective path上。
DenseNet
在Resnet模型之后，有人试图对ResNet模型进行改进，由此便诞生了ResNeXt模型。

这是对上面介绍的ResNet模型结合了GoogleNet中的inception模块思想，相比于Resnet来说更加有效。随后，诞生了DenseNet模型，它直接将所有的模块连接起来，整个模型更加简单粗暴。稠密相连成了它的主要特点。

我们将DenseNet与ResNet相比较:

从上图中可以看出，相比于ResNet，DenseNet参数量明显减少很多，效果也更加优越，只是DenseNet需要消耗更多的内存。
总结
上面介绍了卷积神经网络发展史上比较著名的一些模型，这些模型非常经典，也各有优势。在算力不断增强的现在，各种新的网络训练的效率以及效果也在逐渐提高。从收敛速度上看，VGG>Inception>DenseNet>ResNet,从泛化能力来看，Inception>DenseNet=ResNet>VGG，从运算量看来，Inception<DenseNet< ResNet<VGG，从内存开销来看，Inception<ResNet< DenseNet<VGG。在本次研究中，我们对各个模型均进行了分析，但从效果来看，ResNet效果是最好的，优于Inception，优于VGG，所以我们第四章实验中主要采用谷歌的Inception模型，也就是GoogleNet。

Ⅵ 神经网络的历史是什么

沃伦·麦卡洛克和沃尔特·皮茨（1943）基于数学和一种称为阈值逻辑的算法创造了一种神经网络的计算模型。这种模型使得神经网络的研究分裂为两种不同研究思路。一种主要关注大脑中的生物学过程，另一种主要关注神经网络在人工智能里的应用。

一、赫布型学习

二十世纪40年代后期，心理学家唐纳德·赫布根据神经可塑性的机制创造了一种对学习的假说，现在称作赫布型学习。赫布型学习被认为是一种典型的非监督式学习规则，它后来的变种是长期增强作用的早期模型。从1948年开始，研究人员将这种计算模型的思想应用到B型图灵机上。

法利和韦斯利·A·克拉克（1954）首次使用计算机，当时称作计算器，在MIT模拟了一个赫布网络。纳撒尼尔·罗切斯特（1956）等人模拟了一台 IBM 704计算机上的抽象神经网络的行为。

弗兰克·罗森布拉特创造了感知机。这是一种模式识别算法，用简单的加减法实现了两层的计算机学习网络。罗森布拉特也用数学符号描述了基本感知机里没有的回路，例如异或回路。这种回路一直无法被神经网络处理，直到保罗·韦伯斯(1975)创造了反向传播算法。

在马文·明斯基和西摩尔·派普特（1969）发表了一项关于机器学习的研究以后，神经网络的研究停滞不前。他们发现了神经网络的两个关键问题。

第一是基本感知机无法处理异或回路。第二个重要的问题是电脑没有足够的能力来处理大型神经网络所需要的很长的计算时间。直到计算机具有更强的计算能力之前，神经网络的研究进展缓慢。

二、反向传播算法与复兴

后来出现的一个关键的进展是保罗·韦伯斯发明的反向传播算法（Werbos 1975）。这个算法有效地解决了异或的问题，还有更普遍的训练多层神经网络的问题。

在二十世纪80年代中期，分布式并行处理（当时称作联结主义）流行起来。戴维·鲁姆哈特和詹姆斯·麦克里兰德的教材对于联结主义在计算机模拟神经活动中的应用提供了全面的论述。

神经网络传统上被认为是大脑中的神经活动的简化模型，虽然这个模型和大脑的生理结构之间的关联存在争议。人们不清楚人工神经网络能多大程度地反映大脑的功能。

支持向量机和其他更简单的方法（例如线性分类器）在机器学习领域的流行度逐渐超过了神经网络，但是在2000年代后期出现的深度学习重新激发了人们对神经网络的兴趣。

三、2006年之后的进展

人们用CMOS创造了用于生物物理模拟和神经形态计算的计算设备。最新的研究显示了用于大型主成分分析和卷积神经网络的纳米设备具有良好的前景。

如果成功的话，这会创造出一种新的神经计算设备，因为它依赖于学习而不是编程，并且它从根本上就是模拟的而不是数字化的，虽然它的第一个实例可能是数字化的CMOS设备。

在2009到2012年之间，Jürgen Schmidhuber在Swiss AI Lab IDSIA的研究小组研发的循环神经网络和深前馈神经网络赢得了8项关于模式识别和机器学习的国际比赛。

例如，Alex Graves et al.的双向、多维的LSTM赢得了2009年ICDAR的3项关于连笔字识别的比赛，而且之前并不知道关于将要学习的3种语言的信息。

IDSIA的Dan Ciresan和同事根据这个方法编写的基于GPU的实现赢得了多项模式识别的比赛，包括IJCNN 2011交通标志识别比赛等等。

他们的神经网络也是第一个在重要的基准测试中（例如IJCNN 2012交通标志识别和NYU的扬·勒丘恩（Yann LeCun）的MNIST手写数字问题）能达到或超过人类水平的人工模式识别器。

类似1980年Kunihiko Fukushima发明的neocognitron和视觉标准结构（由David H. Hubel和Torsten Wiesel在初级视皮层中发现的那些简单而又复杂的细胞启发）那样有深度的、高度非线性的神经结构可以被多伦多大学杰弗里·辛顿实验室的非监督式学习方法所训练。

2012年，神经网络出现了快速的发展，主要原因在于计算技术的提高，使得很多复杂的运算变得成本低廉。以AlexNet为标志，大量的深度网络开始出现。

2014年出现了残差神经网络，该网络极大解放了神经网络的深度限制，出现了深度学习的概念。

构成

典型的人工神经网络具有以下三个部分：

1、结构（Architecture）结构指定了网络中的变量和它们的拓扑关系。例如，神经网络中的变量可以是神经元连接的权重（weights）和神经元的激励值（activities of the neurons）。

2、激励函数（Activation Rule）大部分神经网络模型具有一个短时间尺度的动力学规则，来定义神经元如何根据其他神经元的活动来改变自己的激励值。一般激励函数依赖于网络中的权重（即该网络的参数）。

3、学习规则（Learning Rule）学习规则指定了网络中的权重如何随着时间推进而调整。这一般被看做是一种长时间尺度的动力学规则。一般情况下，学习规则依赖于神经元的激励值。它也可能依赖于监督者提供的目标值和当前权重的值。

例如，用于手写识别的一个神经网络，有一组输入神经元。输入神经元会被输入图像的数据所激发。在激励值被加权并通过一个函数（由网络的设计者确定）后，这些神经元的激励值被传递到其他神经元。

这个过程不断重复，直到输出神经元被激发。最后，输出神经元的激励值决定了识别出来的是哪个字母。

Ⅶ 求人推荐几本有关神经网络和遗传算法的书籍

图书. < 神经网络 >
作者：候媛彬，杜京义，汪梅编著
出版社：西安电子科技大学出版社
出版时间： 2007-8-1
字数： 339000
版次： 1
页数： 223
I S B N ： 9787560619026
分类：图书 >> 计算机/网络 >> 人工智能
定价：￥26.00
内容简介
神经网络是智能控制技术的主要分支之一。本书的主要内容有：神经网络的概念，神经网络的分类与学习方法，前向神经网络模型及其算法，改进的BP网络及其控制、辨识建模，基于遗传算法的神经网络，基于模糊理论的神经网络，RBF网络及其在混沌背景下对微弱信号的测量与控制，反馈网络，Hopfield网络及其在字符识别中的应用，支持向量机及其故障诊断，小波神经网络及其在控制与辨识中的应用。
本书内容全面，重点突出，以讲明基本概念和方法为主，尽量减少繁琐的数学推导，并给出一些结合工程应用的例题。本书附有光盘，其中包括结合各章节内容所开发的30多个源程序，可直接在MATLAB界面下运行，此外，还包括用Authorware和Flash软件制作的动画课件。
本书既可作为自动化和电气自动化专业及相关专业的研究生教材，也可供机电类工程技术人员选用，还可作为有兴趣的读者自学与应用的参考书。
作者简介
侯媛彬，教授，女，博士生导师，1997年获西安交通大学系统工程（Ⅰ）博士学位。西安科技大学矿山机电博士点学科带头人，西安科技大学省重点学科“控制理论与控制工程”学科带头人，中国自动化学会电气专业委员会委员，陕西省自动化协会常务理事兼教育委员会主任。一直从事自动化、安全技术与工程方面的教学和研究工作。讲授过博士、硕士和本科各层面的专业课程10多门。在国内外公开发表学术论文110余篇，其中被EI和ISTP检索30余篇。出版专著、教材8部：承担省部级科研项目及横向项目10余项；获实用新型专利2项；获省级科技进步奖3项：获科研、教学方面的各种奖10多项；2006年获省级师德标兵。

导航:首页 > 编程大全 > 神经网络模型教材

神经网络模型教材

与神经网络模型教材相关的资料

友情链接