大數據集卷積神經網路cnn_CNN、RNN、DNN的一般解釋

❶ 卷積神經網路

卷積神經網路 （Convolutional Neural Networks，CNN）是一種前饋神經網路。卷積神經網路是受生物學上感受野（Receptive Field）的機制而提出的。感受野主要是指聽覺系統、本體感覺系統和視覺系統中神經元的一些性質。比如在視覺神經系統中，一個神經元的感受野是指視網膜上的特定區域，只有這個區域內的刺激才能夠激活該神經元。

卷積神經網路又是怎樣解決這個問題的呢？主要有三個思路：

在使用CNN提取特徵時，到底使用哪一層的輸出作為最後的特徵呢？

答：倒數第二個全連接層的輸出才是最後我們要提取的特徵，也就是最後一個全連接層的輸入才是我們需要的特徵。

全連接層會忽視形狀。卷積層可以保持形狀不變。當輸入數據是圖像時，卷積層會以3維數據的形式接收輸入數據，並同樣以3維數據的形式輸出至下一層。因此，在CNN中，可以（有可能）正確理解圖像等具有形狀的數據。

CNN中，有時將 卷積層的輸入輸出數據稱為特徵圖（feature map） 。其中， 卷積層的輸入數據稱為輸入特徵圖（input feature map） ， 輸出數據稱為輸出特徵圖（output feature map）。

卷積層進行的處理就是 卷積運算 。卷積運算相當於圖像處理中的「濾波器運算」。

濾波器相當於權重或者參數，濾波器數值都是學習出來的。 卷積層實現的是垂直邊緣檢測 。

邊緣檢測實際就是將圖像由亮到暗進行區分，即邊緣的過渡(edge transitions)。

卷積層對應到全連接層，左上角經過濾波器，得到的3，相當於一個神經元輸出為3.然後相當於，我們把輸入矩陣拉直為36個數據，但是我們只對其中的9個數據賦予了權重。

步幅為1 ，移動一個，得到一個1，相當於另一個神經單元的輸出是1.

並且使用的是同一個濾波器，對應到全連接層，就是權值共享。

在這個例子中，輸入數據是有高長方向的形狀的數據，濾波器也一樣，有高長方向上的維度。假設用（height, width）表示數據和濾波器的形狀，則在本例中，輸入大小是(4, 4)，濾波器大小是(3, 3)，輸出大小是(2, 2)。另外，有的文獻中也會用「核」這個詞來表示這里所說的「濾波器」。

對於輸入數據，卷積運算以一定間隔滑動濾波器的窗口並應用。這里所說的窗口是指圖7-4中灰色的3 × 3的部分。如圖7-4所示，將各個位置上濾
波器的元素和輸入的對應元素相乘，然後再求和（有時將這個計算稱為乘積累加運算）。然後，將這個結果保存到輸出的對應位置。將這個過程在所有位置都進行一遍，就可以得到卷積運算的輸出。

CNN中，濾波器的參數就對應之前的權重。並且，CNN中也存在偏置。

在進行卷積層的處理之前，有時要向輸入數據的周圍填入固定的數據（比如0等），這稱為填充（padding），是卷積運算中經常會用到的處理。比如，在圖7-6的例子中，對大小為(4, 4)的輸入數據應用了幅度為1的填充。「幅度為1的填充」是指用幅度為1像素的0填充周圍。

應用濾波器的位置間隔稱為 步幅（stride） 。

假設輸入大小為(H, W)，濾波器大小為(FH, FW)，輸出大小為(OH, OW)，填充為P，步幅為S。

但是所設定的值必須使式（7.1）中的和分別可以除盡。當輸出大小無法除盡時（結果是小數時），需要採取報錯等對策。順便說一下，根據深度學習的框架的不同，當值無法除盡時，有時會向最接近的整數四捨五入，不進行報錯而繼續運行。

之前的卷積運算的例子都是以有高、長方向的2維形狀為對象的。但是，圖像是3維數據，除了高、長方向之外，還需要處理通道方向。

在3維數據的卷積運算中，輸入數據和濾波器的通道數要設為相同的值。

因此，作為4維數據，濾波器的權重數據要按(output_channel, input_channel, height, width)的順序書寫。比如，通道數為3、大小為5 × 5的濾
波器有20個時，可以寫成(20, 3, 5, 5)。

對於每個通道，均使用自己的權值矩陣進行處理，輸出時將多個通道所輸出的值進行加和即可。

卷積運算的批處理，需要將在各層間傳遞的數據保存為4維數據。具體地講，就是按(batch_num, channel, height, width)的順序保存數據。

這里需要注意的是，網路間傳遞的是4維數據，對這N個數據進行了卷積運算。也就是說，批處理將N次的處理匯總成了1次進行。

池化是縮小高、長方向上的空間的運算。比如，如圖7-14所示，進行將2 × 2的區域集約成1個元素的處理，縮小空間大小。

圖7-14的例子是按步幅2進行2 × 2的Max池化時的處理順序。「Max池化」是獲取最大值的運算，「2 × 2」表示目標區域的大小。如圖所示，從
2 × 2的區域中取出最大的元素。此外，這個例子中將步幅設為了2，所以2 × 2的窗口的移動間隔為2個元素。另外，一般來說，池化的窗口大小會和步幅設定成相同的值。比如，3 × 3的窗口的步幅會設為3，4 × 4的窗口的步幅會設為4等。

除了Max池化之外，還有Average池化等。相對於Max池化是從目標區域中取出最大值，Average池化則是計算目標區域的平均值。 在圖像識別領域，主要使用Max池化。 因此，本書中說到「池化層」時，指的是Max池化。

池化層的特徵
池化層有以下特徵。
沒有要學習的參數
池化層和卷積層不同，沒有要學習的參數。池化只是從目標區域中取最大值（或者平均值），所以不存在要學習的參數。
通道數不發生變化
經過池化運算，輸入數據和輸出數據的通道數不會發生變化。如圖7-15所示，計算是按通道獨立進行的。

對微小的位置變化具有魯棒性（健壯）
輸入數據發生微小偏差時，池化仍會返回相同的結果。因此，池化對輸入數據的微小偏差具有魯棒性。比如，3 × 3的池化的情況下，如圖
7-16所示，池化會吸收輸入數據的偏差（根據數據的不同，結果有可能不一致）。

經過卷積層和池化層之後，進行Flatten，然後丟到全連接前向傳播神經網路。

（找到一張圖片使得某個filter響應最大。相當於filter固定，未知的是輸入的圖片。）未知的是輸入的圖片？？？

k是第k個filter，x是我們要找的參數。?這里我不是很明白。我得理解應該是去尋找最具有代表性的特徵。

使用im2col來實現卷積層

卷積層的參數是需要學習的，但是池化層沒有參數需要學習。全連接層的參數需要訓練得到。

池化層不需要訓練參數。全連接層的參數最多。卷積核的個數逐漸增多。激活層的size，逐漸減少。

最大池化只是計算神經網路某一層的靜態屬性，沒有什麼需要學習的，它只是一個靜態屬性 。

像這樣展開之後，只需對展開的矩陣求各行的最大值，並轉換為合適的形狀即可（圖7-22）。

參數
• input_dim ― 輸入數據的維度：（通道，高，長）
• conv_param ― 卷積層的超參數（字典）。字典的關鍵字如下：
filter_num ― 濾波器的數量
filter_size ― 濾波器的大小
stride ― 步幅
pad ― 填充
• hidden_size ― 隱藏層（全連接）的神經元數量
• output_size ― 輸出層（全連接）的神經元數量
• weitght_int_std ― 初始化時權重的標准差

LeNet

LeNet在1998年被提出，是進行手寫數字識別的網路。如圖7-27所示，它有連續的卷積層和池化層（正確地講，是只「抽選元素」的子采樣層），最後經全連接層輸出結果。

和「現在的CNN」相比，LeNet有幾個不同點。第一個不同點在於激活函數。LeNet中使用sigmoid函數，而現在的CNN中主要使用ReLU函數。
此外，原始的LeNet中使用子采樣（subsampling）縮小中間數據的大小，而現在的CNN中Max池化是主流。

AlexNet

在LeNet問世20多年後，AlexNet被發布出來。AlexNet是引發深度學習熱潮的導火線，不過它的網路結構和LeNet基本上沒有什麼不同，如圖7-28所示。

AlexNet疊有多個卷積層和池化層，最後經由全連接層輸出結果。雖然結構上AlexNet和LeNet沒有大的不同，但有以下幾點差異。
• 激活函數使用ReLU。
• 使用進行局部正規化的LRN（Local Response Normalization）層。
• 使用Dropout

TF2.0實現卷積神經網路

valid意味著不填充，same是填充
or the SAME padding, the output height and width are computed as:

out_height = ceil(float(in_height) / float(strides[1]))

out_width = ceil(float(in_width) / float(strides[2]))

And

For the VALID padding, the output height and width are computed as:

out_height = ceil(float(in_height - filter_height + 1) / float(strides[1]))

out_width = ceil(float(in_width - filter_width + 1) / float(strides[2]))
因此，我們可以設定 padding 策略。在 tf.keras.layers.Conv2D 中，當我們將 padding 參數設為 same 時，會將周圍缺少的部分使用 0 補齊，使得輸出的矩陣大小和輸入一致。

❷ 九大卷積神經網路 ( CNN ) 的 PyTorch 實現

典型的卷積神經網路包括： AlexNet、VGG、ResNet; InceptionV1、InceptionV2、InceptionV3、InceptionV4、Inception-ResNet 。

輕量級網路包括： GhostNet、MobileNets、MobileNetV2、MobileNetV3、ShuffleNet、ShuffleNet V2、SqueezeNet Xception MixNet GhostNet 。

目標檢測網路包括： SSD、YOLO、YOLOv2、YOLOv3、FCOS、FPN、RetinaNet Objects as Points、FSAF、CenterNet FoveaBox 。

語義分割網路包括： FCN、Fast-SCNN、LEDNet、LRNNet、FisheyeMODNet 。

實例分割網路包括：PolarMask。
PolarMask : Single Shot Instance Segmentation with Polar Representation ,2019

人臉檢測和識別網路包括：FaceBoxes、LFFD、VarGFaceNet。

人體姿態識別網路包括：Stacked Hourglass、Networks Simple Baselines、LPN。
StackedHG: Stacked Hourglass Networks for Human Pose Estimation ,2016

Simple Baselines ：Simple Baselines for Human Pose Estimation and Tracking

LPN: Simple and Lightweight Human Pose Estimation

注意力機制網路包括：SE Net、scSE、NL Net、GCNet、CBAM。

人像分割網路包括：SINet。

❸ 一文看懂卷積神經網路-CNN（基本原理+獨特價值+實際應用）

在 CNN 出現之前，圖像對於人工智慧來說是一個難題，有2個原因：

圖像需要處理的數據量太大，導致成本很高，效率很低

圖像在數字化的過程中很難保留原有的特徵，導致圖像處理的准確率不高

下面就詳細說明一下這2個問題：

圖像是由像素構成的，每個像素又是由顏色構成的。

現在隨隨便便一張圖片都是 1000×1000 像素以上的，每個像素都有RGB 3個參數來表示顏色信息。

假如我們處理一張 1000×1000 像素的圖片，我們就需要處理3百萬個參數！

1000×1000×3=3,000,000

這么大量的數據處理起來是非常消耗資源的，而且這只是一張不算太大的圖片！

卷積神經網路 – CNN 解決的第一個問題就是「將復雜問題簡化」，把大量參數降維成少量參數，再做處理。

更重要的是：我們在大部分場景下，降維並不會影響結果。比如1000像素的圖片縮小成200像素，並不影響肉眼認出來圖片中是一隻貓還是一隻狗，機器也是如此。

圖片數字化的傳統方式我們簡化一下，就類似下圖的過程：

假如有圓形是1，沒有圓形是0，那麼圓形的位置不同就會產生完全不同的數據表達。但是從視覺的角度來看，圖像的內容（本質）並沒有發生變化，只是位置發生了變化。

所以當我們移動圖像中的物體，用傳統的方式的得出來的參數會差異很大！這是不符合圖像處理的要求的。

而 CNN 解決了這個問題，他用類似視覺的方式保留了圖像的特徵，當圖像做翻轉，旋轉或者變換位置時，它也能有效的識別出來是類似的圖像。

那麼卷積神經網路是如何實現的呢？在我們了解 CNN 原理之前，先來看看人類的視覺原理是什麼？

深度學習的許多研究成果，離不開對大腦認知原理的研究，尤其是視覺原理的研究。

1981 年的諾貝爾醫學獎，頒發給了 David Hubel（出生於加拿大的美國神經生物學家）和TorstenWiesel，以及 Roger Sperry。前兩位的主要貢獻，是「發現了視覺系統的信息處理」，可視皮層是分級的。

人類的視覺原理如下：從原始信號攝入開始（瞳孔攝入像素 Pixels），接著做初步處理（大腦皮層某些細胞發現邊緣和方向），然後抽象（大腦判定，眼前的物體的形狀，是圓形的），然後進一步抽象（大腦進一步判定該物體是只氣球）。下面是人腦進行人臉識別的一個示例：

對於不同的物體，人類視覺也是通過這樣逐層分級，來進行認知的：

我們可以看到，在最底層特徵基本上是類似的，就是各種邊緣，越往上，越能提取出此類物體的一些特徵（輪子、眼睛、軀乾等），到最上層，不同的高級特徵最終組合成相應的圖像，從而能夠讓人類准確的區分不同的物體。

那麼我們可以很自然的想到：可以不可以模仿人類大腦的這個特點，構造多層的神經網路，較低層的識別初級的圖像特徵，若干底層特徵組成更上一層特徵，最終通過多個層級的組合，最終在頂層做出分類呢？

答案是肯定的，這也是許多深度學習演算法（包括CNN）的靈感來源。

典型的 CNN 由3個部分構成：

卷積層

池化層

全連接層

如果簡單來描述的話：

卷積層負責提取圖像中的局部特徵；池化層用來大幅降低參數量級(降維)；全連接層類似傳統神經網路的部分，用來輸出想要的結果。

下面的原理解釋為了通俗易懂，忽略了很多技術細節，如果大家對詳細的原理感興趣，可以看這個視頻《卷積神經網路基礎》。

卷積層的運算過程如下圖，用一個卷積核掃完整張圖片：

這個過程我們可以理解為我們使用一個過濾器（卷積核）來過濾圖像的各個小區域，從而得到這些小區域的特徵值。

在具體應用中，往往有多個卷積核，可以認為，每個卷積核代表了一種圖像模式，如果某個圖像塊與此卷積核卷積出的值大，則認為此圖像塊十分接近於此卷積核。如果我們設計了6個卷積核，可以理解：我們認為這個圖像上有6種底層紋理模式，也就是我們用6中基礎模式就能描繪出一副圖像。以下就是25種不同的卷積核的示例：

總結：卷積層的通過卷積核的過濾提取出圖片中局部的特徵，跟上面提到的人類視覺的特徵提取類似。

池化層簡單說就是下采樣，他可以大大降低數據的維度。其過程如下：

上圖中，我們可以看到，原始圖片是20×20的，我們對其進行下采樣，采樣窗口為10×10，最終將其下采樣成為一個2×2大小的特徵圖。

之所以這么做的原因，是因為即使做完了卷積，圖像仍然很大（因為卷積核比較小），所以為了降低數據維度，就進行下采樣。

總結：池化層相比卷積層可以更有效的降低數據維度，這么做不但可以大大減少運算量，還可以有效的避免過擬合。

這個部分就是最後一步了，經過卷積層和池化層處理過的數據輸入到全連接層，得到最終想要的結果。

經過卷積層和池化層降維過的數據，全連接層才能」跑得動」，不然數據量太大，計算成本高，效率低下。

典型的 CNN 並非只是上面提到的3層結構，而是多層結構，例如 LeNet-5 的結構就如下圖所示：

卷積層 – 池化層- 卷積層 – 池化層 – 卷積層 – 全連接層

在了解了 CNN 的基本原理後，我們重點說一下 CNN 的實際應用有哪些。

卷積神經網路 – CNN 很擅長處理圖像。而視頻是圖像的疊加，所以同樣擅長處理視頻內容。下面給大家列一些比較成熟的應用�：

圖像分類、檢索

圖像分類是比較基礎的應用，他可以節省大量的人工成本，將圖像進行有效的分類。對於一些特定領域的圖片，分類的准確率可以達到 95%+，已經算是一個可用性很高的應用了。

典型場景：圖像搜索…

目標定位檢測

可以在圖像中定位目標，並確定目標的位置及大小。

典型場景：自動駕駛、安防、醫療…

目標分割

簡單理解就是一個像素級的分類。

他可以對前景和背景進行像素級的區分、再高級一點還可以識別出目標並且對目標進行分類。

典型場景：美圖秀秀、視頻後期加工、圖像生成…

人臉識別

人臉識別已經是一個非常普及的應用了，在很多領域都有廣泛的應用。

典型場景：安防、金融、生活…

骨骼識別

骨骼識別是可以識別身體的關鍵骨骼，以及追蹤骨骼的動作。

典型場景：安防、電影、圖像視頻生成、游戲…

今天我們介紹了 CNN 的價值、基本原理和應用場景，簡單總結如下：

CNN 的價值：

能夠將大數據量的圖片有效的降維成小數據量(並不影響結果)

能夠保留圖片的特徵，類似人類的視覺原理

CNN 的基本原理：

卷積層 – 主要作用是保留圖片的特徵

池化層 – 主要作用是把數據降維，可以有效的避免過擬合

全連接層 – 根據不同任務輸出我們想要的結果

CNN 的實際應用：

圖片分類、檢索

目標定位檢測

目標分割

人臉識別

骨骼識別

本文首發在 easyAI - 人工智慧知識庫

《一文看懂卷積神經網路-CNN（基本原理+獨特價值+實際應用）》

❹ 卷積神經網路cnn究竟是怎樣一步一步工作的

用一個卷積核滑動圖片來提取某種特徵（比如某個方向的邊），然後激活函數用ReLU來壓制梯度彌散。對得到的結果用另一個卷積核繼續提取+reLU，然後池化（保留區域最大或者用區域平均來替換整個局部區域的值，保證平移不變性和一定程度上對過擬合的壓制）
之後「深度」的話，就會需要對池化後的結果繼續用不同的卷積核進行「卷積+relu」再池化的工作。最後得到的實質是一個圖片的深度特徵，然後實際分類需要另外加一層，一般是softmax。
（也就是說如果對一個現成的已經訓練完畢的卷積神經網路模型，只保留除了最後一層之外的部分，然後輸入訓練圖片，把網路的輸出重新送入一個多類的SVM再訓練，最後也能得到差不多的結果，取決於svm的參數。）

❺ 神經網路：卷積神經網路（CNN）

神經網路最早是由心理學家和神經學家提出的，旨在尋求開發和測試神經的計算模擬。

粗略地說，神經網路是一組連接的輸入/輸出單元，其中每個連接都與一個權相關聯。在學習階段，通過調整權值，使得神經網路的預測准確性逐步提高。由於單元之間的連接，神經網路學習又稱連接者學習。

神經網路是以模擬人腦神經元的數學模型為基礎而建立的，它由一系列神經元組成，單元之間彼此連接。從信息處理角度看，神經元可以看作是一個多輸入單輸出的信息處理單元，根據神經元的特性和功能，可以把神經元抽象成一個簡單的數學模型。

神經網路有三個要素：拓撲結構、連接方式、學習規則

神經網路的拓撲結構：神經網路的單元通常按照層次排列，根據網路的層次數，可以將神經網路分為單層神經網路、兩層神經網路、三層神經網路等。結構簡單的神經網路，在學習時收斂的速度快，但准確度低。

神經網路的層數和每層的單元數由問題的復雜程度而定。問題越復雜，神經網路的層數就越多。例如，兩層神經網路常用來解決線性問題，而多層網路就可以解決多元非線性問題

神經網路的連接：包括層次之間的連接和每一層內部的連接，連接的強度用權來表示。

根據層次之間的連接方式，分為：

1）前饋式網路：連接是單向的，上層單元的輸出是下層單元的輸入，如反向傳播網路，Kohonen網路

2）反饋式網路：除了單項的連接外，還把最後一層單元的輸出作為第一層單元的輸入，如Hopfield網路

根據連接的范圍，分為：

1）全連接神經網路：每個單元和相鄰層上的所有單元相連

2）局部連接網路：每個單元只和相鄰層上的部分單元相連

神經網路的學習

根據學習方法分：

感知器：有監督的學習方法，訓練樣本的類別是已知的，並在學習的過程中指導模型的訓練

認知器：無監督的學習方法，訓練樣本類別未知，各單元通過競爭學習。

根據學習時間分：

離線網路：學習過程和使用過程是獨立的

在線網路：學習過程和使用過程是同時進行的

根據學習規則分：

相關學習網路：根據連接間的激活水平改變權系數

糾錯學習網路：根據輸出單元的外部反饋改變權系數

自組織學習網路：對輸入進行自適應地學習

摘自《數學之美》對人工神經網路的通俗理解：

神經網路種類很多，常用的有如下四種：

1）Hopfield網路，典型的反饋網路，結構單層，有相同的單元組成

2）反向傳播網路，前饋網路，結構多層，採用最小均方差的糾錯學習規則，常用於語言識別和分類等問題

3）Kohonen網路：典型的自組織網路，由輸入層和輸出層構成，全連接

4）ART網路：自組織網路

深度神經網路：

Convolutional Neural Networks(CNN)卷積神經網路

Recurrent neural Network(RNN)循環神經網路

Deep Belief Networks(DBN)深度信念網路

深度學習是指多層神經網路上運用各種機器學習演算法解決圖像，文本等各種問題的演算法集合。深度學習從大類上可以歸入神經網路，不過在具體實現上有許多變化。

深度學習的核心是特徵學習，旨在通過分層網路獲取分層次的特徵信息，從而解決以往需要人工設計特徵的重要難題。

Machine Learning vs. Deep Learning

神經網路（主要是感知器）經常用於分類

神經網路的分類知識體現在網路連接上，被隱式地存儲在連接的權值中。

神經網路的學習就是通過迭代演算法，對權值逐步修改的優化過程，學習的目標就是通過改變權值使訓練集的樣本都能被正確分類。

神經網路特別適用於下列情況的分類問題：

1) 數據量比較小，缺少足夠的樣本建立模型

2) 數據的結構難以用傳統的統計方法來描述

3) 分類模型難以表示為傳統的統計模型

缺點：

1) 需要很長的訓練時間，因而對於有足夠長訓練時間的應用更合適。

2) 需要大量的參數，這些通常主要靠經驗確定，如網路拓撲或「結構」。

3) 可解釋性差。該特點使得神經網路在數據挖掘的初期並不看好。

優點：

1) 分類的准確度高

2)並行分布處理能力強

3)分布存儲及學習能力高

4)對噪音數據有很強的魯棒性和容錯能力

最流行的基於神經網路的分類演算法是80年代提出的後向傳播演算法。後向傳播演算法在多路前饋神經網路上學習。

定義網路拓撲

在開始訓練之前，用戶必須說明輸入層的單元數、隱藏層數（如果多於一層）、每一隱藏層的單元數和輸出層的單元數，以確定網路拓撲。

對訓練樣本中每個屬性的值進行規格化將有助於加快學習過程。通常，對輸入值規格化，使得它們落入0.0和1.0之間。

離散值屬性可以重新編碼，使得每個域值一個輸入單元。例如，如果屬性A的定義域為(a0,a1,a2)，則可以分配三個輸入單元表示A。即，我們可以用I0 ,I1 ,I2作為輸入單元。每個單元初始化為0。如果A = a0，則I0置為1；如果A = a1，I1置1；如此下去。

一個輸出單元可以用來表示兩個類（值1代表一個類，而值0代表另一個）。如果多於兩個類，則每個類使用一個輸出單元。

隱藏層單元數設多少個「最好」，沒有明確的規則。

網路設計是一個實驗過程，並可能影響准確性。權的初值也可能影響准確性。如果某個經過訓練的網路的准確率太低，則通常需要採用不同的網路拓撲或使用不同的初始權值，重復進行訓練。

後向傳播演算法學習過程：

迭代地處理一組訓練樣本，將每個樣本的網路預測與實際的類標號比較。

每次迭代後，修改權值，使得網路預測和實際類之間的均方差最小。

這種修改「後向」進行。即，由輸出層，經由每個隱藏層，到第一個隱藏層（因此稱作後向傳播）。盡管不能保證，一般地，權將最終收斂，學習過程停止。

演算法終止條件：訓練集中被正確分類的樣本達到一定的比例，或者權系數趨近穩定。

後向傳播演算法分為如下幾步：

1) 初始化權

網路的權通常被初始化為很小的隨機數（例如，范圍從-1.0到1.0，或從-0.5到0.5）。

每個單元都設有一個偏置（bias），偏置也被初始化為小隨機數。

2) 向前傳播輸入

對於每一個樣本X，重復下面兩步：

向前傳播輸入，向後傳播誤差

計算各層每個單元的輸入和輸出。輸入層：輸出=輸入=樣本X的屬性；即，對於單元j，Oj = Ij = Xj。隱藏層和輸出層：輸入=前一層的輸出的線性組合,即，對於單元j， Ij =wij Oi + θj，輸出=

3) 向後傳播誤差

計算各層每個單元的誤差。

輸出層單元j，誤差：

Oj是單元j的實際輸出，而Tj是j的真正輸出。

隱藏層單元j，誤差：

wjk是由j到下一層中單元k的連接的權，Errk是單元k的誤差

更新權和偏差，以反映傳播的誤差。

權由下式更新：

其中，△wij是權wij的改變。l是學習率，通常取0和1之間的值。

偏置由下式更新：

其中，△θj是偏置θj的改變。

Example

人類視覺原理：

深度學習的許多研究成果，離不開對大腦認知原理的研究，尤其是視覺原理的研究。1981 年的諾貝爾醫學獎，頒發給了 David Hubel（出生於加拿大的美國神經生物學家）和Torsten Wiesel，以及Roger Sperry。前兩位的主要貢獻，是「發現了視覺系統的信息處理」，可視皮層是分級的。

人類的視覺原理如下：從原始信號攝入開始（瞳孔攝入像素Pixels），接著做初步處理（大腦皮層某些細胞發現邊緣和方向），然後抽象（大腦判定，眼前的物體的形狀，是圓形的），然後進一步抽象（大腦進一步判定該物體是只氣球）。

對於不同的物體，人類視覺也是通過這樣逐層分級，來進行認知的：

在最底層特徵基本上是類似的，就是各種邊緣，越往上，越能提取出此類物體的一些特徵（輪子、眼睛、軀乾等），到最上層，不同的高級特徵最終組合成相應的圖像，從而能夠讓人類准確的區分不同的物體。

可以很自然的想到：可以不可以模仿人類大腦的這個特點，構造多層的神經網路，較低層的識別初級的圖像特徵，若干底層特徵組成更上一層特徵，最終通過多個層級的組合，最終在頂層做出分類呢？答案是肯定的，這也是許多深度學習演算法（包括CNN）的靈感來源。

卷積神經網路是一種多層神經網路，擅長處理圖像特別是大圖像的相關機器學習問題。卷積網路通過一系列方法，成功將數據量龐大的圖像識別問題不斷降維，最終使其能夠被訓練。

CNN最早由Yann LeCun提出並應用在手寫字體識別上。LeCun提出的網路稱為LeNet，其網路結構如下：

這是一個最典型的卷積網路，由卷積層、池化層、全連接層組成。其中卷積層與池化層配合，組成多個卷積組，逐層提取特徵，最終通過若干個全連接層完成分類。

CNN通過卷積來模擬特徵區分，並且通過卷積的權值共享及池化，來降低網路參數的數量級，最後通過傳統神經網路完成分類等任務。

降低參數量級：如果使用傳統神經網路方式，對一張圖片進行分類，那麼，把圖片的每個像素都連接到隱藏層節點上，對於一張1000x1000像素的圖片，如果有1M隱藏層單元，一共有10^12個參數，這顯然是不能接受的。

但是在CNN里，可以大大減少參數個數，基於以下兩個假設：

1）最底層特徵都是局部性的，也就是說，用10x10這樣大小的過濾器就能表示邊緣等底層特徵

2）圖像上不同小片段，以及不同圖像上的小片段的特徵是類似的，也就是說，能用同樣的一組分類器來描述各種各樣不同的圖像

基於以上兩個假設，就能把第一層網路結構簡化

用100個10x10的小過濾器，就能夠描述整幅圖片上的底層特徵。

卷積運算的定義如下圖所示：

如上圖所示，一個5x5的圖像，用一個3x3的卷積核：

   101

   010

   101

來對圖像進行卷積操作（可以理解為有一個滑動窗口，把卷積核與對應的圖像像素做乘積然後求和），得到了3x3的卷積結果。

這個過程可以理解為使用一個過濾器（卷積核）來過濾圖像的各個小區域，從而得到這些小區域的特徵值。在實際訓練過程中，卷積核的值是在學習過程中學到的。

在具體應用中，往往有多個卷積核，可以認為，每個卷積核代表了一種圖像模式，如果某個圖像塊與此卷積核卷積出的值大，則認為此圖像塊十分接近於此卷積核。如果設計了6個卷積核，可以理解為這個圖像上有6種底層紋理模式，也就是用6種基礎模式就能描繪出一副圖像。以下就是24種不同的卷積核的示例：

池化的過程如下圖所示：

可以看到，原始圖片是20x20的，對其進行采樣，采樣窗口為10x10，最終將其采樣成為一個2x2大小的特徵圖。

之所以這么做，是因為即使做完了卷積，圖像仍然很大（因為卷積核比較小），所以為了降低數據維度，就進行采樣。

即使減少了許多數據，特徵的統計屬性仍能夠描述圖像，而且由於降低了數據維度，有效地避免了過擬合。

在實際應用中，分為最大值采樣（Max-Pooling）與平均值采樣（Mean-Pooling）。

LeNet網路結構：

注意，上圖中S2與C3的連接方式並不是全連接，而是部分連接。最後，通過全連接層C5、F6得到10個輸出，對應10個數字的概率。

卷積神經網路的訓練過程與傳統神經網路類似，也是參照了反向傳播演算法

第一階段，向前傳播階段：

a）從樣本集中取一個樣本(X,Yp)，將X輸入網路；

b）計算相應的實際輸出Op

第二階段，向後傳播階段

a）計算實際輸出Op與相應的理想輸出Yp的差；

b）按極小化誤差的方法反向傳播調整權矩陣。

❻ CNN、RNN、DNN的一般解釋

CNN(卷積神經網路)、RNN(循環神經網路)、DNN(深度神經網路)的內部網路結構有什麼區別？

轉自知乎科言君的回答

神經網路技術起源於上世紀五、六十年代，當時叫感知機（perceptron），擁有輸入層、輸出層和一個隱含層。輸入的特徵向量通過隱含層變換達到輸出層，在輸出層得到分類結果。早期感知機的推動者是Rosenblatt。（扯一個不相關的：由於計算技術的落後，當時感知器傳輸函數是用線拉動變阻器改變電阻的方法機械實現的，腦補一下科學家們扯著密密麻麻的導線的樣子…）

但是，Rosenblatt的單層感知機有一個嚴重得不能再嚴重的問題，即它對稍復雜一些的函數都無能為力（比如最為典型的「異或」操作）。連異或都不能擬合，你還能指望這貨有什麼實際用途么o(╯□╰)o

隨著數學的發展，這個缺點直到上世紀八十年代才被Rumelhart、Williams、Hinton、LeCun等人（反正就是一票大牛）發明的多層感知機（multilayerperceptron）克服。多層感知機，顧名思義，就是有多個隱含層的感知機（廢話……）。好好，我們看一下多層感知機的結構：

圖1 上下層神經元全部相連的神經網路——多層感知機

多層感知機可以擺脫早期離散傳輸函數的束縛，使用sigmoid或tanh等連續函數模擬神經元對激勵的響應，在訓練演算法上則使用Werbos發明的反向傳播BP演算法。對，這貨就是我們現在所說的神經網路 NN ——神經網路聽起來不知道比感知機高端到哪裡去了！這再次告訴我們起一個好聽的名字對於研（zhuang）究（bi）很重要！

多層感知機解決了之前無法模擬異或邏輯的缺陷，同時更多的層數也讓網路更能夠刻畫現實世界中的復雜情形。相信年輕如Hinton當時一定是春風得意。

多層感知機給我們帶來的啟示是，神經網路的層數直接決定了它對現實的刻畫能力 ——利用每層更少的神經元擬合更加復雜的函數[1]。

（Bengio如是說：functions that can be compactly

represented by a depth k architecture might require an exponential number of

computational elements to be represented by a depth k − 1 architecture.）

即便大牛們早就預料到神經網路需要變得更深，但是有一個夢魘總是縈繞左右。隨著神經網路層數的加深，優化函數越來越容易陷入局部最優解，並且這個「陷阱」越來越偏離真正的全局最優。利用有限數據訓練的深層網路，性能還不如較淺層網路。同時，另一個不可忽略的問題是隨著網路層數增加，「梯度消失」現象更加嚴重。具體來說，我們常常使用sigmoid作為神經元的輸入輸出函數。對於幅度為1的信號，在BP反向傳播梯度時，每傳遞一層，梯度衰減為原來的0.25。層數一多，梯度指數衰減後低層基本上接受不到有效的訓練信號。

2006年，Hinton利用預訓練方法緩解了局部最優解問題，將隱含層推動到了7層[2]，神經網路真正意義上有了「深度」，由此揭開了深度學習的熱潮。這里的「深度」並沒有固定的定義——在語音識別中4層網路就能夠被認為是「較深的」，而在圖像識別中20層以上的網路屢見不鮮。為了克服梯度消失，ReLU、maxout等傳輸函數代替了sigmoid，形成了如今DNN的基本形式。單從結構上來說，全連接的 DNN 和圖 1 的多層感知機是沒有任何區別的。

值得一提的是，今年出現的高速公路網路（highway network）和深度殘差學習（deep resial learning）進一步避免了梯度消失，網路層數達到了前所未有的一百多層（深度殘差學習：152層）[3,4]！具體結構題主可自行搜索了解。如果你之前在懷疑是不是有很多方法打上了「深度學習」的噱頭，這個結果真是深得讓人心服口服。

圖2 縮減版的深度殘差學習網路，僅有34 層，終極版有152 層，自行感受一下

如圖1所示，我們看到全連接 DNN 的結構里下層神經元和所有上層神經元都能夠形成連接，帶來的潛在問題是參數數量的膨脹。假設輸入的是一幅像素為1K*1K的圖像，隱含層有1M個節點，光這一層就有10^12個權重需要訓練，這不僅容易過擬合，而且極容易陷入局部最優。另外，圖像中有固有的局部模式（比如輪廓、邊界，人的眼睛、鼻子、嘴等）可以利用，顯然應該將圖像處理中的概念和神經網路技術相結合。此時我們可以祭出題主所說的卷積神經網路CNN。對於CNN來說，並不是所有上下層神經元都能直接相連，而是通過「卷積核」作為中介。同一個卷積核在所有圖像內是共享的，圖像通過卷積操作後仍然保留原先的位置關系。兩層之間的卷積傳輸的示意圖如下：

圖3 卷積神經網路隱含層（摘自Theano 教程）

通過一個例子簡單說明卷積神經網路的結構。假設圖3中m-1=1是輸入層，我們需要識別一幅彩色圖像，這幅圖像具有四個通道ARGB（透明度和紅綠藍，對應了四幅相同大小的圖像），假設卷積核大小為100*100，共使用100個卷積核w1到w100（從直覺來看，每個卷積核應該學習到不同的結構特徵）。用w1在ARGB圖像上進行卷積操作，可以得到隱含層的第一幅圖像；這幅隱含層圖像左上角第一個像素是四幅輸入圖像左上角100*100區域內像素的加權求和，以此類推。同理，算上其他卷積核，隱含層對應100幅「圖像」。每幅圖像對是對原始圖像中不同特徵的響應。按照這樣的結構繼續傳遞下去。CNN中還有max-pooling等操作進一步提高魯棒性。

圖4 一個典型的卷積神經網路結構，注意到最後一層實際上是一個全連接層（摘自Theano 教程）

在這個例子里，我們注意到輸入層到隱含層的參數瞬間降低到了 100*100*100=10^6 個！這使得我們能夠用已有的訓練數據得到良好的模型。題主所說的適用於圖像識別，正是由於 CNN 模型限制參數了個數並挖掘了局部結構的這個特點。順著同樣的思路，利用語音語譜結構中的局部信息，CNN照樣能應用在語音識別中。

全連接的DNN還存在著另一個問題——無法對時間序列上的變化進行建模。然而，樣本出現的時間順序對於自然語言處理、語音識別、手寫體識別等應用非常重要。對了適應這種需求，就出現了題主所說的另一種神經網路結構——循環神經網路RNN。

在普通的全連接網路或CNN中，每層神經元的信號只能向上一層傳播，樣本的處理在各個時刻獨立，因此又被成為前向神經網路(Feed-forward Neural Networks)。而在 RNN 中，神經元的輸出可以在下一個時間戳直接作用到自身，即第i層神經元在m時刻的輸入，除了（i-1）層神經元在該時刻的輸出外，還包括其自身在（m-1）時刻的輸出！表示成圖就是這樣的：

圖5 RNN 網路結構

我們可以看到在隱含層節點之間增加了互連。為了分析方便，我們常將RNN在時間上進行展開，得到如圖6所示的結構：

圖6 RNN 在時間上進行展開

Cool，（ t+1 ）時刻網路的最終結果O(t+1) 是該時刻輸入和所有歷史共同作用的結果！這就達到了對時間序列建模的目的。

不知題主是否發現，RNN可以看成一個在時間上傳遞的神經網路，它的深度是時間的長度！正如我們上面所說，「梯度消失」現象又要出現了，只不過這次發生在時間軸上。對於t時刻來說，它產生的梯度在時間軸上向歷史傳播幾層之後就消失了，根本就無法影響太遙遠的過去。因此，之前說「所有歷史」共同作用只是理想的情況，在實際中，這種影響也就只能維持若干個時間戳。

為了解決時間上的梯度消失，機器學習領域發展出了長短時記憶單元 LSTM ，通過門的開關實現時間上記憶功能，並防止梯度消失，一個LSTM單元長這個樣子：

圖7 LSTM 的模樣

除了題主疑惑的三種網路，和我之前提到的深度殘差學習、LSTM外，深度學習還有許多其他的結構。舉個例子，RNN既然能繼承歷史信息，是不是也能吸收點未來的信息呢？因為在序列信號分析中，如果我能預知未來，對識別一定也是有所幫助的。因此就有了雙向 RNN 、雙向 LSTM ，同時利用歷史和未來的信息。

圖8 雙向RNN

事實上，不論是那種網路，他們在實際應用中常常都混合著使用，比如 CNN 和RNN 在上層輸出之前往往會接上全連接層，很難說某個網路到底屬於哪個類別。不難想像隨著深度學習熱度的延續，更靈活的組合方式、更多的網路結構將被發展出來。盡管看起來千變萬化，但研究者們的出發點肯定都是為了解決特定的問題。題主如果想進行這方面的研究，不妨仔細分析一下這些結構各自的特點以及它們達成目標的手段。入門的話可以參考：

Ng寫的Ufldl： UFLDL教程 - Ufldl

也可以看Theano內自帶的教程，例子非常具體： Deep Learning Tutorials

歡迎大家繼續推薦補充。

當然啦，如果題主只是想湊個熱鬧時髦一把，或者大概了解一下方便以後把妹使，這樣看看也就罷了吧。

參考文獻：

[1]

Bengio Y. Learning Deep

Architectures for AI[J]. Foundations & Trends® in Machine Learning, 2009,

2(1):1-127.

[2]

Hinton G E, Salakhutdinov R R.

Recing the Dimensionality of Data with Neural Networks[J]. Science, 2006,

313(5786):504-507.

[3]

He K, Zhang X, Ren S, Sun J. Deep

Resial Learning for Image Recognition. arXiv:1512.03385, 2015.

[4]

Srivastava R K, Greff K,

Schmidhuber J. Highway networks. arXiv:1505.00387, 2015.

❼ 卷積神經網路（Convolutional Neural Networks, CNN)——更有效率地提取特徵

卷積神經網路（Convolutional Neural Networks, CNN)——更有效率地提取特徵

圖像識別問題本質上就是分類問題，比如我們要區分貓和狗，那麼我們就需要構建一個模型，將照片丟進去後，模型能輸出貓或者狗的概率有多大。在做圖像識別時首要的就是要提取圖片的特徵，那麼如何提取圖片的特徵呢？前面講到了前向全連接網路，我們可以嘗試用前向全連接網路提取。假設圖片的像素是100*100，如果如片是彩色的，每個像素都有RGB三種顏色的數值。因此，一張圖片是有一個三維向量構成的，一維是長100，一維是寬100，還有一維是R、G、B 3個通道（channels）。把這個三維向量拉直作為一個一維向量，長度就是100*100*3。

我們在區分一張圖片時，我們觀察的往往是圖片的局部的、最重要的特徵。 比如圖片上是一隻鳥，我們可能通過嘴巴、眼睛、爪子等就可以判斷出是一隻鳥了。因此，輸入層的每一個神經元沒有必要看圖片的全局，只需要看一個局部就行了。

在兩張不同的圖片上，同一個特徵區域可能處於不同位置。 比如鳥嘴的局部特徵區域在下面這兩張圖上就處在不同的位置上。那麼如何才能讓兩個不同的神經元在看到這兩個不同的感受野時，能產生一致的特徵值呢？

對上面的內容進行一個總結：
（1）我們設置一個局部感受野，假設感受野的大小為W*H*C，其中W表示感受野的寬度，H表示感受野的高度，C表示感受野的通道數。那麼對應的神經元的參數的個數就為：W*H*C個權值加1個偏置。在卷積神經網路中，我們稱這樣一個神經元為一個 濾波器（filter） 。
（3）我們通過滑動的方式讓感受野鋪滿整個圖片，假設圖片的尺寸是W1*H1*C，滑動步長為S，零填充的數量為P。假設感受野的個數是W2*H2，其中，
(4)我們讓所有感受野的觀測濾波器參數進行共享，即相當於一個濾波器通過滑動掃描的方式掃描了所有感受野。
（5）我們設置多個濾波器，假設濾波器的個數為K，這K個濾波器都通過滑動掃描的方式掃過整個圖片。此時參數的個數為：（W*H*C+1）*K。
（6）由於每個濾波器每經過一個感受野都會進行一次計算輸出一個值，所以輸出的維度為：W2*H2*K。我們將這個輸出稱為特徵圖，所以特徵圖寬度為W2，高度為H2，通道數C2=K。
舉個例子： 假設某個圖片的大小是100*100*3，設置濾波器的大小為3*3*3，濾波器的個數為64，設置步長S=1，設置零填充的數量為P=0。那麼卷積神經網路的參數為，相比前向全連接個參數，參數的個數縮小了幾個數量級。
輸出特徵圖的寬度和高度均為，輸出特徵圖的通道數為，所以輸出特徵圖的維度為98*98*64。
如果在上面輸出的基礎上再疊加一層卷積神經網路，濾波器的設置寬和高可以不變，但是通道數不再是3了，而是變成64了，因為輸入特徵圖的通道數已經變64了。假設濾波器的大小為3*3*64，濾波器的個數為32，設置步長S=1，設置零填充的數量為P=0。可以計算出來，新的輸出特徵圖的維度是96*96*32。

以上就是卷積神經網路（CNN）的解析。但是CNN一般不是單獨用的，因為一般提取圖片的特徵是為了分類，還需要進一步處理，常見的形式如下圖所示。

導航:首頁 > 網路數據 > 大數據集卷積神經網路cnn

大數據集卷積神經網路cnn

與大數據集卷積神經網路cnn相關的資料

友情鏈接