卷積神經網路數學原理_卷積神經網路工作原理直觀的解釋

① 卷積神經網路工作原理直觀的解釋

其實道理很簡單，因為卷積運算，從頻域角度看，是頻譜相乘所以圖像跟卷積核做卷積時，兩者頻譜不重疊的部分相乘，自然是0，那圖像這部分頻率的信息就被卷積核過濾了。而圖像，本質上就是二維離散的信號，像素點值的大小代表該位置的振幅，所以圖像包含了一系列頻率的特徵。比如圖像邊緣部分，像素值差別大，屬於高頻信號，背景部分，像素值差別小，是低頻信號。所以如果卷積核具有『高通』性質，就能起到提取圖像邊緣的作用，低通則有模糊的效果。所以，卷積神經網路的牛逼之處在於通過卷積層的不同卷積核，提取圖像不同頻段的特徵；以及通過池化層，提取不同粒度的特徵。

② 卷積神經網路演算法是什麼

一維構築、二維構築、全卷積構築。

卷積神經網路（Convolutional Neural Networks, CNN）是一類包含卷積計算且具有深度結構的前饋神經網路（Feedforward Neural Networks），是深度學習（deep learning）的代表演算法之一。

卷積神經網路具有表徵學習（representation learning）能力，能夠按其階層結構對輸入信息進行平移不變分類（shift-invariant classification），因此也被稱為「平移不變人工神經網路（Shift-Invariant Artificial Neural Networks, SIANN）」。

卷積神經網路的連接性：

卷積神經網路中卷積層間的連接被稱為稀疏連接（sparse connection），即相比於前饋神經網路中的全連接，卷積層中的神經元僅與其相鄰層的部分，而非全部神經元相連。具體地，卷積神經網路第l層特徵圖中的任意一個像素（神經元）都僅是l-1層中卷積核所定義的感受野內的像素的線性組合。

卷積神經網路的稀疏連接具有正則化的效果，提高了網路結構的穩定性和泛化能力，避免過度擬合，同時，稀疏連接減少了權重參數的總量，有利於神經網路的快速學習，和在計算時減少內存開銷。

卷積神經網路中特徵圖同一通道內的所有像素共享一組卷積核權重系數，該性質被稱為權重共享（weight sharing）。權重共享將卷積神經網路和其它包含局部連接結構的神經網路相區分，後者雖然使用了稀疏連接，但不同連接的權重是不同的。權重共享和稀疏連接一樣，減少了卷積神經網路的參數總量，並具有正則化的效果。

在全連接網路視角下，卷積神經網路的稀疏連接和權重共享可以被視為兩個無限強的先驗（pirior），即一個隱含層神經元在其感受野之外的所有權重系數恆為0（但感受野可以在空間移動）；且在一個通道內，所有神經元的權重系數相同。

③ 神經網路：卷積神經網路（CNN）

神經網路最早是由心理學家和神經學家提出的，旨在尋求開發和測試神經的計算模擬。

粗略地說，神經網路是一組連接的輸入/輸出單元，其中每個連接都與一個權相關聯。在學習階段，通過調整權值，使得神經網路的預測准確性逐步提高。由於單元之間的連接，神經網路學習又稱連接者學習。

神經網路是以模擬人腦神經元的數學模型為基礎而建立的，它由一系列神經元組成，單元之間彼此連接。從信息處理角度看，神經元可以看作是一個多輸入單輸出的信息處理單元，根據神經元的特性和功能，可以把神經元抽象成一個簡單的數學模型。

神經網路有三個要素：拓撲結構、連接方式、學習規則

神經網路的拓撲結構：神經網路的單元通常按照層次排列，根據網路的層次數，可以將神經網路分為單層神經網路、兩層神經網路、三層神經網路等。結構簡單的神經網路，在學習時收斂的速度快，但准確度低。

神經網路的層數和每層的單元數由問題的復雜程度而定。問題越復雜，神經網路的層數就越多。例如，兩層神經網路常用來解決線性問題，而多層網路就可以解決多元非線性問題

神經網路的連接：包括層次之間的連接和每一層內部的連接，連接的強度用權來表示。

根據層次之間的連接方式，分為：

1）前饋式網路：連接是單向的，上層單元的輸出是下層單元的輸入，如反向傳播網路，Kohonen網路

2）反饋式網路：除了單項的連接外，還把最後一層單元的輸出作為第一層單元的輸入，如Hopfield網路

根據連接的范圍，分為：

1）全連接神經網路：每個單元和相鄰層上的所有單元相連

2）局部連接網路：每個單元只和相鄰層上的部分單元相連

神經網路的學習

根據學習方法分：

感知器：有監督的學習方法，訓練樣本的類別是已知的，並在學習的過程中指導模型的訓練

認知器：無監督的學習方法，訓練樣本類別未知，各單元通過競爭學習。

根據學習時間分：

離線網路：學習過程和使用過程是獨立的

在線網路：學習過程和使用過程是同時進行的

根據學習規則分：

相關學習網路：根據連接間的激活水平改變權系數

糾錯學習網路：根據輸出單元的外部反饋改變權系數

自組織學習網路：對輸入進行自適應地學習

摘自《數學之美》對人工神經網路的通俗理解：

神經網路種類很多，常用的有如下四種：

1）Hopfield網路，典型的反饋網路，結構單層，有相同的單元組成

2）反向傳播網路，前饋網路，結構多層，採用最小均方差的糾錯學習規則，常用於語言識別和分類等問題

3）Kohonen網路：典型的自組織網路，由輸入層和輸出層構成，全連接

4）ART網路：自組織網路

深度神經網路：

Convolutional Neural Networks(CNN)卷積神經網路

Recurrent neural Network(RNN)循環神經網路

Deep Belief Networks(DBN)深度信念網路

深度學習是指多層神經網路上運用各種機器學習演算法解決圖像，文本等各種問題的演算法集合。深度學習從大類上可以歸入神經網路，不過在具體實現上有許多變化。

深度學習的核心是特徵學習，旨在通過分層網路獲取分層次的特徵信息，從而解決以往需要人工設計特徵的重要難題。

Machine Learning vs. Deep Learning

神經網路（主要是感知器）經常用於分類

神經網路的分類知識體現在網路連接上，被隱式地存儲在連接的權值中。

神經網路的學習就是通過迭代演算法，對權值逐步修改的優化過程，學習的目標就是通過改變權值使訓練集的樣本都能被正確分類。

神經網路特別適用於下列情況的分類問題：

1) 數據量比較小，缺少足夠的樣本建立模型

2) 數據的結構難以用傳統的統計方法來描述

3) 分類模型難以表示為傳統的統計模型

缺點：

1) 需要很長的訓練時間，因而對於有足夠長訓練時間的應用更合適。

2) 需要大量的參數，這些通常主要靠經驗確定，如網路拓撲或「結構」。

3) 可解釋性差。該特點使得神經網路在數據挖掘的初期並不看好。

優點：

1) 分類的准確度高

2)並行分布處理能力強

3)分布存儲及學習能力高

4)對噪音數據有很強的魯棒性和容錯能力

最流行的基於神經網路的分類演算法是80年代提出的後向傳播演算法。後向傳播演算法在多路前饋神經網路上學習。

定義網路拓撲

在開始訓練之前，用戶必須說明輸入層的單元數、隱藏層數（如果多於一層）、每一隱藏層的單元數和輸出層的單元數，以確定網路拓撲。

對訓練樣本中每個屬性的值進行規格化將有助於加快學習過程。通常，對輸入值規格化，使得它們落入0.0和1.0之間。

離散值屬性可以重新編碼，使得每個域值一個輸入單元。例如，如果屬性A的定義域為(a0,a1,a2)，則可以分配三個輸入單元表示A。即，我們可以用I0 ,I1 ,I2作為輸入單元。每個單元初始化為0。如果A = a0，則I0置為1；如果A = a1，I1置1；如此下去。

一個輸出單元可以用來表示兩個類（值1代表一個類，而值0代表另一個）。如果多於兩個類，則每個類使用一個輸出單元。

隱藏層單元數設多少個「最好」，沒有明確的規則。

網路設計是一個實驗過程，並可能影響准確性。權的初值也可能影響准確性。如果某個經過訓練的網路的准確率太低，則通常需要採用不同的網路拓撲或使用不同的初始權值，重復進行訓練。

後向傳播演算法學習過程：

迭代地處理一組訓練樣本，將每個樣本的網路預測與實際的類標號比較。

每次迭代後，修改權值，使得網路預測和實際類之間的均方差最小。

這種修改「後向」進行。即，由輸出層，經由每個隱藏層，到第一個隱藏層（因此稱作後向傳播）。盡管不能保證，一般地，權將最終收斂，學習過程停止。

演算法終止條件：訓練集中被正確分類的樣本達到一定的比例，或者權系數趨近穩定。

後向傳播演算法分為如下幾步：

1) 初始化權

網路的權通常被初始化為很小的隨機數（例如，范圍從-1.0到1.0，或從-0.5到0.5）。

每個單元都設有一個偏置（bias），偏置也被初始化為小隨機數。

2) 向前傳播輸入

對於每一個樣本X，重復下面兩步：

向前傳播輸入，向後傳播誤差

計算各層每個單元的輸入和輸出。輸入層：輸出=輸入=樣本X的屬性；即，對於單元j，Oj = Ij = Xj。隱藏層和輸出層：輸入=前一層的輸出的線性組合,即，對於單元j， Ij =wij Oi + θj，輸出=

3) 向後傳播誤差

計算各層每個單元的誤差。

輸出層單元j，誤差：

Oj是單元j的實際輸出，而Tj是j的真正輸出。

隱藏層單元j，誤差：

wjk是由j到下一層中單元k的連接的權，Errk是單元k的誤差

更新權和偏差，以反映傳播的誤差。

權由下式更新：

其中，△wij是權wij的改變。l是學習率，通常取0和1之間的值。

偏置由下式更新：

其中，△θj是偏置θj的改變。

Example

人類視覺原理：

深度學習的許多研究成果，離不開對大腦認知原理的研究，尤其是視覺原理的研究。1981 年的諾貝爾醫學獎，頒發給了 David Hubel（出生於加拿大的美國神經生物學家）和Torsten Wiesel，以及Roger Sperry。前兩位的主要貢獻，是「發現了視覺系統的信息處理」，可視皮層是分級的。

人類的視覺原理如下：從原始信號攝入開始（瞳孔攝入像素Pixels），接著做初步處理（大腦皮層某些細胞發現邊緣和方向），然後抽象（大腦判定，眼前的物體的形狀，是圓形的），然後進一步抽象（大腦進一步判定該物體是只氣球）。

對於不同的物體，人類視覺也是通過這樣逐層分級，來進行認知的：

在最底層特徵基本上是類似的，就是各種邊緣，越往上，越能提取出此類物體的一些特徵（輪子、眼睛、軀乾等），到最上層，不同的高級特徵最終組合成相應的圖像，從而能夠讓人類准確的區分不同的物體。

可以很自然的想到：可以不可以模仿人類大腦的這個特點，構造多層的神經網路，較低層的識別初級的圖像特徵，若干底層特徵組成更上一層特徵，最終通過多個層級的組合，最終在頂層做出分類呢？答案是肯定的，這也是許多深度學習演算法（包括CNN）的靈感來源。

卷積神經網路是一種多層神經網路，擅長處理圖像特別是大圖像的相關機器學習問題。卷積網路通過一系列方法，成功將數據量龐大的圖像識別問題不斷降維，最終使其能夠被訓練。

CNN最早由Yann LeCun提出並應用在手寫字體識別上。LeCun提出的網路稱為LeNet，其網路結構如下：

這是一個最典型的卷積網路，由卷積層、池化層、全連接層組成。其中卷積層與池化層配合，組成多個卷積組，逐層提取特徵，最終通過若干個全連接層完成分類。

CNN通過卷積來模擬特徵區分，並且通過卷積的權值共享及池化，來降低網路參數的數量級，最後通過傳統神經網路完成分類等任務。

降低參數量級：如果使用傳統神經網路方式，對一張圖片進行分類，那麼，把圖片的每個像素都連接到隱藏層節點上，對於一張1000x1000像素的圖片，如果有1M隱藏層單元，一共有10^12個參數，這顯然是不能接受的。

但是在CNN里，可以大大減少參數個數，基於以下兩個假設：

1）最底層特徵都是局部性的，也就是說，用10x10這樣大小的過濾器就能表示邊緣等底層特徵

2）圖像上不同小片段，以及不同圖像上的小片段的特徵是類似的，也就是說，能用同樣的一組分類器來描述各種各樣不同的圖像

基於以上兩個假設，就能把第一層網路結構簡化

用100個10x10的小過濾器，就能夠描述整幅圖片上的底層特徵。

卷積運算的定義如下圖所示：

如上圖所示，一個5x5的圖像，用一個3x3的卷積核：

   101

   010

   101

來對圖像進行卷積操作（可以理解為有一個滑動窗口，把卷積核與對應的圖像像素做乘積然後求和），得到了3x3的卷積結果。

這個過程可以理解為使用一個過濾器（卷積核）來過濾圖像的各個小區域，從而得到這些小區域的特徵值。在實際訓練過程中，卷積核的值是在學習過程中學到的。

在具體應用中，往往有多個卷積核，可以認為，每個卷積核代表了一種圖像模式，如果某個圖像塊與此卷積核卷積出的值大，則認為此圖像塊十分接近於此卷積核。如果設計了6個卷積核，可以理解為這個圖像上有6種底層紋理模式，也就是用6種基礎模式就能描繪出一副圖像。以下就是24種不同的卷積核的示例：

池化的過程如下圖所示：

可以看到，原始圖片是20x20的，對其進行采樣，采樣窗口為10x10，最終將其采樣成為一個2x2大小的特徵圖。

之所以這么做，是因為即使做完了卷積，圖像仍然很大（因為卷積核比較小），所以為了降低數據維度，就進行采樣。

即使減少了許多數據，特徵的統計屬性仍能夠描述圖像，而且由於降低了數據維度，有效地避免了過擬合。

在實際應用中，分為最大值采樣（Max-Pooling）與平均值采樣（Mean-Pooling）。

LeNet網路結構：

注意，上圖中S2與C3的連接方式並不是全連接，而是部分連接。最後，通過全連接層C5、F6得到10個輸出，對應10個數字的概率。

卷積神經網路的訓練過程與傳統神經網路類似，也是參照了反向傳播演算法

第一階段，向前傳播階段：

a）從樣本集中取一個樣本(X,Yp)，將X輸入網路；

b）計算相應的實際輸出Op

第二階段，向後傳播階段

a）計算實際輸出Op與相應的理想輸出Yp的差；

b）按極小化誤差的方法反向傳播調整權矩陣。

④ 卷積神經網路通俗理解

卷積神經網路通俗理解如下：

卷積神經網路(CNN)-結構

① CNN結構一般包含這幾個層：

輸入層：用於數據的輸入
卷積層：使用卷積核進行特徵提取和特徵映射
激勵層：由於卷積也是一種線性運算，因此需要增加非線性映射
池化層：進行下采樣，對特徵圖稀疏處理，減少數據運算量。
全連接層：通常在CNN的尾部進行重新擬合，減少特徵信息的損失
輸出層：用於輸出結果

② 中間還可以使用一些其他的功能層：

歸一化層（Batch Normalization）：在CNN中對特徵的歸一化
切分層：對某些（圖片）數據的進行分區域的單獨學習
融合層：對獨立進行特徵學習的分支進行融合

卷積神經網路(CNN)-輸入層

① CNN的輸入層的輸入格式保留了圖片本身的結構。

② 對於黑白的 28×28的圖片，CNN 的輸入是一個 28×28 的二維神經元。

③ 對於 RGB 格式的 28×28 圖片，CNN 的輸入則是一個3×28×28 的三維神經元（RGB中的每一個顏色通道都有一個 28×28 的矩陣）

2）卷積神經網路(CNN)-卷積層

感受視野

① 在卷積層中有幾個重要的概念：

local receptive fields（感受視野）
shared weights（共享權值）

② 假設輸入的是一個 28×28 的的二維神經元，我們定義 5×5 的一個 local receptive fields（感受視野），即隱藏層的神經元與輸入層的 5×5 個神經元相連，這個 5*5 的區域就稱之為 Local Receptive Fields，

⑤ 卷積神經網路

關於花書中卷積網路的筆記記錄於 https://www.jianshu.com/p/5a3c90ea0807 。

卷積神經網路（Convolutional Neural Network，CNN或ConvNet）是一種具有 局部連接、權重共享 等特性的深層前饋神經網路。卷積神經網路是受生物學上感受野的機制而提出。 感受野（Receptive Field） 主要是指聽覺、視覺等神經系統中一些神經元的特性，即 神經元只接受其所支配的刺激區域內的信號 。

卷積神經網路最早是主要用來處理圖像信息。如果用全連接前饋網路來處理圖像時，會存在以下兩個問題：

目前的卷積神經網路一般是由卷積層、匯聚層和全連接層交叉堆疊而成的前饋神經網路，使用反向傳播演算法進行訓練。 卷積神經網路有三個結構上的特性：局部連接，權重共享以及匯聚 。這些特性使卷積神經網路具有一定程度上的平移、縮放和旋轉不變性。

卷積（Convolution）是分析數學中一種重要的運算。在信號處理或圖像處理中，經常使用一維或二維卷積。

一維卷積經常用在信號處理中，用於計算信號的延遲累積。假設一個信號發生器每個時刻t 產生一個信號，其信息的衰減率為，即在個時間步長後，信息為原來的倍。假設，那麼在時刻t收到的信號為當前時刻產生的信息和以前時刻延遲信息的疊加：

我們把稱為 濾波器（Filter）或卷積核（Convolution Kernel） 。假設濾波器長度為，它和一個信號序列的卷積為：

信號序列和濾波器的卷積定義為：

一般情況下濾波器的長度遠小於信號序列長度，下圖給出一個一維卷積示例，濾波器為：

二維卷積經常用在圖像處理中。因為圖像為一個兩維結構，所以需要將一維卷積進行擴展。給定一個圖像和濾波器，其卷積為：

下圖給出一個二維卷積示例：

注意這里的卷積運算並不是在圖像中框定卷積核大小的方框並將各像素值與卷積核各個元素相乘並加和，而是先把卷積核旋轉180度，再做上述運算。

在圖像處理中，卷積經常作為特徵提取的有效方法。一幅圖像在經過卷積操作後得到結果稱為 特徵映射（Feature Map） 。

最上面的濾波器是常用的高斯濾波器，可以用來對圖像進行 平滑去噪 ；中間和最下面的過濾器可以用來 提取邊緣特徵 。

在機器學習和圖像處理領域，卷積的主要功能是在一個圖像（或某種特徵）上滑動一個卷積核（即濾波器），通過卷積操作得到一組新的特徵。在計算卷積的過程中，需要進行卷積核翻轉（即上文提到的旋轉180度）。 在具體實現上，一般會以互相關操作來代替卷積，從而會減少一些不必要的操作或開銷。

互相關（Cross-Correlation）是一個衡量兩個序列相關性的函數，通常是用滑動窗口的點積計算來實現 。給定一個圖像和卷積核，它們的互相關為：

互相關和卷積的區別僅在於卷積核是否進行翻轉。因此互相關也可以稱為不翻轉卷積 。當卷積核是可學習的參數時，卷積和互相關是等價的。因此，為了實現上（或描述上）的方便起見，我們用互相關來代替卷積。事實上，很多深度學習工具中卷積操作其實都是互相關操作。

在卷積的標準定義基礎上，還可以引入濾波器的 滑動步長 和 零填充 來增加卷積多樣性，更靈活地進行特徵抽取。

濾波器的步長（Stride）是指濾波器在滑動時的時間間隔。

零填充（Zero Padding）是在輸入向量兩端進行補零。

假設卷積層的輸入神經元個數為，卷積大小為，步長為，神經元兩端各填補個零，那麼該卷積層的神經元數量為。

一般常用的卷積有以下三類：

因為卷積網路的訓練也是基於反向傳播演算法，因此我們重點關注卷積的導數性質：

假設。

，，。函數為一個標量函數。

則由有：

可以看出， 關於的偏導數為和的卷積 ：

同理得到：

當或時，，即相當於對進行的零填充。從而 關於的偏導數為和的寬卷積 。

用互相關的「卷積」表示，即為（注意 寬卷積運算具有交換性性質 ）：

在全連接前饋神經網路中，如果第層有個神經元，第層有個神經元，連接邊有個，也就是權重矩陣有個參數。當和都很大時，權重矩陣的參數非常多，訓練的效率會非常低。

如果採用卷積來代替全連接，第層的凈輸入為第層活性值和濾波器的卷積，即：

根據卷積的定義，卷積層有兩個很重要的性質：

由於局部連接和權重共享，卷積層的參數只有一個m維的權重和1維的偏置，共個參數。參數個數和神經元的數量無關。此外，第層的神經元個數不是任意選擇的，而是滿足。

卷積層的作用是提取一個局部區域的特徵，不同的卷積核相當於不同的特徵提取器。

特徵映射（Feature Map）為一幅圖像（或其它特徵映射）在經過卷積提取到的特徵，每個特徵映射可以作為一類抽取的圖像特徵。 為了提高卷積網路的表示能力，可以在每一層使用多個不同的特徵映射，以更好地表示圖像的特徵。

在輸入層，特徵映射就是圖像本身。如果是灰度圖像，就是有一個特徵映射，深度；如果是彩色圖像，分別有RGB三個顏色通道的特徵映射，深度。

不失一般性，假設一個卷積層的結構如下：

為了計算輸出特徵映射，用卷積核分別對輸入特徵映射進行卷積，然後將卷積結果相加，並加上一個標量偏置得到卷積層的凈輸入再經過非線性激活函數後得到輸出特徵映射。

在輸入為，輸出為的卷積層中，每個輸出特徵映射都需要個濾波器以及一個偏置。假設每個濾波器的大小為，那麼共需要個參數。

匯聚層（Pooling Layer）也叫子采樣層（Subsampling Layer），其作用是進行特徵選擇，降低特徵數量，並從而減少參數數量。

常用的匯聚函數有兩種：

其中為區域內每個神經元的激活值。

可以看出，匯聚層不但可以有效地減少神經元的數量，還可以使得網路對一些小的局部形態改變保持不變性，並擁有更大的感受野。

典型的匯聚層是將每個特徵映射劃分為大小的不重疊區域，然後使用最大匯聚的方式進行下采樣。匯聚層也可以看做是一個特殊的卷積層，卷積核大小為，步長為，卷積核為函數或函數。過大的采樣區域會急劇減少神經元的數量，會造成過多的信息損失。

一個典型的卷積網路是由卷積層、匯聚層、全連接層交叉堆疊而成。

目前常用卷積網路結構如圖所示，一個卷積塊為連續個卷積層和個匯聚層（通常設置為，為或）。一個卷積網路中可以堆疊個連續的卷積塊，然後在後面接著個全連接層（的取值區間比較大，比如或者更大；一般為）。

目前，整個網路結構 趨向於使用更小的卷積核（比如和）以及更深的結構（比如層數大於50） 。此外，由於卷積的操作性越來越靈活（比如不同的步長），匯聚層的作用變得也越來越小，因此目前比較流行的卷積網路中， 匯聚層的比例也逐漸降低，趨向於全卷積網路 。

在全連接前饋神經網路中，梯度主要通過每一層的誤差項進行反向傳播，並進一步計算每層參數的梯度。在卷積神經網路中，主要有兩種不同功能的神經層：卷積層和匯聚層。而參數為卷積核以及偏置，因此 只需要計算卷積層中參數的梯度。

不失一般性，第層為卷積層，第層的輸入特徵映射為，通過卷積計算得到第層的特徵映射凈輸入，第層的第個特徵映射凈輸入

由得：

同理可得，損失函數關於第層的第個偏置的偏導數為：

在卷積網路中，每層參數的梯度依賴其所在層的誤差項。

卷積層和匯聚層中，誤差項的計算有所不同，因此我們分別計算其誤差項。

第層的第個特徵映射的誤差項的具體推導過程如下：

其中為第層使用的激活函數導數，為上采樣函數（upsampling），與匯聚層中使用的下采樣操作剛好相反。如果下采樣是最大匯聚（max pooling），誤差項中每個值會直接傳遞到上一層對應區域中的最大值所對應的神經元，該區域中其它神經元的誤差項的都設為0。如果下采樣是平均匯聚（meanpooling），誤差項中每個值會被平均分配到上一層對應區域中的所有神經元上。

第層的第個特徵映射的誤差項的具體推導過程如下：

其中為寬卷積。

LeNet-5雖然提出的時間比較早，但是是一個非常成功的神經網路模型。基於LeNet-5 的手寫數字識別系統在90年代被美國很多銀行使用，用來識別支票上面的手寫數字。LeNet-5 的網路結構如圖：

不計輸入層，LeNet-5共有7層，每一層的結構為：

AlexNet是第一個現代深度卷積網路模型，其首次使用了很多現代深度卷積網路的一些技術方法，比如採用了ReLU作為非線性激活函數，使用Dropout防止過擬合，使用數據增強來提高模型准確率等。AlexNet 贏得了2012 年ImageNet 圖像分類競賽的冠軍。

AlexNet的結構如圖，包括5個卷積層、3個全連接層和1個softmax層。因為網路規模超出了當時的單個GPU的內存限制，AlexNet 將網路拆為兩半，分別放在兩個GPU上，GPU間只在某些層（比如第3層）進行通訊。

AlexNet的具體結構如下：

在卷積網路中，如何設置卷積層的卷積核大小是一個十分關鍵的問題。 在Inception網路中，一個卷積層包含多個不同大小的卷積操作，稱為Inception模塊。Inception網路是由有多個inception模塊和少量的匯聚層堆疊而成 。

v1版本的Inception模塊，採用了4組平行的特徵抽取方式，分別為1×1、3× 3、5×5的卷積和3×3的最大匯聚。同時，為了提高計算效率，減少參數數量，Inception模塊在進行3×3、5×5的卷積之前、3×3的最大匯聚之後，進行一次1×1的卷積來減少特徵映射的深度。如果輸入特徵映射之間存在冗餘信息， 1×1的卷積相當於先進行一次特徵抽取 。

⑥ 圖卷積神經網路的數學原理詳解——筆記（更新中）

Image是Graph在歐式空間中的一種特例。Graph是相較於Image來說更加廣義的一種拓撲結構。Graph由點和邊組成它可以表示任意的事物與事物之間的關系。而Image是表示在歐式空間中的事物與事物之間的關系。我們可以根據Image來構建對應的Graph，將每一個像素作為節點，像素之間的關系作為邊。

現實生活中能夠建圖的場景非常之多，社交關系，詞彙搜索等等。

圖神經網路就是專門用來處理圖數據的神經網路架構。具體來說，會給定圖的每個鄰接矩陣和節點特徵，通過將這兩個輸入進行某種圖上的映射。從而得到每個節點下一層的特徵。

圖神經網路的聚合模式：

合理性：比如社交網路中我們想要獲得某一個用戶的特徵，可以搜集與他相近的人的特徵，他們會具有一定的相關性。（近朱者赤，近墨者黑）

許多GNN相關的模型其實都是在設計函數「 f 」

這里我們只討論簡單無向圖（圖無自環、無重邊，邊無方向）

公式中的是鄰接矩陣+單位矩陣，相當於給每一個節點添加一個自環。是對角陣+單位陣。表示添加自環後每一個節點的度值。代表了每一個節點的度的值。對於對角陣求冪，只要對對角線上的每一個元素求冪即可。

是可訓練的參數，是對輸入的feature進行線性變換。是非線性的激活函數。

簡單理解GCN在做什麼：對圖的鄰接矩陣加了一個自環，做了對稱歸一化。然後用得到的結果對輸入的特徵進行聚合。每個節點都聚合到了自己和周邊節點加權求和的feature信息。

研究與圖的鄰接矩陣相關的一些性質的領域。將線性代數研究矩陣性質限定在了研究圖的鄰接矩陣的范圍內。譜圖理論是線性代數的子領域。

對於一個矩陣，如果有其中為標量、。就稱是的特徵向量，是A的特徵值。

如果一個矩陣是一個實對稱陣，那麼它一定有N個特徵值，對應著N個互相正交的特徵向量。

，其中，除了對角線上以外其他元素都是0。對角線上的元素都是一個特徵值。

半正定矩陣就是所有的特徵值都大於等於0。

給定一個矩陣A，左乘x轉置，右乘x。就稱為向量x對矩陣A的二次型。

瑞利熵就是一個向量關於矩陣A的二次型與這個向量關於單位矩陣的二次型的比值。

為什麼需要研究瑞利熵：因為其與矩陣的特徵值有著密切的聯系。如我們假定是矩陣A的一個特徵向量，那麼瑞利熵就是矩陣對應的特徵值。

因此瑞利熵是我們研究特徵值的重要手段。

是圖的拉普拉斯矩陣，。

是拉普拉斯矩陣的對稱規范化，。

與都是實對稱陣。因此他們都有N個特徵值和N個互相正交的特徵向量。可以分解為上述的的形式。且這兩個矩陣都是半正定的，其特徵值都是大於等於0的。

一個更加強的性質：不僅而且。

由上述證明我們得出的瑞利熵是的。因此的特徵值也是恆的。

傅里葉變換其實就是「去研究同一個事物在不同的域之間不同的視角」是怎樣的，以及在不同的域之間進行變換。

⑦ 一文看懂卷積神經網路-CNN（基本原理+獨特價值+實際應用）

在 CNN 出現之前，圖像對於人工智慧來說是一個難題，有2個原因：

圖像需要處理的數據量太大，導致成本很高，效率很低

圖像在數字化的過程中很難保留原有的特徵，導致圖像處理的准確率不高

下面就詳細說明一下這2個問題：

圖像是由像素構成的，每個像素又是由顏色構成的。

現在隨隨便便一張圖片都是 1000×1000 像素以上的，每個像素都有RGB 3個參數來表示顏色信息。

假如我們處理一張 1000×1000 像素的圖片，我們就需要處理3百萬個參數！

1000×1000×3=3,000,000

這么大量的數據處理起來是非常消耗資源的，而且這只是一張不算太大的圖片！

卷積神經網路 – CNN 解決的第一個問題就是「將復雜問題簡化」，把大量參數降維成少量參數，再做處理。

更重要的是：我們在大部分場景下，降維並不會影響結果。比如1000像素的圖片縮小成200像素，並不影響肉眼認出來圖片中是一隻貓還是一隻狗，機器也是如此。

圖片數字化的傳統方式我們簡化一下，就類似下圖的過程：

假如有圓形是1，沒有圓形是0，那麼圓形的位置不同就會產生完全不同的數據表達。但是從視覺的角度來看，圖像的內容（本質）並沒有發生變化，只是位置發生了變化。

所以當我們移動圖像中的物體，用傳統的方式的得出來的參數會差異很大！這是不符合圖像處理的要求的。

而 CNN 解決了這個問題，他用類似視覺的方式保留了圖像的特徵，當圖像做翻轉，旋轉或者變換位置時，它也能有效的識別出來是類似的圖像。

那麼卷積神經網路是如何實現的呢？在我們了解 CNN 原理之前，先來看看人類的視覺原理是什麼？

深度學習的許多研究成果，離不開對大腦認知原理的研究，尤其是視覺原理的研究。

1981 年的諾貝爾醫學獎，頒發給了 David Hubel（出生於加拿大的美國神經生物學家）和TorstenWiesel，以及 Roger Sperry。前兩位的主要貢獻，是「發現了視覺系統的信息處理」，可視皮層是分級的。

人類的視覺原理如下：從原始信號攝入開始（瞳孔攝入像素 Pixels），接著做初步處理（大腦皮層某些細胞發現邊緣和方向），然後抽象（大腦判定，眼前的物體的形狀，是圓形的），然後進一步抽象（大腦進一步判定該物體是只氣球）。下面是人腦進行人臉識別的一個示例：

對於不同的物體，人類視覺也是通過這樣逐層分級，來進行認知的：

我們可以看到，在最底層特徵基本上是類似的，就是各種邊緣，越往上，越能提取出此類物體的一些特徵（輪子、眼睛、軀乾等），到最上層，不同的高級特徵最終組合成相應的圖像，從而能夠讓人類准確的區分不同的物體。

那麼我們可以很自然的想到：可以不可以模仿人類大腦的這個特點，構造多層的神經網路，較低層的識別初級的圖像特徵，若干底層特徵組成更上一層特徵，最終通過多個層級的組合，最終在頂層做出分類呢？

答案是肯定的，這也是許多深度學習演算法（包括CNN）的靈感來源。

典型的 CNN 由3個部分構成：

卷積層

池化層

全連接層

如果簡單來描述的話：

卷積層負責提取圖像中的局部特徵；池化層用來大幅降低參數量級(降維)；全連接層類似傳統神經網路的部分，用來輸出想要的結果。

下面的原理解釋為了通俗易懂，忽略了很多技術細節，如果大家對詳細的原理感興趣，可以看這個視頻《卷積神經網路基礎》。

卷積層的運算過程如下圖，用一個卷積核掃完整張圖片：

這個過程我們可以理解為我們使用一個過濾器（卷積核）來過濾圖像的各個小區域，從而得到這些小區域的特徵值。

在具體應用中，往往有多個卷積核，可以認為，每個卷積核代表了一種圖像模式，如果某個圖像塊與此卷積核卷積出的值大，則認為此圖像塊十分接近於此卷積核。如果我們設計了6個卷積核，可以理解：我們認為這個圖像上有6種底層紋理模式，也就是我們用6中基礎模式就能描繪出一副圖像。以下就是25種不同的卷積核的示例：

總結：卷積層的通過卷積核的過濾提取出圖片中局部的特徵，跟上面提到的人類視覺的特徵提取類似。

池化層簡單說就是下采樣，他可以大大降低數據的維度。其過程如下：

上圖中，我們可以看到，原始圖片是20×20的，我們對其進行下采樣，采樣窗口為10×10，最終將其下采樣成為一個2×2大小的特徵圖。

之所以這么做的原因，是因為即使做完了卷積，圖像仍然很大（因為卷積核比較小），所以為了降低數據維度，就進行下采樣。

總結：池化層相比卷積層可以更有效的降低數據維度，這么做不但可以大大減少運算量，還可以有效的避免過擬合。

這個部分就是最後一步了，經過卷積層和池化層處理過的數據輸入到全連接層，得到最終想要的結果。

經過卷積層和池化層降維過的數據，全連接層才能」跑得動」，不然數據量太大，計算成本高，效率低下。

典型的 CNN 並非只是上面提到的3層結構，而是多層結構，例如 LeNet-5 的結構就如下圖所示：

卷積層 – 池化層- 卷積層 – 池化層 – 卷積層 – 全連接層

在了解了 CNN 的基本原理後，我們重點說一下 CNN 的實際應用有哪些。

卷積神經網路 – CNN 很擅長處理圖像。而視頻是圖像的疊加，所以同樣擅長處理視頻內容。下面給大家列一些比較成熟的應用�：

圖像分類、檢索

圖像分類是比較基礎的應用，他可以節省大量的人工成本，將圖像進行有效的分類。對於一些特定領域的圖片，分類的准確率可以達到 95%+，已經算是一個可用性很高的應用了。

典型場景：圖像搜索…

目標定位檢測

可以在圖像中定位目標，並確定目標的位置及大小。

典型場景：自動駕駛、安防、醫療…

目標分割

簡單理解就是一個像素級的分類。

他可以對前景和背景進行像素級的區分、再高級一點還可以識別出目標並且對目標進行分類。

典型場景：美圖秀秀、視頻後期加工、圖像生成…

人臉識別

人臉識別已經是一個非常普及的應用了，在很多領域都有廣泛的應用。

典型場景：安防、金融、生活…

骨骼識別

骨骼識別是可以識別身體的關鍵骨骼，以及追蹤骨骼的動作。

典型場景：安防、電影、圖像視頻生成、游戲…

今天我們介紹了 CNN 的價值、基本原理和應用場景，簡單總結如下：

CNN 的價值：

能夠將大數據量的圖片有效的降維成小數據量(並不影響結果)

能夠保留圖片的特徵，類似人類的視覺原理

CNN 的基本原理：

卷積層 – 主要作用是保留圖片的特徵

池化層 – 主要作用是把數據降維，可以有效的避免過擬合

全連接層 – 根據不同任務輸出我們想要的結果

CNN 的實際應用：

圖片分類、檢索

目標定位檢測

目標分割

人臉識別

骨骼識別

本文首發在 easyAI - 人工智慧知識庫

《一文看懂卷積神經網路-CNN（基本原理+獨特價值+實際應用）》

導航:首頁 > 編程大全 > 卷積神經網路數學原理

卷積神經網路數學原理

與卷積神經網路數學原理相關的資料

友情鏈接