神經網路異或問題_多層感知器和bp神經網路解決異或問題有什麼不同

A. 多層感知器和bp神經網路解決異或問題有什麼不同

BP神經網路，指的是用了「BP演算法」進行訓練的「多層感知器模型」。多層感知器（MLP，Multilayer Perceptron）是版一種前饋人工神經網路模權型，其將輸入的多個數據集映射到單一的輸出的數據集上，可以解決任何線性不可分問題。不要把演算法和網路搞混了。

B. 神經網路演算法

20 世紀五、六⼗年代，科學家 Frank Rosenblatt其受到 Warren McCulloch 和 Walter Pitts早期的⼯作的影響，發明了感知機（Perceptrons）。

⼀個感知器接受⼏個⼆進制輸⼊，，並產⽣⼀個⼆進制輸出：

如上圖所示的感知機有三個輸⼊：。通常可以有更多或更少輸⼊。我們再引⼊權重：，衡量輸入對輸出的重要性。感知機的輸出為0 或者 1，則由分配權重後的總和⼩於等於或者⼤於閾值決定。和權重⼀樣，閾值（threshold）是⼀個實數，⼀個神經元的參數。⽤更精確的代數形式如下：

給三個因素設置權重來作出決定：

可以把這三個因素對應地⽤⼆進制變數來表⽰。例如，如果天⽓好，我們把

，如果不好，。類似地，如果你的朋友陪你去，，否則。也類似。

這三個對於可能對你來說，「電影好不好看」對你來說最重要，而天氣顯得不是那麼的重要。所以你會這樣分配權值：，然後定義閾值threshold=5。

現在，你可以使⽤感知器來給這種決策建⽴數學模型。

例如：

隨著權重和閾值的變化，你可以得到不同的決策模型。很明顯，感知機不是⼈做出決策使⽤的全部模型。但是這個例⼦說明了⼀個感知機如何能權衡不同的依據來決策。這看上去也可以⼤致解釋⼀個感知機⽹絡有時確實能夠做出一些不錯的決定。

現在我們隊上面的結構做一點變化，令b=-threshold，即把閾值移到不等號左邊，變成偏置，那麼感知器的規則可以重寫為:

引⼊偏置只是我們描述感知器的⼀個很⼩的變動，但是我們後⾯會看到它引導更進⼀步的符號簡化。因此，我們不再⽤閾值，⽽總是使⽤偏置。

感知機是首個可以學習的人工神經網路，它的出現引起的神經網路的第一層高潮。需要指出的是，感知機只能做簡單的線性分類任務，而且Minsky在1969年出版的《Perceptron》書中，證明了感知機對XOR（異或）這樣的問題都無法解決。但是感知機的提出，對神經網路的發展是具有重要意義的。

通過上面的感知機的觀察我們發現一個問題，每個感知機的輸出只有0和1，這就意味著有時我們只是在單個感知機上稍微修改了一點點權值w或者偏置b，就可能造成最終輸出完全的反轉。也就是說，感知機的輸出是一個階躍函數。如下圖所示，在0附近的時候，輸出的變化是非常明顯的，而在遠離0的地方，我們可能調整好久參數也不會發生輸出的變化。

這樣階躍的跳變並不是我們想要的，我們需要的是當我們隊權值w或者偏置b做出微小的調整後，輸出也相應的發生微小的改變芹則禪。這同時也意味值我們的輸出不再只是0和1，還可以輸出小數。由此我們引入了S型神經元。

S型神經元使用 S 型函數，也叫Sigmoid function函數，我們用它作為激活函數。其表達式如下：

圖像如下圖所示：

利⽤實際的 σ 函數，我們得到⼀個，就像上⾯說明的，平滑的感知器。 σ 函數的平滑特性，正是關鍵因素，⽽不是其細部形式盯明。 σ 的平滑意味著權重和偏置的微⼩變化，即 ∆w 和 ∆b，會從神經元產⽣⼀個微⼩的輸出變化 ∆output。實際上，微積分告訴我們

∆output 可以很好地近似表⽰為：

上面的式子是⼀個反映權重、偏置變化嫌塵和輸出變化的線性函數。這⼀線性使得我們可以通過選擇權重和偏置的微⼩變化來達到輸出的微⼩變化。所以當 S 型神經元和感知器本質上是相同的，但S型神經元在計算處理如何變化權重和偏置來使輸出變化的時候會更加容易。

有了對S型神經元的了解，我們就可以介紹神經網路的基本結構了。具體如下：

在⽹絡中最左邊的稱為輸⼊層，其中的神經元稱為輸⼊神經元。最右邊的，即輸出層包含有輸出神經元，在圖中，輸出層只有⼀個神經元。中間層，既然這層中的神經元既不是輸⼊也不是輸出，則被稱為隱藏層。

這就是神經網路的基本結構，隨著後面的發展神經網路的層數也隨之不斷增加和復雜。

我們回顧一下神經網路發展的歷程。神經網路的發展歷史曲折盪漾，既有被人捧上天的時刻，也有摔落在街頭無人問津的時段，中間經歷了數次大起大落。

從單層神經網路（感知機）開始，到包含一個隱藏層的兩層神經網路，再到多層的深度神經網路，一共有三次興起過程。詳見下圖。

我們希望有⼀個演算法，能讓我們找到權重和偏置，以⾄於⽹絡的輸出 y(x) 能夠擬合所有的訓練輸⼊ x。為了量化我們如何實現這個⽬標，我們定義⼀個代價函數：

這⾥ w 表⽰所有的⽹絡中權重的集合， b 是所有的偏置， n 是訓練輸⼊數據的個數，
a 是表⽰當輸⼊為 x 時輸出的向量，求和則是在總的訓練輸⼊ x 上進⾏的。當然，輸出 a 取決於 x, w和 b，但是為了保持符號的簡潔性，我沒有明確地指出這種依賴關系。符號 ∥v∥ 是指向量 v 的模。我們把 C 稱為⼆次代價函數；有時也稱被稱為均⽅誤差或者 MSE。觀察⼆次代價函數的形式我們可以看到 C(w, b) 是⾮負的，因為求和公式中的每⼀項都是⾮負的。此外，代價函數 C(w,b)的值相當⼩，即 C(w; b) ≈ 0，精確地說，是當對於所有的訓練輸⼊ x， y(x) 接近於輸出 a 時。因

此如果我們的學習演算法能找到合適的權重和偏置，使得 C(w; b) ≈ 0，它就能很好地⼯作。相反，當 C(w; b) 很⼤時就不怎麼好了，那意味著對於⼤量地輸⼊， y(x) 與輸出 a 相差很⼤。因此我們的訓練演算法的⽬的，是最⼩化權重和偏置的代價函數 C(w; b)。換句話說，我們想要找到⼀系列能讓代價盡可能⼩的權重和偏置。我們將采⽤稱為梯度下降的演算法來達到這個⽬的。

下面我們將代價函數簡化為C(v)。它可以是任意的多元實值函數，。
注意我們⽤ v 代替了 w 和 b 以強調它可能是任意的函數，我們現在先不局限於神經⽹絡的環境。

為了使問題更加簡單我們先考慮兩個變數的情況，想像 C 是⼀個只有兩個變數和的函數，我們的目的是找到和使得C最小。

如上圖所示，我們的目的就是找到局部最小值。對於這樣的一個問題，一種方法就是通過微積分的方法來解決，我們可以通過計算導數來求解C的極值點。但是對於神經網路來說，我們往往面對的是非常道的權值和偏置，也就是說v的維數不只是兩維，有可能是億萬維的。對於一個高維的函數C(v)求導數幾乎是不可能的。

在這種情況下，有人提出了一個有趣的演算法。想像一下一個小球從山頂滾下山谷的過程，我們的⽇常經驗告訴我們這個球最終會滾到⾕底。我們先暫時忽略相關的物理定理，對球體的⾁眼觀察是為了激發我們的想像⽽不是束縛我們的思維。因此與其陷進物理學⾥凌亂的細節，不如我們就這樣問⾃⼰：如果我們扮演⼀天的上帝，能夠構造⾃⼰的物理定律，能夠⽀配球體可以如何滾動，那麼我們將會採取什麼樣的運動學定律來讓球體能夠總是滾落到⾕底呢？

為了更精確地描述這個問題，讓我們思考⼀下，當我們在和⽅向分別將球體移動⼀個很⼩的量，即 ∆ 和 ∆ 時，球體將會發⽣什麼情況。微積分告訴我們 C 將會有如下變化：

也可以用向量表示為

現在我們的問題就轉換為不斷尋找一個小於0的∆C，使得C+∆C不斷變小。

假設我們選取：

這⾥的 η 是個很⼩的正數（稱為學習速率），於是

由於 ∥∇C∥2 ≥ 0，這保證了 ∆C ≤ 0，即，如果我們按照上述⽅程的規則去改變 v，那麼 C
會⼀直減⼩，不會增加。

所以我們可以通過不斷改變v來C的值不斷下降，是小球滾到最低點。

總結⼀下，梯度下降演算法⼯作的⽅式就是重復計算梯度 ∇C，然後沿著相反的⽅向移動，沿著⼭⾕「滾落」。我們可以想像它像這樣：

為了使梯度下降能夠正確地運⾏，我們需要選擇合適的學習速率η，確保C不斷減少，直到找到最小值。

知道了兩個變數的函數 C 的梯度下降方法，我們可以很容易的把它推廣到多維。我們假設 C 是⼀個有 m 個變數的多元函數。 ∆C 將會變為：

其中， ∇C為

∆v為：

更新規則為：

在回到神經網路中，w和b的更新規則為：

前面提到神經⽹絡如何使⽤梯度下降演算法來學習他們⾃⾝的權重和偏置。但是，這⾥還留下了⼀個問題：我們並沒有討論如何計算代價函數的梯度。這里就需要用到一個非常重要的演算法：反向傳播演算法（backpropagation）。

反向傳播演算法的啟示是數學中的鏈式法則。

四個方程：

輸出層誤差方程：

當前層誤差方程：

誤差方程關於偏置的關系：

誤差方程關於權值的關系

演算法描述：

檢視這個演算法，你可以看到為何它被稱作反向傳播。我們從最後⼀層開始向後計算誤差向量δ。這看起來有點奇怪，為何要從後⾯開始。但是如果你認真思考反向傳播的證明，這種反向移動其實是代價函數是⽹絡輸出的函數的結果。為了理解代價隨前⾯層的權重和偏置變化的規律，我們需要重復作⽤鏈式法則，反向地獲得需要的表達式。

參考鏈接： http://neuralnetworksanddeeplearning.com/

C. 為什麼感知機（單層神經網路）不能解決異或問題

不僅僅復是感知機，制所有的線性分類器都有這樣的問題，包括LDA(Linear discriminant analysis), linear-SVM， Logistic regression都不能做XOR。但這些演算法還是十分流行，因為現實的機器學習問題中XOR的情況並不是很多。

D. 神經網路——BP演算法

對於初學者來說，了解了一個演算法的重要意義，往往會引起他對演算法本身的重視。BP(Back Propagation，後向傳播)演算法，具有非凡的歷史意義和重大的現實意義。

1969年,作為人工神經網路創始人的明斯基(Marrin M insky)和佩珀特(Seymour Papert)合作出版了《感知器》一書,論證了簡單的線性感知器功能有限,不能解決如「異或」(XOR )這樣的基本問題,而且對多層網路也持悲觀態度。這些論點給神經網路研究以沉重的打擊,很多科學家紛紛離開這一領域,神經網路的研究走向長達10年的低潮時期。[1]

1974年哈佛大學的Paul Werbos發明BP演算法時，正值神經外網路低潮期，並未受到應有的重視。[2]

1983年，加州理工學院的物理學家John Hopfield利用神經網路，在旅行商這個NP完全問題的求解上獲得當時最好成績，引起了轟動[2]。然而,Hopfield的研究成果仍未能指出明斯基等人論點的錯誤所在,要推動神經網路研究的全面開展必須直接解除對感知器——多層網路演算法的疑慮。[1]

真正打破明斯基冰封魔咒的是，David Rumelhart等學者出版的《平行分布處理:認知的微觀結構探索》一書。書中完整地提出了BP演算法,系統地解決了多層網路中隱單元連接權的學習問題,並在數學上給出了完整的推導。這是神經網路發展史上的里程碑，BP演算法迅速走紅，掀起了神經網路的第二次高潮。[1,2]

因此，BP演算法的歷史意義：明確地否定了明斯基等人的錯誤觀點，對神經網路第二次高潮具有決定性意義。

這一點是說BP演算法在神經網路領域中的地位和意義。

BP演算法是迄今最成功的神經網路學習演算法，現實任務中使用神經網路時，大多是在使用BP演算法進行訓練[2],包括最近炙手可熱的深度學習概念下的卷積神經網路(CNNs)。

BP神經網路是這樣一種神經網路模型，它是由一個輸入層、一個輸出層和一個或多個隱層構成，它的激活函數採用sigmoid函數，採用BP演算法訓練的多層前饋神經網路。

BP演算法全稱叫作誤差反向傳播(error Back Propagation，或者也叫作誤差逆傳播)演算法。其演算法基本思想為：在2.1所述的前饋網路中，輸入信號經輸入層輸入，通過隱層計算由輸出層輸出，輸出值與標記值比較，若有誤差，將誤差反向由輸出層向輸入層傳播，在這個過程中，利用梯度下降演算法對神經元權值進行調整。

BP演算法中核心的數學工具就是微積分的鏈式求導法則。

BP演算法的缺點，首當其沖就是局部極小值問題。

BP演算法本質上是梯度下降，而它所要優化的目標函數又非常復雜，這使得BP演算法效率低下。

[1]、《BP演算法的哲學思考》，成素梅、郝中華著

[2]、《機器學習》，周志華著

[3]、 Deep Learning論文筆記之（四）CNN卷積神經網路推導和實現

2016-05-13 第一次發布

2016-06-04 較大幅度修改，完善推導過程，修改文章名

2016-07-23 修改了公式推導中的一個錯誤，修改了一個表述錯誤

導航:首頁 > 編程大全 > 神經網路異或問題

神經網路異或問題

與神經網路異或問題相關的資料

友情鏈接