Ⅰ bp演算法在人工神經網路中的作用是什麼
BP(Back Propagation)演算法是一種常用的人工神經網路訓練演算法,是通過反向傳播來調整神經網路權值的演算法。在人工神經網路中,BP演算法的作用是幫助神經網路對輸入的數據進行學習,並通過學習來調整神經網路的權值,以使得神經網路能夠較好地對未知數據進行預測。
Ⅱ 如何理解神經網路裡面的反向傳播演算法
1.普通的機器學習模型:
其實,基本上所有的基本機器學習模型都可以概括為以下的特徵:根據某個函數,將輸入計算並輸出。圖形化表示為下圖:
當我們的g(h)為sigmoid函數時候,它就是一個邏輯回歸的分類器。當g(h)是一個只能取0或1值的函數時,它就是一個感知機。那麼問題來了,這一類模型有明顯缺陷:當模型線性不可分的時候,或者所選取得特徵不完備(或者不夠准確)的時候,上述分類器效果並不是特別喜人。如下例:
我們可以很輕易的用一個感知機模型(感知器演算法)來實現一個邏輯與(and),邏輯或(or)和邏輯或取反的感知器模型,(感知器模型演算法鏈接),因為上述三種模型是線性可分的。但是,如果我們用感知器模型取實現一個邏輯非異或(相同為1,不同為0),我們的訓練模型的所有輸出都會是錯誤的,該模型線性不可分!
2.神經網路引入:
我們可以構造以下模型:
(其中,A代表邏輯與,B代表邏輯或取反,C代表邏輯或)
上述模型就是一個簡單的神經網路,我們通過構造了三個感知器,並將兩個感知器的輸出作為了另一個感知其的輸入,實現了我們想要的邏輯非異或模型,解決了上述的線性不可分問題。那麼問題是怎麼解決的呢?其實神經網路的實質就是每一層隱藏層(除輸入和輸出的節點,後面介紹)的生成,都生成了新的特徵,新的特徵在此生成新的特徵,知道最新的特徵能很好的表示該模型為止。這樣就解決了線性不可分或特徵選取不足或不精確等問題的產生。(以前曾介紹過線性不可分的實質就是特徵不夠)
神經網路的模型結構如下:
(藍色,紅色,黃色分別代表輸入層,影藏層,輸出層)
在此我們介紹的神經網路中的每一個訓練模型用的都是邏輯回歸模型即g(h)是sigmoid函數。
我們可以將神經網路表示如下:
3.神經網路的預測結果(hypothesis函數)的計算和CostFunction的計算
預測結果的計算其實與普通的邏輯回歸計算沒有多大區別。只是有時候需要將某幾個邏輯回歸的輸出作為其他邏輯回歸模型的輸入罷了,比如上例的輸出結果為:
那麼CostFunction的計算又和邏輯回歸的CostFunction計算有什麼區別呢?
邏輯回歸的CostFunction如下:
上述式子的本質是將預測結果和實際標注的誤差用某一種函數估算,但是我們的神經網路模型有時候輸出不止一個,所以,神經網路的誤差估算需要將輸出層所有的CostFunction相加:
k:代表第幾個輸出。
補充:神經網路可以解決幾分類問題?
理論上,當輸出單元只有一個時,可以解決2分類問題,當輸出單元為2時可以解決4分類問題,以此類推...
實質上,我們三個輸出單元時,可以解決三分類問題([1,0,0],[0,1,0],[0,0,1]),為什麼如此設計?暫時留白,以後解決
ps:面試題:一個output機器,15%可能輸出1,85%輸出0,構造一個新的機器,使0,1輸出可能性相同? 答:讓output兩次輸出01代表0,10代表1,其餘丟棄
4.神經網路的訓練
這兒也同於logistic回歸,所謂的訓練也就是調整w的權值,讓我們再一次把神經網路的CostFunction寫出來!
W代表所有層的特徵權值,Wij(l)代表第l層的第i個元素與第j個特徵的特徵權值
m代表樣本個數,k代表輸出單元個數
hw(x(i))k代表第i個樣本在輸出層的第k個樣本的輸出 y(i)k代表第i個樣本的第k個輸出
然後同於logistic回歸,將所有的W更新即可。難處在於此處的偏導數怎麼求?首先得說說鏈式求導法則:
所以我們可以有:
接下來的問題就是有theta了,當我們要求的錯誤變化率是最後一層(最後一層既是輸出層的前一層)且只看一個輸出神經元時則:
多個相加即可
那麼中間層次的神經元變化率如何求得呢?我們需要研究l層和了+1層之間的關系,如下圖:
第l層的第i個Z與第l層的第i個a的關系就是取了一個sigmod函數,然而第l層的第i個a與和其對應的w相乘後在加上其他的節點與其權值的乘積構成了第l+1層的Z,好拗口,好難理解啊,看下式:
大體也就是這么個情況,具體的步驟為:
1.利用前向傳播演算法,計算出每個神經元的輸出
2.對於輸出層的每一個輸出,計算出其所對應的誤差
3.計算出每個神經元的錯誤變化率即:
4.計算CostFunction的微分,即:
Ⅲ 如何理解反向傳播演算法
反向傳播演算法(Backpropagation)是目前用來訓練人工神經網路(Artificial Neural Network,ANN)的最常用且最有效的演算法。其主要思想是:
(1)將訓練集數據輸入到ANN的輸入層,經過隱藏層,最後達到輸出層並輸出結果,這是ANN的前向傳播過程;
(2)由於ANN的輸出結果與實際結果有誤差,則計算估計值與實際值之間的誤差,並將該誤差從輸出層向隱藏層反向傳播,直至傳播到輸入層;
(3)在反向傳播的過程中,根據誤差調整各種參數的值;不斷迭代上述過程,直至收斂。
反向傳播演算法的思想比較容易理解,但具體的公式則要一步步推導,因此本文著重介紹公式的推導過程。
1. 變數定義
上圖是一個三層人工神經網路,layer1至layer3分別是輸入層、隱藏層和輸出層。如圖,先定義一些變數:
表示第層的第個神經元連接到第層的第個神經元的權重;
表示第層的第個神經元的偏置;
表示第層的第個神經元的輸入,即:
表示第層的第個神經元的輸出,即:
其中表示激活函數。
2. 代價函數
代價函數被用來計算ANN輸出值與實際值之間的誤差。常用的代價函數是二次代價函數(Quadratic cost function):
其中,表示輸入的樣本,表示實際的分類,表示預測的輸出,表示神經網路的最大層數。
3. 公式及其推導
本節將介紹反向傳播演算法用到的4個公式,並進行推導。如果不想了解公式推導過程,請直接看第4節的演算法步驟。
首先,將第層第個神經元中產生的錯誤(即實際值與預測值之間的誤差)定義為:
本文將以一個輸入樣本為例進行說明,此時代價函數表示為:
公式1(計算最後一層神經網路產生的錯誤):
其中,表示Hadamard乘積,用於矩陣或向量之間點對點的乘法運算。公式1的推導過程如下:
公式2(由後往前,計算每一層神經網路產生的錯誤):
推導過程:
公式3(計算權重的梯度):
推導過程:
公式4(計算偏置的梯度):
推導過程:
4. 反向傳播演算法偽代碼
輸入訓練集
對於訓練集中的每個樣本x,設置輸入層(Input layer)對應的激活值:
前向傳播:
,
計算輸出層產生的錯誤:
Ⅳ 反向傳播演算法是什麼
反向傳播演算法,簡稱BP演算法,適合於多層神經元網路的一種學習演算法。
它建立在梯度下降法的基礎上。BP網路的輸入輸出關系實質上是一種映射關系:一個n輸入m輸出的BP神經網路所完成的功能是從n維歐氏空間向m維歐氏空間中一有限域的連續映射,這一映射具有高度非線性。它的信息處理能力來源於簡單非線性函數的多次復合,因此具有很強的函數復現能力。這是BP演算法得以應用的基礎。
反向傳播演算法動機簡介
反向傳播演算法被設計為減少公共子表達式的數量而不考慮存儲的開銷。反向傳播避免了重復子表達式的指數爆炸。然而,其他演算法可能通過對計算圖進行簡化來避免更多的子表達式,或者也可能通過重新計算而不是存儲這些子表達式來節省內存。
Ⅳ 解讀反向傳播演算法(BackPropagation)
冒泡~周末愉快鴨!
舉個例子:
如下圖所示,這是 帶有一個隱層的三層神經網路 ,
-小女孩→隱藏層節點
-小黃帽→輸出層節點
-哆啦A夢→誤差
小女孩左側接受輸入信號,經過隱層節點產生輸出結果,哆啦A夢則指導參數往更優的方向調整。 由於哆啦A夢可以直接將誤差反饋給小黃帽,所以與小黃帽直接相連的左側參數矩陣可以直接通過誤差進行參數優化(實縱線);而與小女孩直接相連的左側參數矩陣由於不能得到哆啦A夢的直接反饋而不能直接被優化(虛棕線)。但由於反向傳播演算法使得哆啦A夢的反饋可以被傳遞到小女孩那進而產生間接誤差,所以與小女孩直接相連的左側權重矩陣可以通過間接誤差得到權重更新,迭代幾輪,誤差會降低到最小。( 也就是說小男孩得到的是直接誤差,小女孩是間接誤差 )
接下來將用例子演示整個過程
假設有下圖這樣一個帶權值的網路層,第一層是輸入層,包含兩個神經元i1,i2,和截距項b1;第二層是隱含層,包含兩個神經元h1,h2和截距項b2,第三層是輸出o1,o2,每條線上標的wi是層與層之間連接的權重,激活函數我們默認為sigmoid函數。
通過前向傳播我們得到輸出值為[0.75136079 , 0.772928465],與實際值[0.01 , 0.99]相差還很遠,接下來我們對誤差進行反向傳播,更新權值,重新計算輸出。
3.輸入層---->隱含層的權值更新:
在上文計算總誤差對w5的偏導時,是從out(o1)---->net(o1)---->w5,但是在隱含層之間的權值更新時,是out(h1)---->net(h1)---->w1,而out(h1)會接受E(o1)和E(o2)兩個地方傳來的誤差,所以這個地方兩個都要計算。
根據BP演算法的過程演示,可以得到BP演算法的一般過程:
1. 正向傳播FP(求損失)
此過程中,我們根據輸入的樣本、給定的初始化權重值W和偏置項的值b, 計算最終輸出值以及輸出值與實際值之間的損失值。( 注意:如果損失值不在給定的范圍內則進行接下來反向傳播的過程, 否則停止W,b的更新。 )
2.反向傳播BP(回傳誤差)
將輸出以某種形式通過隱層向輸入層逐層反傳,並將誤差分攤給各層的所有單元,從而獲得各層單元的誤差信號,此誤差信號即作為修正各單元權值的依據。( 主要為: ①隱層到輸出層的參數W的更新 ②從輸入層到隱層的參數W的更新。 )
Ending~理解計算和公式還是很重要的鴨!
Ⅵ 讀懂反向傳播演算法(bp演算法)
反向傳播演算法可以說是神經網路最基礎也是最重要的知識點。基本上所以的優化演算法都是在反向傳播算出梯度之後進行改進的。同時,也因為反向傳播演算法是一個遞歸的形式,一層一層的向後傳播誤差即可,很容易實現(這部分聽不懂沒關系,下面介紹)。不要被反向傳播嚇到,掌握其核心思想就很容易自己手推出來。
我們知道神經網路都是有一個loss函數的。這個函數根據不同的任務有不同的定義方式,但是這個loss函數的目的就是計算出當前神經網路建模出來輸出的數據和理想數據之間的距離。計算出loss之後,根據反向傳播演算法就可以更新網路中的各種參數以此使loss不斷下降,即可使輸出的數據更加理想。
所以,現在的任務是,已知一個網路的loss之後,如何根據loss來更新參數呢?具體點即如何更新網路節點中的權重w和偏差b的值呢?
這里我們採用的是全連接神經網路進行說明。
要想把這個過程說清楚,首先需要將神經網路中各個參數用文字表達清楚。定義的就是w和b在網路中的准確位置。
對於 表示的是神經網路中第 層第k個節點到神經網路中第 層第j個節點之間的權重。注意w的下標是首位表示的是節點後層節點的位置,末尾表示是前層節點的位置。理解這樣的表達方式在後面的計算中會很好理解。
同理,對於b的表示:
b的表示相比於w要簡單一些,符號 表示第l層網路在第j個節點的偏置。無論w還是b的表示,上標都是表示層數。並且 和 表示都是第l層網路第j個節點的參數。所以該節點的輸出可以表示為:
神經網路輸出之後會經過一個激活函數,這用激活函數用 表示,則經過激活函數輸出為:
至此,根據上面符號 、 、 、 。我們可以對於神經網路裡面每一個數據准確的表示了。
給定一個損失函數之後,用 表示,說白了反向傳播就是求∂C/∂w和∂C/∂b,然後將這個值乘以和對應的w,b進行相減就可以實現一次的參數更新了。為什麼這樣的操作就可以優化網路,減小loss值呢?
來源於導數的概念和速度相關。∂C/∂w和∂C/∂b相當於loss值C相對於w和v變化的速度。如果∂C/∂w是正的,則增大w,C也會增大,如果希望C減小的話,應該減小w;並且∂C/∂w的絕對值越大,表示w對C的值影響越大,w稍微有一點變化,C就會有大幅變化。如果要優化C變小,w應該對應的減少多少呢?也沒有一個確定的答案。這里通過變化的速度和學習率相乘作為一個減小的值。通過多輪迭代。最終是希望c達到最小點。而當函數落入最小值的時候,無論是局部最小還是全局最小,其周圍一定是平滑的。所以此時∂C/∂w和∂C/∂b將會變得很小甚至為0,即參數不在更新了。當函數在局部最小點處參數不在更新出現梯度消失的問題時,目前也有各種trick進行解決。不是這里的重點。
為了好說明,這里定義一個很簡單的損失函數C:
接下來就是有意思的階段了。這里還是利用上一節中∂C/∂w和∂C/∂b的解釋。如果我們想要求出∂C/∂w和∂C/∂b的值,即具體的 、 對C影響速率的值,我們找一個中間變數∂C/∂ 。因為我們知道:
我們定義:
當我們知道了 值之後,我們根據 式子可以很容易求出 。
利用導數的鏈式法則:
很容易推出來不是?同理可以求出:
可以看出通過媒介 很容易求出∂C/∂w和∂C/∂b。那麼我們現在來理解一下 到底是什麼意思,以及如何求出來每一個l層j節點的 值。
根據定義:
可以看出來 就是 對於C的影響大小(聯系之前說的導數和速率的關系)。而 是第 層第 個神經元未進過激活函數之前的輸出。所以我們可以理解 為網路中第 層第 個神經元對loss的影響。所以很直觀的看法就是我們先求出單個神經元對loss值得影響,然後再計算該神經元內部參數對於loss的影響。
ok,如果我們已經理解了為什麼要引入 變數以及如何利用該變數計算具體參數的梯度後,接下來我們就可以看看如何獲得 值。反向傳播的名字我想也就是通過計算 的方式而來的。是一層一層遞歸而來的。
既然說是遞歸的方式,我們來思考一下 和 之間有什麼關系,如果找到這個關系之後,我們就可以默認我們如果知道最後一層網路節點的 值,我們就可以獲得倒數第二層網路節點的 值,倒數第三層,倒數第四層,……以此推類即可獲得整個網路的每個節點的 值。至此我們的反向傳播也基本完成了。
所以最重要的有兩點:
先看問題1,直接根據求導的鏈式法則就可以找出兩個的關系,具體公式如下,可以多看看手寫一下,思路上也很簡單。
覺得這樣的鏈式公式還是很直觀的,如果不好理解,可以自己畫一個神經網路圖,連上節點與節點之間的線,標上參數,然後推一下應該就能理解了。
這里的 都表示的未經過激活函數的神經元的輸出。 表示激活函數。因為:
所以:
帶入上式就可以得出:
至此就找出了 和 之間的關系了。
(還能簡化,根據最開始我們定義的 )。
理解起來就是網路中前面一層某一個神經元對於loss的影響與該層的後一層所有的神經元對loss的影響、該神經元的輸出大小、該神經元與後一層神經元連接的權重有關系的,並且是一個累加的效應。這樣的理解也是非常直觀合乎常理的。
現在萬事具備,只差問題2了。即假設最後一層網路是L,最後一層 如何計算得出。最後一層的 值就像一個導火索,一旦有了開始,就可以利用我們之前推出來的: 公式進行反向傳播了(反向傳播還是很形象的不是?)。現在解決這個問題。這個問題就是和損失函數具體怎麼定義有關系了。不過我們先不考慮C的具體形式,根據通用的鏈式法則我們可以得到:
這里需要注意的是最後一層激活函數使用的是哪種。最後一層激活函數在計算某一個神經元的輸出時可能會結合其他節點的輸出來計算。比如softmax激活函數,其輸出的是一個概率值【0,1】。輸出大小就是結合輸出所有的值。
現在我們來考慮兩個具體的損失函數,並且採用之前定義的均方誤差損失函數 :
求導為:
因為sigmoid輸出的值僅僅和輸入的x值有關 。所以 當 時值為0.所以:
根據上面,BP推導有三部曲,先求出 ,再根據 分別求出 、 。總結公式如下:
啟動上面反傳的導火索是最後一層的 值,計算公式為:
根據最後一層不同類型的激活函數不同對待。
Ⅶ 如何理解神經網路裡面的反向傳播演算法
反向傳播演算法(BP演算法)主要是用於最常見的一類神經網路,叫多層前向神經網路,本質可以看作是一個general nonlinear estimator,即輸入x_1 ... x_n 輸出y,視圖找到一個關系 y=f(x_1 ... x_n) (在這里f的實現方式就是神經網路)來近似已知數據。為了得到f中的未知參數的最優估計值,一般會採用最小化誤差的准則,而最通常的做法就是梯度下降,到此為止都沒問題,把大家困住了很多年的就是多層神經網路無法得到顯式表達的梯度下降演算法!
BP演算法實際上是一種近似的最優解決方案,背後的原理仍然是梯度下降,但為了解決上述困難,其方案是將多層轉變為一層接一層的優化:只優化一層的參數是可以得到顯式梯度下降表達式的;而順序呢必須反過來才能保證可工作——由輸出層開始優化前一層的參數,然後優化再前一層……跑一遍下來,那所有的參數都優化過一次了。但是為什麼說是近似最優呢,因為數學上除了很特殊的結構,step-by-step的優化結果並不等於整體優化的結果!不過,好歹現在能工作了,不是嗎?至於怎麼再改進(已經很多改進成果了),或者採用其他演算法(例如智能優化演算法等所謂的全局優化演算法,就算是沒有BP這個近似梯度下降也只是局部最優的優化演算法)那就是新的研究課題了。