❶ 神經網路的隱含層和輸出層都有激勵函數嗎,激勵函數可以任意選嗎,權值調整用的函數和激勵函數有關嗎
當然都來有激勵函數了,源激勵函數理論上是可以任意選,但是在實際應用的時候並不是任何函數都適合。常用的激勵函數有三種:閾值型、線性型和Sigmoid型。
權值的調整和所選的激勵函數有關,因為你要把各層上的數據代入激勵函數進行運算,不同的激勵函數結果肯定也不一樣。就像兩個不同的函數,將同一個x值代入結果當然不一樣。
❷ tanh函數與sigmod函數哪個更好
The tanh activation usually works better than sigmoid activation function for hidden units because the mean of its output is closer to zero, and so it centers the data better for the next layer.
tanh函數的輸出更利於下一層神經元的處理,尤其是數據的集中化;
不過在一些二分類的場景,還是sigmod更適合作為輸出層
❸ 貝葉斯神經網路
通過優化的標准神經網路訓練(從概率的角度來看)等同於權重的最大似然估計(MLE)。由於許多原因,這往往是不能令人滿意的 —— 使用 MLE 會忽略在適當的權重值中可能存在的任何不確定性,即無法正確評估訓練數據中的不確定性,從實際的角度來看,這種類型的訓練容易出現過擬合現象。
對此的一個解決方案是引入正則化(從貝葉斯的角度來看,這相當於在權重上引入先驗)。如果我們可以通過規范模型來解決過度自信決策和防止模型過度擬合的問題,那為什麼我們需要貝葉斯神經網路?答案是: 當前神經網路架構中缺少預測中的不確定性度量,但貝葉斯神經網路將其納入其中 。BNN 在特定環境中很重要,特別是當我們非常關心不確定性時,貝葉斯方法自然地解釋了參數估計中的不確定性,並且可以將這種不確定性傳播到預測中。
深度神經網路已成功應用於許多領域,包括非常敏感的領域,如醫療保健,安全性,欺詐性交易等等。這些領域在很大程度上依賴於模型的預測准確性,甚至一個過度自信的決策也可能導致一個大問題。此外,這些領域具有非常不平衡的數據集(百萬個交易中的一個是欺詐性交易,百分之五的癌症檢測結果是陽性,不到百分之一的電子郵件是垃圾郵件),容易導致該模型過度擬合。
從概率論的角度來看,使用單點估計權重以進行分類是不合理的。而貝葉斯神經網路對於過擬合更加魯棒,並且可以從小數據集中輕松學習。 貝葉斯方法將其參數以概率分布的形式表示以提供不確定性估計;同時,通過使用先驗概率分布的形式來表示參數,訓練期間在許多模型上計算平均值,這給網路提供了正則化效果,從而防止過度擬合 。
在標准神經網路中,權重由單個點表示。 而貝葉斯神經網路以分布形式表示權重,如下圖所示:
即使使用少量參數,在貝葉斯神經網路中推斷後驗模型也是一項艱巨的任務,因此通常使用後驗模型的近似值,變分推理是一種流行的方法。人們將使用簡單的變分分布(例如高斯分布)對後驗進行模擬,並嘗試調整分布的參數使其盡可能接近真實的後驗 —— 通過最小化這種簡單變分分布和真實後驗之間的 KL 散度來完成。
但是用於逼近 BNN 後驗的變分方法在計算上可能相當昂貴,因為使用近似分布會大大增加模型參數的數量,但不會大幅增加模型容量。例如,使用 BNN 後驗近似的高斯分布,模型參數的數量增加了一倍,但報告了與使用丟失的傳統方法相同的預測性能。 這使得該方法在實踐中不適合與 CNN 一起使用,因為參數數量的增加太昂貴。
關於神經網路權重的精確貝葉斯推斷是難以處理的,因為參數的數量非常大,並且神經網路的函數形式不適合精確積分。 因此,我們用變分概率分布 q θ (w | D) 逼近難以處理的真實後驗概率分布 p(w | D),它包括高斯分布的性質 μ∈ℝ d 和 σ∈ℝ d ,表示為 N(θ | μ,σ²),其中 d 是定義概率分布的參數總數。 這些高斯變分後驗概率分布的形狀由它們的方差 σ² 確定,表示每個模型參數的不確定性估計。
在觀察數據之前定義先驗概率分布,一旦觀察到數據(訓練數據),學習就發生並且分布變換為後驗分布。 利用概率論從數據中學習構成了貝葉斯學習的基礎。貝葉斯定理如下:
P(θ | x) 為後驗概率,也是我們想要計算的;P(θ) 為先驗概率,在訓練數據之前就是已知的;P(x | θ) 為可能性,顯示了數據分布;P(x) 為證據,我們只能通過對所有可能的模型值積分來計算其值:
這使得問題變得棘手,因此我們採用變分近似來找到近似貝葉斯後驗分布。
首先,我們的原始目標是,需要根據已有數據推斷需要的分布 p;當 p(下圖中黃色區域)不容易表達,不能直接求解時,可以嘗試用變分推斷的方法, 即,尋找容易表達和求解的分布 q(下圖中紅線和綠線構成的區域),當 q 和 p 的差距很小的時候,q 就可以作為 p 的近似分布,成為輸出結果了。例如,我們用 q θ (w | D) 來近似 p(w | D)。首先注意 q θ (w | D) 的表達,其中 w 是變數,θ 是後驗概率分布 q 的參數。所以在構造 q 的時候也分兩步:第一,概率分布的選擇;第二,參數的選擇。第一步,我們在選擇 q 的概率分布時,通常會直觀選擇 p 可能的概率分布,這樣能夠更好地保證 q 和 p 的相似程度。例如高斯混合模型中,原始假設 p 服從高斯分布,則構造的 q 依然服從高斯分布。之後,我們通過改變 θ,使得 q 不斷逼近 p。
我們希望盡可能接近真正的分布,這可以通過最小化兩者之間的 Kullback-Liebler(KL)散度來做到這一點。然而 KL 的表達式中依然有一部分不可求的後驗概率,這個問題仍然是棘手的,所以用到了 ELBO:
但是由於積分的存在,這個公式仍然難以解決。此時,我們可以從近似函數 q θ (w | D) 中進行采樣,因為從近似函數中采樣權值要比真正的後驗函數 p(w | D) 更容易。這樣得到容易計算的函數:
這些采樣權值 w 被用於神經網路的反向傳播,學習後驗分布。
貝葉斯建模中,存在兩種類型的不確定:偶然不確定性和認知不確定性。
可以通過在模型參數或模型輸出上放置概率分布來估計不確定性 。通過在模型的權重上放置先驗分布,然後嘗試捕獲這些權重在給定數據的情況下變化多少來模擬認知不確定性。另一方面,通過在模型的輸出上放置分布來模擬偶然不確定性。
傳統神經網路常使用反向傳播來訓練。對於 BNN,其自然地解釋了參數估計中的不確定性,並且可以將這種不確定性傳播到預測結果中;此外,對參數值進行取平均而不是僅選擇單點估計值使得模型不易出現過擬合。因此,對 BNN 參數的訓練也需要特殊的訓練方法,Bayes by Backprop 就是其中一種(它也是一種變分推斷)。
Bayes by Backprop 用來學習神經網路權重的概率分布。它是一種變分推理方法,用於學習神經網路權重 w ~ q θ (w | D) 的後驗分布,可以在反向傳播中對權重 w 進行采樣。整個方法可歸納如下:
由於參數數目較大,所以需要對模型權重進行適當的修剪。模型修剪減少了深度神經網路的各種連接矩陣中的稀疏性,從而減少了模型中有價值的參數的數量。模型修剪的整個想法是減少參數的數量而不會損失模型的准確性。最常用的修剪模型的方法是將低貢獻權重映射到零並減少整體非零值權重的數量,可以通過訓練大型稀疏模型並進一步修剪來實現。
(這部分內容摘自 一個例子搞清楚 先驗分布/後驗分布/似然估計 )
給定一些數據樣本 x,假定我們知道樣本是從某一種分布中隨機取出的,但我們不知道這個分布具體的參數 θ。
因為給定樣本 x 後, p(x) 會在 θ 空間上為一個定值,和 θ 的大小沒有關系,所以可以省略分母 p(x)。 可化簡為:
p(x) 相當於是一個歸一化項,整個公式就表示為: Posterior∝(Likelihood∗Prior)(後驗概率 正比於 先驗概率 ∗ 似然函數)
需要一提的是,對貝葉斯 CNN 而言,不僅在卷積層中將概率分布置於權重上,還要求在全連接層中將概率分布置於權重上。
假設權重的變分後驗概率分布 q θ (w ijhw | D) = N(μ ijhw ,α ijhw μ 2 ijhw )(其中,i 和 j 分別對應輸入和輸出層數,h 和 w 分別對應過濾器的高度和寬度),那麼卷積公式被重定義為:
其中,ε j ~ N(0,1),A i 為過濾器在第 i 層要卷積的部分,b j 為相應的第 j 層的激活值,∗ 為卷積操作,⊙ 為元素乘法(component-wise multiplication)。
對 CNN 的權重應用概率分布而非單點值,並且要在反向傳播時更新變分後驗概率分布 q θ (w | D),關鍵在於過濾器會執行兩次卷積操作(在單點預測的 CNN 中只執行一次卷積)。
從前面的公式我們看到,卷積操作的輸出 b 是期望 μ ijhw 和方差 α ijhw μ 2 ijhw 的函數,因此我們可以分別計算出 μ ijhw 和 α ijhw μ 2 ijhw 的值,從而可以得到一個高斯概率分布。方法就是執行兩次卷積操作:第一次,我們將 b 視為通過頻率推理更新的 CNN 的輸出,將單點估計值解釋為變分後驗概率分布的期望;第二次,我們將得到方差。通過這種方式,我們確保每個卷積操作只更新一個參數(第一次為 μ ijhw ,第二次為 α ijhw ),這與通過頻率推斷更新的 CNN 完全相同。
實際上,當我們執行第一次卷積操作,我們得到的是 q θ (w | D) 的最大後驗概率,而第二次卷積操作則是得出權重 w 偏離了最大後驗概率多少。另外,為了加速計算,確保方差 α ijhw μ 2 ijhw 為非零正數,並提到准確度,我們學習 logα ijhw 並使用 Softplus 激活函數。
在分類任務中,我們關注的是 P D (y* | x*);對於貝葉斯神經網路,其被表示為:
在 Bayes by Backprop 中,q θ (w | D) ~ N(w | μ, σ 2 ),而 θ = {μ, σ} 在數據集 D = {x i , y i } n i=1 的訓練中學習得到。由於分類問題多是離散的,因此:
其中,Σ c f(x c ∗ | w) = 1,C 為總類數。通過從 q θ (w | D) 取樣,可以獲得期望值的無偏估計:
T 為樣本數量。這個估計值允許我們評估預測值的不確定性,因此稱為預測方差,用 Var q 表示:
這個值可以進一步分為偶然不確定性和認知不確定性:
由於貝葉斯 CNN 中的權重都由期望和方差來表示其分布,因此,相較於單點估計 CNN,貝葉斯 CNN 的參數數量翻了一倍。為了使貝葉斯 CNN 參數數量等於傳統 CNN,可以使 BCNN 的過濾器數目減半。
另一種模型修剪的技術是對每層的權重使用 L1 歸一化。通過 L1 歸一化,我們使各模型層中的權重向量變得非常稀疏,即大部分矩陣元素變得接近零;同時,剩餘的非零元素則捕獲數據的最重要特徵。我們設置一個閾值,如果該值低於閾值,則使權重為零。通過只保留非零權重,可以減少模型的參數數量,而不會影響模型的整體性能。
看了一些國內的論文,將貝葉斯應用於 BP 神經網路優化,往往是利用貝葉斯定理尋找最優神經網路參數,以解決神經網路權值易陷入局部最優的問題,同時也能解決神經網路過擬合。其中心思想在於: 根據給定的先驗分布,利用貝葉斯定理考察神經網路參數的不確定性,從樣本數據中,獲得網路結構的後驗概率,那麼,使得該後驗概率最大化的網路參數即為所需的最優參數 (我認為這其實是 MAP 而非貝葉斯估計)。最優參數定義為:
為方便計算,對後驗概率取對數得到:
假設先驗概率分布 p(w) 滿足高斯分布:
則有:
上式中,似然函數部分對應於目標函數中的適應度函數,而先驗概率部分對應於正則項,因此我們可以通過確定先驗概率得到正則項,從而對神經網路的目標函數進行優化,進而有效控制網路規模,提高網路泛化能力。
後驗分布是人們在獲得樣本數據 D 之後對參數 w 的一種調整。 貝葉斯把上一步得到的後驗分布信息儲存起來,在將來做推測時,上一步的後驗信息就成為了先驗信息 ,這樣持續數次操作之後,樣本數據的預測結果會一直進行調整,最後對參數估計的結果精確度更高。
神經網路中最重要的兩個性能參數就是權值和閾值,而這兩個參數的分布情況受到了目標函數中超參數的控制,但一般的演算法不能確定超參數的取值。可以利用貝葉斯定理來求取目標函數的超參數,並且要求達到自主調節超參數取值的目標,並且通過持續的調整最後找到最優的取值,相應的確定 BP 神經網路的最優權值和閾值。
❹ BP神經網路,輸出層採用線性函數和非線性函數區別大嘛或者是預測精度會有差別嘛求告知
具體選取一般跟你神經網路的用途有關系,也就是說你期望的輸出到底內是什麼有關系容。一般現在多分類問題,最後輸出概率的,輸出層激活函數都是softmax函數。二分類問題,輸出標簽的話,用sigmoid函數也可以。
你要是輸出值是具體一個算的值,跟概率什麼的都沒有關系,那用線性函數直接輸出也行。比如你這是一個預測問題,根據輸入的數據得到一個預測值,那可以使用線性函數。
❺ 各種遙感數據分類方法比較
常用的遙感數據的專題分類方法有多種,從分類判別決策方法的角度可以分為統計分類器、神經網路分類器、專家系統分類器等;從是否需要訓練數據方面,又可以分為監督分類器和非監督分類器。
一、統計分類方法
統計分類方法分為非監督分類方法和監督分類方法。非監督分類方法不需要通過選取已知類別的像元進行分類器訓練,而監督分類方法則需要選取一定數量的已知類別的像元對分類器進行訓練,以估計分類器中的參數。非監督分類方法不需要任何先驗知識,也不會因訓練樣本選取而引入認為誤差,但非監督分類得到的自然類別常常和研究感興趣的類別不匹配。相應地,監督分類一般需要預先定義分類類別,訓練數據的選取可能會缺少代表性,但也可能在訓練過程中發現嚴重的分類錯誤。
1.非監督分類器
非監督分類方法一般為聚類演算法。最常用的聚類非監督分類方法是 K-均值(K-Means Algorithm)聚類方法(Duda and Hart,1973)和迭代自組織數據分析演算法(ISODATA)。其演算法描述可見於一般的統計模式識別文獻中。
一般通過簡單的聚類方法得到的分類結果精度較低,因此很少單獨使用聚類方法進行遙感數據專題分類。但是,通過對遙感數據進行聚類分析,可以初步了解各類別的分布,獲取最大似然監督分類中各類別的先驗概率。聚類分析最終的類別的均值矢量和協方差矩陣可以用於最大似然分類過程(Schowengerdt,1997)。
2.監督分類器
監督分類器是遙感數據專題分類中最常用的一種分類器。和非監督分類器相比,監督分類器需要選取一定數量的訓練數據對分類器進行訓練,估計分類器中的關鍵參數,然後用訓練後的分類器將像元劃分到各類別。監督分類過程一般包括定義分類類別、選擇訓練數據、訓練分類器和最終像元分類四個步驟(Richards,1997)。每一步都對最終分類的不確定性有顯著影響。
監督分類器又分為參數分類器和非參數分類器兩種。參數分類器要求待分類數據滿足一定的概率分布,而非參數分類器對數據的概率分布沒有要求。
遙感數據分類中常用的分類器有最大似然分類器、最小距離分類器、馬氏距離分類器、K-最近鄰分類器(K-Nearest neighborhood classifier,K-NN)以及平行六面體分類器(parallelepiped classifier)。最大似然、最小距離和馬氏距離分類器在第三章已經詳細介紹。這里簡要介紹 K-NN 分類器和平行六面體分類器。
K-NN分類器是一種非參數分類器。該分類器的決策規則是:將像元劃分到在特徵空間中與其特徵矢量最近的訓練數據特徵矢量所代表的類別(Schowengerdt,1997)。當分類器中 K=1時,稱為1-NN分類器,這時以離待分類像元最近的訓練數據的類別作為該像元的類別;當 K >1 時,以待分類像元的 K 個最近的訓練數據中像元數量最多的類別作為該像元的類別,也可以計算待分類像元與其 K 個近鄰像元特徵矢量的歐氏距離的倒數作為權重,以權重值最大的訓練數據的類別作為待分類像元的類別。Hardin,(1994)對 K-NN分類器進行了深入的討論。
平行六面體分類方法是一個簡單的非參數分類演算法。該方法通過計算訓練數據各波段直方圖的上限和下限確定各類別像元亮度值的范圍。對每一類別來說,其每個波段的上下限一起就形成了一個多維的盒子(box)或平行六面體(parallelepiped)。因此 M 個類別就有M 個平行六面體。當待分類像元的亮度值落在某一類別的平行六面體內時,該像元就被劃分為該平行六面體代表的類別。平行六面體分類器可以用圖5-1中兩波段的遙感數據分類問題來表示。圖中的橢圓表示從訓練數據估計的各類別亮度值分布,矩形表示各類別的亮度值范圍。像元的亮度落在哪個類別的亮度范圍內,就被劃分為哪個類別。
圖5-1 平行六面體分類方法示意圖
3.統計分類器的評價
各種統計分類器在遙感數據分類中的表現各不相同,這既與分類演算法有關,又與數據的統計分布特徵、訓練樣本的選取等因素有關。
非監督聚類演算法對分類數據的統計特徵沒有要求,但由於非監督分類方法沒有考慮任何先驗知識,一般分類精度比較低。更多情況下,聚類分析被作為非監督分類前的一個探索性分析,用於了解分類數據中各類別的分布和統計特徵,為監督分類中類別定義、訓練數據的選取以及最終的分類過程提供先驗知識。在實際應用中,一般用監督分類方法進行遙感數據分類。
最大似然分類方法是遙感數據分類中最常用的分類方法。最大似然分類屬於參數分類方法。在有足夠多的訓練樣本、一定的類別先驗概率分布的知識,且數據接近正態分布的條件下,最大似然分類被認為是分類精度最高的分類方法。但是當訓練數據較少時,均值和協方差參數估計的偏差會嚴重影響分類精度。Swain and Davis(1978)認為,在N維光譜空間的最大似然分類中,每一類別的訓練數據樣本至少應該達到10×N個,在可能的條件下,最好能達到100×N以上。而且,在許多情況下,遙感數據的統計分布不滿足正態分布的假設,也難以確定各類別的先驗概率。
最小距離分類器可以認為是在不考慮協方差矩陣時的最大似然分類方法。當訓練樣本較少時,對均值的估計精度一般要高於對協方差矩陣的估計。因此,在有限的訓練樣本條件下,可以只估計訓練樣本的均值而不計算協方差矩陣。這樣最大似然演算法就退化為最小距離演算法。由於沒有考慮數據的協方差,類別的概率分布是對稱的,而且各類別的光譜特徵分布的方差被認為是相等的。很顯然,當有足夠訓練樣本保證協方差矩陣的精確估計時,最大似然分類結果精度要高於最小距離精度。然而,在訓練數據較少時,最小距離分類精度可能比最大似然分類精度高(Richards,1993)。而且最小距離演算法對數據概率分布特徵沒有要求。
馬氏距離分類器可以認為是在各類別的協方差矩陣相等時的最大似然分類。由於假定各類別的協方差矩陣相等,和最大似然方法相比,它丟失了各類別之間協方差矩陣的差異的信息,但和最小距離法相比較,它通過協方差矩陣保持了一定的方向靈敏性(Richards,1993)。因此,馬氏距離分類器可以認為是介於最大似然和最小距離分類器之間的一種分類器。與最大似然分類一樣,馬氏距離分類器要求數據服從正態分布。
K-NN分類器的一個主要問題是需要很大的訓練數據集以保證分類演算法收斂(Devijver and Kittler,1982)。K-NN分類器的另一個問題是,訓練樣本選取的誤差對分類結果有很大的影響(Cortijo and Blanca,1997)。同時,K-NN分類器的計算復雜性隨著最近鄰范圍的擴大而增加。但由於 K-NN分類器考慮了像元鄰域上的空間關系,和其他光譜分類器相比,分類結果中「椒鹽現象」較少。
平行六面體分類方法的優點在於簡單,運算速度快,且不依賴於任何概率分布要求。它的缺陷在於:首先,落在所有類別亮度值范圍之外的像元只能被分類為未知類別;其次,落在各類別亮度范圍重疊區域內的像元難以區分其類別(如圖5-1所示)。
各種統計分類方法的特點可以總結為表5-1。
二、神經網路分類器
神經網路用於遙感數據分類的最大優勢在於它平等地對待多源輸入數據的能力,即使這些輸入數據具有完全不同的統計分布,但是由於神經網路內部各層大量的神經元之間連接的權重是不透明的,因此用戶難以控制(Austin,Harding and Kanellopoulos et al.,1997)。
神經網路遙感數據分類被認為是遙感數據分類的熱點研究領域之一(Wilkinson,1996;Kimes,1998)。神經網路分類器也可分為監督分類器和非監督分類器兩種。由於神經網路分類器對分類數據的統計分布沒有任何要求,因此神經網路分類器屬於非參數分類器。
遙感數據分類中最常用的神經網路是多層感知器模型(multi-layer percep-tron,MLP)。該模型的網路結構如圖5-2所示。該網路包括三層:輸入層、隱層和輸出層。輸入層主要作為輸入數據和神經網路輸入界面,其本身沒有處理功能;隱層和輸出層的處理能力包含在各個結點中。輸入的結構一般為待分類數據的特徵矢量,一般情況下,為訓練像元的多光譜矢量,每個結點代表一個光譜波段。當然,輸入結點也可以為像元的空間上下文信息(如紋理)等,或多時段的光譜矢量(Paola and Schowengerdt,1995)。
表5-1 各種統計分類器比較
圖5-2 多層感知器神經網路結構
對於隱層和輸出層的結點來說,其處理過程是一個激勵函數(activation function)。假設激勵函數為f(S),對隱層結點來說,有:
遙感信息的不確定性研究
其中,pi為隱層結點的輸入;hj為隱層結點的輸出;w為聯接各層神經之間的權重。
對輸出層來說,有如下關系:
遙感信息的不確定性研究
其中,hj為輸出層的輸入;ok為輸出層的輸出。
激勵函數一般表達為:
遙感信息的不確定性研究
確定了網路結構後,就要對網路進行訓練,使網路具有根據新的輸入數據預測輸出結果的能力。最常用的是後向傳播訓練演算法(Back-Propagation)。這一演算法將訓練數據從輸入層進入網路,隨機產生各結點連接權重,按式(5-1)(5-2)和(5-3)中的公式進行計算,將網路輸出與預期的結果(訓練數據的類別)相比較並計算誤差。這個誤差被後向傳播的網路並用於調整結點間的連接權重。調整連接權重的方法一般為delta規則(Rumelhart,et al.,1986):
遙感信息的不確定性研究
其中,η為學習率(learning rate);δk為誤差變化率;α為動量參數。
將這樣的數據的前向和誤差後向傳播過程不斷迭代,直到網路誤差減小到預設的水平,網路訓練結束。這時就可以將待分類數據輸入神經網路進行分類。
除了多層感知器神經網路模型,其他結構的網路模型也被用於遙感數據分類。例如,Kohonen自組織網路被廣泛用於遙感數據的非監督聚類分析(Yoshida et al.,1994;Schaale et al.,1995);自適應共振理論(Adaptive Resonance Theory)網路(Silva,S and Caetano,M.1997)、模糊ART圖(Fuzzy ART Maps)(Fischer,M.M and Gopal,S,1997)、徑向基函數(駱劍承,1999)等也被用於遙感數據分類。
許多因素影響神經網路的遙感數據分類精度。Foody and Arora(1997)認為神經網路結構、遙感數據的維數以及訓練數據的大小是影響神經網路分類的重要因素。
神經網路結構,特別是網路的層數和各層神經元的數量是神經網路設計最關鍵的問題。網路結構不但影響分類精度,而且對網路訓練時間有直接影響(Kavzoglu and Mather,1999)。對用於遙感數據分類的神經網路來說,由於輸入層和輸出層的神經元數目分別由遙感數據的特徵維數和總的類別數決定的,因此網路結構的設計主要解決隱層的數目和隱層的神經元數目。一般過於復雜的網路結構在刻畫訓練數據方面較好,但分類精度較低,即「過度擬合」現象(over-fit)。而過於簡單的網路結構由於不能很好的學習訓練數據中的模式,因此分類精度低。
網路結構一般是通過實驗的方法來確定。Hirose等(1991)提出了一種方法。該方法從一個小的網路結構開始訓練,每次網路訓練陷入局部最優時,增加一個隱層神經元,然後再訓練,如此反復,直到網路訓練收斂。這種方法可能導致網路結構過於復雜。一種解決辦法是每當認為網路收斂時,減去最近一次加入的神經元,直到網路不再收斂,那麼最後一次收斂的網路被認為是最優結構。這種方法的缺點是非常耗時。「剪枝法」(pruning)是另一種確定神經網路結構的方法。和Hirose等(1991)的方法不同,「剪枝法」從一個很大的網路結構開始,然後逐步去掉認為多餘的神經元(Sietsma and Dow,1988)。從一個大的網路開始的優點是,網路學習速度快,對初始條件和學習參數不敏感。「剪枝」過程不斷重復,直到網路不再收斂時,最後一次收斂的網路被認為最優(Castellano,Fanelli and Pelillo,1997)。
神經網路訓練需要訓練數據樣本的多少隨不同的網路結構、類別的多少等因素變化。但是,基本要求是訓練數據能夠充分描述代表性的類別。Foody等(1995)認為訓練數據的大小對遙感分類精度有顯著影響,但和統計分類器相比,神經網路的訓練數據可以比較少。
分類變數的數據維對分類精度的影響是遙感數據分類中的普遍問題。許多研究表明,一般類別之間的可分性和最終的分類精度會隨著數據維數的增大而增高,達到某一點後,分類精度會隨數據維的繼續增大而降低(Shahshahani and Landgrebe,1994)。這就是有名的Hughes 現象。一般需要通過特徵選擇去掉信息相關性高的波段或通過主成分分析方法去掉冗餘信息。分類數據的維數對神經網路分類的精度同樣有明顯影響(Battiti,1994),但Hughes 現象沒有傳統統計分類器中嚴重(Foody and Arora,1997)。
Kanellopoulos(1997)通過長期的實踐認為一個有效的ANN模型應考慮以下幾點:合適的神經網路結構、優化學習演算法、輸入數據的預處理、避免振盪、採用混合分類方法。其中混合模型包括多種ANN模型的混合、ANN與傳統分類器的混合、ANN與知識處理器的混合等。
三、其他分類器
除了上述統計分類器和神經網路分類器,還有多種分類器被用於遙感圖像分類。例如模糊分類器,它是針對地面類別變化連續而沒有明顯邊界情況下的一種分類器。它通過模糊推理機制確定像元屬於每一個類別的模糊隸屬度。一般的模糊分類器有模糊C均值聚類法、監督模糊分類方法(Wang,1990)、混合像元模型(Foody and Cox,1994;Settle and Drake,1993)以及各種人工神經網路方法等(Kanellopoulos et al.,1992;Paola and Schowengerdt,1995)。由於模糊分類的結果是像元屬於每個類別的模糊隸屬度,因此也稱其為「軟分類器」,而將傳統的分類方法稱為「硬分類器」。
另一類是上下文分類器(contextual classifier),它是一種綜合考慮圖像光譜和空間特徵的分類器。一般的光譜分類器只是考慮像元的光譜特徵。但是,在遙感圖像中,相鄰的像元之間一般具有空間自相關性。空間自相關程度強的像元一般更可能屬於同一個類別。同時考慮像元的光譜特徵和空間特徵可以提高圖像分類精度,並可以減少分類結果中的「椒鹽現象」。當類別之間的光譜空間具有重疊時,這種現象會更明顯(Cortijo et al.,1995)。這種「椒鹽現象」可以通過分類的後處理濾波消除,也可以通過在分類過程中加入代表像元鄰域關系的信息解決。
在分類過程中可以通過不同方式加入上下文信息。一是在分類特徵中加入圖像紋理信息;另一種是圖像分割技術,包括區域增長/合並常用演算法(Ketting and Landgrebe,1976)、邊緣檢測方法、馬爾可夫隨機場方法。Rignot and Chellappa(1992)用馬爾可夫隨機場方法進行SAR圖像分類,取得了很好的效果,Paul Smits(1997)提出了保持邊緣細節的馬爾可夫隨機場方法,並用於SAR圖像的分類;Crawford(1998)將層次分類方法和馬爾可夫隨機場方法結合進行SAR圖像分類,得到了更高的精度;Cortijo(1997)用非參數光譜分類對遙感圖像分類,然後用ICM演算法對初始分類進行上下文校正。