『壹』 決策樹(Decision Tree)
決策樹(Decision Tree)是一種基本的分類與回歸方法,其模型呈樹狀結構,在分類問題中,表示基於特徵對實例進行分類的過程。本質上,決策樹模型就是一個定義在特徵空間與類空間上的條件概率分布。決策樹學習通常包括三個步驟: 特徵選擇 、 決策樹的生成 和 決策樹的修剪 。
分類決策樹模型是一種描述對實例進行分類的樹形結構,決策樹由節點(node)和有向邊(directed edge)組成。節點有兩種類型:內部節點(internal node)和葉節點(leaf node)。內部節點表示一個特徵或屬性,葉節點表示一個類。
利用決策樹進行分類,從根節點開始,對實例的某一特徵進行測試,根據測試結果將實例分配到其子節點;這時,每一個子節點對應著該特徵的一個取值。如此遞歸地對實例進行測試並分配,直至達到葉節點。最後將實例分到葉節點的類中。
決策樹是給定特徵條件下類的條件概率分布,這一條件概率分布定義在特徵區間的一個劃分(partiton)上。將特徵空間劃分為互不相交的單元(cell)或區域(region),並在每個單元定義一個類的概率分布就構成了一個條件概率分布。決策樹的一條路徑對應劃分中的一個單元,決策樹所表示的條件概率分布由各個單元給定條件下類的條件概率分布組成。假設X為表示特徵的隨機變數,Y為表示類的隨機變數,那麼這個條件概率分布可以表示成P(Y|X)。X取值於給定劃分下單元的集合,Y取值於類的集合,各葉節點(單元)上的條件概率往往偏向於某一個類,即屬於某一類的概率較大,決策樹分類時將該節點的實例分到條件概率大的那一類去。也就以為著決策樹學習的過程其實也就是由數據集估計條件概率模型的過程,這些基於特徵區間劃分的類的條件概率模型由無窮多個,在進行選擇時,不僅要考慮模型的擬合能力還要考慮其泛化能力。
為了使模型兼顧模型的擬合和泛化能力,決策樹學習使用正則化的極大似然函數來作為損失函數,以最小化損失函數為目標,尋找最優的模型。顯然從所有可能的決策樹中選取最優決策樹是NP完全問題,所以在實際中通常採用啟發式的方法,近似求解這一最優化問題: 通過遞歸的選擇最優特徵,根據該特徵對訓練數據進行劃分直到使得各個子數據集有一個最好的分類,最終生成特徵樹 。當然,這樣得到的決策樹實際上是次最優(sub-optimal)的。進一步的,由於決策樹的演算法特性,為了防止模型過擬合,需要對已生成的決策樹自下而上進行剪枝,將樹變得更簡單,提升模型的泛化能力。具體來說,就是去掉過於細分的葉節點,使其退回到父節點,甚至更高的節點,然後將父節點或更高的節點改為新的葉節點。如果數據集的特徵較多,也可以在進行決策樹學習之前,對數據集進行特徵篩選。
由於決策樹是一個條件概率分布,所以深淺不同的決策樹對應著不同復雜度的概率模型,決策樹的生成對應模型的局部選擇,決策樹的剪枝對應著模型的全局選擇。
熵(Entropy) 的概念最早起源於物理學,最初物理學家用這個概念度量一個熱力學系統的無序程度。在1948年, 克勞德·艾爾伍德·香農 將熱力學的熵,引入到 資訊理論 ,因此它又被稱為 香農熵 。在資訊理論中,熵是對不確定性的量度,在一條信息的熵越高則能傳輸越多的信息,反之,則意味著傳輸的信息越少。
如果有一枚理想的硬幣,其出現正面和反面的機會相等,則拋硬幣事件的熵等於其能夠達到的最大值。我們無法知道下一個硬幣拋擲的結果是什麼,因此每一次拋硬幣都是不可預測的。因此,使用一枚正常硬幣進行若干次拋擲,這個事件的熵是一 比特 ,因為結果不外乎兩個——正面或者反面,可以表示為 0, 1 編碼,而且兩個結果彼此之間相互獨立。若進行 n 次 獨立實驗 ,則熵為 n ,因為可以用長度為 n 的比特流表示。但是如果一枚硬幣的兩面完全相同,那個這個系列拋硬幣事件的熵等於零,因為 結果能被准確預測 。現實世界裡,我們收集到的數據的熵介於上面兩種情況之間。
另一個稍微復雜的例子是假設一個 隨機變數 X ,取三種可能值 ,概率分別為 ,那麼編碼平均比特長度是: 。其熵為 。因此<u>熵實際是對隨機變數的比特量和順次發生概率相乘再總和的</u> 數學期望 。
依據玻爾茲曼H定理,香農把隨機變數X的熵 定義為:
其中 是隨機變數X的信息量,當隨機變數取自有限樣本時,熵可以表示為:
若 ,則定義 。
同理可以定義條件熵 :
很容易看出,條件熵(conditional entropy) 就是X給定條件下Y的條件概率分布的熵對X的數學期望。當熵和條件熵中的概率有極大似然估計得到時,所對應的熵和條件熵分別稱為檢驗熵(empirical entropy)和經驗條件熵(empirical conditional entropy).
熵越大,隨機變數的不確定性就越大,從定義可以驗證:
當底數 時,熵的單位是 ;當 時,熵的單位是 ;而當 時,熵的單位是 .
如英語有26個字母,假如每個字母在文章中出現的次數平均的話,每個字母的信息量 為:
同理常用漢字2500有個,假設每個漢字在文章中出現的次數平均的話,每個漢字的信息量 為:
事實上每個字母和漢字在文章中出現的次數並不平均,少見字母和罕見漢字具有相對較高的信息量,顯然,由期望的定義,熵是整個消息系統的平均消息量。
熵可以用來表示數據集的不確定性,熵越大,則數據集的不確定性越大。因此使用 劃分前後數據集熵的差值 量度使用當前特徵對於數據集進行劃分的效果(類似於深度學習的代價函數)。對於待劃分的數據集 ,其劃分前的數據集的熵 是一定的,但是劃分之後的熵 是不定的, 越小說明使用此特徵劃分得到的子集的不確定性越小(也就是純度越高)。因此 越大,說明使用當前特徵劃分數據集 時,純度上升的更快。而我們在構建最優的決策樹的時候總希望能更快速到達純度更高的數據子集,這一點可以參考優化演算法中的梯度下降演算法,每一步沿著負梯度方法最小化損失函數的原因就是負梯度方向是函數值減小最快的方向。同理:在決策樹構建的過程中我們總是希望集合往最快到達純度更高的子集合方向發展,因此我們總是選擇使得信息增益最大的特徵來劃分當前數據集 。
顯然這種劃分方式是存在弊端的,按信息增益准則的劃分方式,當數據集的某個特徵B取值較多時,依此特徵進行劃分更容易得到純度更高的數據子集,使得 偏小,信息增益會偏大,最終導致信息增益偏向取值較多的特徵。
設 是 個數據樣本的集合,假定類別屬性具有 個不同的值: ,設 是類 中的樣本數。對於一個給定樣本,它的信息熵為:
其中, 是任意樣本屬於 的概率,一般可以用 估計。
設一個屬性A具有 個不同的值 ,利用屬性A將集合 劃分為 個子集 ,其中 包含了集合 中屬性 取 值的樣本。若選擇屬性A為測試屬性,則這些子集就是從集合 的節點生長出來的新的葉節點。設 是子集 中類別為 的樣本數,則根據屬性A劃分樣本的信息熵為:
其中 , 是子集 中類別為 的樣本的概率。最後,用屬性A劃分樣本子集 後所得的 信息增益(Gain) 為:
即,<u>屬性A的信息增益=劃分前數據的熵-按屬性A劃分後數據子集的熵</u>。 信息增益(information gain)又稱為互信息(matual information)表示得知特徵X的信息而使得類Y的信息的不確定性減少的程度 。信息增益顯然 越小, 的值越大,說明選擇測試屬性A對於分類提供的信息越多,選擇A之後對分類的不確定程度越小。
經典演算法 ID3 使用的信息增益特徵選擇准則會使得劃分更偏相遇取值更多的特徵,為了避免這種情況。ID3的提出者 J.Ross Quinlan 提出了 C4.5 ,它在ID3的基礎上將特徵選擇准則由 信息增益 改為了 信息增益率 。在信息增益的基礎之上乘上一個懲罰參數。特徵個數較多時,懲罰參數較小;特徵個數較少時,懲罰參數較大(類似於正則化)。這個懲罰參數就是 分裂信息度量 的倒數 。
不同於 ID3 和 C4.5 , CART 使用基尼不純度來作為特徵選擇准則。基尼不純度也叫基尼指數 , 表示在樣本集合中一個隨機選中的樣本被分錯的概率 則<u>基尼指數(基尼不純度)= 樣本被選中的概率 * 樣本被分錯的概率</u>。Gini指數越小表示集合中被選中的樣本被分錯的概率越小,也就是說集合的純度越高,反之,集合越不純。
樣本集合的基尼指數:
樣本集合 有m個類別, 表示第 個類別的樣本數量,則 的Gini指數為:
基於某個特徵劃分樣本集合S之後的基尼指數:
CART是一個二叉樹,也就是當使用某個特徵劃分樣本集合後,得到兩個集合:a.等於給定的特徵值的樣本集合 ;b.不等於給定特徵值的樣本集合 。實質上是對擁有多個取值的特徵的二值處理。
對於上述的每一種劃分,都可以計算出基於劃分特=某個特徵值將樣本集合劃分為兩個子集的純度:
因而對於一個具有多個取值(超過2個)的特徵,需要計算以每個取值為劃分點,對樣本集合劃分後子集的純度 ( 表示特徵 的可能取值)然後從所有的劃分可能 中找出Gini指數最小的劃分,這個劃分的劃分點,就是使用特徵 對樣本集合 進行劃分的最佳劃分點。
參考文獻 :
決策樹--信息增益,信息增益比,Geni指數的理解
【機器學習】深入理解--信息熵(Information Entropy)
統計學習方法 (李航)
為了便於理解,利用以下數據集分別使用三種方法進行分類:
在進行具體分析之前,考慮到收入是數值類型,要使用決策樹演算法,需要先對該屬性進行離散化。
在機器學習演算法中,一些分類演算法(ID3、Apriori等)要求數據是分類屬性形式,因此在處理分類問題時經常需要將一些連續屬性變換為分類屬性。一般來說,連續屬性的離散化都是通過在數據集的值域內設定若干個離散的劃分點,將值域劃分為若干區間,然後用不同的符號或整數數值代表落在每個子區間中的數據值。所以,離散化最核心的兩個問題是:如何確定分類數以及如何將連續屬性映射到這些分類值。常用的離散化方法有 等寬法 , 等頻法 以及 一維聚類法 等。
在實際使用時往往使用Pandas的 cut() 函數實現等寬離散化:
可以看到與手工計算的離散化結果相同,需要注意的是,<u> 等寬法對於離群點比較敏感,傾向於不均勻地把屬性值分布到各個區間,導致某些區間數據較多,某些區間數據很少,這顯然不利用決策模型的建立。 </u>
使用四個分位數作為邊界點,對區間進行劃分:
<u> 等頻率離散化雖然避免了等寬離散化的數據分布不均勻的問題,卻可能將相同的數據值分到不同的區間以滿足每個區間具有相同數量的屬性取值的要求。 </u>
使用一維聚類的離散化方法後得到數據集為:
在本次實例中選擇使用基於聚類的離散化方法後得到的數據集進行指標計算。為了預測客戶能否償還債務,使用A(擁有房產)、B(婚姻情況)、C(年收入)等屬性來進行數據集的劃分最終構建決策樹。
單身 :
離婚 :
已婚 :
顯然,由B屬性取值'已婚'劃分得到的子數據集屬於同一個葉節點,無法再進行分類。
接下來,對由B屬性取值'單身'劃分得到的子數據集 再進行最優特徵選擇:
1)計算數據集 總的信息熵,其中4個數據中,能否償還債務為'是'數據有3,'否'數據有1,則總的信息熵:
2)對於A(擁有房產)屬性,其屬性值有'是'和'否'兩種。其中,在A為'是'的前提下,能否償還債務為'是'的有1、'否'的有0;在A為'否'的前提下,能否償還債務為'是'的有2、為'否'的有1,則A屬性的信息熵為:
3)對於B(婚姻情況)屬性,由於已被確定,在這個數據子集信息熵為0
4)對於C(年收入)屬性,其屬性值有'中等輸入'、'低收入'兩種。在C為'中等收入'的前提下,能否償還作為為'是'的有1,為'否'的有0;在C為'低收入'的前提下,能否償還作為為'是'的有2,為'否'的有1;則C屬性的信息熵為:
5)最後分別計算兩個屬性的信息增益值:
信息增益值相同,說明以兩個屬性對數據子集進行劃分後決策樹的純度上升是相同的,此時任選其一成為葉節點即可。
同理,對數據子集 進行最優特徵選擇,發現信息熵為0:
整理得到最終的決策樹:
『貳』 量化的定義
在數字信號處理領域,量化指將信號的連續取值(或者大量可能的離散取值)近似為有限多個(或較少的)離散值的過程。量化主要應用於從連續信號到數字信號的轉換中。連續信號經過采樣成為離散信號,離散信號經過量化即成為數字信號。注意離散信號並不需要經過量化的過程。信號的采樣和量化通常都是由ADC實現的。
例如CD音頻信號就是按照44100Hz的頻率采樣,按16比特量化為有著65536(=)個可能取值的數字信號。
量化就是將模擬聲音的波形轉換為數字,表示采樣值的二進制位數決定了量化的精度。量化的過程是先將整個幅度劃分成有限個小幅度(量化階距)的集合,把落入某個階距內的樣值歸為一類,並賦予相同的量化值。
最簡單最易懂的量化是標量(有別於多維矢量)量化,開始標量量化之前先要給出輸入數據。通常,一個標量量化操作可以給出下面的描述
其中
是實數,
是下取整函數,生成整數
和是任意的實值函數。
整數是表示的數值,它通常被存儲或者傳輸,然後在後來需要解釋的時候使用進行最終的解釋重建。整數有時也稱作量化指數。
在計算機或者其它應用,一個已知的量化方法均勻量化。在均勻量化方法里共有兩個變數,叫mid-rise和mid-tread。
如果是一個-1到1之間的數,一個mid-rise uniform量化操作,可以用"M"bit來表示量化的精度。
.
在這個例子中和運算符都是乘以比例因子(其中一個是另外一個的逆),並且在g(i)中帶有一個偏移量以使得每個量化表示都位於輸入區域的中間位置。經常稱為量化步長。按照這個量化定律,假定在整個量化步長上量化雜訊大致是均勻分布的,並且假定量化的輸入信號在整個-1到1的區間大致均勻分布,量化的信噪比(SNR)可以用下面的公式計算,
.
根據這個等式,人們常說SNR大約是每位6 dB。
在mid-tread一致量化中,偏移0.5將加在下取整函數內部而不是外部。
有時候,mid-rise量化使用時不加偏移0.5。這將信號與雜訊比減小了大約6.02 dB,但是當步距小的時候為了簡化這是可接受的。
在數字電話系統中,兩個流行的量化機制是'A-law'(在歐洲占據主導地位)和'μ-law'(在北美和日本占據主導地位)。這些機制將離散的模擬數值映射到8位尺度,在小值的時候近似線性隨著幅度增長按照對數增加。由於人耳對於音量的感知近似對數曲線,這就使用一定的位數在可聽見的聲音強度范圍提供了更高的信噪比。
2忽略熵約束:Lloyd–Max量化
在上面的陳述中,若令 等於 0,從而忽略掉比特率約束,或等價地假設要用定長碼(FLC)而非用變長碼(或其他熵編碼法,如算術編碼在率失真上就比定長碼好)來表示量化數據,這個最優化問題就簡化為了只需最小化失真 的問題了。
級量化器產生的索引可以用 比特/符號的定長碼。例如當 256 階時,定長碼的比特率 為 8 比特/符號。由於這個原因,這樣的量化器有時稱作8比特量化器。不過使用定長碼消除了壓縮改進,但可以通過更好的熵編碼來改善。
假設 階定長碼,率失真最小化問題可以簡化為失真最小化問題。簡化的問題可以陳述為:給定一個概率密度函數為 的信源 ,並約束量化器必須僅使用 個分類區域,求得決策邊界 與重建層級 來最小化得到的失真
.
對上述問題求最優解得到的量化器有時叫做MMSQE(最小均方量化誤差)解,而得到的概率密度函數最優化的(非均勻)量化器叫做Lloyd–Max量化器,是用獨立發現迭代方法從 和 求解兩組聯立方程的兩個人來命名的
『叄』 基於粗糙集和雲理論的土地適宜性評價模型的建立
劉明亮1 吳躍民1 楊明2
(1.湖南萬源評估咨詢有限公司,長沙,410011;2.武漢大學資源與環境科學學院,武漢,430079)
摘要:本文介紹和分析了兩種非經典數學方法雲理論和粗糙集理論,通過對這兩個方法進行比較和結合,建立了以雲理論和粗糙集理論相結合為基礎的土地適宜性評價模型,並在此基礎上進行了實例的研究和應用。
關鍵詞:粗糙集理論;雲理論;數據挖掘;土地適宜性評價
土地適宜性評價是針對某種特定土地利用類型的適宜性及適宜程度的評價。它是土地合理利用的重要內容,通過其對地區全部土地資源的研究,為土地利用總體規劃工作中的人地平衡、用地布局與土地結構調整、土地開發利用等工作提供了科學依據。因此,對土地適宜性進行正確的評價,對適宜級別做出合理劃分是進行規劃決策的首要任務之一,而評價方法作為獲取正確評價結果的途徑就顯得尤為重要。
傳統的評價方法,如極限條件法、回歸分析法、經驗指數和法、層次分析法等,由於其評價方法過於簡單,在一定程度上不能客觀全面地反應實際情況。隨著智能化技術的不斷發展與完善,評價方法也由傳統的簡單的數值方法向智能化發展。由於土地適宜程度本身的不確定性,用處理大量的不確定性數據的挖掘技術顯得更有優勢。
1 粗糙集理論與雲理論的特點
粗糙集理論是一種刻畫不完整性和不確定性的數學工具,能有效地分析和處理不精確、不一致、不完整等各種不完備信息,並從中發現隱含的知識,揭示潛在的規律。它能夠完全從已有的數據中有效地發現關聯規則,它可支持知識獲取的多個步驟,如數據預處理、數據約簡、規則生成、數據依賴關系獲取等。雲理論是在傳統模糊集理論和概率統計的基礎上提出的定性定量轉換模型,用期望值Ex、熵En和超熵He表徵定性概念,是以研究定性定量間的不確定性轉換為基礎的系統。作為處理不確定性問題的一種新理論,它可協助數據的離散化,規則的推理,使得該方法更趨近於人類的思維領域,為更好地向人工智慧發展打下基礎。
雲理論和粗糙集理論在處理不確定性和不精確性問題方面都推廣了經典集合論,它們都可以用來描述知識的不精確性和不完全性,但它們的出發點和側重點不同,雲理論結合了模糊性和隨機性,而粗糙集通過上近似集、下近似集來刻畫不可分辨性。粗糙集不需要任何預備的額外的有關數據信息,在推導關聯規則方面,有其特有的優勢;而雲理論處理不確定信息的方法需要一些數據的附加信息或先驗知識,但提供了定性定量轉換的方法。雖然雲理論和粗糙集理論特點不同,但它們之間有著密切的聯系,在研究不確定性數據方面,有很強的互補性。把雲理論方法引入到粗糙集方法中,對粗糙集的結構化的模型進行改進,不僅可提高發現演算法的效率,還可提高系統模型的魯棒性。土地適宜性是一個定性的概念,利用粗糙集理論和雲理論相結合建立土地適宜性評價模型,可以互相補充,取長補短,為土地適宜性評定的客觀性提供可能性。
2 基於雲理論和粗糙集評價模型的建立
雲理論與粗糙集方法相結合是將基於雲理論的定量到定性的轉換方法作為粗糙集方法的預處理手段,把定量數據轉換為定性數據,或把定性數據轉換為不同概念層次的新的定性數據,然後應用粗糙集方法發現分類決策知識,最後運用雲理論的不確定性推理方法應用這些知識,即根據新的定量或定性條件數據推理出定量或者定性結果,從而表達和傳遞知識和推理的不確定性。就具體模型建立而言,首先根據原始數據製成初始決策表,對每個條件屬性,查看它是否為離散屬性,若是,則進行離散化處理,直至整個決策表全部轉化為離散數據為止,據此製成最終決策表。在此決策表的基礎上,利用粗糙集方法發現關聯規則並計算屬性重要性,得到關聯規則,最後用基於雲理論的推理方法得出定性的推理結果。整個模型如圖1所示。
圖1 評價模型圖
其中,基於雲理論規則推理的詳細過程,如圖2 所示。
2.1 決策表的建立
收集影響土地適宜性的數據,如坡度、質地、有機質含量,厚度等等,進行原始數據的采樣和整理,並根據土地適宜性評價的目的(如宜林宜牧等)做成信息決策表。
2.2 數據預處理
在很多情況下,所得到待處理的信息表並不是一個完備的信息表,表中的某些屬性值是被遺漏的。對於這種情況,可通過將空缺屬性值賦予特殊值來處理,以區別於其他屬性值。
圖2 雲理論推理
2.3 數據離散化
用雲模型模擬人類的思維劃分屬性空間。每一個屬性看作一個語言變數(或多個語言變數的組合)。對於每一個語言變數,定義幾個語言值,相鄰的語言值間允許有重疊,表達語言值的雲可以由用戶交互地給定。設對於一個數字型屬性給定雲A1 (Ex1,En1,He1),A2 (Ex2,En2,He2),……,An (Exn,Enn,Hen),作為語言項,將任一屬性值 x輸入到雲發生器 CG1,CG2,……,CGn,得到輸出值 μ1,μ2,……,μn,即屬性值 μ 與A1,A2,……,An的隸屬度,檢索出最大隸屬度μi,則x分配給Ai。如果兩個隸屬度μi和μj,均等於最大值,則 x 隨機地分配給 Ai或 Aj。
2.4 決策表屬性約簡
基於粗糙集理論的知識獲取,通過採用決策表可辨識矩陣和可辨識函數的屬性約簡演算法對原始決策表約簡,包括屬性約簡和屬性值約簡。
令S=<U,R,V,f>是一個決策表系統,R=P∪ D 是屬性集合,子集 P={ai |i=1,…,m} 和 D={d} 分別為條件屬性集和決策屬性集,U={x1,x2,…,xn} 是論域,ai (xj)是樣本 xj在屬性ai 上的取值。CD (i,j)表示可辨識矩陣中第 i 行 j 列的元素,則可辨識矩陣CD 定義為: {ak | ak∈ P ∧ak (xi)≠ ak (xj)},d (xi)≠ d (xj);
土地信息技術的創新與土地科學技術發展:2006年中國土地學會學術年會論文集
其中 i,j=1,…,n。
根據可辨識矩陣的定義可知,當兩個樣本(實例)的決策屬性取值相同時,它們所對應的可辨識矩陣取值為0;當兩個樣本的決策屬性不同而且可以通過某些條件屬性的取值不同加以區分時,它們所對應的可辨識矩陣元素的取值為這兩個樣本屬性值不同的條件屬性集合,即可以區分這兩個樣本的條件屬性集合;當兩個樣本發生沖突時,即所有的條件屬性取值相同而決策屬性的取值不同時,則它們所對應的可辨識矩陣中的元素取值為空。
2.5 計算屬性權重
對於屬性集C導處的分類的屬性子集B′⊆B的重要性,可用兩者依賴程度的差來度量,即:
rB (C)-rB-B′(C)
這表示當從集合 B 中去掉某些屬性子集B′對象分類時,分類 U/C 的正域受到怎樣的影響。
其中,rB (C)=card (posp (Q))/card (U)
是知識依賴性的度量,其中 card 表示集合的基數:
土地信息技術的創新與土地科學技術發展:2006年中國土地學會學術年會論文集
稱為Q的P正域,對於 U/P 的分類,U/Q 的正域是論域中所有通過分類 U/P 表達的知識能夠確定地化入 U/Q 類的對象集合。
2.6 基於值約簡的決策規則最小化的提取
基於值約簡的決策規則的提取是建立在決策表值約簡的基礎上進行的。假設決策表有三個條件屬性 a、b、c,一個決策屬性 d。通過對[x]a、[x]b、[x]c、[x]d,進行屬性值約簡,在規則最小化的原則下,計算得出最小決策規則。
2.7 基於雲理論的規則推理
基於雲理論的不確定性推理按規則的條數分為單規則和多規則推理,每一條規則又可以根據規則前件的條數分為單條件規則和多條件規則。土地適宜性評價只要求得到定性的推理結果,所以本模型通過計算屬性重要性來解決。首先激活一個實例的幾條規則,得到各個規則的隸屬度的雲滴,擬合成虛擬雲,該虛擬雲的期望值即為結果,最後根據最大隸屬度的選擇選取定性結果。
根據以上理論設計的土地適用性評價系統如圖3 所示。菜單是關於常用理論的基本方法,右側的一系列步驟是關於組建數學模型的實現方法。中間的坐標界面用來顯示圖形結果。
圖3 評價系統界面
3 應用實例
瓊海市地處海南省東部。東臨南海,北靠文昌,西接屯昌,南與萬寧縣交界。瓊海市有著優越的農業自然條件、豐富的旅遊資源,但全市存在工業底子薄、礦產資源貧乏、能源短缺、科技水平較低以及建設資金不足等制約因素。土地適宜性評價的主要任務是在收集土壤、地形、水利、氣候等資料的基礎上,對評價范圍內的所有土地進行適宜性評價,找出不適宜現狀用途的土地,並給出指定用途的適宜性土地的等級。
3.1 收集資料、整理數據
收集所有有關瓊海市土地適宜性評價的數據,5個條件屬性和1個決策屬性,根據原有的單元劃分9311個實例。表1是其中一實例的決策表的一部分。
表1 決策表示例
其中,Yjz 表示土壤有機質含量,Hd 表示土壤厚度,Zd 表示土壤質地條件屬性,Sl表示水利條件屬性,S_c 表示宜水產養殖地類決策屬性。
3.2 數據預處理
因為本實例中所得到的初始數據並沒有缺失,無需對初始決策表進行預處理,故可以省略這一步,所以得到的最終決策表同表1。
3.3 數據離散化
對決策表中的每個屬性,依次進行以下步驟,分別得到離散結果。
3.3.1 計算屬性的數據分布函數
對屬性 i 定義域中的每一個可能取值,計算得到屬性 i 的數據分布函數gi (x);圖4是屬性厚度(Hd)的數據分布函數的圖。
圖4 屬性數據分布圖
3.3.2 計算單個雲模型的數據分布函數
尋找數據分布函數 gi (x)的波峰所在的位置,將其屬性定義為雲的重心位置,然後計算用於擬合 gi (x)的雲模型,雲模型函數 fi (x)計算如圖5 所示。
圖5 雲模型分布
該圖是尋找第二波峰位置時,所擬合的基於雲的數據分布函數(紅色實線)。雲模型參數為:
土地信息技術的創新與土地科學技術發展:2006年中國土地學會學術年會論文集
3.4 離散化
通過上一步得到的歸納並了解概念雲後,對於每個需要離散化的屬性值,一一計算出對於每個概念雲的隸屬度,選取其最大值為離散化的結果,表2 是離散化結果的一部分。
表2 屬性離散結果
3.5 屬性約簡
求出布爾函數表達式,用布爾函數極小化演算法計算約簡結果。將布爾函數轉化為二進制區分矩陣,對二進制區分矩陣實行簡化演算法,得到決策表的約簡結果,如表3所示。
表3 屬性化簡結果
3.6 計算屬性權重
根據條件屬性對決策屬性的分類產生的影響,計算每個條件屬性對決策結果產生的重要性及系數,如表4所示。(這個度量是根據論域中的樣例來得到的,不依賴於人的先驗知識。)
表4 屬性權重結果
3.7 決策推理
根據雲理論多條件多規則推理方法,對原有數據參照最小規則進行推理,得到最終的等級劃分結果,如圖6 所示。
圖6 等級劃分結果
4 結論
利用上述模型,首先應該盡可能多地收集對土地適宜性問題有影響的因素,運用雲理論進行連續數據的離散化之後,可以根據屬性重要性確定的方法來篩選評價因素,在此基礎之上,運用粗糙集方法獲取評價規則。另外應注意的是土地多宜性問題,在土地適宜性評價中,對於每一種土地用途,都要分別確定它的等級,這區別於粗糙集一般的信息處理過程中,把幾個不同的決策屬性歸並為一個決策屬性集的綜合決策。
應用結果表明,雲模型汲取了自然語言的優點,突破了已有方法的局限,能夠把模糊性和隨機性有機地綜合在一起,在空間數據挖掘中構成定性和定量相互間的映射,發現的知識具有可靠性。粗糙集理論對模糊和不完全知識的處理比較出色,但其對原始模糊數據的處理能力比較弱,而基於雲模型的定性定量轉換方法作為粗糙集的預處理是比較合適的。二者相結合的方法應用於土地適宜性評價可以集兩種理論之所長,更具優勢地解決對其定性評價的實際問題。
參考文獻
張文修,吳偉志等.粗糙集理論與方法[M].北京:科學出版社,2001
曾黃麟.粗糙集理論及其應用[M].重慶:重慶大學出版社,1998
張麗,馬良.基於粗糙集屬性約簡的模糊模式識別[J].上海理工大學學報,2003,25 (1):50~53
楊昭輝,李德毅.二維雲模型及其在預測中的運用[J].計算機學報,1998,21 (11):961~969
邸凱昌著.空間數據發掘與知識發現[M].武漢:武漢大學出版社,2001.12