『壹』 16種常用的數據分析方法匯總
一、描述統計
描述性統計是指運用製表和分類,圖形以及計筠概括性數據來描述數據的集中趨勢、離散趨勢、偏度、峰度。
1、缺失值填充:常用方法:剔除法、均值法、最小鄰居法、比率回歸法、決策樹法。
2、正態性檢驗:很多統計方法都要求數值服從或近似服從正態分布,所以之前需要進行正態性檢驗。常用方法:非參數檢驗的K-量檢驗、P-P圖、Q-Q圖、W檢驗、動差法。
二、假設檢驗
1、參數檢驗
參數檢驗是在已知總體分布的條件下(一股要求總體服從正態分布)對一些主要的參數(如均值、百分數、方差、相關系數等)進行的檢驗 。
1)U驗 使用條件:當樣本含量n較大時,樣本值符合正態分布
2)T檢驗 使用條件:當樣本含量n較小時,樣本值符合正態分布
A 單樣本t檢驗:推斷該樣本來自的總體均數μ與已知的某一總體均數μ0 (常為理論值或標准值)有無差別;
B 配對樣本t檢驗:當總體均數未知時,且兩個樣本可以配對,同對中的兩者在可能會影響處理效果的各種條件方面扱為相似;
C 兩獨立樣本t檢驗:無法找到在各方面極為相似的兩樣本作配對比較時使用。
2、非參數檢驗
非參數檢驗則不考慮總體分布是否已知,常常也不是針對總體參數,而是針對總體的某些一股性假設(如總體分布的位罝是否相同,總體分布是否正態)進行檢驗。
適用情況:順序類型的數據資料,這類數據的分布形態一般是未知的。
A 雖然是連續數據,但總體分布形態未知或者非正態;
B 體分布雖然正態,數據也是連續類型,但樣本容量極小,如10以下;
主要方法包括:卡方檢驗、秩和檢驗、二項檢驗、遊程檢驗、K-量檢驗等。
三、信度分析
檢査測量的可信度,例如調查問卷的真實性。
分類:
1、外在信度:不同時間測量時量表的一致性程度,常用方法重測信度
2、內在信度;每個量表是否測量到單一的概念,同時組成兩表的內在體項一致性如何,常用方法分半信度。
四、列聯表分析
用於分析離散變數或定型變數之間是否存在相關。
對於二維表,可進行卡方檢驗,對於三維表,可作Mentel-Hanszel分層分析。
列聯表分析還包括配對計數資料的卡方檢驗、行列均為順序變數的相關檢驗。
五、相關分析
研究現象之間是否存在某種依存關系,對具體有依存關系的現象探討相關方向及相關程度。
1、單相關: 兩個因素之間的相關關系叫單相關,即研究時只涉及一個自變數和一個因變數;
2、復相關 :三個或三個以上因素的相關關系叫復相關,即研究時涉及兩個或兩個以上的自變數和因變數相關;
3、偏相關:在某一現象與多種現象相關的場合,當假定其他變數不變時,其中兩個變數之間的相關關系稱為偏相關。
六、方差分析
使用條件:各樣本須是相互獨立的隨機樣本;各樣本來自正態分布總體;各總體方差相等。
分類
1、單因素方差分析:一項試驗只有一個影響因素,或者存在多個影響因素時,只分析一個因素與響應變數的關系
2、多因素有交互方差分析:一頊實驗有多個影響因素,分析多個影響因素與響應變數的關系,同時考慮多個影響因素之間的關系
3、多因素無交互方差分析:分析多個影響因素與響應變數的關系,但是影響因素之間沒有影響關系或忽略影響關系
4、協方差分祈:傳統的方差分析存在明顯的弊端,無法控制分析中存在的某些隨機因素,使之影響了分祈結果的准確度。協方差分析主要是在排除了協變數的影響後再對修正後的主效應進行方差分析,是將線性回歸與方差分析結合起來的一種分析方法,
七、回歸分析
分類:
1、一元線性回歸分析:只有一個自變數X與因變數Y有關,X與Y都必須是連續型變數,因變數y或其殘差必須服從正態分布。
2、多元線性回歸分析
使用條件:分析多個自變數與因變數Y的關系,X與Y都必須是連續型變數,因變數y或其殘差必須服從正態分布 。
1)變呈篩選方式:選擇最優回歸方程的變里篩選法包括全橫型法(CP法)、逐步回歸法,向前引入法和向後剔除法
2)橫型診斷方法:
A 殘差檢驗: 觀測值與估計值的差值要艱從正態分布
B 強影響點判斷:尋找方式一般分為標准誤差法、Mahalanobis距離法
C 共線性診斷:
診斷方式:容忍度、方差擴大因子法(又稱膨脹系數VIF)、特徵根判定法、條件指針CI、方差比例
處理方法:增加樣本容量或選取另外的回歸如主成分回歸、嶺回歸等
3、Logistic回歸分析
線性回歸模型要求因變數是連續的正態分布變里,且自變數和因變數呈線性關系,而Logistic回歸模型對因變數的分布沒有要求,一般用於因變數是離散時的情況
分類:
Logistic回歸模型有條件與非條件之分,條件Logistic回歸模型和非條件Logistic回歸模型的區別在於參數的估計是否用到了條件概率。
4、其他回歸方法 非線性回歸、有序回歸、Probit回歸、加權回歸等
八、聚類分析
樣本個體或指標變數按其具有的特性進行分類,尋找合理的度量事物相似性的統計量。
1、性質分類:
Q型聚類分析:對樣本進行分類處理,又稱樣本聚類分祈 使用距離系數作為統計量衡量相似度,如歐式距離、極端距離、絕對距離等
R型聚類分析:對指標進行分類處理,又稱指標聚類分析 使用相似系數作為統計量衡量相似度,相關系數、列聯系數等
2、方法分類:
1)系統聚類法: 適用於小樣本的樣本聚類或指標聚類,一般用系統聚類法來聚類指標,又稱分層聚類
2)逐步聚類法 :適用於大樣本的樣本聚類
3)其他聚類法 :兩步聚類、K均值聚類等
九、判別分析
1、判別分析:根據已掌握的一批分類明確的樣品建立判別函數,使產生錯判的事例最少,進而對給定的一個新樣品,判斷它來自哪個總體
2、與聚類分析區別
1)聚類分析可以對樣本逬行分類,也可以對指標進行分類;而判別分析只能對樣本
2)聚類分析事先不知道事物的類別,也不知道分幾類;而判別分析必須事先知道事物的類別,也知道分幾類
3)聚類分析不需要分類的歷史資料,而直接對樣本進行分類;而判別分析需要分類歷史資料去建立判別函數,然後才能對樣本進行分類
3、進行分類 :
1)Fisher判別分析法 :
以距離為判別准則來分類,即樣本與哪個類的距離最短就分到哪一類, 適用於兩類判別;
以概率為判別准則來分類,即樣本屬於哪一類的概率最大就分到哪一類,適用於
適用於多類判別。
2)BAYES判別分析法 :
BAYES判別分析法比FISHER判別分析法更加完善和先進,它不僅能解決多類判別分析,而且分析時考慮了數據的分布狀態,所以一般較多使用;
十、主成分分析
將彼此梠關的一組指標變適轉化為彼此獨立的一組新的指標變數,並用其中較少的幾個新指標變數就能綜合反應原多個指標變數中所包含的主要信息 。
十一、因子分析
一種旨在尋找隱藏在多變數數據中、無法直接觀察到卻影響或支配可測變數的潛在因子、並估計潛在因子對可測變數的影響程度以及潛在因子之間的相關性的一種多元統計分析方法
與主成分分析比較:
相同:都能夠起到済理多個原始變數內在結構關系的作用
不同:主成分分析重在綜合原始變適的信息.而因子分析重在解釋原始變數間的關系,是比主成分分析更深入的一種多元統計方法
用途:
1)減少分析變數個數
2)通過對變數間相關關系探測,將原始變數進行分類
十二、時間序列分析
動態數據處理的統計方法,研究隨機數據序列所遵從的統計規律,以用於解決實際問題;時間序列通常由4種要素組成:趨勢、季節變動、循環波動和不規則波動。
主要方法:移動平均濾波與指數平滑法、ARIMA橫型、量ARIMA橫型、ARIMAX模型、向呈自回歸橫型、ARCH族模型
十三、生存分析
用來研究生存時間的分布規律以及生存時間和相關因索之間關系的一種統計分析方法
1、包含內容:
1)描述生存過程,即研究生存時間的分布規律
2)比較生存過程,即研究兩組或多組生存時間的分布規律,並進行比較
3)分析危險因素,即研究危險因素對生存過程的影響
4)建立數學模型,即將生存時間與相關危險因素的依存關系用一個數學式子表示出來。
2、方法:
1)統計描述:包括求生存時間的分位數、中數生存期、平均數、生存函數的估計、判斷生存時間的圖示法,不對所分析的數據作出任何統計推斷結論
2)非參數檢驗:檢驗分組變數各水平所對應的生存曲線是否一致,對生存時間的分布沒有要求,並且檢驗危險因素對生存時間的影響。
A 乘積極限法(PL法)
B 壽命表法(LT法)
3)半參數橫型回歸分析:在特定的假設之下,建立生存時間隨多個危險因素變化的回歸方程,這種方法的代表是Cox比例風險回歸分析法
4)參數模型回歸分析:已知生存時間服從特定的參數橫型時,擬合相應的參數模型,更准確地分析確定變數之間的變化規律
十四、典型相關分析
相關分析一般分析兩個變里之間的關系,而典型相關分析是分析兩組變里(如3個學術能力指標與5個在校成績表現指標)之間相關性的一種統計分析方法。
典型相關分析的基本思想和主成分分析的基本思想相似,它將一組變數與另一組變數之間單變數的多重線性相關性研究轉化為對少數幾對綜合變數之間的簡單線性相關性的研究,並且這少數幾對變數所包含的線性相關性的信息幾乎覆蓋了原變數組所包含的全部相應信息。
十五、R0C分析
R0C曲線是根據一系列不同的二分類方式(分界值或決定閾).以真陽性率(靈敏度)為縱坐標,假陽性率(1-特異度)為橫坐標繪制的曲線
用途:
1、R0C曲線能很容易地査出任意界限值時的對疾病的識別能力
用途
2、選擇最佳的診斷界限值。R0C曲線越靠近左上角,試驗的准確性就越高;
3、兩種或兩種以上不同診斷試驗對疾病識別能力的比較,一股用R0C曲線下面積反映診斷系統的准確性。
十六、其他分析方法
多重響應分析、距離分祈、項目分祈、對應分祈、決策樹分析、神經網路、系統方程、蒙特卡洛模擬等。
『貳』 生物統計統計模型
在統計分析的世界中,數學模型是支撐各種方法的基石。在生物科學的研究中,幾種特殊的統計模型尤為關鍵。首先,我們有"捉放捉"模型,它是一種用於估算總體個體數量的強大工具。這個模型通過對個體的捕獲和釋放過程進行建模,為我們提供了估計總體規模的有效途徑。
接著,對數線性模型是另一個重要的分析工具,特別是在處理多維列聯表時,即那些根據多個指標分類的計數數據。它通過構建對數函數,使得我們能夠深入理解各指標之間的復雜關系,從而進行有效的數據分析。
Logit模型則更為靈活,它不僅能夠處理多個混雜因素,而且還能適應定量混雜變數和危險因子。當所有指標都是定性時,Logit模型就簡化為了對數線性模型的一個特例,這使得它在處理分類數據時具有獨特的優勢。通過Logit模型,科學家們能夠精細地控制和分析這些因素對結果的影響,提高了研究的精確度。
生物統計(shengwu tongji,biostatistics,biometry,biometrics)含義 應用於中的數理統計方法。即用數理統計的原理和方法,分析和解釋生物界的種種現象和數據資料,以求把握其本質和規律性。
『叄』 大數據經典演算法解析(1)一C4.5演算法
姓名:崔升 學號:14020120005
【嵌牛導讀】:
C4.5作為一種經典的處理大數據的演算法,是我們在學習互聯網大數據時不得不去了解的一種常用演算法
【嵌牛鼻子】:經典大數據演算法之C4.5簡單介紹
【嵌牛提問】:C4.5是一種怎麼的演算法,其決策機制靠什麼實現?
【嵌牛正文】:
決策樹模型:
決策樹是一種通過對特徵屬性的分類對樣本進行分類的樹形結構,包括有向邊與三類節點:
根節點(root node),表示第一個特徵屬性,只有出邊沒有入邊;
內部節點(internal node),表示特徵屬性,有一條入邊至少兩條出邊
葉子節點(leaf node),表示類別,只有一條入邊沒有出邊。
上圖給出了(二叉)決策樹的示例。決策樹具有以下特點:
對於二叉決策樹而言,可以看作是if-then規則集合,由決策樹的根節點到葉子節點對應於一條分類規則;
分類規則是 互斥並且完備 的,所謂 互斥 即每一條樣本記錄不會同時匹配上兩條分類規則,所謂 完備 即每條樣本記錄都在決策樹中都能匹配上一條規則。
分類的本質是對特徵空間的劃分,如下圖所示,
決策樹學習:
決策樹學習的本質是從訓練數據集中歸納出一組分類規則[2]。但隨著分裂屬性次序的不同,所得到的決策樹也會不同。如何得到一棵決策樹既對訓練數據有較好的擬合,又對未知數據有很好的預測呢?
首先,我們要解決兩個問題:
如何選擇較優的特徵屬性進行分裂?每一次特徵屬性的分裂,相當於對訓練數據集進行再劃分,對應於一次決策樹的生長。ID3演算法定義了目標函數來進行特徵選擇。
什麼時候應該停止分裂?有兩種自然情況應該停止分裂,一是該節點對應的所有樣本記錄均屬於同一類別,二是該節點對應的所有樣本的特徵屬性值均相等。但除此之外,是不是還應該其他情況停止分裂呢?
2. 決策樹演算法
特徵選擇
特徵選擇指選擇最大化所定義目標函數的特徵。下面給出如下三種特徵(Gender, Car Type, Customer ID)分裂的例子:
圖中有兩類類別(C0, C1),C0: 6是對C0類別的計數。直觀上,應選擇Car Type特徵進行分裂,因為其類別的分布概率具有更大的傾斜程度,類別不確定程度更小。
為了衡量類別分布概率的傾斜程度,定義決策樹節點tt的不純度(impurity),其滿足:不純度越小,則類別的分布概率越傾斜;下面給出不純度的的三種度量:
其中,p(ck|t)p(ck|t)表示對於決策樹節點tt類別ckck的概率。這三種不純度的度量是等價的,在等概率分布是達到最大值。
為了判斷分裂前後節點不純度的變化情況,目標函數定義為信息增益(information gain):
I(⋅)I(⋅)對應於決策樹節點的不純度,parentparent表示分裂前的父節點,NN表示父節點所包含的樣本記錄數,aiai表示父節點分裂後的某子節點,N(ai)N(ai)為其計數,nn為分裂後的子節點數。
特別地,ID3演算法選取 熵值 作為不純度I(⋅)I(⋅)的度量,則
cc指父節點對應所有樣本記錄的類別;AA表示選擇的特徵屬性,即aiai的集合。那麼,決策樹學習中的信息增益ΔΔ等價於訓練數據集中 類與特徵的互信息 ,表示由於得知特徵AA的信息訓練數據集cc不確定性減少的程度。
在特徵分裂後,有些子節點的記錄數可能偏少,以至於影響分類結果。為了解決這個問題,CART演算法提出了只進行特徵的二元分裂,即決策樹是一棵二叉樹;C4.5演算法改進分裂目標函數,用信息增益比(information gain ratio)來選擇特徵:
因而,特徵選擇的過程等同於計算每個特徵的信息增益,選擇最大信息增益的特徵進行分裂。此即回答前面所提出的第一個問題(選擇較優特徵)。ID3演算法設定一閾值,當最大信息增益小於閾值時,認為沒有找到有較優分類能力的特徵,沒有往下繼續分裂的必要。根據最大表決原則,將最多計數的類別作為此葉子節點。即回答前面所提出的第二個問題(停止分裂條件)。
決策樹生成:
ID3演算法的核心是根據信息增益最大的准則,遞歸地構造決策樹;演算法流程如下:
如果節點滿足停止分裂條件(所有記錄屬同一類別 or 最大信息增益小於閾值),將其置為葉子節點;
選擇信息增益最大的特徵進行分裂;
重復步驟1-2,直至分類完成。
C4.5演算法流程與ID3相類似,只不過將信息增益改為 信息增益比 。
3. 決策樹剪枝
過擬合
生成的決策樹對訓練數據會有很好的分類效果,卻可能對未知數據的預測不準確,即決策樹模型發生過擬合(overfitting)——訓練誤差(training error)很小、泛化誤差(generalization error,亦可看作為test error)較大。下圖給出訓練誤差、測試誤差(test error)隨決策樹節點數的變化情況:
可以觀察到,當節點數較小時,訓練誤差與測試誤差均較大,即發生了欠擬合(underfitting)。當節點數較大時,訓練誤差較小,測試誤差卻很大,即發生了過擬合。只有當節點數適中是,訓練誤差居中,測試誤差較小;對訓練數據有較好的擬合,同時對未知數據有很好的分類准確率。
發生過擬合的根本原因是分類模型過於復雜,可能的原因如下:
訓練數據集中有噪音樣本點,對訓練數據擬合的同時也對噪音進行擬合,從而影響了分類的效果;
決策樹的葉子節點中缺乏有分類價值的樣本記錄,也就是說此葉子節點應被剪掉。
剪枝策略
為了解決過擬合,C4.5通過剪枝以減少模型的復雜度。[2]中提出一種簡單剪枝策略,通過極小化決策樹的整體損失函數(loss function)或代價函數(cost function)來實現,決策樹TT的損失函數為:
其中,C(T)C(T)表示決策樹的訓練誤差,αα為調節參數,|T||T|為模型的復雜度。當模型越復雜時,訓練的誤差就越小。上述定義的損失正好做了兩者之間的權衡。
如果剪枝後損失函數減少了,即說明這是有效剪枝。具體剪枝演算法可以由動態規劃等來實現。
4. 參考資料
[1] Pang-Ning Tan, Michael Steinbach, Vipin Kumar, Introction to Data Mining .
[2] 李航,《統計學習方法》.
[3] Naren Ramakrishnan, The Top Ten Algorithms in Data Mining.