Ⅰ 組間差異檢驗,終於有人講清楚了!
什麼是組間差異檢驗?就是組間的差異分析以及顯著性檢驗,應用統計學上的 假設檢驗 方法,檢驗組間是否有差異及其差異程度。坦率地講,所有的差異檢驗都基於一個假設:組間沒有差異,變數之間沒有關系(即原假設, )。上海交大王成老師也說方差分析其實研究的就是不同水平下是否有差異化的假設檢驗問題。而假設檢驗就是先對總體參數提出某種假設,然後利用樣本信息判斷假設是否成立的過程。
所以,本著負責的態度,在本文的開始我們有必要回顧一下《概率論與數理統計》中關於假設檢驗的基本概念。
其中 參數 這個概念最值得我們好好體會,因為今天的主角 組間差異檢驗 ,在這個水平上可以分為兩類:參數檢驗和非參數檢驗。那麼什麼叫參數檢驗和非參數檢驗,它們之間的區別是什麼呢。要理解前面的問題,首先需要明白統計推斷的概念。
統計推斷是研究如何利用樣本數據來推斷總體特徵的統計學方法,包括參數估計和假設檢驗兩大類。總體的參數一般是未知的,通常可以用樣本統計量來對總體的參數進行估計,例如可以用樣本均值對總體均值進行點估計,利用樣本均值的分布對總體均值進行區間估計,這些都稱為參數估計。
參數檢驗和非參數檢驗的區別:
那麼什麼時候用參數檢驗,什麼時候用非參數檢驗呢?非參數檢驗一般不直接用樣本觀察值作分析,統計量的計算基於原始數據在整個樣本中的秩次,丟棄了觀察值的具體數值,因此凡適合參數檢驗的資料,應首選參數檢驗。但是不清楚是否合適參數檢驗的資料,則應採用非參數檢驗。
此處也許大家期待作者帶我們溫習一下假設檢驗的4 個步驟(提出假設;構造檢驗統計量;根據顯著水平,確定臨界值和拒絕域;做出檢驗決策),但是帶有幾分傲氣的作者絕情地不為我們沒有學好的課程補刀,補課的事情讓我們自己去做,他轉而講自己認為重要的知識點:抽樣分布。
知道我們的研究對象整體處於什麼狀態,是一件非常重要的事情。三大抽樣分布( -分布、 分布、 -分布)和正態分布共同構成了現代數理統計學的基礎,其中,正態分布和 -分布是關於均值的分布; 分布、 -分布是關於方差的分布。很多同學做統計做了很多年,卻不知道為什麼幾乎每個方差分析都有 值。可見,統計學拼到最後拼的都是 基礎 。
離開分布,假設檢驗無從談起;離開假設檢驗,差異分析毫無根基。同樣地,出於人道主義,我們來重溫一下抽樣分布。
設 X 1 ,X 2 ,......X n 相互獨立, 都服從標准正態分布N(0,1), 則稱隨機變數χ 2 =X 1 2 +X 2 2 +......+X n 2 所服從的分布為自由度為 n 的 分布
設 服從標准正態分布N(0,1), 服從自由度為n的 分布,且 、 相互獨立,則稱變數 所服從的分布為自由度為n的 -分布
設 服從自由度為 的 分布, 服從自由度為 的 分布,且 、 相互獨立,則稱變數 所服從的分布為 分布,其中第一自由度為 ,第二自由度為 。一般滴,這里F就是均方之比。
不管是參數檢驗還是非參數檢驗,都要基於特定的分布來做假設檢驗。當總體分布已知時,例如總體服從正態分布,我們可以根據給定的顯著性水平(通常為0.01 或0.05)查表獲得臨界值。當總體分布未知時,可以先用Permutation test 構造經驗分布,再根據顯著性水平獲得臨界值。
傳統的統計量檢驗的方法是在檢驗之前確定顯著性水平 ,也就意味著事先確定了臨界值和拒絕域。這樣,不論檢驗統計量的值是大還是小,只要它的值落入拒絕域就拒絕原假設,否則就不拒絕原假設。這種給定顯著性水平的方法,無法給出觀測數據與原假設之間不一致程度的精確度量。要測量出樣本觀測數據與原假設中假設值的偏離程度,則需要計算pvalue值。pvalue 值,也稱為觀測到的顯著性水平,它表示為如果原假設 正確時得到實際觀測樣本結果的概率。pvalue 值越小,說明實際觀測到的數據與 之間的不一致的程度就越大,檢驗的結果就越顯著。
變數較多,判斷組間差異時需要多重檢驗的情況在宏基因組擴增子差異分析中十分常見。這種情況下,基於單次比較的檢驗標准將變得過於寬松,使得陽性結果中的錯誤率(FDR 值FalseDiscovery Rate)非常大(已經大到令人不可忍受的地步)。怎麼辦呢?最好的辦法就提高判斷的標准(p value),單次判斷的犯錯概率就會下降,總體犯錯的概率也將下降。在多重檢驗中提高判斷標準的方法,我們就稱之為 多重檢驗校正 。從1979 年以來,統計學家提出了多種多重檢驗校正的方法。相應地,對p值校正之後的叫法也不一樣,比如,FDR、Q value、Adjusted p-value,這個大家知道在多重檢驗時需要校正就行了,具體的用法作者有時間再教大家(這個作者真是皮啊~~)。
關於宏基因組或擴增子組間差異檢驗的理論知識就到這了,作者認為知道以上知識點是必要的,也告訴我們,今天我們討論的是統計推斷。換句話說,找差異,我們是專業的。
人民為了找差異,這才學會做統計。為了說明組間的數據差異很大,人民開發了許多沿用至今的圖畫,下面我們就一起來揭開這一幅幅有差異的畫面。
在數據科學家的工具箱里,這是一款經久不衰、常用常新的瑞士軍刀。幾乎只要想到差異分析,就會想到箱線圖。也開發出類箱線圖的工具比如小提琴圖(小提琴圖Violin plot)
一般有進化樹和層次聚類樹,如果你想表達對象之間的距離差異,最直觀的的也許就是樹狀圖了。為了用圖表示親緣關系,把分類單位擺在圖上樹枝頂部,根據分枝可以表示其相互關系,具有二次元和三次元。在數量分類學上用於表型分類的樹狀圖,稱為表型樹狀圖(phenogram),摻入系統的推論的稱為系統樹狀圖(cladogram)以資區別。
貼心的作者小朋友把實現這些圖形的常見R包列給大家,安裝後就能用啦
這里說的基於物種言下之意是通過統計分析,可以有針對性的找出分組間豐度變化差異顯著的物種,並得到差異物種在不同分組間的富集情況,同時,可以比較組內差異和組間差異的大小,判斷不同分組間的群落結構差異是否具有顯著意義。也就是說可以找出區別組間的一個biomarker。
這類檢驗一般只輸出p值,它的目的很簡單,就是檢驗比較組之間的相似性距離是否有差異。常用的分析方法有卡方檢驗、Student t檢驗、Wilcoxon秩和檢驗等等。
如果只有兩個樣本比較,適合用卡方檢驗 ,不過說實在的,檢驗出來的結果沒什麼可靠性,因為現階段16s研究不做重復實在「難以服眾」了。先不說價格便宜,做重復壓根沒有難度,就是從生物學、統計學角度考慮,也需要做重復。
如果是兩組樣本(至少3重復),可以試一下Student t,Welch『st以及Wilcoxon秩和檢驗 。Student t檢驗需要樣本符合正態分布,而且方差對齊。當組間樣本數不同,方差也不對齊的時候,Welch』s t檢驗是很好的選擇。
Wilcoxon秩和檢驗又叫Mann-Whitney U 檢驗,是基於變數排名的一種統計方法,不需要樣本符合正態分布,也不需要樣本方差對齊,是更為廣泛的檢驗方法,但同時也由於檢驗太寬松,容易帶來很多假陽性。
如果是多組樣本比較,可以選擇one way ANOVA、TURKEY以及Kruskal-Wallis H檢驗等方法 。one way ANOVA和TURKEY其實都是基於方差分析,只不過後者帶有後驗,可以知道兩個分組對整體差異的貢獻度。
Kruskal-Wallis H檢驗本質也是一種秩和檢驗,與前兩者的區別在於,它不需要樣本數和方差的對齊,應用更為廣泛。Kruskal-Wallis檢驗又被稱之為單因素非參數方差分析。
毫不客氣地講,一般秩和檢驗或置換檢驗屬於非參數檢驗。在這類差異檢驗中,有兩種集成方法特別值得我們注意:LEfSe 、metastats。
得到結果展示如下,差異體現在柱形圖和樹狀圖上。LDA值分布柱狀圖中展示了LDA Score大於設定值(默認設置為4)的物種,即組間具有統計學差異的Biomarker。展示了不同組中豐度差異顯著的物種,柱狀圖的長度代表差異物種的影響大小(即為 LDA Score)。
在進化分支圖中,由內至外輻射的圓圈代表了由門至屬(或種)的分類級別。在不同分類級別上的每一個小圓圈代表該水平下的一個分類,小圓圈直徑大小與相對豐度大小呈正比。著色原則:無顯著差異的物種統一著色為黃色,差異物種Biomarker跟隨組進行著色,紅色節點表示在紅色組別中起到重要作用的微生物類群,綠色節點表示在綠色組別中起到重要作用的微生物類群,若圖中某一組缺失,則表明此組中並無差異顯著的物種,故此組缺失。圖中英文字母表示的物種名稱在右側圖例中進行展示。
metastats結果給出差異物種的p值和q值(表中 的數據是假的!)
所謂基於距離也就是檢驗的是群落差異而不是某個物種。上面所提及的檢驗方法,其實都只能告訴大家,這些分組是否有顯著差異(可以簡單理解為有無)。那如果想同時知道這些差異的程度(可以簡單理解為多少)呢,那需要Anosim,Adonis以及MRPP等檢驗方法。這些方法不但可以輸出檢驗顯著性結果(p值),還有程度結果(R值),R值可以用來判斷分組貢獻度大小。Anosim、Adonis這些可用於多元統計檢驗的模型就非常適合了。要值得注意的是,Anosim本質是基於排名的演算法,其實與NMDS的配合效果最好。如果是PCoA分析,建議配合使用Adonis檢驗結果。
Anosim(Analysis of similarities)是一種非參數檢驗方法。它首先通過變數計算樣本間關系(或者說相似性),然後計算關系排名,最後通過排名進行置換檢驗判斷組間差異是否顯著不同於組內差異。這個檢驗有兩個重要的數值,一個是p值,可以判斷這種組間與組內的比較是否顯著;一個是R值,可以得出組間與組內比較的差異程度。Anosim用來檢驗組間的差異是否顯著大於組內差異,從而判斷分組是否有意義,Anosim分析使用R vegan包anosim函數,一般基於Bray-Curtis距離值的秩次進行組間差異顯著行檢驗,詳細計算過程可查看 Anosim 。
該方法主要有兩個數值結果:一個是R,用於不同組間否存在差異;一個是P,用於說明是否存在顯著差異。以下分別對兩個數值進行說明:
R值的計算公式如下:
rB:組間差異性秩的平均值(mean rank of between group dissimilarities)
rW:組內差異性秩的平均值(mean rank of within group dissimilarities)
n:總樣本個數(the number of samples)
R的范圍為[-1,1]
R>0說明組間差異大於組內差異,R<0組間差異小於組內差異。
R只是組間是否有差異的數值表示,並不提供顯著性說明。
P值則說明不同組間差異是否顯著,該P值通過置換檢驗(Permutation Test)獲得。
置換檢驗大致原理:(假設原始分組為實驗組和對照組)
1、對所有樣本進行隨機分組,即實驗組和對照組。
2、計算當前分組時的R值,即為Ri。
3、重復當前操作N次,對所有Ri及原始R從大到小排序,R所處的位置除以N即為置換檢驗P值。
ADONIS又稱置換多因素方差分析(permutational MANOVA)或非參數多因素方差分析(nonparametric MANOVA),是一種基於Bray-Curtis距離的非參數多元方差分析方法。它與Anosim的用途其實差不多,也能夠給出不同分組因素對樣品差異的解釋度(R值)與分組顯著性(P值)。不同點是應用的檢驗模型不同,ADONIS本質是基於F統計量的方差分析,所以很多細節與上述方差分析類似。該方法可分析不同分組因素對樣本差異的解釋度,並使用置換檢驗對分組的統計學意義進行顯著性分析。ADONIS分析使用R vegan包adonis函數進行分析,詳細計算過程可 adonis
MRPP分析與Anosim類似,但是MRPP是基於Bray-Curtis的參數檢驗,用於分析組間微生物群落結構的差異是否顯著,通常配合PCA、PCoA、NMDS等降維圖使用,MRPP分析使用R vegan包mrpp函數,詳細計算過程可查看 MRPP
分子方差分析法 (AMOVA)與ANOVA類似,是基於加權或非加權Unifrac距離矩陣,檢驗不同組間差異顯著性的非參數分析方法。一般基於Unifrac距離,使用mothur軟體amova函數進行組間差異分析,詳細計算過程可查看 Amova
Mantel test,Mantel test 是對兩個矩陣相關關系的檢驗,顧名思義,是一種檢驗。既然是檢驗就得有原假設,它的原假設是兩個矩陣見沒有相關關系。檢驗過程如下:兩個矩陣都對應展開,變數兩列,計算相關系數(理論上什麼相關系數都可以計算,但常用pearson相關系數),然後其中一列或兩列同時置換,再計算一個值,permutation 成千上萬次,看實際的r值在所得r值分布中的位置,如果跟隨機置換得到的結果站隊較近,則不大相關,如果遠遠比隨機由此得到顯著性。詳細計算過程可查看 Mantel test
作者實在太懶,堅持別人已經說過的話不願再說,只要抄過來就好了,在文章的最後他把趙小胖的一段話原版搬了過來:
無論你從事何種領域的科學研究還是統計調查,顯著性檢驗作為判斷兩個乃至多個數據集之間是否存在差異的方法被廣泛應用於各個科研領域。筆者作為科研界一名新人也曾經在顯著性檢驗方面吃過許多苦頭。後來醉心於統計理論半載有餘才摸到顯著性檢驗的皮毛,也為顯著性檢驗理論之精妙,品種之繁多,邏輯之嚴謹所折服。在此,特寫下這篇博文,以供那些仍然掙扎在顯著性檢驗泥潭的非統計專業的科研界同僚們參考。由於筆者本人也並非統計專業畢業,所持觀點粗陋淺鄙,貽笑大方之處還望諸位業界前輩,領域翹楚不吝賜教。小可在此謝過諸位看官了。
參考:
Ⅱ 如何檢驗兩組數據是否具有顯著性差異
1, 首先,分別把這兩組數據分別設為x和y,打開SPSS,點擊左下角的Variable View選項卡,在Name列那裡的第一行輸y,第二行輸x,返回Data View選項卡,輸入對應的數據。
3, 舉個例子,如果你預先設定的a=0.05,求得的sig=0.000,則0.000<0.05,故應拒絕原假設(原假設一般為設它們之間無差異),認為這兩組數有顯著性差異。
(2)如何分析一組數據組間是否有差異擴展閱讀:
1, 當數據之間具有了顯著性差異,就說明參與比對的數據不是來自於同一總體(Population),而是來自於具有差異的兩個不同總體,這種差異可能因參與比對的數據是來自不同實驗對象的,比如一些一般能力測驗中,大學學歷被試組的成績與小學學歷被試組會有顯著性差異。也可能來自於實驗處理對實驗對象造成了根本性狀改變,因而前測後測的數據會有顯著性差異。
2, 比較方法:如果數據是連續性數據,且兩組數據分別服從正態分布&方差齊(方差齊性檢驗),則可以採用t檢驗,如果不服從以上條件可以採用秩和檢驗。
3, 想知道兩組數據是否有明顯差異?不知道這個明顯差異是什麼意思?是問差別有無統計學意義(即差別的概率有多大)還是兩總體均數差值在哪個范圍波動?如果是前者則可以用第2步可以得到P值,如果是後者,則是用均數差值的置信區間來完成的。當然兩者的結果在SPSS中均可以得到。
4, 在統計學中,差異顯著性檢驗是「統計假設檢驗」(Statistical hypothesis testing)的一種,用於檢測科學實驗中實驗組與對照組之間是否有差異以及差異是否顯著的辦法[1]。
5, 在實驗進行過程中,盡管盡量排除隨機誤差的影響,以突出實驗的處理效果,但由於個體間無法避免的差異,以及諸多無法控制的因素,使得實驗結果最後表現的觀察值處理處理效應之外,還包括實驗誤差的效應。因此對兩個樣本進行比較時,必須判斷樣本間差異主要是隨機誤差造成的,還是本質不同或處理效應引起的。
Ⅲ 一組數據內部各數據間的差異顯著性如何分析
1、首先打開excelg表格,點擊文件,在彈出的下拉菜單中選擇選項。
Ⅳ 一組數據怎麼分析每個數據之間的顯著性差異
這個問題怎麼說呢,問的不是很確切,
一組數據並不存在每個數據間的顯著性比較,一般都是組與組之間進行顯著性比較
如果只有兩個組,數據進行t檢驗分析就好
如果組數大於2時,進行兩兩比較時,可以用q檢驗或LSD-t檢驗進行兩兩比較
單個數據的顯著性比較與數據存在的隨機誤差直接相關,與你想比較的處理因素就沒了關系
Ⅳ 如何判斷兩組數據是否具有顯著差異性
可以利用概率論的顯著性檢驗來判斷兩組數據是否有顯著性差異。
顯著性檢驗(significance test)就是事先對總體(隨機變數)的參數或總體分布形式做出一個假設,然後利用樣本信息來判斷這個假設(備擇假設)是否合理,即判斷總體的真實情況與原假設是否有顯著性差異。或者說,顯著性檢驗要判斷樣本與我們對總體所做的假設之間的差異是純屬機會變異,還是由我們所做的假設與總體真實情況之間不一致所引起的。 顯著性檢驗是針對我們對總體所做的假設做檢驗,其原理就是「小概率事件實際不可能性原理」來接受或否定假設。
抽樣實驗會產生抽樣誤差,對實驗資料進行比較分析時,不能僅憑兩個結果(平均數或率)的不同就作出結論,而是要進行統計學分析,鑒別出兩者差異是抽樣誤差引起的,還是由特定的實驗處理引起的。
Ⅵ 怎麼看一組數據多個時間點間有無差異性
觀察有無差異性可以直接使用excel進行分析。 Ⅶ 組間差異spss分析
組間差異spss分析?三組數據的差異研究分析使用什麼方法,具體得看數據的類型決定 Ⅷ 怎麼用excel檢驗兩組數據是否存在顯著差異 實現的方法和詳細的操作步驟如下: 1、首先,打開excel以輸入數據,例如A組和B組數據之間的比較,如下圖所示,然後進入下一步。
首先打開為Excel,添加分析工具的載入項插件,步驟:
office按鈕-excel選項-載入項-轉到-勾選分析工具庫。
選擇數據區域
數據-分析-數據分析;
選擇單因素方差分析。
設置分析參數
查看分析結果
當F>F crit 0.05,則F值在a=0.05的水平上顯著;如果分析時選擇的參數a是0.01,那麼:
當F>F crit 0.01,則判斷為:極顯著(**);
若F crit 0.05≤F
工具原料原始數據SPSSAU
情況一:X定類 Y定量分步閱讀
1
/1
如果是多個獨立樣本,Y服從正態分布,且個水平下總體具有相同方差,則建議使用方差分析,如果沒有呈現出正態性特質,此時建議可使用非參數檢驗。
情況二:X定類 Y定類
1
/1
此時可以選擇卡方檢驗,通過選擇百分比進行對比判斷。
如果方差齊檢驗結果為不齊,有兩種解決方法:
1
/2
1.轉換數據(如做對數變換)使得方差齊(方差分析對方差齊性要求高),再在spss-one way ANOVA-Post hoc里選多重比較的顯著檢驗方法。
2
/2
2.使用非參數檢驗
對數轉換可以在SPSSAU「生成變數」中完成。
差異分析方法選擇
1
/1
方差和T檢驗的區別在於,對於T檢驗的X來講,其只能為2個類別比如男和女。如果X為3個類別比如本科以下,本科,本科以上;此時只能使用方差分析。
內容僅供參考並受版權保護