⑴ 審稿人問為什麼不用貝葉斯方法構建進化樹而用鄰接法
1.問題不便於直接回答,讓我們先看看定義是什麼
2.貝葉斯分析方法(Bayesian Analysis)是貝葉斯學習的基礎,它提供了一種計算假設概率的方法,這種方法是基於假設的先驗概率、給定假設下觀察到不同數據的概率以及觀察到的數據本身而得出的。
3.其方法為,將關於未知參數的先驗信息與樣本信息綜合,再根據貝葉斯公式,得出後驗信息,然後根據後驗信息去推斷未知參數的方法。
4.計算後驗分布期望的傳統數值計算方法是數值積分、拉普萊斯近似計算和蒙特卡洛(Monte Carlo)重要抽樣。
5.目前,MCMC方法,即馬爾可夫鏈——蒙特卡羅(Markov chain Monte Carlo)方法已經變成了非常流行的貝葉斯計算方法。一方面是由於它處理非常復雜問題的效率,另一方面是因為它的編程方法相對容易。
6.貝葉斯分析方法(Bayesian Analysis)提供了一種計算假設概率的方法,這種方法是基於假設的先驗概率、給定假設下觀察到不同數據的概率以及觀察到的數據本身而得出的。
7.其方法為,將關於未知參數的先驗信息與樣本信息綜合,再根據貝葉斯公式,得出後驗信息,然後根據後驗信息去推斷未知參數的方法。
⑵ 貝葉斯方法的定義
英國學者T.貝葉斯1763年在《論有關機遇問題的求解》中提出一種歸納推理的理論,後被一些統計學者發展為一種系統的統計推斷方法,稱為貝葉斯方法。採用這種方法作統計推斷所得的全部結果,構成貝葉斯統計的內容。認為貝葉斯方法是唯一合理的統計推斷方法的統計學者,組成數理統計學中的貝葉斯學派,其形成可追溯到 20世紀 30 年代。到50~60年代,已發展為一個有影響的學派。時至今日,其影響日益擴大。
貝葉斯統計中的兩個基本概念是先驗分布和後驗分布 。①先驗分布。總體分布參數θ的一個概率分布。貝葉斯學派的根本觀點,是認為在關於總體分布參數θ的任何統計推斷問題中,除了使用樣本所提供的信息外,還必須規定一個先驗分布,它是在進行統計推斷時不可缺少的一個要素。他們認為先驗分布不必有客觀的依據,可以部分地或完全地基於主觀信念。②後驗分布。根據樣本分布和未知參數的先驗分布,用概率論中求條件概率分布的方法,求出的在樣本已知下,未知參數的條件分布。因為這個分布是在抽樣以後才得到的,故稱為後驗分布。貝葉斯推斷方法的關鍵是任何推斷都必須且只須根據後驗分布,而不能再涉及樣本分布。
⑶ 貝葉斯分析方法的介紹
貝葉斯分析方法(Bayesian Analysis)提供了一種計算假設概率的方法,這種方法是基於假設的先驗概率、給定假設下觀察到不同數據的概率以及觀察到的數據本身而得出的。其方法為,將關於未知參數的先驗信息與樣本信息綜合,再根據貝葉斯公式,得出後驗信息,然後根據後驗信息去推斷未知參數的方法。
⑷ 傳說中的貝葉斯統計到底有什麼來頭
貝葉斯統計
英國學者托馬斯·貝葉斯在《論有關機遇問題的求解》中提出一種歸納推理的理論,後被一些統計學者發展為一種系統的統計推斷方法,稱為貝葉斯方法。採用這種方法作統計推斷所得的全部結果,構成貝葉斯統計的內容。認為貝葉斯方法是唯一合理的統計推斷方法的統計學者,組成數理統計學中的貝葉斯學派,其形成可追溯到 20世紀 30 年代。到50~60年代,已發展為一個有影響的學派。時至今日,其影響日益擴大。
中文名 貝葉斯統計 外文名 Bayes statistics 提出人托馬斯·貝葉斯 提出時間 1763年 主 譯 賈乃光
目錄
1 技術原理
▪ 先驗分布
▪ 後驗分布
2 理論爭議
3 發展歷史
技術原理編輯
先驗分布
它是總體分布參數θ的一個概率分布。貝葉斯學派的根本觀點,是認為在關於θ的任何統計推斷問題中,除了使用樣本X所提供的信息外,還必須對θ規定一個先驗分布,它是在進行推斷時不可或缺的一個要素。貝葉斯學派把先驗分布解釋為在抽樣前就有的關於θ的先驗信息的概率表述,先驗分布不必有客觀的依據,它可以部分地或完全地基於主觀信念。
例如,某甲懷疑自己患有一種疾病A,在就診時醫生對他測了諸如體溫、血壓等指標,其結果構成樣本X。引進參數θ:有病時,θ=1;無病時,θ=0。X的分布取決於θ是0還是1,因而知道了X有助於推斷θ是否為1。按傳統(頻率)學派的觀點,醫生診斷時,只使用X提供的信息;而按貝葉斯學派觀點,則認為只有在規定了一個介於0與1之間的數p作為事件{θ=1}的先驗概率時,才能對甲是否有病(即θ是否為1)進行推斷。p這個數刻畫了本問題的先驗分布,且可解釋為疾病A的發病率。先驗分布的規定對推斷結果有影響,如在此例中,若疾病A的發病率很小,醫生將傾向於只有在樣本X顯示出很強的證據時,才診斷甲有病。在這里先驗分布的使用看來是合理的,但貝葉斯學派並不是基於 「p是發病率」這樣一個解釋而使用它的,事實上即使對本病的發病率毫無所知,也必須規定這樣一個p,否則問題就無法求解。
後驗分布
根據樣本 X 的分布Pθ及θ的先驗分布π(θ),用概率論中求條件概率分布的方法,可算出在已知X=x的條件下,θ的條件分布 π(θ|x)。因為這個分布是在抽樣以後才得到的,故稱為後驗分布。貝葉斯學派認為:這個分布綜合了樣本X及先驗分布π(θ)所提供的有關的信息。抽樣的全部目的,就在於完成由先驗分布到後驗分布的轉換。如上例,設p=P(θ=1)=0.001,而π(θ=1|x)=0.86,則貝葉斯學派解釋為:在某甲的指標量出之前,他患病的可能性定為0.001,而在得到X後,認識發生了變化:其患病的可能性提高為0.86,這一點的實現既與X有關,也離不開先驗分布。計算後驗分布的公式本質上就是概率論中著名的貝葉斯公式(見概率),這公式正是上面提到的貝葉斯1763年的文章的一個重要內容。
貝葉斯推斷方法的關鍵在於所作出的任何推斷都必須也只須根據後驗分布π(θ│X),而不能再涉及X的樣本分布Pθ。
例如,在奈曼-皮爾遜理論(見假設檢驗)中,為了確定水平α的檢驗的臨界值C,必須考慮X的分布Pθ,這在貝葉斯推斷中是不允許的。但貝葉斯推斷在如何使用π(θ│X)上,有一定的靈活性,例如為作θ的點估計,可用後驗分布密度h(θ|X)關於θ的最大值點,也可以用π(θ|X)的均值或中位數(見概率分布)等。為作θ的區間估計,可以取區間[A(X),B(X)],使π(A(X)≤θ≤B(X)│X)等於事先指定的數1-α(0<;α<1),並在這個條件下使區間長度B(X)-A(X)最小。若要檢驗關於θ的假設H:θ∈ω,則可以算出ω的後驗概率 π(ω|X),然後在π(ω│X)<1/2時拒絕H。如果是統計決策性質(見統計決策理論)問題,則有一定的損失函數L(θ,α),知道了π(θ|X),可算出各行動α的後驗風險,即L(θ,α)在後驗分布π(θ|X)下的數學期望值,然後挑選行動α使這期望值達到最小,這在貝葉斯統計中稱為「後驗風險最小」的原則,是貝葉斯決策理論中的根本原則和方法。
理論爭議編輯
貝葉斯學派與頻率學派爭論的焦點在於先驗分布的問題。所謂頻率學派是指堅持概率的頻率解釋的統計學家形成的學派。貝葉斯學派認為先驗分布可以是主觀的,它沒有也不需要有頻率解釋。而頻率學派則認為,只有在先驗分布有一種不依賴主觀的意義,且能根據適當的理論或以往的經驗決定時,才允許在統計推斷中使用先驗分布,否則就會喪失客觀性。另一個批評是:貝葉斯方法對任何統計問題都給以一種程式化的解法,這導致人們對問題不去作深入分析,而只是機械地套用公式。貝葉斯學派則認為:從理論上說,可以在一定條件下證明,任何合理的優良性准則必然是相應於一定先驗分布的貝葉斯准則,因此每個統計學家自覺或不自覺地都是「貝葉斯主義者」。他們認為,頻率學派表面上不使用先驗分布,但所得到的解也還是某種先驗分布下的貝葉斯解,而這一潛在的先驗分布,可能比經過慎重選定的主觀先驗分布更不合理。其次,貝葉斯學派還認為,貝葉斯方法對統計推斷和決策問題給出程式化的解是優點而非缺點,因為它免除了尋求抽樣分布,(見統計量)這個困難的數學問題。而且這種程式化的解法並不是機械地套公式,它要求人們對先驗分布、損失函數等的選擇作大量的工作。還有,貝葉斯學派認為,用貝葉斯方法求出的解不需要頻率解釋,因而即使在一次使用下也有意義。反之,根據概率的頻率解釋而提供的解,則只有在大量次數使用之下才有意義,而這常常不符合應用的實際。這兩個學派的爭論是戰後數理統計學發展中的一個特色。這個爭論還遠沒有解決,它對今後數理統計學的發展還將產生影響。
發展歷史編輯
貝葉斯統計的歷史可以上溯到 16 世紀。1713 年,James Bernoulli 意識到在可用於機會游戲的演繹邏輯和每日生活中的歸納邏輯之間的區別,他提出一個著名的問題:前者的機理如何能幫助處理後面的推斷。托馬斯.貝葉斯(ThomasBayes, 1702-1761)是長老會的牧師。他對這個問題產生濃厚的興趣,並且對這個問題進行認真的研究,期間,他寫了一篇文章來回答Bernoulli 的問題,提出了後來以他的名字命名的公式:貝葉斯公式。但是,直到貝葉斯死後才由他的朋友Richard Price 在 1763 年發表了這篇文章,對Bernoulli 的問題提供了回答。這篇文章標志著貝葉斯統計的產生。但貝葉斯統計的思想在開始時並沒有得到重視。後來,Laplace 本人重新發現了貝葉斯公式,而且闡述得比貝葉斯更為清晰。由於貝葉斯統計對於概率的觀點過於主觀,與當時的主流統計觀點相左,此外也很難應用當時嚴謹的數學理論解釋。
例如貝葉斯統計中的先驗概率的觀點,一直以來都是貝葉斯統計學派和非貝葉斯統計學派爭論的焦點之一。在歷史上,貝葉斯統計長期受到排斥,受到當時主流的數學家們的拒絕。例如,近代優秀的統計學家R. A. Fisher 就是貝葉斯統計的反對者。然而,隨著科學的進步,貝葉斯統計在實際應用上取得的成功慢慢改變了人們的觀點。貝葉斯統計慢慢的受到人們的重視,貝葉斯統計已經成為統計學中一門很熱門的研究課題。
從貝葉斯為了回答James Bernoulli 的問題而寫的那一篇論文,提出著名的貝葉斯統計思想以來,經過幾百年的發展,關於貝葉斯統計的論文和學術專著有很多。統計界公認比較權威的貝葉斯統計的著作是James O. Berger 的作品:StatisticalDecisiontheory and Bayesian Analysis。國內有其中譯本:《統計決策論及貝葉斯分析》,它是由賈乃光主譯,吳喜之校譯,中國統計出版社出版。
⑸ 運算最慢的分子進化樹構建方法
運算最慢的分子進化樹構建方法是貝葉斯法。
從計算速度來看,最快的是基於距離的方法,幾十條序列幾秒鍾即可完成。其次是最大簡約法。最大似然法就要慢得多。最慢的是貝葉斯法。但是不算準確度來看,算得最慢的貝葉斯法確是最准確,而算得最快的基於距離法結果確是最粗糙。從實用的角度,建議使用最大似然法。因為這種方法價從速度還是准確度都比較適中。
雖然軟體可以快速自動地完成系統發生樹的構建,但是對於基本演算法的了解還是必不可少的。以非加權分組平均法(UPGMA法)為例,介紹如何通過計算所有序列兩兩間的距離,再根據距離遠近構建系統發生樹。序列兩兩間的距離可以用雙序列比對得出的一致度/相似度代表,或用其他簡化值代替。
雖然軟體可以快速自動地完成系統發生樹的構建,但是對於基本演算法的了解還是必不可少的。
(5)系統發育分析貝葉斯方法擴展閱讀:
保守區用於構建進化樹
保守區選擇是系統發育分析過程中一個重要的步驟。分析時可以選擇保守位點,也可以選擇基因全長序列,但是當序列差異大時,建議保留保守序列用於進化樹構建。常用的保留序列保守區的軟體有Gblock、MEME等。
進化樹構建方法的選擇
演算法英文名演算法中文名
ML,Maximum likelihood 最大似然法
NJ,Neighbor-Joining 鄰接法
MP,Maximum parsimony 最大簡約法
ME,Minimum Evolution 最小進化法
Bayesian 貝葉斯推斷
UPGMA 不常用
⑹ 系統發育樹構建簡明教程
構建一棵系統發育樹是研究系統學和進化的基礎。然而,發育樹的構建是對分類單元進化歷史的推測,因此對發育樹的可靠性檢驗也是重中之重。一棵發育樹的獲得大致分為 數據輸入 、 數據處理 、 演算法計算 、 樹的獲取 、 可靠性檢驗、 樹的可視化 和 樹的注釋 等等。
數據輸入 一般分為兩類,序列數據如DNA、AA、RNA,性狀數據如形態數據、各種生態學數據。 數據處理 包括序列比對、飽和檢驗、鹼基替換模型比較等。 演算法計算 涉及到各種構建發育樹的演算法,如UPGMA、NJ、MP、ML、BI等,以及多基因數據的串聯方法和溯祖理論之間的比較。 樹的獲取 指得是如何從多棵樹中總結出一棵最優樹。 可靠性檢驗 顧名思義,指對發育樹拓撲結構的檢驗,包括自展支持、後驗概率等,以及對不同發育樹之間的比較。 樹的可視化 是使用工具展示發育樹以及使其更加美觀的方法。 樹的注釋 包羅萬象,如分化時間校準、祖先序列推測和各種生物地理學的各種注釋,加深了樹的深刻程度,和各種具體問題聯系起來,使樹的思想成為進化研究的基礎方法。
序列比對是系統發育樹構建的基礎,旨在找到理論上的同源位點。存在多種多樣的比對演算法,可以由不同軟體來實現。常用的如 Muscle 、 MAFFT 等。此教程以 Mega 中的Muscle演算法比對DNA非編碼序列為例。
此處的file需要特定的格式,如常見的fasta(.fas)格式。格式如下:
fasta格式比較簡單,> 後跟隨序列名稱,不支持空格等大部分特殊字元,僅支持部分字元如_ . 等,序列另起一行。導入文件前,需要將測序得到的序列以此序列保存,擴展名 .txt, .fas均可。
比對後的序列兩段常常不整齊,此比對導致的gap(即-)會部分影響發育樹結果,兩段大部分截取刪除後,少部分gap可用『『?』』填充整齊。
比對結果的保存優先使用fasta格式,而一般發育樹構建軟體通常使用nexus格式作為輸入文件。Mega支持這兩種格式的輸出。
鹼基替換模型是對鹼基突變的量化描述,一般為一個4*4的矩陣。
4個鹼基的突變情況,共產生6個不同的速率,這是一個最一般的模型,稱為 General time reverse model,即GTR,該模型具有普適性,符合絕大部分數據集。該模型假設A -- T和T -- A具有相同的速率,即突變沒有時間方向性,是可逆的。此等假設並未考慮其是否符合生物學的本質,僅僅是計算可行性上的需要。
該一般模型的種種簡化,會產生各種模型,如F81、JC69、HKY等。一個重要的簡化是把6個速率分為兩類,即轉換和顛換兩種不同的速率也就是HKY模型。一般認為轉換比顛換更為容易。
指的一提的是,一條序列上的全部位點並不具有完全相同的替換矩陣,即不同位置的鹼基有著不同的突變速率,對於這種異質的突變速率通常通過Gamma分布(G)來描述,Gamma分布是一個靈活而強大的分布,具有較好的計算性。此外可能仍有部分鹼基很少有突變事件發生,這些鹼基會共同由一個不變位點比例(I)來描述。
(此段存疑)一般認為替換模型估算的突變數量僅和枝長相關,不影響拓撲結構。不同模型對拓撲結構的影響並不大,然而在計算時間節點之類對枝長敏感的演算法時模型的選擇和預設就更為重要。
貝葉斯命令模塊:
ML命令模塊(此處僅針對Garli軟體):
MrModeltest僅在24個模型中選擇,Modeltest也不過是48個,這可能並不能選擇到最優模型。Jmodeltest支持多達88個甚至1624個模型比較。jModeltest具有友好的圖形界面,操作簡單,但極耗硬體資源,對於較大的數據集幾乎不能完成計算。簡要操作如下:
除了較為常用的DNA序列的鹼基突變模型選擇,氨基酸數據的突變模型復雜的多,此處並不涉及。考慮到越來越多的形態數據的構樹,形態數據的模型選擇仍然需要考慮,然而以上兩種方法均不支持。此處介紹ModelFinder來評估其模型選擇。
待續...
系統發育樹構建方法通常分為兩類,基於距離的方法和基於性狀的方法。
基於距離的方法是系統學早期發展起來的,將序列轉化為距離矩陣然後根據距離矩陣構建聚類樹,優點是速度極快,缺點很多,模型考慮簡單,不適合遠緣序列,不適合復雜序列,理論上不總是可以得到一個最優樹。
基於性狀的方法是系統發育的主流,不轉化為距離矩陣,避免了數據的丟失,直接基於鹼基序列計算。常見的包括最大簡約法、貝葉斯法和最大似然法。
最大簡約法不基於任何假設,不進行模型描述,認為具有最少突變步驟的發育樹是最優樹,計算強度較小,缺點同樣是不適合遠緣序列,無法考慮到復雜的突變事件。
最大似然法的基礎是統計學的最大似然估計,把拓撲結構和枝長均視為參數,使觀測數據(即鹼基序列)有最大的似然值的參數為最優參數,即最優樹。缺點是計算強度較大,可能會得到次優樹。
貝葉斯方法則剛剛相反,基於觀測數據,得分最高的拓撲結構被認為是最優樹。蒙特卡洛(MC)和馬爾科夫鏈(MC)的引入使得貝葉斯方法的得到極大的發展。貝葉斯方法具有較快的運算速度,多個鏈同時運行也可較大限度的避免局部最優化,因此被認為是最好的發育樹構建方法。
nexus文件剛才選模型時已有所接觸,此處再次解釋。nexus和fasta文件一樣是系統發育處理中常見的格式,但遠比fasta復雜,可以記錄序列文件和樹文件。一個典型的nexus文件如下:
通常nexus包括文件說明頭:
矩陣維度說明:
字元串說明:(包括是否數據分段,此處為分段)
序列矩陣:
除了以上基本模塊,還有一些其他的block塊。例如數據分段(按基因、按密碼子第幾位等):
演算法命令模塊:(例如上文提到的PAUP的MP命令block,下面列出的替換模型模塊以及單系約束命令,當然這些block並非所有的程序均支持。)
此外nexus也可以保存樹,如常見的.tre擴展名的文件實際上就是nexus的格式,例如:
另外一個概念是外類群,指定外類群的目的是為了置根,置根有多種方法,如中點置根法、分子種賦根法,當然也還有一些較新的方法。置根之後的發育樹才有方向,才可以看到祖裔關系。這里我們關注的外類群的挑選規則: 外類群應該是所有內類群的姐妹群,關系越近越好 。親緣關系較遠的外類群容易與內類群形成長枝吸引。
最大似然法最初是為了解決簡約法的長枝吸引而引入的一種系統發育重建方法,其理論基礎是發展非常成熟的最大似然估計方法。一開始,在 PhyML 和 Garli 等軟體中實現最大似然法較為耗時,其後以 RXaML 、 IQ-tree 為代表的執行快速自展的演算法,極大地提高了運行速度,基本上是最快的系統發育方法。以RXaML-master為例介紹最大似然樹的構建:
Mrbayes 是實現貝葉斯演算法的主要軟體。
Mega所導出的nexus的格式和貝葉斯所支持的nex格式略有區別。Mega所導出nexus前文已列出,下面列出Mrbayes的nex文件頭:
差異主要包括三點:
此外還包括文件末尾的Mrbayes模塊。該模塊靈活度很大,可簡單也可復雜,最簡單的情況僅為一個鹼基突變模型指定模塊(模型選擇部分已提及),最復雜的情況可以包含從log文件、模型指定、運行參數指定、樹總結參數指定等等。
一個相對詳細的Mrbayes模塊如下:
各命令解釋:
配合數據分段的模型分段指定的模塊如下:
將准備好的nexus文件放入到Mrbayes程序文件夾下即可准備運行。
Mrbayes的運行操作分為兩種,一種打開Mrbayes後手動逐行輸入命令行,如外類群,鏈長等參數,此時不需要准備復雜的Mrbayes block。另一個即為前面的提到的准備一個詳盡的Mrbayes block,預先根據數據提前指定好其參數,此時重復分析時就不用每次重復手動輸入命令行。此外,第二種方法還有一個優勢,即支持中斷續跑,如果在分析過程中,程序意外中斷,僅需在mcmcp 命令中加入 append=yes ,如下:
Mrbayes免安裝,沒有圖形化界面,所有操作均通過輸入操作命令行進行,主界面如下:
Mrbayes由於使用MCMC演算法,與上述兩個系統發育軟體有所不同,會存在一個收斂問題。Mrbayes軟體使用Average standard deviation of split frequencies來判斷收斂,默認每5000代計算一次該參數,如果該參數小於0.01,軟體運行到預設代數則會自動停止,如果沒有就會提示是否需要繼續增加代數!
但是由於數據集的差別,即使增加到很大代數後,該參數仍然大於0.01,此時有以下幾種方法可以嘗試解決:
發育樹的可視化較為復雜,分為多個層面,從僅僅把發育樹本身展示出來,到對發育樹本身進行顏色標識強調等,再到加上各種各樣的注釋數據,如物種信息、分布地信息、形態特徵以及基因結構多種多樣。
對於發育樹本身的展示和強調可以在 Figtree 、 Mega 等常用軟體中進行。
而對於添加註釋信息則 iTol 、 treeio 等工具較為常用。
Figtree是一個圖形化的發育樹可視化軟體,使用較為簡單。界面如下,可自行研究:
iTol是一個發育樹可視化的在線工具,可以方便對發育樹進行注釋,可實現的效果如下:
具體教程待續……
系統發育是一種歷史過程,任何基於分子數據集得到的發育樹都是對真實系統發生的推測。一個合理地假設,總是應該接收來自各種證據的檢驗。
系統發育假設檢驗(phylogenetic hypothesis testing)是用 統計學方法檢驗兩個或多個不同發育樹的差異是否有統計學上的顯著性 。系統發育檢驗需要數據集、模型、兩棵以上的發育樹。已有有大量的檢驗方法,主要包括頻率檢驗或者貝葉斯檢驗。一般來說,檢驗方法包括Approximately unbiased test,Approximate Bayesian posterior probability test,bootstrap probability test,Kishino-Hasegawa test,weighted Kishino-Hasegawa test,Shimodaira-Hasegawa test和weighted Shimodaira-Hasegawa test等。常用的為 Approximately unbiased test (AU)和Kishino-Hasegawa test (KH) 。
多個軟體都可以用於執行這種檢驗,如 PAUP,TREE-PUZZLE等。此處,我們介紹consel 01j.
具體教程請點擊 這里 !
⑺ 系統發育樹怎麼看亞族
摘要 在有根樹中,有一個叫根(root)的特殊結點,用來表示共同的祖先,由該點通過唯一途徑可產生其他結點;有根樹是具有方向的樹,包含唯一的節點,沒有確認共同祖先或進化途徑。最常用的確定樹根的方法是使用一個或多個無可爭議的同源物種作為「外群」(英文outgroup),這個外群要足夠近,以提供足夠的信息,但又不能太近以致不能和樹中的種類相混。把有根樹去掉根即成為無根樹。一棵無根樹在沒有其他信息(外群)或假設(如假設最大枝長為根)時不能確定其樹根。無根樹是沒有方向的,其中線段的兩個演化方向都有可能。
⑻ 群體結構——系統發育樹的構建
最近雜事真的非常的滿,終於找到時間更新一下。。。。
通過上一篇文章的介紹, 系統發育樹的基本概念 大家已經了解清楚,那到底怎麼獲得一棵可信的進化樹呢?
對於群體遺傳學分析,一般都會以群體SNPs位點數據構建系統發育樹,因此,接下來我主要以SNPs數據為例,介紹系統進化樹的構建方法。
序列比對->建樹方法選擇->計算最佳替代模型->進化樹建立->進化樹美化
常見的序列比對軟體包括:Clustal和Muscle等。
Clustal 除了有自己獨立的軟體外(多種操作系統都支持),也常被整合到一些常見的軟體中,如:Bioedit、MEGA等。
Muscle 同樣支持多種操作系統。
兩個軟體的引用頻率都很高,沒有絕對的誰好誰壞,哪個順手就用哪個即可。
1、Distance-based methods 距離法:
基於距離的方法:首先通過各個物種之間的比較,根據一定的假設(進化距離模型)推導得出分類群之間的進化距離,構建一個進化距離矩陣。進化樹的構建則是基於這個矩陣中的進化距離關系。
2、Character-based methods 特徵法:
基於特徵的方法:不計算序列間的距離,而是將序列中有差異的位點作為單獨的特徵,並根據這些特徵來建樹。
模型選擇的依據如下圖:
UPGMA法已經較少使用。一般來講,如果模型合適,ML的效果較好。對近緣序列,有人喜歡MP,因為用的假設最少。MP一般不用在遠緣序列上,這時一般用NJ或ML。對相似度很低的序列,NJ往往會出現Long-branch attraction(LBA,長枝吸引現象),有時嚴重干擾進化樹的構建。貝葉斯方法則太慢。對於各種方法構建分子進化樹的准確性,有一篇綜述 (Hall BG, 2005) 認為貝葉斯的方法最好,其次是ML,然後是MP。其實如果序列的相似性較高,各種方法都會得到不錯的結果,模型間的差別也不大。不過現在文章普遍使用的是NJ是ML模型。
系統發育分析中,最大似然法(ML)和貝葉斯法(BI)是對替代模型非常敏感的兩種演算法,因此,利用ML法或BI法重建系統發育樹前,替代模型的選擇是必不可少的過程。
Win操作系統下jModeltest的使用方法參考這篇文章: 圖解核苷酸替代模型的選擇 - jModelTest 篇(By Raindy) 。
ProTest的使用方法可以參考這篇文章: 使用 ProtTest 來選擇最優氨基酸替代模型 。
我自己基本都用的是Linux版本的jModelTest,使用及其簡單,命令如下:
參數說明:
-d:輸入文件。注意!這個軟體需要輸入的是.phy格式文件,不是.fasta格式。
-f:include models with unequals base frecuencies
-g:include models with rate variation among sites and number of categories
-i: include models with a proportion invariable sites
-s:number of substitution schemes
-v:do model averaging and parameter importances
-a:estimate model-averaged phylogeny for each active criterion
-BIC:calculate the Bayesian Information Criterion
-AIC:calculate the Akaike Information Criterion
結果的最下方,有如圖所示的列舉,也就是得分最高的模型。
計算完最佳模型,我們就要開始建樹了。對於ML樹的構建,推薦大家使用新一代RAxML——raxml-ng。
RAxML一直是ML建樹的經典工具,其由來自德國海德堡理論科學研究所(Heidelberg Institute for Theoretical Studies)的Alexandros Stamatakis開發。近年來,其江湖地位也受到來自其他軟體,尤其是IQ-Tree的挑戰。Zhou等人的文章 Evaluating Fast Maximum Likelihood-Based Phylogenetic Programs Using Empirical Phylogenomic Data set 對RAxML,IQ-TREE,FastTree,Phyml四個最大似然法建樹軟體的實際效果和表現進行了系統比較,其中一個結論是IQTREE在准確性方面要略勝一籌。
近日,RAxML的升級版, raxml-ng 發布!
相較於上一代,raxml-ng有如下優勢:
話不多說,直接建樹:
參數說明:
--all:Perform an all-in-one analysis (ML tree search + non-parametric bootstrap)
--msa:對其後的序列文件
--model:直接輸入上一步產生的最佳模型
--bs-trees:檢查樹的魯棒性(robustness)進行自展(bootstrap)檢驗,進行1000次bootstrapping抽樣
--threads:給定線程
運行後結果如下圖所示,其中.bestTree就是我們要的樹文件,導入樹可視化工具即可(我比較常用MEGA和 iTOL ),下次再寫一下如何美化進化樹吧。
做進化分析的工友們可能都有個感覺,很多分析一等就是好幾天,特別是建樹(做過的都知道其中的痛苦),有時候忽然加入一個樣品又要從頭來。因此,一台給力的伺服器是必要的工具。比如,上文提到了SNP進化樹,我做的還僅僅只是相近物種,而且基因組很小(9M),SNP位點就有4萬個,如果要用我MEGA這些軟體調用我電腦8核的CPU,1000自展值可能要跑到畢業。
生物學背景出身的我,抄著那一點可憐的計算機常識,在我們課題組購買伺服器時,我做了非常多的功課。當然,主要還是聽取公司技術人員的建議,通過我非常非常非常長時間的測試,多次使用常見的生物信息分析軟體(我主要從事寄生蟲基因組、宿主轉錄組、16S宏基因組等研究),最終,找到了一個性價比超高的伺服器配置,具體配置如下:
真心感謝一下烽偉的技術小哥哥們,樂死不疲的回答我各種低級的問題,如果有啥需要可以聯系一下他們的技術,感覺蠻靠譜噠,官網: 烽偉科技 。
上一個他們的LOGO,以表感謝。
本文為本人的學習筆記,希望對大家有所幫助。本文大量參考網路文章,文章來源列舉於全文末尾。
參考:
一文讀懂進化樹
使用 ProtTest 來選擇最優氨基酸替代模型
RAxML進化樹構建的新一代——raxml-ng
⑼ 貝葉斯分析的介紹
貝葉斯方法是基於貝葉斯定理而發展起來用於系統地闡述和解決統計問題的方法。一個完全的貝葉斯分析包括數據分析、概率模型的構造、先驗信息和效應函數的假設以及最後的決策(Lindley,2000)。