⑴ 审稿人问为什么不用贝叶斯方法构建进化树而用邻接法
1.问题不便于直接回答,让我们先看看定义是什么
2.贝叶斯分析方法(Bayesian Analysis)是贝叶斯学习的基础,它提供了一种计算假设概率的方法,这种方法是基于假设的先验概率、给定假设下观察到不同数据的概率以及观察到的数据本身而得出的。
3.其方法为,将关于未知参数的先验信息与样本信息综合,再根据贝叶斯公式,得出后验信息,然后根据后验信息去推断未知参数的方法。
4.计算后验分布期望的传统数值计算方法是数值积分、拉普莱斯近似计算和蒙特卡洛(Monte Carlo)重要抽样。
5.目前,MCMC方法,即马尔可夫链——蒙特卡罗(Markov chain Monte Carlo)方法已经变成了非常流行的贝叶斯计算方法。一方面是由于它处理非常复杂问题的效率,另一方面是因为它的编程方法相对容易。
6.贝叶斯分析方法(Bayesian Analysis)提供了一种计算假设概率的方法,这种方法是基于假设的先验概率、给定假设下观察到不同数据的概率以及观察到的数据本身而得出的。
7.其方法为,将关于未知参数的先验信息与样本信息综合,再根据贝叶斯公式,得出后验信息,然后根据后验信息去推断未知参数的方法。
⑵ 贝叶斯方法的定义
英国学者T.贝叶斯1763年在《论有关机遇问题的求解》中提出一种归纳推理的理论,后被一些统计学者发展为一种系统的统计推断方法,称为贝叶斯方法。采用这种方法作统计推断所得的全部结果,构成贝叶斯统计的内容。认为贝叶斯方法是唯一合理的统计推断方法的统计学者,组成数理统计学中的贝叶斯学派,其形成可追溯到 20世纪 30 年代。到50~60年代,已发展为一个有影响的学派。时至今日,其影响日益扩大。
贝叶斯统计中的两个基本概念是先验分布和后验分布 。①先验分布。总体分布参数θ的一个概率分布。贝叶斯学派的根本观点,是认为在关于总体分布参数θ的任何统计推断问题中,除了使用样本所提供的信息外,还必须规定一个先验分布,它是在进行统计推断时不可缺少的一个要素。他们认为先验分布不必有客观的依据,可以部分地或完全地基于主观信念。②后验分布。根据样本分布和未知参数的先验分布,用概率论中求条件概率分布的方法,求出的在样本已知下,未知参数的条件分布。因为这个分布是在抽样以后才得到的,故称为后验分布。贝叶斯推断方法的关键是任何推断都必须且只须根据后验分布,而不能再涉及样本分布。
⑶ 贝叶斯分析方法的介绍
贝叶斯分析方法(Bayesian Analysis)提供了一种计算假设概率的方法,这种方法是基于假设的先验概率、给定假设下观察到不同数据的概率以及观察到的数据本身而得出的。其方法为,将关于未知参数的先验信息与样本信息综合,再根据贝叶斯公式,得出后验信息,然后根据后验信息去推断未知参数的方法。
⑷ 传说中的贝叶斯统计到底有什么来头
贝叶斯统计
英国学者托马斯·贝叶斯在《论有关机遇问题的求解》中提出一种归纳推理的理论,后被一些统计学者发展为一种系统的统计推断方法,称为贝叶斯方法。采用这种方法作统计推断所得的全部结果,构成贝叶斯统计的内容。认为贝叶斯方法是唯一合理的统计推断方法的统计学者,组成数理统计学中的贝叶斯学派,其形成可追溯到 20世纪 30 年代。到50~60年代,已发展为一个有影响的学派。时至今日,其影响日益扩大。
中文名 贝叶斯统计 外文名 Bayes statistics 提出人托马斯·贝叶斯 提出时间 1763年 主 译 贾乃光
目录
1 技术原理
▪ 先验分布
▪ 后验分布
2 理论争议
3 发展历史
技术原理编辑
先验分布
它是总体分布参数θ的一个概率分布。贝叶斯学派的根本观点,是认为在关于θ的任何统计推断问题中,除了使用样本X所提供的信息外,还必须对θ规定一个先验分布,它是在进行推断时不可或缺的一个要素。贝叶斯学派把先验分布解释为在抽样前就有的关于θ的先验信息的概率表述,先验分布不必有客观的依据,它可以部分地或完全地基于主观信念。
例如,某甲怀疑自己患有一种疾病A,在就诊时医生对他测了诸如体温、血压等指标,其结果构成样本X。引进参数θ:有病时,θ=1;无病时,θ=0。X的分布取决于θ是0还是1,因而知道了X有助于推断θ是否为1。按传统(频率)学派的观点,医生诊断时,只使用X提供的信息;而按贝叶斯学派观点,则认为只有在规定了一个介于0与1之间的数p作为事件{θ=1}的先验概率时,才能对甲是否有病(即θ是否为1)进行推断。p这个数刻画了本问题的先验分布,且可解释为疾病A的发病率。先验分布的规定对推断结果有影响,如在此例中,若疾病A的发病率很小,医生将倾向于只有在样本X显示出很强的证据时,才诊断甲有病。在这里先验分布的使用看来是合理的,但贝叶斯学派并不是基于 “p是发病率”这样一个解释而使用它的,事实上即使对本病的发病率毫无所知,也必须规定这样一个p,否则问题就无法求解。
后验分布
根据样本 X 的分布Pθ及θ的先验分布π(θ),用概率论中求条件概率分布的方法,可算出在已知X=x的条件下,θ的条件分布 π(θ|x)。因为这个分布是在抽样以后才得到的,故称为后验分布。贝叶斯学派认为:这个分布综合了样本X及先验分布π(θ)所提供的有关的信息。抽样的全部目的,就在于完成由先验分布到后验分布的转换。如上例,设p=P(θ=1)=0.001,而π(θ=1|x)=0.86,则贝叶斯学派解释为:在某甲的指标量出之前,他患病的可能性定为0.001,而在得到X后,认识发生了变化:其患病的可能性提高为0.86,这一点的实现既与X有关,也离不开先验分布。计算后验分布的公式本质上就是概率论中著名的贝叶斯公式(见概率),这公式正是上面提到的贝叶斯1763年的文章的一个重要内容。
贝叶斯推断方法的关键在于所作出的任何推断都必须也只须根据后验分布π(θ│X),而不能再涉及X的样本分布Pθ。
例如,在奈曼-皮尔逊理论(见假设检验)中,为了确定水平α的检验的临界值C,必须考虑X的分布Pθ,这在贝叶斯推断中是不允许的。但贝叶斯推断在如何使用π(θ│X)上,有一定的灵活性,例如为作θ的点估计,可用后验分布密度h(θ|X)关于θ的最大值点,也可以用π(θ|X)的均值或中位数(见概率分布)等。为作θ的区间估计,可以取区间[A(X),B(X)],使π(A(X)≤θ≤B(X)│X)等于事先指定的数1-α(0<;α<1),并在这个条件下使区间长度B(X)-A(X)最小。若要检验关于θ的假设H:θ∈ω,则可以算出ω的后验概率 π(ω|X),然后在π(ω│X)<1/2时拒绝H。如果是统计决策性质(见统计决策理论)问题,则有一定的损失函数L(θ,α),知道了π(θ|X),可算出各行动α的后验风险,即L(θ,α)在后验分布π(θ|X)下的数学期望值,然后挑选行动α使这期望值达到最小,这在贝叶斯统计中称为“后验风险最小”的原则,是贝叶斯决策理论中的根本原则和方法。
理论争议编辑
贝叶斯学派与频率学派争论的焦点在于先验分布的问题。所谓频率学派是指坚持概率的频率解释的统计学家形成的学派。贝叶斯学派认为先验分布可以是主观的,它没有也不需要有频率解释。而频率学派则认为,只有在先验分布有一种不依赖主观的意义,且能根据适当的理论或以往的经验决定时,才允许在统计推断中使用先验分布,否则就会丧失客观性。另一个批评是:贝叶斯方法对任何统计问题都给以一种程式化的解法,这导致人们对问题不去作深入分析,而只是机械地套用公式。贝叶斯学派则认为:从理论上说,可以在一定条件下证明,任何合理的优良性准则必然是相应于一定先验分布的贝叶斯准则,因此每个统计学家自觉或不自觉地都是“贝叶斯主义者”。他们认为,频率学派表面上不使用先验分布,但所得到的解也还是某种先验分布下的贝叶斯解,而这一潜在的先验分布,可能比经过慎重选定的主观先验分布更不合理。其次,贝叶斯学派还认为,贝叶斯方法对统计推断和决策问题给出程式化的解是优点而非缺点,因为它免除了寻求抽样分布,(见统计量)这个困难的数学问题。而且这种程式化的解法并不是机械地套公式,它要求人们对先验分布、损失函数等的选择作大量的工作。还有,贝叶斯学派认为,用贝叶斯方法求出的解不需要频率解释,因而即使在一次使用下也有意义。反之,根据概率的频率解释而提供的解,则只有在大量次数使用之下才有意义,而这常常不符合应用的实际。这两个学派的争论是战后数理统计学发展中的一个特色。这个争论还远没有解决,它对今后数理统计学的发展还将产生影响。
发展历史编辑
贝叶斯统计的历史可以上溯到 16 世纪。1713 年,James Bernoulli 意识到在可用于机会游戏的演绎逻辑和每日生活中的归纳逻辑之间的区别,他提出一个著名的问题:前者的机理如何能帮助处理后面的推断。托马斯.贝叶斯(ThomasBayes, 1702-1761)是长老会的牧师。他对这个问题产生浓厚的兴趣,并且对这个问题进行认真的研究,期间,他写了一篇文章来回答Bernoulli 的问题,提出了后来以他的名字命名的公式:贝叶斯公式。但是,直到贝叶斯死后才由他的朋友Richard Price 在 1763 年发表了这篇文章,对Bernoulli 的问题提供了回答。这篇文章标志着贝叶斯统计的产生。但贝叶斯统计的思想在开始时并没有得到重视。后来,Laplace 本人重新发现了贝叶斯公式,而且阐述得比贝叶斯更为清晰。由于贝叶斯统计对于概率的观点过于主观,与当时的主流统计观点相左,此外也很难应用当时严谨的数学理论解释。
例如贝叶斯统计中的先验概率的观点,一直以来都是贝叶斯统计学派和非贝叶斯统计学派争论的焦点之一。在历史上,贝叶斯统计长期受到排斥,受到当时主流的数学家们的拒绝。例如,近代优秀的统计学家R. A. Fisher 就是贝叶斯统计的反对者。然而,随着科学的进步,贝叶斯统计在实际应用上取得的成功慢慢改变了人们的观点。贝叶斯统计慢慢的受到人们的重视,贝叶斯统计已经成为统计学中一门很热门的研究课题。
从贝叶斯为了回答James Bernoulli 的问题而写的那一篇论文,提出著名的贝叶斯统计思想以来,经过几百年的发展,关于贝叶斯统计的论文和学术专著有很多。统计界公认比较权威的贝叶斯统计的著作是James O. Berger 的作品:StatisticalDecisiontheory and Bayesian Analysis。国内有其中译本:《统计决策论及贝叶斯分析》,它是由贾乃光主译,吴喜之校译,中国统计出版社出版。
⑸ 运算最慢的分子进化树构建方法
运算最慢的分子进化树构建方法是贝叶斯法。
从计算速度来看,最快的是基于距离的方法,几十条序列几秒钟即可完成。其次是最大简约法。最大似然法就要慢得多。最慢的是贝叶斯法。但是不算准确度来看,算得最慢的贝叶斯法确是最准确,而算得最快的基于距离法结果确是最粗糙。从实用的角度,建议使用最大似然法。因为这种方法价从速度还是准确度都比较适中。
虽然软件可以快速自动地完成系统发生树的构建,但是对于基本算法的了解还是必不可少的。以非加权分组平均法(UPGMA法)为例,介绍如何通过计算所有序列两两间的距离,再根据距离远近构建系统发生树。序列两两间的距离可以用双序列比对得出的一致度/相似度代表,或用其他简化值代替。
虽然软件可以快速自动地完成系统发生树的构建,但是对于基本算法的了解还是必不可少的。
(5)系统发育分析贝叶斯方法扩展阅读:
保守区用于构建进化树
保守区选择是系统发育分析过程中一个重要的步骤。分析时可以选择保守位点,也可以选择基因全长序列,但是当序列差异大时,建议保留保守序列用于进化树构建。常用的保留序列保守区的软件有Gblock、MEME等。
进化树构建方法的选择
算法英文名算法中文名
ML,Maximum likelihood 最大似然法
NJ,Neighbor-Joining 邻接法
MP,Maximum parsimony 最大简约法
ME,Minimum Evolution 最小进化法
Bayesian 贝叶斯推断
UPGMA 不常用
⑹ 系统发育树构建简明教程
构建一棵系统发育树是研究系统学和进化的基础。然而,发育树的构建是对分类单元进化历史的推测,因此对发育树的可靠性检验也是重中之重。一棵发育树的获得大致分为 数据输入 、 数据处理 、 算法计算 、 树的获取 、 可靠性检验、 树的可视化 和 树的注释 等等。
数据输入 一般分为两类,序列数据如DNA、AA、RNA,性状数据如形态数据、各种生态学数据。 数据处理 包括序列比对、饱和检验、碱基替换模型比较等。 算法计算 涉及到各种构建发育树的算法,如UPGMA、NJ、MP、ML、BI等,以及多基因数据的串联方法和溯祖理论之间的比较。 树的获取 指得是如何从多棵树中总结出一棵最优树。 可靠性检验 顾名思义,指对发育树拓扑结构的检验,包括自展支持、后验概率等,以及对不同发育树之间的比较。 树的可视化 是使用工具展示发育树以及使其更加美观的方法。 树的注释 包罗万象,如分化时间校准、祖先序列推测和各种生物地理学的各种注释,加深了树的深刻程度,和各种具体问题联系起来,使树的思想成为进化研究的基础方法。
序列比对是系统发育树构建的基础,旨在找到理论上的同源位点。存在多种多样的比对算法,可以由不同软件来实现。常用的如 Muscle 、 MAFFT 等。此教程以 Mega 中的Muscle算法比对DNA非编码序列为例。
此处的file需要特定的格式,如常见的fasta(.fas)格式。格式如下:
fasta格式比较简单,> 后跟随序列名称,不支持空格等大部分特殊字符,仅支持部分字符如_ . 等,序列另起一行。导入文件前,需要将测序得到的序列以此序列保存,扩展名 .txt, .fas均可。
比对后的序列两段常常不整齐,此比对导致的gap(即-)会部分影响发育树结果,两段大部分截取删除后,少部分gap可用‘‘?’’填充整齐。
比对结果的保存优先使用fasta格式,而一般发育树构建软件通常使用nexus格式作为输入文件。Mega支持这两种格式的输出。
碱基替换模型是对碱基突变的量化描述,一般为一个4*4的矩阵。
4个碱基的突变情况,共产生6个不同的速率,这是一个最一般的模型,称为 General time reverse model,即GTR,该模型具有普适性,符合绝大部分数据集。该模型假设A -- T和T -- A具有相同的速率,即突变没有时间方向性,是可逆的。此等假设并未考虑其是否符合生物学的本质,仅仅是计算可行性上的需要。
该一般模型的种种简化,会产生各种模型,如F81、JC69、HKY等。一个重要的简化是把6个速率分为两类,即转换和颠换两种不同的速率也就是HKY模型。一般认为转换比颠换更为容易。
指的一提的是,一条序列上的全部位点并不具有完全相同的替换矩阵,即不同位置的碱基有着不同的突变速率,对于这种异质的突变速率通常通过Gamma分布(G)来描述,Gamma分布是一个灵活而强大的分布,具有较好的计算性。此外可能仍有部分碱基很少有突变事件发生,这些碱基会共同由一个不变位点比例(I)来描述。
(此段存疑)一般认为替换模型估算的突变数量仅和枝长相关,不影响拓扑结构。不同模型对拓扑结构的影响并不大,然而在计算时间节点之类对枝长敏感的算法时模型的选择和预设就更为重要。
贝叶斯命令模块:
ML命令模块(此处仅针对Garli软件):
MrModeltest仅在24个模型中选择,Modeltest也不过是48个,这可能并不能选择到最优模型。Jmodeltest支持多达88个甚至1624个模型比较。jModeltest具有友好的图形界面,操作简单,但极耗硬件资源,对于较大的数据集几乎不能完成计算。简要操作如下:
除了较为常用的DNA序列的碱基突变模型选择,氨基酸数据的突变模型复杂的多,此处并不涉及。考虑到越来越多的形态数据的构树,形态数据的模型选择仍然需要考虑,然而以上两种方法均不支持。此处介绍ModelFinder来评估其模型选择。
待续...
系统发育树构建方法通常分为两类,基于距离的方法和基于性状的方法。
基于距离的方法是系统学早期发展起来的,将序列转化为距离矩阵然后根据距离矩阵构建聚类树,优点是速度极快,缺点很多,模型考虑简单,不适合远缘序列,不适合复杂序列,理论上不总是可以得到一个最优树。
基于性状的方法是系统发育的主流,不转化为距离矩阵,避免了数据的丢失,直接基于碱基序列计算。常见的包括最大简约法、贝叶斯法和最大似然法。
最大简约法不基于任何假设,不进行模型描述,认为具有最少突变步骤的发育树是最优树,计算强度较小,缺点同样是不适合远缘序列,无法考虑到复杂的突变事件。
最大似然法的基础是统计学的最大似然估计,把拓扑结构和枝长均视为参数,使观测数据(即碱基序列)有最大的似然值的参数为最优参数,即最优树。缺点是计算强度较大,可能会得到次优树。
贝叶斯方法则刚刚相反,基于观测数据,得分最高的拓扑结构被认为是最优树。蒙特卡洛(MC)和马尔科夫链(MC)的引入使得贝叶斯方法的得到极大的发展。贝叶斯方法具有较快的运算速度,多个链同时运行也可较大限度的避免局部最优化,因此被认为是最好的发育树构建方法。
nexus文件刚才选模型时已有所接触,此处再次解释。nexus和fasta文件一样是系统发育处理中常见的格式,但远比fasta复杂,可以记录序列文件和树文件。一个典型的nexus文件如下:
通常nexus包括文件说明头:
矩阵维度说明:
字符串说明:(包括是否数据分段,此处为分段)
序列矩阵:
除了以上基本模块,还有一些其他的block块。例如数据分段(按基因、按密码子第几位等):
算法命令模块:(例如上文提到的PAUP的MP命令block,下面列出的替换模型模块以及单系约束命令,当然这些block并非所有的程序均支持。)
此外nexus也可以保存树,如常见的.tre扩展名的文件实际上就是nexus的格式,例如:
另外一个概念是外类群,指定外类群的目的是为了置根,置根有多种方法,如中点置根法、分子种赋根法,当然也还有一些较新的方法。置根之后的发育树才有方向,才可以看到祖裔关系。这里我们关注的外类群的挑选规则: 外类群应该是所有内类群的姐妹群,关系越近越好 。亲缘关系较远的外类群容易与内类群形成长枝吸引。
最大似然法最初是为了解决简约法的长枝吸引而引入的一种系统发育重建方法,其理论基础是发展非常成熟的最大似然估计方法。一开始,在 PhyML 和 Garli 等软件中实现最大似然法较为耗时,其后以 RXaML 、 IQ-tree 为代表的执行快速自展的算法,极大地提高了运行速度,基本上是最快的系统发育方法。以RXaML-master为例介绍最大似然树的构建:
Mrbayes 是实现贝叶斯算法的主要软件。
Mega所导出的nexus的格式和贝叶斯所支持的nex格式略有区别。Mega所导出nexus前文已列出,下面列出Mrbayes的nex文件头:
差异主要包括三点:
此外还包括文件末尾的Mrbayes模块。该模块灵活度很大,可简单也可复杂,最简单的情况仅为一个碱基突变模型指定模块(模型选择部分已提及),最复杂的情况可以包含从log文件、模型指定、运行参数指定、树总结参数指定等等。
一个相对详细的Mrbayes模块如下:
各命令解释:
配合数据分段的模型分段指定的模块如下:
将准备好的nexus文件放入到Mrbayes程序文件夹下即可准备运行。
Mrbayes的运行操作分为两种,一种打开Mrbayes后手动逐行输入命令行,如外类群,链长等参数,此时不需要准备复杂的Mrbayes block。另一个即为前面的提到的准备一个详尽的Mrbayes block,预先根据数据提前指定好其参数,此时重复分析时就不用每次重复手动输入命令行。此外,第二种方法还有一个优势,即支持中断续跑,如果在分析过程中,程序意外中断,仅需在mcmcp 命令中加入 append=yes ,如下:
Mrbayes免安装,没有图形化界面,所有操作均通过输入操作命令行进行,主界面如下:
Mrbayes由于使用MCMC算法,与上述两个系统发育软件有所不同,会存在一个收敛问题。Mrbayes软件使用Average standard deviation of split frequencies来判断收敛,默认每5000代计算一次该参数,如果该参数小于0.01,软件运行到预设代数则会自动停止,如果没有就会提示是否需要继续增加代数!
但是由于数据集的差别,即使增加到很大代数后,该参数仍然大于0.01,此时有以下几种方法可以尝试解决:
发育树的可视化较为复杂,分为多个层面,从仅仅把发育树本身展示出来,到对发育树本身进行颜色标识强调等,再到加上各种各样的注释数据,如物种信息、分布地信息、形态特征以及基因结构多种多样。
对于发育树本身的展示和强调可以在 Figtree 、 Mega 等常用软件中进行。
而对于添加注释信息则 iTol 、 treeio 等工具较为常用。
Figtree是一个图形化的发育树可视化软件,使用较为简单。界面如下,可自行研究:
iTol是一个发育树可视化的在线工具,可以方便对发育树进行注释,可实现的效果如下:
具体教程待续……
系统发育是一种历史过程,任何基于分子数据集得到的发育树都是对真实系统发生的推测。一个合理地假设,总是应该接收来自各种证据的检验。
系统发育假设检验(phylogenetic hypothesis testing)是用 统计学方法检验两个或多个不同发育树的差异是否有统计学上的显著性 。系统发育检验需要数据集、模型、两棵以上的发育树。已有有大量的检验方法,主要包括频率检验或者贝叶斯检验。一般来说,检验方法包括Approximately unbiased test,Approximate Bayesian posterior probability test,bootstrap probability test,Kishino-Hasegawa test,weighted Kishino-Hasegawa test,Shimodaira-Hasegawa test和weighted Shimodaira-Hasegawa test等。常用的为 Approximately unbiased test (AU)和Kishino-Hasegawa test (KH) 。
多个软件都可以用于执行这种检验,如 PAUP,TREE-PUZZLE等。此处,我们介绍consel 01j.
具体教程请点击 这里 !
⑺ 系统发育树怎么看亚族
摘要 在有根树中,有一个叫根(root)的特殊结点,用来表示共同的祖先,由该点通过唯一途径可产生其他结点;有根树是具有方向的树,包含唯一的节点,没有确认共同祖先或进化途径。最常用的确定树根的方法是使用一个或多个无可争议的同源物种作为“外群”(英文outgroup),这个外群要足够近,以提供足够的信息,但又不能太近以致不能和树中的种类相混。把有根树去掉根即成为无根树。一棵无根树在没有其他信息(外群)或假设(如假设最大枝长为根)时不能确定其树根。无根树是没有方向的,其中线段的两个演化方向都有可能。
⑻ 群体结构——系统发育树的构建
最近杂事真的非常的满,终于找到时间更新一下。。。。
通过上一篇文章的介绍, 系统发育树的基本概念 大家已经了解清楚,那到底怎么获得一棵可信的进化树呢?
对于群体遗传学分析,一般都会以群体SNPs位点数据构建系统发育树,因此,接下来我主要以SNPs数据为例,介绍系统进化树的构建方法。
序列比对->建树方法选择->计算最佳替代模型->进化树建立->进化树美化
常见的序列比对软件包括:Clustal和Muscle等。
Clustal 除了有自己独立的软件外(多种操作系统都支持),也常被整合到一些常见的软件中,如:Bioedit、MEGA等。
Muscle 同样支持多种操作系统。
两个软件的引用频率都很高,没有绝对的谁好谁坏,哪个顺手就用哪个即可。
1、Distance-based methods 距离法:
基于距离的方法:首先通过各个物种之间的比较,根据一定的假设(进化距离模型)推导得出分类群之间的进化距离,构建一个进化距离矩阵。进化树的构建则是基于这个矩阵中的进化距离关系。
2、Character-based methods 特征法:
基于特征的方法:不计算序列间的距离,而是将序列中有差异的位点作为单独的特征,并根据这些特征来建树。
模型选择的依据如下图:
UPGMA法已经较少使用。一般来讲,如果模型合适,ML的效果较好。对近缘序列,有人喜欢MP,因为用的假设最少。MP一般不用在远缘序列上,这时一般用NJ或ML。对相似度很低的序列,NJ往往会出现Long-branch attraction(LBA,长枝吸引现象),有时严重干扰进化树的构建。贝叶斯方法则太慢。对于各种方法构建分子进化树的准确性,有一篇综述 (Hall BG, 2005) 认为贝叶斯的方法最好,其次是ML,然后是MP。其实如果序列的相似性较高,各种方法都会得到不错的结果,模型间的差别也不大。不过现在文章普遍使用的是NJ是ML模型。
系统发育分析中,最大似然法(ML)和贝叶斯法(BI)是对替代模型非常敏感的两种算法,因此,利用ML法或BI法重建系统发育树前,替代模型的选择是必不可少的过程。
Win操作系统下jModeltest的使用方法参考这篇文章: 图解核苷酸替代模型的选择 - jModelTest 篇(By Raindy) 。
ProTest的使用方法可以参考这篇文章: 使用 ProtTest 来选择最优氨基酸替代模型 。
我自己基本都用的是Linux版本的jModelTest,使用及其简单,命令如下:
参数说明:
-d:输入文件。注意!这个软件需要输入的是.phy格式文件,不是.fasta格式。
-f:include models with unequals base frecuencies
-g:include models with rate variation among sites and number of categories
-i: include models with a proportion invariable sites
-s:number of substitution schemes
-v:do model averaging and parameter importances
-a:estimate model-averaged phylogeny for each active criterion
-BIC:calculate the Bayesian Information Criterion
-AIC:calculate the Akaike Information Criterion
结果的最下方,有如图所示的列举,也就是得分最高的模型。
计算完最佳模型,我们就要开始建树了。对于ML树的构建,推荐大家使用新一代RAxML——raxml-ng。
RAxML一直是ML建树的经典工具,其由来自德国海德堡理论科学研究所(Heidelberg Institute for Theoretical Studies)的Alexandros Stamatakis开发。近年来,其江湖地位也受到来自其他软件,尤其是IQ-Tree的挑战。Zhou等人的文章 Evaluating Fast Maximum Likelihood-Based Phylogenetic Programs Using Empirical Phylogenomic Data set 对RAxML,IQ-TREE,FastTree,Phyml四个最大似然法建树软件的实际效果和表现进行了系统比较,其中一个结论是IQTREE在准确性方面要略胜一筹。
近日,RAxML的升级版, raxml-ng 发布!
相较于上一代,raxml-ng有如下优势:
话不多说,直接建树:
参数说明:
--all:Perform an all-in-one analysis (ML tree search + non-parametric bootstrap)
--msa:对其后的序列文件
--model:直接输入上一步产生的最佳模型
--bs-trees:检查树的鲁棒性(robustness)进行自展(bootstrap)检验,进行1000次bootstrapping抽样
--threads:给定线程
运行后结果如下图所示,其中.bestTree就是我们要的树文件,导入树可视化工具即可(我比较常用MEGA和 iTOL ),下次再写一下如何美化进化树吧。
做进化分析的工友们可能都有个感觉,很多分析一等就是好几天,特别是建树(做过的都知道其中的痛苦),有时候忽然加入一个样品又要从头来。因此,一台给力的服务器是必要的工具。比如,上文提到了SNP进化树,我做的还仅仅只是相近物种,而且基因组很小(9M),SNP位点就有4万个,如果要用我MEGA这些软件调用我电脑8核的CPU,1000自展值可能要跑到毕业。
生物学背景出身的我,抄着那一点可怜的计算机常识,在我们课题组购买服务器时,我做了非常多的功课。当然,主要还是听取公司技术人员的建议,通过我非常非常非常长时间的测试,多次使用常见的生物信息分析软件(我主要从事寄生虫基因组、宿主转录组、16S宏基因组等研究),最终,找到了一个性价比超高的服务器配置,具体配置如下:
真心感谢一下烽伟的技术小哥哥们,乐死不疲的回答我各种低级的问题,如果有啥需要可以联系一下他们的技术,感觉蛮靠谱哒,官网: 烽伟科技 。
上一个他们的LOGO,以表感谢。
本文为本人的学习笔记,希望对大家有所帮助。本文大量参考网络文章,文章来源列举于全文末尾。
参考:
一文读懂进化树
使用 ProtTest 来选择最优氨基酸替代模型
RAxML进化树构建的新一代——raxml-ng
⑼ 贝叶斯分析的介绍
贝叶斯方法是基于贝叶斯定理而发展起来用于系统地阐述和解决统计问题的方法。一个完全的贝叶斯分析包括数据分析、概率模型的构造、先验信息和效应函数的假设以及最后的决策(Lindley,2000)。