导航:首页 > 数据分析 > 如何分析一组数据组间是否有差异

如何分析一组数据组间是否有差异

发布时间:2023-01-10 03:27:12

Ⅰ 组间差异检验,终于有人讲清楚了!

什么是组间差异检验?就是组间的差异分析以及显著性检验,应用统计学上的 假设检验 方法,检验组间是否有差异及其差异程度。坦率地讲,所有的差异检验都基于一个假设:组间没有差异,变量之间没有关系(即原假设, )。上海交大王成老师也说方差分析其实研究的就是不同水平下是否有差异化的假设检验问题。而假设检验就是先对总体参数提出某种假设,然后利用样本信息判断假设是否成立的过程。

所以,本着负责的态度,在本文的开始我们有必要回顾一下《概率论与数理统计》中关于假设检验的基本概念。

其中 参数 这个概念最值得我们好好体会,因为今天的主角 组间差异检验 ,在这个水平上可以分为两类:参数检验和非参数检验。那么什么叫参数检验和非参数检验,它们之间的区别是什么呢。要理解前面的问题,首先需要明白统计推断的概念。

统计推断是研究如何利用样本数据来推断总体特征的统计学方法,包括参数估计和假设检验两大类。总体的参数一般是未知的,通常可以用样本统计量来对总体的参数进行估计,例如可以用样本均值对总体均值进行点估计,利用样本均值的分布对总体均值进行区间估计,这些都称为参数估计。

参数检验和非参数检验的区别:

那么什么时候用参数检验,什么时候用非参数检验呢?非参数检验一般不直接用样本观察值作分析,统计量的计算基于原始数据在整个样本中的秩次,丢弃了观察值的具体数值,因此凡适合参数检验的资料,应首选参数检验。但是不清楚是否合适参数检验的资料,则应采用非参数检验。

此处也许大家期待作者带我们温习一下假设检验的4 个步骤(提出假设;构造检验统计量;根据显著水平,确定临界值和拒绝域;做出检验决策),但是带有几分傲气的作者绝情地不为我们没有学好的课程补刀,补课的事情让我们自己去做,他转而讲自己认为重要的知识点:抽样分布。

知道我们的研究对象整体处于什么状态,是一件非常重要的事情。三大抽样分布( -分布、 分布、 -分布)和正态分布共同构成了现代数理统计学的基础,其中,正态分布和 -分布是关于均值的分布; 分布、 -分布是关于方差的分布。很多同学做统计做了很多年,却不知道为什么几乎每个方差分析都有 值。可见,统计学拼到最后拼的都是 基础

离开分布,假设检验无从谈起;离开假设检验,差异分析毫无根基。同样地,出于人道主义,我们来重温一下抽样分布。

设 X 1 ,X 2 ,......X n 相互独立, 都服从标准正态分布N(0,1), 则称随机变量χ 2 =X 1 2 +X 2 2 +......+X n 2 所服从的分布为自由度为 n 的 分布

设 服从标准正态分布N(0,1), 服从自由度为n的 分布,且 、 相互独立,则称变量 所服从的分布为自由度为n的 -分布

设 服从自由度为 的 分布, 服从自由度为 的 分布,且 、 相互独立,则称变量 所服从的分布为 分布,其中第一自由度为 ,第二自由度为 。一般滴,这里F就是均方之比。

不管是参数检验还是非参数检验,都要基于特定的分布来做假设检验。当总体分布已知时,例如总体服从正态分布,我们可以根据给定的显著性水平(通常为0.01 或0.05)查表获得临界值。当总体分布未知时,可以先用Permutation test 构造经验分布,再根据显著性水平获得临界值。

传统的统计量检验的方法是在检验之前确定显著性水平 ,也就意味着事先确定了临界值和拒绝域。这样,不论检验统计量的值是大还是小,只要它的值落入拒绝域就拒绝原假设,否则就不拒绝原假设。这种给定显著性水平的方法,无法给出观测数据与原假设之间不一致程度的精确度量。要测量出样本观测数据与原假设中假设值的偏离程度,则需要计算pvalue值。pvalue 值,也称为观测到的显著性水平,它表示为如果原假设 正确时得到实际观测样本结果的概率。pvalue 值越小,说明实际观测到的数据与 之间的不一致的程度就越大,检验的结果就越显著。

变量较多,判断组间差异时需要多重检验的情况在宏基因组扩增子差异分析中十分常见。这种情况下,基于单次比较的检验标准将变得过于宽松,使得阳性结果中的错误率(FDR 值FalseDiscovery Rate)非常大(已经大到令人不可忍受的地步)。怎么办呢?最好的办法就提高判断的标准(p value),单次判断的犯错概率就会下降,总体犯错的概率也将下降。在多重检验中提高判断标准的方法,我们就称之为 多重检验校正 。从1979 年以来,统计学家提出了多种多重检验校正的方法。相应地,对p值校正之后的叫法也不一样,比如,FDR、Q value、Adjusted p-value,这个大家知道在多重检验时需要校正就行了,具体的用法作者有时间再教大家(这个作者真是皮啊~~)。

关于宏基因组或扩增子组间差异检验的理论知识就到这了,作者认为知道以上知识点是必要的,也告诉我们,今天我们讨论的是统计推断。换句话说,找差异,我们是专业的。

人民为了找差异,这才学会做统计。为了说明组间的数据差异很大,人民开发了许多沿用至今的图画,下面我们就一起来揭开这一幅幅有差异的画面。

在数据科学家的工具箱里,这是一款经久不衰、常用常新的瑞士军刀。几乎只要想到差异分析,就会想到箱线图。也开发出类箱线图的工具比如小提琴图(小提琴图Violin plot)

一般有进化树和层次聚类树,如果你想表达对象之间的距离差异,最直观的的也许就是树状图了。为了用图表示亲缘关系,把分类单位摆在图上树枝顶部,根据分枝可以表示其相互关系,具有二次元和三次元。在数量分类学上用于表型分类的树状图,称为表型树状图(phenogram),掺入系统的推论的称为系统树状图(cladogram)以资区别。

贴心的作者小朋友把实现这些图形的常见R包列给大家,安装后就能用啦

这里说的基于物种言下之意是通过统计分析,可以有针对性的找出分组间丰度变化差异显著的物种,并得到差异物种在不同分组间的富集情况,同时,可以比较组内差异和组间差异的大小,判断不同分组间的群落结构差异是否具有显著意义。也就是说可以找出区别组间的一个biomarker。

这类检验一般只输出p值,它的目的很简单,就是检验比较组之间的相似性距离是否有差异。常用的分析方法有卡方检验、Student t检验、Wilcoxon秩和检验等等。

如果只有两个样本比较,适合用卡方检验 ,不过说实在的,检验出来的结果没什么可靠性,因为现阶段16s研究不做重复实在“难以服众”了。先不说价格便宜,做重复压根没有难度,就是从生物学、统计学角度考虑,也需要做重复。

如果是两组样本(至少3重复),可以试一下Student t,Welch‘st以及Wilcoxon秩和检验 。Student t检验需要样本符合正态分布,而且方差对齐。当组间样本数不同,方差也不对齐的时候,Welch’s t检验是很好的选择。

Wilcoxon秩和检验又叫Mann-Whitney U 检验,是基于变量排名的一种统计方法,不需要样本符合正态分布,也不需要样本方差对齐,是更为广泛的检验方法,但同时也由于检验太宽松,容易带来很多假阳性。

如果是多组样本比较,可以选择one way ANOVA、TURKEY以及Kruskal-Wallis H检验等方法 。one way ANOVA和TURKEY其实都是基于方差分析,只不过后者带有后验,可以知道两个分组对整体差异的贡献度。

Kruskal-Wallis H检验本质也是一种秩和检验,与前两者的区别在于,它不需要样本数和方差的对齐,应用更为广泛。Kruskal-Wallis检验又被称之为单因素非参数方差分析。

毫不客气地讲,一般秩和检验或置换检验属于非参数检验。在这类差异检验中,有两种集成方法特别值得我们注意:LEfSe 、metastats。

得到结果展示如下,差异体现在柱形图和树状图上。LDA值分布柱状图中展示了LDA Score大于设定值(默认设置为4)的物种,即组间具有统计学差异的Biomarker。展示了不同组中丰度差异显著的物种,柱状图的长度代表差异物种的影响大小(即为 LDA Score)。

在进化分支图中,由内至外辐射的圆圈代表了由门至属(或种)的分类级别。在不同分类级别上的每一个小圆圈代表该水平下的一个分类,小圆圈直径大小与相对丰度大小呈正比。着色原则:无显著差异的物种统一着色为黄色,差异物种Biomarker跟随组进行着色,红色节点表示在红色组别中起到重要作用的微生物类群,绿色节点表示在绿色组别中起到重要作用的微生物类群,若图中某一组缺失,则表明此组中并无差异显著的物种,故此组缺失。图中英文字母表示的物种名称在右侧图例中进行展示。

metastats结果给出差异物种的p值和q值(表中 的数据是假的!)

所谓基于距离也就是检验的是群落差异而不是某个物种。上面所提及的检验方法,其实都只能告诉大家,这些分组是否有显著差异(可以简单理解为有无)。那如果想同时知道这些差异的程度(可以简单理解为多少)呢,那需要Anosim,Adonis以及MRPP等检验方法。这些方法不但可以输出检验显著性结果(p值),还有程度结果(R值),R值可以用来判断分组贡献度大小。Anosim、Adonis这些可用于多元统计检验的模型就非常适合了。要值得注意的是,Anosim本质是基于排名的算法,其实与NMDS的配合效果最好。如果是PCoA分析,建议配合使用Adonis检验结果。

Anosim(Analysis of similarities)是一种非参数检验方法。它首先通过变量计算样本间关系(或者说相似性),然后计算关系排名,最后通过排名进行置换检验判断组间差异是否显著不同于组内差异。这个检验有两个重要的数值,一个是p值,可以判断这种组间与组内的比较是否显著;一个是R值,可以得出组间与组内比较的差异程度。Anosim用来检验组间的差异是否显著大于组内差异,从而判断分组是否有意义,Anosim分析使用R vegan包anosim函数,一般基于Bray-Curtis距离值的秩次进行组间差异显著行检验,详细计算过程可查看 Anosim 。

该方法主要有两个数值结果:一个是R,用于不同组间否存在差异;一个是P,用于说明是否存在显著差异。以下分别对两个数值进行说明:
R值的计算公式如下:

rB:组间差异性秩的平均值(mean rank of between group dissimilarities)
rW:组内差异性秩的平均值(mean rank of within group dissimilarities)
n:总样本个数(the number of samples)

R的范围为[-1,1]
R>0说明组间差异大于组内差异,R<0组间差异小于组内差异。
R只是组间是否有差异的数值表示,并不提供显著性说明。

P值则说明不同组间差异是否显著,该P值通过置换检验(Permutation Test)获得。
置换检验大致原理:(假设原始分组为实验组和对照组)

1、对所有样本进行随机分组,即实验组和对照组。
2、计算当前分组时的R值,即为Ri。
3、重复当前操作N次,对所有Ri及原始R从大到小排序,R所处的位置除以N即为置换检验P值。

ADONIS又称置换多因素方差分析(permutational MANOVA)或非参数多因素方差分析(nonparametric MANOVA),是一种基于Bray-Curtis距离的非参数多元方差分析方法。它与Anosim的用途其实差不多,也能够给出不同分组因素对样品差异的解释度(R值)与分组显著性(P值)。不同点是应用的检验模型不同,ADONIS本质是基于F统计量的方差分析,所以很多细节与上述方差分析类似。该方法可分析不同分组因素对样本差异的解释度,并使用置换检验对分组的统计学意义进行显著性分析。ADONIS分析使用R vegan包adonis函数进行分析,详细计算过程可 adonis

MRPP分析与Anosim类似,但是MRPP是基于Bray-Curtis的参数检验,用于分析组间微生物群落结构的差异是否显著,通常配合PCA、PCoA、NMDS等降维图使用,MRPP分析使用R vegan包mrpp函数,详细计算过程可查看 MRPP

分子方差分析法 (AMOVA)与ANOVA类似,是基于加权或非加权Unifrac距离矩阵,检验不同组间差异显著性的非参数分析方法。一般基于Unifrac距离,使用mothur软件amova函数进行组间差异分析,详细计算过程可查看 Amova

Mantel test,Mantel test 是对两个矩阵相关关系的检验,顾名思义,是一种检验。既然是检验就得有原假设,它的原假设是两个矩阵见没有相关关系。检验过程如下:两个矩阵都对应展开,变量两列,计算相关系数(理论上什么相关系数都可以计算,但常用pearson相关系数),然后其中一列或两列同时置换,再计算一个值,permutation 成千上万次,看实际的r值在所得r值分布中的位置,如果跟随机置换得到的结果站队较近,则不大相关,如果远远比随机由此得到显著性。详细计算过程可查看 Mantel test

作者实在太懒,坚持别人已经说过的话不愿再说,只要抄过来就好了,在文章的最后他把赵小胖的一段话原版搬了过来:

无论你从事何种领域的科学研究还是统计调查,显著性检验作为判断两个乃至多个数据集之间是否存在差异的方法被广泛应用于各个科研领域。笔者作为科研界一名新人也曾经在显著性检验方面吃过许多苦头。后来醉心于统计理论半载有余才摸到显著性检验的皮毛,也为显著性检验理论之精妙,品种之繁多,逻辑之严谨所折服。在此,特写下这篇博文,以供那些仍然挣扎在显著性检验泥潭的非统计专业的科研界同僚们参考。由于笔者本人也并非统计专业毕业,所持观点粗陋浅鄙,贻笑大方之处还望诸位业界前辈,领域翘楚不吝赐教。小可在此谢过诸位看官了。

参考:

Ⅱ 如何检验两组数据是否具有显著性差异

1, 首先,分别把这两组数据分别设为x和y,打开SPSS,点击左下角的Variable View选项卡,在Name列那里的第一行输y,第二行输x,返回Data View选项卡,输入对应的数据。

3, 举个例子,如果你预先设定的a=0.05,求得的sig=0.000,则0.000<0.05,故应拒绝原假设(原假设一般为设它们之间无差异),认为这两组数有显著性差异。

(2)如何分析一组数据组间是否有差异扩展阅读:

1, 当数据之间具有了显著性差异,就说明参与比对的数据不是来自于同一总体(Population),而是来自于具有差异的两个不同总体,这种差异可能因参与比对的数据是来自不同实验对象的,比如一些一般能力测验中,大学学历被试组的成绩与小学学历被试组会有显著性差异。也可能来自于实验处理对实验对象造成了根本性状改变,因而前测后测的数据会有显著性差异。

2, 比较方法:如果数据是连续性数据,且两组数据分别服从正态分布&方差齐(方差齐性检验),则可以采用t检验,如果不服从以上条件可以采用秩和检验。

3, 想知道两组数据是否有明显差异?不知道这个明显差异是什么意思?是问差别有无统计学意义(即差别的概率有多大)还是两总体均数差值在哪个范围波动?如果是前者则可以用第2步可以得到P值,如果是后者,则是用均数差值的置信区间来完成的。当然两者的结果在SPSS中均可以得到。

4, 在统计学中,差异显著性检验是“统计假设检验”(Statistical hypothesis testing)的一种,用于检测科学实验中实验组与对照组之间是否有差异以及差异是否显著的办法[1]。

5, 在实验进行过程中,尽管尽量排除随机误差的影响,以突出实验的处理效果,但由于个体间无法避免的差异,以及诸多无法控制的因素,使得实验结果最后表现的观察值处理处理效应之外,还包括实验误差的效应。因此对两个样本进行比较时,必须判断样本间差异主要是随机误差造成的,还是本质不同或处理效应引起的。

Ⅲ 一组数据内部各数据间的差异显著性如何分析

1、首先打开excelg表格,点击文件,在弹出的下拉菜单中选择选项。

Ⅳ 一组数据怎么分析每个数据之间的显著性差异

这个问题怎么说呢,问的不是很确切,
一组数据并不存在每个数据间的显著性比较,一般都是组与组之间进行显著性比较
如果只有两个组,数据进行t检验分析就好
如果组数大于2时,进行两两比较时,可以用q检验或LSD-t检验进行两两比较
单个数据的显著性比较与数据存在的随机误差直接相关,与你想比较的处理因素就没了关系

Ⅳ 如何判断两组数据是否具有显著差异性

可以利用概率论的显著性检验来判断两组数据是否有显著性差异。
显著性检验(significance test)就是事先对总体(随机变量)的参数或总体分布形式做出一个假设,然后利用样本信息来判断这个假设(备择假设)是否合理,即判断总体的真实情况与原假设是否有显著性差异。或者说,显著性检验要判断样本与我们对总体所做的假设之间的差异是纯属机会变异,还是由我们所做的假设与总体真实情况之间不一致所引起的。 显著性检验是针对我们对总体所做的假设做检验,其原理就是“小概率事件实际不可能性原理”来接受或否定假设。
抽样实验会产生抽样误差,对实验资料进行比较分析时,不能仅凭两个结果(平均数或率)的不同就作出结论,而是要进行统计学分析,鉴别出两者差异是抽样误差引起的,还是由特定的实验处理引起的。

Ⅵ 怎么看一组数据多个时间点间有无差异性

观察有无差异性可以直接使用excel进行分析。
首先打开为Excel,添加分析工具的加载项插件,步骤:
office按钮-excel选项-加载项-转到-勾选分析工具库。
选择数据区域
数据-分析-数据分析;
选择单因素方差分析。
设置分析参数
查看分析结果
当F>F crit 0.05,则F值在a=0.05的水平上显著;如果分析时选择的参数a是0.01,那么:
当F>F crit 0.01,则判断为:极显著(**);
若F crit 0.05≤F

Ⅶ 组间差异spss分析

组间差异spss分析?三组数据的差异研究分析使用什么方法,具体得看数据的类型决定
工具原料原始数据SPSSAU
情况一:X定类 Y定量分步阅读
1
/1
如果是多个独立样本,Y服从正态分布,且个水平下总体具有相同方差,则建议使用方差分析,如果没有呈现出正态性特质,此时建议可使用非参数检验。
情况二:X定类 Y定类
1
/1
此时可以选择卡方检验,通过选择百分比进行对比判断。
如果方差齐检验结果为不齐,有两种解决方法:
1
/2
1.转换数据(如做对数变换)使得方差齐(方差分析对方差齐性要求高),再在spss-one way ANOVA-Post hoc里选多重比较的显著检验方法。
2
/2
2.使用非参数检验
对数转换可以在SPSSAU“生成变量”中完成。
差异分析方法选择
1
/1
方差和T检验的区别在于,对于T检验的X来讲,其只能为2个类别比如男和女。如果X为3个类别比如本科以下,本科,本科以上;此时只能使用方差分析。
内容仅供参考并受版权保护

Ⅷ 怎么用excel检验两组数据是否存在显着差异

实现的方法和详细的操作步骤如下:

1、首先,打开excel以输入数据,例如A组和B组数据之间的比较,如下图所示,然后进入下一步。

阅读全文

与如何分析一组数据组间是否有差异相关的资料

热点内容
苹果6手机id怎么更改 浏览:179
米家扫地机器人下载什么app 浏览:82
如何在编程猫代码岛20种树 浏览:915
手机基础信息存储在哪个文件 浏览:726
如何查找手机备份文件 浏览:792
内存清理工具formac 浏览:323
iphone过滤骚扰电话 浏览:981
wap网络如何使用微信 浏览:699
手机迅雷应用盒子在哪个文件夹 浏览:351
windows8网络连接 浏览:442
怎么快速增加qq群人数 浏览:919
锤子视频播放器文件不存在 浏览:707
苹果手机怎么清理app缓存 浏览:682
花园战争2豪华升级包 浏览:517
电脑无法向u盘传输文件 浏览:823
bpn配置文件 浏览:932
501完美越狱工具 浏览:119
中间夹菜单里面不能显示压缩文件 浏览:952
如何指导小学生参加编程比赛 浏览:275
物业的招标文件有哪些 浏览:452

友情链接