A. spss使用方法
要是连软件的安装和打开都要我啰嗦的话,我劝您还是买一套洪恩的《开天辟地》好好热热身先。
SAS 8.2的界面中间是三个并排(或层叠)的窗口,那个叫做Program Editor的窗口(窗口标签为Editor)就是用来输入SAS语句的,编程操作的所有内容都是在该窗口内完成的,各位还是要跟它先多熟悉一下。
(一)数据集(dataset)和库
统计学的操作都是针对数据的,SAS中容纳数据的文件称为数据集,数据集又包含在不同的库(暂且理解为数据库吧)中。SAS中的库分为永久性和临时性两种。顾名思义,存在于永久库中的数据集是永久存在的(只要你不去删除它),临时库中的数据集则在你退出SAS后自动被删除。至于SAS中库的概念,最简单的理解就是一个目录,一个存放数据集的目录。
数据集的结构完全等同于我们一般所理解的数据表,由字段和记录所构成,在统计学中我们习惯将字段称为变量,在后面的内容中字段和变量我们就理解为同一种东西吧!建立数据集的方法很多,编程操作中有专门的数据读入方法来建立数据集,但需要将数据现场录入,费时费力。如果数据量大,我劝各位还是先以其它方法将数据集建好,否则程序语句的绝大部分会浪费在数据的输入上。
What are 其它方法?各位是不是去参考一下别的书籍或资料。要不您是不是可以等一等,我准备若干年后出一本SAS操作大全。
(二)SAS程序概述
和其它计算机语言一样,SAS语言(称为SCL语言,SAS Component Language)也有其专有的词汇(即关键字)和语法。关键字、名字、特殊字符和运算符等按照语法规则排列组成SAS语句,而执行完整功能的若干个SAS语句就构成了SAS程序。
SAS程序包括多个步骤和一些控制语句,一般情况下均包括数据步和过程步,一个或多个、数据步或过程步,它们之间任何形式的组合均可成为一段SAS程序,只要能完成一个完整的功能。通常情况下SAS程序还包括一些全程语句,用以控制贯穿整个SAS程序的某些选项、变量或程序运行的环境。
SAS程序的语句一般以关键字开始,以一个分号结束,一条语句可占多行(SAS每看到一个分号,就将其以前、上一个分号以后的所有东东当作一条语句来处理,而不管他们处在多少个不同的行中)。SAS语句对字母的大小写不敏感,你可以根据个人习惯决定字母的大写或小写。
1. 库名(库标记)的定义
为了保存宝贵的数据和方便操作起见,我习惯于指定自己的库名及其路径(目录),因为SAS系统中已有的永久库(SASUSER)无论库名还是其对应的路径都太过繁琐,使用太不方便。程序中用到的数据,都可以永久的保存于该路径下,保证以后可以重复使用。指定库名的语句为全程语句,其格式如下:
Libname 库名 ‘路径’;
例如我们指定的库名为“a”,路径为:“e:\data\”,SAS语句如下:
libname a ‘e:\data\’;
2. 数据步
SAS的数据步以data语句开始,用于创建和处理数据集。Data语句以关键字“data”开始,格式如下:
data 数据集名;
例如:data a.case; 将创建在库a中名为case的SAS数据集,语句执行后你可在与库a对应的目录下看到刚刚建立的数据集文件case。
Data语句所指定的数据集,一般都是以“库名.数据集名”的格式出现的,也可以单独的“数据集名”出现,此时的数据集系统默认为是临时库中的数据集,退出系统后将会被删除。
data语句有两个重要的功能,标志数据步的开始和命名将要创建的SAS数据集。
除data语句外,数据步一般情况下还包括infile语句、input语句以及datalines语句等。在不同的数据输入方式下对于它们的使用方式也不一样。
SAS程序有两种常见的数据输入方式,即从外部文件读入和直接输入两种方式。
(1)外部文件读入方式
数据若已经包含在某个外部文件(文本文件或数据文件)中,可用此方法输入数据到数据集文件中。
在以上介绍的data语句后,写入以下语句:
infile ‘外部文件的所在位置及名称’ 选项;
input 变量名1变量名2 …变量名n;
infile语句用于从外部文件读入数据,必须出现在input语句之前。它的功能是指定一个包含原始数据的外部文件。
input语句用于向系统表明如何读入每一条数据记录。它的主要功能有:读入由语句指定的数据列,为相应的数据域定义变量名,确定变量的读入模式。
例如:
libname a ‘e:\data\’;
data a.student;
infile ‘e:\data\student.txt’;
input name height weight;
以上程序将目录“e:\data\”下的文本文件“student.txt”中的数据输入数据集student中,该数据集存放于目录“e:\data\”下。
(2)直接输入方式
数据量较少或操作者意志力坚强的情况下采用此种输入方式,在data语句之后写入如下语句:
input变量名1变量名2 …变量名n;
datalines;(在以前的版本下为cards,新版本下两者可通用)
… … … …(数据行)
… … … …(数据行)
… … … …(数据行)
;
datalines语句用于直接输入数据,标志着数据块的开始。
注意:这里的数据行中数据之间以空格分隔,当然也可以其它东东如逗号等来分隔,这里大家先以空格来分隔好了。因为不同的分隔方式下input语句要采取相应的控制选项,这些我们以后再讨论,这里我们还是省省力气吧。另外数据行输完后不能像其它语句那样直接在后面加上分号,而要另起一行输入分号,这样SAS才认为这是在输入原始数据而不是在搞别的什么。
例如:
libname a ‘e:\data\’;
data a.student;
input name $ height weight;(name后面的$符号表示变量name为字符型变量)
datalines;
Linda 171 51
Mary 168 50
Selinna 169 49
;
以上程序将直接建立数据集文件student,该数据集文件存放于目录“e:\data\”下。
3. 过程步
SAS程序的过程步表示一个处理过程,如排序、T检验、方差分析等等。过程步以关键字proc开始,后面紧跟着过程名,用以区分不同的程序步,并以关键字run结束。
一般的格式如下:
proc 过程名 选项列表;
……(其它语句);
……(其它语句);
run;
SAS程序中涉及的过程多达数百种,实现统计功能时常用的过程也有数十种之多,现将最为常用的过程名称及其所能实现的功能列入下表(表1.1),以便各位提前热热身。
表1.1 常用的过程名称及其功能
过程名
功 能
Sort
将指定的数据集按指定变量排序
Print
将数据集中的数据列表输出
tabulate
将数据按照指定的分类变量以表格的形式分类汇总
Means
对指定的数值变量进行简单的统计描述
Freq
对指定的分类变量进行简单的统计描述
Ttest
对指定的变量做t检验
Anova
对指定的变量做方差分析
npar1way
对指定的变量做非参数检验
Reg
对指定的变量做回归分析
Corr
对指定的变量做相关分析
Discrim
对指定的变量做判别分析
Cluster
对指定的变量做聚类分析
Chart
绘出低分辨率的统计图
4. 几个常用的重要过程
在进入一般统计学功能实现的内容之前,有关数据预处理和执行重要公共功能的过程大家有必要预先掌握,这里选出几个常用的和重要的过程进行讨论。
(1)对SAS文件进行操作的datasets过程
datasets过程是对数据文件进行管理操作的工具,利用它我们可以实现以下功能:
将SAS文件从一个库中拷入另一个库中;
对SAS文件进行重命名;
修复损坏的SAS文件;
删除SAS文件;
列出某一SAS库中所有的SAS文件;
列出一个SAS数据集的属性,如最后修改时间、数据是否压缩、数据是否索引等;
对SAS文件进行设置密码的操作;
向SAS数据集添加记录;
对SAS数据集的属性以及数据集内变量的属性进行修改;
创建或删除SAS数据集的索引;
创建并管理SAS数据集的核查文件;
创建或删除SAS数据集的完整性规则。
datasets过程的一般格式如下:
proc datasets <选项列表>;
age 当前文件名 相关文件名列表</选项列表>;
append base=数据集名 <data=数据集名 其它选项>;
audit 文件名<(操作密码)>; initiate;<其它代码;>
change 旧文件名1=新文件名1 <…旧文件名n=新文件名n> <选项列表>;
contents <data=数据集名> <其它选项>;
out=库标记 <其它选项>;
exclude 文件名 <其它选项>;(该语句只能在语句后出现,不能和select语句同时出现)
select 文件名 <其它选项>;(该语句只能在语句后出现,不能和exclude语句同时出现)
delete 文件名 <其它选项>;
exchange文件名1=交换文件名1 <…文件名n=交换文件名n> <选项列表>;
modify 文件名 <选项列表>;
<modify语句之从属语句>;
repair文件名 <选项列表>;
save文件名 <选项列表>;
run;
是不是太繁琐了,我都有些不耐烦了。不过我还是得写,已经写了嘛!不忍心浪费掉,最起码可以用来充充数,扩大一下篇幅。至于各位,嫌烦的可以略过此部分,想用的时候再来温习也不迟。下面我就不厌其烦地向各位介绍一下各选项及各条语句的含义和用法。
proc datasets语句后各选项的含义及用法见下表(表1.2)。
表1.2 proc datasets语句后各选项的含义及用法
选项
含义及用法
alter=转换保护密码
SAS文件设置有转换操作密码时用以验证操作的合法性,密码正确时代码才会被执行
details/nodetails
控制有关SAS文件的详细信息显示与否,前者为显示,后者不显示,默认值为后者
force
此选项具有两个功能:(1)在过程步的语句存在错误时仍然强制程序的执行;(2)在append语句中,两个数据集的变量不完全相同时仍然强制append语句的执行。
gennum=
控制对衍生数据集的处理方式,等号后可为all, hist, revert或某一整数
kill
此选项表示删除待处理的库中的所有文件,应慎用
library=库标记
用以指定所要处理的库
memtype=成员类型
指定处理所针对的库成员类型(文件类型),默认值为all(所有类型)
nolist
在日志文件中禁止对所处理文件目录的显示
nowarn
在语句中指定的文件不存在等情况下,禁止显示出错信息,强制程序继续执行
pw=操作密码
SAS文件设置操作密码时验证操作的合法性(包括读、写保护以及转换保护的文件)
read=读保护密码
SAS文件设置读保护密码时验证操作的合法性
age语句用于批量地重命名文件,按照当前文件和相关文件的排列顺序,依次将后一个文件名重命名给前一个文件,结果是最后一个文件被删除,当前文件名被废弃。
对此语句我所了解的就这么多,而且还是通过试验得出的结论,但总感觉还是理解的不对,哪位若有高见还请不吝赐教。
append语句执行向数据集添加记录的功能,选项“base=数据集名”用以指定要添加记录的数据集,“data=数据集名”则指定所要添加的记录所在的数据集,此选项若省略则默认为当前数据集(最近一次操作的数据集)。
audit语句用于对文件的核查,生成核查文件并对其进行管理;change语句以新文件名替换旧文件名;contents语句用于显示指定数据集或当前数据集的各种属性;语句用于将当前库中相应的文件拷贝到指定的库中,选项“out=库标记”用来指定文件要拷贝到的目标库;delete语句用于删除指定的文件;exchange语句的功能是将等号前后两个文件的文件名进行互换;modify语句用于修改文件各方面的属性;repair语句用于对指定的文件(受到过某种损坏)进行修复,使其恢复到可以使用的状态;save语句的功能是将其指定的文件保留,当前库中的其他所有文件则被删除。
(2)对数据文件中记录进行排序的sort过程
sort过程的功能是对指定数据集中的记录按照指定的变量进行排序。由于诸多过程有对数据集记录进行排序的需要,比如过程步中存在by语句(用以将数据文件分割为若干部分)的情况下,就需要按照by语句后的变量对数据先行排序,所以sort过程非常有用,而且非常常用。
sort过程的一般格式如下:
proc sort 选项列表;
by <descending> 变量名1 <变量名2 … 变量名n>;
run;
proc sort语句后各选项含义及其用法见下表(表1.3)。
表1.3 proc sort语句后各选项含义及其用法
选项
含义及用法
data=数据集名
用以指定sort过程所要处理的数据集,若省略则默认为最近建立或处理的数据集
date
此选项指定在不改变文件创建日期和修改日期的条件下对文件进行排序操作
out=数据集名
将排序后文件以指定的文件名存储,原文件不进行任何修改,若无此选项则将原文件覆盖
sortseq=排序依据
指定对字符型变量排序时依据的标准
reverse/equals/noequals
指定输出数据中的排序方式,三者分别表示将字符变量的次序翻转显示,在排序变量的各水平内部次序保持不变,在排序变量的各水平内部允许次序的改变
nopkey/noprecs
指定重复变量的消除方式,前者表示除去排序变量值重复的记录,后者表示除去所有变量值重复的记录
sortsize=
用以指定可用最大内存的大小,等号后为表示内存大小的数值及单位,比如10m
force
用以强制执行重复排序(对已建立索引的文件排序)过程
tagsort
指定在临时文件中仅存储排序变量和记录编号,以减少对磁盘空间的使用
by语句即用以指定排序所要依据的变量,变量可为数值型也可为字符型,其后可指定多个变量,sort过程在按照靠前的变量进行排序的情况下再按照靠后的变量进行排序。by语句中每个变量前可用descending/ascending选项来指定按照其排序的方式(降序或升序),默认状态为升序。
(3)将数据文件输出显示的print过程
print过程的功能是将SAS数据集的记录以一定的方式显示到输出设备(显示屏),可以显示其全部的变量或部分变量。利用此过程,你可以创建从简单列表到可进行数据汇总的各种报告的各种不同的表单。
print过程的一般格式如下:
proc print 选项列表;
by <descending> 变量名1 <变量名2 … 变量名n 其他选项>;
pageby 变量名;
sumby 变量名;
id 变量名;
sum变量名;
var变量名;
run;
proc print语句后可跟的选项含义及其用法见下表(表1.4)
表1.4 proc print语句后选项含义及其用法
选项
含义及用法
contents=文本
用以指定html内容文件中指向输出的链接的标识文本,等号后可为任何文本
data=数据集名
指定所要处理的数据集,等号后为数据集文件名
double
指定在相邻的记录间插入一空行
n=字符串
在报告的末尾或by变量各水平分组的末尾显示显示记录的数目,并以等号后的字符串对其进行标识
noobs
禁止记录编号在报告中的显示
obs=列标题
用以指定记录编号所在列的列标题
round
对未进行格式化的数值变量进行四舍五入,统一格式化为带两位小数的十进制数值
rows=page
规定页面格式,目前’page’是此选项唯一可用的值,表示在每一页中只显示一条记录的一行变量值,即一行中显示尽可能多的记录数
width=列宽度
指定列的宽度,可取的值有’full’,’minimum’,’uniform’,’uniformby’等,
heading=方向
取值可为v(vertical)或h(horizontal),表示列标题显示的方向(横向或纵向)
label
指定以变量标识作为相应的列标题,否则以变量名作为列标题
split=字符
首先此选项指定以变量标识作为列标题,以指定的字符作为列标题换行的标志
style=类型元素
指定报告中特定位置所要应用的类型元素(涉及很多内容,详细内容略)
by语句在所有过程中的用法都相同,即将数据集分割为若干小数据集分别进行处理。pageby语句用来控制换页时变量的显示方式,对于其后所指定的变量,相同的值不会显示在不同的页中,该变量某一值的记录在一页的剩余部分显示不下时,则从该值的第一条记录开始换行显示。sumby语句的作用和pageby语句相似,只不过是将换页的动作换为求和,对指定变量的每一值计算var变量的总计值。id语句的作用是用指定的变量值代替记录编号对每一条记录进行标识。sum语句用于指定报告中要进行求和操作的变量,var语句用于指定要在报告中显示的变量。
以上过程作用较为普遍,使用频率较高,有必要预先了解,以便于后面所讨论内容的顺利进行。
为节省篇幅,这里不进行实例演示。内容过于枯燥,可能的错误也难免,还请各位多多包涵。
SAS程序操作的大概情况就草草的这样介绍一下吧,说得太多的话我怕各位没有耐心看下去。更多的内容我想还是留在实际的例子中来介绍,这样大家可以好好的切身体会一下,然后就会印象深刻,实际运用起来也就得心应手了。
B. 如何应用spss数据库选择数据
(一) 数据准备
FAQ:这里为什么用数据准备而不用数据采集?
数据采集是一个非常繁杂漫长的过程,数据采集来源、采集频率、采集人员安排等等这些足够写一篇文章,同时这里所要谈的这个过程是从数据开始说起的,至于这些数据如何而来,这里不作讨论。
数据准备过程主要包括两部分内容:SPSS数据文件的建立和变量编辑。在SPSS数据文件建立之前,我们需要分析的数据可能以各种各样的形态存在,可能需要手动录入(小批量的数据,但通常数据的录入不在SPSS中直接进行),也可能是以其他格式形态存在,例如:.xls/.xlsx/.xlsm格式,.txt文本格式或.CSV格式,SPSS支持多种数据格式文件的导入。
除此之外,SPSS还可以直接从数据库中导入数据,利用数据库导入方式导入数据。这里需要注意的是,SPSS每执行一条指令,都会重新读取所需的数据,如果你所取的数据是利用SQL语句从远程数据库中调用的数据文件,那么将会非常耗时,此时的小技巧是利用好Cache data功能,建立活动的数据缓存区,那样SPSS的运算速度会提升很多。
SPSS数据文件成功建立后,接下来的准备工作则是对变量属性进行适当的调整和完善。例如你从公司的网站后台提取销售数据,后台数据库为了记录方便通常是将各种渠道销售数据用数字代码表示,而将这些数据成功的建成SPSS数据文件后,此时你需要对渠道代码进行编码说明,对缺失值进行标记等等。
(二) 数据清洗
此过程主要为下一步数据分析做进一步的准备,最终将数据清洗为满足分析需求的具体数据集。期间主要内容包括:
1)数据集的预先分析:对数据进行必要的分析,如数据分组、排序、分布图、平均数、标准差描述等,以掌握数据的基本特点和基本情况,保证后续工作的有效性,也为确定应采用的统计检验方法提供依据
2) 相关变量缺失值的查补检查
3)分析前相关的校正和转换工作,如根据销售额对观测值进行分类,形成新的分类变量,从对应的身份证信息中提取出地区、年龄、性别等新的变量信息等
4)观测值的抽样筛选,如抽取销售额大于10万的产品等
5)其他数据清洗工作
Tips:期间注意规划好清洗步骤和数据备份工作。
(三) 数据分析
此阶段主要根据需求,选择合适的统计方法进行统计分析和数据图表的制作,这里选择合适的方法是关键,相关操作SPSS软件已经标准流程化,我们只需要选择合适的参数进行相关操作即可。下表是根据自变量与因变量数目对各种统计方法的一个归类:
除了上述方法外,SPSS 17.0以上的版本还提供了一个直销模块,这部分内容是对市场营销活动中的用的比较多的模型的整理浓缩,本贴暂时不对数据分析的相关内容做深入详细的介绍,以后将针对案例对这部分内容进行详细叙述。
(四) 数据展现
常常听到有人抱怨SPSS输出的图表太丑,修改编辑起来太麻烦,真的是这样吗?其实SPSS软件有提供很多的图表供大家选择,太多的时候,我们所使用的只是其中的一种而已。除此之外,SPSS也提供自己定义图表模版功能供我们自由操作。
SPSS的菜单操作通常会输出很多多余的结果,对这些结果进行有针对性的挑选和组合才是工作的重点,而不是一味的将所有分析结果一股脑的全搬到报告中去,在写报告前对这些结果进行合理的简化和整合是必须的,与此同时,相应的结果解释(探讨是否接受或拒绝研究假设,解释结果形成的原因)以及相关含义衍生都在此部分完成。例如,我们进行方差分析时,SPSS可能直接输出如下图的结果,但我们展现结果的时候并不需要这么多看起来让人眼花的数据结果,只需要从下表中提取出需要的那部分即可。
注:这里举这个示例只是表达一种方法,对于模型的结果完整性并未作太多的考究
从上表三因素方差分析表可知,整体模型达显著水平。其中Day和Round的主效应达到显著水平,但Gender的主效应未达到显著水平。除此之外,此模型还未考虑三者之间的交互效应……(结合其他图表的结果作深一步的分析说明,并结合业务情况对结果进行分析说明)。
C. spss软件怎么用
第一节 Linear过程 8.1.1 主要功能 调用此过程可完成二元或多元的线性回归分析。在多元线性回归分析中,用户还可根据需要,选用不同筛选自变量的方法(如:逐步法、向前法、向后法,等)。 返回目录 返回全书目录 8.1.2 实例操作 〔例8.1〕某医师测得10名3岁儿童的身高(cm)、体重(kg)和体表面积(cm2)资料如下。试用多元回归方法确定以身高、体重为自变量,体表面积为应变量的回归方程。 儿童编号 体表面积(Y) 身高(X1) 体重(X2) 12345678910 5.3825.2995.3585.2925.6026.0145.8306.1026.0756.411 88.087.688.589.087.789.588.890.490.691.2 11.011.812.012.313.113.714.414.915.216.0 8.1.2.1 数据准备 激活数据管理窗口,定义变量名:体表面积为Y,保留3位小数;身高、体重分别为X1、X2,1位小数。输入原始数据,结果如图8.1所示。 图8.1 原始数据的输入 8.1.2.2 统计分析 激活Statistics菜单选Regression中的Linear...项,弹出Linear Regression对话框(如图8.2示)。从对话框左侧的变量列表中选y,点击Ø钮使之进入Dependent框,选x1、x2,点击Ø钮使之进入Indepentdent(s)框;在Method处下拉菜单,共有5个选项:Enter(全部入选法)、Stepwise(逐步法)、Remove(强制剔除法)、Backward(向后法)、Forward(向前法)。本例选用Enter法。点击OK钮即完成分析。 图8.2 线性回归分析对话框 用户还可点击Statistics...钮选择是否作变量的描述性统计、回归方程应变量的可信区间估计等分析;点击Plots...钮选择是否作变量分布图(本例要求对标准化Y预测值作变量分布图);点击Save...钮选择对回归分析的有关结果是否作保存(本例要求对根据所确定的回归方程求得的未校正Y预测值和标准化Y预测值作保存);点击Options...钮选择变量入选与剔除的α、β值和缺失值的处理方法。 8.1.2.3 结果解释 在结果输出窗口中将看到如下统计数据: * * * * M U L T I P L E R E G R E S S I O N * * * * Listwise Deletion of Missing DataEquation Number 1 Dependent Variable.. YBlock Number 1. Method: Enter X1 X2 Variable(s) Entered on Step Number 1.. X2 2.. X1 Multiple R .94964R Square .90181Adjusted R Square .87376Standard Error .14335Analysis of Variance DF Sum of Squares Mean SquareRegression 2 1.32104 .66052Resial 7 .14384 .02055F = 32.14499 Signif F = .0003 ------------------ Variables in the Equation ------------------Variable B SE B Beta T Sig TX1 .068701 .074768 .215256 .919 .3887X2 .183756 .056816 .757660 3.234 .0144(Constant) -2.856476 6.017776 -.475 .6495 End Block Number 1 All requested variables entered. 结果显示,本例以X1、X2为自变量,Y为应变量,采用全部入选法建立回归方程。回归方程的复相关系数为0.94964,决定系数(即r2)为0.90181,经方差分析,F=34.14499,P=0.0003,回归方程有效。回归方程为Y=0.0687101X1+0.183756X2-2.856476。 本例要求按所建立的回归方程计算Y预测值和标准化Y预测值(所谓标准化Y预测值是指将根据回归方程求得的Y预测值转化成按均数为0、标准差为1的标准正态分布的Y值)并将计算结果保存入原数据库。系统将原始的X1、X2值代入方程求Y值预测值(即库中pre_1栏)和标准化Y预测值(即库中zpr_1栏),详见图8.3。 图8.3 计算结果的保存 本例还要求对标准化Y预测值作变量分布图,系统将绘制的统计图送向Chart Carousel窗口,双击该窗口可见下图显示结果。 图8.4 对标准化Y预测值所作的正态分布图]
D. spss数据分析如何建立数据库医院
spss数据分析建立数据库医院方法如下所示:
需要在excel中添加加载项--数据分析库,然后就可以进行数据自动生成了,以专业的术语叫做“随机数发生器”。
E. 怎么使用SPSS软件
当我们的调查问卷在把调查数据拿回来后,我们该做的工作就是用相关的统计软件进行处理,在此,我们以spss为处理软件,来简要说明一下问卷的处理过程,它的过程大致可分为四个过程:定义变量、数据录入、统计分析和结果保存.下面将从这四个方面来对问卷的处理做详细的介绍.
Spss处理:
第一步:定义变量
大多数情况下我们需要从头定义变量,在打开SPSS后,我们可以看到和excel相似的界面,在界面的左下方可以看到Data View, Variable View两个标签,只需单击左下方的Variable View标签就可以切换到变量定义界面开始定义新变量。在表格上方可以看到一个变量要设置如下几项:name(变量名)、type(变量类型)、width(变量值的宽度)、decimals(小数位) 、label(变量标签) 、Values(定义具体变量值的标签)、Missing(定义变量缺失值)、Colomns(定义显示列宽)、Align(定义显示对齐方式)、Measure(定义变量类型是连续、有序分类还是无序分类).
我们知道在spss中,我们可以把一份问卷上面的每一个问题设为一个变量,这样一份问卷有多少个问题就要有多少个变量与之对应,每一个问题的答案即为变量的取值.现在我们以问卷第一个问题为例来说明变量的设置.为了便于说明,可假设此题为:
1.请问你的年龄属于下面哪一个年龄段( )?
A:20—29 B:30—39 C:40—49 D:50--59
那么我们的变量设置可如下: name即变量名为1,type即类型可根据答案的类型设置,答案我们可以用1、2、3、4来代替A、B、C、D,所以我们选择数字型的,即选择Numeric, width宽度为4,decimals即小数位数位为0(因为答案没有小数点),label即变量标签为“年龄段查询”。Values用于定义具体变量值的标签,单击Value框右半部的省略号,会弹出变量值标签对话框,在第一个文本框里输入1,第二个输入20—29,然后单击添加即可.同样道理我们可做如下设置,即1=20—29、2=30—39、3=40—49、4=50--59;Missing,用于定义变量缺失值, 单击missing框右侧的省略号,会弹出缺失值对话框, 界面上有一列三个单选钮,默认值为最上方的“无缺失值”;第二项为“不连续缺失值”,最多可以定义3个值;最后一项为“缺失值范围加可选的一个缺失值”,在此我们不设置缺省值,所以选中第一项如图;Colomns,定义显示列宽,可自己根据实际情况设置;Align,定义显示对齐方式,有居左、居右、居中三种方式;Measure,定义变量类型是连续、有序分类还是无序分类。
以上为问卷中常见的单项选择题型的变量设置,下面将对一些特殊情况的变量设置也作一下说明.
1.开放式题型的设置:诸如你所在的省份是_____这样的填空题即为开放题,设置这些变量的时候只需要将Value 、Missing两项不设置即可.
2.多选题的变量设置:这类题型的设置有两种方法即多重二分法和多重分类法,在这里我们只对多重二分法进行介绍.这种方法的基本思想是把该题每一个选项设置成一个变量,然后将每一个选项拆分为两个选项项,即选中该项和不选中该项.现在举例来说明在spss中的具体操作.比如如下一例:
请问您通常获取新闻的方式有哪些( )
1 报纸 2 杂志 3 电视 4 收音机 5 网络
在spss中设置变量时可为此题设置五个变量,假如此题为问卷第三题,那么变量名分别为3_1、3_2、3_3、3_4、3_5,然后每一个选项有两个选项选中和不选中,只需在Value一项中为每一个变量设置成1=选中此项、0=不选中此项即可.
使用该窗口,我们可以把一个问卷中的所有问题作为变量在这个窗口中一次定义。
到此,我们的定义变量的工作就基本上可以结束了.下面我们要作就是数据的录入了.首先,我们要回到数据录入窗口,这很简单,只要我们点击软件左下方的Data View标签就可以了.
第二步:数据录入
Spss数据录入有很多方式,大致有一下几种:
1.读取SPSS格式的数据
2.读取Excel等格式的数据
3.读取文本数据(Fixed和Delimiter)
4.读取数据库格式数据(分如下两步)
(1)配置ODBC (2)在SPSS中通过ODBC和数据库进行
但是对于问卷的数据录入其实很简单,只要在spss的数据录入窗口中直接输入就可以了,只是在这里有几点注意的事项需要说明一下.
1. 在数据录入窗口,我们可以看到有一个表格,这个表格中的每一行代表一份问卷,我们也称为一个个案.
2. 在数据录入窗口中,我们可以看到表格上方出现了1、2、3、4、5…….的标签名,这其实是我们在第一步定义变量中,我们为问卷的每一个问题取的变量名,即1代表第一题,2代表第二题.以次类推.我们只需要在变量名下面输入对应问题的答案即可完成问卷的数据录入.比如上述年龄段查询的例题,如果问卷上勾选了A答案,我们在1下面输入1就行了(不要忘记我们通常是用1、2、3、4来代替A、B、C、D的).
3.我们知道一行代表一份问卷,所以有几分问卷,就要有几行的数据.
在数据录入完成后,我们要做的就是我们的关键部分,即问卷的统计分析了,因为这时我们已经把问卷中的数据录入我们的软件中了.
第三步:统计分析
有了数据,可以利用SPSS的各种分析方法进行分析,但选择何种统计分析方法,即调用哪个统计分析过程,是得到正确分析结果的关键。这要根据我们的问卷调查的目的和我们想要什么样的结果来选择.SPSS有数值分析和作图分析两类方法.
1.作图分析:
在SPSS中,除了生存分析所用的生存曲线图被整合到Analyze菜单中外,其他的统计绘图功能均放置在graph菜单中。该菜单具体分为以下几部分::
(1)Gallery:相当于一个自学向导,将统计绘图功能做了简单的介绍,初学者可以通过它对SPSS的绘图能力有一个大致的了解。
(2)Interactive:交互式统计图。
(3)Map:统计地图。
(4)下方的其他菜单项是我们最为常用的普通统计图,具体来说有:
条图
散点图
线图
直方图
饼图
面积图
箱式图
正态Q-Q图
正态P-P图
质量控制图
Pareto图
自回归曲线图
高低图
交互相关图
序列图
频谱图
误差线图
作图分析简单易懂,一目了然,我们可根据需要来选择我们需要作的图形,一般来讲,我们较常用的有条图,直方图,正态图,散点图,饼图等等,具体操作很简单,大家可参阅相关书籍,作图分析更多情况下是和数值分析相结合来对试卷进行分析的,这样的效果更好.
2.数值分析:
SPSS 数值统计分析过程均在Analyze菜单中,包括:
(1)、Reports和Descriptive Statistics:又称为基本统计分析.基本统计分析是进行其他更深入的统计分析的前提,通过基本统计分析,用户可以对分析数据的总体特征有比较准确的把握,从而选择更为深入的分析方法对分析对象进行研究。Reports和Descriptive Statistics命令项中包括的功能是对单变量的描述统计分析。
Descriptive Statistics包括的统计功能有:
Frequencies(频数分析):作用:了解变量的取值分布情况
Descriptives(描述统计量分析):功能:了解数据的基本统计特征和对指定的变量值进行标准化处理
Explore(探索分析):功能:考察数据的奇异性和分布特征
Crosstabs(交叉分析):功能:分析事物(变量)之间的相互影响和关系
Reports包括的统计功能有:
OLAP Cubes(OLAP报告摘要表):功能: 以分组变量为基础,计算各组的总计、均值和其他统计量。而输出的报告摘要则是指每个组中所包含的各种变量的统计信息。
Case Summaries(观测量列表):察看或打印所需要的变量值
Report Summaries in Row:行形式输出报告
Report Summaries in Columns:列形式输出报告
(2)、Compare Means(均值比较与检验):能否用样本均值估计总体均值?两个变量均值接近的样本是否来自均值相同的总体?换句话说,两组样本某变量均值不同,其差异是否具有统计意义?能否说明总体差异?这是各种研究工作中经常提出的问题。这就要进行均值比较。
以下是进行均值比较及检验的过程:
MEANS过程:不同水平下(不同组)的描述统计量,如男女的平均工资,各工种的平均工资。目的在于比较。术语:水平数(指分类变量的值数,如sex变量有2个值,称为有两个水平)、单元Cell(指因变量按分类变量值所分的组)、水平组合
T test 过程:对样本进行T检验的过程
单一样本的T检验:检验单个变量的均值是否与给定的常数之间存在差异。
独立样本的T检验:检验两组不相关的样本是否来自具有相同均值的总体(均值是否相同,如男女的平均收入是否相同,是否有显著性差异)
配对T检验:检验两组相关的样本是否来自具有相同均值的总体(前后比较,如训练效果,治疗效果)
One-Way ANOVA:一元(单因素)方差分析,用于检验几个(三个或三个以上)独立的组,是否来自均值相同的总体。
(3)、ANOVA Models(方差分析):方差分析是检验多组样本均值间的差异是否具有统计意义的一种方法。例如:医学界研究几种药物对某种疾病的疗效;农业研究土壤、肥料、日照时间等因素对某种农作物产量的影响;不同饲料对牲畜体重增长的效果等,都可以使用方差分析方法去解决
(4)、Correlate(相关分析):它是研究变量间密切程度的一种常用统计方法,常用的相关分析有以下几种:
1、线性相关分析:研究两个变量间线性关系的程度。用相关系数r来描述。
2、偏相关分析:它描述的是当控制了一个或几个另外的变量的影响条件下两个变量间的相关性,如控制年龄和工作经验的影响,估计工资收入与受教育水平之间的相关关系
3、相似性测度:两个或若干个变量、两个或两组观测量之间的关系有时也可以用相似性或不相似性来描述。相似性测度用大值表示很相似,而不相似性用距离或不相似性来描述,大值表示相差甚远
(5)、Regression(回归分析):功能:寻求有关联(相关)的变量之间的关系在回归过程中包括:Liner:线性回归;Curve Estimation:曲线估计;Binary Logistic: 二分变量逻辑回归;Multinomial Logistic:多分变量逻辑回归;Ordinal 序回归;Probit:概率单位回归;Nonlinear:非线性回归;Weight Estimation:加权估计;2-Stage Least squares:二段最小平方法;Optimal Scaling 最优编码回归;其中最常用的为前面三个.
(6)、Nonparametric Tests(非参数检验):是指在总体不服从正态分布且分布情况不明时,用来检验数据资料是否来自同一个总体假设的一类检验方法。由于这些方法一般不涉及总体参数故得名。
非参数检验的过程有以下几个:
1.Chi-Square test 卡方检验
2.Binomial test 二项分布检验
3.Runs test 游程检验
4.1-Sample Kolmogorov-Smirnov test 一个样本柯尔莫哥洛夫-斯米诺夫检验
5.2 independent Samples Test 两个独立样本检验
6.K independent Samples Test K个独立样本检验
7.2 related Samples Test 两个相关样本检验
8.K related Samples Test 两个相关样本检验
(7)、Data Rection(因子分析)
(8)、Classify(聚类与判别)等等
以上就是数值统计分析Analyze菜单下几项用于分析的数值统计分析方法的简介,在我们的变量定义以及数据录入完成后,我们就可以根据我们的需要在以上几种分析方法中选择若干种对我们的问卷数据进行统计分析,来得到我们想要的结果.
第四步:结果保存
我们的spss软件会把我们统计分析的多有结果保存在一个窗口中即结果输出窗口(output),由于spss软件支持复制和粘贴功能,这样我们就可以把我们想要的结果复制、粘贴到我们的报告中,当然我们也可以在菜单中执行file->save来保存我们的结果,一般情况下,我们建议保存我们的数据,结果可不保存.因为只要有了数据,如果我们想要结果的,我们可以随时利用数据得到结果.
总结:
以上便是spss处理问卷的四个步骤,四个步骤结束后,我们需要spss软件做的工作基本上也就结束了,接下来的任务就是写我们的统计报告了.值得一提的是.spss是一款在社会统计学应用非常广泛的统计类软件,学好它将对我们以后的工作学习产生很大的意义和作用.