A. spss使用方法
要是連軟體的安裝和打開都要我啰嗦的話,我勸您還是買一套洪恩的《開天闢地》好好熱熱身先。
SAS 8.2的界面中間是三個並排(或層疊)的窗口,那個叫做Program Editor的窗口(窗口標簽為Editor)就是用來輸入SAS語句的,編程操作的所有內容都是在該窗口內完成的,各位還是要跟它先多熟悉一下。
(一)數據集(dataset)和庫
統計學的操作都是針對數據的,SAS中容納數據的文件稱為數據集,數據集又包含在不同的庫(暫且理解為資料庫吧)中。SAS中的庫分為永久性和臨時性兩種。顧名思義,存在於永久庫中的數據集是永久存在的(只要你不去刪除它),臨時庫中的數據集則在你退出SAS後自動被刪除。至於SAS中庫的概念,最簡單的理解就是一個目錄,一個存放數據集的目錄。
數據集的結構完全等同於我們一般所理解的數據表,由欄位和記錄所構成,在統計學中我們習慣將欄位稱為變數,在後面的內容中欄位和變數我們就理解為同一種東西吧!建立數據集的方法很多,編程操作中有專門的數據讀入方法來建立數據集,但需要將數據現場錄入,費時費力。如果數據量大,我勸各位還是先以其它方法將數據集建好,否則程序語句的絕大部分會浪費在數據的輸入上。
What are 其它方法?各位是不是去參考一下別的書籍或資料。要不您是不是可以等一等,我准備若干年後出一本SAS操作大全。
(二)SAS程序概述
和其它計算機語言一樣,SAS語言(稱為SCL語言,SAS Component Language)也有其專有的詞彙(即關鍵字)和語法。關鍵字、名字、特殊字元和運算符等按照語法規則排列組成SAS語句,而執行完整功能的若干個SAS語句就構成了SAS程序。
SAS程序包括多個步驟和一些控制語句,一般情況下均包括數據步和過程步,一個或多個、數據步或過程步,它們之間任何形式的組合均可成為一段SAS程序,只要能完成一個完整的功能。通常情況下SAS程序還包括一些全程語句,用以控制貫穿整個SAS程序的某些選項、變數或程序運行的環境。
SAS程序的語句一般以關鍵字開始,以一個分號結束,一條語句可佔多行(SAS每看到一個分號,就將其以前、上一個分號以後的所有東東當作一條語句來處理,而不管他們處在多少個不同的行中)。SAS語句對字母的大小寫不敏感,你可以根據個人習慣決定字母的大寫或小寫。
1. 庫名(庫標記)的定義
為了保存寶貴的數據和方便操作起見,我習慣於指定自己的庫名及其路徑(目錄),因為SAS系統中已有的永久庫(SASUSER)無論庫名還是其對應的路徑都太過繁瑣,使用太不方便。程序中用到的數據,都可以永久的保存於該路徑下,保證以後可以重復使用。指定庫名的語句為全程語句,其格式如下:
Libname 庫名 『路徑』;
例如我們指定的庫名為「a」,路徑為:「e:\data\」,SAS語句如下:
libname a 『e:\data\』;
2. 數據步
SAS的數據步以data語句開始,用於創建和處理數據集。Data語句以關鍵字「data」開始,格式如下:
data 數據集名;
例如:data a.case; 將創建在庫a中名為case的SAS數據集,語句執行後你可在與庫a對應的目錄下看到剛剛建立的數據集文件case。
Data語句所指定的數據集,一般都是以「庫名.數據集名」的格式出現的,也可以單獨的「數據集名」出現,此時的數據集系統默認為是臨時庫中的數據集,退出系統後將會被刪除。
data語句有兩個重要的功能,標志數據步的開始和命名將要創建的SAS數據集。
除data語句外,數據步一般情況下還包括infile語句、input語句以及datalines語句等。在不同的數據輸入方式下對於它們的使用方式也不一樣。
SAS程序有兩種常見的數據輸入方式,即從外部文件讀入和直接輸入兩種方式。
(1)外部文件讀入方式
數據若已經包含在某個外部文件(文本文件或數據文件)中,可用此方法輸入數據到數據集文件中。
在以上介紹的data語句後,寫入以下語句:
infile 『外部文件的所在位置及名稱』 選項;
input 變數名1變數名2 …變數名n;
infile語句用於從外部文件讀入數據,必須出現在input語句之前。它的功能是指定一個包含原始數據的外部文件。
input語句用於向系統表明如何讀入每一條數據記錄。它的主要功能有:讀入由語句指定的數據列,為相應的數據域定義變數名,確定變數的讀入模式。
例如:
libname a 『e:\data\』;
data a.student;
infile 『e:\data\student.txt』;
input name height weight;
以上程序將目錄「e:\data\」下的文本文件「student.txt」中的數據輸入數據集student中,該數據集存放於目錄「e:\data\」下。
(2)直接輸入方式
數據量較少或操作者意志力堅強的情況下採用此種輸入方式,在data語句之後寫入如下語句:
input變數名1變數名2 …變數名n;
datalines;(在以前的版本下為cards,新版本下兩者可通用)
… … … …(數據行)
… … … …(數據行)
… … … …(數據行)
;
datalines語句用於直接輸入數據,標志著數據塊的開始。
注意:這里的數據行中數據之間以空格分隔,當然也可以其它東東如逗號等來分隔,這里大家先以空格來分隔好了。因為不同的分隔方式下input語句要採取相應的控制選項,這些我們以後再討論,這里我們還是省省力氣吧。另外數據行輸完後不能像其它語句那樣直接在後面加上分號,而要另起一行輸入分號,這樣SAS才認為這是在輸入原始數據而不是在搞別的什麼。
例如:
libname a 『e:\data\』;
data a.student;
input name $ height weight;(name後面的$符號表示變數name為字元型變數)
datalines;
Linda 171 51
Mary 168 50
Selinna 169 49
;
以上程序將直接建立數據集文件student,該數據集文件存放於目錄「e:\data\」下。
3. 過程步
SAS程序的過程步表示一個處理過程,如排序、T檢驗、方差分析等等。過程步以關鍵字proc開始,後面緊跟著過程名,用以區分不同的程序步,並以關鍵字run結束。
一般的格式如下:
proc 過程名 選項列表;
……(其它語句);
……(其它語句);
run;
SAS程序中涉及的過程多達數百種,實現統計功能時常用的過程也有數十種之多,現將最為常用的過程名稱及其所能實現的功能列入下表(表1.1),以便各位提前熱熱身。
表1.1 常用的過程名稱及其功能
過程名
功 能
Sort
將指定的數據集按指定變數排序
Print
將數據集中的數據列表輸出
tabulate
將數據按照指定的分類變數以表格的形式分類匯總
Means
對指定的數值變數進行簡單的統計描述
Freq
對指定的分類變數進行簡單的統計描述
Ttest
對指定的變數做t檢驗
Anova
對指定的變數做方差分析
npar1way
對指定的變數做非參數檢驗
Reg
對指定的變數做回歸分析
Corr
對指定的變數做相關分析
Discrim
對指定的變數做判別分析
Cluster
對指定的變數做聚類分析
Chart
繪出低解析度的統計圖
4. 幾個常用的重要過程
在進入一般統計學功能實現的內容之前,有關數據預處理和執行重要公共功能的過程大家有必要預先掌握,這里選出幾個常用的和重要的過程進行討論。
(1)對SAS文件進行操作的datasets過程
datasets過程是對數據文件進行管理操作的工具,利用它我們可以實現以下功能:
將SAS文件從一個庫中拷入另一個庫中;
對SAS文件進行重命名;
修復損壞的SAS文件;
刪除SAS文件;
列出某一SAS庫中所有的SAS文件;
列出一個SAS數據集的屬性,如最後修改時間、數據是否壓縮、數據是否索引等;
對SAS文件進行設置密碼的操作;
向SAS數據集添加記錄;
對SAS數據集的屬性以及數據集內變數的屬性進行修改;
創建或刪除SAS數據集的索引;
創建並管理SAS數據集的核查文件;
創建或刪除SAS數據集的完整性規則。
datasets過程的一般格式如下:
proc datasets <選項列表>;
age 當前文件名 相關文件名列表</選項列表>;
append base=數據集名 <data=數據集名 其它選項>;
audit 文件名<(操作密碼)>; initiate;<其它代碼;>
change 舊文件名1=新文件名1 <…舊文件名n=新文件名n> <選項列表>;
contents <data=數據集名> <其它選項>;
out=庫標記 <其它選項>;
exclude 文件名 <其它選項>;(該語句只能在語句後出現,不能和select語句同時出現)
select 文件名 <其它選項>;(該語句只能在語句後出現,不能和exclude語句同時出現)
delete 文件名 <其它選項>;
exchange文件名1=交換文件名1 <…文件名n=交換文件名n> <選項列表>;
modify 文件名 <選項列表>;
<modify語句之從屬語句>;
repair文件名 <選項列表>;
save文件名 <選項列表>;
run;
是不是太繁瑣了,我都有些不耐煩了。不過我還是得寫,已經寫了嘛!不忍心浪費掉,最起碼可以用來充充數,擴大一下篇幅。至於各位,嫌煩的可以略過此部分,想用的時候再來溫習也不遲。下面我就不厭其煩地向各位介紹一下各選項及各條語句的含義和用法。
proc datasets語句後各選項的含義及用法見下表(表1.2)。
表1.2 proc datasets語句後各選項的含義及用法
選項
含義及用法
alter=轉換保護密碼
SAS文件設置有轉換操作密碼時用以驗證操作的合法性,密碼正確時代碼才會被執行
details/nodetails
控制有關SAS文件的詳細信息顯示與否,前者為顯示,後者不顯示,默認值為後者
force
此選項具有兩個功能:(1)在過程步的語句存在錯誤時仍然強製程序的執行;(2)在append語句中,兩個數據集的變數不完全相同時仍然強制append語句的執行。
gennum=
控制對衍生數據集的處理方式,等號後可為all, hist, revert或某一整數
kill
此選項表示刪除待處理的庫中的所有文件,應慎用
library=庫標記
用以指定所要處理的庫
memtype=成員類型
指定處理所針對的庫成員類型(文件類型),默認值為all(所有類型)
nolist
在日誌文件中禁止對所處理文件目錄的顯示
nowarn
在語句中指定的文件不存在等情況下,禁止顯示出錯信息,強製程序繼續執行
pw=操作密碼
SAS文件設置操作密碼時驗證操作的合法性(包括讀、防寫以及轉換保護的文件)
read=讀保護密碼
SAS文件設置讀保護密碼時驗證操作的合法性
age語句用於批量地重命名文件,按照當前文件和相關文件的排列順序,依次將後一個文件名重命名給前一個文件,結果是最後一個文件被刪除,當前文件名被廢棄。
對此語句我所了解的就這么多,而且還是通過試驗得出的結論,但總感覺還是理解的不對,哪位若有高見還請不吝賜教。
append語句執行向數據集添加記錄的功能,選項「base=數據集名」用以指定要添加記錄的數據集,「data=數據集名」則指定所要添加的記錄所在的數據集,此選項若省略則默認為當前數據集(最近一次操作的數據集)。
audit語句用於對文件的核查,生成核查文件並對其進行管理;change語句以新文件名替換舊文件名;contents語句用於顯示指定數據集或當前數據集的各種屬性;語句用於將當前庫中相應的文件拷貝到指定的庫中,選項「out=庫標記」用來指定文件要拷貝到的目標庫;delete語句用於刪除指定的文件;exchange語句的功能是將等號前後兩個文件的文件名進行互換;modify語句用於修改文件各方面的屬性;repair語句用於對指定的文件(受到過某種損壞)進行修復,使其恢復到可以使用的狀態;save語句的功能是將其指定的文件保留,當前庫中的其他所有文件則被刪除。
(2)對數據文件中記錄進行排序的sort過程
sort過程的功能是對指定數據集中的記錄按照指定的變數進行排序。由於諸多過程有對數據集記錄進行排序的需要,比如過程步中存在by語句(用以將數據文件分割為若幹部分)的情況下,就需要按照by語句後的變數對數據先行排序,所以sort過程非常有用,而且非常常用。
sort過程的一般格式如下:
proc sort 選項列表;
by <descending> 變數名1 <變數名2 … 變數名n>;
run;
proc sort語句後各選項含義及其用法見下表(表1.3)。
表1.3 proc sort語句後各選項含義及其用法
選項
含義及用法
data=數據集名
用以指定sort過程所要處理的數據集,若省略則默認為最近建立或處理的數據集
date
此選項指定在不改變文件創建日期和修改日期的條件下對文件進行排序操作
out=數據集名
將排序後文件以指定的文件名存儲,原文件不進行任何修改,若無此選項則將原文件覆蓋
sortseq=排序依據
指定對字元型變數排序時依據的標准
reverse/equals/noequals
指定輸出數據中的排序方式,三者分別表示將字元變數的次序翻轉顯示,在排序變數的各水平內部次序保持不變,在排序變數的各水平內部允許次序的改變
nopkey/noprecs
指定重復變數的消除方式,前者表示除去排序變數值重復的記錄,後者表示除去所有變數值重復的記錄
sortsize=
用以指定可用最大內存的大小,等號後為表示內存大小的數值及單位,比如10m
force
用以強制執行重復排序(對已建立索引的文件排序)過程
tagsort
指定在臨時文件中僅存儲排序變數和記錄編號,以減少對磁碟空間的使用
by語句即用以指定排序所要依據的變數,變數可為數值型也可為字元型,其後可指定多個變數,sort過程在按照靠前的變數進行排序的情況下再按照靠後的變數進行排序。by語句中每個變數前可用descending/ascending選項來指定按照其排序的方式(降序或升序),默認狀態為升序。
(3)將數據文件輸出顯示的print過程
print過程的功能是將SAS數據集的記錄以一定的方式顯示到輸出設備(顯示屏),可以顯示其全部的變數或部分變數。利用此過程,你可以創建從簡單列表到可進行數據匯總的各種報告的各種不同的表單。
print過程的一般格式如下:
proc print 選項列表;
by <descending> 變數名1 <變數名2 … 變數名n 其他選項>;
pageby 變數名;
sumby 變數名;
id 變數名;
sum變數名;
var變數名;
run;
proc print語句後可跟的選項含義及其用法見下表(表1.4)
表1.4 proc print語句後選項含義及其用法
選項
含義及用法
contents=文本
用以指定html內容文件中指向輸出的鏈接的標識文本,等號後可為任何文本
data=數據集名
指定所要處理的數據集,等號後為數據集文件名
double
指定在相鄰的記錄間插入一空行
n=字元串
在報告的末尾或by變數各水平分組的末尾顯示顯示記錄的數目,並以等號後的字元串對其進行標識
noobs
禁止記錄編號在報告中的顯示
obs=列標題
用以指定記錄編號所在列的列標題
round
對未進行格式化的數值變數進行四捨五入,統一格式化為帶兩位小數的十進制數值
rows=page
規定頁面格式,目前』page』是此選項唯一可用的值,表示在每一頁中只顯示一條記錄的一行變數值,即一行中顯示盡可能多的記錄數
width=列寬度
指定列的寬度,可取的值有』full』,』minimum』,』uniform』,』uniformby』等,
heading=方向
取值可為v(vertical)或h(horizontal),表示列標題顯示的方向(橫向或縱向)
label
指定以變數標識作為相應的列標題,否則以變數名作為列標題
split=字元
首先此選項指定以變數標識作為列標題,以指定的字元作為列標題換行的標志
style=類型元素
指定報告中特定位置所要應用的類型元素(涉及很多內容,詳細內容略)
by語句在所有過程中的用法都相同,即將數據集分割為若干小數據集分別進行處理。pageby語句用來控制換頁時變數的顯示方式,對於其後所指定的變數,相同的值不會顯示在不同的頁中,該變數某一值的記錄在一頁的剩餘部分顯示不下時,則從該值的第一條記錄開始換行顯示。sumby語句的作用和pageby語句相似,只不過是將換頁的動作換為求和,對指定變數的每一值計算var變數的總計值。id語句的作用是用指定的變數值代替記錄編號對每一條記錄進行標識。sum語句用於指定報告中要進行求和操作的變數,var語句用於指定要在報告中顯示的變數。
以上過程作用較為普遍,使用頻率較高,有必要預先了解,以便於後面所討論內容的順利進行。
為節省篇幅,這里不進行實例演示。內容過於枯燥,可能的錯誤也難免,還請各位多多包涵。
SAS程序操作的大概情況就草草的這樣介紹一下吧,說得太多的話我怕各位沒有耐心看下去。更多的內容我想還是留在實際的例子中來介紹,這樣大家可以好好的切身體會一下,然後就會印象深刻,實際運用起來也就得心應手了。
B. 如何應用spss資料庫選擇數據
(一) 數據准備
FAQ:這里為什麼用數據准備而不用數據採集?
數據採集是一個非常繁雜漫長的過程,數據採集來源、採集頻率、採集人員安排等等這些足夠寫一篇文章,同時這里所要談的這個過程是從數據開始說起的,至於這些數據如何而來,這里不作討論。
數據准備過程主要包括兩部分內容:SPSS數據文件的建立和變數編輯。在SPSS數據文件建立之前,我們需要分析的數據可能以各種各樣的形態存在,可能需要手動錄入(小批量的數據,但通常數據的錄入不在SPSS中直接進行),也可能是以其他格式形態存在,例如:.xls/.xlsx/.xlsm格式,.txt文本格式或.CSV格式,SPSS支持多種數據格式文件的導入。
除此之外,SPSS還可以直接從資料庫中導入數據,利用資料庫導入方式導入數據。這里需要注意的是,SPSS每執行一條指令,都會重新讀取所需的數據,如果你所取的數據是利用SQL語句從遠程資料庫中調用的數據文件,那麼將會非常耗時,此時的小技巧是利用好Cache data功能,建立活動的數據緩存區,那樣SPSS的運算速度會提升很多。
SPSS數據文件成功建立後,接下來的准備工作則是對變數屬性進行適當的調整和完善。例如你從公司的網站後台提取銷售數據,後台資料庫為了記錄方便通常是將各種渠道銷售數據用數字代碼表示,而將這些數據成功的建成SPSS數據文件後,此時你需要對渠道代碼進行編碼說明,對缺失值進行標記等等。
(二) 數據清洗
此過程主要為下一步數據分析做進一步的准備,最終將數據清洗為滿足分析需求的具體數據集。期間主要內容包括:
1)數據集的預先分析:對數據進行必要的分析,如數據分組、排序、分布圖、平均數、標准差描述等,以掌握數據的基本特點和基本情況,保證後續工作的有效性,也為確定應採用的統計檢驗方法提供依據
2) 相關變數缺失值的查補檢查
3)分析前相關的校正和轉換工作,如根據銷售額對觀測值進行分類,形成新的分類變數,從對應的身份證信息中提取出地區、年齡、性別等新的變數信息等
4)觀測值的抽樣篩選,如抽取銷售額大於10萬的產品等
5)其他數據清洗工作
Tips:期間注意規劃好清洗步驟和數據備份工作。
(三) 數據分析
此階段主要根據需求,選擇合適的統計方法進行統計分析和數據圖表的製作,這里選擇合適的方法是關鍵,相關操作SPSS軟體已經標准流程化,我們只需要選擇合適的參數進行相關操作即可。下表是根據自變數與因變數數目對各種統計方法的一個歸類:
除了上述方法外,SPSS 17.0以上的版本還提供了一個直銷模塊,這部分內容是對市場營銷活動中的用的比較多的模型的整理濃縮,本貼暫時不對數據分析的相關內容做深入詳細的介紹,以後將針對案例對這部分內容進行詳細敘述。
(四) 數據展現
常常聽到有人抱怨SPSS輸出的圖表太丑,修改編輯起來太麻煩,真的是這樣嗎?其實SPSS軟體有提供很多的圖表供大家選擇,太多的時候,我們所使用的只是其中的一種而已。除此之外,SPSS也提供自己定義圖表模版功能供我們自由操作。
SPSS的菜單操作通常會輸出很多多餘的結果,對這些結果進行有針對性的挑選和組合才是工作的重點,而不是一味的將所有分析結果一股腦的全搬到報告中去,在寫報告前對這些結果進行合理的簡化和整合是必須的,與此同時,相應的結果解釋(探討是否接受或拒絕研究假設,解釋結果形成的原因)以及相關含義衍生都在此部分完成。例如,我們進行方差分析時,SPSS可能直接輸出如下圖的結果,但我們展現結果的時候並不需要這么多看起來讓人眼花的數據結果,只需要從下表中提取出需要的那部分即可。
註:這里舉這個示例只是表達一種方法,對於模型的結果完整性並未作太多的考究
從上表三因素方差分析表可知,整體模型達顯著水平。其中Day和Round的主效應達到顯著水平,但Gender的主效應未達到顯著水平。除此之外,此模型還未考慮三者之間的交互效應……(結合其他圖表的結果作深一步的分析說明,並結合業務情況對結果進行分析說明)。
C. spss軟體怎麼用
第一節 Linear過程 8.1.1 主要功能 調用此過程可完成二元或多元的線性回歸分析。在多元線性回歸分析中,用戶還可根據需要,選用不同篩選自變數的方法(如:逐步法、向前法、向後法,等)。 返回目錄 返回全書目錄 8.1.2 實例操作 〔例8.1〕某醫師測得10名3歲兒童的身高(cm)、體重(kg)和體表面積(cm2)資料如下。試用多元回歸方法確定以身高、體重為自變數,體表面積為應變數的回歸方程。 兒童編號 體表面積(Y) 身高(X1) 體重(X2) 12345678910 5.3825.2995.3585.2925.6026.0145.8306.1026.0756.411 88.087.688.589.087.789.588.890.490.691.2 11.011.812.012.313.113.714.414.915.216.0 8.1.2.1 數據准備 激活數據管理窗口,定義變數名:體表面積為Y,保留3位小數;身高、體重分別為X1、X2,1位小數。輸入原始數據,結果如圖8.1所示。 圖8.1 原始數據的輸入 8.1.2.2 統計分析 激活Statistics菜單選Regression中的Linear...項,彈出Linear Regression對話框(如圖8.2示)。從對話框左側的變數列表中選y,點擊Ø鈕使之進入Dependent框,選x1、x2,點擊Ø鈕使之進入Indepentdent(s)框;在Method處下拉菜單,共有5個選項:Enter(全部入選法)、Stepwise(逐步法)、Remove(強制剔除法)、Backward(向後法)、Forward(向前法)。本例選用Enter法。點擊OK鈕即完成分析。 圖8.2 線性回歸分析對話框 用戶還可點擊Statistics...鈕選擇是否作變數的描述性統計、回歸方程應變數的可信區間估計等分析;點擊Plots...鈕選擇是否作變數分布圖(本例要求對標准化Y預測值作變數分布圖);點擊Save...鈕選擇對回歸分析的有關結果是否作保存(本例要求對根據所確定的回歸方程求得的未校正Y預測值和標准化Y預測值作保存);點擊Options...鈕選擇變數入選與剔除的α、β值和缺失值的處理方法。 8.1.2.3 結果解釋 在結果輸出窗口中將看到如下統計數據: * * * * M U L T I P L E R E G R E S S I O N * * * * Listwise Deletion of Missing DataEquation Number 1 Dependent Variable.. YBlock Number 1. Method: Enter X1 X2 Variable(s) Entered on Step Number 1.. X2 2.. X1 Multiple R .94964R Square .90181Adjusted R Square .87376Standard Error .14335Analysis of Variance DF Sum of Squares Mean SquareRegression 2 1.32104 .66052Resial 7 .14384 .02055F = 32.14499 Signif F = .0003 ------------------ Variables in the Equation ------------------Variable B SE B Beta T Sig TX1 .068701 .074768 .215256 .919 .3887X2 .183756 .056816 .757660 3.234 .0144(Constant) -2.856476 6.017776 -.475 .6495 End Block Number 1 All requested variables entered. 結果顯示,本例以X1、X2為自變數,Y為應變數,採用全部入選法建立回歸方程。回歸方程的復相關系數為0.94964,決定系數(即r2)為0.90181,經方差分析,F=34.14499,P=0.0003,回歸方程有效。回歸方程為Y=0.0687101X1+0.183756X2-2.856476。 本例要求按所建立的回歸方程計算Y預測值和標准化Y預測值(所謂標准化Y預測值是指將根據回歸方程求得的Y預測值轉化成按均數為0、標准差為1的標准正態分布的Y值)並將計算結果保存入原資料庫。系統將原始的X1、X2值代入方程求Y值預測值(即庫中pre_1欄)和標准化Y預測值(即庫中zpr_1欄),詳見圖8.3。 圖8.3 計算結果的保存 本例還要求對標准化Y預測值作變數分布圖,系統將繪制的統計圖送向Chart Carousel窗口,雙擊該窗口可見下圖顯示結果。 圖8.4 對標准化Y預測值所作的正態分布圖]
D. spss數據分析如何建立資料庫醫院
spss數據分析建立資料庫醫院方法如下所示:
需要在excel中添加載入項--數據分析庫,然後就可以進行數據自動生成了,以專業的術語叫做「隨機數發生器」。
E. 怎麼使用SPSS軟體
當我們的調查問卷在把調查數據拿回來後,我們該做的工作就是用相關的統計軟體進行處理,在此,我們以spss為處理軟體,來簡要說明一下問卷的處理過程,它的過程大致可分為四個過程:定義變數、數據錄入、統計分析和結果保存.下面將從這四個方面來對問卷的處理做詳細的介紹.
Spss處理:
第一步:定義變數
大多數情況下我們需要從頭定義變數,在打開SPSS後,我們可以看到和excel相似的界面,在界面的左下方可以看到Data View, Variable View兩個標簽,只需單擊左下方的Variable View標簽就可以切換到變數定義界面開始定義新變數。在表格上方可以看到一個變數要設置如下幾項:name(變數名)、type(變數類型)、width(變數值的寬度)、decimals(小數位) 、label(變數標簽) 、Values(定義具體變數值的標簽)、Missing(定義變數缺失值)、Colomns(定義顯示列寬)、Align(定義顯示對齊方式)、Measure(定義變數類型是連續、有序分類還是無序分類).
我們知道在spss中,我們可以把一份問卷上面的每一個問題設為一個變數,這樣一份問卷有多少個問題就要有多少個變數與之對應,每一個問題的答案即為變數的取值.現在我們以問卷第一個問題為例來說明變數的設置.為了便於說明,可假設此題為:
1.請問你的年齡屬於下面哪一個年齡段( )?
A:20—29 B:30—39 C:40—49 D:50--59
那麼我們的變數設置可如下: name即變數名為1,type即類型可根據答案的類型設置,答案我們可以用1、2、3、4來代替A、B、C、D,所以我們選擇數字型的,即選擇Numeric, width寬度為4,decimals即小數位數位為0(因為答案沒有小數點),label即變數標簽為「年齡段查詢」。Values用於定義具體變數值的標簽,單擊Value框右半部的省略號,會彈出變數值標簽對話框,在第一個文本框里輸入1,第二個輸入20—29,然後單擊添加即可.同樣道理我們可做如下設置,即1=20—29、2=30—39、3=40—49、4=50--59;Missing,用於定義變數缺失值, 單擊missing框右側的省略號,會彈出缺失值對話框, 界面上有一列三個單選鈕,默認值為最上方的「無缺失值」;第二項為「不連續缺失值」,最多可以定義3個值;最後一項為「缺失值范圍加可選的一個缺失值」,在此我們不設置預設值,所以選中第一項如圖;Colomns,定義顯示列寬,可自己根據實際情況設置;Align,定義顯示對齊方式,有居左、居右、居中三種方式;Measure,定義變數類型是連續、有序分類還是無序分類。
以上為問卷中常見的單項選擇題型的變數設置,下面將對一些特殊情況的變數設置也作一下說明.
1.開放式題型的設置:諸如你所在的省份是_____這樣的填空題即為開放題,設置這些變數的時候只需要將Value 、Missing兩項不設置即可.
2.多選題的變數設置:這類題型的設置有兩種方法即多重二分法和多重分類法,在這里我們只對多重二分法進行介紹.這種方法的基本思想是把該題每一個選項設置成一個變數,然後將每一個選項拆分為兩個選項項,即選中該項和不選中該項.現在舉例來說明在spss中的具體操作.比如如下一例:
請問您通常獲取新聞的方式有哪些( )
1 報紙 2 雜志 3 電視 4 收音機 5 網路
在spss中設置變數時可為此題設置五個變數,假如此題為問卷第三題,那麼變數名分別為3_1、3_2、3_3、3_4、3_5,然後每一個選項有兩個選項選中和不選中,只需在Value一項中為每一個變數設置成1=選中此項、0=不選中此項即可.
使用該窗口,我們可以把一個問卷中的所有問題作為變數在這個窗口中一次定義。
到此,我們的定義變數的工作就基本上可以結束了.下面我們要作就是數據的錄入了.首先,我們要回到數據錄入窗口,這很簡單,只要我們點擊軟體左下方的Data View標簽就可以了.
第二步:數據錄入
Spss數據錄入有很多方式,大致有一下幾種:
1.讀取SPSS格式的數據
2.讀取Excel等格式的數據
3.讀取文本數據(Fixed和Delimiter)
4.讀取資料庫格式數據(分如下兩步)
(1)配置ODBC (2)在SPSS中通過ODBC和資料庫進行
但是對於問卷的數據錄入其實很簡單,只要在spss的數據錄入窗口中直接輸入就可以了,只是在這里有幾點注意的事項需要說明一下.
1. 在數據錄入窗口,我們可以看到有一個表格,這個表格中的每一行代表一份問卷,我們也稱為一個個案.
2. 在數據錄入窗口中,我們可以看到表格上方出現了1、2、3、4、5…….的標簽名,這其實是我們在第一步定義變數中,我們為問卷的每一個問題取的變數名,即1代表第一題,2代表第二題.以次類推.我們只需要在變數名下面輸入對應問題的答案即可完成問卷的數據錄入.比如上述年齡段查詢的例題,如果問卷上勾選了A答案,我們在1下面輸入1就行了(不要忘記我們通常是用1、2、3、4來代替A、B、C、D的).
3.我們知道一行代表一份問卷,所以有幾分問卷,就要有幾行的數據.
在數據錄入完成後,我們要做的就是我們的關鍵部分,即問卷的統計分析了,因為這時我們已經把問卷中的數據錄入我們的軟體中了.
第三步:統計分析
有了數據,可以利用SPSS的各種分析方法進行分析,但選擇何種統計分析方法,即調用哪個統計分析過程,是得到正確分析結果的關鍵。這要根據我們的問卷調查的目的和我們想要什麼樣的結果來選擇.SPSS有數值分析和作圖分析兩類方法.
1.作圖分析:
在SPSS中,除了生存分析所用的生存曲線圖被整合到Analyze菜單中外,其他的統計繪圖功能均放置在graph菜單中。該菜單具體分為以下幾部分::
(1)Gallery:相當於一個自學向導,將統計繪圖功能做了簡單的介紹,初學者可以通過它對SPSS的繪圖能力有一個大致的了解。
(2)Interactive:互動式統計圖。
(3)Map:統計地圖。
(4)下方的其他菜單項是我們最為常用的普通統計圖,具體來說有:
條圖
散點圖
線圖
直方圖
餅圖
面積圖
箱式圖
正態Q-Q圖
正態P-P圖
質量控制圖
Pareto圖
自回歸曲線圖
高低圖
交互相關圖
序列圖
頻譜圖
誤差線圖
作圖分析簡單易懂,一目瞭然,我們可根據需要來選擇我們需要作的圖形,一般來講,我們較常用的有條圖,直方圖,正態圖,散點圖,餅圖等等,具體操作很簡單,大家可參閱相關書籍,作圖分析更多情況下是和數值分析相結合來對試卷進行分析的,這樣的效果更好.
2.數值分析:
SPSS 數值統計分析過程均在Analyze菜單中,包括:
(1)、Reports和Descriptive Statistics:又稱為基本統計分析.基本統計分析是進行其他更深入的統計分析的前提,通過基本統計分析,用戶可以對分析數據的總體特徵有比較准確的把握,從而選擇更為深入的分析方法對分析對象進行研究。Reports和Descriptive Statistics命令項中包括的功能是對單變數的描述統計分析。
Descriptive Statistics包括的統計功能有:
Frequencies(頻數分析):作用:了解變數的取值分布情況
Descriptives(描述統計量分析):功能:了解數據的基本統計特徵和對指定的變數值進行標准化處理
Explore(探索分析):功能:考察數據的奇異性和分布特徵
Crosstabs(交叉分析):功能:分析事物(變數)之間的相互影響和關系
Reports包括的統計功能有:
OLAP Cubes(OLAP報告摘要表):功能: 以分組變數為基礎,計算各組的總計、均值和其他統計量。而輸出的報告摘要則是指每個組中所包含的各種變數的統計信息。
Case Summaries(觀測量列表):察看或列印所需要的變數值
Report Summaries in Row:行形式輸出報告
Report Summaries in Columns:列形式輸出報告
(2)、Compare Means(均值比較與檢驗):能否用樣本均值估計總體均值?兩個變數均值接近的樣本是否來自均值相同的總體?換句話說,兩組樣本某變數均值不同,其差異是否具有統計意義?能否說明總體差異?這是各種研究工作中經常提出的問題。這就要進行均值比較。
以下是進行均值比較及檢驗的過程:
MEANS過程:不同水平下(不同組)的描述統計量,如男女的平均工資,各工種的平均工資。目的在於比較。術語:水平數(指分類變數的值數,如sex變數有2個值,稱為有兩個水平)、單元Cell(指因變數按分類變數值所分的組)、水平組合
T test 過程:對樣本進行T檢驗的過程
單一樣本的T檢驗:檢驗單個變數的均值是否與給定的常數之間存在差異。
獨立樣本的T檢驗:檢驗兩組不相關的樣本是否來自具有相同均值的總體(均值是否相同,如男女的平均收入是否相同,是否有顯著性差異)
配對T檢驗:檢驗兩組相關的樣本是否來自具有相同均值的總體(前後比較,如訓練效果,治療效果)
One-Way ANOVA:一元(單因素)方差分析,用於檢驗幾個(三個或三個以上)獨立的組,是否來自均值相同的總體。
(3)、ANOVA Models(方差分析):方差分析是檢驗多組樣本均值間的差異是否具有統計意義的一種方法。例如:醫學界研究幾種葯物對某種疾病的療效;農業研究土壤、肥料、日照時間等因素對某種農作物產量的影響;不同飼料對牲畜體重增長的效果等,都可以使用方差分析方法去解決
(4)、Correlate(相關分析):它是研究變數間密切程度的一種常用統計方法,常用的相關分析有以下幾種:
1、線性相關分析:研究兩個變數間線性關系的程度。用相關系數r來描述。
2、偏相關分析:它描述的是當控制了一個或幾個另外的變數的影響條件下兩個變數間的相關性,如控制年齡和工作經驗的影響,估計工資收入與受教育水平之間的相關關系
3、相似性測度:兩個或若干個變數、兩個或兩組觀測量之間的關系有時也可以用相似性或不相似性來描述。相似性測度用大值表示很相似,而不相似性用距離或不相似性來描述,大值表示相差甚遠
(5)、Regression(回歸分析):功能:尋求有關聯(相關)的變數之間的關系在回歸過程中包括:Liner:線性回歸;Curve Estimation:曲線估計;Binary Logistic: 二分變數邏輯回歸;Multinomial Logistic:多分變數邏輯回歸;Ordinal 序回歸;Probit:概率單位回歸;Nonlinear:非線性回歸;Weight Estimation:加權估計;2-Stage Least squares:二段最小平方法;Optimal Scaling 最優編碼回歸;其中最常用的為前面三個.
(6)、Nonparametric Tests(非參數檢驗):是指在總體不服從正態分布且分布情況不明時,用來檢驗數據資料是否來自同一個總體假設的一類檢驗方法。由於這些方法一般不涉及總體參數故得名。
非參數檢驗的過程有以下幾個:
1.Chi-Square test 卡方檢驗
2.Binomial test 二項分布檢驗
3.Runs test 遊程檢驗
4.1-Sample Kolmogorov-Smirnov test 一個樣本柯爾莫哥洛夫-斯米諾夫檢驗
5.2 independent Samples Test 兩個獨立樣本檢驗
6.K independent Samples Test K個獨立樣本檢驗
7.2 related Samples Test 兩個相關樣本檢驗
8.K related Samples Test 兩個相關樣本檢驗
(7)、Data Rection(因子分析)
(8)、Classify(聚類與判別)等等
以上就是數值統計分析Analyze菜單下幾項用於分析的數值統計分析方法的簡介,在我們的變數定義以及數據錄入完成後,我們就可以根據我們的需要在以上幾種分析方法中選擇若干種對我們的問卷數據進行統計分析,來得到我們想要的結果.
第四步:結果保存
我們的spss軟體會把我們統計分析的多有結果保存在一個窗口中即結果輸出窗口(output),由於spss軟體支持復制和粘貼功能,這樣我們就可以把我們想要的結果復制、粘貼到我們的報告中,當然我們也可以在菜單中執行file->save來保存我們的結果,一般情況下,我們建議保存我們的數據,結果可不保存.因為只要有了數據,如果我們想要結果的,我們可以隨時利用數據得到結果.
總結:
以上便是spss處理問卷的四個步驟,四個步驟結束後,我們需要spss軟體做的工作基本上也就結束了,接下來的任務就是寫我們的統計報告了.值得一提的是.spss是一款在社會統計學應用非常廣泛的統計類軟體,學好它將對我們以後的工作學習產生很大的意義和作用.