❶ 統計學中的分類方法
介紹
理解不同的數據類型,是探索性數據分析(Exploratory Data Analysis,EDA)所需的關鍵預備知識,同時也有助於你選擇正確的可視化方法。你可以將數據類型看成歸類不同類型變數的方式。我們將討論主要的變數類型,以及相應的示例。有時我們會稱其為測量尺度(measurement scale)。
類別數據
類別數據(categrorical data)表示特性,例如一個人的性別,所說的語言,等等。類別數據同樣可以使用數值(例如:1表示雌性,0表示雄性)。
名目數據
名目值(nominal value)指用於標記變數的定性離散單元。你可以直接把它們想像成「標簽」。注意名目數據是無序的。因此,如果你改變名目值的順序,其語義並不會改變。下面是一些名目特徵的例子:
性別:雌性、雄性。
語言:英語、法語、德語、西班牙語。
上面的性別特徵也被稱為「二分(dichotomous)」值,因為它只包含兩個類別。
次序數據
次序值(ordinal value)指離散、有序的定性單元。除了有序之外,它幾乎和名目數據一樣。例如,教育背景可以用次序值來表示:
初中
高中
大學
研究生
注意,其實初中、高中之間的差別,和高中、大學之間的差別,是不一樣的。這是次序數據的主要限制,次序值之間的差別是未知的。因此,次序值通常用於衡量非數值特徵,例如愉悅程度、客戶滿意度。
數值數據
離散數據
離散數據(discrete data)的值是不同而分散的,換句話說,只能接受一些特定值。這類數據無法測量但可以計數。它基本上用來表示可以分類的信息。例如,拋100次硬幣正面向上的次數。
你可以通過以下兩個問題檢查你處理的是否是離散數據:你可以對其計數嗎?它可以被切分成越來越小的部分嗎?
相反,如果數據可以測量但無法計數,那就是連續數據。
連續數據
連續數據(continuous data)表示測量。例如身高。
連續數據可以分為等距數據(interval data)和等比數據(ratio data)。
等距值指間隔相等的有序單元,也就是說,等距變數包含有序數值,並且我們知道這些數值之間的間隔。例如,用等距數據表示溫度:
-10
-5
0
+5
+10
+15
等距值的問題在於,它們沒有「真正的零」。拿上面的例子來說,0度不是絕對零度。另外,我們可以加減等距值,而不能乘除等距值或計算比率。由於沒有「真正的零」,無法應用許多描述統計學或推論統計學的方法。
等比值具有等距值的所有特性,同時也有絕對的零。因此,不僅可以加減,還可以乘除。高度、重量、長度、絕對溫度等都屬於等比值。
數據類型為什麼重要?
數據類型是一個非常重要的概念,因為統計學方法只能應用於特定的數據類型。你需要使用不同的方式分析連續數據和類別數據。因此,理解你處理的數據的類型,讓你能夠選擇正確的分析方法。
下面我們將重新查看上面提到的每種數據類型,了解它們可以應用什麼樣的統計學方法。為了理解我們將討論的一些性質,你需要對描述性統計學有所了解。如果你對此不熟悉,可以先看下我寫的描述性統計學介紹。
統計學方法
名目數據
處理名目數據時,你通過下述方式收集信息:
頻數 在一段時間內或整個數據集中出現的次數。
比例 頻數除以所有事件的頻數之和,即可得到比例。
百分比 我想這無需解釋了吧。
眾數 出現次數最多,也就是頻數最高的數據。
可視化方法 你可以使用餅圖或直方圖可視化名目數據。
統計學常用數據類型
左:餅圖;右:直方圖
次序數據
當你處理次序數據時,你可以使用以上用於名目數據的方法,不過,除此之外,你還可以使用一些額外的工具。也就是說,你可以使用頻數、比例、百分比、眾數概括次序數據,也可以使用餅圖、直方圖可視化次序數據。除此之外,你還可以使用:
百分位數 計算由小到大排列的次序數據的累計百分位,某一百分位對應的數據值就稱為這一百分位的百分位數。百分位數可以用來描述數據的離散趨勢。
中位數 即第50百分位數,它將數據分為相等的上下兩部分。中位數可以用來描述數據的中間趨勢。例如,如果我們用次序數據表示星巴克咖啡的容量:中杯、大杯、特大杯。那麼,其中位數為大杯(也就是說,真正的中杯是大杯)。
四分位距 第75百分位數與第25百分位數之差即為四分位距。四分位距可以簡要概述數據的離散趨勢。
連續數據
大多數統計學方法都可以用於連續數據。你可以使用百分位數、中位數、四分位距、均值、眾數、標准差、區間。
你可以使用矩形圖或箱形圖可視化連續數據。從矩形圖上可以看到分布的中間趨勢、離散程度、形態和峰態。注意,矩形圖不體現離散值,因此我們有時使用箱形圖。
❷ 舉例說明測量尺度的四種形式
測量尺度(scale of measure)或稱度量水平(level of measurement)、度量類別,是統計學和定量研究中,對不同種類的數據,依據其尺度水平所劃分的類別,這些尺度水平分別為:名目(nominal)、次序(ordinal)、等距(interval)、等比(ratio)。
1、定類測量
定類測量也被稱為類別測量或定名測量,它是測量層次中最低的一種。
2、定序測量
定序測量也稱為等級測量或順序測量。定序測量的取值可以的按照某種邏輯順序將研究對象排列出高低或大小,確定其等級及次序。
3、定距測量
定距測量也稱為間距測量或區間測量。它不僅能夠將社會現象或是事物區分為為不同的類別、不同的級別,而且可以確定它們相互之間的間隔距離和數量差別。
4、定比測量
定比測量也稱為等比測量或比例測量。定比測量除了具有上述三種尺度的全部性質之外,還具有一個絕對的0點(有實際意義的0點)。
(2)什麼是名目數據擴展閱讀:
定序計量(Ordinal level measurement)將統計數據按客觀事物的某種無須確認的順序進行排列,它是在分類基礎之上的排序。也就是說定類計量是對事物的類別或者屬性的一種測度,按照事物的某種屬性進行事物的分類或者分組。
最重要的一點:它的原則是各個屬性之間沒有等級上的劃分。所有個案都是平等的,在一個等級上的。注意:對於「性別」變數,一般仍然將其劃分為無等級差別的定類尺度變數。
例如「血型」就是一個定類尺度變數。定序數據表現為類別,但有順序,是由定序尺度計量形成的。
定距計量(Interval level of measurement)對事物類別和次序之間的差距的確認,這是在排序基礎上進行的。定距數據表現為數值,可進行加減運算,是由定距尺度計量形成的。
也就是說,定距尺度變數不僅能夠區分為不同的類型並進行排序,還能可以准確指出類別之間的差距是多少,最典型的定距型計量是溫度。
定比計量(Ratio level of measurement)就是有固定起點的定距計量。定比數據表現為數值,可進行加,減,乘,除運算,是由定比尺度計量形成的。定比計量是比定距計量更加進一步,例如零攝氏度以下還有溫度,為定距變數。但是重量為零就代表沒有負數,為真正的定比變數。
前兩類數據說明的是事物的品質特徵,不能用數值表示,其結果均表現為類別,也叫品質數據.後兩類數據說明的是現象的數量特徵,能夠用數值來表現,也叫數量數據。因而,引出另外兩個名詞。
定性數據(Qualitative data)說明的是事物的品質特徵,是不能用數值表示的,通常表現為類別。
定量數據(Quantitative data)說明的是現象的數量特徵,是必須用數值來表現的。
參考資料來源:網路-測量
❸ 資料名目是什麼意思
資料名目是指對於大量信息、數據或文件進行標識、分類、歸檔和檢索的一種系統或方法,旨在方便管理、利用和共享。具體來說:
內容構成:資料名目通常包括資料名稱、編號、類別、關鍵詞等信息,這些信息用於快速區分和查找特定的資料。
重要性:資料名目是信息管理中重要的組成部分,能夠顯著提高工作效率、降低溝通成本,並保證信息的准確性和一致性。
應用領域:資料名目廣泛應用於各個領域,特別是企業和機構內部的信息管理。例如,員工檔案、產品資料、財務報表等信息都可以通過名目化管理來提高信息共享和利用效率。在科研領域,資料名目也用於對文獻、數據、實驗記錄等進行命名和管理。
設計原則:資料名目的設計應遵循一定的原則,包括考慮用戶需求、使用易懂簡潔的命名方式、避免重復或歧義、以及適應實際情況等。這些原則有助於確保資料名目的合理性和規范性,從而提高信息共享和利用的效率。