⑴ 聚類分析聚類演算法中包含哪些數據類型
聚類分析聚類演算法中包含哪些數據類型
許多基於內存的聚類演算法採用以下兩種數據結構:
(1)數據矩陣(Data Matrix,或稱對象一變盤結構):用p個變數來表示n個對象,例如使用年齡、身高、性別、體重等屬性變數來表示對象人,也叫二模矩陣,行與列代表不同實體:
(2)相異度矩陣(Dissimilarity Matrix,又稱為對象一對象結構):存儲所有成對的n個對象兩兩之間的近似性(鄰近度),也叫單模矩陣,行和列代表相同的實體。其中d(ij)是對象i和對象j之間的測量差或相異度。d(i,f)是一個非負的數值,d(ij)越大,兩個對象越不同;d (i,j)越接近於0,則兩者之間越相似(相近)。
許多聚類演算法都是以相異度矩陣為基礎的,如果數據是用數據矩陣形式表示,則往往要將其先轉化為相異度矩陣。
相異度d(i,j)的具體計算會因所使用的數據類型不同而不同,常用的數據類型包括:區間標度變數,二元變數,標稱型、序數型和比例標度型變數,混合類型的變數。