Ⅰ 影響聚類演算法結果的主要因素
影響聚類演算法結果的主要因素是極端值。
聚類分析又稱群分析,它是研究(樣品或指標)分類問題的一種統計分析方法,同時也是數據挖掘的一個重要演算法。聚類(Cluster)分析是由若干模式(Pattern)組成的,通常,模式是一個度量(Measurement)的向橘陪量,或者是多維空間中的一個點。
聚類分析起源於分類學,在古老的分類學中,人們主要依靠經驗和專業知識來實現分類,很少利用數學工具進行定量的分類。
隨著人類科學技術的發展,對分類的要求越來越高,以致有時僅憑經驗和專業知識難以確切地進行分類,於是人們逐漸地把數學工具引用到和搭了分類學中,形成了數值分類學,之後又將多元分析的技術引入到數值分類學形成了聚類分析。
Ⅱ 十大互聯網數據分析方法之-聚類分析
聚類分析在統計學上是根據「物以類聚」的道理,對樣本或指標進行分類的一種多元統計分析方法。這一方法在任何領域應用時,都需要先對事物彼此不同的屬性進行辨認,將具有相似屬性的事物聚為一類,使得同一類的事物具有高度的相似性。在互聯網 用戶行為分析 上,大量用戶都有相同或相近的行為屬性,我們可以通過行為對用戶進行聚類,提取行為特徵,對不同行為屬性的用戶針對性精準運營。
在 網站分析 和 APP分析 中應用聚類分析時會使得分析過程和分析結果更簡單、直觀。
簡單:分析邏輯內置於系統中,只需點選操作即可實現對用戶或頁面的聚類
直觀:將毫無規律的大量數據變的規律化、類別化、統一化,可直觀看出某一群體或某類頁面的特徵。
聚類分析在互聯網領域的主要應用有:用戶聚類、頁面聚類或內容來源聚類、活躍留存聚類分析。
用戶聚類是將有共同用戶屬性或行為屬性特徵的用戶歸為同一群體,主要體現為 用戶分群 ,用戶標簽法。用戶分群用戶分群可以通過用戶屬性組合定義不同用戶群體,也可以通過用戶群體的行為表現反推用戶的屬性特徵。用戶分群對推廣營銷和用戶運營最大的意義在於精細化的定位用戶群體細分用戶需求。推廣和運營已經從初期發的模糊運營進化到當前基於用戶行為甚至是基於預測模型的用戶分群。
用戶分群、用戶標簽法
頁面聚類則主要是相似/相關頁面分組法,例如:在 頁面分析 中,經常存在帶?參數的頁面,比如:資訊詳情頁面、商品頁面等,都屬於同一類頁面,簡單的分析容易造成如跳出率、退出率等指標不準確的問題,通過聚類分析可以獲取同類頁面的准確數據用於分析場景。
來源聚類幫助我們分析訪客來源和推廣渠道,可根據設置的UTM參數,根據不同渠道、著陸頁、媒介、內容、關鍵詞等對受訪頁面進行聚類分析。
傳統的活躍分析和留存分析只依據用戶瀏覽網站或打開APP行為分析活躍和留存,更高級的活躍和留存分析可以自定義不同的用戶行為聚類分析。
例如我不只關心用戶瀏覽網站的活躍和留存,還想分析網站中新上線的某個功能模塊的用戶活躍和留存情況,這時可以通過自定義活躍、留存聚類有相應行為的用戶進行 用戶行為分析 。
Ⅲ 我們一般使用哪些指標判斷聚類結果的優劣
有參考標準的指標主要有:
1、Jaccard系數(Jaccard Coefficient, JC)
2、FM指數(Fowlkes and Mallows Index, FMI)
3、Rand指數(Rand Index, RI)
4、F值(F-measure)
上述性能度量的結果值均在[0,1]區間,值越大越好,值越大表明聚類結果和參考模型,直接的聚類結果越吻合,聚類結果就相對越好。
5、蘭德系數(Rand index,RI)需要給定實際類別信息C,假設K是聚類結果,RI取值范圍為[0,1],值越大意味著聚類結果與真實情況越吻合。
6、調整蘭德系數(Adjusted rand index)對於隨機結果,RI並不能保證分數接近零。所以ARI取值范圍為[-1,1],值越大意味著聚類結果與真實情況越吻合。從廣義的角度來講,ARI衡量的是兩個數據分布的吻合程度。
無監督的,無需基準數據集,不需要藉助於外部參考模型指標有:
1、緊密激盯汪度(Compactness):每個聚類簇中的樣本點到聚類中心的平均距離。對應聚類結果,需要使用所有簇的緊密度的平均值來衡量聚類演算法和聚類各參數選取的優劣。緊密度越小,表示簇內的樣本點月集中,樣本點之間聚類越短,也就是說簇內相似度越高。
2、分割度(Seperation):是個簇的簇心之間的平均距離。分割度值越大說明簇間間隔越遠,分類效果越好,即簇間相似度越低。
3、戴維森堡丁指數(Davies-bouldin Index,DBI):該指標用來衡量任意兩個簇的簇內距離之後與簇間距離之比。該指標越小表示簇內距離越小,簇內相似度越高,簇間距離越大,簇間相似度低。則殲
4、鄧恩指數(Dunn Validity Index,DVI):任意兩個簇的樣本點的最短距離與任意簇中樣本點的最大距離之商。該值越大,聚類效果越好。
5、輪廓系數 (Silhouette Coefficient):對於一個樣本集明仔合,它的輪廓系數是所有樣本輪廓系數的平均值。輪廓系數的取值范圍是[-1,1],同類別樣本距離越相近不同類別樣本距離越遠,分數越高。
若幫助到您,求採納~