導航:首頁 > 數據分析 > 怎麼驗證一個數據集是長尾

怎麼驗證一個數據集是長尾

發布時間:2024-06-28 08:51:52

㈠ R語言怎麼檢驗分布是不是T分布

ks.test()實現了KS檢驗,可以檢驗任意樣本是不是來自給定的連續分布。
你這里的用法就是:
ks.test(data,pt,df=df) #data是樣本的數據,df是要檢驗的t分布的自由度

我們可以用很多方法分析一個單變數數據集的分布。最簡單的辦法就是直接看數
字。利用函數summary 和fivenum 會得到兩個稍稍有點差異的匯總信息。此外,stem
(\莖葉"圖)也會反映整個數據集的數字信息。
> attach(faithful)
> summary(eruptions)
Min. 1st Qu. Median Mean 3rd Qu. Max.
1.600 2.163 4.000 3.488 4.454 5.100
> fivenum(eruptions)
[1] 1.6000 2.1585 4.0000 4.4585 5.1000
> stem(eruptions)
The decimal point is 1 digit(s) to the left of the |
16 | 070355555588
18 |
20 | 00002223378800035778
22 | 0002335578023578
24 | 00228
26 | 23
28 | 080
30 | 7
32 | 2337
34 | 250077
36 | 0000823577
38 | 2333335582225577
40 |
42 | 03335555778800233333555577778
44 |
46 | 0000233357700000023578
48 | 00000022335800333
50 | 0370
莖葉圖和柱狀圖相似,R 用函數hist 繪制柱狀圖。
> hist(eruptions)
> ## 讓箱距縮小,繪制密度圖
> hist(eruptions, seq(1.6, 5.2, 0.2), prob=TRUE)
> lines(density(eruptions, bw=0.1))
> rug(eruptions) # 顯示實際的數據點
更為精緻的密度圖是用函數density 繪制的。在這個例子中,我們加了一條
由density 產生的曲線。你可以用試錯法(trial-and-error)選擇帶寬bw(bandwidth)
因為默認的帶寬值讓密度曲線過於平滑(這樣做常常會讓你得到非常有\意思"的密度
分布)。(現在已經有一些自動的帶寬挑選方法2,在這個例子中bw = "SJ"給出的結
果不錯。)
我們可以用函數ecdf 繪制一個數據集的經驗累積分布(empirical cumulative
distribution)函數。
> plot(ecdf(eruptions), do.points=FALSE, verticals=TRUE)
顯然,這個分布和其他標准分布差異很大。那麼右邊的情況怎麼樣呢,就是火山
爆發3分鍾後的狀況?我們可以擬合一個正態分布,並且重疊前面得到的經驗累積密
度分布。
> long <- eruptions[eruptions > 3]
> plot(ecdf(long), do.points=FALSE, verticals=TRUE)
> x <- seq(3, 5.4, 0.01)
> lines(x, pnorm(x, mean=mean(long), sd=sqrt(var(long))), lty=3)
分位比較圖(Quantile-quantile (Q-Q) plot)便於我們更細致地研究二者的吻合
程度。
par(pty="s") # 設置一個方形的圖形區域
qqnorm(long); qqline(long)
上述命令得到的QQ圖表明二者還是比較吻合的,但右側尾部偏離期望的正態分布。
我們可以用t 分布獲得一些模擬數據以重復上面的過程
x <- rt(250, df = 5)
qqnorm(x); qqline(x)
這里得到的QQ圖常常會出現偏離正態期望的長尾區域(如果是隨機樣本)。我們可以用
下面的命令針對特定的分布繪制Q-Q圖
qqplot(qt(ppoints(250), df = 5), x, xlab = "Q-Q plot for t dsn")
qqline(x)
最後,我們可能需要一個比較正規的正態性檢驗方法。R提供了Shapiro-Wilk 檢

> shapiro.test(long)
Shapiro-Wilk normality test
data: long
W = 0.9793, p-value = 0.01052
和Kolmogorov-Smirnov 檢驗
> ks.test(long, "pnorm", mean = mean(long), sd = sqrt(var(long)))
One-sample Kolmogorov-Smirnov test
data: long
D = 0.0661, p-value = 0.4284
alternative hypothesis: two.sided
(注意一般的統計分布理論(distribution theory)在這里可能無效,因為我們用同樣
的樣本對正態分布的參數進行估計的。)

轉載於:
http://www.biostatistic.net/thread-2413-1-1.html

㈡ 鎺ㄨ崘緋葷粺錛堜竴錛夛細鍩轟簬鐗╁搧鐨勫崗鍚岃繃婊ょ畻娉

鍗忓悓榪囨護(collaborative filtering)綆楁硶鏄鏈緇忓吀銆佹渶甯哥敤鐨勬帹鑽愮畻娉曘傚叾鍩烘湰鎬濇兂鏄鏀墮泦鐢ㄦ埛鍋忓ソ錛屾壘鍒扮浉浼肩殑鐢ㄦ埛鎴栫墿鍝侊紝鐒跺悗璁$畻騫舵帹鑽愩
鍩轟簬鐗╁搧鐨勫崗鍚岃繃婊ょ畻娉曠殑鏍稿績鎬濇兂灝辨槸錛氱粰鐢ㄦ埛鎺ㄨ崘閭d簺鍜屼粬浠涔嬪墠鍠滄㈢殑鐗╁搧鐩鎬技鐨勭墿鍝併備富瑕佸彲鍒嗕負涓ゆワ細
(1) 璁$畻鐗╁搧涔嬮棿鐨勭浉浼煎害錛屽緩絝嬬浉浼煎害鐭╅樀銆
(2) 鏍規嵁鐗╁搧鐨勭浉浼煎害鍜岀敤鎴風殑鍘嗗彶琛屼負緇欑敤鎴風敓鎴愭帹鑽愬垪琛ㄣ

鐩鎬技搴︾殑瀹氫箟鏈夊氱嶆柟寮忥紝涓嬮潰綆瑕佷粙緇嶅叾涓鍑犵嶏細

鍏朵腑錛屽垎姣 鏄鍠滄㈢墿鍝 鐨勭敤鎴鋒暟錛岃屽垎瀛 鏄鍚屾椂鍠滄㈢墿鍝 鍜岀墿鍝 鐨勭敤鎴鋒暟銆傚洜姝わ紝涓婅堪鍏寮忓彲浠ョ悊瑙d負鍠滄㈢墿鍝 鐨勭敤鎴蜂腑鏈夊氬皯姣斾緥鐨勭敤鎴蜂篃鍠滄㈢墿鍝 銆
涓婅堪鍏寮忓瓨鍦ㄤ竴涓闂棰樸傚傛灉鐗╁搧 寰堢儹闂錛 灝變細寰堝ぇ錛屾帴榪1銆傚洜姝わ紝璇ュ叕寮忎細閫犳垚浠諱綍鐗╁搧閮戒細鍜岀儹闂ㄧ殑鐗╁搧鏈夊緢澶х殑鐩鎬技搴︼紝涓轟簡閬垮厤鎺ㄨ崘鍑虹儹闂ㄧ殑鐗╁搧錛屽彲浠ョ敤涓嬮潰鐨勫叕寮忥細

榪欎釜鍏寮忔儵緗氫簡鐗╁搧 鐨勬潈閲嶏紝鍥犳ゅ噺杞諱簡鐑闂ㄧ墿鍝佷細鍜屽緢澶氱墿鍝佺浉浼肩殑鍙鑳芥с
鍙﹀栦負鍑忓皬媧昏穬鐢ㄦ埛瀵圭粨鏋滅殑褰卞搷錛岃冭檻IUF(nverse User Frequence) 錛屽嵆鐢ㄦ埛媧昏穬搴﹀規暟鐨勫掓暟鐨勫弬鏁幫紝璁や負媧昏穬鐢ㄦ埛瀵圭墿鍝佺浉浼煎害鐨勮礎鐚搴旇ュ皬浜庝笉媧昏穬鐨勭敤鎴楓

涓轟究浜庤$畻錛岃繕闇瑕佽繘涓姝ュ皢鐩鎬技搴︾煩闃靛綊涓鍖 銆

鍏朵腑 琛ㄧず鐢ㄦ埛 瀵圭墿鍝 鐨勮瘎鍒嗐 鍦ㄥ尯闂 鍐咃紝瓚婃帴榪1琛ㄧず鐩鎬技搴﹁秺楂樸

琛ㄧず絀洪棿涓鐨勪袱涓鐐癸紝鍒欏叾嬈у嚑閲屽緱璺濈諱負錛

褰 鏃訛紝鍗充負騫抽潰涓婁袱涓鐐圭殑璺濈伙紝褰撹〃紺虹浉浼煎害鏃訛紝鍙閲囩敤涓嬪紡杞鎹錛

璺濈昏秺灝忥紝鐩鎬技搴﹁秺澶с

涓鑸琛ㄧず涓や釜瀹氳窛鍙橀噺闂磋仈緋葷殑緔у瘑紼嬪害錛屽彇鍊艱寖鍥翠負[-1,1]

鍏朵腑 鏄 鍜 鐨勬牱鍝佹爣鍑嗗樊

灝嗙敤鎴瘋屼負鏁版嵁鎸夌収鍧囧寑鍒嗗竷闅忔満鍒掑垎涓篗浠斤紝鎸戦変竴浠戒綔涓烘祴璇曢泦錛屽皢鍓╀笅鐨凪-1浠戒綔涓鴻緇冮泦銆備負闃叉㈣瘎嫻嬫寚鏍囦笉鏄榪囨嫙鍚堢殑緇撴灉錛屽叡榪涜孧嬈″疄楠岋紝姣忔¢兘浣跨敤涓嶅悓鐨勬祴璇曢泦銆傜劧鍚庡皢M嬈″疄楠屾祴鍑虹殑璇勬祴鎸囨爣鐨勫鉤鍧囧間綔涓烘渶緇堢殑璇勬祴鎸囨爣銆

瀵圭敤鎴穟鎺ㄨ崘N涓鐗╁搧(璁頒負 )錛屼護鐢ㄦ埛u鍦ㄦ祴璇曢泦涓婂枩嬈㈢殑鐗╁搧闆嗗悎涓 錛屽彫鍥炵巼鎻忚堪鏈夊氬皯姣斾緥鐨勭敤鎴-鐗╁搧璇勫垎璁板綍鍖呭惈鍦ㄦ渶緇堢殑鎺ㄨ崘鍒楄〃涓銆

鍑嗙『鐜囨弿榪版渶緇堢殑鎺ㄨ崘鍒楄〃涓鏈夊氬皯姣斾緥鏄鍙戠敓榪囩殑鐢ㄦ埛-鐗╁搧璇勫垎璁板綍銆

瑕嗙洊鐜囧弽鏄犱簡鎺ㄨ崘綆楁硶鍙戞帢闀垮熬鐨勮兘鍔涳紝瑕嗙洊鐜囪秺楂橈紝璇存槑鎺ㄨ崘綆楁硶瓚婅兘澶熷皢闀垮熬涓鐨勭墿鍝佹帹鑽愮粰鐢ㄦ埛銆傚垎瀛愰儴鍒嗚〃紺哄疄楠屼腑鎵鏈夎鎺ㄨ崘緇欑敤鎴風殑鐗╁搧鏁扮洰(闆嗗悎鍘婚噸)錛屽垎姣嶈〃紺烘暟鎹闆嗕腑鎵鏈夌墿鍝佺殑鏁扮洰銆

閲囩敤GroupLens鎻愪緵鐨凪ovieLens鏁版嵁闆嗭紝 http://www.grouplens.org/node/73 銆傛湰絝犱嬌鐢ㄤ腑絳夊ぇ灝忕殑鏁版嵁闆嗭紝鍖呭惈6000澶氱敤鎴峰4000澶氶儴鐢靛獎鐨100涓囨潯璇勫垎銆傝ユ暟鎹闆嗘槸涓涓璇勫垎鏁版嵁闆嗭紝鐢ㄦ埛鍙浠ョ粰鐢靛獎璇1-5鍒5涓涓嶅悓鐨勭瓑綰с傛湰鏂囩潃閲嶇爺絀墮殣鍙嶉堟暟鎹闆嗕腑TopN鎺ㄨ崘闂棰橈紝鍥犳ゅ拷鐣ヤ簡鏁版嵁闆嗕腑鐨勮瘎鍒嗚板綍銆

璇ラ儴鍒嗗畾涔変簡鎵闇瑕佺殑涓昏佸彉閲忥紝闆嗗悎閲囩敤瀛楀吀褰㈠紡鐨勬暟鎹緇撴瀯銆

璇誨彇鍘熷婥SV鏂囦歡錛屽苟鍒掑垎璁緇冮泦鍜屾祴璇曢泦錛岃緇冮泦鍗犳瘮87.5%錛屽悓鏃跺緩絝嬭緇冮泦鍜屾祴璇曢泦鐨勭敤鎴峰瓧鍏革紝璁板綍姣忎釜鐢ㄦ埛瀵圭數褰辮瘎鍒嗙殑瀛楀吀銆

絎涓姝ュ驚鐜璇誨彇姣忎釜鐢ㄦ埛鍙婂叾鐪嬭繃鐨勭數褰憋紝騫剁粺璁℃瘡閮ㄧ數褰辮鐪嬭繃鐨勬℃暟錛屼互鍙婄數褰辨繪暟錛涚浜屾ヨ$畻鐭╅樀C錛孋[i][j]琛ㄧず鍚屾椂鍠滄㈢數褰眎鍜宩鐨勭敤鎴鋒暟錛屽苟鑰冭檻瀵規椿璺冪敤鎴風殑鎯╃綒錛涚涓夋ユ牴鎹寮\ref{similarity}璁$畻鐢靛獎闂寸殑鐩鎬技鎬э紱絎鍥涙ヨ繘琛屽綊涓鍖栧勭悊銆

閽堝圭洰鏍囩敤鎴稶錛屾壘鍒癒閮ㄧ浉浼肩殑鐢靛獎錛屽苟鎺ㄨ崘鍏禢閮ㄧ數褰憋紝濡傛灉鐢ㄦ埛宸茬粡鐪嬭繃璇ョ數褰卞垯涓嶆帹鑽愩

浜х敓鎺ㄨ崘騫墮氳繃鍑嗙『鐜囥佸彫鍥炵巼鍜岃嗙洊鐜囪繘琛岃瘎浼般

緇撴灉濡備笅鎵紺猴紝鐢變簬鏁版嵁閲忚緝澶э紝鐩鎬技搴︾煩闃典負 緇達紝璁$畻閫熷害杈冩參錛岃愬績絳夊緟鍗沖彲銆

[1]. https://blog.csdn.net/m0_37917271/article/details/82656158
[2]. 鎺ㄨ崘緋葷粺涓庢繁搴﹀︿範. 榛勬槙絳. 娓呭崕澶у﹀嚭鐗堢ぞ. 2019.
[3]. 鎺ㄨ崘緋葷粺綆楁硶瀹炶返. 榛勭編鐏. 鐢靛瓙宸ヤ笟鍑虹増紺. 2019.
[4]. 鎺ㄨ崘緋葷粺綆楁硶. 欏逛寒. 浜烘皯閭鐢靛嚭鐗堢ぞ. 2012.
[5]. 緹庡洟鏈哄櫒瀛︿範瀹炶返. 緹庡洟綆楁硶鍥㈤槦. 浜烘皯閭鐢靛嚭鐗堢ぞ. 2018.

閱讀全文

與怎麼驗證一個數據集是長尾相關的資料

熱點內容
從什麼網站上查找國家標准 瀏覽:254
iphone5s最省電的瀏覽器 瀏覽:225
用數據線如何接攝像頭 瀏覽:110
qq手機電腦互傳文件 瀏覽:613
linux內核升級方法 瀏覽:986
iphone5沒有熱點 瀏覽:189
哪裡有在線幼兒c語言編程 瀏覽:959
iframe跨域調用js對象 瀏覽:178
蘋果手機能分文件夾嗎 瀏覽:679
fdb文件怎麼刪除裡面內容 瀏覽:638
龍江網路配置什麼路由器 瀏覽:169
如何使用指標導入數據 瀏覽:866
平時用什麼app看nba 瀏覽:503
win10想以管理員身份運行bat文件 瀏覽:85
合並單元格中的其他數據如何排序 瀏覽:331
電腦窗口程序在哪 瀏覽:281
前女友把我微信刪了又加什麼意思 瀏覽:655
win10不識別無線xboxone手柄 瀏覽:403
汽車之家app怎麼看成交價 瀏覽:908
abc文件破解密碼 瀏覽:516

友情鏈接