导航:首页 > 数据分析 > 怎么验证一个数据集是长尾

怎么验证一个数据集是长尾

发布时间:2024-06-28 08:51:52

㈠ R语言怎么检验分布是不是T分布

ks.test()实现了KS检验,可以检验任意样本是不是来自给定的连续分布。
你这里的用法就是:
ks.test(data,pt,df=df) #data是样本的数据,df是要检验的t分布的自由度

我们可以用很多方法分析一个单变量数据集的分布。最简单的办法就是直接看数
字。利用函数summary 和fivenum 会得到两个稍稍有点差异的汇总信息。此外,stem
(\茎叶"图)也会反映整个数据集的数字信息。
> attach(faithful)
> summary(eruptions)
Min. 1st Qu. Median Mean 3rd Qu. Max.
1.600 2.163 4.000 3.488 4.454 5.100
> fivenum(eruptions)
[1] 1.6000 2.1585 4.0000 4.4585 5.1000
> stem(eruptions)
The decimal point is 1 digit(s) to the left of the |
16 | 070355555588
18 |
20 | 00002223378800035778
22 | 0002335578023578
24 | 00228
26 | 23
28 | 080
30 | 7
32 | 2337
34 | 250077
36 | 0000823577
38 | 2333335582225577
40 |
42 | 03335555778800233333555577778
44 |
46 | 0000233357700000023578
48 | 00000022335800333
50 | 0370
茎叶图和柱状图相似,R 用函数hist 绘制柱状图。
> hist(eruptions)
> ## 让箱距缩小,绘制密度图
> hist(eruptions, seq(1.6, 5.2, 0.2), prob=TRUE)
> lines(density(eruptions, bw=0.1))
> rug(eruptions) # 显示实际的数据点
更为精致的密度图是用函数density 绘制的。在这个例子中,我们加了一条
由density 产生的曲线。你可以用试错法(trial-and-error)选择带宽bw(bandwidth)
因为默认的带宽值让密度曲线过于平滑(这样做常常会让你得到非常有\意思"的密度
分布)。(现在已经有一些自动的带宽挑选方法2,在这个例子中bw = "SJ"给出的结
果不错。)
我们可以用函数ecdf 绘制一个数据集的经验累积分布(empirical cumulative
distribution)函数。
> plot(ecdf(eruptions), do.points=FALSE, verticals=TRUE)
显然,这个分布和其他标准分布差异很大。那么右边的情况怎么样呢,就是火山
爆发3分钟后的状况?我们可以拟合一个正态分布,并且重叠前面得到的经验累积密
度分布。
> long <- eruptions[eruptions > 3]
> plot(ecdf(long), do.points=FALSE, verticals=TRUE)
> x <- seq(3, 5.4, 0.01)
> lines(x, pnorm(x, mean=mean(long), sd=sqrt(var(long))), lty=3)
分位比较图(Quantile-quantile (Q-Q) plot)便于我们更细致地研究二者的吻合
程度。
par(pty="s") # 设置一个方形的图形区域
qqnorm(long); qqline(long)
上述命令得到的QQ图表明二者还是比较吻合的,但右侧尾部偏离期望的正态分布。
我们可以用t 分布获得一些模拟数据以重复上面的过程
x <- rt(250, df = 5)
qqnorm(x); qqline(x)
这里得到的QQ图常常会出现偏离正态期望的长尾区域(如果是随机样本)。我们可以用
下面的命令针对特定的分布绘制Q-Q图
qqplot(qt(ppoints(250), df = 5), x, xlab = "Q-Q plot for t dsn")
qqline(x)
最后,我们可能需要一个比较正规的正态性检验方法。R提供了Shapiro-Wilk 检

> shapiro.test(long)
Shapiro-Wilk normality test
data: long
W = 0.9793, p-value = 0.01052
和Kolmogorov-Smirnov 检验
> ks.test(long, "pnorm", mean = mean(long), sd = sqrt(var(long)))
One-sample Kolmogorov-Smirnov test
data: long
D = 0.0661, p-value = 0.4284
alternative hypothesis: two.sided
(注意一般的统计分布理论(distribution theory)在这里可能无效,因为我们用同样
的样本对正态分布的参数进行估计的。)

转载于:
http://www.biostatistic.net/thread-2413-1-1.html

㈡ 鎺ㄨ崘绯荤粺锛堜竴锛夛細鍩轰簬鐗╁搧鐨勫崗鍚岃繃婊ょ畻娉

鍗忓悓杩囨护(collaborative filtering)绠楁硶鏄鏈缁忓吀銆佹渶甯哥敤鐨勬帹鑽愮畻娉曘傚叾鍩烘湰鎬濇兂鏄鏀堕泦鐢ㄦ埛鍋忓ソ锛屾壘鍒扮浉浼肩殑鐢ㄦ埛鎴栫墿鍝侊紝鐒跺悗璁$畻骞舵帹鑽愩
鍩轰簬鐗╁搧鐨勫崗鍚岃繃婊ょ畻娉曠殑鏍稿績鎬濇兂灏辨槸锛氱粰鐢ㄦ埛鎺ㄨ崘閭d簺鍜屼粬浠涔嬪墠鍠滄㈢殑鐗╁搧鐩镐技鐨勭墿鍝併備富瑕佸彲鍒嗕负涓ゆワ細
(1) 璁$畻鐗╁搧涔嬮棿鐨勭浉浼煎害锛屽缓绔嬬浉浼煎害鐭╅樀銆
(2) 鏍规嵁鐗╁搧鐨勭浉浼煎害鍜岀敤鎴风殑鍘嗗彶琛屼负缁欑敤鎴风敓鎴愭帹鑽愬垪琛ㄣ

鐩镐技搴︾殑瀹氫箟鏈夊氱嶆柟寮忥紝涓嬮潰绠瑕佷粙缁嶅叾涓鍑犵嶏細

鍏朵腑锛屽垎姣 鏄鍠滄㈢墿鍝 鐨勭敤鎴锋暟锛岃屽垎瀛 鏄鍚屾椂鍠滄㈢墿鍝 鍜岀墿鍝 鐨勭敤鎴锋暟銆傚洜姝わ紝涓婅堪鍏寮忓彲浠ョ悊瑙d负鍠滄㈢墿鍝 鐨勭敤鎴蜂腑鏈夊氬皯姣斾緥鐨勭敤鎴蜂篃鍠滄㈢墿鍝 銆
涓婅堪鍏寮忓瓨鍦ㄤ竴涓闂棰樸傚傛灉鐗╁搧 寰堢儹闂锛 灏变細寰堝ぇ锛屾帴杩1銆傚洜姝わ紝璇ュ叕寮忎細閫犳垚浠讳綍鐗╁搧閮戒細鍜岀儹闂ㄧ殑鐗╁搧鏈夊緢澶х殑鐩镐技搴︼紝涓轰簡閬垮厤鎺ㄨ崘鍑虹儹闂ㄧ殑鐗╁搧锛屽彲浠ョ敤涓嬮潰鐨勫叕寮忥細

杩欎釜鍏寮忔儵缃氫簡鐗╁搧 鐨勬潈閲嶏紝鍥犳ゅ噺杞讳簡鐑闂ㄧ墿鍝佷細鍜屽緢澶氱墿鍝佺浉浼肩殑鍙鑳芥с
鍙﹀栦负鍑忓皬娲昏穬鐢ㄦ埛瀵圭粨鏋滅殑褰卞搷锛岃冭檻IUF(nverse User Frequence) 锛屽嵆鐢ㄦ埛娲昏穬搴﹀规暟鐨勫掓暟鐨勫弬鏁帮紝璁や负娲昏穬鐢ㄦ埛瀵圭墿鍝佺浉浼煎害鐨勮础鐚搴旇ュ皬浜庝笉娲昏穬鐨勭敤鎴枫

涓轰究浜庤$畻锛岃繕闇瑕佽繘涓姝ュ皢鐩镐技搴︾煩闃靛綊涓鍖 銆

鍏朵腑 琛ㄧず鐢ㄦ埛 瀵圭墿鍝 鐨勮瘎鍒嗐 鍦ㄥ尯闂 鍐咃紝瓒婃帴杩1琛ㄧず鐩镐技搴﹁秺楂樸

琛ㄧず绌洪棿涓鐨勪袱涓鐐癸紝鍒欏叾娆у嚑閲屽緱璺濈讳负锛

褰 鏃讹紝鍗充负骞抽潰涓婁袱涓鐐圭殑璺濈伙紝褰撹〃绀虹浉浼煎害鏃讹紝鍙閲囩敤涓嬪紡杞鎹锛

璺濈昏秺灏忥紝鐩镐技搴﹁秺澶с

涓鑸琛ㄧず涓や釜瀹氳窛鍙橀噺闂磋仈绯荤殑绱у瘑绋嬪害锛屽彇鍊艰寖鍥翠负[-1,1]

鍏朵腑 鏄 鍜 鐨勬牱鍝佹爣鍑嗗樊

灏嗙敤鎴疯屼负鏁版嵁鎸夌収鍧囧寑鍒嗗竷闅忔満鍒掑垎涓篗浠斤紝鎸戦変竴浠戒綔涓烘祴璇曢泦锛屽皢鍓╀笅鐨凪-1浠戒綔涓鸿缁冮泦銆備负闃叉㈣瘎娴嬫寚鏍囦笉鏄杩囨嫙鍚堢殑缁撴灉锛屽叡杩涜孧娆″疄楠岋紝姣忔¢兘浣跨敤涓嶅悓鐨勬祴璇曢泦銆傜劧鍚庡皢M娆″疄楠屾祴鍑虹殑璇勬祴鎸囨爣鐨勫钩鍧囧间綔涓烘渶缁堢殑璇勬祴鎸囨爣銆

瀵圭敤鎴穟鎺ㄨ崘N涓鐗╁搧(璁颁负 )锛屼护鐢ㄦ埛u鍦ㄦ祴璇曢泦涓婂枩娆㈢殑鐗╁搧闆嗗悎涓 锛屽彫鍥炵巼鎻忚堪鏈夊氬皯姣斾緥鐨勭敤鎴-鐗╁搧璇勫垎璁板綍鍖呭惈鍦ㄦ渶缁堢殑鎺ㄨ崘鍒楄〃涓銆

鍑嗙‘鐜囨弿杩版渶缁堢殑鎺ㄨ崘鍒楄〃涓鏈夊氬皯姣斾緥鏄鍙戠敓杩囩殑鐢ㄦ埛-鐗╁搧璇勫垎璁板綍銆

瑕嗙洊鐜囧弽鏄犱簡鎺ㄨ崘绠楁硶鍙戞帢闀垮熬鐨勮兘鍔涳紝瑕嗙洊鐜囪秺楂橈紝璇存槑鎺ㄨ崘绠楁硶瓒婅兘澶熷皢闀垮熬涓鐨勭墿鍝佹帹鑽愮粰鐢ㄦ埛銆傚垎瀛愰儴鍒嗚〃绀哄疄楠屼腑鎵鏈夎鎺ㄨ崘缁欑敤鎴风殑鐗╁搧鏁扮洰(闆嗗悎鍘婚噸)锛屽垎姣嶈〃绀烘暟鎹闆嗕腑鎵鏈夌墿鍝佺殑鏁扮洰銆

閲囩敤GroupLens鎻愪緵鐨凪ovieLens鏁版嵁闆嗭紝 http://www.grouplens.org/node/73 銆傛湰绔犱娇鐢ㄤ腑绛夊ぇ灏忕殑鏁版嵁闆嗭紝鍖呭惈6000澶氱敤鎴峰4000澶氶儴鐢靛奖鐨100涓囨潯璇勫垎銆傝ユ暟鎹闆嗘槸涓涓璇勫垎鏁版嵁闆嗭紝鐢ㄦ埛鍙浠ョ粰鐢靛奖璇1-5鍒5涓涓嶅悓鐨勭瓑绾с傛湰鏂囩潃閲嶇爺绌堕殣鍙嶉堟暟鎹闆嗕腑TopN鎺ㄨ崘闂棰橈紝鍥犳ゅ拷鐣ヤ簡鏁版嵁闆嗕腑鐨勮瘎鍒嗚板綍銆

璇ラ儴鍒嗗畾涔変簡鎵闇瑕佺殑涓昏佸彉閲忥紝闆嗗悎閲囩敤瀛楀吀褰㈠紡鐨勬暟鎹缁撴瀯銆

璇诲彇鍘熷婥SV鏂囦欢锛屽苟鍒掑垎璁缁冮泦鍜屾祴璇曢泦锛岃缁冮泦鍗犳瘮87.5%锛屽悓鏃跺缓绔嬭缁冮泦鍜屾祴璇曢泦鐨勭敤鎴峰瓧鍏革紝璁板綍姣忎釜鐢ㄦ埛瀵圭數褰辫瘎鍒嗙殑瀛楀吀銆

绗涓姝ュ惊鐜璇诲彇姣忎釜鐢ㄦ埛鍙婂叾鐪嬭繃鐨勭數褰憋紝骞剁粺璁℃瘡閮ㄧ數褰辫鐪嬭繃鐨勬℃暟锛屼互鍙婄數褰辨绘暟锛涚浜屾ヨ$畻鐭╅樀C锛孋[i][j]琛ㄧず鍚屾椂鍠滄㈢數褰眎鍜宩鐨勭敤鎴锋暟锛屽苟鑰冭檻瀵规椿璺冪敤鎴风殑鎯╃綒锛涚涓夋ユ牴鎹寮\ref{similarity}璁$畻鐢靛奖闂寸殑鐩镐技鎬э紱绗鍥涙ヨ繘琛屽綊涓鍖栧勭悊銆

閽堝圭洰鏍囩敤鎴稶锛屾壘鍒癒閮ㄧ浉浼肩殑鐢靛奖锛屽苟鎺ㄨ崘鍏禢閮ㄧ數褰憋紝濡傛灉鐢ㄦ埛宸茬粡鐪嬭繃璇ョ數褰卞垯涓嶆帹鑽愩

浜х敓鎺ㄨ崘骞堕氳繃鍑嗙‘鐜囥佸彫鍥炵巼鍜岃嗙洊鐜囪繘琛岃瘎浼般

缁撴灉濡備笅鎵绀猴紝鐢变簬鏁版嵁閲忚緝澶э紝鐩镐技搴︾煩闃典负 缁达紝璁$畻閫熷害杈冩參锛岃愬績绛夊緟鍗冲彲銆

[1]. https://blog.csdn.net/m0_37917271/article/details/82656158
[2]. 鎺ㄨ崘绯荤粺涓庢繁搴﹀︿範. 榛勬槙绛. 娓呭崕澶у﹀嚭鐗堢ぞ. 2019.
[3]. 鎺ㄨ崘绯荤粺绠楁硶瀹炶返. 榛勭編鐏. 鐢靛瓙宸ヤ笟鍑虹増绀. 2019.
[4]. 鎺ㄨ崘绯荤粺绠楁硶. 椤逛寒. 浜烘皯閭鐢靛嚭鐗堢ぞ. 2012.
[5]. 缇庡洟鏈哄櫒瀛︿範瀹炶返. 缇庡洟绠楁硶鍥㈤槦. 浜烘皯閭鐢靛嚭鐗堢ぞ. 2018.

阅读全文

与怎么验证一个数据集是长尾相关的资料

热点内容
李连杰电影全集 浏览:118
风云第一部演员表 浏览:441
手机如何把zip文件改成apk软件 浏览:309
电脑桌面word 浏览:471
近年来振兴东北文件有哪些 浏览:106
徐锦江的真军电影 浏览:797
看美国的用什么网站 浏览:829
异形5完整版免费观看 浏览:771
百度云视频被屏蔽怎么打开 浏览:386
1942拍摄地 浏览:373
英文电影网站 浏览:426
免费破解看电影的软件有哪些 浏览:499
文件夹路径收藏 浏览:667
autocad文件建立 浏览:633
宝马x3手机app有什么功能 浏览:160
未安装的文件从哪里找 浏览:916
从哪里查政策文件 浏览:29
关于大金刚的动漫电影 浏览:903
如何识别假购物网站 浏览:672
什么是网络问什么是主机位 浏览:540

友情链接