❶ 平均數,中位數,眾數,極差,方差,標准差各代表著什麼
平均數:表示數據的總體水平
中位數:表示數據的中等水平
眾數:表示數據的普遍情版況
方差、標准差權:表示數據的離散程度,方差更能反映情況。
例:4、6、4、6和3、5、5、7的的標准差相同,但方差不同
極差:表示數據的范圍和集中趨勢
❷ # 大數據的統計學基礎
概率論是統計學的基礎,統計學沖鋒在應用第一線,概率論提供武器。
我們在學習R的時候,會做過假設檢驗。做假設檢驗的時候會有一個基本的技術就是構造出統計量,這些統計量要滿足一定的概率密度分布,然後我算這個統計量的值,來判定它在這個密度分布裡面,分布在哪個區域,出現在這個區域內的可能性有多高,如果可能性太低,我們就判定我們的假設檢驗是不成立的。 那麼如何構造這個統計量,這是一個很有技術的東西,同時也是由數學家來完成的,那這個工作就是概率論所作的事情。
古典概率論: 扔硬幣,正面1/2反面1/2,扔的次數之間是相互獨立的。 但是這個等概率事件確實是一個不是很嚴謹的事情。仔細想一想其實是很有趣的。 柯爾莫哥洛夫創建現代概率論 他將概率論提出了許多公理,因此將概率論變成了非常嚴謹的一門學科。
學會和運用概率,會使人變得聰明,決策更准確。
統計學 : 統計學可以分為:描述統計學與推斷統計學 描述統計學 :使用特定的數字或者圖表來體現數據的集中程度和離散程度。比如:每次考試算的平均分,最高分,各個分數段的人數分布等,也是屬於描述統計學的范圍。 推斷統計學 :根據樣本數據推斷總體數據特徵。比如:產品質量檢查,一般採用抽樣檢測,根據所抽樣本的質量合格率作為總體的質量合格率的一個估計。 統計學的應用十分廣泛,可以說,只要有數據,就有統計學的用武之地。目前比較熱門的應用:經濟學,醫學,心理學,IT行業大數據方面等。
例如:對於 1 2 3 4 5 這組數據,你會使用哪個數字作為代表呢? 答案是3。 因為3是這組數據的中心。 對於一組數據,如果只容許使用一個數字去代表這組數據,那麼這個數字應該如何選擇???-----選擇數據的中心,即反映數據集中趨勢的統計量。 集中趨勢:在統計學裡面的意思是任意種數據向 中心值靠攏 的程度。它可以反映出數據中心點所在的位置。 我們經常用到的能夠反映出集中趨勢的統計量: 均值:算數平均數,描述 平均水平 。 中位數:將數據按大小排列後位於正中間的數描述,描述 中等水平 。 眾數:數據種出現最多的數,描述 一般水平 。
均值:算數平均數 例如:某次數學考試種,小組A與小組B的成員成績分別如下: A:70,85,62,98,92 B:82,87,95,80,83 分別求出兩組的平均數,並比較兩組的成績。
組B的平均分比組A的高,就是組B的總體成績比組A高。
中位數:將數據按大小順序(從大到小或者從小到大)排列後處於 中間位置 的數。 例如:58,32,46,92,73,88,23 1.先排序:23,32,46,58,73,88,92 2.找出中間位置的數23,32,46, 58 ,73,88,92 如果數據中是偶數個數,那麼結果會發生什麼改變? 例如:58,32,46,92,73,88,23,63 1.先排序:23,32,46,58,63,73,88,92 2.找出處於中間位置的數:23,32,46, 58 , 63 ,73,88,92 3.若處於中間位置的數據有兩個(也就是數據的總個數為偶數時),中位數為中間兩個數的算數平均數:(58+63)/2=60.5 在原數據中,四個數字比60.5小,四個數字比60.5大。
眾數:數據中出現次數最多的數(所佔比例最大的數) 一組數據中,可能會存在多個眾數,也可能不存在眾數。 1 2 2 3 3 中,眾數是2 和 3 1 2 3 4 5 中,沒有眾數 1 1 2 2 3 3 4 4 中,也沒有眾數 只要出現的頻率是一樣的,那麼就不存在眾數 眾數不僅適用於數值型數據,對於非數值型數據也同樣適合 {蘋果,蘋果,香蕉,橙子,橙子,橙子,橙子,桃子}這一組數據,沒有什麼均值中位數科研,但是存在眾數---橙子。 但是在R語言裡面沒有直接計算眾數的內置函數,不過可以通過統計數據出現的頻率變相的去求眾數。
下面比較一下均值,中位數,眾數三個統計量有什麼優點和缺點 [圖片上傳失敗...(image-57f18-1586015539906)]
例子: 兩個公司的員工及薪資構成如下: A:經理1名,月薪100000;高級員工15名,月薪10000;普通員工20名,月薪7500 B:經理1名,月薪20000;高級員工20名,月薪11000;普通員工15名,月薪9000 請比較兩家公司的薪資水平。若只考慮薪資,你會選擇哪一家公司?
A 7500 B 11000
A 7500 B 11000</pre>
若從均值的角度考慮,明顯地A公司的平均月薪比B公司的高,但是A公司存在一個極端值,大大地拉高了A公司的均值,這時只從均值考慮明顯不太科學。從中位數和眾數來看,B公司的薪資水平比較高,若是一般員工,選擇B公司顯得更加合理。
比較下面兩組數據: A: 1 2 5 8 9 B: 3 4 5 6 7 兩組數據的均值都是5,但是你可以看出B組的數據與5更加接近。但是有描述集中趨勢的統計量不夠,需要有描述數據的離散程度的統計量。
極差 :最大值 - 最小值,簡單地描述數據的范圍大小。 A: 9 - 1 = 8 B: 7 - 3 = 4 同樣的5個數,A的極差比B的極差要大,所以也比B的要分散 但是只用極差這個衡量離散程度也存在不足 比如: A: 1 2 5 8 9 B: 1 4 5 6 9 兩組數據雖然極差都是相同的,但是B組數據整體分布上更加靠近5。
方差 :在統計學上,更常地是使用方差來描述數據的 離散程度 :數據離中心越遠,越離散。 方差越大,就代表這組數據越離散。
對於前面的數據 1 2 5 8 9,前面求的一組數據的方差是12.5。 將12.5於原始數據進行比較,可以看出12.5比原數據都大,這是否就能說明這一組數據十分離散呢? 其實方差與元數據的單位是不一樣的,這樣比較也是毫無意義的。如果原始數據的單位是m的話,那麼方差的單位就是m^2 為了保持單位的一致性,我們引入一個新的統計量:標准差 標准差:sqrt(var()), 有效地避免了因為單位的平方而引起的度量問題。 與方差一樣,標准差的值越大,表示數據越分散。 A: 1 2 5 8 9 B: 3 4 5 6 7
某班40個學生某次數學檢測的成績如下:
63,84,91,53,69,81,61,69,78,75,81,67,76,81,79,94,61,69,89,70,70,87,81,86,90,88,85,67,71,82,87,75,87,95,53,65,74,77 對於這一組數字,你能看出什麼呢? 或許先算一算平均值,中位數,或者眾數
或許算一算這組數據的方差或者標准差
但是即便是統計了上述的數據,我們還是對全班同學的分數分布,沒有一個全面的了解。 原始數據太雜亂無章,難以看出規律性,只依賴數字來描述集中趨勢與離散程度讓人難以對數據產生直觀地印象,這是我們就需要用到圖標來展示這些數字。
1.找出上面數據中的最大值和最小是,確定數據的范圍。
將成績排序後很容易得到最大值是95,最小值是53
2.整理數據,將數據按照成績分為幾個組。成績按照一般50-60,60-70,70-80,80-90,90-100這幾個分段來劃分(一般都分為5-10組),然後統計這幾個分段內部的頻數。 可以看到80-90這個分段的人數是最多的。 注意在繪制直方圖的時候,一定要知道是左閉右開還是左開右閉。 因為這個可能會直接影響到頻數的統計。
上圖就是:頻數直方圖。頻數作為縱坐標,成績作為橫坐標。通過直方圖我們可以對成績有一個非常直觀的印象。 除了頻數直方圖,還有一種直方圖:頻率直方圖。與頻數直方圖相比,頻率直方圖的縱坐標有所改變,使用了頻率/組距。 頻率=頻數/總數;組距就是分組的極差,這里的組距是10.
除了直方圖外,畫一個簡單的箱線圖也可以大致看出數據的分布。
想要看懂箱線圖,必須要學習一些箱線圖專業的名詞: 下四分位數:Q1,將所有的數據按照從小到大的順序排序,排在第25%位置的數字。 上四分位數:Q3,將所有的數據按照從小到大的順序排序,排在第75%位置的數字。 四分距:IQR,等於Q3-Q1,衡量數據離散程度的一個統計量。 異常點:小於Q1-1.5IQR或者大於Q3+1.5IQR的值。 (注意是1.5倍的IQR) 上邊緣:除異常點以外的數據中的最大值 下邊緣:除異常點以外的數據種的最小值
莖葉圖可以在保留全部數據信息的情況下,直觀地顯示出數據的分布情況。 左邊是莖,右邊是葉。 若將莖葉圖旋轉90度,則可以得到一個類似於直方圖的圖。跟直方圖一樣,也可以直觀地知道數據的分布情況。 並且可以保留所有的數據信息。 莖葉圖的畫法也非常的簡單: 將數據分為莖和葉兩部分,這里的莖是指十位上的數字,葉是指給上的數字。 將莖部份(十位)從小到大,從上到下寫出來 相對於各自的莖,將同一莖(十位)從小到大,從左往右寫出來。
但是莖葉圖也有缺陷,因為百位和十位同時畫在莖葉圖的時候,容易區分不開。同時也可能出現卻葉的情況。
以時間作為橫坐標,變數作為縱坐標,反映變數隨時間推移的變化趨勢。
顯示一段時間內的數據變化或者顯示各項之間的比較情況。
根據各項所佔百分比決定在餅圖中扇形的面積。簡單易懂,通俗明了。可以更加形象地看出各個項目所佔的比例大小。 適當的運用一些統計圖表,可以更生動形象的說明,不再只是純數字的枯燥描述。
學習鏈接: https://www.bilibili.com/video/BV1Ut411r7RG
❸ 擁抱大數據需要大智慧
擁抱大數據需要大智慧
近年來,有關大數據的熱點話題一浪高過一浪,關注大數據應用的人也越來越多。總體來說,人們對大數據的前景持樂觀態度,比如談到大數據的技術特徵,人們最容易想起的就是4個「v」:vast(數量龐大)、variety(種類繁多)、velocity(增長迅速)和value(總價值高)。這些都沒錯,但仔細一想,它們都是偏重說明大數據的正面優勢的。但其實,大也有大的難處,大數據也不可避免地存在著一些負面劣勢。結合筆者的從業經驗,大數據的負面劣勢可以概括為4個「n」,下面逐一說明每個n的含義。
inflated大數據是肥胖的。大數據的大不僅僅體現在數據記錄的行數多,更體現在欄位變數的列數多,這就為分析多因素之間的關聯性帶來了難度。哪怕是最簡單的方差分析,計算一兩個還行,計算一兩百個就讓人望而生畏了。
unstructured大數據是非結構化的。大數據的結構也是非常復雜的,既包括像交易額、時間等連續型變數,像性別、工作類型等離散型變數這樣傳統的結構化數據,更增添了如文本、社會關系網路,乃至語音、圖像等大量新興的非結構化數據,而這些非結構化數據蘊含的信息量往往更加巨大,但分析手段卻略顯單薄。
incomplete大數據是殘缺的。在現實的世界裡,由於用戶登記的信息不全、計算機數據存儲的錯誤等種種原因,數據缺失是常見的現象。在大數據的場景下,數據缺失更是家常便飯,這就為後期的分析與建模質量增加了不確定的風險。
abnormal大數據是異常的。同樣,在現實的世界裡,大數據里還有不少異常值(outlier)。比如某些連續型變數(如一個短期時間內的交易金額)的取之太大,某些離散型變數(如某個被選購的產品名稱)里的某個水平值出現的次數太少,等等。如果不刪除,很可能幹擾模型系數的計算和評估;如果直接刪除,又覺得缺乏說服力,容易引起他人的質疑。這使得分析人員落到了一個進退兩難的境地。
如果不能處理好這些不利因素,大數據應用的優勢很難發揮出來。想要擁抱大數據,並不是一項在常規條件下數據分析的簡單升級,而是一項需要大智慧的綜合工作。STIR(喚醒)策略是筆者在實踐工作中提煉出來的、能夠在實際工作中有效克服大數據負面劣勢的應對方法。具體來說,STIR策略包含了四種技術手段,目前都已經有機地整合在統計分析與數據挖掘專業軟體JMP中了,它可以用來解決上文提出的四個問題,下面將分別說明。
Switching Variables切換變數
它是用來解決大數據「殘缺」問題的。通過「列轉換器」、「動畫播放」等工具,海量因素之間的關聯性分析變得十分簡單、快捷,還可以根據需要對關聯性的重要程度進行排序,大數據分析的效率由此得到大幅提升。
基於JMP軟體的關聯性分析篩選的界面
Text Mining文本挖掘
它是用來解決大數據「非結構化」問題的。通過先對文字、圖像等新媒體信息源進行降維、去噪、轉換等處理,產生結構化數據,再用成熟的統計分析和數據挖掘方法進行評價和解釋。這樣一來,大數據的應用范圍得到了極大的拓展。
基於JMP軟體的文本分析結果的最終展現界面
Imputation缺失數賦值
它是用來解決大數據「殘缺」問題的。在有missing data的時候,我們並不完全排斥直接刪除的方法,但更多的時候,我們會在條件允許的情況下,用賦值的方法去替代原先的缺失值。具體的技術很多,簡單的如計算平均值、中位數、眾數之類的統計量,復雜的如用回歸、決策樹、貝葉斯定理去預測缺失數的近似值等。這樣一來,大數據的質量大為改觀,為後期的分析與建模奠定了扎實的基礎。
Robust Modeling穩健建模
它是用來解決大數據「異常」問題的。在融入了自動識別、重要性加權等處理手段後,分析人員既直接消除了個別強影響點的敏感程度,又綜合考慮了所有數據的影響,增強了模型的抗干擾能力,使得模型體現出良好的預測特性,由此做出的業務決策自然變得更加科學、精準。
總之,我們必須要對大數據有一個全面、客觀的認識。只有在不同的業務和數據背景下採用不同的戰略戰術,才能在大數據時代,真正發揮大數據的杠桿作用,有效提高企業的運營效率和市場競爭力。
以上是小編為大家分享的關於擁抱大數據需要大智慧的相關內容,更多信息可以關注環球青藤分享更多干貨
❹ 大數據的數據分析方法有哪些如何學習
漏斗分析法
漏斗分析模型是業務分析中的重要方法,最常見的是應用於營銷分析中,由於營銷過程中的每個關鍵節點都會影響到最終的結果,所以在精細化運營應用廣泛的今天,漏斗分析方法可以幫助我們把握每個轉化節點的效率,從而優化整個業務流程。
對比分析法
對比分析法不管是從生活中還是工作中,都會經常用到,對比分析法也稱比較分析法,是將兩個或兩個以上相互聯系的指標數據進行比較,分析其變化情況,了解事物的本質特徵和發展規律。
在數據分析中,常用到的分3類:時間對比、空間對比以及標准對比。
用戶分析法
用戶分析是互聯網運營的核心,常用的分析方法包括:活躍分析,留存分析,用戶分群,用戶畫像等。在剛剛說到的RARRA模型中,用戶活躍和留存是非常重要的環節,通過對用戶行為數據的分析,對產品或網頁設計進行優化,對用戶進行適當引導等。
通常我們會日常監控「日活」、「月活」等用戶活躍數據,來了解新增的活躍用戶數據,了解產品或網頁是否得到了更多人的關注,但是同時,也需要做留存分析,關注新增的用戶是否真正的留存下來成為固定用戶,留存數據才是真正的用戶增長數據,才能反映一段時間產品的使用情況,關於活躍率、留存率的計算。
細分分析法
在數據分析概念被廣泛重視的今天,粗略的數據分析很難真正發現問題,精細化數據分析成為真正有效的方法,所以細分分析法是在本來的數據分析上做的更為深入和精細化。
指標分析法
在實際工作中,這個方法應用的最為廣泛,也是在使用其他方法進行分析的同時搭配使用突出問題關鍵點的方法,指直接運用統計學中的一些基礎指標來做數據分析,比如平均數、眾數、中位數、最大值、最小值等。在選擇具體使用哪個基礎指標時,需要考慮結果的取向性。