導航:首頁 > 數據分析 > 大數據分位在哪裡

大數據分位在哪裡

發布時間:2024-09-11 12:33:44

❶ 描述統計學之數量指標

大數據的海洋中,統計學猶如導航燈,引領我們揭示數據的深度和秘密。描述性統計學是它的基礎,通過平均值(平均數)、中位數和四分位數,我們得以簡化紛繁數據,揭示關鍵的洞察。平均值雖然直觀,但易受異常值的干擾,而中位數和四分位數則更為穩健。它們如同數據的分水嶺,四分位數通過箱線圖清晰地劃分數據分布,幫助我們一眼識破異常現象。餐廳老闆藉助四分位數理解客戶位置,薪酬比較中,箱線圖揭示了城市差異和工作經驗對薪資分布的影響。Tukey's test這一統計利器,更是精準地揭示異常值的存在,確保我們對數據的理解准確無誤。


異常值的檢測有三種策略:一是修正數值錯誤,二是果斷剔除異常記錄,三是保留真實但異常的數據,但需確保其在統計分析中的合理性。


對於運動員的表現,標准差是衡量穩定性的關鍵工具。計算方式是方差的平方根,它揭示了得分的波動程度。得分越穩定,標准差越小。在評估球員時,標准差的重要性取決於研究目標,比如在生產零件時,低的標准差意味著質量更可靠,而在薪酬研究中,可能需要更大的標准差以反映工資差異的廣泛性。


標准分則用於數據的相對排序,它揭示數值與平均值的親疏關系,是評估相對位置的有力手段。在質量管理中,標准分被用來檢測產品的次品率,幫助我們把握產品質量的控制點。


標准差在衡量缺陷率上同樣起著決定性作用。一個標准差意味著每萬件產品中大約有69萬個不合格,而三個標准差對應百萬件產品中大約只有6.7萬個缺陷,當達到六個標准差時,幾乎可以視為無誤。這就是統計學的力量,它將看似復雜的數量指標轉化為易於理解的現實解讀。

❷ # 大數據的統計學基礎

概率論是統計學的基礎,統計學沖鋒在應用第一線,概率論提供武器。

我們在學習R的時候,會做過假設檢驗。做假設檢驗的時候會有一個基本的技術就是構造出統計量,這些統計量要滿足一定的概率密度分布,然後我算這個統計量的值,來判定它在這個密度分布裡面,分布在哪個區域,出現在這個區域內的可能性有多高,如果可能性太低,我們就判定我們的假設檢驗是不成立的。 那麼如何構造這個統計量,這是一個很有技術的東西,同時也是由數學家來完成的,那這個工作就是概率論所作的事情。

古典概率論: 扔硬幣,正面1/2反面1/2,扔的次數之間是相互獨立的。 但是這個等概率事件確實是一個不是很嚴謹的事情。仔細想一想其實是很有趣的。 柯爾莫哥洛夫創建現代概率論 他將概率論提出了許多公理,因此將概率論變成了非常嚴謹的一門學科。

學會和運用概率,會使人變得聰明,決策更准確。

統計學 : 統計學可以分為:描述統計學與推斷統計學 描述統計學 :使用特定的數字或者圖表來體現數據的集中程度和離散程度。比如:每次考試算的平均分,最高分,各個分數段的人數分布等,也是屬於描述統計學的范圍。 推斷統計學 :根據樣本數據推斷總體數據特徵。比如:產品質量檢查,一般採用抽樣檢測,根據所抽樣本的質量合格率作為總體的質量合格率的一個估計。 統計學的應用十分廣泛,可以說,只要有數據,就有統計學的用武之地。目前比較熱門的應用:經濟學,醫學,心理學,IT行業大數據方面等。

例如:對於 1 2 3 4 5 這組數據,你會使用哪個數字作為代表呢? 答案是3。 因為3是這組數據的中心。 對於一組數據,如果只容許使用一個數字去代表這組數據,那麼這個數字應該如何選擇???-----選擇數據的中心,即反映數據集中趨勢的統計量。 集中趨勢:在統計學裡面的意思是任意種數據向 中心值靠攏 的程度。它可以反映出數據中心點所在的位置。 我們經常用到的能夠反映出集中趨勢的統計量: 均值:算數平均數,描述 平均水平 。 中位數:將數據按大小排列後位於正中間的數描述,描述 中等水平 。 眾數:數據種出現最多的數,描述 一般水平

均值:算數平均數 例如:某次數學考試種,小組A與小組B的成員成績分別如下: A:70,85,62,98,92 B:82,87,95,80,83 分別求出兩組的平均數,並比較兩組的成績。

組B的平均分比組A的高,就是組B的總體成績比組A高。

中位數:將數據按大小順序(從大到小或者從小到大)排列後處於 中間位置 的數。 例如:58,32,46,92,73,88,23 1.先排序:23,32,46,58,73,88,92 2.找出中間位置的數23,32,46, 58 ,73,88,92 如果數據中是偶數個數,那麼結果會發生什麼改變? 例如:58,32,46,92,73,88,23,63 1.先排序:23,32,46,58,63,73,88,92 2.找出處於中間位置的數:23,32,46, 58 63 ,73,88,92 3.若處於中間位置的數據有兩個(也就是數據的總個數為偶數時),中位數為中間兩個數的算數平均數:(58+63)/2=60.5 在原數據中,四個數字比60.5小,四個數字比60.5大。

眾數:數據中出現次數最多的數(所佔比例最大的數) 一組數據中,可能會存在多個眾數,也可能不存在眾數。 1 2 2 3 3 中,眾數是2 和 3 1 2 3 4 5 中,沒有眾數 1 1 2 2 3 3 4 4 中,也沒有眾數 只要出現的頻率是一樣的,那麼就不存在眾數 眾數不僅適用於數值型數據,對於非數值型數據也同樣適合 {蘋果,蘋果,香蕉,橙子,橙子,橙子,橙子,桃子}這一組數據,沒有什麼均值中位數科研,但是存在眾數---橙子。 但是在R語言裡面沒有直接計算眾數的內置函數,不過可以通過統計數據出現的頻率變相的去求眾數。

下面比較一下均值,中位數,眾數三個統計量有什麼優點和缺點 [圖片上傳失敗...(image-57f18-1586015539906)]

例子: 兩個公司的員工及薪資構成如下: A:經理1名,月薪100000;高級員工15名,月薪10000;普通員工20名,月薪7500 B:經理1名,月薪20000;高級員工20名,月薪11000;普通員工15名,月薪9000 請比較兩家公司的薪資水平。若只考慮薪資,你會選擇哪一家公司?

A 7500 B 11000

A 7500 B 11000</pre>

若從均值的角度考慮,明顯地A公司的平均月薪比B公司的高,但是A公司存在一個極端值,大大地拉高了A公司的均值,這時只從均值考慮明顯不太科學。從中位數和眾數來看,B公司的薪資水平比較高,若是一般員工,選擇B公司顯得更加合理。

比較下面兩組數據: A: 1 2 5 8 9 B: 3 4 5 6 7 兩組數據的均值都是5,但是你可以看出B組的數據與5更加接近。但是有描述集中趨勢的統計量不夠,需要有描述數據的離散程度的統計量。

極差 :最大值 - 最小值,簡單地描述數據的范圍大小。 A: 9 - 1 = 8 B: 7 - 3 = 4 同樣的5個數,A的極差比B的極差要大,所以也比B的要分散 但是只用極差這個衡量離散程度也存在不足 比如: A: 1 2 5 8 9 B: 1 4 5 6 9 兩組數據雖然極差都是相同的,但是B組數據整體分布上更加靠近5。

方差 :在統計學上,更常地是使用方差來描述數據的 離散程度 :數據離中心越遠,越離散。 方差越大,就代表這組數據越離散。

對於前面的數據 1 2 5 8 9,前面求的一組數據的方差是12.5。 將12.5於原始數據進行比較,可以看出12.5比原數據都大,這是否就能說明這一組數據十分離散呢? 其實方差與元數據的單位是不一樣的,這樣比較也是毫無意義的。如果原始數據的單位是m的話,那麼方差的單位就是m^2 為了保持單位的一致性,我們引入一個新的統計量:標准差 標准差:sqrt(var()), 有效地避免了因為單位的平方而引起的度量問題。 與方差一樣,標准差的值越大,表示數據越分散。 A: 1 2 5 8 9 B: 3 4 5 6 7

某班40個學生某次數學檢測的成績如下:

63,84,91,53,69,81,61,69,78,75,81,67,76,81,79,94,61,69,89,70,70,87,81,86,90,88,85,67,71,82,87,75,87,95,53,65,74,77 對於這一組數字,你能看出什麼呢? 或許先算一算平均值,中位數,或者眾數

或許算一算這組數據的方差或者標准差

但是即便是統計了上述的數據,我們還是對全班同學的分數分布,沒有一個全面的了解。 原始數據太雜亂無章,難以看出規律性,只依賴數字來描述集中趨勢與離散程度讓人難以對數據產生直觀地印象,這是我們就需要用到圖標來展示這些數字。

1.找出上面數據中的最大值和最小是,確定數據的范圍。

將成績排序後很容易得到最大值是95,最小值是53

2.整理數據,將數據按照成績分為幾個組。成績按照一般50-60,60-70,70-80,80-90,90-100這幾個分段來劃分(一般都分為5-10組),然後統計這幾個分段內部的頻數。 可以看到80-90這個分段的人數是最多的。 注意在繪制直方圖的時候,一定要知道是左閉右開還是左開右閉。 因為這個可能會直接影響到頻數的統計。

上圖就是:頻數直方圖。頻數作為縱坐標,成績作為橫坐標。通過直方圖我們可以對成績有一個非常直觀的印象。 除了頻數直方圖,還有一種直方圖:頻率直方圖。與頻數直方圖相比,頻率直方圖的縱坐標有所改變,使用了頻率/組距。 頻率=頻數/總數;組距就是分組的極差,這里的組距是10.

除了直方圖外,畫一個簡單的箱線圖也可以大致看出數據的分布。


想要看懂箱線圖,必須要學習一些箱線圖專業的名詞: 下四分位數:Q1,將所有的數據按照從小到大的順序排序,排在第25%位置的數字。 上四分位數:Q3,將所有的數據按照從小到大的順序排序,排在第75%位置的數字。 四分距:IQR,等於Q3-Q1,衡量數據離散程度的一個統計量。 異常點:小於Q1-1.5IQR或者大於Q3+1.5IQR的值。 (注意是1.5倍的IQR) 上邊緣:除異常點以外的數據中的最大值 下邊緣:除異常點以外的數據種的最小值

莖葉圖可以在保留全部數據信息的情況下,直觀地顯示出數據的分布情況。 左邊是莖,右邊是葉。 若將莖葉圖旋轉90度,則可以得到一個類似於直方圖的圖。跟直方圖一樣,也可以直觀地知道數據的分布情況。 並且可以保留所有的數據信息。 莖葉圖的畫法也非常的簡單: 將數據分為莖和葉兩部分,這里的莖是指十位上的數字,葉是指給上的數字。 將莖部份(十位)從小到大,從上到下寫出來 相對於各自的莖,將同一莖(十位)從小到大,從左往右寫出來。

但是莖葉圖也有缺陷,因為百位和十位同時畫在莖葉圖的時候,容易區分不開。同時也可能出現卻葉的情況。

以時間作為橫坐標,變數作為縱坐標,反映變數隨時間推移的變化趨勢。

顯示一段時間內的數據變化或者顯示各項之間的比較情況。

根據各項所佔百分比決定在餅圖中扇形的面積。簡單易懂,通俗明了。可以更加形象地看出各個項目所佔的比例大小。 適當的運用一些統計圖表,可以更生動形象的說明,不再只是純數字的枯燥描述。

學習鏈接: https://www.bilibili.com/video/BV1Ut411r7RG

❸ 大數據科學家需要掌握的幾種異常值檢測方法

引言

異常值檢測與告警一直是工業界非常關注的問題,自動准確地檢測出系統的異常值,不僅可以節約大量的人力物力,還能盡早發現系統的異常情況,挽回不必要的損失。個推也非常重視大數據中的異常值檢測,例如在運維部門的流量管理業務中,個推很早便展開了對異常值檢測的實踐,也因此積累了較為豐富的經驗。本文將從以下幾個方面介紹異常值檢測。

1、異常值檢測研究背景

2、異常值檢測方法原理

3、異常值檢測應用實踐

異常值檢測研究背景

異常值,故名思議就是不同於正常值的值。 在數學上,可以用離群點來表述,這樣便可以將異常值檢測問題轉化為數學問題來求解。

異常值檢測在很多場景都有廣泛的應用,比如:

1、流量監測

互聯網上某些伺服器的訪問量,可能具有周期性或趨勢性:一般情況下都是相對平穩的,但是當受到某些黑客攻擊後,其訪問量可能發生顯著的變化,及早發現這些異常變化對企業而言有著很好的預防告警作用。

2、金融風控

正常賬戶中,用戶的轉賬行為一般屬於低頻事件,但在某些金融詐騙案中,一些嫌犯的賬戶就可能會出現高頻的轉賬行為,異常檢測系統如果能發現這些異常行為,及時採取相關措施,則會規避不少損失。

3、機器故障檢測

一個運行中的流水線,可能會裝有不同的感測器用來監測運行中的機器,這些感測器數據就反應了機器運行的狀態,這些實時的監測數據具有數據量大、維度廣的特點,用人工盯著看的話成本會非常高,高效的自動異常檢測演算法將能很好地解決這一問題。

異常值檢測方法原理

本文主要將異常值檢測方法分為兩大類:一類是基於統計的異常值檢測,另一類是基於模型的異常值檢測。

基於統計的方法  

基於模型的方法

1、基於統計的異常值檢測方法

常見的基於統計的異常值檢測方法有以下2種,一種是基於3σ法則,一種是基於箱體圖。

3σ法則  

箱體圖

3σ法則是指在樣本服從正態分布時,一般可認為小於μ-3σ或者大於μ+3σ的樣本值為異常樣本,其中μ為樣本均值,σ為樣本標准差。在實際使用中,我們雖然不知道樣本的真實分布,但只要真實分布與正太分布相差不是太大,該經驗法則在大部分情況下便是適用的。

箱體圖也是一種比較常見的異常值檢測方法,一般取所有樣本的25%分位點Q1和75%分位點Q3,兩者之間的距離為箱體的長度IQR,可認為小於Q1-1.5IQR或者大於Q3+1.5IQR的樣本值為異常樣本。

基於統計的異常檢測往往具有計算簡單、有堅實的統計學基礎等特點,但缺點也非常明顯,例如需要大量的樣本數據進行統計,難以對高維樣本數據進行異常值檢測等。

2、基於模型的異常值檢測

通常可將異常值檢測看作是一個二分類問題,即將所有樣本分為正常樣本和異常樣本,但這和常規的二分類問題又有所區別,常規的二分類一般要求正負樣本是均衡的,如果正負樣本不均勻的話,訓練結果往往會不太好。但在異常值檢測問題中,往往面臨著正(正常值)負(異常值)樣本不均勻的問題,異常值通常比正常值要少得多,因此需要對常規的二分類模型做一些改進。

基於模型的異常值檢測一般可分為有監督模型異常值檢測和無監督模型異常值檢測,比較典型的有監督模型如oneclassSVM、基於神經網路的自編碼器等。 oneclassSVM就是在經典的SVM基礎上改進而來,它用一個超球面替代了超平面,超球面以內的值為正常值,超球面以外的值為異常值。

經典的SVM  

1

 基於模型的方法

2

基於神經網路的自編碼器結構如下圖所示。

自編碼器(AE)

將正常樣本用於模型訓練,輸入與輸出之間的損失函數可採用常見的均方誤差,因此檢測過程中,當正常樣本輸入時,均方誤差會較小,當異常樣本輸入時,均方誤差會較大,設置合適的閾值便可將異常樣本檢測出來。但該方法也有缺點,就是對於訓練樣本比較相近的正常樣本判別較好,但若正常樣本與訓練樣本相差較大,則可能會導致模型誤判。

無監督模型的異常值檢測是異常值檢測中的主流方法,因為異常值的標注成本往往較高,另外異常值的產生往往無法預料,因此有些異常值可能在過去的樣本中根本沒有出現過, 這將導致某些異常樣本無法標注,這也是有監督模型的局限性所在。 較為常見的無監督異常值檢測模型有密度聚類(DBSCAN)、IsolationForest(IF)、RadomCutForest(RCF)等,其中DBSCAN是一種典型的無監督聚類方法,對某些類型的異常值檢測也能起到不錯的效果。該演算法原理網上資料較多,本文不作詳細介紹。

IF演算法最早由南京大學人工智慧學院院長周志華的團隊提出,是一種非常高效的異常值檢測方法,該方法不需要對樣本數據做任何先驗的假設,只需基於這樣一個事實——異常值只是少數,並且它們具有與正常值非常不同的屬性值。與隨機森林由大量決策樹組成一樣,IsolationForest也由大量的樹組成。IsolationForest中的樹叫isolation tree,簡稱iTree。iTree樹和決策樹不太一樣,其構建過程也比決策樹簡單,因為其中就是一個完全隨機的過程。

假設數據集有N條數據,構建一顆iTree時,從N條數據中均勻抽樣(一般是無放回抽樣)出n個樣本出來,作為這顆樹的訓練樣本。

在樣本中,隨機選一個特徵,並在這個特徵的所有值范圍內(最小值與最大值之間)隨機選一個值,對樣本進行二叉劃分,將樣本中小於該值的劃分到節點的左邊,大於等於該值的劃分到節點的右邊。

這樣得到了一個分裂條件和左、右兩邊的數據集,然後分別在左右兩邊的數據集上重復上面的過程,直至達到終止條件。 終止條件有兩個,一個是數據本身不可再分(只包括一個樣本,或者全部樣本相同),另外一個是樹的高度達到log2(n)。 不同於決策樹,iTree在演算法裡面已經限制了樹的高度。不限制雖然也可行,但出於效率考慮,演算法一般要求高度達到log2(n)深度即可。

把所有的iTree樹構建好了,就可以對測試數據進行預測了。預測的過程就是把測試數據在iTree樹上沿對應的條件分支往下走,直到達到葉子節點,並記錄這過程中經過的路徑長度h(x),即從根節點,穿過中間的節點,最後到達葉子節點,所走過的邊的數量(path length)。最後,將h(x)帶入公式,其中E(.)表示計算期望,c(n)表示當樣本數量為n時,路徑長度的平均值,從而便可計算出每條待測數據的異常分數s(Anomaly Score)。異常分數s具有如下性質:

1)如果分數s越接近1,則該樣本是異常值的可能性越高;

2)如果分數s越接近0,則該樣本是正常值的可能性越高;

RCF演算法與IF演算法思想上是比較類似的,前者可以看成是在IF演算法上做了一些改進。針對IF演算法中沒有考慮到的時間序列因素,RCF演算法考慮了該因素,並且在數據樣本采樣策略上作出了一些改進,使得異常值檢測相對IF演算法變得更加准確和高效,並能更好地應用於流式數據檢測。

IF演算法

RCF演算法

上圖展示了IF演算法和RCF演算法對於異常值檢測的異同。我們可以看出原始數據中有兩個突變異常數據值,對於後一個較大的突變異常值,IF演算法和RCF演算法都檢測了出來,但對於前一個較小的突變異常值,IF演算法沒有檢測出來,而RCF演算法依然檢測了出來,這意味著RCF有更好的異常值檢測性能。

異常值檢測應用實踐

理論還需結合實踐,下面我們將以某應用從2016.08.16至2019.09.21的日活變化情況為例,對異常值檢測的實際應用場景予以介紹:

從上圖中可以看出該應用的日活存在著一些顯著的異常值(比如紅色圓圈部分),這些異常值可能由於活動促銷或者更新迭代出現bug導致日活出現了比較明顯的波動。下面分別用基於統計的方法和基於模型的方法對該日活序列數據進行異常值檢測。

基於3σ法則(基於統計)

RCF演算法(基於模型)

從圖中可以看出,對於較大的突變異常值,3σ法則和RCF演算法都能較好地檢測出來, 但對於較小的突變異常值,RCF演算法則要表現得更好。

總結

上文為大家講解了異常值檢測的方法原理以及應用實踐。綜合來看,異常值檢測演算法多種多樣 ,每一種都有自己的優缺點和適用范圍,很難直接判斷哪一種異常檢測演算法是最佳的, 具體在實戰中,我們需要根據自身業務的特點,比如對計算量的要求、對異常值的容忍度等,選擇合適的異常值檢測演算法。

接下來,個推也會結合自身實踐,在大數據異常檢測方面不斷深耕,繼續優化演算法模型在不同業務場景中的性能,持續為開發者們分享前沿的理念與最新的實踐方案。

❹ 大數據分析哪款工具比較好 求專家介紹

有 一 個 公 司 做 的 還 是 不 錯 的 , 曉 明 科 技 , 他 們 很 多 成 功 的 案 例 , 你內 可 以 到 他 們 的 公容 司 去 看 看 , 很 多 大 公 司 也 都 是 跟 這 家 公 司 合 作 的 , 很 不 錯 的

❺ 估值分位是什麼意思

估值分位是指將一項資產或企業的估值與同類資產或企業估值進行對比,並按照大小排序,確定該項資產或企業所處的百分位位置。通常情況下,估值分位越高,說明該資產或企業的估值越高,市場價值也越大,反之亦然。
估值分位在投資領域中起到了重要的作用,尤其是在風險投資、股權投資等領域。通過估值分位,投資者可以快速准確地了解市場上同類資產或企業的估值水平,進而做出決策,避免因估值偏高或偏低而導致的投資風險。
估值分位也是企業估值過程中的重要指標之一。在進行企業估值時,我們通常會藉助各種估值模型,如收益貼現模型、市盈率模型等,根據市場和財務數據對企業進行評估。而估值分位的引入,可以幫助我們快速了解該企業與同類企業的估值水平,並以此為依據進行再度核實和校準。
此外,估值分位也可以用於資產組合的構建和管理。在構建資產組合時,投資者需要根據自己的投資目標和風險偏好,選擇不同的資產種類和組合比例。而估值分位可以為投資者提供權威的市場參考,幫助其合理分配資產組合比例,達到收益最大化的目標。
最後,值得一提的是,估值分位的計算方法也在不斷發展和完善。除了傳統的市場相對估值法、DCF估值法等,現在也出現了基於機器學習和大數據的估值分析方法。這些新方法充分利用了互聯網時代的數據源泉,可以更准確地分析市場趨勢和企業價值,為投資者提供更精準、可信的估值分位參考。隨著科技的不斷進步,相信估值分位將會有更加廣泛的應用和推廣。

閱讀全文

與大數據分位在哪裡相關的資料

熱點內容
ps入門必備文件 瀏覽:348
以前的相親網站怎麼沒有了 瀏覽:15
蘋果6耳機聽歌有滋滋聲 瀏覽:768
怎麼徹底刪除linux文件 瀏覽:379
編程中字體的顏色是什麼意思 瀏覽:534
網站關鍵詞多少個字元 瀏覽:917
匯川am系列用什麼編程 瀏覽:41
筆記本win10我的電腦在哪裡打開攝像頭 瀏覽:827
醫院單位基本工資去哪個app查詢 瀏覽:18
css源碼應該用什麼文件 瀏覽:915
編程ts是什麼意思呢 瀏覽:509
c盤cad佔用空間的文件 瀏覽:89
不銹鋼大小頭模具如何編程 瀏覽:972
什麼格式的配置文件比較主流 瀏覽:984
增加目錄word 瀏覽:5
提取不相鄰兩列數據如何做圖表 瀏覽:45
r9s支持的網路制式 瀏覽:633
什麼是提交事務的編程 瀏覽:237
win10打字卡住 瀏覽:774
linux普通用戶關機 瀏覽:114

友情鏈接