A. 什麼是大數據大數據能幹什麼
什麼是大數據?
在英文里被稱為big data,或稱為巨量資料,就是當代海量數據跡擾構成的一個集合,包括了我們在互聯網上的一切信息。
大數據能幹什麼?
通過對大數據的抽取,管理,處理,並整理成為幫助我們做決策。列如:應用以犯罪預測,流感趨勢預測,選舉預測,商品推薦預測等等
大數據專業需要學什麼?
因為涉及對海量數據的分析,離不開的就是數學,很多很多的數學。按照我們學習計劃的安排來看,我在大一大二期間就學了有:數學分析,線性代數,概率統計,應用統計學,離散數學,常微分。相比起其他計算機專業來說,我們確實要學很多數學。然後什麼公共課就不用多說了,如:大學英語,大學物理,思想政治,毛概等等。在專業課上,我們首先要學的就是C語言基礎,然後就是數據結構,Python基礎,歷碧java面向對象程序設計,數據結構與演算法,數學建模,大數據等,簡直不要太多了,留給圖看看吧
未完待寫
接著上一次內容
學大數據能做什麼工作?
分為三個大類,第一是大數據系統研發類,第二是大數據應用開發類,第三是大數據分析類
大數據分析師:大數據分析師要學會打破信息孤島利用各種數據源,在海量數據中尋找數據規律,在海量數據中發現數據異常。負責大數據數據分析和挖掘平台的規劃、開發、運營和優化;根據項目設計開發數據模型、數據挖掘和處理演算法;通過數據探索和模型的輸出進行分析,給出分析結果。
大數據工程師: 主要是偏開發層面,指的是圍繞大數據系平台系統級的研發人員, 熟練Hadoop大數據平台的核心框架,能夠使用Hadoop提供的通用演算法, 熟練掌握Hadoop整個生態系統的組件如: Yarn,HBase、Hive、Pig等重要組件,能夠實現對平台姿爛旦監控、輔助運維系統的開發。
數據挖掘師/演算法工程師: 數據建模、機器學習和演算法實現,需要業務理解、熟悉演算法和精通計算機編程 。
數據架構師: 高級演算法設計與優化;數據相關系統設計與優化,有垂直行業經驗最佳,需要平台級開發和架構設計能力。
數據科學家:據科學家是指能採用科學方法、運用數據挖掘工具對復雜多量的數字、符號、文字、網址、音頻或視頻等信息進行數字化重現與認識,並能尋找新的數據洞察的工程師或專家(不同於統計學家或分析師)。一個優秀的數據科學家需要具備的素質有:懂數據採集、懂數學演算法、懂數學軟體、懂數據分析、懂預測分析、懂市場應用、懂決策分析等。
薪資待遇方面:
數據科學家->數據架構師==演算法工程師>大數據工程師>數據分析師
B. 學習大數據需要哪些數學知識
我們都知道編程技術是需要一定的邏輯能力的,不管哪種語言,都繞不過「規律」這一說,那麼大家知道對於大數據技術,我們需要了解哪些數學知識嗎?北京電腦培訓帶你了解一下吧。
(1)概率論與數理統計
這部分與大數據技術開發的關系非常密切,條件概率、獨立性等基本概念、隨機變數及其分布、多維隨機變數及其分布、方差分析及回歸分析、隨機過程(特別是Markov)、參數估計、Bayes理論等在大數據建模、挖掘中就很重要。
大數據具有天然的高維特徵,在高維空間中進行數據模型的設計分析就需要一定的多維隨機變數及其分布方面的基礎。Bayes定理更是分類器構建的基礎之一。除了這些這些基礎知識外,條件隨機場CRF、隱Markov模型、n-gram等在大數據分析中可用於對詞彙、文本的分析,可以用於構建預測分類模型。
當然以概率論為基礎的資訊理論在大數據分析中也有一定作用,比如信息增益、互信息等用於特徵分析的方法都是資訊理論裡面的概念。
(2)線性代數
這部分的配猜數學知識與大數據技術開發的關系也很密切,培察型矩陣、轉置、秩分塊矩陣、向量、正交矩陣、向量空間、特徵值與特徵向量等在大數據建模、分析中也是常用的技術手段。
在互聯網大數據中,許多應用場景的分析對象都可以抽象成為矩陣表示,大量Web頁面及其關系、微博用戶及其關系、文本集中文本與詞彙的關系等等都可以用矩陣表示。比如對於Web頁面及其關系用矩陣表示時,矩陣元素就代表了頁面a與另一個頁面b的關系,這種關系可以是指向關系,1表示a和b之間有超鏈接,0表示a,b之間沒有超鏈接。著名的PageRank演算法就是基於這種矩陣進行頁面重要性的量化,並證明其收斂性。
以矩陣為基礎的各種運算,如矩陣分解則是分析對象特徵提取的途徑,因為矩陣代表了某種變換或映射,因此分解後得到的矩陣就代表了分析對象在新空間中的一些新特徵。所以,奇異值分解SVD、PCA、NMF、MF等在大數據分析中的應用是很廣泛的。
(3)最優化方法
模型學習訓練是很多分析挖掘模型用於求解參數的途徑,基本問題是:給定一個函數f:A→R,尋找一個元素a0∈A,使得對於所有A中的a,f(a0)≤f(a)(最小化);或者f(a0)≥f(a)(最大化)。優化方法取決於函數的形式,從目前看,最優化方法通常是基於微分、導數的方法,例如梯度下降、爬山法、沒搜最小二乘法、共軛分布法等。
(4)離散數學
離散數學的重要性就不言而喻了,它是所有計算機科學分支的基礎,自然也是大數據技術的重要基礎。
C. 大數據預處理有哪些技術及方法呢
1)數據清理
數據清理常式就是通過填寫缺失值、光滑雜訊數據、識別或者刪除離群點,並且解決不一致性來進行「清理數據」。
2)數據集成
數據集成過程將來自多個數據源的數據集成到一起。
3)數據規約
數據規約是為了得到數據集的簡化表示。數據規約包括維規約和數值規約。
4)數據變換
通過變換使用規范化、數據離散化和概念分層等方法,使得數據的挖掘可以在多個抽象層面上進行。數據變換操作是提升數據挖掘效果的附加預處理過程。
1)缺失值
對於缺失液蔽消值的處理,一般是能補的就想辦法把它補上,實在補不上的就丟棄處理。
通常的處理方法有:忽略元組、人工填寫缺失值、使用一個全局變數填充缺失值、使用屬性的中心度量填充缺失值、使用與給定元組屬同一類的所有樣本的屬性均值或中位數、使用最可能的值填充缺失值。
2)雜訊數據
雜訊是被測量變數的隨機誤差或方差。去除雜訊、使數據「光滑」的技術有分箱、回歸、離群點分析等。
3)數據清理過程
這個環節主要包括數據預處理、清理方法、校驗清理方法、執行清理工具及數據歸檔。
數據清理的原理是通過分析「無效數據」產生的原因和存在形式,利用現有的技術手段和方法去清理,將「無效數據」轉化為滿足數據質量或應用要求的數據,從而提高數據集的數據質量。
常用的工具有Excel、Access、SPSS Modeler、SAS、SPSS Statistics等。
4)模型構建數據統計分析
數據統計為模型構建提供基礎,只有通過數據統計分析探索到了數據中隱藏的規律,深度學習才有意義,人工智慧才有可能。
數據統計又包括數據分析與結果分析,基本的分析方法有:對比分析法、分組分析法、交叉分析法、因素分析法、結構分析法、漏斗圖分析法、矩陣關聯分析法、綜合評價分析法等。
高級的分析方法有:主成分分析法、因子分析法、對應分析法、相關分析法、回歸分析法、聚類分析法、判別分析法、時間序列等。這些類別並不是獨一使用的,往往是混合使用的,然後再通過進一步鬧知的分析對比從中挑選某些組合模型。
5)數據可視化
數據可視化,就是通過一些可視化圖形或者報表形式進行並慧展示,增強對分析結果的理解。再針對結果進行進一步的數據再分析,使得整個業務環節形成閉環。只有閉環的數據才能真正發揮出深度學習的效用。
D. 7個因素決定大數據的復雜性 如何處理
7個因素決定大數據的復雜性 如何處理
我們談論了很多關於復雜數據及其為你的商業智能帶來的挑戰和機遇,但是導致數據復雜化的是什麼呢?
以及你如何區分你的公司當前的數據是否是「復雜的」,亦或不久的將來會變得復雜?本文將解決這些問題。
為什麼這很重要?
當你試圖將數據轉化為商業價值時,它的復雜度很可能會預示你將面對的困難程度——復雜數據的准備和分析通常要比簡單數據更加困難,以及通常需要一組不同的BI 工具來實現。復雜數據在可以「成熟的」分析和可視化之前需要額外的准備工作和數據模型。因此重要的是,通過了解您目前的數據的復雜程度以及它在未來的復雜性趨向,來評估您的大數據/商業智能項目是否能夠勝任這一任務。
簡單測試:大數據或者異構數據
在高級層面上,有兩種基本的跡象表明你的數據可能被視為是復雜的:
你的數據很「大」:我們把大放在引號里是因為它貌似符合「大數據」術語的含義。然而事實是,處理海量數據在計算資源需要處理巨大的數據集方面提出了一個挑戰, 就像把小麥從谷殼分開的困難,或者說在一個巨大的原始信息中辨別信號和雜音。
你的數據來自許多不同的數據源:多重數據源通常意味著臟數據,或者遵循著不同的內部邏輯結構的簡單的多個數據集。為了確保數據源有統一的數據語言,數據必須被轉換或整合到一個中央資源庫。
可以認為這是兩個最初的(可供選擇的)徵兆:如果你正處理大數據或異構數據,你應當開始思考數據的復雜性。但是深究一下,對你的公司的數據的復雜性,以下有7個更具體的指標。
(注意,以上兩點之間有相似之處,但不互相排除——反之,例如,離散數據往往意味著各種各樣的數據結構類型)
7個因素決定你的數據的復雜性
1、數據結構
不同數據源的數據,或甚至來自同一個源的不同表,通常設計同樣的信息但結構卻完全不同:
舉例來說,想像你們人力資源部有三種不同的表格,一個是員工個人信息表,另一個是員工職位和薪資表第三個是員工職位要求表,諸如此類——而你們財務部門隨同保險、福利和其他花費一起記錄同樣的信息到單個表中。另外,在這些表中的一些表可能提到員工的全名,而另一些則只有名字的首字母,或者二者的結合。為了從所有表中有效使用數據,同時不丟失或重復信息,需要數據建模或准備工作。
這是最簡單的用例:更進一步復雜化的是處理最初沒有適當地模式的非結構化數據源(例如NoSQL 資料庫)。
2、數據大小
再次回到模糊的「大數據」概念,你收集的數據量會影響你需要用來分析它的軟硬體的類型。這個可以通過原始大小來衡量:位元組,TB或PB——數據增長越大,越有可能「窒息」廣泛使用的內存資料庫(IMDB),依賴於轉化壓縮數據到伺服器內存。其他因素包括多元異構數據——包含很多數據行的表(Excel,可以說是最常用的數據分析工具,最大行數限制為1048576行),或結構化數據——包含很多數據列的表。
你將會發現在分析工具和方法上用於分析100,000行數據和那些用於分析1億行數據的是明顯不同的。
3、數據細節
你想要探索的數據的粒度水平。當創建一個儀表盤或報表,展現總結或聚合數據時常常比讓終端用戶鑽取到每一個細節更容易實現——然而這是以犧牲數據分析的深度和數據挖掘為代價而做的權宜之計。
創建一個BI系統,使其具有顆粒向海量數據鑽取處理分析的能力,(不依賴於預定義查詢,聚合或匯總表)
4、查詢語言
不同的數據源有不同的數據語言:雖然SQL是從常見數據源和RDBMS提取數據的主要手段,但是當使用第三方平台時你會經常需要通過它自己的API和語法去連接它,以及解析用於訪問數據的數據模型和協議。
你的BI工具需要足夠靈活的根據數據源允許這種本地連接的方式,或者通過內置插件或API訪問,否則你會發現你自己將不得不重復一個繁瑣的導出數據到表格SQL資料庫數據倉庫的過程,然後導入到你的商業智能軟體里,從而使你的分析變得麻煩。
5、數據類型
一方面動態數據以表格形式存儲,處理的大多是數值型數據,但是大規模和非結構化的機器數據完全是另外一回事兒,就像是文字數據集存儲在MongoDB中,當然了,更別提像視頻音頻這種超大規模的非結構化數據了。
不同的數據類型具有不同的規則,為使得商業決策建立在對公司數據的全面考慮的基礎上,找到一種建立單一可信來源的方法是至關重要的。
6、離散數據
數據存儲在多個位置:例如,組織里的不同部門,本地或雲(付費存儲或通過雲應用),來自客戶或供應商的外部數據等。這種數據不僅收集起來很困難(簡單來說是由於及時而有效的接收數據而需要的利益相關者的數量)。而且一旦收集了——在不同的數據集交叉引用和分析之前,通常需要「清理」或標准化,因為每個本地數據集是根據相關組織應用程序自身的實際和關注收集數據。
7、數據量的增長
最終,你不僅需要考慮當前數據,還有數據的增長或變化的速度。如果經常更新數據源,或經常增加新的數據源,這將會消耗你的軟硬體資源(無論何時當源數據發生重大更改時,不是非常先進的系統都需要重新獲取整個數據集),以及上述提到的關於結構、類型、大小的復合性問題等。
怎樣掌控復雜數據?
如果你認同上述的一個或更多以及你的數據剛剛好是復雜的,不要絕望:理解,是找到一個合適的解決方案的第一步,以及復雜數據的分析本身不需要過於復雜。我們將在未來的文章中涉及解決復雜數據的方法,但是你將想問自己的第一件事可能是——控制復雜數據你實際需要多少BI系統。
以上是小編為大家分享的關於7個因素決定大數據的復雜性 如何處理的相關內容,更多信息可以關注環球青藤分享更多干貨
E. 大數據問題
大數據問題,確切來說是很大數據量下的空間限制問題,解決方法有以下7種(圖源左程雲基礎班):
先思考用一個大的HashMap的情況。 key是某個整數,value是該整數出現的次數,這樣可以統計詞頻,然後得出TOP10詞頻。計算此時使用的內存,4位元組無符號整數范圍是0到42億多(如果是有符號整數范圍是-21億多到21億多),范圍是比40億大的。最差情況下如果40億個數都不同,此時HashMap使用的空間為40億條記錄,每條記錄中key(無符號整數)是4位元組,value(詞頻)也是4位元組(int類型),總共8位元組,總計320億位元組,即32G(10億位元組可估算為1G),哈希表爆掉了。
這里先補充一下哈希函數的特徵:
特徵1.輸入域無窮大,輸出域相對有限。
特徵2.沒有任何隨機的成分,是確定規則的函數。輸入相同那麼輸出一定相同;不同的輸入可能會有相同輸出(哈希碰撞)。
特徵3. 輸入哪怕很接近,最終的計算結果也很離散,和輸入規律沒有關系。這一點也是最關鍵的特徵。
特徵4.輸出再模上一個數,取模的結果也是離散的
反推1G內存的HashMap可以有多少條記錄,保守點1億條,意味著該HashMap處理的包含數的種類(不是個數)不要超過1億種,怎麼處理?40億個整數的大文件,每個數字用哈希函數處理完再取模100,只會是0到99。根據哈希函數特徵3,不同輸入會均勻分布到0到99上,40億個數如果擁有的不同數的種類是K種的話,這樣處理完後,每個小文件里幾乎有100/k這么多種數,這樣每個小文件里就不到1億種了。再用HashMap一個一個文件去處理詞頻,搞出100個文件各自的TOP10,哈希函數相同輸入則相同輸出,所以不會出現一個數字落到不同文件里的情況。對文件的TOP10合並,就得到全局TOP10。
上面取模取40其實就可以了,40億個數種類數K小於等於40億,所以K/40小於等於1億,符合上面要求的1G內存,但取的是100而不是40是為了更保險。
使用點陣圖,用某個bit表示某個數出現過還是沒出現過。如果是哈希表,表示一個數出現與否需要用一個鍵值對,鍵和值都佔4位元組,那麼一條記錄所佔的空間就是64bit(8位元組)。用點陣圖的話,1bit表示1個數,數范圍多大就用多少位bit;42億多bit/8 = 5億多byte = 500多M(10億byte=1G);在1G空間內拿下。
用兩個bit位表示某個數字出現的頻率。00表示出現0次;01表示出現1次;10表示出現2次;11表示出現3次,如果出現次數更多大於3次,11不變。這樣最後統計下來就可以知道所有出現2次的數字,與原來相比就多了一倍空間,1G空間拿下。
點陣圖不能用了,3KB空間太小了。先計算3KB能做多長的無符號數組,一個無符號數大小為4B,3KB/4B=750,然後750距離2的某次方哪個最近,512,那就申請一個長度為512的無符號整型數組arr(arr佔用空間大小顯然不超過3KB)。題目中數字范圍是0到2的32次方減一(一共有2的32次方這么多個數),因為和512一樣都是2的某次方,所以2的32次方一定可以均分成512份(每一份大小是8388608);arr[0]表示512份里的第0份(范圍0~8388607),表示這一份上的詞頻統計;而且因為一共只有40億個數,那麼arr[0]統計的數字一定不會溢出(40億 < 2的32次方減一 = 42億多,一無符號數是32位);如果統計所有數出現的頻率到對應范圍的份上,一定有某一份詞頻不夠83888608;假設不足的那一份是第a份,那麼下次把3KB在第a份這個范圍上再分512份,最終往下分,總能找到哪個數字沒出現。
總體時間復雜度:以 512 為底的 2的32次方 的對數。這是個很小的數。且按行讀文件佔用內存是很少的,讀文件並不是一次性把所有文件都load到內存里去,而是在硬碟文件里用偏移量找到某一行數據,讀下一行的時候前一行的空間就可以被釋放了;所以維持一個句柄句尾還有偏移量就可以按行讀文件了。
整個范圍是0到2的32次方減一。計算出中點Mid並統計0到Mid范圍出現多少個數記為a,統計Mid+1到結尾范圍出現多少數記為b個;a和b中一定有一個不滿,不滿的那個再二分,最終一定能定位到某個數字沒出現,遍歷次數以 2 為底 2的32次方 對數次,即32次
面對空間限制類題目,從范圍數據狀況入手,分區間統計的思想。
用哈希函數把URL分配到很多機器上去,每台機器上的文件再用哈希函數分成小文件,每個小文件分區間統計之後,找到重復的URL
利用堆、外排序來做多個處理單元的結果合並
通過1G內存分流文件,這1G用於存儲哈希表。哈希函數特性是同樣的URL會進到一個文件里去,文件大小為分流到1G可以統計下為止,從而把100億個URL的大文件分流成小文件。哈希表的key是64位元組(URL大小),value是long類型(因為是100億個,無符號整數不夠用)8位元組。然後算1G內存最多可以放多少條這種記錄,就可以知道小文件容忍的的不同的URL最多有多少條;從而反推出假設100億個URL都是不同的,需要多少個小文件保證1G不超。
計算:64+8=72位元組,哈希表內部可能有索引空間的佔用,可以算的富裕一點,算作一條記錄要100位元組;1G=10億位元組,得出哈希表最多放1千萬條記錄,即記錄1千萬種不同的URL;最壞情況100億個URL都不同,100億/1千萬得需要1千個小文件,那麼原來的URL大文件用哈希函數算完再模上1千,分到對應的小文件里(根據哈希函數的性質,每個小文件里種類差不多是均分的,而且每個文件里記錄數差不多1千萬左右,不會超出多少)。然後在這1G空間里統計每個小文件里詞頻的TOP100,1千個文件有1千個TOP100,然後在每個文件里建立用詞頻作為排序的大根堆。
把每個堆的堆頂再組成一個大根堆,構成堆上堆,二維堆(即上圖中的二叉樹結構);例如上圖里包含甲、乙、丙;a、b、c;α、β、θ三個堆,現在堆頂元素甲、a、α構成大根堆
如上圖所示,假如調整完發現α是最大的,那麼α與a交換時是α這一串與a這一串交換,就輸出了α作為整個詞頻中TOP1。
如上圖所示,α輸出後β頂上來,但β未必是全局最大值,所以堆頂元素組成的大根堆開始heapify;假如甲此時是全局最大值,那麼甲這一串與β那一串交換......如此循環往復,每次堆上堆輸出一個最大值,下面的元素頂上來,然後堆上堆再調整,整個串交換;二維堆每次輸出一個,輸出100次就是TOP100。
如果是遍歷,時間代價O(100);用堆結構可以加速到O(log100)。從這里可以看出外排每次決定一個東西是遍歷一遍每個堆堆頂並比較大小。
假設給的空間限制為3KB,和前面一樣分成512份且每一份都能統計下詞頻,第一份假設這些數出現a個,第二份假設這些數出現b個,第三份假設這些數出現c個,所有段的詞頻都有,然後把a、b、c……加起來,看在哪個范圍上剛超20億或剛好20億,就把第20億定位在這個范圍上了。
舉例假如第 i 份加完是19億個,第 i + 1份加完是21億個,那麼20億就在第 i + 1份上且是第 i + 1份上的第1億個,接下來在第 i + 1份上再分512份去詞頻統計,看哪一份是剛超1億或剛好到1億,如此下去,總有統計出來的時候。
F. 什麼是大數據
大數據(Big Data)指的是大規模、高復雜度、處理速度快的數據集合。大數據集合通常由多種不同類型的數據構成,如結構化數據(如資料庫中的表格數據)、半結構化數據(如XML或JSON格式的數據)和非結構化數據(如文本、音頻、視頻等)。
大數據的特徵可以由「念激4V」來表示:
1.Volume(數據量):指的是大數據集合的數據量通常非常龐大,可能是以TB或PB計量的。數據的體量之大,往往需要使用分布式處理技術才能處理。
2.Velocity(數據處理速度):指的是大數據集合的數據流動速度通常非常快,可能需要實時或准實時的處理,以滿足業務需滑拆求。這就需要處理大數據的系統具有高效的實時處理能力。
3.Variety(數據類型多樣性):指的是大數據集合中包含各種類型的數據,如文本、圖像、音頻、視頻等,這些數據可能以不同的格式、編碼方式存在,需要對其進行處理和整合。
4.Value(數據價值):指的是大數據集合中蘊含著巨大的價值,通過對大數據進行分析和挖掘,可以發現數據背後的規律和關聯,幫助企業做出更明智的決策,提高產品和服務的質量等。
大數據在當前的商業、科技、醫療、教育等領域都仔讓襪得到了廣泛的應用。通過對大數據進行分析和挖掘,可以實現精準營銷、智能製造、金融風控、醫療診斷、交通管控等方面的應用。同時,由於大數據集合的處理和存儲需要龐大的計算資源和存儲設備,因此大數據也推動了雲計算、分布式計算等技術的發展。
G. # 大數據的統計學基礎
概率論是統計學的基礎,統計學沖鋒在應用第一線,概率論提供武器。
我們在學習R的時候,會做過假設檢驗。做假設檢驗的時候會有一個基本的技術就是構造出統計量,這些統計量要滿足一定的概率密度分布,然後我算這個統計量的值,來判定它在這個密度分布裡面,分布在哪個區域,出現在這個區域內的可能性有多高,如果可能性太低,我們就判定我們的假設檢驗是不成立的。 那麼如何構造這個統計量,這是一個很有技術的東西,同時也是由數學家來完成的,那這個工作就是概率論所作的事情。
古典概率論: 扔硬幣,正面1/2反面1/2,扔的次數之間是相互獨立的。 但是這個等概率事件確實是一個不是很嚴謹的事情。仔細想一想其實是很有趣的。 柯爾莫哥洛夫創建現代概率論 他將概率論提出了許多公理,因此將概率論變成了非常嚴謹的一門學科。
學會和運用概率,會使人變得聰明,決策更准確。
統計學 : 統計學可以分為:描述統計學與推斷統計學 描述統計學 :使用特定的數字或者圖表來體現數據的集中程度和離散程度。比如:每次考試算的平均分,最高分,各個分數段的人數分布等,也是屬於描述統計學的范圍。 推斷統計學 :根據樣本數據推斷總體數據特徵。比如:產品質量檢查,一般採用抽樣檢測,根據所抽樣本的質量合格率作為總體的質量合格率的一個估計。 統計學的應用十分廣泛,可以說,只要有數據,就有統計學的用武之地。目前比較熱門的應用:經濟學,醫學,心理學,IT行業大數據方面等。
例如:對於 1 2 3 4 5 這組數據,你會使用哪個數字作為代表呢? 答案是3。 因為3是這組數據的中心。 對於一組數據,如果只容許使用一個數字去代表這組數據,那麼這個數字應該如何選擇???-----選擇數據的中心,即反映數據集中趨勢的統計量。 集中趨勢:在統計學裡面的意思是任意種數據向 中心值靠攏 的程度。它可以反映出數據中心點所在的位置。 我們經常用到的能夠反映出集中趨勢的統計量: 均值:算數平均數,描述 平均水平 。 中位數:將數據按大小排列後位於正中間的數描述,描述 中等水平 。 眾數:數據種出現最多的數,描述 一般水平 。
均值:算數平均數 例如:某次數學考試種,小組A與小組B的成員成績分別如下: A:70,85,62,98,92 B:82,87,95,80,83 分別求出兩組的平均數,並比較兩組的成績。
組B的平均分比組A的高,就是組B的總體成績比組A高。
中位數:將數據按大小順序(從大到小或者從小到大)排列後處於 中間位置 的數。 例如:58,32,46,92,73,88,23 1.先排序:23,32,46,58,73,88,92 2.找出中間位置的數23,32,46, 58 ,73,88,92 如果數據中是偶數個數,那麼結果會發生什麼改變? 例如:58,32,46,92,73,88,23,63 1.先排序:23,32,46,58,63,73,88,92 2.找出處於中間位置的數:23,32,46, 58 , 63 ,73,88,92 3.若處於中間位置的數據有兩個(也就是數據的總個數為偶數時),中位數為中間兩個數的算數平均數:(58+63)/2=60.5 在原數據中,四個數字比60.5小,四個數字比60.5大。
眾數:數據中出現次數最多的數(所佔比例最大的數) 一組數據中,可能會存在多個眾數,也可能不存在眾數。 1 2 2 3 3 中,眾數是2 和 3 1 2 3 4 5 中,沒有眾數 1 1 2 2 3 3 4 4 中,也沒有眾數 只要出現的頻率是一樣的,那麼就不存在眾數 眾數不僅適用於數值型數據,對於非數值型數據也同樣適合 {蘋果,蘋果,香蕉,橙子,橙子,橙子,橙子,桃子}這一組數據,沒有什麼均值中位數科研,但是存在眾數---橙子。 但是在R語言裡面沒有直接計算眾數的內置函數,不過可以通過統計數據出現的頻率變相的去求眾數。
下面比較一下均值,中位數,眾數三個統計量有什麼優點和缺點 [圖片上傳失敗...(image-57f18-1586015539906)]
例子: 兩個公司的員工及薪資構成如下: A:經理1名,月薪100000;高級員工15名,月薪10000;普通員工20名,月薪7500 B:經理1名,月薪20000;高級員工20名,月薪11000;普通員工15名,月薪9000 請比較兩家公司的薪資水平。若只考慮薪資,你會選擇哪一家公司?
A 7500 B 11000
A 7500 B 11000</pre>
若從均值的角度考慮,明顯地A公司的平均月薪比B公司的高,但是A公司存在一個極端值,大大地拉高了A公司的均值,這時只從均值考慮明顯不太科學。從中位數和眾數來看,B公司的薪資水平比較高,若是一般員工,選擇B公司顯得更加合理。
比較下面兩組數據: A: 1 2 5 8 9 B: 3 4 5 6 7 兩組數據的均值都是5,但是你可以看出B組的數據與5更加接近。但是有描述集中趨勢的統計量不夠,需要有描述數據的離散程度的統計量。
極差 :最大值 - 最小值,簡單地描述數據的范圍大小。 A: 9 - 1 = 8 B: 7 - 3 = 4 同樣的5個數,A的極差比B的極差要大,所以也比B的要分散 但是只用極差這個衡量離散程度也存在不足 比如: A: 1 2 5 8 9 B: 1 4 5 6 9 兩組數據雖然極差都是相同的,但是B組數據整體分布上更加靠近5。
方差 :在統計學上,更常地是使用方差來描述數據的 離散程度 :數據離中心越遠,越離散。 方差越大,就代表這組數據越離散。
對於前面的數據 1 2 5 8 9,前面求的一組數據的方差是12.5。 將12.5於原始數據進行比較,可以看出12.5比原數據都大,這是否就能說明這一組數據十分離散呢? 其實方差與元數據的單位是不一樣的,這樣比較也是毫無意義的。如果原始數據的單位是m的話,那麼方差的單位就是m^2 為了保持單位的一致性,我們引入一個新的統計量:標准差 標准差:sqrt(var()), 有效地避免了因為單位的平方而引起的度量問題。 與方差一樣,標准差的值越大,表示數據越分散。 A: 1 2 5 8 9 B: 3 4 5 6 7
某班40個學生某次數學檢測的成績如下:
63,84,91,53,69,81,61,69,78,75,81,67,76,81,79,94,61,69,89,70,70,87,81,86,90,88,85,67,71,82,87,75,87,95,53,65,74,77 對於這一組數字,你能看出什麼呢? 或許先算一算平均值,中位數,或者眾數
或許算一算這組數據的方差或者標准差
但是即便是統計了上述的數據,我們還是對全班同學的分數分布,沒有一個全面的了解。 原始數據太雜亂無章,難以看出規律性,只依賴數字來描述集中趨勢與離散程度讓人難以對數據產生直觀地印象,這是我們就需要用到圖標來展示這些數字。
1.找出上面數據中的最大值和最小是,確定數據的范圍。
將成績排序後很容易得到最大值是95,最小值是53
2.整理數據,將數據按照成績分為幾個組。成績按照一般50-60,60-70,70-80,80-90,90-100這幾個分段來劃分(一般都分為5-10組),然後統計這幾個分段內部的頻數。 可以看到80-90這個分段的人數是最多的。 注意在繪制直方圖的時候,一定要知道是左閉右開還是左開右閉。 因為這個可能會直接影響到頻數的統計。
上圖就是:頻數直方圖。頻數作為縱坐標,成績作為橫坐標。通過直方圖我們可以對成績有一個非常直觀的印象。 除了頻數直方圖,還有一種直方圖:頻率直方圖。與頻數直方圖相比,頻率直方圖的縱坐標有所改變,使用了頻率/組距。 頻率=頻數/總數;組距就是分組的極差,這里的組距是10.
除了直方圖外,畫一個簡單的箱線圖也可以大致看出數據的分布。
想要看懂箱線圖,必須要學習一些箱線圖專業的名詞: 下四分位數:Q1,將所有的數據按照從小到大的順序排序,排在第25%位置的數字。 上四分位數:Q3,將所有的數據按照從小到大的順序排序,排在第75%位置的數字。 四分距:IQR,等於Q3-Q1,衡量數據離散程度的一個統計量。 異常點:小於Q1-1.5IQR或者大於Q3+1.5IQR的值。 (注意是1.5倍的IQR) 上邊緣:除異常點以外的數據中的最大值 下邊緣:除異常點以外的數據種的最小值
莖葉圖可以在保留全部數據信息的情況下,直觀地顯示出數據的分布情況。 左邊是莖,右邊是葉。 若將莖葉圖旋轉90度,則可以得到一個類似於直方圖的圖。跟直方圖一樣,也可以直觀地知道數據的分布情況。 並且可以保留所有的數據信息。 莖葉圖的畫法也非常的簡單: 將數據分為莖和葉兩部分,這里的莖是指十位上的數字,葉是指給上的數字。 將莖部份(十位)從小到大,從上到下寫出來 相對於各自的莖,將同一莖(十位)從小到大,從左往右寫出來。
但是莖葉圖也有缺陷,因為百位和十位同時畫在莖葉圖的時候,容易區分不開。同時也可能出現卻葉的情況。
以時間作為橫坐標,變數作為縱坐標,反映變數隨時間推移的變化趨勢。
顯示一段時間內的數據變化或者顯示各項之間的比較情況。
根據各項所佔百分比決定在餅圖中扇形的面積。簡單易懂,通俗明了。可以更加形象地看出各個項目所佔的比例大小。 適當的運用一些統計圖表,可以更生動形象的說明,不再只是純數字的枯燥描述。
學習鏈接: https://www.bilibili.com/video/BV1Ut411r7RG
H. 19.簡述大數據調查法的特點
大數據調查法是一種利用大數據技術進行調查和分析的方法。其主要特點如下:
數據量大:大數據調查法所使用的數據量非常大,通常是幾百萬到幾億個數據點,這可以提供更全面、更准確的信息和洞見。
高速度:大數據調查法使用高速的計算機和分布式處理技術,可以快速處理大量數據,從而更快地生成分析結果。
多樣性:大數據調查法可以處理各種類型的數據,包括結構化、半結構化和非結構化數據。這些數據可以來自各種來源,例如社交媒體、移動應用程序、感測器等。
精準度高:大數據調查法可以通過對大量數據的分析和挖掘,找到數據背後的模式和規律,並從中提取有價值的信息,這可以提高調查結好滑旦果的准確性和精確度。
實時性:大數據調查法可以在幾乎實時的情況下進行數據收集和分析,這使得研究人員可以快速了解當前的情況和趨勢,從而及時調整策略。
總讓含之,大數據調查法具有數據量大、高速度、多樣性友擾、精準度高和實時性等特點,這使得它成為一種有用的調查和分析方法,能夠為企業和政府決策提供更准確的信息和指導。
I. 大數據處理之道(預處理方法)
大數據處理之道(預處理方法)
一:為什麼要預處理數據?
(1)現實世界的數據是骯臟的(不完整,含雜訊,不一致)
(2)沒有高質量的數據,就沒有高質量的挖掘結果(高質量的決策必須依賴於高質量的數據;數據倉庫需要對高質量的數據進行一致地集成)
(3)原始數據中存在的問題:
不一致 —— 數據內含出現不一致情況
重復
不完整 —— 感興趣的屬性沒有
含雜訊 —— 數據中存在著錯誤、或異常(偏離期望值)的數據
高維度
二:數據預處理的方法
(1)數據清洗 —— 去雜訊和無關數據
(2)數據集成 —— 將多個數據源中的數據結合起來存放在一個一致的數據存儲中
(3)數據變換 —— 把原始數據轉換成為適合數據挖掘的形式
(4)數據規約 —— 主要方法包括:數據立方體聚集,維度歸約,數據壓縮,數值歸約,離散化和概念分層等。
(5)圖說事實
三:數據選取參考原則
(1)盡可能富餘屬性名和屬性值明確的含義
(2)統一多數據源的屬性編碼
(3)去除唯一屬性
(4)去除重復屬性
(5)去除可忽略欄位
(6)合理選擇關聯欄位
(7)進一步處理:
通過填補遺漏數據、消除異常數據、平滑雜訊數據,以及糾正不一致數據,去掉數據中的噪音、填充空值、丟失值和處理不一致數據
四:用圖說話,(我還是習慣用統計圖說話)
結尾:計算機領域存在一條鄙視鏈的 ---- 學java的鄙視學C++的,有vim的鄙視用IDE的等等。
數據清洗的路子:剛拿到的數據 ----> 和數據提供者討論咨詢 -----> 數據分析(藉助可視化工具)發現臟數據 ---->清洗臟數據(藉助MATLAB或者Java/C++語言) ----->再次統計分析(Excel的data analysis不錯的,最大小值,中位數,眾數,平均值,方差等等,以及散點圖) -----> 再次發現臟數據或者與實驗無關的數據(去除) ----->最後實驗分析 ----> 社會實例驗證 ---->結束。
J. 大數據的四大特點分別是什麼
一、大量
大數據的特徵首先就體現為“大”,從先Map3時代,一個小小的MB級別的Map3就可以滿意很多人的需求,然而跟著時刻的推移,存儲單位從曩昔的GB到TB,乃至現在的PB、EB級別。只要數據體量達到了PB級別以上,才幹被稱為大數據。跟著信息技能的高速發展,數據開端爆發性增長。交際網路、移動網路、各種智能東西等,都成為數據的來歷。
二、高速
便是經過演算法對數據的邏輯處理速度十分快,1秒規律,可從各種類型的數據中快速獲得高價值的信息,這一點也是和傳統的數據挖掘技能有著本質的不同。而且這些數據是需要及時處理的,由於花費很多本錢去存儲效果較小的歷史數據是十分不劃算的。
三、多樣
如果只要單一的數據,那麼這些數據就沒有了價值。廣泛的數據來歷,決議了大數據方式的多樣性。任何方式的數據都可以產生效果,目前使用最廣泛的便是推薦系統,如淘寶,網易雲音樂、今天頭條等,這些平台都會經過對用戶的日誌數據進行剖析,然後進一步推薦用戶喜歡的東西。
四、價值
這也是大數據的核心特徵。實際國際所產生的數據中,有價值的數據所佔份額很小。你如果有1PB以上的全國所有20-35年輕人的上網數據的時分,那麼它天然就有了商業價值,比方經過剖析這些數據,我們就知道這些人的愛好,進而指導產品的發展方向等等。如果有了全國幾百萬患者的數據,根據這些數據進行剖析就能猜測疾病的發生,這些都是大數據的價值。
關於大數據的四大特點分別是什麼,青藤小編就和您分享到這里了。如果您對大數據工程有濃厚的興趣,希望這篇文章可以為您提供幫助。如果您還想了解更多關於數據分析師、大數據工程師的技巧及素材等內容,可以點擊本站的其他文章進行學習。