A. 大數據行業2015年年終總結_大數據工作人員年終總結
可參考下文
9個關鍵字寫寫大數據行業2015年年終總結
2015年,大數據市場的發展迅猛,放眼國際,總體市場規模持續增加,隨著人工智慧、物聯網的發展,幾乎所有人將目光瞄準了「數據」產生的價值。行業廠商Cloudera、DataStax以及DataGravity等大數據公司已經投入大量資金研發相灶配關技術,Hadoop供應商Hortonworks與數據分析公司NewRelic甚至已經上市。而國內,國家也將大數據納入國策。
我們邀請數夢工場的專家妹子和你來聊聊2015年大數據行業九大關鍵詞,管窺這一年行業內的發展。
戰略:國家政策
今年中國政府對於大數據發展不斷發文並推進,這標志著大數據已被國家政府納入創新戰略層面,成為亂斗國家戰略計劃的核心任務之一:
2015年9月,國務院發布《促進大數據發展行動綱要》,大力促進中國數據技術的發展,數據將被作為戰略性資源加以重視;
2015年10月26日,在國家「十三五」規劃中具體提到實施國家大數據戰略。
挑戰:BI(商業智能)
2015年對於商業智能(BI)分析市場來說,正隱陪指由傳統的商業智能分析快速進入到敏捷型商業智能時代。以QlikView、Tableau和SpotView為代表的敏捷商業智能產品正在挑戰傳統的IBMCognos、SAPBusinessObjects等以IT為中心的BI分析平台。敏捷商業智能產品也正在進一步細化功能以達到更敏捷、更方便、適用范圍更廣的目的。
崛起:深度學習/機器學習
人工智慧如今已變得異常火熱,作為機器學習中最接近AI(人工智慧)的一個領域,深度學習在2015年不再高高在上,很多創新企業已經將其實用化:Facebook開源深度學習工具「Torch」、PayPal使用深度學習監測並對抗詐騙、亞馬遜啟動機器學習平台、蘋果收購機器學習公司Perceptio同時在國內,網路、阿里,科大訊飛也在迅速布局和發展深度學習領域的技術。
共存:Spark/Hadoop
Spark近幾年來越來越受人關注,2015年6月15日,IBM宣布投入超過3500名研究和開發人員在全球十餘個實驗室開展與Spark相關的項目。
與Hadoop相比,Spark具有速度方面的優勢,但是它本身沒有一個分布式存儲系統,因此越來越多的企業選擇Hadoop做大數據平台,而Spark是運行於Hadoop頂層的內存處理方案。Hadoop最大的用戶(包括eBay和雅虎)都在Hadoop集群中運行著Spark。Cloudera和Hortonworks將Spark列為他們Hadoop發行的一部分。Spark對於Hadoop來說不是挑戰和取代相反,Hadoop是Spark成長發展的基礎。
火爆:DBaaS
隨著Oracle12cR2的推出,甲骨文以全新的多租戶架構開啟了DBaaS(資料庫即服務Database-as-a-Service)新時代,新的資料庫讓企業可以在單一實體機器中部署多個資料庫。在2015年,除了趨勢火爆,12c多租戶也在運營商、電信等行業投入生產應用。
據分析機構Gartner預測,2012年至2016年公有資料庫雲的年復合增長率將高達86%,而到2019年資料庫雲市場規模將達到140億美元。與傳統資料庫相比,DBaaS能提供低成本、高敏捷性和高可擴展性等雲計算特有的優點。
B. 面試題-關於大數據量的分布式處理
面試題-關於大數據量的分布式處理
題目:生產系統每天會產生一個日誌文件F,數據量在5000W行的級別。文件F保存了兩列數據,一列是來源渠道,一列是來源渠道上的用戶標識。文件F用來記錄當日各渠道上的所有訪問用戶,每訪問一次,記錄一條。
請問如何快速計算出各渠道上新增的用戶?
問題分析:首先本次面試的是有關於分布式數據處理以及數據分析的職位,所以相關的面試題目可能會偏向於使用分布式的思想去解決。但無奈本人當時反應太慢,實在沒向分布式處理方向思考。
方案一:
本題最直觀的一個處理方法就是,直接拿著當日新增的5000W條訪問記錄一條一條的去匹配歷史訪問用戶。若存在歷史訪問記錄,則忽略;若不存在訪問記錄,則保存為新增記錄。很明顯,假若歷史訪問用戶有2億條記錄,則需要和2億條數據比較5000W次。比較次數可想而知。
由於本人一直在做基於資料庫的數據處理工作,很容易就想到將歷史數據保存在資料庫的一張表中,並對來源渠道和用戶標識這兩個欄位建立索引,然後遍歷日誌文件F(5000W次)。根據日誌文件F中的每一行去匹配資料庫中的歷史訪問記錄。由於歷史數據表有索引,單次查詢的速度也非常快。但是需要5000W次的資料庫查詢,很明顯效率低下。
方案二:
既然多次單一查詢無法滿足要求,於是可以先通過一種數據導入技術將當日新增數據導入到資料庫的另一張表中,並和歷史數據做左外關聯。若能關聯成功,則表示此用戶已存在;若關聯失敗,則表示此用戶不存在。
此方案暫且不說5000W條記錄的大表與2億條記錄的大表關聯效率有多高以及使用到的資料庫緩沖區的資源有多少,單就5000W條訪問記錄導入資料庫表,都是一個不小的時間花費。
方案三:
很明顯,面試時方案二的回答並未達到面試官的預期,最初被遺憾的PASS掉。一家很有潛力,自己很看好的公司,並計劃做為自己未來發展方向的職位,就這樣丟下我,揚長而去了。
這幾天又看了下分布式相關的介紹,突然想到這道題。一下子醒悟過來,其實還是因為對題目要考察的點分析得不夠透徹。當時以為只是僅僅考數據處理效率的一個題目,其實考的是一種將復雜問題拆分為簡單問題的拆分思想。了解到這一層,一種新的方式立馬在腦海中浮現出來。具體如下:
假如現在有N(N>=2)個存儲塊,並存在一個函數f(來源渠道,用戶標識),對於給定的一組(來源渠道,用戶標識),總能將其分發到一個固定的存儲塊內。那麼可以使用此函數將5000W行訪問記錄盡量均勻的分發至N個存儲塊上,並同時使用此函數將歷史訪問記錄也分發至這些存儲塊上。由於相同的一組記錄,肯定會被分配至同一個存儲塊,所以比較時,只需要分別比較各個存儲塊上當日新增記錄與歷史訪問用戶,然後將N個存儲塊上比較的結果匯總,即可得到最終結果。
假設歷史訪問用戶數據已通過函數f(來源渠道,用戶標識)被分發至了N個歷史文件H1、H2、…、HN。則詳細處理步驟如下:
1、將F中的內容使用函數f(來源渠道,用戶標識),分發至文件F1、F2、…、FN內。(可開M(M>=2)個並行,且若N-M越大,同時向同一文件寫入數據的概率越小)
2、將文件F1、F2、…、FN內的訪問記錄去重。(可開N個並行分別處理對應的N個文件)。
3、將文件Fn(1=<n<=N)去重後的結果與對應的歷史文件Hn比較得出新增用戶結果Rn。(可開N個並行分別處理對應的N個文件且當N足夠大時,實際要處理數據的量級就會相當小)。
4、合並第3步得到的結果R1、R2、…、RN即可得到當日新增用戶。(可並行)
5、為使歷史數據文件H1、H2、…、HN中的數據最全,將結果R1、R2、…、RN分別寫入對應的歷史文件中。(可並行)
本方案主要有以下優點:
1、數據的分發、處理、合並都可並行處理,明顯提高了處理效率。
2、由於每個存儲塊上的新增數據,只需要與它對應存儲塊上的歷史數據比較即可,大大減少了比較次數。(對於當日每一條記錄來說,都只需要與大約歷史的N分之一條數據去比較)
3、基本不需要考慮歷史全量數據的保存及獲取問題。
本方案缺點:
1、處理方案明顯變的復雜許多,不僅需要處理數據的分發,處理,還需要一個並行的快速收集方法。
2、可能需要多台伺服器並行處理。
本方案難點:
1、一個穩定(對於相同的一組來源渠道和用戶標識,必定會被分發至同一存儲塊)、快速(根據一條來源渠道和用戶標識數據,可以快速的計算出它將要被分發至的存儲塊)、均勻(當日新增數據及歷史數據都能盡量均勻的被分發至N個存儲塊,最理想的情況是每個存儲塊上分發到的數據都是總數據的N分之一)的分發函數至關重要。
2、如何分發、並行處理及匯總數據。
C. 怎麼樣快速向SQL資料庫插入大數據量的數據
添加數據需要知道往哪張表添加,以及自己要添加的內容,然後可用insert語句執行。
1、以版sqlserver2008r2為例,登錄SQL Server Management Studio到指權定的資料庫。
2、登錄後點擊「新建查詢」。
D. 大數據分析中出現的統計學錯誤包括什麼
1、變數之間關系可以分為兩類
函數關系:反映了事物之間某種確定性關系。
相關關系:兩個變數之間存在某種依存關系,但二者並不是一一對應的;反映了事務間不完全確定關系;
2、為什麼要對相關系數進行顯著性檢驗?
實際上完全沒有關系的變數,在利用樣本數據進行計算時也可能得到一個較大的相關系數值(尤其是時間序列數值)。當樣本數較少,相關系數就很大。當樣本量從100減少到40後,相關系數大概率會上升,但上升到多少,這個就不能保證了;取決於你的剔除數據原則,還有這組數據真的可能不存在相關性;改變兩列數據的順序,不會對相關系數,和散點圖(擬合的函數曲線)造成影響;對兩列數據進行歸一化處理,標准化處理,不會影響相關系數;我們計算的相關系數是線性相關系數,只能反映兩者是否具備線性關系。相關系數高是線性模型擬合程度高的前提;此外相關系數反映兩個變數之間的相關性,多個變數之間的相關性可以通過復相關系數來衡量。
3、增加變數個數,R2會增大;P值,F值只要滿足條件即可,不必追求其值過小。
4、多重共線性與統計假設檢驗傻傻分不清?
多重共線性與統計假設沒有直接關聯,但是對於解釋多元回歸的結果非常重要。相關系數反應兩個變數之間的相關性;回歸系數是假設其他變數不變,自變數變化一個單位,對因變數的影響,而存在多重共線性(變數之間相關系數很大),就會導致解釋困難;比如y~x1+x2;x·1與x2存在多重共線性,當x1變化一個單位,x2不變,對y的影響;而x1與x2高度相關,就會解釋沒有意義。
一元回歸不存在多重共線性的問題;而多元線性回歸要摒棄多重共線性的影響;所以要先對所有的變數進行相關系數分析,初步判定是否滿足前提---多重共線性。
E. excel大數據處理技巧
方法/步驟
1、數據整理。工欲善其事,必先利其器。數據質量是數據分析的生命,此步驟不可忽視、不可走過場。
①數字型的數字才可以參與畫圖和做分析模型,所以數據不能帶單位(如:元、萬元),也不能用區間數據(如:23-25,不要將電腦當作神腦)。
②數據的單位要一致,統一按列排序或者按行排序,此案例用列排序。
③注意:對於用文本格式存儲的數字,單元格左上角有個綠色三角表示,要注意修改為數字格式。
2、對於本例,需要用到隨機函數rand()。一個色子有6個面,取數為1-6。模擬色子數據=int(rand()*6)+1。
其他用到的函數有:求和sum();最大值max();最小值min()。
3、繪制圖形。
①目前我們只做2維的數據分析,只有1個自變數和1個因變數。選擇2列數據,合計列和最大值列。技巧:當需要選擇不相鄰兩列,可以先選1列,按ctrl鍵,再選另1列,放開ctrl鍵。
②菜單插入→圖形→散點圖,確認。當然,折線圖等也可以數據分析,但為了圖面干凈,推薦還是用散點圖。
4、相關性分析。
首先,在散點圖上某個散點上右鍵→添加趨勢線。
5、然後,緊接著自動彈出設置趨勢線模式(若沒彈出這個對話框,也可在圖上某個散點上右鍵,選擇設置趨勢線模式)→顯示公式、顯示R平方值。至於回歸分析類型,採用線性類型比較通用些。
6、關閉後,觀察圖上的r2值(實際是指R平方值,下同),r2值0.8到1,說明正相關,自變數和因變數有(線性)關系。r2值0.6到0.8,弱相關。-0.6到0.6,不相關,自變數對因變數沒有影響。-0.8到-0.6,弱負相關。-1到-0.8,負相關,自變數和因變數有(線性)關系,但方向相反。
7、最後,點擊圖上任意散點,表格會出現紅色框和藍色框,紅色是因變數,不能移動,藍色框可以移動。通過滑鼠拖動藍色框,可以看到最大值、最小值、中間值與合計數的線性相關性r2值。
8、本案例數據統計:合計數與最大值、最小值的相關性大多在0-0.7以內,合計數與中間值的相關性大多在0.7以上。自變數x為中間值,因變數y為合計數,他們的關系模型為:y = 0.4196x - 0.8817。(當然,公式中的參數只是針對這25次試驗)
本案例結論:三數合計與中間值呈弱線性相關。
推論:評分比賽中,將最高分和最低分同時去掉,不影響最終得分。
以上就是Excel數據處理並繪製成分析圖形方法介紹,操作很簡單的,你學會了嗎?希望這篇文章能對大家有所幫助!
F. excel大數據處理技巧
方法/步驟
1、數據整理。工欲善其事,必先利其器。數據質量是數據分析的生命,此步驟不可忽視、不可走過場。
①數字型的數字才可以參與畫圖和做分析模型,所以數據不能帶單位(如:元、萬元),也不能用區間數據(如:23-25,不要將電腦當作神腦)。
②數據的單位要一致,統一按列排序或者按行排序,此案例用列排序。
③注意:對於用文本格式存儲的數字,單元格左上角有個綠色三角表示,要注意修改為數字格式。
2、對於本例,需要用到隨機函數rand()。一個色子有6個面,取數為1-6。模擬色子數據=int(rand()*6)+1。
其他用到的函數有:求和sum();最大值max();最小值min()。
3、繪制圖形。
①目前我們只做2維的數據分析,只有1個自變數和1個因變數。選擇2列數據,合計列和最大值列。技巧:當需要選擇不相鄰兩列,可以先選1列,按ctrl鍵,再選另1列,放開ctrl鍵。
②菜單插入→圖形→散點圖,確認。當然,折線圖等也可以數據分析,但為了圖面干凈,推薦還是用散點圖。
4、相關性分析。
首先,在散點圖上某個散點上右鍵→添加趨勢線。
5、然後,緊接著自動彈出設置趨勢線模式(若沒彈出這個對話框,也可在圖上某個散點上右鍵,選擇設置趨勢線模式)→顯示公式、顯示R平方值。至於回歸分析類型,採用線性類型比較通用些。
6、關閉後,觀察圖上的r2值(實際是指R平方值,下同),r2值0.8到1,說明正相關,自變數和因變數有(線性)關系。r2值0.6到0.8,弱相關。-0.6到0.6,不相關,自變數對因變數沒有影響。-0.8到-0.6,弱負相關。-1到-0.8,負相關,自變數和因變數有(線性)關系,但方向相反。
7、最後,點擊圖上任意散點,表格會出現紅色框和藍色框,紅色是因變數,不能移動,藍色框可以移動。通過滑鼠拖動藍色框,可以看到最大值、最小值、中間值與合計數的線性相關性r2值。
8、本案例數據統計:合計數與最大值、最小值的相關性大多在0-0.7以內,合計數與中間值的相關性大多在0.7以上。自變數x為中間值,因變數y為合計數,他們的關系模型為:y = 0.4196x - 0.8817。(當然,公式中的參數只是針對這25次試驗)
本案例結論:三數合計與中間值呈弱線性相關。
推論:評分比賽中,將最高分和最低分同時去掉,不影響最終得分。
以上就是Excel數據處理並繪製成分析圖形方法介紹,操作很簡單的,你學會了嗎?希望這篇文章能對大家有所幫助!