A. 大數據所謂的分布式運算是指什麼
所謂的分布式計算,其實就是將大型計算任務進行拆解,使之變成小型計算任務,從版而可以不局許可權於單機處理,而可以分布到若干機器匯總進行處理。其價值,就是解決了龐大數據無法在單機上運行處理或者說單機運行處理效率較低的情況。
B. 大數據的分布式資料庫的發展趨勢如何(分布式資料庫的優點)
現在大數據是一個十分火熱的技術,這也使得很多人都開始關注大數據的任何動態,因為大數據在某種程度上來說能夠影響我們的生活。在這篇文章中我們就給大家介紹一下大數據的分布式資料庫的發展趨勢,希望這篇文章能夠幫助大家更好理解大數據的分布式資料庫的發展趨勢。
其實不論是Hadoop還是分布式資料庫,技術體繫上兩者都已經向著計算存儲層分離的方式演進。對於Hadoop來說這一趨勢非常明顯,HDFS存儲與YARN調度計算的分離,使得計算與存儲均可以按需橫向擴展。而分布式資料庫近年來也在遵循類似的趨勢,很多資料庫已經將底層存儲與上層的SQL引擎進粗芹行剝離。傳統的XML資料庫、OO資料庫、與pre-RDBMS正在消亡;新興領域文檔類資料庫、圖資料庫、Table-Style資料庫與Multi-Model資料庫正在擴大自身影響;傳統關系型資料庫、列存儲資料庫、內存分析型資料庫正在考慮轉型。可以看到,從技術完整性與成熟度來看,Hadoop確實還處於相對早期的形態。直到今天,很多技術在很多企業應用中需要大量的手工調優才能夠勉強運行。同時,Hadoop的主要應用場景一直以來面向批處理分析型業務,傳統資料庫在線聯機處理部分不是其主要的發展方向。同時Hadoop技術由於開源生態體系過於龐大,同時參與改造的廠商太多,使得用戶很難完全熟悉整個體系,這一方面大大增加了開發的復雜度,提升了用戶使用的難度,另一方面則是各個廠商之間維護不同版本,使得產品的發展方向可能與開源版本差別逐漸加大。
而分布式資料庫領域經歷了幾十年的磨練,傳統RDBMS的MPP技術早已經爐火純青,在分類眾多的分布式資料庫中,其主要發展方向基本可以分為「分布式聯機資料庫」與「分布式分析型資料庫」兩種。對比Hadoop與分布式資料庫可以看出,Hadoop的產品發展方向定位,與分布式資料庫中列存儲數據戚棗庫相當重疊而在高並發聯機交易場景,在Hadoop中除了HBase能夠勉強沾邊以外,分布式資料庫則占據絕對的優勢。目前,從Hadoop行業的發展來看,很多廠商而是將其定位改變為數據科學與機器學習服務商。因此,從商業模式上看以Hadoop分銷的商業模式基本已經宣告結束,用戶已經體驗到維護整個Hadoop平台的困難而不願被強迫購買整個平台。大量用戶更願意把原來Hadoop的部件拆開靈活使用,為使用場景岩仔畢和結果買單,而非平台本身買單。另外一個細分市場——非結構化小文件存儲,一直以來都是對象存儲、塊存儲,與分布式文件系統的主戰場。如今,一些新一代資料庫也開始進入該領域,可以預見在未來的幾年中,小型非結構化文件存儲也可能成為具備多模數據處理能力的分布式資料庫的戰場之一。
我們在這篇文章中給大家介紹了很多有關大數據分布資料庫的發展前景,通過這篇文章我們不難發現資料庫的發展是一個極其重要的內容,只有搭建分布式資料庫,大數據才能夠更好地為我們服務。
C. 大數據分析一般用什麼工具分析_大數據的分析工具主要有哪些
在大數據處理分析過程中常用的六大工具:
1、Hadoop
Hadoop是一個能夠對大量數據進行分布式處理的軟體框架。但是Hadoop是以一種可靠、高效、可伸縮的方式進行處理的。Hadoop是可靠的,因為它假設計算元素和存儲會失敗,因此它維護多個工作數據副本,確保能夠針對失敗的節點重新分布處理。Hadoop是高效的,因為它以並行的方式工作,通過並行處理加快處理速度。Hadoop還是可伸縮的,能夠處理PB級數據。此外,Hadoop依賴於社區伺服器,因此它的成本比較低,任何人都可以使用。
2、HPCC
HPCC,HighPerformanceComputingand(高性能計算與通信)的縮寫。1993年,由美國科學、工程、技術聯邦協調理事會向國會提交了「重大挑戰項目:高性能計算與通信」的報告,也就是被稱為HPCC計劃的報告,即美國總統科學戰略項目,其目的是通過加強研究與開發解決一批重要的科學與技術挑戰問題。HPCC是美國實施信息高速公路而上實施的指槐蘆計劃,該計劃的實施將耗資百億美元,其主要目標要達到:開發可擴展的計算系統及相關軟體,以支持太位級網路傳輸性能,開發千兆比特網路技術,擴展研究和教育機構及網路連接能力。
3、Storm
Storm是自由的開源軟體,一個分布式的、容錯的實時計算系統。Storm可以非常可靠的處理龐大的數據流,用於處理Hadoop的批量數據。Storm很簡單,支持許多種編程語言,使用起來非常有趣明余。
4、ApacheDrill
為了幫助企業用戶尋找更為有效、加快Hadoop數據查詢的方法,Apache軟體基金會近日發起了一項名為「Drill」的開源項目。ApacheDrill實現了Google'sDremel.
據Hadoop廠商MapR公司產品經理TomerShiran介紹,「Drill」已經作為Apache孵化器項目來運作,將面向全球軟體工程師持續推廣。
5、RapidMiner
RapidMiner是世界領先的數據挖掘解決方案,在一個非常大的程度上有著先進技術。它數據挖掘任務涉及范圍廣泛,包括各種數據藝術,能簡化數據挖掘過程的設計和評價。
6、PentahoBI
PentahoBI平台不同於傳統的BI產品,它是一個以流程為中心的,面向解決方案(Solution)的框架。其目的在於將一系列企業級BI產品、開源軟體、API等等組件集成起來,方便商務智能應用的開發。它的出現,使得一系列的面向商務智能的獨立產品如Jfree、Quartz等等,能夠集成在一起,構成一項項復雜的、完整的商務智能解決方案。
1、大數據是一個含義廣泛的術語,是指數據集,如此龐大而復雜的,他們需要專門設計的硬體和軟體工具進行處理。該數據集通常是萬億或EB的大小。
2、這些數據集收集自各種各樣的來源:
a、感測器、氣候信息、公開的信息、如雜志、報紙、文章。
b、大數據產生的其他例子包括購買交易記錄、網路日誌、病歷、事監控、視頻和圖像檔案、及大型電子商務。
c、大數據分析是在研究大量的數據的過程中尋找模式,相關性和其他唯帶有用的信息,可以幫助企業更好地適應變化,並做出更明智的決策。
D. 大數據的分布式資料庫技術的對比(主流分布式資料庫)
分布式資料庫是一個邏輯資料庫,它的物理資料庫在地理位置上分布在多個資料庫管理系統的計算機網路中,這些資料庫系統構成了分布式的資料庫管理系統
在分布式資料庫管理系統中,每台計算機上的用戶在訪問資料庫時並不感到他使用的漏伍數據在物理上不存儲在自己的計算機中,而是由分布式資料庫系統由網路從其它機器中傳輸過來
因此,對每一用戶來說,看到的都是一個統一的概念模式
分布式資料庫系統的主要特點是:(1)具有較高的可靠性,當系統中一台機器發生故障時、不會導致整個系統的破壞
當故障排除後,分布式資料庫系統可將故障期間的資料庫加以恢復修改段搜兄
(2)分散了工作負荷,使大量的處理均勻分擔
(3)便於實現系統的擴充
分布式資料庫系統是計算機握襲通訊和資料庫技術相結合的產物,是非常有代表性的資料庫技術發展方向之一
E. 大數據解決方案_大數據的應用解決方案
目前常用的大數據解決方案包括以下幾類
一、Hadoop。Hadoop是頌斗盯一個能夠對大量數據進行分布式處理的軟體框架。但是Hadoop是以一種可靠、高效、可伸縮的方式進行處理的。此外,Hadoop依賴於社區伺服器,因此它的成本比較低,任何人都可以使用。
二、HPCC。HPCC,HighPerformanceComputingand(高性能計算與通信)的縮寫。HPCC主要目標要達到:開發可擴展的計算系統及相關軟體,以支持太位級網路傳輸性能,開發千兆比特網路技術,擴展研究和教育機構及野和網路連接能力。
三、Storm。Storm是自由的開源軟體,一個分布式的、容錯的實時計算系統。Storm可以非常可靠的處理龐大的數據流,用於處理Hadoop的批量數據。Storm支持許多種編程語言,使用起來非常有趣。Storm由Twitter開源而來
四、ApacheDrill。為了幫助企業用戶尋找更為有效、加快Hadoop數據查詢的方法,Apache軟體基金會近日發起了一項名為「Drill」的開源項目。該項目幫助谷歌實現海量數據集的分析處理,包括分析抓取Web文檔、跟蹤安裝在AndroidMarket上的應用程序數銷敗據、分析垃圾郵件、分析谷歌分布式構建系統上的測試結果等等。
F. 面試題-關於大數據量的分布式處理
面試題-關於大數據量的分布式處理
題目:生產系統每天會產生一個日誌文件F,數據量在5000W行的級別。文件F保存了兩列數據,一列是來源渠道,一列是來源渠道上的用戶標識。文件F用來記錄當日各渠道上的所有訪問用戶,每訪問一次,記錄一條。
請問如何快速計算出各渠道上新增的用戶?
問題分析:首先本次面試的是有關於分布式數據處理以及數據分析的職位,所以相關的面試題目可能會偏向於使用分布式的思想去解決。但無奈本人當時反應太慢,實在沒向分布式處理方向思考。
方案一:
本題最直觀的一個處理方法就是,直接拿著當日新增的5000W條訪問記錄一條一條的去匹配歷史訪問用戶。若存在歷史訪問記錄,則忽略;若不存在訪問記錄,則保存為新增記錄。很明顯,假若歷史訪問用戶有2億條記錄,則需要和2億條數據比較5000W次。比較次數可想而知。
由於本人一直在做基於資料庫的數據處理工作,很容易就想到將歷史數據保存在資料庫的一張表中,並對來源渠道和用戶標識這兩個欄位建立索引,然後遍歷日誌文件F(5000W次)。根據日誌文件F中的每一行去匹配資料庫中的歷史訪問記錄。由於歷史數據表有索引,單次查詢的速度也非常快。但是需要5000W次的資料庫查詢,很明顯效率低下。
方案二:
既然多次單一查詢無法滿足要求,於是可以先通過一種數據導入技術將當日新增數據導入到資料庫的另一張表中,並和歷史數據做左外關聯。若能關聯成功,則表示此用戶已存在;若關聯失敗,則表示此用戶不存在。
此方案暫且不說5000W條記錄的大表與2億條記錄的大表關聯效率有多高以及使用到的資料庫緩沖區的資源有多少,單就5000W條訪問記錄導入資料庫表,都是一個不小的時間花費。
方案三:
很明顯,面試時方案二的回答並未達到面試官的預期,最初被遺憾的PASS掉。一家很有潛力,自己很看好的公司,並計劃做為自己未來發展方向的職位,就這樣丟下我,揚長而去了。
這幾天又看了下分布式相關的介紹,突然想到這道題。一下子醒悟過來,其實還是因為對題目要考察的點分析得不夠透徹。當時以為只是僅僅考數據處理效率的一個題目,其實考的是一種將復雜問題拆分為簡單問題的拆分思想。了解到這一層,一種新的方式立馬在腦海中浮現出來。具體如下:
假如現在有N(N>=2)個存儲塊,並存在一個函數f(來源渠道,用戶標識),對於給定的一組(來源渠道,用戶標識),總能將其分發到一個固定的存儲塊內。那麼可以使用此函數將5000W行訪問記錄盡量均勻的分發至N個存儲塊上,並同時使用此函數將歷史訪問記錄也分發至這些存儲塊上。由於相同的一組記錄,肯定會被分配至同一個存儲塊,所以比較時,只需要分別比較各個存儲塊上當日新增記錄與歷史訪問用戶,然後將N個存儲塊上比較的結果匯總,即可得到最終結果。
假設歷史訪問用戶數據已通過函數f(來源渠道,用戶標識)被分發至了N個歷史文件H1、H2、…、HN。則詳細處理步驟如下:
1、將F中的內容使用函數f(來源渠道,用戶標識),分發至文件F1、F2、…、FN內。(可開M(M>=2)個並行,且若N-M越大,同時向同一文件寫入數據的概率越小)
2、將文件F1、F2、…、FN內的訪問記錄去重。(可開N個並行分別處理對應的N個文件)。
3、將文件Fn(1=<n<=N)去重後的結果與對應的歷史文件Hn比較得出新增用戶結果Rn。(可開N個並行分別處理對應的N個文件且當N足夠大時,實際要處理數據的量級就會相當小)。
4、合並第3步得到的結果R1、R2、…、RN即可得到當日新增用戶。(可並行)
5、為使歷史數據文件H1、H2、…、HN中的數據最全,將結果R1、R2、…、RN分別寫入對應的歷史文件中。(可並行)
本方案主要有以下優點:
1、數據的分發、處理、合並都可並行處理,明顯提高了處理效率。
2、由於每個存儲塊上的新增數據,只需要與它對應存儲塊上的歷史數據比較即可,大大減少了比較次數。(對於當日每一條記錄來說,都只需要與大約歷史的N分之一條數據去比較)
3、基本不需要考慮歷史全量數據的保存及獲取問題。
本方案缺點:
1、處理方案明顯變的復雜許多,不僅需要處理數據的分發,處理,還需要一個並行的快速收集方法。
2、可能需要多台伺服器並行處理。
本方案難點:
1、一個穩定(對於相同的一組來源渠道和用戶標識,必定會被分發至同一存儲塊)、快速(根據一條來源渠道和用戶標識數據,可以快速的計算出它將要被分發至的存儲塊)、均勻(當日新增數據及歷史數據都能盡量均勻的被分發至N個存儲塊,最理想的情況是每個存儲塊上分發到的數據都是總數據的N分之一)的分發函數至關重要。
2、如何分發、並行處理及匯總數據。
G. 大數據所謂的分布式運算是指什麼
這個問題復中有兩個關制鍵詞,『大數據』和『分布式運算』,其實包含了三個問題:『什麼是大數據』,什麼是『分布式運算』,以及『什麼是大數據處理的分布式運算』。
假設你已經知道了前面的兩個問題(『什麼是大數據』,什麼是『分布式運算』)的答案的,因此只對第3個『什麼是大數據處理的分布式運算』做些回答;
大數據處理的最大特點是需要(計算)處理/參照的對象數據量的巨大。眾所周知現在的計算機結構對待需要處理/參照的數據是需要放在與承擔數據處理的CPU可直接交互(立刻調用)的存儲器中。而每個CPU可直接交互的數據量有限,對大數據的處理方式就需要用多CPU的集群(並行運算)系統來處理。這種處理可以用超級計算機系統的大數據處理,但現在更多是用網路將大量的計算機(成千上萬台)連接起來,實施分布式的集群運算來處理大數據。這里的分布,不只是CPU的分布,也是指存儲器(磁碟或內存)的分布。將待處理的大數據分布在連接在網路上的存儲器中,分布處理。現在的大數據分布式處理方式有Redis、Gemfire、SAP HANA……等等
H. 20分鍾看懂大數據分布式計算
這是一篇科普性質的文章,希望能過用一個通俗易懂的例子給非計算機專業背景的朋友講清楚大數據分布式計算技術。大數據技術雖然包含存儲、計算和分析等一系列龐雜的技術,但分布式計算一直是其核心,想要了解大數據技術,不妨從MapRece分布式計算模型開始。該理論模型並不是什麼新理念,早在2004年就被Google發布,經過十多年的發展,儼然已經成為了當前大數據生態的基石,可謂大數據技術之道,在於MapRece。
在進入到分布式計算技術這個概念之前,我們要先回顧一下傳統計算技術,為了使計算機領域的相關概念能夠生動形象深入淺出,我們要將計算機類比為人:
下面我們要用一個簡單的案例,分析「人型計算機」是如何利用傳統計算技術解決實際問題的。在開始之前,要增加一些限定,如同正常計算機的內存是有上限的,我們的「人型計算機」也存在記憶力的上限,這里我們假設一個「人型計算機」最多可以同時在「內存」中記住4種信息,例如:蘋果、梨等四種水果的個數:
好了,背景知識已經足夠了,讓我們進入正題
首先,什麼是分布式計算?簡單點理解就是將大量的數據分割成多個小塊,由多台計算機分工計算,然後將結果匯總。這些執行分布式計算的計算機叫做集群,我們仍然延續前文中人和計算機的類比,那麼集群就是一個團隊,單兵作戰的時代已經過去,團隊合作才是王道:
為什麼需要分布式計算?因為「大數據」來了,單個計算機不夠用了,即數據量遠遠超出單個計算機的處理能力范圍:有時候是單位時間內的數據量大,比如在12306網上買票,每秒可能有數以萬計的訪問;也有可能是數據總量大,比如網路搜索引擎,要在伺服器上檢索數億的中文網頁信息。
實現分布式計算的方案有很多,在大數據技術出現之前就已經有科研人員在研究,但一直沒有被廣泛應用。直到2004年Google公布了MapRece之後才大熱了起來。大數據技術、分布式計算和MapRece的關系可以用下圖來描述,MapRece是分布式計算在大數據領域的應用:
MapRece模型是經過商業實踐的成熟的分布式計算框架,與Google的分布式文件系統GFS、分布式數據存儲系統BigTable一起,號稱Google的大數據「三寶」,為大數據技術的發展提供了堅實的理論基礎。但遺憾的是,谷歌並沒有向外界公布自己的商業產品,而真正讓大數據技術大踏步前進的是按照Google理論實現的開源免費產品Hadoop,目前已經形成了以Hadoop為核心的大數據技術生態圈。
讓我們回到數撲克牌這個例子中,大數據時代的撲克牌問題是什麼樣子的?
我個人在查閱了一些資料、進行了一些實踐以後,認為MapRece的技術可以簡單地用四字訣來總結:分、變、洗、合,分別代表「切分」、「變換」、「洗牌」、「合並」四個步驟:
下面來看如何用四字訣解決大數據撲克牌問題。
既然單個「人型計算機」無法完全處理完所有的撲克,那麼我們就把撲克牌隨機分成多份,每份撲克牌由一個「人型計算機」來處理,個數不超過單個計算機的處理上限,而且盡量讓每份的數量比較平均。
這里我們要講一下角色分工的問題,多台計算機合作,肯定要有角色分工,我們把負責數據切分的「人型計算機」可以理解為「指揮官」,「指揮官」一般只有一個(在實際中可能有多個),統籌調度之類的工作都歸他管。負責執行具體運算任務的「人型計算機」則是「計算兵」,「計算兵」按照承擔的任務不同分為「變計算兵」和「合計算兵」,前者負責第二步「變換「,後者負責最後一步「合並「。
「指揮官」在切分撲克牌之前,會先分配好「變計算兵」和「合計算兵」的數量,然後根據「變計算兵」的數量把撲克拆分成相應的份數,將每份撲克分給一個「變計算兵」,然後進入下一步。
每一個「變計算兵」都要對自己分得的每一張撲克牌按照相同的規則做變換,使得後續的步驟中可以對變換後的結果做處理。這種變換可以是加減乘除等數學運算,也可以是對輸入數據的結構的轉換。例如對於我們這個撲克牌問題來講,目的是為了計數,所以可以將撲克牌轉換為一種計算機更容易處理的數值結構:將每張撲克牌上貼一張小便簽,這條小便簽上寫明了其個數為1。
我們把這種貼了標簽的撲克牌叫做變種撲克牌。當在後續的步驟中統計牌型個數時,只需要把每個標簽上的數字加起來就可以。有的朋友肯定會好奇為什麼不讓每個「計算兵」直接統計各自的所有牌型的撲克的個數,這是因為這種「映射變換」運算的本質在於將每張撲克牌都進行同一種相同規則的變換,統計個數的工作要留在最後一步完成。嚴格的流水化操作,會讓整體的效率更高,而且變換的規則要根據具體問題來制定,更容易適配不同種類的計算。
變換的運算完成之後,每個「變計算兵」要將各自的變種撲克牌按照牌型分成多個小份,每個小份要最終被一個指定的「合計算兵」進行結果合並統計,這個過程就是「洗牌」,是「變計算兵」將變換後的撲克牌按照規則分組並分配給指定的「合計算兵」的過程。
洗牌分兩個階段,第一階段是每個「變計算兵」將變種撲克牌按照一定的規則分類,分類的規則取決於每個「合計算兵」的統計范圍,分類的個數取決於「合計算兵」的個數。如上圖所示,假設有3個「合計算兵」分別負責不同范圍的牌型的統計,那麼「變計算兵」需要根據每個「合計算兵」負責的牌型將自己的變種撲克牌分成3個小份,每份交給對應的「合計算兵」。洗牌的第二階段,「合計算兵」在指揮官的指揮下,去各個「變計算兵」的手中獲取屬於他自己的那一份變種撲克牌,從而使得牌型相同的撲克牌只會在一個「合計算兵」的手上。洗牌的意義在於使相同牌型的變種撲克牌匯聚在了一起,以便於統計。
「合計算兵」將手中的變種撲克牌按照相同的計算規則依次進行合並,計算規則也需要根據具體問題來制定,在這里是對撲克牌上標簽的數值直接累加,統計出最終的結果。
然後所有的「合計算兵」把自己的計算結果上交給「指揮官」,「指揮官」匯總後公布最終統計的結果。
ok,「分變洗合」四字訣介紹完畢,完整過程如下:
分布式處理技術在邏輯上並不復雜,但在具體的實現過程中會有很多復雜的過程,譬如「指揮官」如何協調調度所有的「運算兵」,「運算兵」之間如何通信等等,但對於使用MapRece來完成計算任務的程序員來講,這些復雜的過程是透明的,分布式計算框架會自己去處理這些問題,程序員只需要定義兩種計算規則:第二步中變換的規則和第四步中合並的規則。
正所謂大道至簡,萬變不離其宗,理解了MapRece就理解了大數據分布式處理技術,而理解大數據分布式處理技術,也就理解了大數據技術的核心。
如果你還沒有理解或者發現了文中的邏輯漏洞,歡迎留言討論。
I. 如何進行大數據處理
大數據處理之一:收集
大數據的收集是指運用多個資料庫來接收發自客戶端(Web、App或許感測器方式等)的 數據,而且用戶能夠經過這些資料庫來進行簡略的查詢和處理作業,在大數據的收集進程中,其主要特色和應戰是並發數高,因為同時有可能會有成千上萬的用戶 來進行拜訪和操作
大數據處理之二:導入/預處理
雖然收集端本身會有許多資料庫,但是假如要對這些海量數據進行有效的剖析,還是應該將這 些來自前端的數據導入到一個集中的大型分布式資料庫,或許分布式存儲集群,而且能夠在導入基礎上做一些簡略的清洗和預處理作業。導入與預處理進程的特色和應戰主要是導入的數據量大,每秒鍾的導入量經常會到達百兆,甚至千兆等級。
大數據處理之三:核算/剖析
核算與剖析主要運用分布式資料庫,或許分布式核算集群來對存儲於其內的海量數據進行普通 的剖析和分類匯總等,以滿足大多數常見的剖析需求,在這方面,一些實時性需求會用到EMC的GreenPlum、Oracle的Exadata,以及根據 MySQL的列式存儲Infobright等,而一些批處理,或許根據半結構化數據的需求能夠運用Hadoop。 核算與剖析這部分的主要特色和應戰是剖析觸及的數據量大,其對系統資源,特別是I/O會有極大的佔用。
大數據處理之四:發掘
主要是在現有數據上面進行根據各種演算法的核算,然後起到預測(Predict)的作用,然後實現一些高等級數據剖析的需求。主要運用的工具有Hadoop的Mahout等。該進程的特色和應戰主要是用於發掘的演算法很復雜,並 且核算觸及的數據量和核算量都很大,常用數據發掘演算法都以單線程為主。
關於如何進行大數據處理,青藤小編就和您分享到這里了。如果您對大數據工程有濃厚的興趣,希望這篇文章可以為您提供幫助。如果您還想了解更多關於數據分析師、大數據工程師的技巧及素材等內容,可以點擊本站的其他文章進行學習。