導航:首頁 > 網路數據 > 大數據架構百度文庫

大數據架構百度文庫

發布時間:2022-12-28 22:14:34

大數據平台有哪些架構

01

傳統大數據架構

以上的種種架構都圍繞海量數據處理為主,Unifield架構則將機器學習和數據處理揉為一體,在流處理層新增了機器學習層。

優點:

提供了一套數據分析和機器學習結合的架構方案,解決了機器學習如何與數據平台進行結合的問題。

缺點:

實施復雜度更高,對於機器學習架構來說,從軟體包到硬體部署都和數據分析平台有著非常大的差別,因此在實施過程中的難度系數更高。

適用場景:

有著大量數據需要分析,同時對機器學習方便又有著非常大的需求或者有規劃。

大數據時代各種技術日新月異,想要保持競爭力就必須得不斷地學習。寫這些文章的目的是希望能幫到一些人了解學習大數據相關知識 。加米穀大數據,大數據人才培養機構,喜歡的同學可關注下,每天花一點時間學習,長期積累總是會有收獲的。

② 如何架構大數據系統hadoop

大數據數量龐大,格式多樣化。

大量數據由家庭、製造工廠和辦公場所的各種設備、互聯網事務交易、社交網路的活動、自動化感測器、移動設備以及科研儀器等生成。

它的爆炸式增長已超出了傳統IT基礎架構的處理能力,給企業和社會帶來嚴峻的數據管理問題。

因此必須開發新的數據架構,圍繞「數據收集、數據管理、數據分析、知識形成、智慧行動」的全過程,開發使用這些數據,釋放出更多數據的隱藏價值。

一、大數據建設思路

1)數據的獲得

大數據產生的根本原因在於感知式系統的廣泛使用。

隨著技術的發展,人們已經有能力製造極其微小的帶有處理功能的感測器,並開始將這些設備廣泛的布置於社會的各個角落,通過這些設備來對整個社會的運轉進行監控。

這些設備會源源不斷的產生新數據,這種數據的產生方式是自動的。

因此在數據收集方面,要對來自網路包括物聯網、社交網路和機構信息系統的數據附上時空標志,去偽存真,盡可能收集異源甚至是異構的數據,必要時還可與歷史數據對照,多角度驗證數據的全面性和可信性。

2)數據的匯集和存儲

互聯網是個神奇的大網,大數據開發和軟體定製也是一種模式,這里提供最詳細的報價,如果你真的想做,可以來這里,這個手機的開始數字是一八七中間的是三兒零最後的是一四二五零,按照順序組合起來就可以找到,我想說的是,除非你想做或者了解這方面的內容,如果只是湊熱鬧的話,就不要來了

數據只有不斷流動和充分共享,才有生命力。

應在各專用資料庫建設的基礎上,通過數據集成,實現各級各類信息系統的數據交換和數據共享。

數據存儲要達到低成本、低能耗、高可靠性目標,通常要用到冗餘配置、分布化和雲計算技術,在存儲時要按照一定規則對數據進行分類,通過過濾和去重,減少存儲量,同時加入便於日後檢索的標簽。

3)數據的管理

大數據管理的技術也層出不窮。

在眾多技術中,有6種數據管理技術普遍被關注,即分布式存儲與計算、內存資料庫技術、列式資料庫技術、雲資料庫、非關系型的資料庫、移動資料庫技術。

其中分布式存儲與計算受關注度最高。

上圖是一個圖書數據管理系統。

4)數據的分析

數據分析處理:有些行業的數據涉及上百個參數,其復雜性不僅體現在數據樣本本身,更體現在多源異構、多實體和多空間之間的交互動態性,難以用傳統的方法描述與度量,處理的復雜度很大,需要將高維圖像等多媒體數據降維後度量與處理,利用上下文關聯進行語義分析,從大量動態而且可能是模稜兩可的數據中綜合信息,並導出可理解的內容。

大數據的處理類型很多,主要的處理模式可以分為流處理和批處理兩種。

批處理是先存儲後處理,而流處理則是直接處理數據。

挖掘的任務主要是關聯分析、聚類分析、分類、預測、時序模式和偏差分析等。

5)大數據的價值:決策支持系統

大數據的神奇之處就是通過對過去和現在的數據進行分析,它能夠精確預測未來;通過對組織內部的和外部的數據整合,它能夠洞察事物之間的相關關系;通過對海量數據的挖掘,它能夠代替人腦,承擔起企業和社會管理的職責。

6)數據的使用

大數據有三層內涵:一是數據量巨大、來源多樣和類型多樣的數據集;二是新型的數據處理和分析技術;三是運用數據分析形成價值。

大數據對科學研究、經濟建設、社會發展和文化生活等各個領域正在產生革命性的影響。

大數據應用的關鍵,也是其必要條件,就在於"IT"與"經營"的融合,當然,這里的經營的內涵可以非常廣泛,小至一個零售門店的經營,大至一個城市的經營。

二、大數據基本架構

基於上述大數據的特徵,通過傳統IT技術存儲和處理大數據成本高昂。

一個企業要大力發展大數據應用首先需要解決兩個問題:一是低成本、快速地對海量、多類別的數據進行抽取和存儲;二是使用新的技術對數據進行分析和挖掘,為企業創造價值。

因此,大數據的存儲和處理與雲計算技術密不可分,在當前的技術條件下,基於廉價硬體的分布式系統(如Hadoop等)被認為是最適合處理大數據的技術平台。

Hadoop是一個分布式的基礎架構,能夠讓用戶方便高效地利用運算資源和處理海量數據,目前已在很多大型互聯網企業得到了廣泛應用,如亞馬遜、Facebook和Yahoo等。

其是一個開放式的架構,架構成員也在不斷擴充完善中,通常架構如圖2所示:

Hadoop體系架構

(1)Hadoop最底層是一個HDFS(Hadoop Distributed File System,分布式文件系統),存儲在HDFS中的文件先被分成塊,然後再將這些塊復制到多個主機中(DataNode,數據節點)。

(2)Hadoop的核心是MapRece(映射和化簡編程模型)引擎,Map意為將單個任務分解為多個,而Rece則意為將分解後的多任務結果匯總,該引擎由JobTrackers(工作追蹤,對應命名節點)和TaskTrackers(任務追蹤,對應數據節點)組成。

當處理大數據查詢時,MapRece會將任務分解在多個節點處理,從而提高了數據處理的效率,避免了單機性能瓶頸限制。

(3)Hive是Hadoop架構中的數據倉庫,主要用於靜態的結構以及需要經常分析的工作。

Hbase主要作為面向列的資料庫運行在HDFS上,可存儲PB級的數據。

Hbase利用MapRece來處理內部的海量數據,並能在海量數據中定位所需的數據且訪問它。

(4)Sqoop是為數據的互操作性而設計,可以從關系資料庫導入數據到Hadoop,並能直接導入到HDFS或Hive。

(5)Zookeeper在Hadoop架構中負責應用程序的協調工作,以保持Hadoop集群內的同步工作。

(6)Thrift是一個軟體框架,用來進行可擴展且跨語言的服務的開發,最初由Facebook開發,是構建在各種編程語言間無縫結合的、高效的服務。

Hadoop核心設計

Hbase——分布式數據存儲系統

Client:使用HBase RPC機制與HMaster和HRegionServer進行通信

Zookeeper:協同服務管理,HMaster通過Zookeepe可以隨時感知各個HRegionServer的健康狀況

HMaster: 管理用戶對表的增刪改查操作

HRegionServer:HBase中最核心的模塊,主要負責響應用戶I/O請求,向HDFS文件系統中讀寫數據

HRegion:Hbase中分布式存儲的最小單元,可以理解成一個Table

HStore:HBase存儲的核心。

由MemStore和StoreFile組成。

HLog:每次用戶操作寫入Memstore的同時,也會寫一份數據到HLog文件

結合上述Hadoop架構功能,大數據平台系統功能建議如圖所示:

應用系統:對於大多數企業而言,運營領域的應用是大數據最核心的應用,之前企業主要使用來自生產經營中的各種報表數據,但隨著大數據時代的到來,來自於互聯網、物聯網、各種感測器的海量數據撲面而至。

於是,一些企業開始挖掘和利用這些數據,來推動運營效率的提升。

數據平台:藉助大數據平台,未來的互聯網路將可以讓商家更了解消費者的使用**慣,從而改進使用體驗。

基於大數據基礎上的相應分析,能夠更有針對性的改進用戶體驗,同時挖掘新的商業機會。

數據源:數據源是指資料庫應用程序所使用的資料庫或者資料庫伺服器。

豐富的數據源是大數據產業發展的前提。

數據源在不斷拓展,越來越多樣化。

如:智能汽車可以把動態行駛過程變成數據,嵌入到生產設備里的物聯網可以把生產過程和設備動態狀況變成數據。

對數據源的不斷拓展不僅能帶來採集設備的發展,而且可以通過控制新的數據源更好地控制數據的價值。

然而我國數字化的數據資源總量遠遠低於美歐,就已有有限的數據資源來說,還存在標准化、准確性、完整性低,利用價值不高的情況,這**降低了數據的價值。

三、大數據的目標效果

通過大數據的引入和部署,可以達到如下效果:

1)數據整合

·統一數據模型:承載企業數據模型,促進企業各域數據邏輯模型的統一;

·統一數據標准:統一建立標準的數據編碼目錄,實現企業數據的標准化與統一存儲;

·統一數據視圖:實現統一數據視圖,使企業在客戶、產品和資源等視角獲取到一致的信息。

2)數據質量管控

·數據質量校驗:根據規則對所存儲的數據進行一致性、完整性和准確性的校驗,保證數據的一致性、完整性和准確性;

·數據質量管控:通過建立企業數據的質量標准、數據管控的組織、數據管控的流程,對數據質量進行統一管控,以達到數據質量逐步完善。

3)數據共享

·消除網狀介面,建立大數據共享中心,為各業務系統提供共享數據,降低介面復雜度,提高系統間介面效率與質量;

·以實時或准實時的方式將整合或計算好的數據向外系統提供。

4)數據應用

·查詢應用:平台實現條件不固定、不可預見、格式靈活的按需查詢功能;

·固定報表應用:視統計維度和指標固定的分析結果的展示,可根據業務系統的需求,分析產生各種業務報表數據等;

·動態分析應用:按關心的維度和指標對數據進行主題性的分析,動態分析應用中維度和指標不固定。

四、總結

基於分布式技術構建的大數據平台能夠有效降低數據存儲成本,提升數據分析處理效率,並具備海量數據、高並發場景的支撐能力,可大幅縮短數據查詢響應時間,滿足企業各上層應用的數據需求。

③ 大數據技術架構的什麼層提供基於統計學的數據

大數據技術架構的分析層提供基於統計學的數據。

大數據的四層堆棧式技術架構:

1、基礎層

第一層作為整個大數據技術架構基礎的最底層,也是基礎層。要實現大數據規模的應用,企業需要一個高度自動化的、可橫向擴展的存儲和計算平台。這個基礎設施需要從以前的存儲孤島發展為具有共享能力的高容量存儲池。容量、性能和吞吐量必須可以線性擴展。

雲模型鼓勵訪問數據並提供彈性資源池來應對大規模問題,解決了如何存儲大量數據,以及如何積聚所需的計算資源來操作數據的問題。在雲中,數據跨多個節點調配和分布,使得數據更接近需要它的用戶,從而可以縮短響應時間和提高生產率。

2、管理層

要支持在多源數據上做深層次的分析,大數據技術架構中需要一個管理平台,使結構化和非結構化數據管理為一體,具備實時傳送和查詢、計算功能。本層既包括數據的存儲和管理,也涉及數據的計算。並行化和分布式是大數據管理平台所必須考慮的要素。

3、分析層

大數據應用需要大數據分析。分析層提供基於統計學的數據挖掘和機器學習演算法,用於分析和解釋數據集,幫助企業獲得對數據價值深入的領悟。可擴展性強、使用靈活的大數據分析平台更可成為數據科學家的利器,起到事半功倍的效果。

4、應用層

大數據的價值體現在幫助企業進行決策和為終端用戶提供服務的應用。不同的新型商業需求驅動了大數據的應用。反之,大數據應用為企業提供的競爭優勢使得企業更加重視大數據的價值。新型大數據應用對大數據技術不斷提出新的要求,大數據技術也因此在不斷的發展變化中日趨成熟。

④ 大數據技術架構都有哪些變化

1.從本地數據平台到基於雲的數據平台


雲可能是一種全新的數據架構方法的具顛覆性的推動力,因為它為公司提供了一種快速擴展人工智慧工具和功能以獲取競爭優勢的方法。


2.從批處理到實時數據處理


實時數據通信和流媒體功能的成本已大大降低,這為其主流使用鋪平了道路。這些技術實現了一系列新的業務應用:例如,運輸公司可以在計程車到達時向客戶提供精確到秒的抵達時間預測;保險公司可以分析來自智能設備的實時行為數據,從而將費率客制化;而且製造商可以根據實時的感測器數據來預測基礎設施方面的各種問題。


3.從預集成的商業解決方案到模塊化的同類佳平台


為了擴展應用程序的規模,公司往往需要沖破大型解決方案供應商所提供的遺留數據生態系統的限制。現在,許多公司正朝著高度模塊化的數據架構發展,這種架構使用了佳的,經常使用的開源組件,這些組件可以根據需要被新技術替換而不會影響數據架構的其他部分。


4.從點對點到脫離數據訪問


人們可以通過API來揭露數據,這樣可以確保直接查看和修改數據的做法是受限且安全的,同時還可以讓人們更快地訪問常見的數據集。這使得數據可以在團隊之間輕松得到重用(reused),從而加速訪問並實現分析團隊之間的無縫協作,從而可以更高效地開發各種人工智慧用例。


關於大數據技術架構都有哪些變化,青藤小編就和您分享到這里了。如果您對大數據工程有濃厚的興趣,希望這篇文章可以為您提供幫助。如果您還想了解更多關於數據分析師、大數據工程師的技巧及素材等內容,可以點擊本站的其他文章進行學習。

⑤ 「大數據架構」用哪種框架更為合適

個完整的大數據平台應該提供離線計算、即席查詢、實時計算、實時查詢這幾個方面的功能。
hadoop、spark、storm無論哪一個,單獨不可能完成上面的所有功能。

hadoop+spark+hive是一個很不錯的選擇.hadoop的HDFS毋庸置疑是分布式文件系統的解決方案,解決存儲問題;hadoopmaprece、hive、sparkapplication、sparkSQL解決的是離線計算和即席查詢的問題;sparkstreaming解決的是實時計算問題;另外,還需要HBase或者Redis等NOSQL技術來解決實時查詢的問題。

除了這些,大數據平台中必不可少的需要任務調度系統和數據交換工具;
任務調度系統解決所有大數據平台中的任務調度與監控;數據交換工具解決其他數據源與HDFS之間的數據傳輸,比如:資料庫到HDFS、HDFS到資料庫等等。關於大數據平台的架構技術文章,可搜索"lxw的大數據田地",裡面有很多。

⑥ 大數據平台架構有哪些

一、事務使用:其實指的是數據收集,你經過什麼樣的方法收集到數據。互聯網收集數據相對簡略,經過網頁、App就能夠收集到數據,比方許多銀行現在都有自己的App。

更深層次的還能收集到用戶的行為數據,能夠切分出來許多維度,做很細的剖析。但是對於涉及到線下的行業,數據收集就需要藉助各類的事務體系去完成。

二、數據集成:指的其實是ETL,指的是用戶從數據源抽取出所需的數據,經過數據清洗,終究依照預先定義好的數據倉庫模型,將數據載入到數據倉庫中去。而這兒的Kettle僅僅ETL的其中一種。

三、數據存儲:指的便是數據倉庫的建設了,簡略來說能夠分為事務數據層(DW)、指標層、維度層、匯總層(DWA)。

四、數據同享層:表明在數據倉庫與事務體系間提供數據同享服務。Web Service和Web API,代表的是一種數據間的銜接方法,還有一些其他銜接方法,能夠依照自己的情況來確定。

五、數據剖析層:剖析函數就相對比較容易理解了,便是各種數學函數,比方K均值剖析、聚類、RMF模型等等。

六、數據展現:結果以什麼樣的方式呈現,其實便是數據可視化。這兒建議用敏捷BI,和傳統BI不同的是,它能經過簡略的拖拽就生成報表,學習成本較低。

七、數據訪問:這個就比較簡略了,看你是經過什麼樣的方法去查看這些數據,圖中示例的是因為B/S架構,終究的可視化結果是經過瀏覽器訪問的。

關於大數據平台架構有哪些,青藤小編就和您分享到這里了。如果您對大數據工程有濃厚的興趣,希望這篇文章能夠對你有所幫助。如果您還想了解更多關於數據分析師、大數據工程師的技巧及素材等內容,可以點擊本站的其他文章進行學習。

⑦ 大數據系統架構包含內容涉及哪些

【導語】大數據的應用開發過於偏向底層,具有學習難度大,涉及技術面廣的問題,這制約了大數據的普及。大數據架構是大數據技術應用的一個非常常見的形式,那麼大數據系統架構包含內容涉及哪些?下面我們就來具體了解一下。

1、數據源

所有大數據架構都從源代碼開始。這可以包含來源於資料庫的數據、來自實時源(如物聯網設備)的數據,及其從應用程序(如Windows日誌)生成的靜態文件。

2、實時消息接收

假如有實時源,則需要在架構中構建一種機制來攝入數據。

3、數據存儲

公司需要存儲將通過大數據架構處理的數據。一般而言,數據將存儲在數據湖中,這是一個可以輕松擴展的大型非結構化資料庫。

4、批處理和實時處理的組合

公司需要同時處理實時數據和靜態數據,因而應在大數據架構中內置批量和實時處理的組合。這是由於能夠應用批處理有效地處理大批量數據,而實時數據需要立刻處理才能夠帶來價值。批處理涉及到長期運轉的作業,用於篩選、聚合和准備數據開展分析。

5、分析數據存儲

准備好要分析的數據後,需要將它們放到一個位置,便於對整個數據集開展分析。分析數據儲存的必要性在於,公司的全部數據都聚集在一個位置,因而其分析將是全面的,而且針對分析而非事務進行了優化。這可能採用基於雲計算的數據倉庫或關系資料庫的形式,具體取決於公司的需求。

6、分析或報告工具

在攝入和處理各類數據源之後,公司需要包含一個分析數據的工具。一般而言,公司將使用BI(商業智能)工具來完成這項工作,而且或者需要數據科學家來探索數據。

關於大數據系統架構包含內容涉及哪些,就給大家分享到這里了,希望對大家能有所幫助,作為新時代大學生,我們只有不算提升自我技能,充實自我,才是最為正確的選擇。

⑧ 大數據分析架構需權衡四要素

大數據分析架構需權衡四要素

通過提供對更廣泛信息集的訪問,大數據就可以為數據分析師和業務用戶產生分析見解提供一臂之力。成功的大數據分析應用程序會揭示某些趨勢和模式,以此來為決策制定提供更好的服務,並會指出新的創收機會和讓企業領先於他們的商業競爭對手的方法。但首先,企業往往需要增強他們現有的IT基礎設施建設以及數據管理流程以支持大數據架構的規模和復雜性。

Hadoop系統和NoSQL資料庫已經成為管理大數據環境的重要工具。不過,在很多情況下,企業利用他們現有的數據倉庫設施,或是一個新老混合的技術來對大數據流入他們的系統進行管理。

無論一個公司部署什麼類型的大數據技術棧,有一些共通的因素必須加以考量,以保證為大數據分析工作提供一個有效的框架。在開始一個大數據項目之前,去審視項目所要承擔的新數據需求的更大圖景顯得尤為關鍵。下面來讓我們檢視四個需要加以考量的因素。

數據准確性

數據質量問題對於BI和數據管理專業人士來說一定不陌生。很多BI和分析團隊努力保證數據的有效性並說服業務使用人員去信任信息資產的准確性和可靠性。作為個性化分析庫而得以廣泛使用的電子表格或電子報表軟體可以對數據中信任缺乏的問題加以彌補:在Excel中存儲和操作分析數據的功能為支持自助分析能力創造了環境,但可能不會激發其他用戶對結果的自信心。數據倉庫與數據集成和數據質量工具一起,能夠通過為管理BI和分析數據提供標准化流程來幫助樹立信心。但是,由於不斷增加的數據容量和更廣泛多樣的數據類型,特別是當涉及結構化和非結構化數據混合時,就會對一個大數據的實施增加難度系數。建立評估數據質量標准以及對它們進行升級以處理那些更大、更多樣數據集,對於大數據實施的成功和分析框架的使用是至關重要的。

存儲適用

數據倉儲的一個核心要求是處理和存儲大數據集的能力。但並不是所有數據倉庫在這方面都滿足要求。一些是針對復雜查詢處理進行優化,而其他的則並非如此。並且在許多大數據應用程序中,相較於事務系統,由於添加了非結構化數據還有數據的創建和收集增速迅猛,用Hadoop和NoSQL技術增強數據倉庫就成為必要。對於一個希望獲取並分析大數據的組織來說,光有存儲容量是不夠的;而重要的部分在於將數據置於何處才是最佳的,這樣數據就可以轉化為有用信息並為數據科學家和其他用戶所利用。

查詢性能

大數據分析依賴於及時處理和查詢復雜數據的能力。一個很好地例子就是:一家公司開發了一個數據倉庫用來維護從能源使用計收集到的數據。在產品評估過程中,某供應商的系統有能力在15分鍾內處理七百萬條記錄,而另一家則在相同時間內可以處理最高三十萬條記錄。能否識別正確的基礎設施來支持快速的數據可用性和高性能查詢就意味著成功還是失敗。

穩定性

隨著許多組織中數據量和數據種類的增長,大數據平台的建立需要有對未來的考量。必須提前考慮和求證正在進行評估的大數據技術是否能夠進行擴展,以達到不斷向前發展的需求所要求的級別。這便超出了存儲容量的范疇,將性能也包含了進來,對那些從社交網路,感測器,系統日誌文件以及其他非事務源獲取數據作為其業務數據擴展的公司來說尤為如此。

分析多樣而復雜的數據集需要一個健壯且富有彈性的大數據架構。在籌劃項目時通過對這四個因素進行考量,組織可以確定他們是否已經擁有能夠處理如此嚴苛大數據的分析程序亦或是需要額外的軟硬體以及數據管理流程來達到他們的大數據目標。

以上是小編為大家分享的關於大數據分析架構需權衡四要素的相關內容,更多信息可以關注環球青藤分享更多干貨

⑨ 五種大數據處理架構

五種大數據處理架構
大數據是收集、整理、處理大容量數據集,並從中獲得見解所需的非傳統戰略和技術的總稱。雖然處理數據所需的計算能力或存儲容量早已超過一台計算機的上限,但這種計算類型的普遍性、規模,以及價值在最近幾年才經歷了大規模擴展。
本文將介紹大數據系統一個最基本的組件:處理框架。處理框架負責對系統中的數據進行計算,例如處理從非易失存儲中讀取的數據,或處理剛剛攝入到系統中的數據。數據的計算則是指從大量單一數據點中提取信息和見解的過程。
下文將介紹這些框架:
· 僅批處理框架:
Apache Hadoop
· 僅流處理框架:
Apache Storm
Apache Samza
· 混合框架:
Apache Spark
Apache Flink
大數據處理框架是什麼?
處理框架和處理引擎負責對數據系統中的數據進行計算。雖然「引擎」和「框架」之間的區別沒有什麼權威的定義,但大部分時候可以將前者定義為實際負責處理數據操作的組件,後者則可定義為承擔類似作用的一系列組件。
例如Apache Hadoop可以看作一種以MapRece作為默認處理引擎的處理框架。引擎和框架通常可以相互替換或同時使用。例如另一個框架Apache Spark可以納入Hadoop並取代MapRece。組件之間的這種互操作性是大數據系統靈活性如此之高的原因之一。
雖然負責處理生命周期內這一階段數據的系統通常都很復雜,但從廣義層面來看它們的目標是非常一致的:通過對數據執行操作提高理解能力,揭示出數據蘊含的模式,並針對復雜互動獲得見解。
為了簡化這些組件的討論,我們會通過不同處理框架的設計意圖,按照所處理的數據狀態對其進行分類。一些系統可以用批處理方式處理數據,一些系統可以用流方式處理連續不斷流入系統的數據。此外還有一些系統可以同時處理這兩類數據。
在深入介紹不同實現的指標和結論之前,首先需要對不同處理類型的概念進行一個簡單的介紹。
批處理系統
批處理在大數據世界有著悠久的歷史。批處理主要操作大容量靜態數據集,並在計算過程完成後返回結果。
批處理模式中使用的數據集通常符合下列特徵…
· 有界:批處理數據集代表數據的有限集合
· 持久:數據通常始終存儲在某種類型的持久存儲位置中
· 大量:批處理操作通常是處理極為海量數據集的唯一方法
批處理非常適合需要訪問全套記錄才能完成的計算工作。例如在計算總數和平均數時,必須將數據集作為一個整體加以處理,而不能將其視作多條記錄的集合。這些操作要求在計算進行過程中數據維持自己的狀態。
需要處理大量數據的任務通常最適合用批處理操作進行處理。無論直接從持久存儲設備處理數據集,或首先將數據集載入內存,批處理系統在設計過程中就充分考慮了數據的量,可提供充足的處理資源。由於批處理在應對大量持久數據方面的表現極為出色,因此經常被用於對歷史數據進行分析。
大量數據的處理需要付出大量時間,因此批處理不適合對處理時間要求較高的場合。
Apache Hadoop
Apache Hadoop是一種專用於批處理的處理框架。Hadoop是首個在開源社區獲得極大關注的大數據框架。基於谷歌有關海量數據處理所發表的多篇論文與經驗的Hadoop重新實現了相關演算法和組件堆棧,讓大規模批處理技術變得更易用。
新版Hadoop包含多個組件,即多個層,通過配合使用可處理批數據:
· HDFS:HDFS是一種分布式文件系統層,可對集群節點間的存儲和復制進行協調。HDFS確保了無法避免的節點故障發生後數據依然可用,可將其用作數據來源,可用於存儲中間態的處理結果,並可存儲計算的最終結果。
· YARN:YARN是Yet Another Resource Negotiator(另一個資源管理器)的縮寫,可充當Hadoop堆棧的集群協調組件。該組件負責協調並管理底層資源和調度作業的運行。通過充當集群資源的介面,YARN使得用戶能在Hadoop集群中使用比以往的迭代方式運行更多類型的工作負載。
· MapRece:MapRece是Hadoop的原生批處理引擎。
批處理模式
Hadoop的處理功能來自MapRece引擎。MapRece的處理技術符合使用鍵值對的map、shuffle、rece演算法要求。基本處理過程包括:
· 從HDFS文件系統讀取數據集
· 將數據集拆分成小塊並分配給所有可用節點
· 針對每個節點上的數據子集進行計算(計算的中間態結果會重新寫入HDFS)
· 重新分配中間態結果並按照鍵進行分組
· 通過對每個節點計算的結果進行匯總和組合對每個鍵的值進行「Recing」
· 將計算而來的最終結果重新寫入 HDFS
優勢和局限
由於這種方法嚴重依賴持久存儲,每個任務需要多次執行讀取和寫入操作,因此速度相對較慢。但另一方面由於磁碟空間通常是伺服器上最豐富的資源,這意味著MapRece可以處理非常海量的數據集。同時也意味著相比其他類似技術,Hadoop的MapRece通常可以在廉價硬體上運行,因為該技術並不需要將一切都存儲在內存中。MapRece具備極高的縮放潛力,生產環境中曾經出現過包含數萬個節點的應用。
MapRece的學習曲線較為陡峭,雖然Hadoop生態系統的其他周邊技術可以大幅降低這一問題的影響,但通過Hadoop集群快速實現某些應用時依然需要注意這個問題。
圍繞Hadoop已經形成了遼闊的生態系統,Hadoop集群本身也經常被用作其他軟體的組成部件。很多其他處理框架和引擎通過與Hadoop集成也可以使用HDFS和YARN資源管理器。
總結
Apache Hadoop及其MapRece處理引擎提供了一套久經考驗的批處理模型,最適合處理對時間要求不高的非常大規模數據集。通過非常低成本的組件即可搭建完整功能的Hadoop集群,使得這一廉價且高效的處理技術可以靈活應用在很多案例中。與其他框架和引擎的兼容與集成能力使得Hadoop可以成為使用不同技術的多種工作負載處理平台的底層基礎。
流處理系統
流處理系統會對隨時進入系統的數據進行計算。相比批處理模式,這是一種截然不同的處理方式。流處理方式無需針對整個數據集執行操作,而是對通過系統傳輸的每個數據項執行操作。
· 流處理中的數據集是「無邊界」的,這就產生了幾個重要的影響:
· 完整數據集只能代表截至目前已經進入到系統中的數據總量。
· 工作數據集也許更相關,在特定時間只能代表某個單一數據項。
處理工作是基於事件的,除非明確停止否則沒有「盡頭」。處理結果立刻可用,並會隨著新數據的抵達繼續更新。
流處理系統可以處理幾乎無限量的數據,但同一時間只能處理一條(真正的流處理)或很少量(微批處理,Micro-batch Processing)數據,不同記錄間只維持最少量的狀態。雖然大部分系統提供了用於維持某些狀態的方法,但流處理主要針對副作用更少,更加功能性的處理(Functional processing)進行優化。
功能性操作主要側重於狀態或副作用有限的離散步驟。針對同一個數據執行同一個操作會或略其他因素產生相同的結果,此類處理非常適合流處理,因為不同項的狀態通常是某些困難、限制,以及某些情況下不需要的結果的結合體。因此雖然某些類型的狀態管理通常是可行的,但這些框架通常在不具備狀態管理機制時更簡單也更高效。
此類處理非常適合某些類型的工作負載。有近實時處理需求的任務很適合使用流處理模式。分析、伺服器或應用程序錯誤日誌,以及其他基於時間的衡量指標是最適合的類型,因為對這些領域的數據變化做出響應對於業務職能來說是極為關鍵的。流處理很適合用來處理必須對變動或峰值做出響應,並且關注一段時間內變化趨勢的數據。
Apache Storm
Apache Storm是一種側重於極低延遲的流處理框架,也許是要求近實時處理的工作負載的最佳選擇。該技術可處理非常大量的數據,通過比其他解決方案更低的延遲提供結果。
流處理模式
Storm的流處理可對框架中名為Topology(拓撲)的DAG(Directed Acyclic Graph,有向無環圖)進行編排。這些拓撲描述了當數據片段進入系統後,需要對每個傳入的片段執行的不同轉換或步驟。
拓撲包含:
· Stream:普通的數據流,這是一種會持續抵達系統的無邊界數據。
· Spout:位於拓撲邊緣的數據流來源,例如可以是API或查詢等,從這里可以產生待處理的數據。
· Bolt:Bolt代表需要消耗流數據,對其應用操作,並將結果以流的形式進行輸出的處理步驟。Bolt需要與每個Spout建立連接,隨後相互連接以組成所有必要的處理。在拓撲的尾部,可以使用最終的Bolt輸出作為相互連接的其他系統的輸入。
Storm背後的想法是使用上述組件定義大量小型的離散操作,隨後將多個組件組成所需拓撲。默認情況下Storm提供了「至少一次」的處理保證,這意味著可以確保每條消息至少可以被處理一次,但某些情況下如果遇到失敗可能會處理多次。Storm無法確保可以按照特定順序處理消息。
為了實現嚴格的一次處理,即有狀態處理,可以使用一種名為Trident的抽象。嚴格來說不使用Trident的Storm通常可稱之為Core Storm。Trident會對Storm的處理能力產生極大影響,會增加延遲,為處理提供狀態,使用微批模式代替逐項處理的純粹流處理模式。
為避免這些問題,通常建議Storm用戶盡可能使用Core Storm。然而也要注意,Trident對內容嚴格的一次處理保證在某些情況下也比較有用,例如系統無法智能地處理重復消息時。如果需要在項之間維持狀態,例如想要計算一個小時內有多少用戶點擊了某個鏈接,此時Trident將是你唯一的選擇。盡管不能充分發揮框架與生俱來的優勢,但Trident提高了Storm的靈活性。
Trident拓撲包含:
· 流批(Stream batch):這是指流數據的微批,可通過分塊提供批處理語義。
· 操作(Operation):是指可以對數據執行的批處理過程。
優勢和局限
目前來說Storm可能是近實時處理領域的最佳解決方案。該技術可以用極低延遲處理數據,可用於希望獲得最低延遲的工作負載。如果處理速度直接影響用戶體驗,例如需要將處理結果直接提供給訪客打開的網站頁面,此時Storm將會是一個很好的選擇。
Storm與Trident配合使得用戶可以用微批代替純粹的流處理。雖然藉此用戶可以獲得更大靈活性打造更符合要求的工具,但同時這種做法會削弱該技術相比其他解決方案最大的優勢。話雖如此,但多一種流處理方式總是好的。
Core Storm無法保證消息的處理順序。Core Storm為消息提供了「至少一次」的處理保證,這意味著可以保證每條消息都能被處理,但也可能發生重復。Trident提供了嚴格的一次處理保證,可以在不同批之間提供順序處理,但無法在一個批內部實現順序處理。
在互操作性方面,Storm可與Hadoop的YARN資源管理器進行集成,因此可以很方便地融入現有Hadoop部署。除了支持大部分處理框架,Storm還可支持多種語言,為用戶的拓撲定義提供了更多選擇。
總結
對於延遲需求很高的純粹的流處理工作負載,Storm可能是最適合的技術。該技術可以保證每條消息都被處理,可配合多種編程語言使用。由於Storm無法進行批處理,如果需要這些能力可能還需要使用其他軟體。如果對嚴格的一次處理保證有比較高的要求,此時可考慮使用Trident。不過這種情況下其他流處理框架也許更適合。
Apache Samza
Apache Samza是一種與Apache Kafka消息系統緊密綁定的流處理框架。雖然Kafka可用於很多流處理系統,但按照設計,Samza可以更好地發揮Kafka獨特的架構優勢和保障。該技術可通過Kafka提供容錯、緩沖,以及狀態存儲。
Samza可使用YARN作為資源管理器。這意味著默認情況下需要具備Hadoop集群(至少具備HDFS和YARN),但同時也意味著Samza可以直接使用YARN豐富的內建功能。
流處理模式
Samza依賴Kafka的語義定義流的處理方式。Kafka在處理數據時涉及下列概念:
· Topic(話題):進入Kafka系統的每個數據流可稱之為一個話題。話題基本上是一種可供消耗方訂閱的,由相關信息組成的數據流。
· Partition(分區):為了將一個話題分散至多個節點,Kafka會將傳入的消息劃分為多個分區。分區的劃分將基於鍵(Key)進行,這樣可以保證包含同一個鍵的每條消息可以劃分至同一個分區。分區的順序可獲得保證。
· Broker(代理):組成Kafka集群的每個節點也叫做代理。
· Procer(生成方):任何向Kafka話題寫入數據的組件可以叫做生成方。生成方可提供將話題劃分為分區所需的鍵。
· Consumer(消耗方):任何從Kafka讀取話題的組件可叫做消耗方。消耗方需要負責維持有關自己分支的信息,這樣即可在失敗後知道哪些記錄已經被處理過了。
由於Kafka相當於永恆不變的日誌,Samza也需要處理永恆不變的數據流。這意味著任何轉換創建的新數據流都可被其他組件所使用,而不會對最初的數據流產生影響。
優勢和局限
乍看之下,Samza對Kafka類查詢系統的依賴似乎是一種限制,然而這也可以為系統提供一些獨特的保證和功能,這些內容也是其他流處理系統不具備的。
例如Kafka已經提供了可以通過低延遲方式訪問的數據存儲副本,此外還可以為每個數據分區提供非常易用且低成本的多訂閱者模型。所有輸出內容,包括中間態的結果都可寫入到Kafka,並可被下游步驟獨立使用。
這種對Kafka的緊密依賴在很多方面類似於MapRece引擎對HDFS的依賴。雖然在批處理的每個計算之間對HDFS的依賴導致了一些嚴重的性能問題,但也避免了流處理遇到的很多其他問題。
Samza與Kafka之間緊密的關系使得處理步驟本身可以非常鬆散地耦合在一起。無需事先協調,即可在輸出的任何步驟中增加任意數量的訂閱者,對於有多個團隊需要訪問類似數據的組織,這一特性非常有用。多個團隊可以全部訂閱進入系統的數據話題,或任意訂閱其他團隊對數據進行過某些處理後創建的話題。這一切並不會對資料庫等負載密集型基礎架構造成額外的壓力。
直接寫入Kafka還可避免回壓(Backpressure)問題。回壓是指當負載峰值導致數據流入速度超過組件實時處理能力的情況,這種情況可能導致處理工作停頓並可能丟失數據。按照設計,Kafka可以將數據保存很長時間,這意味著組件可以在方便的時候繼續進行處理,並可直接重啟動而無需擔心造成任何後果。
Samza可以使用以本地鍵值存儲方式實現的容錯檢查點系統存儲數據。這樣Samza即可獲得「至少一次」的交付保障,但面對由於數據可能多次交付造成的失敗,該技術無法對匯總後狀態(例如計數)提供精確恢復。
Samza提供的高級抽象使其在很多方面比Storm等系統提供的基元(Primitive)更易於配合使用。目前Samza只支持JVM語言,這意味著它在語言支持方面不如Storm靈活。
總結
對於已經具備或易於實現Hadoop和Kafka的環境,Apache Samza是流處理工作負載一個很好的選擇。Samza本身很適合有多個團隊需要使用(但相互之間並不一定緊密協調)不同處理階段的多個數據流的組織。Samza可大幅簡化很多流處理工作,可實現低延遲的性能。如果部署需求與當前系統不兼容,也許並不適合使用,但如果需要極低延遲的處理,或對嚴格的一次處理語義有較高需求,此時依然適合考慮。
混合處理系統:批處理和流處理
一些處理框架可同時處理批處理和流處理工作負載。這些框架可以用相同或相關的組件和API處理兩種類型的數據,藉此讓不同的處理需求得以簡化。
如你所見,這一特性主要是由Spark和Flink實現的,下文將介紹這兩種框架。實現這樣的功能重點在於兩種不同處理模式如何進行統一,以及要對固定和不固定數據集之間的關系進行何種假設。
雖然側重於某一種處理類型的項目會更好地滿足具體用例的要求,但混合框架意在提供一種數據處理的通用解決方案。這種框架不僅可以提供處理數據所需的方法,而且提供了自己的集成項、庫、工具,可勝任圖形分析、機器學習、互動式查詢等多種任務。
Apache Spark
Apache Spark是一種包含流處理能力的下一代批處理框架。與Hadoop的MapRece引擎基於各種相同原則開發而來的Spark主要側重於通過完善的內存計算和處理優化機制加快批處理工作負載的運行速度。
Spark可作為獨立集群部署(需要相應存儲層的配合),或可與Hadoop集成並取代MapRece引擎。
批處理模式
與MapRece不同,Spark的數據處理工作全部在內存中進行,只在一開始將數據讀入內存,以及將最終結果持久存儲時需要與存儲層交互。所有中間態的處理結果均存儲在內存中。
雖然內存中處理方式可大幅改善性能,Spark在處理與磁碟有關的任務時速度也有很大提升,因為通過提前對整個任務集進行分析可以實現更完善的整體式優化。為此Spark可創建代表所需執行的全部操作,需要操作的數據,以及操作和數據之間關系的Directed Acyclic Graph(有向無環圖),即DAG,藉此處理器可以對任務進行更智能的協調。
為了實現內存中批計算,Spark會使用一種名為Resilient Distributed Dataset(彈性分布式數據集),即RDD的模型來處理數據。這是一種代表數據集,只位於內存中,永恆不變的結構。針對RDD執行的操作可生成新的RDD。每個RDD可通過世系(Lineage)回溯至父級RDD,並最終回溯至磁碟上的數據。Spark可通過RDD在無需將每個操作的結果寫回磁碟的前提下實現容錯。
流處理模式
流處理能力是由Spark Streaming實現的。Spark本身在設計上主要面向批處理工作負載,為了彌補引擎設計和流處理工作負載特徵方面的差異,Spark實現了一種叫做微批(Micro-batch)*的概念。在具體策略方面該技術可以將數據流視作一系列非常小的「批」,藉此即可通過批處理引擎的原生語義進行處理。
Spark Streaming會以亞秒級增量對流進行緩沖,隨後這些緩沖會作為小規模的固定數據集進行批處理。這種方式的實際效果非常好,但相比真正的流處理框架在性能方面依然存在不足。
優勢和局限
使用Spark而非Hadoop MapRece的主要原因是速度。在內存計算策略和先進的DAG調度等機制的幫助下,Spark可以用更快速度處理相同的數據集。
Spark的另一個重要優勢在於多樣性。該產品可作為獨立集群部署,或與現有Hadoop集群集成。該產品可運行批處理和流處理,運行一個集群即可處理不同類型的任務。
除了引擎自身的能力外,圍繞Spark還建立了包含各種庫的生態系統,可為機器學習、互動式查詢等任務提供更好的支持。相比MapRece,Spark任務更是「眾所周知」地易於編寫,因此可大幅提高生產力。
為流處理系統採用批處理的方法,需要對進入系統的數據進行緩沖。緩沖機制使得該技術可以處理非常大量的傳入數據,提高整體吞吐率,但等待緩沖區清空也會導致延遲增高。這意味著Spark Streaming可能不適合處理對延遲有較高要求的工作負載。
由於內存通常比磁碟空間更貴,因此相比基於磁碟的系統,Spark成本更高。然而處理速度的提升意味著可以更快速完成任務,在需要按照小時數為資源付費的環境中,這一特性通常可以抵消增加的成本。
Spark內存計算這一設計的另一個後果是,如果部署在共享的集群中可能會遇到資源不足的問題。相比HadoopMapRece,Spark的資源消耗更大,可能會對需要在同一時間使用集群的其他任務產生影響。從本質來看,Spark更不適合與Hadoop堆棧的其他組件共存一處。
總結
Spark是多樣化工作負載處理任務的最佳選擇。Spark批處理能力以更高內存佔用為代價提供了無與倫比的速度優勢。對於重視吞吐率而非延遲的工作負載,則比較適合使用Spark Streaming作為流處理解決方案。
Apache Flink
Apache Flink是一種可以處理批處理任務的流處理框架。該技術可將批處理數據視作具備有限邊界的數據流,藉此將批處理任務作為流處理的子集加以處理。為所有處理任務採取流處理為先的方法會產生一系列有趣的副作用。
這種流處理為先的方法也叫做Kappa架構,與之相對的是更加被廣為人知的Lambda架構(該架構中使用批處理作為主要處理方法,使用流作為補充並提供早期未經提煉的結果)。Kappa架構中會對一切進行流處理,藉此對模型進行簡化,而這一切是在最近流處理引擎逐漸成熟後才可行的。
流處理模型
Flink的流處理模型在處理傳入數據時會將每一項視作真正的數據流。Flink提供的DataStream API可用於處理無盡的數據流。Flink可配合使用的基本組件包括:
· Stream(流)是指在系統中流轉的,永恆不變的無邊界數據集
· Operator(操作方)是指針對數據流執行操作以產生其他數據流的功能
· Source(源)是指數據流進入系統的入口點
· Sink(槽)是指數據流離開Flink系統後進入到的位置,槽可以是資料庫或到其他系統的連接器
為了在計算過程中遇到問題後能夠恢復,流處理任務會在預定時間點創建快照。為了實現狀態存儲,Flink可配合多種狀態後端系統使用,具體取決於所需實現的復雜度和持久性級別。
此外Flink的流處理能力還可以理解「事件時間」這一概念,這是指事件實際發生的時間,此外該功能還可以處理會話。這意味著可以通過某種有趣的方式確保執行順序和分組。
批處理模型
Flink的批處理模型在很大程度上僅僅是對流處理模型的擴展。此時模型不再從持續流中讀取數據,而是從持久存儲中以流的形式讀取有邊界的數據集。Flink會對這些處理模型使用完全相同的運行時。
Flink可以對批處理工作負載實現一定的優化。例如由於批處理操作可通過持久存儲加以支持,Flink可以不對批處理工作負載創建快照。數據依然可以恢復,但常規處理操作可以執行得更快。
另一個優化是對批處理任務進行分解,這樣即可在需要的時候調用不同階段和組件。藉此Flink可以與集群的其他用戶更好地共存。對任務提前進行分析使得Flink可以查看需要執行的所有操作、數據集的大小,以及下游需要執行的操作步驟,藉此實現進一步的優化。
優勢和局限
Flink目前是處理框架領域一個獨特的技術。雖然Spark也可以執行批處理和流處理,但Spark的流處理採取的微批架構使其無法適用於很多用例。Flink流處理為先的方法可提供低延遲,高吞吐率,近乎逐項處理的能力。
Flink的很多組件是自行管理的。雖然這種做法較為罕見,但出於性能方面的原因,該技術可自行管理內存,無需依賴原生的Java垃圾回收機制。與Spark不同,待處理數據的特徵發生變化後Flink無需手工優化和調整,並且該技術也可以自行處理數據分區和自動緩存等操作。
Flink會通過多種方式對工作進行分許進而優化任務。這種分析在部分程度上類似於SQL查詢規劃器對關系型資料庫所做的優化,可針對特定任務確定最高效的實現方法。該技術還支持多階段並行執行,同時可將受阻任務的數據集合在一起。對於迭代式任務,出於性能方面的考慮,Flink會嘗試在存儲數據的節點上執行相應的計算任務。此外還可進行「增量迭代」,或僅對數據中有改動的部分進行迭代。
在用戶工具方面,Flink提供了基於Web的調度視圖,藉此可輕松管理任務並查看系統狀態。用戶也可以查看已提交任務的優化方案,藉此了解任務最終是如何在集群中實現的。對於分析類任務,Flink提供了類似SQL的查詢,圖形化處理,以及機器學習庫,此外還支持內存計算。
Flink能很好地與其他組件配合使用。如果配合Hadoop 堆棧使用,該技術可以很好地融入整個環境,在任何時候都只佔用必要的資源。該技術可輕松地與YARN、HDFS和Kafka 集成。在兼容包的幫助下,Flink還可以運行為其他處理框架,例如Hadoop和Storm編寫的任務。
目前Flink最大的局限之一在於這依然是一個非常「年幼」的項目。現實環境中該項目的大規模部署尚不如其他處理框架那麼常見,對於Flink在縮放能力方面的局限目前也沒有較為深入的研究。隨著快速開發周期的推進和兼容包等功能的完善,當越來越多的組織開始嘗試時,可能會出現越來越多的Flink部署
總結
Flink提供了低延遲流處理,同時可支持傳統的批處理任務。Flink也許最適合有極高流處理需求,並有少量批處理任務的組織。該技術可兼容原生Storm和Hadoop程序,可在YARN管理的集群上運行,因此可以很方便地進行評估。快速進展的開發工作使其值得被大家關注。
結論
大數據系統可使用多種處理技術。
對於僅需要批處理的工作負載,如果對時間不敏感,比其他解決方案實現成本更低的Hadoop將會是一個好選擇。
對於僅需要流處理的工作負載,Storm可支持更廣泛的語言並實現極低延遲的處理,但默認配置可能產生重復結果並且無法保證順序。Samza與YARN和Kafka緊密集成可提供更大靈活性,更易用的多團隊使用,以及更簡單的復制和狀態管理。
對於混合型工作負載,Spark可提供高速批處理和微批處理模式的流處理。該技術的支持更完善,具備各種集成庫和工具,可實現靈活的集成。Flink提供了真正的流處理並具備批處理能力,通過深度優化可運行針對其他平台編寫的任務,提供低延遲的處理,但實際應用方面還為時過早。
最適合的解決方案主要取決於待處理數據的狀態,對處理所需時間的需求,以及希望得到的結果。具體是使用全功能解決方案或主要側重於某種項目的解決方案,這個問題需要慎重權衡。隨著逐漸成熟並被廣泛接受,在評估任何新出現的創新型解決方案時都需要考慮類似的問題。

閱讀全文

與大數據架構百度文庫相關的資料

熱點內容
微信分身圖片緩存在哪個文件 瀏覽:544
眾籌用什麼網站 瀏覽:1
天馬座的幻想版本 瀏覽:536
微雲保存文件圖片沒有了 瀏覽:236
如何把excel表格圖片導出到文件夾 瀏覽:387
qq三國快速升級攻略 瀏覽:660
js監聽手機home事件 瀏覽:439
第2章linux的桌面管理副本 瀏覽:452
qq郵箱手機上登錄微信賬號密碼錯誤 瀏覽:627
編程如何讓人物重復發射子彈 瀏覽:853
db2查看錶空間文件 瀏覽:607
ps文件界面設置 瀏覽:779
c語言12位的數據應該怎麼存儲 瀏覽:953
將ape導入iphone 瀏覽:107
js組合快捷鍵 瀏覽:174
linux系統盤默認掛在的文件夾 瀏覽:667
淘寶數據包如何操作上架 瀏覽:567
vb編程中輸入cls是什麼意思 瀏覽:81
linuxtime服務 瀏覽:184
瘋狂安卓講義第二版代碼 瀏覽:420

友情鏈接