大數據研究的出現,為企業、研究機構、政府決策提供了新的行之有效思路和手段,想要做好大數據的管理和分析,一些大數據開發工具 的使用是必不可少的,以下是大數據開發過程中常用的工具:
1. Apache Hive
Hive是一個建立在Hadoop上的開源數據倉庫基礎設施,通過Hive可以很容易的進行數據的ETL,對數據進行結構化處理,並對Hadoop上大數據文件進行查詢和處理等。 Hive提供了一種簡單的類似SQL的查詢語言—HiveQL,這為熟悉SQL語言的用戶查詢數據提供了方便。
2. Apache Spark
Apache Spark是Hadoop開源生態系統的新成員。它提供了一個比Hive更快的查詢引擎,因為它依賴於自己的數據處理框架而不是依靠Hadoop的HDFS服務。同時,它還用於事件流處理、實時查詢和機器學習等方面。
3. Jaspersoft BI 套件
Jaspersoft包是一個通過資料庫列生成報表的開源軟體。行業領導者發現Jaspersoft軟體是一流的, 許多企業已經使用它來將SQL表轉化為pdf,,這使每個人都可以在會議上對其進行審議。另外,JasperReports提供了一個連接配置單元來替代HBase。
4. Keen IO
Keen IO是個強大的移動應用分析工具。開發者只需要簡單到一行代碼, 就可以跟蹤他們想要的關於他們應用的任何信息。開發者接下來只需要做一些Dashboard或者查詢的工作就可以了。
5. Mortar Data
Mortar Data是專為開發者打造的Hadoop開發平台,它用Pig和Python的組合替代了MapRece以便開發者能簡單地編寫Hadoop管道(Pipeline)。
6. Placed Analytics
利用腳本語言以及API, PlacedAnalytics能夠提供針對移動和網路應用的詳細用戶行為分析。包括, 用戶使用時間和地理位置信息。 這些可以幫助開發者的應用更好地吸引廣告商, 也可以幫助開發者對自己的應用進行改善。
7. Ingres Corp
它擁有超過一萬客戶而且正在擴增。它通過Vectorwise以及對ParAccel實現了擴展。這些發展分別導致了Actian Vector和Actian Matrix的創建。它有Apache,Cloudera,Hortonworks以及其他發行版本可供選擇。
8. Talend Open Studio
Talend是一個統一的平台,它通過提供一個統一的,跨企業邊界生命周期管理的環境,使數據管理和應用更簡單便捷。這種設計可以幫助企業構建靈活、高性能的企業架構,在次架構下,集成並啟用百分之百開源服務的分布式應用程序變為可能。
9. Cloudera
Cloudera正在努力為開源Hadoop,提供支持,Hadoop可以作為目標數據倉庫,高效的數據平台,或現有數據倉庫的ETL來源。企業規模可以用作集成Hadoop與傳統數據倉庫的基礎。 Cloudera致力於成為數據管理的「重心」。
10. Pentaho Business Analytics
Pentaho的工具可以連接到NoSQL資料庫,有很多內置模塊,可以把它們拖放到一個圖片上, 然後將它們連接起來。
工具的熟練使用可以起到事半功倍的效果,以上僅僅是一些數據開發過程中常用的工具,對於大數據開發人員來說是需要熟練掌握的,當然,大數據開發 過程中也會需要藉助一些其他的工具,這就需要大數據開發人員 具有發現和解決問題的能力,以及養成善於積累的習慣!
❷ 大數據技術領域工具都有哪些
【導讀】關於大數據的業務應用,通過將數據擴展到解決方案,應該關注數據的「結構」和「維度」。那麼,大數據技術領域工具有哪些呢?大數據工程師都在用它們,今天就跟隨小編一起來了解下吧!
1、Hadop
Hadoop誕生於2005年,是雅虎(Yahoo)為解決網路搜索問題而設計的一個項目。由於它的技術效率,後來被Apache軟體基金會作為開源應用程序引入。Hadoop本身不是一個產品,而是一個軟體產品的生態系統,這些軟體產品結合在一起,實現了全面的功能和靈活的大數據分析。從技術上講,Hadoop包括兩個關鍵服務:使用Hadoop分布式文件系統(HDFS)的可靠數據存儲服務和使用MapRece技術的高性能並行數據處理服務。
2、蜂巢
Hive是建立在Hadoop文件系統之上的數據倉庫架構,用於分析和管理存儲在HDFS中的數據。Facebook的誕生和發展是為了應對管理和機器學習Facebook每天產生的大量新社交網路數據的需求。後來,其他公司開始使用和開發Apache
Hive,如Netflix、Amazon等。
3、風暴
Storm是一個主要由Clojure編程語言編寫的分布式計算框架。這家營銷和情報公司由Nathan
Marz和他在BackType的團隊創立,2011年被Twitter收購。Twitter隨後將該項目開源,並將其推廣到GitHub。Storm最終於2014年9月加入Apache孵化器項目,正式成為Apache的頂級項目之一。
關於大數據技術領域工具都有哪些,小編就和您分享到這里了。如果您對大數據工程有濃厚的興趣,希望這篇文章可以為您提供幫助。如果您還想了解更多關於數據分析師、大數據工程師的技巧及素大數據工程師具備能力等內容,可以點擊本站的其他文章進行學習。
❸ 做大數據分析系統Hadoop需要用哪些軟體
1、ApacheMesos
代碼託管地址:ApacheSVN
Mesos提供了高效、跨分布式應用程序和框架的資源隔離和共享,支持Hadoop、MPI、Hypertable、Spark等。
Mesos是Apache孵化器中的一個開源項目,使用ZooKeeper實現容錯復制,使用LinuxContainers來隔離任務,支持多種資源計劃分配(內存和CPU)。提供java、Python和C++APIs來開發新的並行應用程序,提供基於Web的用戶界面來提查看集群狀態。
2、HadoopYARN
代碼託管地址:ApacheSVN
YARN又被稱為MapRece2.0,借鑒Mesos,YARN提出了資源隔離解決方案Container,但是目前尚未成熟,僅僅提供Java虛擬機內存的隔離。
對比MapRece1.x,YARN架構在客戶端上並未做太大的改變,在調用API及介面上還保持大部分的兼容,然而在YARN中,開發人員使用ResourceManager、ApplicationMaster與NodeManager代替了原框架中核心的JobTracker和TaskTracker。其中ResourceManager是一個中心的服務,負責調度、啟動每一個Job所屬的ApplicationMaster,另外還監控ApplicationMaster的存在情況;NodeManager負責Container狀態的維護,並向RM保持心跳。ApplicationMaster負責一個Job生命周期內的所有工作,類似老的框架中JobTracker。
Hadoop上的實時解決方案
前面我們有說過,在互聯網公司中基於業務邏輯需求,企業往往會採用多種計算框架,比如從事搜索業務的公司:網頁索引建立用MapRece,自然語言處理用Spark等。
3、ClouderaImpala
代碼託管地址:GitHub
Impala是由Cloudera開發,一個開源的MassivelyParallelProcessing(MPP)查詢引擎。與Hive相同的元數據、SQL語法、ODBC驅動程序和用戶介面(HueBeeswax),可以直接在HDFS或HBase上提供快速、互動式SQL查詢。Impala是在Dremel的啟發下開發的,第一個版本發布於2012年末。
Impala不再使用緩慢的Hive+MapRece批處理,而是通過與商用並行關系資料庫中類似的分布式查詢引擎(由QueryPlanner、QueryCoordinator和QueryExecEngine三部分組成),可以直接從HDFS或者HBase中用SELECT、JOIN和統計函數查詢數據,從而大大降低了延遲。
4、Spark
代碼託管地址:Apache
Spark是個開源的數據分析集群計算框架,最初由加州大學伯克利分校AMPLab開發,建立於HDFS之上。Spark與Hadoop一樣,用於構建大規模、低延時的數據分析應用。Spark採用Scala語言實現,使用Scala作為應用框架。
Spark採用基於內存的分布式數據集,優化了迭代式的工作負載以及互動式查詢。與Hadoop不同的是,Spark和Scala緊密集成,Scala像管理本地collective對象那樣管理分布式數據集。Spark支持分布式數據集上的迭代式任務,實際上可以在Hadoop文件系統上與Hadoop一起運行(通過YARN、Mesos等實現)。
5、Storm
代碼託管地址:GitHub
Storm是一個分布式的、容錯的實時計算系統,由BackType開發,後被Twitter捕獲。Storm屬於流處理平台,多用於實時計算並更新資料庫。Storm也可被用於「連續計算」(continuouscomputation),對數據流做連續查詢,在計算時就將結果以流的形式輸出給用戶。它還可被用於「分布式RPC」,以並行的方式運行昂貴的運算。
Hadoop上的其它解決方案
就像前文說,基於業務對實時的需求,各個實驗室發明了Storm、Impala、Spark、Samza等流實時處理工具。而本節我們將分享的是實驗室基於性能、兼容性、數據類型研究的開源解決方案,其中包括Shark、Phoenix、ApacheAccumulo、ApacheDrill、ApacheGiraph、ApacheHama、ApacheTez、ApacheAmbari。
6、Shark
代碼託管地址:GitHub
Shark,代表了「HiveonSpark」,一個專為Spark打造的大規模數據倉庫系統,兼容ApacheHive。無需修改現有的數據或者查詢,就可以用100倍的速度執行HiveQL。
Shark支持Hive查詢語言、元存儲、序列化格式及自定義函數,與現有Hive部署無縫集成,是一個更快、更強大的替代方案。
7、Phoenix
代碼託管地址:GitHub
Phoenix是構建在ApacheHBase之上的一個SQL中間層,完全使用Java編寫,提供了一個客戶端可嵌入的JDBC驅動。Phoenix查詢引擎會將SQL查詢轉換為一個或多個HBasescan,並編排執行以生成標準的JDBC結果集。直接使用HBaseAPI、協同處理器與自定義過濾器,對於簡單查詢來說,其性能量級是毫秒,對於百萬級別的行數來說,其性能量級是秒。Phoenix完全託管在GitHub之上。
Phoenix值得關注的特性包括:1,嵌入式的JDBC驅動,實現了大部分的java.sql介面,包括元數據API;2,可以通過多個行鍵或是鍵/值單元對列進行建模;3,DDL支持;4,版本化的模式倉庫;5,DML支持;5,通過客戶端的批處理實現的有限的事務支持;6,緊跟ANSISQL標准。
8、ApacheAccumulo
代碼託管地址:ApacheSVN
ApacheAccumulo是一個可靠的、可伸縮的、高性能、排序分布式的鍵值存儲解決方案,基於單元訪問控制以及可定製的伺服器端處理。使用GoogleBigTable設計思路,基於ApacheHadoop、Zookeeper和Thrift構建。Accumulo最早由NSA開發,後被捐獻給了Apache基金會。
對比GoogleBigTable,Accumulo主要提升在基於單元的訪問及伺服器端的編程機制,後一處修改讓Accumulo可以在數據處理過程中任意點修改鍵值對。
9、ApacheDrill
代碼託管地址:GitHub
本質上,ApacheDrill是GoogleDremel的開源實現,本質是一個分布式的mpp查詢層,支持SQL及一些用於NoSQL和Hadoop數據存儲系統上的語言,將有助於Hadoop用戶實現更快查詢海量數據集的目的。當下Drill還只能算上一個框架,只包含了Drill願景中的初始功能。
Drill的目的在於支持更廣泛的數據源、數據格式及查詢語言,可以通過對PB位元組數據的快速掃描(大約幾秒內)完成相關分析,將是一個專為互動分析大型數據集的分布式系統。
10、ApacheGiraph
代碼託管地址:GitHub
ApacheGiraph是一個可伸縮的分布式迭代圖處理系統,靈感來自BSP(bulksynchronousparallel)和Google的Pregel,與它們區別於則是是開源、基於Hadoop的架構等。
Giraph處理平台適用於運行大規模的邏輯計算,比如頁面排行、共享鏈接、基於個性化排行等。Giraph專注於社交圖計算,被Facebook作為其OpenGraph工具的核心,幾分鍾內處理數萬億次用戶及其行為之間的連接。
11、ApacheHama
代碼託管地址:GitHub
ApacheHama是一個建立在Hadoop上基於BSP(BulkSynchronousParallel)的計算框架,模仿了Google的Pregel。用來處理大規模的科學計算,特別是矩陣和圖計算。集群環境中的系統架構由BSPMaster/GroomServer(ComputationEngine)、Zookeeper(DistributedLocking)、HDFS/HBase(StorageSystems)這3大塊組成。
12、ApacheTez
代碼託管地址:GitHub
ApacheTez是基於HadoopYarn之上的DAG(有向無環圖,DirectedAcyclicGraph)計算框架。它把Map/Rece過程拆分成若干個子過程,同時可以把多個Map/Rece任務組合成一個較大的DAG任務,減少了Map/Rece之間的文件存儲。同時合理組合其子過程,減少任務的運行時間。由Hortonworks開發並提供主要支持。
13、ApacheAmbari
代碼託管地址:ApacheSVN
ApacheAmbari是一個供應、管理和監視ApacheHadoop集群的開源框架,它提供一個直觀的操作工具和一個健壯的HadoopAPI,可以隱藏復雜的Hadoop操作,使集群操作大大簡化,首個版本發布於2012年6月。
ApacheAmbari現在是一個Apache的頂級項目,早在2011年8月,Hortonworks引進Ambari作為ApacheIncubator項目,制定了Hadoop集群極致簡單管理的願景。在兩年多的開發社區顯著成長,從一個小團隊,成長為Hortonworks各種組織的貢獻者。Ambari用戶群一直在穩步增長,許多機構依靠Ambari在其大型數據中心大規模部署和管理Hadoop集群。
目前ApacheAmbari支持的Hadoop組件包括:HDFS、MapRece、Hive、HCatalog、HBase、ZooKeeper、Oozie、Pig及Sqoop。
❹ 大數據處理工具有哪些
互聯網的迅速發展推動信息社會進入到大數據時代,大數據催生了人工智慧,也加速推動了互聯網的演進。再對大數據的應用中,有很多工具大大提高了工作效率,本篇文章將從大數據可視化工具和大數據分析工具分別闡述。
大數據分析工具:
RapidMiner
在世界范圍內,RapidMiner是比較領先的一個數據挖掘的解決方案。很大程度上,RapidMiner有比較先進的技術。RapidMiner數據挖掘的任務涉及了很多的范圍,主要包括可以簡化數據挖掘的過程中一些設計以及評價,還有各類數據藝術。
HPCC
某個國家為了實施信息高速路施行了一個計劃,那就是HPCC。這個計劃總共花費百億美元,主要目的是開發可擴展的一些計算機系統及軟體,以此來開發千兆比特的網路技術,還有支持太位級網路的傳輸性能,進而拓展研究同教育機構與網路連接的能力。
Hadoop
這個軟體框架主要是可伸縮、高效且可靠的進行分布式的處理大量數據。Hadoop相當可靠,它假設了計算元素以及存儲可能失敗,基於此,它為了保證可以重新分布處理失敗的節點,維護很多工作數據的副本。Hadoop可伸縮,是因為它可以對PB級數據進行處理。
Pentaho BI
Pentaho BI和傳統的一些BI產品不一樣,這個框架以流程作為中心,再面向Solution(解決方案)。Pentaho BI的主要目的是集成一系列API、開源軟體以及企業級別的BI產品,便於商務智能的應用開發。自從Pentaho BI出現後,它使得Quartz、Jfree等面向商務智能的這些獨立產品,有效的集成一起,再構成完整且復雜的一項項商務智能的解決方案。
大數據可視化工具:
Excel2016
Excel作為一個入門級工具,是快速分析數據的理想工具,也能創建供內部使用的數據圖,但是Excel在顏色、線條和樣式上課選擇的范圍有限,這也意味著用Excel很難製作出能符合專業出版物和網站需要的數據圖。
SPSS 22
SPSS 22版本有強大的統計圖製作功能,它不但可以繪制各種常用的統計圖乃至復雜的3D視圖,而且能夠由製作者自定義顏色,線條,文字等,使制圖變得豐富多彩,善心悅目。
Modest Maps
Modest Maps是一個輕量級、可擴展的、可定製的和免費的地圖顯示類庫,這個類庫能幫助開發人員在他們自己的項目里能夠與地圖進行交互。
Raw
Raw局域非常流行的D3.js庫開發,支持很多圖表類型,例如泡泡圖、映射圖、環圖等。它可以使數據集在途、復制、粘貼、拖曳、刪除於一體,並且允許我們定製化試圖和層次。
R語言
R語言是主要用於統計分析、繪圖的語言和操作環境。雖然R主要用於統計分析或者開發統計相關的軟體,但也有用作矩陣計算。其分析速度可比美GNUOctave甚至商業軟體MATLAB。
❺ 大數據分析一般用什麼工具分析_大數據的分析工具主要有哪些
在大數據處理分析過程中常用的六大工具:
1、Hadoop
Hadoop是一個能夠對大量數據進行分布式處理的軟體框架。但是Hadoop是以一種可靠、高效、可伸縮的方式進行處理的。Hadoop是可靠的,因為它假設計算元素和存儲會失敗,因此它維護多個工作數據副本,確保能夠針對失敗的節點重新分布處理。Hadoop是高效的,因為它以並行的方式工作,通過並行處理加快處理速度。Hadoop還是可伸縮的,能夠處理PB級數據。此外,Hadoop依賴於社區伺服器,因此它的成本比較低,任何人都可以使用。
2、HPCC
HPCC,HighPerformanceComputingand(高性能計算與通信)的縮寫。1993年,由美國科學、工程、技術聯邦協調理事會向國會提交了「重大挑戰項目:高性能計算與通信」的報告,也就是被稱為HPCC計劃的報告,即美國總統科學戰略項目,其目的是通過加強研究與開發解決一批重要的科學與技術挑戰問題。HPCC是美國實施信息高速公路而上實施的指槐蘆計劃,該計劃的實施將耗資百億美元,其主要目標要達到:開發可擴展的計算系統及相關軟體,以支持太位級網路傳輸性能,開發千兆比特網路技術,擴展研究和教育機構及網路連接能力。
3、Storm
Storm是自由的開源軟體,一個分布式的、容錯的實時計算系統。Storm可以非常可靠的處理龐大的數據流,用於處理Hadoop的批量數據。Storm很簡單,支持許多種編程語言,使用起來非常有趣明余。
4、ApacheDrill
為了幫助企業用戶尋找更為有效、加快Hadoop數據查詢的方法,Apache軟體基金會近日發起了一項名為「Drill」的開源項目。ApacheDrill實現了Google'sDremel.
據Hadoop廠商MapR公司產品經理TomerShiran介紹,「Drill」已經作為Apache孵化器項目來運作,將面向全球軟體工程師持續推廣。
5、RapidMiner
RapidMiner是世界領先的數據挖掘解決方案,在一個非常大的程度上有著先進技術。它數據挖掘任務涉及范圍廣泛,包括各種數據藝術,能簡化數據挖掘過程的設計和評價。
6、PentahoBI
PentahoBI平台不同於傳統的BI產品,它是一個以流程為中心的,面向解決方案(Solution)的框架。其目的在於將一系列企業級BI產品、開源軟體、API等等組件集成起來,方便商務智能應用的開發。它的出現,使得一系列的面向商務智能的獨立產品如Jfree、Quartz等等,能夠集成在一起,構成一項項復雜的、完整的商務智能解決方案。
1、大數據是一個含義廣泛的術語,是指數據集,如此龐大而復雜的,他們需要專門設計的硬體和軟體工具進行處理。該數據集通常是萬億或EB的大小。
2、這些數據集收集自各種各樣的來源:
a、感測器、氣候信息、公開的信息、如雜志、報紙、文章。
b、大數據產生的其他例子包括購買交易記錄、網路日誌、病歷、事監控、視頻和圖像檔案、及大型電子商務。
c、大數據分析是在研究大量的數據的過程中尋找模式,相關性和其他唯帶有用的信息,可以幫助企業更好地適應變化,並做出更明智的決策。
❻ 請問大數據開發工具有哪些
你好,目前大數據常用的工具有Apache Hadoop、Apache Spark、Apache Storm、Apache Cassandra、Apache Kafka等等。下面分別介紹一下這幾種工具:
Hadoop用於存儲過程和分析大數據。Hadoop 是用 Java 編寫的。Apache Hadoop 支持並行處理數據,因為它同時在多台機器上工作。它使用集群架構。集群是一組通過 LAN 連接的系統。Apache Hadoop是大數據行業中最常用的工具之一
Apache Spark可以被認為是 Hadoop 的繼承者,因為它克服了它的缺點。Spark 與 Hadoop 不同,它同時支持實時和批處理。它是一個通用的集群系統。它還支持內存計算,比 Hadoop 快 100 倍。這可以通過減少對磁碟的讀/寫操作次數來實現
Apache Storm 是一個開源的大數據工具,分布式實時和容錯處理系統。它有效地處理無限的數據流。通過無界流,我們指的是不斷增長的數據,並且有一個開始但沒有定義的結束
Apache Cassandra是一個分布式資料庫,可提供高可用性和可擴展性,而不會影響性能效率。它是最好的大數據工具之一,可以容納所有類型的數據集,即結構化、半結構化和非結構化
MongoDB是一個開源數據分析工具,提供跨平台能力的NoSQL資料庫。對於需要快速移動和實時數據來做出決策的企業來說,它堪稱典範
Apache Kafka 是一個分布式事件處理或流式處理平台,可為系統提供高吞吐量。它的效率足以每天處理數萬億個事件。它是一個高度可擴展的流媒體平台,還提供了出色的容錯能力
當然,除了這些之外,還有一些其他跨平台的工具可供大數據使用。
希望我的回答能幫到你!
❼ 大數據處理必備的十大工具!
大數據的日益增長,給企業管理大量的數據帶來了挑戰的同時也帶來了一些機遇。下面是用於信息化管理的大數據工具列表:
1.ApacheHive
Hive是一個建立在hadoop上的開源數據倉庫基礎設施,通過Hive可以很容易的進行數據的ETL,對數據進行結構化處理,並對Hadoop上大數據文件進行查詢和處理等。Hive提供了一種簡單的類似SQL的查詢語言—HiveQL,這為熟悉SQL語言的用戶查詢數據提供了方便。
2JaspersoftBI套件
Jaspersoft包是一個通過資料庫列生成報表的開源軟體。行業領導者發現Jaspersoft軟體是一流的,許多企業已經使用它來將SQL表轉化為pdf,,這使每個人都可以在會議上對其進行審議。另外,JasperReports提供了一個連接配置單元來替代HBase。
3.1010data
1010data創立於2000年,是一個總部設在紐約的分析型雲服務,旨在為華爾街的客戶提供服務,甚至包括NYSEEuronext、 游戲 和電信的客戶。它在設計上支持可伸縮性的大規模並行處理。它也有它自己的查詢語言,支持SQL函數和廣泛的查詢類型,包括圖和時間序列分析。這個私有雲的方法減少了客戶在基礎設施管理和擴展方面的壓力。
4.Actian
Actian之前的名字叫做IngresCorp,它擁有超過一萬客戶而且正在擴增。它通過Vectorwise以及對ParAccel實現了擴展。這些發展分別導致了ActianVector和ActianMatrix的創建。它有Apache,Cloudera,Hortonworks以及其他發行版本可供選擇。
5.PentahoBusinessAnalytics
從某種意義上說,Pentaho與Jaspersoft相比起來,盡管Pentaho開始於報告生成引擎,但它目前通過簡化新來源中獲取信息的過程來支持大數據處理。Pentaho的工具可以連接到NoSQL資料庫,例如MongoDB和Cassandra。PeterWayner指出,PentahoData(一個更有趣的圖形編程界面工具)有很多內置模塊,你可以把它們拖放到一個圖片上,然後將它們連接起來。
6.KarmasphereStudioandAnalyst
KarsmasphereStudio是一組構建在Eclipse上的插件,它是一個更易於創建和運行Hadoop任務的專用IDE。在配置一個Hadoop工作時,Karmasphere工具將引導您完成每個步驟並顯示部分結果。當出現所有數據處於同一個Hadoop集群的情況時,KarmaspehereAnalyst旨在簡化篩選的過程,。
7.Cloudera
Cloudera正在努力為開源Hadoop,提供支持,同時將數據處理框架延伸到一個全面的「企業數據中心」范疇,這個數據中心可以作為首選目標和管理企業所有數據的中心點。Hadoop可以作為目標數據倉庫,高效的數據平台,或現有數據倉庫的ETL來源。企業規模可以用作集成Hadoop與傳統數據倉庫的基礎。Cloudera致力於成為數據管理的「重心」。
8.
HP提供了用於載入Hadoop軟體發行版所需的參考硬體配置,因為它本身並沒有自己的Hadoop版本。計算機行業領袖將其大數據平台架構命名為HAVEn(意為Hadoop,Autonomy,Vertica,EnterpriseSecurityand「n」applications)。惠普在Vertica7版本中增加了一個「FlexZone」,允許用戶在定義資料庫方案以及相關分析、報告之前 探索 大型數據集中的數據。這個版本通過使用HCatalog作為元數據存儲,與Hadoop集成後為用戶提供了一種 探索 HDFS數據表格視圖的方法。
9.TalendOpenStudio
Talend』s工具用於協助進行數據質量、數據集成和數據管理等方面工作。Talend是一個統一的平台,它通過提供一個統一的,跨企業邊界生命周期管理的環境,使數據管理和應用更簡單便捷。這種設計可以幫助企業構建靈活、高性能的企業架構,在次架構下,集成並啟用百分之百開源服務的分布式應用程序變為可能。
10.ApacheSpark
ApacheSpark是Hadoop開源生態系統的新成員。它提供了一個比Hive更快的查詢引擎,因為它依賴於自己的數據處理框架而不是依靠Hadoop的HDFS服務。同時,它還用於事件流處理、實時查詢和機器學習等方面。