開源的大數據平台_大數據分析平台和工具有哪些

❶ 大數據採集平台有哪些

針對這個問題，我們先來了解下大數據採集平台提供的服務平台流程包括：

1，首先平台針對需求對數據進行採集。

2，平台對採集的數據進行存儲。

3，再對數據進行分析處理。

4，最後對數據進行可視化展現，有報表，還有監控數據。

優秀的大數據平台要能在大數據分析鎮歲方法,大數據編程，大數據倉庫，大數據案例，人工智慧,數據挖掘方面都能表現出優秀的性能。

現在來推薦幾個主流且優秀的大數據平台：

1，ApacheFlume

Apache旗下的一款開源、高可靠、高擴展、容易管理、支持客戶擴展的數據採集系統,它是一個分布式、可靠、可用的系統，是java運行時環境j用於從大量不同的源有效地收集、聚合、移動大量日誌數據進行集中式數據存儲。

主要的功能表現在:

1.日誌收集:日誌系統中定製各類數據發送方，用於收集數據。

2.數據處理:提供對數據進行簡單處理，並寫到各種數據接受方（可定製）的能力,提供了從console（控制台）、RPC（Thrift-RPC）、text（文件）、tail（UNIXtail）、syslog（syslog日誌系統，支持TCP和UDP等2種模式），exec（命令執行）等數據源上收集數據的能力。

2，Fluentd

Fluentd是一個用於統一日誌層的開源數據收集器。Fluentd允許您統一數據收集和使用，以便更好地使用和理解數據。Fluentd是雲端原生計算基金會(CNCF)的成員項目之一，遵循Apache2License協議。FLuentd的擴展性非常好，客戶可以自己定製(Ruby)Input/Buffer/Output。

官網：

articles/quickstart

主要的功能表現在:

1,Input:負責接收數據或者主動抓取數據。支持syslog，http，filetail等。

2,Buffer:負責數據獲取的性能和可靠性，也有文件或內存等不同類型的Buffer可以配置。

3,Output:負責輸出數據到目的地例如文件，AWSS3或者其它的Fluentd。

3，Chukwa

Chukwa可以將各種各樣類型的數據收集成適合Hadoop處理的文件保存在HDFS中供Hadoop進行各種MapRece操作。Chukwa本身也提供了很多內置的功能，幫助我們進行數據的收灶慎集和整理。

1，對應用的各個節點實時監控日誌文件的變化，並將增量文件內容寫入HDFS，同時還可以將數據去除重復，排序等。

2，監控來自Socket的數據，定時執行我們指定的命令獲取輸出數據。

優秀的平台還有很多，筆記淺談為止，開發者根據官方提供的文檔進行解讀，才能深入了解，隱旅敬並可根據項目的特徵與需求來為之選擇所需的平台。

❷ spark和hadoop的區別

直接比較Hadoop和Spark有難度，因為它們處理的許多任務都一樣，但是在一些方面又並不相互重疊。

比如說，Spark沒有文件管理功能，因而必須依賴Hadoop分布式文件系統(HDFS)或另外某種解決方案。

Hadoop框架的主要模塊包括如下：

Hadoop Common
Hadoop分布式文件系統(HDFS)
Hadoop YARN
Hadoop MapRece

雖然上述四個模塊構成了Hadoop的核心，不過還有其他幾個模塊。這些模塊包括：Ambari、Avro、Cassandra、Hive、 Pig、Oozie、Flume和Sqoop，它們進一步增強和擴展了Hadoop的功能。

Spark確實速度很快(最多比Hadoop MapRece快100倍)。Spark還可以執行批量處理，然而它真正擅長的是處理流工作負載、互動式查詢和機器學習。

相比MapRece基於磁碟的批量處理引擎，Spark賴以成名之處是其數據實時處理功能。Spark與Hadoop及其模塊兼容。實際上，在Hadoop的項目頁面上，Spark就被列為是一個模塊。

Spark有自己的頁面，因為雖然它可以通過YARN(另一種資源協調者)在Hadoop集群中運行，但是它也有一種獨立模式。它可以作為 Hadoop模塊來運行，也可以作為獨立解決方案來運行。

MapRece和Spark的主要區別在於，MapRece使用持久存儲，而Spark使用彈性分布式數據集(RDDS)。

性能

Spark之所以如此快速，原因在於它在內存中處理一切數據。沒錯，它還可以使用磁碟來處理未全部裝入到內存中的數據。

Spark的內存處理為來自多個來源的數據提供了近乎實時分析的功能：營銷活動、機器學習、物聯網感測器、日誌監控、安全分析和社交媒體網站。另外，MapRece使用批量處理，其實從來就不是為驚人的速度設計的。它的初衷是不斷收集來自網站的信息，不需要這些數據具有實時性或近乎實時性。

易用性

支持Scala(原生語言)、Java、Python和Spark SQL。Spark SQL非常類似於SQL 92，所以幾乎不需要經歷一番學習，馬上可以上手。

Spark還有一種交互模式，那樣開發人員和用戶都可以獲得查詢和其他操作的即時反饋。MapRece沒有交互模式，不過有了Hive和Pig等附加模塊，採用者使用MapRece來得容易一點。

成本

「Spark已證明在數據多達PB的情況下也輕松自如。它被用於在數量只有十分之一的機器上，對100TB數據進行排序的速度比Hadoop MapRece快3倍。」這一成績讓Spark成為2014年Daytona GraySort基準。

兼容性

MapRece和Spark相互兼容;MapRece通過JDBC和ODC兼容諸多數據源、文件格式和商業智能工具，Spark具有與MapRece同樣的兼容性。

數據處理

MapRece是一種批量處理引擎。MapRece以順序步驟來操作，先從集群讀取數據，然後對數據執行操作，將結果寫回到集群，從集群讀取更新後的數據，執行下一個數據操作，將那些結果寫回到結果，依次類推。Spark執行類似的操作，不過是在內存中一步執行。它從集群讀取數據後，對數據執行操作，然後寫回到集群。

Spark還包括自己的圖形計算庫GraphX。GraphX讓用戶可以查看與圖形和集合同樣的數據。用戶還可以使用彈性分布式數據集(RDD)，改變和聯合圖形，容錯部分作了討論。

容錯

至於容錯，MapRece和Spark從兩個不同的方向來解決問題。MapRece使用TaskTracker節點，它為 JobTracker節點提供了心跳(heartbeat)。如果沒有心跳，那麼JobTracker節點重新調度所有將執行的操作和正在進行的操作，交給另一個TaskTracker節點。這種方法在提供容錯性方面很有效，可是會大大延長某些操作(即便只有一個故障)的完成時間。

Spark使用彈性分布式數據集(RDD)，它們是容錯集合，裡面的數據元素可執行並行操作。RDD可以引用外部存儲系統中的數據集，比如共享式文件系統、HDFS、HBase，或者提供Hadoop InputFormat的任何數據源。Spark可以用Hadoop支持的任何存儲源創建RDD，包括本地文件系統，或前面所列的其中一種文件系統。

RDD擁有五個主要屬性：

分區列表
計算每個分片的函數
依賴其他RDD的項目列表
面向鍵值RDD的分區程序(比如說RDD是散列分區)，這是可選屬性
計算每個分片的首選位置的列表(比如HDFS文件的數據塊位置)，這是可選屬性

RDD可能具有持久性，以便將數據集緩存在內存中。這樣一來，以後的操作大大加快，最多達10倍。Spark的緩存具有容錯性，原因在於如果RDD的任何分區丟失，就會使用原始轉換，自動重新計算。

可擴展性

按照定義，MapRece和Spark都可以使用HDFS來擴展。那麼，Hadoop集群能變得多大呢?

據稱雅虎有一套42000個節點組成的Hadoop集群，可以說擴展無極限。最大的已知Spark集群是8000個節點，不過隨著大數據增多，預計集群規模也會隨之變大，以便繼續滿足吞吐量方面的預期。

安全

Hadoop支持Kerberos身份驗證，這管理起來有麻煩。然而，第三方廠商讓企業組織能夠充分利用活動目錄Kerberos和LDAP用於身份驗證。同樣那些第三方廠商還為傳輸中數據和靜態數據提供數據加密。

Hadoop分布式文件系統支持訪問控制列表(ACL)和傳統的文件許可權模式。Hadoop為任務提交中的用戶控制提供了服務級授權(Service Level Authorization)，這確保客戶擁有正確的許可權。

Spark的安全性弱一點，目前只支持通過共享密鑰(密碼驗證)的身份驗證。Spark在安全方面帶來的好處是，如果你在HDFS上運行Spark，它可以使用HDFS ACL和文件級許可權。此外，Spark可以在YARN上運行，因而能夠使用Kerberos身份驗證。

總結

Spark與MapRece是一種相互共生的關系。Hadoop提供了Spark所沒有的功能特性，比如分布式文件系統，而Spark 為需要它的那些數據集提供了實時內存處理。完美的大數據場景正是設計人員當初預想的那樣：讓Hadoop和Spark在同一個團隊裡面協同運行。

❸ 大數據分析平台和工具有哪些

①Disco

Disco最初由諾基亞開發，這是一種分布式計算框架，與Hadoop一樣，它也基於MapRece。它包括一種分布式文件系統以及支持數十億個鍵和值的資料庫。

支持的操作系統：Linux和OSX。

②HPCC

作為Hadoop之外的一種選擇，HPCC這種大數據平台承諾速度非常快，擴展性超強。除了免費社區版外，HPCCSystems還提供收費的企業版、收費模塊、培訓、咨詢及其他服務。

支持的操作系統：Linux。

③Lumify

Lumify歸Altamira科技公司(以國家安全技術而聞名)所有，這是一種開源大數據整合、分析和可視化平台。你只要在Try.Lumify.io試一下演示版，就能看看它的實際效果。

支持的操作系統：Linux。

④Pandas

Pandas項目包括基於Python編程語言的數據結構和數據分析工具。它讓企業組織可以將Python用作R之外的一種選擇，用於大數據分析項目。

支持的操作系統：Windows、Linux和OSX。

⑤Storm

Storm現在是一個Apache項目，它提供了實時處理大數據的功能(不像Hadoop只提供批任務處理)。其用戶包括推特、美國天氣頻道、WebMD、阿里巴巴、Yelp、雅虎日本、Spotify、Group、Flipboard及其他許多公司。

支持的操作系統：Linux。

❹ 大數據分析平台哪個好

大數據分析平台比較好的有：Cloudera、星環Transwarp、阿里數加、華為FusionInsight、Smartbi。

1、Cloudera

Cloudera提供一個可擴展、靈活、集成的平台，可拿喊此用來方便的管理您的企業中快速增長的多種多樣的數據，從而部署和管理Hadoop和相關項目、操作和分析您的數據以及保護數據的安全。

❺ 大數據平台的軟體有哪些

現在肯定是大數據更吃香，但是後端也是不錯的，所以你根據個人的喜好來選擇吧！

❻ 大數據平台的軟體有哪些

這個要分好幾塊來講，首先我要說明的是大數據項目也是要有很多依賴的模塊的。每個模塊的軟體不一樣，下面分別聊一下。

一、大數據處理

這個是所謂大數據項目中最先想到的模塊。主要有spark，hadoop，es，kafka，hbase，hive等。

當然像是flume，sqoop也都很常用。

這些軟體主要是為了解決海量數據處理的問題。軟體很多，我只列幾個經典的，具體可以自行網路。

二、機器學習相關

大部分大數據項目都和機器學習相關。因此會考慮到機器學習的一些軟體，比如說sklearn，spark的ml，當然還有自己實現的代碼。

三、web相關技術

大部分項目也都跑不了一個web的展示，因此web就很重要的，java的ssh，python的django都可以，這個看具體的項目組習慣了。

四、其它

還有一些很常用的東西，個人感覺不完全算是大數據特定使用范橘埋高圍。反正我在做大數據項目的時候也都用到了。

比如說數據存儲：redis，mysql。

數據可視化：echart，d3js。

圖資料庫：neo4j。

再來說說大數據平台的軟體或者工具：

1、資料庫，大數據平台類，星環，做Hadoop生態系列的大數據平台圓尺公司。Hadoop是開源的，星環主要做的是把Hadoop不穩定的部分優化，功能細化，為企業提供Hadoop大數據引擎及液鍵資料庫工具。

2、大數據存儲硬體類，浪潮，很老牌的IT公司，國資委控股，研究大數據方面的存儲，在國內比較領先。

3、雲計算，雲端大數據類，阿里巴巴，明星產品-阿里雲，與亞馬遜AWS抗衡，做公有雲、私有雲、混合雲。實力不差，符合阿里巴巴的氣質，很有野心。

4、數據應用方面這個有很多，比如帆軟旗下的FineReport報表系統和FineBI大數據分析平台等。

帆軟是商業智能和數據分析平台提供商，從報表工具到商業智能，有十多年的數據應用的底子，在這個領域很成熟，目前處於快速成長期，但是很低調，是一家有技術有實力而且對客戶很真誠的公司。

❼ 古橋大數據實時分析平台是開源的嗎

是的。
大數據分析平台和工具DiscoDisco最初由諾基亞開發，這是一種分布式計算框架，與Hadoop一樣，它也基於MapRece。它包括一種分布式文件系統以及支持數十億個鍵和值的資料庫。
大數據(bigdata)，或稱巨量資料，指的是所涉及的資料量規模巨大到無法透過主流軟體工具，對於「大數據」（Bigdata）研究機構Gartner給出了這樣的定義。「大數據」是需要新處理模式才能具有更強的決策力、洞察發現力和流程優化能力來適應海量、高增長率和多樣化的信息資產。在合理時間內達到擷取、管理、處理、並整理成為幫助企業經營決策更積極目的的資訊。

❽ 漫談工業大數據9：開源工業大數據軟體簡介（上）

今天真是一個美好的時代，有無數的開源系統可以為我們提供服務，現在有許多開發軟體可以用到工業大數據中，當然很多系統還不成熟，應用到工業中還需要小心，並且需要開發人員對其進行一定的優化和調整。下面就簡單介紹一些開源的大數據工具軟體，看看有哪些能夠應用到工業大數據領域。

下面這張圖是我根據網上流傳的一張開源大數據軟體分類圖整理的：

我們可以把開源大數據軟體分成幾類，有一些可以逐步應用到工業大數據領域，下面就一一介紹一下這些軟體。（以下系統介紹大都來源於網路）

1、數據存儲類

（1）關系資料庫MySQL

這個就不用太多介紹了吧，關系型資料庫領域應用最廣泛的開源軟體，目前屬於 Oracle 旗下產品。

（2）文件資料庫Hadoop

Hadoop是大數據時代的明星產品，它最大的成就在於實現了一個分布式文件系統（Hadoop Distributed FileSystem），簡稱HDFS。HDFS有高容錯性的特點，並且設計用來部署在低廉的硬體上，而且它提供高吞吐量來訪問應用程序的數據，適合那些有著超大數據集的應用程序。

Hadoop可以在工業大數據應用中用來作為底層的基礎資料庫，由於它採用了分布式部署的方式，如果是私有雲部署，適用於大型企業集團。如果是公有雲的話，可以用來存儲文檔、視頻、圖像等資料。

（3）列資料庫Hbase

HBase是一個分布式的、面向列的開源資料庫，HBase是Apache的Hadoop項目的子項目。HBase不同於一般的關系資料庫，它是一個適合於非結構化數據存儲的資料庫。另一個不同的是HBase基於列的而不是基於行的模式。

基於Hbase開發的OpenTSDB，可以存儲所有的時序（無須采樣）來構建一個分布式、可伸縮的時間序列資料庫。它支持秒級數據採集所有metrics，支持永久存儲，可以做容量規劃，並很容易的接入到現有的報警系統里。

這樣的話，它就可以替代在工業領域用得最多的實時資料庫。

（4）文檔資料庫MongoDB

MongoDB是一個介於關系資料庫和非關系資料庫之間的產品，是非關系資料庫當中功能最豐富，最像關系資料庫的。他支持的數據結構非常鬆散，是類似json的bson格式，因此可以存儲比較復雜的數據類型。Mongo最大的特點是他支持的查詢語言非常強大，其語法有點類似於面向對象的查詢語言，幾乎可以實現類似關系資料庫單表查詢的絕大部分功能，而且還支持對數據建立索引。

MongoDB適合於存儲工業大數據中的各類文檔，包括各類圖紙、文檔等。

（5）圖資料庫Neo4j/OrientDB

圖資料庫不是存放圖片的，是基於圖的形式構建的數據系統。

Neo4j是一個高性能的,NOSQL圖形資料庫，它將結構化數據存儲在網路上而不是表中。它是一個嵌入式的、基於磁碟的、具備完全的事務特性的Java持久化引擎，但是它將結構化數據存儲在網路(從數學角度叫做圖)上而不是表中。Neo4j也可以被看作是一個高性能的圖引擎，該引擎具有成熟資料庫的所有特性。程序員工作在一個面向對象的、靈活的網路結構下而不是嚴格、靜態的表中——但是他們可以享受到具備完全的事務特性、企業級的資料庫的所有好處。

OrientDB是兼具文檔資料庫的靈活性和圖形資料庫管理鏈接能力的可深層次擴展的文檔-圖形資料庫管理系統。可選無模式、全模式或混合模式下。支持許多高級特性，諸如ACID事務、快速索引，原生和SQL查詢功能。可以JSON格式導入、導出文檔。若不執行昂貴的JOIN操作的話，如同關系資料庫可在幾毫秒內可檢索數以百記的鏈接文檔圖。

這些資料庫都可以用來存儲非結構化數據。

2、數據分析類

（1）批處理MapRece/Spark

MapRece是一種編程模型，用於大規模數據集（大於1TB）的並行運算。概念"Map（映射）"和"Rece（歸約）"，是它們的主要思想，都是從函數式編程語言里借來的，還有從矢量編程語言里借來的特性。它極大地方便了編程人員在不會分布式並行編程的情況下，將自己的程序運行在分布式系統上。當前的軟體實現是指定一個Map（映射）函數，用來把一組鍵值對映射成一組新的鍵值對，指定並發的Rece（歸約）函數，用來保證所有映射的鍵值對中的每一個共享相同的鍵組。

Apache Spark 是專為大規模數據處理而設計的快速通用的計算引擎。Spark 是一種與 Hadoop 相似的開源集群計算環境，但是兩者之間還存在一些不同之處，這些有用的不同之處使 Spark 在某些工作負載方面表現得更加優越，換句話說，Spark 啟用了內存分布數據集，除了能夠提供互動式查詢外，它還可以優化迭代工作負載。盡管創建 Spark 是為了支持分布式數據集上的迭代作業，但是實際上它是對 Hadoop 的補充，可以在 Hadoop 文件系統中並行運行。

這些大數據的明星產品可以用來做工業大數據的處理。

（2）流處理Storm

Storm是一個開源的分布式實時計算系統，可以簡單、可靠的處理大量的數據流。Storm有很多使用場景：如實時分析，在線機器學習，持續計算，分布式RPC，ETL等等。Storm支持水平擴展，具有高容錯性，保證每個消息都會得到處理，而且處理速度很快（在一個小集群中，每個結點每秒可以處理數以百萬計的消息）。Storm的部署和運維都很便捷，而且更為重要的是可以使用任意編程語言來開發應用。

（3）圖處理Giraph

Giraph是什麼？Giraph是Apache基金會開源項目之一，被定義為迭代式圖處理系統。他架構在Hadoop之上，提供了圖處理介面，專門處理大數據的圖問題。

Giraph的存在很有必要，現在的大數據的圖問題又很多，例如表達人與人之間的關系的有社交網路，搜索引擎需要經常計算網頁與網頁之間的關系，而map-rece介面不太適合實現圖演算法。

Giraph主要用於分析用戶或者內容之間的聯系或重要性。

（4）並行計算MPI/OpenCL

OpenCL（全稱Open Computing Language，開放運算語言）是第一個面向異構系統通用目的並行編程的開放式、免費標准，也是一個統一的編程環境，便於軟體開發人員為高性能計算伺服器、桌面計算系統、手持設備編寫高效輕便的代碼，而且廣泛適用於多核心處理器(CPU)、圖形處理器(GPU)、Cell類型架構以及數字信號處理器(DSP)等其他並行處理器，在游戲、娛樂、科研、醫療等各種領域都有廣闊的發展前景。

（5）分析框架Hive

Hive是基於Hadoop的一個數據倉庫工具，可以將結構化的數據文件映射為一張資料庫表，並提供簡單的sql查詢功能，可以將sql語句轉換為MapRece任務進行運行。其優點是學習成本低，可以通過類SQL語句快速實現簡單的MapRece統計，不必開發專門的MapRece應用，十分適合數據倉庫的統計分析。

（6）分析框架Pig

Apache Pig 是apache平台下的一個免費開源項目，Pig為大型數據集的處理提供了更高層次的抽象，很多時候數據的處理需要多個MapRece過程才能實現，使得數據處理過程與該模式匹配可能很困難。有了Pig就能夠使用更豐富的數據結構。[2]

Pig LatinPig Latin 是一個相對簡單的語言，一條語句就是一個操作，與資料庫的表類似，可以在關系資料庫中找到它（其中，元組代錶行，並且每個元組都由欄位組成）。

Pig 擁有大量的數據類型，不僅支持包、元組和映射等高級概念，還支持簡單的數據類型，如 int、long、float、double、chararray 和 bytearray。並且，還有一套完整的比較運算符，包括使用正則表達式的豐富匹配模式。

導航:首頁 > 網路數據 > 開源的大數據平台

開源的大數據平台

與開源的大數據平台相關的資料

友情鏈接