apache大數據開源項目_如何建立一個完整可用的安全大數據平台

A. 漫談工業大數據9：開源工業大數據軟體簡介（上）

今天真是一個美好的時代，有無數的開源系統可以為我們提供服務，現在有許多開發軟體可以用到工業大數據中，當然很多系統還不成熟，應用到工業中還需要小心，並且需要開發人員對其進行一定的優化和調整。下面就簡單介紹一些開源的大數據工具軟體，看看有哪些能夠應用到工業大數據領域。

下面這張圖是我根據網上流傳的一張開源大數據軟體分類圖整理的：

我們可以把開源大數據軟體分成幾類，有一些可以逐步應用到工業大數據領域，下面就一一介紹一下這些軟體。（以下系統介紹大都來源於網路）

1、數據存儲類

（1）關系資料庫MySQL

這個就不用太多介紹了吧，關系型資料庫領域應用最廣泛的開源軟體，目前屬於 Oracle 旗下產品。

（2）文件資料庫Hadoop

Hadoop是大數據時代的明星產品，它最大的成就在於實現了一個分布式文件系統（Hadoop Distributed FileSystem），簡稱HDFS。HDFS有高容錯性的特點，並且設計用來部署在低廉的硬體上，而且它提供高吞吐量來訪問應用程序的數據，適合那些有著超大數據集的應用程序。

Hadoop可以在工業大數據應用中用來作為底層的基礎資料庫，由於它採用了分布式部署的方式，如果是私有雲部署，適用於大型企業集團。如果是公有雲的話，可以用來存儲文檔、視頻、圖像等資料。

（3）列資料庫Hbase

HBase是一個分布式的、面向列的開源資料庫，HBase是Apache的Hadoop項目的子項目。HBase不同於一般的關系資料庫，它是一個適合於非結構化數據存儲的資料庫。另一個不同的是HBase基於列的而不是基於行的模式。

基於Hbase開發的OpenTSDB，可以存儲所有的時序（無須采樣）來構建一個分布式、可伸縮的時間序列資料庫。它支持秒級數據採集所有metrics，支持永久存儲，可以做容量規劃，並很容易的接入到現有的報警系統里。

這樣的話，它就可以替代在工業領域用得最多的實時資料庫。

（4）文檔資料庫MongoDB

MongoDB是一個介於關系資料庫和非關系資料庫之間的產品，是非關系資料庫當中功能最豐富，最像關系資料庫的。他支持的數據結構非常鬆散，是類似json的bson格式，因此可以存儲比較復雜的數據類型。Mongo最大的特點是他支持的查詢語言非常強大，其語法有點類似於面向對象的查詢語言，幾乎可以實現類似關系資料庫單表查詢的絕大部分功能，而且還支持對數據建立索引。

MongoDB適合於存儲工業大數據中的各類文檔，包括各類圖紙、文檔等。

（5）圖資料庫Neo4j/OrientDB

圖資料庫不是存放圖片的，是基於圖的形式構建的數據系統。

Neo4j是一個高性能的,NOSQL圖形資料庫，它將結構化數據存儲在網路上而不是表中。它是一個嵌入式的、基於磁碟的、具備完全的事務特性的java持久化引擎，但是它將結構化數據存儲在網路(從數學角度叫做圖)上而不是表中。Neo4j也可以被看作是一個高性能的圖引擎，該引擎具有成熟資料庫的所有特性。程序員工作在一個面向對象的、靈活的網路結構下而不是嚴格、靜態的表中——但是他們可以享受到具備完全的事務特性、企業級的資料庫的所有好處。

OrientDB是兼具文檔資料庫的靈活性和圖形資料庫管理鏈接能力的可深層次擴展的文檔-圖形資料庫管理系統。可選無模式、全模式或混合模式下。支持許多高級特性，諸如ACID事務、快速索引，原生和SQL查詢功能。可以JSON格式導入、導出文檔。若不執行昂貴的JOIN操作的話，如同關系資料庫可在幾毫秒內可檢索數以百記的鏈接文檔圖。

這些資料庫都可以用來存儲非結構化數據。

2、數據分析類

（1）批處理MapRece/Spark

MapRece是一種編程模型，用於大規模數據集（大於1TB）的並行運算。概念"Map（映射）"和"Rece（歸約）"，是它們的主要思想，都是從函數式編程語言里借來的，還有從矢量編程語言里借來的特性。它極大地方便了編程人員在不會分布式並行編程的情況下，將自己的程序運行在分布式系統上。當前的軟體實現是指定一個Map（映射）函數，用來把一組鍵值對映射成一組新的鍵值對，指定並發的Rece（歸約）函數，用來保證所有映射的鍵值對中的每一個共享相同的鍵組。

Apache Spark 是專為大規模數據處理而設計的快速通用的計算引擎。Spark 是一種與 Hadoop 相似的開源集群計算環境，但是兩者之間還存在一些不同之處，這些有用的不同之處使 Spark 在某些工作負載方面表現得更加優越，換句話說，Spark 啟用了內存分布數據集，除了能夠提供互動式查詢外，它還可以優化迭代工作負載。盡管創建 Spark 是為了支持分布式數據集上的迭代作業，但是實際上它是對 Hadoop 的補充，可以在 Hadoop 文件系統中並行運行。

這些大數據的明星產品可以用來做工業大數據的處理。

（2）流處理Storm

Storm是一個開源的分布式實時計算系統，可以簡單、可靠的處理大量的數據流。Storm有很多使用場景：如實時分析，在線機器學習，持續計算，分布式RPC，ETL等等。Storm支持水平擴展，具有高容錯性，保證每個消息都會得到處理，而且處理速度很快（在一個小集群中，每個結點每秒可以處理數以百萬計的消息）。Storm的部署和運維都很便捷，而且更為重要的是可以使用任意編程語言來開發應用。

（3）圖處理Giraph

Giraph是什麼？Giraph是Apache基金會開源項目之一，被定義為迭代式圖處理系統。他架構在Hadoop之上，提供了圖處理介面，專門處理大數據的圖問題。

Giraph的存在很有必要，現在的大數據的圖問題又很多，例如表達人與人之間的關系的有社交網路，搜索引擎需要經常計算網頁與網頁之間的關系，而map-rece介面不太適合實現圖演算法。

Giraph主要用於分析用戶或者內容之間的聯系或重要性。

（4）並行計算MPI/OpenCL

OpenCL（全稱Open Computing Language，開放運算語言）是第一個面向異構系統通用目的並行編程的開放式、免費標准，也是一個統一的編程環境，便於軟體開發人員為高性能計算伺服器、桌面計算系統、手持設備編寫高效輕便的代碼，而且廣泛適用於多核心處理器(CPU)、圖形處理器(GPU)、Cell類型架構以及數字信號處理器(DSP)等其他並行處理器，在游戲、娛樂、科研、醫療等各種領域都有廣闊的發展前景。

（5）分析框架Hive

Hive是基於Hadoop的一個數據倉庫工具，可以將結構化的數據文件映射為一張資料庫表，並提供簡單的sql查詢功能，可以將sql語句轉換為MapRece任務進行運行。其優點是學習成本低，可以通過類SQL語句快速實現簡單的MapRece統計，不必開發專門的MapRece應用，十分適合數據倉庫的統計分析。

（6）分析框架Pig

Apache Pig 是apache平台下的一個免費開源項目，Pig為大型數據集的處理提供了更高層次的抽象，很多時候數據的處理需要多個MapRece過程才能實現，使得數據處理過程與該模式匹配可能很困難。有了Pig就能夠使用更豐富的數據結構。[2]

Pig LatinPig Latin 是一個相對簡單的語言，一條語句就是一個操作，與資料庫的表類似，可以在關系資料庫中找到它（其中，元組代錶行，並且每個元組都由欄位組成）。

Pig 擁有大量的數據類型，不僅支持包、元組和映射等高級概念，還支持簡單的數據類型，如 int、long、float、double、chararray 和 bytearray。並且，還有一套完整的比較運算符，包括使用正則表達式的豐富匹配模式。

B. apache有哪些開源項目

這個多了去了 ,apache 絕對是開源裡面的領頭羊

for example:

分類項目名說明開發語言
伺服器
（共20） Apache HTTP Server 全球第一HTTP伺服器 C/C++
Tomcat Java的Web伺服器 Java
James 郵件伺服器 Java
SpamAssassin 反垃圾郵件 C/C++
Perl Apache的Perl編程語言支持 C/C++
Tcl TCL腳本語言 C/C++
Directory Server 超級目錄伺服器 Java
Axis WebServic伺服器 Java
Kanla Axis中WS-Coordination、WS-AtomicTransaction、WS-BusinessActivity協議的實現 Java
Muse Axis中WS-ResourceFramework (WSRF), WS-BaseNotification (WSN), and WS-DistributedManagement (WSDM) 標準的實現（該項目Logo是個不認識的古漢字） Java
Pubscribe Web Services Notification (WSN) 標准實現 Java
Sandesha WS-ReliableMessaging 標准實現 Java
WSS4J WS-Security 標准實現 Java
WSRF Web Services Resource Framework 標准實現 Java
Addressing WebService的WS-Addressing標准（IBM、微軟、BEA發布）實現 Java
XML Security XML簽名與加密標準的Java、C++實現 Java/C++
jUDDI UDDI的Java實現 Java
XML-RPC XML-RPC實現 Java
Derby 純Java做的關系資料庫 Java
Xindice XML資料庫 Java

開發工具（共5） Ant 自動編譯 Java
Maven 項目管理工具，比Ant強大，支持插件開發 Java
Gump 每日集成工具，支持Ant、Maven Python
JMeter Web應用性能測試 Java
DdlUtils 用XML來定義DDL Java

Web開發框架（共19） Struts MVC的Web開發框架 Java
Cocoon Web開發框架，基於可運行的XML管道語言 Java
FOP XSL-FO 列印與輸出解決方案，基於Java Java
AxKit 基於XML的Web發布 Java
Tapestry Web開發框架 Java
Turbine Web開發框架 Java
Shale 基於JSF的Web開發框架 Java
MyFaces 第一個開源的JSF實現 Java
Beehive 基於Structs的J2EE框架，簡化J2EE編程；含Web界面、WebService開發框架 Java
Velocity 模板引擎 Java
Portals 門戶解決方案 Java
Cactus Web開發測試框架 Java
Forrest 基於Cocoon的Web發布解決方案 Java
Slide 內容管理，支持WebDAV Java
Jackrabbit 內容庫，用於內容管理 Java
Lenya 內容管理，支持版本管理、工作流、所見所得編輯器 Java
Xang 基於JavaScript進行動態Web開發 Java
Xindice 純XML資料庫 Java
JCS 分布式Cache系統（Java Caching System） Java

容器（共7） Geronimo J2EE容器，類似JBoss Java
iBATIS 簡單OR映射，有.NET版本 Java/C#
Torque OR映射 Java
ORB ObjectRelationalBridge，OR映射 Java
JDO JDO標準的一個實現 Java
HiveMind 類似Spring的東西，微內核DI容器 Java
Excalibur IoC容器 Java

組件（共82） APR 不同操作系統間可移植運行時庫 C/C++
Regexp Java正則表達式 Java
ORO Perl風格的正則表達式 Java
Xerces XML解析，Java/C兩種版本 Java/C++
Crimson XML解析器 Java
AXIOM 更高效的DOM實現 Java
Lucene 全文檢索，有.NET版本 Java/C#
Logging 不僅Log4j，各個語言的版本都有了 Java/C++/Perl/C#
XMLBeans XML轉對象 Java
JaxMe Java/XML綁定的實現 Java
Taglibs JSP Tag庫 Java
HttpComponents HTTP訪問控制項 Java
ECS 輔助生成標簽（Element Construction Set） Java
WSIF WebService調用（Web Services Invocation Framework） Java
SOAP SOAP標准實現 Java
Woden WSDL書寫工具 Java
Tuscany 簡化SOA開發 Java
MIRAE 讓手機支持基於XML的服務 Java
BSF 腳本語言框架（Bean Scripting Framework），支持JavaScript等多種腳本語言 Java
BCEL 用於直接生成位元組碼（Byte Code Engineering Library） Java
POI 存取Office文檔 Java
Batik JAVA的SVG實現 Java

Attributes 訪問Java 1.5語言中定義的meta 這些項目都在jakarta commons中，都是Java的
BeanUtils 反射支持
Betwixt XML/JavaBean轉換
Chain 職責鏈模式實現
CLI 命令行參數解析
Codec 通用加密/加密演算法
Collections Java容器類完善擴充
Configuration 各種來源配置文件存取
Daemon Java模擬Unix的Daemon
DBCP 數據鏈連接池
DbUtils JDBC輔助類
Digester XML到Java對象映射工具
Discovery 根據名稱來查找資源
EL JSP 2.0 表達式標准實現
Email 發送Email類
FileUpload 文件上傳輔助類
HttpClient HTTP客戶端
IO IO操作輔助類
Jelly 基於XML的腳本引擎
Jexl JSTL 表達式語言擴展
JXPath 用XPath語言來操作對象的輔助類
Lang java.lang.類擴充
Launcher 跨平台Java應用啟動器
Logging 不同Log實現的封裝
Math 數學、統計輔助類
Modeler 創建兼容JMX標準的MBeans
Net 各種網路協議實現
Pool 對象池
Primitives 很小的Java原始對象類型操作輔助類
SCXML 狀態圖XML標准實現
Transaction 多層次容器、文件操作事務支持
Validator 用XML定義校驗器和校驗規則
VFS 虛擬文件系統用於操作FTP、SMB、Zip等

Compress tar、zip、bzip2壓縮格式文件操作這些項目都在jakarta commons中的Sandbox中
CSV CSV文件格式支持
Exec 外部進程執行和環境設置輔助類
Finder 模擬Unix find命令
I18n 國際化輔助類
Id 生成ID輔助類
Javaflow 應用狀態管理
JCI Java編譯器介面
OpenPGP OpenPGP封裝
Pipeline 管道輔助類用於並行或者順序操作數據
Proxy 動態代碼生成輔助類

Cache 對象緩存服務這些項目都在jakarta commons中的Dormant（睡眠）中
Clazz class操作和反射操作
Contract 契約編程用到Java中
Convert Java對象類西轉換輔助類
Events 事件管理容器
Feedparser RSS和Atom實現
Functor 用對象方式來操作函數
JJar Jar操作
Latka HTTP功能測試
Mapper 簡單封裝後可以選擇不同的對象映射實現
Messenger JMS用於Web開發中的輔助類
Resources 國際化資源信息查找
Scaffold Web應用開發工具
ThreadPool 線程池
Workflow 工作流管理系統框架
XMLIO XML配置快速簡便導入

C. 轉載：阿里巴巴為什麼選擇Apache Flink

本文主要整理自阿里巴巴計算平台事業部資深技術專家莫問在雲棲大會的演講。

合抱之木，生於毫末

隨著人工智慧時代的降臨，數據量的爆發，在典型的大數據的業務場景下數據業務最通用的做法是：選用批處理的技術處理全量數據，採用流式計算處理實時增量數據。在絕大多數的業務場景之下，用戶的業務邏輯在批處理和流處理之中往往是相同的。但是，用戶用於批處理和流處理的兩套計算引擎是不同的。

因此，用戶通常需要寫兩套代碼。毫無疑問，這帶來了一些額外的負擔和成本。阿里巴巴的商品數據處理就經常需要面對增量和全量兩套不同的業務流程問題，所以阿里就在想，我們能不能有一套統一的大數據引擎技術，用戶只需要根據自己的業務邏輯開發一套代碼。這樣在各種不同的場景下，不管是全量數據還是增量數據，亦或者實時處理，一套方案即可全部支持， 這就是阿里選擇Flink的背景和初衷 。

目前開源大數據計算引擎有很多選擇，流計算如Storm,Samza,Flink,Kafka Stream等，批處理如Spark,Hive,Pig,Flink等。而同時支持流處理和批處理的計算引擎，只有兩種選擇：一個是Apache Spark，一個是Apache Flink。

從技術，生態等各方面的綜合考慮。首先，Spark的技術理念是基於批來模擬流的計算。而Flink則完全相反，它採用的是基於流計算來模擬批計算。

從技術發展方向看，用批來模擬流有一圓輪定的技術局限性，並且這個局限性可能很難突破。而Flink基於流來模擬批，在技術上有更好的擴展性。從長遠來看，阿里決定用Flink做一個統一的、通用的大數據引擎作為未來的選型。

Flink是一個低延遲、高吞吐、統一的大數據計算引擎。在阿里巴巴的生產環境中，Flink的計算平台可以實現毫秒級的延遲情況下，每秒鍾處理上億次的消息或者事件。同時Flink提供了一個Exactly-once的一致性語義。保證了數據的正確性。這樣就使得Flink大數據引擎可以提供金融級的數據處理能力橘仿信。

Flink在阿里的現狀

基於Apache Flink在阿里巴巴搭建的平台於2016年正式上線，並從阿里巴巴的搜索和推薦這兩大場景開始實現。目前阿里巴巴所有的業務，包括阿里巴巴所有子公司都採用了基於Flink搭建的實時計算平台。同時Flink計算平台運行在開源的Hadoop集群之上。採用Hadoop的YARN做為資源管理調度，以 HDFS作為數據存儲。因此，Flink可以和開源大數據軟體Hadoop無縫對接。

目前，這套基於Flink搭建的實時計算平台不僅服務於阿里巴巴集團內部，而且通過阿里雲的雲產品API向整個開發者生態提供基於Flink的雲產品支持。

Flink在阿里巴巴的大規模應用，表現如何？

規模： 一個系統是否成熟，規模是重要指標，Flink最初上線阿里巴巴只有數百台伺服器，目前規模已達上萬台，此等規模在全球范圍內也是屈指可數；

狀態數據： 基於Flink，內部積累起來的狀態數據已經是PB級別規模；

Events： 如今每天在Flink的計算平台上，處理的數據已經超過萬億條；

PS： 在峰值期間可以承擔每秒超過4.72億次的訪問，最典型的應用場景是阿里巴巴雙11大屏；

Flink的發展之路

接下來從開源技術的角度，來談一談Apache Flink是如何誕生的，它是如何成長的大帆？以及在成長的這個關鍵的時間點阿里是如何進入的？並對它做出了那些貢獻和支持？

Flink誕生於歐洲的一個大數據研究項目StratoSphere。該項目是柏林工業大學的一個研究性項目。早期，Flink是做Batch計算的，但是在2014年，StratoSphere裡面的核心成員孵化出Flink，同年將Flink捐贈Apache，並在後來成為Apache的頂級大數據項目，同時Flink計算的主流方向被定位為Streaming，即用流式計算來做所有大數據的計算，這就是Flink技術誕生的背景。

2014年Flink作為主攻流計算的大數據引擎開始在開源大數據行業內嶄露頭角。區別於Storm,Spark Streaming以及其他流式計算引擎的是：它不僅是一個高吞吐、低延遲的計算引擎，同時還提供很多高級的功能。比如它提供了有狀態的計算，支持狀態管理，支持強一致性的數據語義以及支持Event Time,WaterMark對消息亂序的處理。

Flink核心概念以及基本理念

Flink最區別於其他流計算引擎的，其實就是狀態管理。

什麼是狀態？例如開發一套流計算的系統或者任務做數據處理，可能經常要對數據進行統計，如Sum,Count,Min,Max,這些值是需要存儲的。因為要不斷更新，這些值或者變數就可以理解為一種狀態。如果數據源是在讀取Kafka,RocketMQ，可能要記錄讀取到什麼位置，並記錄Offset，這些Offset變數都是要計算的狀態。

Flink提供了內置的狀態管理，可以把這些狀態存儲在Flink內部，而不需要把它存儲在外部系統。這樣做的好處是第一降低了計算引擎對外部系統的依賴以及部署，使運維更加簡單；第二，對性能帶來了極大的提升：如果通過外部去訪問，如Redis,HBase它一定是通過網路及RPC。如果通過Flink內部去訪問，它只通過自身的進程去訪問這些變數。同時Flink會定期將這些狀態做Checkpoint持久化，把Checkpoint存儲到一個分布式的持久化系統中，比如HDFS。這樣的話，當Flink的任務出現任何故障時，它都會從最近的一次Checkpoint將整個流的狀態進行恢復，然後繼續運行它的流處理。對用戶沒有任何數據上的影響。

Flink是如何做到在Checkpoint恢復過程中沒有任何數據的丟失和數據的冗餘？來保證精準計算的？

這其中原因是Flink利用了一套非常經典的Chandy-Lamport演算法，它的核心思想是把這個流計算看成一個流式的拓撲，定期從這個拓撲的頭部Source點開始插入特殊的Barries，從上游開始不斷的向下游廣播這個Barries。每一個節點收到所有的Barries,會將State做一次Snapshot，當每個節點都做完Snapshot之後，整個拓撲就算完整的做完了一次Checkpoint。接下來不管出現任何故障，都會從最近的Checkpoint進行恢復。

Flink利用這套經典的演算法，保證了強一致性的語義。這也是Flink與其他無狀態流計算引擎的核心區別。

下面介紹Flink是如何解決亂序問題的。比如星球大戰的播放順序，如果按照上映的時間觀看，可能會發現故事在跳躍。

在流計算中，與這個例子是非常類似的。所有消息到來的時間，和它真正發生在源頭，在線系統Log當中的時間是不一致的。在流處理當中，希望是按消息真正發生在源頭的順序進行處理，不希望是真正到達程序里的時間來處理。Flink提供了Event Time和WaterMark的一些先進技術來解決亂序的問題。使得用戶可以有序的處理這個消息。這是Flink一個很重要的特點。

接下來要介紹的是Flink啟動時的核心理念和核心概念，這是Flink發展的第一個階段；第二個階段時間是2015年和2017年，這個階段也是Flink發展以及阿里巴巴介入的時間。故事源於2015年年中，我們在搜索事業部的一次調研。當時阿里有自己的批處理技術和流計算技術，有自研的，也有開源的。但是，為了思考下一代大數據引擎的方向以及未來趨勢，我們做了很多新技術的調研。

結合大量調研結果，我們最後得出的結論是：解決通用大數據計算需求，批流融合的計算引擎，才是大數據技術的發展方向，並且最終我們選擇了Flink。

但2015年的Flink還不夠成熟，不管是規模還是穩定性尚未經歷實踐。最後我們決定在阿里內部建立一個Flink分支，對Flink做大量的修改和完善，讓其適應阿里巴巴這種超大規模的業務場景。在這個過程當中，我們團隊不僅對Flink在性能和穩定性上做出了很多改進和優化，同時在核心架構和功能上也進行了大量創新和改進，並將其貢獻給社區，例如：Flink新的分布式架構，增量Checkpoint機制,基於Credit-based的網路流控機制和Streaming SQL等。

阿里巴巴對Flink社區的貢獻

我們舉兩個設計案例，第一個是阿里巴巴重構了Flink的分布式架構，將Flink的Job調度和資源管理做了一個清晰的分層和解耦。這樣做的首要好處是Flink可以原生的跑在各種不同的開源資源管理器上。經過這套分布式架構的改進，Flink可以原生地跑在Hadoop Yarn和Kubernetes這兩個最常見的資源管理系統之上。同時將Flink的任務調度從集中式調度改為了分布式調度，這樣Flink就可以支持更大規模的集群，以及得到更好的資源隔離。

另一個是實現了增量的Checkpoint機制，因為Flink提供了有狀態的計算和定期的Checkpoint機制，如果內部的數據越來越多，不停地做Checkpoint,Checkpoint會越來越大，最後可能導致做不出來。提供了增量的Checkpoint後，Flink會自動地發現哪些數據是增量變化，哪些數據是被修改了。同時只將這些修改的數據進行持久化。這樣Checkpoint不會隨著時間的運行而越來越難做，整個系統的性能會非常地平穩，這也是我們貢獻給社區的一個很重大的特性。

經過2015年到2017年對Flink Streaming的能力完善，Flink社區也逐漸成熟起來。Flink也成為在Streaming領域最主流的計算引擎。因為Flink最早期想做一個流批統一的大數據引擎，2018年已經啟動這項工作，為了實現這個目標，阿里巴巴提出了新的統一API架構，統一SQL解決方案，同時流計算的各種功能得到完善後，我們認為批計算也需要各種各樣的完善。無論在任務調度層，還是在數據Shuffle層，在容錯性，易用性上，都需要完善很多工作。

篇幅原因，下面主要和大家分享兩點：

● 統一 API Stack

● 統一 SQL方案

先來看下目前Flink API Stack的一個現狀，調研過Flink或者使用過Flink的開發者應該知道。Flink有2套基礎的API，一套是DataStream，一套是DataSet。DataStream API是針對流式處理的用戶提供，DataSet API是針對批處理用戶提供，但是這兩套API的執行路徑是完全不一樣的，甚至需要生成不同的Task去執行。所以這跟得到統一的API是有沖突的，而且這個也是不完善的，不是最終的解法。在Runtime之上首先是要有一個批流統一融合的基礎API層，我們希望可以統一API層。

因此，我們在新架構中將採用一個DAG（有限無環圖）API，作為一個批流統一的API層。對於這個有限無環圖，批計算和流計算不需要涇渭分明的表達出來。只需要讓開發者在不同的節點，不同的邊上定義不同的屬性，來規劃數據是流屬性還是批屬性。整個拓撲是可以融合批流統一的語義表達，整個計算無需區分是流計算還是批計算，只需要表達自己的需求。有了這套API後，Flink的API Stack將得到統一。

除了統一的基礎API層和統一的API Stack外，同樣在上層統一SQL的解決方案。流和批的SQL，可以認為流計算有數據源，批計算也有數據源，我們可以將這兩種源都模擬成數據表。可以認為流數據的數據源是一張不斷更新的數據表，對於批處理的數據源可以認為是一張相對靜止的表，沒有更新的數據表。整個數據處理可以當做SQL的一個Query，最終產生的結果也可以模擬成一個結果表。

對於流計算而言，它的結果表是一張不斷更新的結果表。對於批處理而言，它的結果表是相當於一次更新完成的結果表。從整個SOL語義上表達，流和批是可以統一的。此外，不管是流式SQL，還是批處理SQL，都可以用同一個Query來表達復用。這樣以來流批都可以用同一個Query優化或者解析。甚至很多流和批的運算元都是可以復用的。

Flink的未來方向

首先，阿里巴巴還是要立足於Flink的本質，去做一個全能的統一大數據計算引擎。將它在生態和場景上進行落地。目前Flink已經是一個主流的流計算引擎，很多互聯網公司已經達成了共識：Flink是大數據的未來，是最好的流計算引擎。下一步很重要的工作是讓Flink在批計算上有所突破。在更多的場景下落地，成為一種主流的批計算引擎。然後進一步在流和批之間進行無縫的切換，流和批的界限越來越模糊。用Flink,在一個計算中，既可以有流計算，又可以有批計算。

第二個方向就是Flink的生態上有更多語言的支持，不僅僅是Java，Scala語言，甚至是機器學習下用的Python，Go語言。未來我們希望能用更多豐富的語言來開發Flink計算的任務，來描述計算邏輯，並和更多的生態進行對接。

最後不得不說AI，因為現在很多大數據計算的需求和數據量都是在支持很火爆的AI場景，所以在Flink流批生態完善的基礎上，將繼續往上走，完善上層Flink的Machine Learning演算法庫，同時Flink往上層也會向成熟的機器學習，深度學習去集成。比如可以做Tensorflow On Flink, 讓大數據的ETL數據處理和機器學習的Feature計算和特徵計算，訓練的計算等進行集成，讓開發者能夠同時享受到多種生態給大家帶來的好處。

D. 大數據分析界的「神獸」Apache Kylin有多牛

在現在的大數據時代，越來越多的企業開始使用Hadoop管理數據，但是現有的業務分析工具（如Tableau，Microstrategy等）往往存在很大的局限，如難以水平擴展、無法處理超大規模數據、缺少對Hadoop的支持；而利用Hadoop做數據分析依然存在諸多障礙，例如大多數分析師只習慣使用SQL，Hadoop難以實現快速互動式查詢等等。神獸Apache Kylin就是為了解決這些問題而設計的。
Apache Kylin，中文名麒（shen）麟（shou）是Hadoop動物園的重要成員。Apache Kylin是一個開源的分布式分析引擎，最初由eBay開發貢獻至開源社區。它提供Hadoop之上的SQL查詢介面及多維分析（OLAP）能力以支持大規模數據，能夠處理TB乃至PB級別的分析任務，能夠在亞秒級查詢巨大的Hive表，並支持高並發。
Apache Kylin於2014年10月在github開源，並很快在2014年11月加入Apache孵化器，於2015年11月正式畢業成為Apache頂級項目，也成為首個完全由中國團隊設計開發的Apache頂級項目。於2016年3月，Apache Kylin核心開發成員創建了Kyligence公司，力求更好地推動項目和社區的快速發展。
Kyligence是一家專注於大數據分析領域創新的數據科技公司，提供基於Apache Kylin的企業級智能分析平台及產品，以及可靠、專業、源碼級的商業化支持；並推出Apache Kylin開發者培訓，頒發全球唯一的Apache Kylin開發者認證證書。

E. apache spark是什麼意思

n.火花燃做敬;火星;電火花;(指皮慎品質或感情)一星，絲毫，一丁胡裂點。
ingtwohardsubstancestogether。
sburning.
Asparkofaqualityorfeeling,especiallyadesirableone,.一站式出國留學攻略 http://www.offercoming.com

F. 如何建立一個完整可用的安全大數據平台

「
要建立一個大數據系統，我們需要從數據流的源頭跟蹤到最後有價值的輸出，並在現有的Hadoop和大數據生態圈內根據實際需求挑選並整合各部分合適的組件來構建一個能夠支撐多種查詢和分析功能的系統平台。這其中既包括了對數據存儲的選擇，也涵蓋了數據線上和線下處理分離等方面的思考和權衡。此外，沒有任何一個引入大數據解決方案的商業應用在生產環境上承擔的起安全隱患。

1
計算框架篇
大數據的價值

只有在能指導人們做出有價值的決定時，數據才能體現其自身的價值。因此，大數據技術要服務於實際的用途，才是有意義的。一般來說，大數據可以從以下三個方面指導人們做出有價值的決定：

報表生成（比如根據用戶歷史點擊行為的跟蹤和綜合分析、應用程序活躍程度和用戶粘性計算等）；

診斷分析（例如分析為何用戶粘性下降、根據日誌分析系統為何性能下降、垃圾郵件以及病毒的特徵檢測等）；

決策（例如個性化新聞閱讀或歌曲推薦、預測增加哪些功能能增加用戶粘性、幫助廣告主進行廣告精準投放、設定垃圾郵件和病毒攔截策略等）。

圖 1

進一步來看，大數據技術從以下三個方面解決了傳統技術難以達成的目標（如圖1）：

在歷史數據上的低延遲（互動式）查詢，目標是加快決策過程和時間，例如分析一個站點為何變緩慢並嘗試修復它；

在實時數據上的低延遲查詢，目的是幫助用戶和應用程序在實時數據上做出決策，例如實時檢測並阻攔病毒蠕蟲（一個病毒蠕蟲可以在1.3秒內攻擊1百萬台主機）；

更加精細高級的數據處理演算法，這可以幫助用戶做出「更好」的決策，例如圖數據處理、異常點檢測、趨勢分析及其他機器學習演算法。

蛋糕模式

從將數據轉換成價值的角度來說，在Hadoop生態圈十年蓬勃成長的過程中，YARN和Spark這二者可以算得上是里程碑事件。Yarn的出現使得集群資源管理和數據處理流水線分離，大大革新並推動了大數據應用層面各種框架的發展（SQL on Hadoop框架, 流數據，圖數據，機器學習）。

它使得用戶不再受到MapRece開發模式的約束，而是可以創建種類更為豐富的分布式應用程序，並讓各類應用程序運行在統一的架構上，消除了為其他框架維護獨有資源的開銷。就好比一個多層蛋糕，下面兩層是HDFS和Yarn, 而MapRece就只是蛋糕上層的一根蠟燭而已，在蛋糕上還能插各式各樣的蠟燭。

在這一架構體系中，總體數據處理分析作業分三塊（圖2），在HBase上做互動式查詢（Apache Phoenix, Cloudera Impala等），在歷史數據集上編寫MapRece程序抑或利用Hive等做批處理業務，另外對於實時流數據分析Apache Storm則會是一種標准選擇方案。

雖然Yarn的出現極大地豐富了Hadoop生態圈的應用場景，但仍存有兩個顯而易見的挑戰：一是在一個平台上需要維護三個開發堆棧；二是在不同框架內很難共享數據，比如很難在一個框架內對流數據做互動式查詢。這也意味著我們需要一個更為統一和支持更好抽象的計算框架的出現。

圖 2

一統江湖

Spark的出現使得批處理任務，互動式查詢，實時流數據處理被整合到一個統一的框架內（圖3），同時Spark和現有的開源生態系統也能夠很好地兼容（Hadoop, HDFS, Yarn, Hive, Flume）。通過啟用內存分布數據集，優化迭代工作負載，用戶能夠更簡單地操作數據，並在此基礎上開發更為精細的演算法，如機器學習和圖演算法等。

有三個最主要的原因促使Spark目前成為了時下最火的大數據開源社區（擁有超過來自200多個公司的800多個contributors）：

Spark可以擴展部署到超過8000節點並處理PB級別的數據，同時也提供了很多不錯的工具供應用開發者進行管理和部署；

Spark提供了一個互動式shell供開發者可以用Scala或者Python即時性試驗不同的功能；

Spark提供了很多內置函數使得開發者能夠比較容易地寫出低耦合的並且能夠並發執行的代碼，這樣開發人員就更能集中精力地為用戶提供更多的業務功能而不是花費時間在優化並行化代碼之上。

當然Spark也和當年的MapRece一樣不是萬靈葯，比如對實時性要求很高的流數據處理上Apache Storm還是被作為主流選擇，因為Spark Streaming實際上是microbatch（將一個流數據按時間片切成batch,每個batch提交一個job）而不是事件觸發實時系統，所以雖然支持者們認為microbatch在系統延時性上貢獻並不多，但在生產環境中和Apache Storm相比還不是特別能滿足對低延時要求很高的應用場景。

比如在實踐過程中，如果統計每條消息的平均處理時間，很容易達到毫秒級別，但一旦統計類似service assurance（確保某條消息在毫秒基本能被處理完成）的指標，系統的瓶頸有時還是不能避免。

但同時我們不能不注意到，在許多用例當中，與流數據的交互以及和靜態數據集的結合是很有必要的, 例如我們需要在靜態數據集上進行分類器的模型計算，並在已有分類器模型的基礎上，對實時進入系統的流數據進行交互計算來判定類別。

由於Spark的系統設計對各類工作（批處理、流處理以及互動式工作）進行了一個共有抽象，並且生態圈內延伸出了許多豐富的庫（MLlib機器學習庫、SQL語言API、GraphX）, 使得用戶可以在每一批流數據上進行靈活的Spark相關操作，在開發上提供了許多便利。

Spark的成熟使得Hadoop生態圈在短短一年之間發生了翻天覆地的變化， Cloudera和Hortonworks紛紛加入了Spark陣營，而Hadoop項目群中除了Yarn之外已經沒有項目是必須的了（雖然Mesos已在一些場合替代了Yarn）, 因為就連HDFS，Spark都可以不依賴。但很多時候我們仍然需要像Impala這樣的依賴分布式文件系統的MPP解決方案並利用Hive管理文件到表的映射，因此Hadoop傳統生態圈依然有很強的生命力。

另外在這里簡要對比一下互動式分析任務中各類SQL on Hadoop框架，因為這也是我們在實際項目實施中經常遇到的問題。我們主要將注意力集中在Spark SQL, Impala和Hive on Tez上, 其中Spark SQL是三者之中歷史最短的，論文發表在15年的SIGMOD會議上，原文對比了數據倉庫上不同類型的查詢在Shark（Spark最早對SQL介面提供的支持）、Spark SQL和Impala上的性能比較。

也就是說，雖然Spark SQL在Shark的基礎上利用Catalyst optimizer在代碼生成上做了很多優化，但總體性能還是比不上Impala, 尤其是當做join操作的時候， Impala可以利用「predicate pushdown」更早對表進行選擇操作從而提高性能。

不過Spark SQL的Catalyst optimizer一直在持續優化中，相信未來會有更多更好的進展。Cloudera的Benchmark評測中Impala一直比其他SQL on Hadoop框架性能更加優越，但同時Hortonworks評測則指出雖然單個數據倉庫查詢Impala可以在很短的時間內完成，但是一旦並發多個查詢Hive on Tez的優勢就展示出來。另外Hive on Tez在SQL表達能力也要比Impala更強（主要是因為Impala的嵌套存儲模型導致的），因此根據不同的場景選取不同的解決方案是很有必要的。

圖 3

各領風騷抑或代有才人出？

近一年比較吸引人眼球的Apache Flink（與Spark一樣已有5年歷史，前身已經是柏林理工大學一個研究性項目，被其擁躉推崇為繼MapRece, Yarn，Spark之後第四代大數據分析處理框架）。與Spark相反，Flink是一個真正的實時流數據處理系統，它將批處理看作是流數據的特例，同Spark一樣它也在嘗試建立一個統一的平台運行批量，流數據，互動式作業以及機器學習，圖演算法等應用。

Flink有一些設計思路是明顯區別於Spark的，一個典型的例子是內存管理，Flink從一開始就堅持自己精確的控制內存使用並且直接操作二進制數據，而Spark一直到1.5版本都還是試用java的內存管理來做數據緩存，這也導致了Spark很容易遭受OOM以及JVM GC帶來的性能損失。

但是從另外一個角度來說, Spark中的RDD在運行時被存成java objects的設計模式也大大降低了用戶編程設計門檻，同時隨著Tungsten項目的引入，Spark現在也逐漸轉向自身的內存管理，具體表現為Spark生態圈內從傳統的圍繞RDD（分布式java對象集合）為核心的開發逐漸轉向以DataFrame(分布式行對象集合)為核心。

總的來說，這兩個生態圈目前都在互相學習，Flink的設計基因更為超前一些，但Spark社區活躍度大很多，發展到目前毫無疑問是更為成熟的選擇，比如對數據源的支持（HBase, Cassandra, Parquet, JSON, ORC）更為豐富以及更為統一簡潔的計算表示。另一方面，Apache Flink作為一個由歐洲大陸發起的項目，目前已經擁有來自北美、歐洲以及亞洲的許多貢獻者，這是否能夠一改歐洲在開源世界中一貫的被動角色，我們將在未來拭目以待。

2
NoSQL資料庫篇
NoSQL資料庫在主流選擇上依舊集中在MongoDB, HBase和Cassandra這三者之間。在所有的NoSQL選擇中，用C 編寫的MongoDB幾乎應該是開發者最快也最易部署的選擇。MongoDB是一個面向文檔的資料庫，每個文檔／記錄／數據（包括爬取的網頁數據及其他大型對象如視頻等）是以一種BSON（Binary JSON）的二進制數據格式存儲, 這使得MongoDB並不需要事先定義任何模式, 也就是模式自由（可以把完全不同結構的記錄放在同一個資料庫里）。

MongoDB對於完全索引的支持在應用上是很方便的，同時也具備一般NoSQL分布式資料庫中可擴展，支持復制和故障恢復等功能。 MongoDB一般應用於高度伸縮性的緩存及大尺寸的JSON數據存儲業務中，但不能執行「JOIN」操作，而且數據佔用空間也比較大，最被用戶詬病的就是由於MongoDB提供的是資料庫級鎖粒度導致在一些情況下建索引操作會引發整個資料庫阻塞。一般來說，MongoDB完全可以滿足一些快速迭代的中小型項目的需求。

下面來主要談談Cassandra和HBase之間的比較選擇。Cassandra和HBase有著截然不同的基因血統。HBase和其底層依賴的系統架構源自於著名的Google FileSystem（發表於2003年）和Google BigTable設計（發表於2006年），其克服了HDFS注重吞吐量卻犧牲I/O的缺點，提供了一個存儲中間層使得用戶或者應用程序可以隨機讀寫數據。

具體來說，HBase的更新和刪除操作實際上是先發生在內存MemStore中，當MemStore滿了以後會Flush到StoreFile, 之後當StoreFile文件數量增長到一定閾值後會觸發Compact合並操作，因此HBase的更新操作其實是不斷追加的操作，而最終所有更新和刪除數據的持久化操作都是在之後Compact過程中進行的。

這使得應用程序在向內存MemStore寫入數據後，所做的修改馬上就能得到反映，用戶讀到的數據絕不會是陳舊的數據，保證了I/O高性能和數據完全一致性；另一方面來說， HBase基於Hadoop生態系統的基因就已經決定了他自身的高度可擴展性、容錯性。

在數據模型上，Cassandra和HBase類似實現了一個key-value提供面向列式存儲服務，其系統設計參考了 Amazon Dynamo (發表於2007年) 分布式哈希（DHT）的P2P結構（實際上大部分Cassandra的初始工作都是由兩位從Amazon的Dynamo組跳槽到Facebook的工程師完成)，同樣具有很高的可擴展性和容錯性等特點。

除此之外，相對HBase的主從結構，Cassandra去中心化的P2P結構能夠更簡單地部署和維護，比如增加一台機器只需告知Cassandra系統新節點在哪，剩下的交給系統完成就行了。同時，Cassandra對多數據中心的支持也更好，如果需要在多個數據中心進行數據遷移Cassandra會是一個更優的選擇。

Eric Brewer教授提出的經典CAP理論認為任何基於網路的數據共享系統，最多隻能滿足數據一致性、可用性、分區容忍性三要素中的兩個要素。實際分布式系統的設計過程往往都是在一致性與可用性上進行取捨，相比於HBase數據完全一致性的系統設計，Cassandra選擇了在優先考慮數據可用性的基礎上讓用戶自己根據應用程序需求決定系統一致性級別。

比如：用戶可以配置QUONUM參數來決定系統需要幾個節點返回數據才能向客戶端做出響應，ONE指只要有一個節點返回數據就可以對客戶端做出響應，ALL指等於數據復制份數的所有節點都返回結果才能向客戶端做出響應，對於數據一致性要求不是特別高的可以選擇ONE，它是最快的一種方式。

從基因和發展歷史上來說，HBase更適合用做數據倉庫和大規模數據處理與分析（比如對網頁數據建立索引），而Cassandra則更適合用作實時事務和互動式查詢服務。Cassandra在國外市場佔有比例和發展要遠比國內紅火，在不少權威測評網站上排名都已經超過了HBase。目前Apache Cassandra的商業化版本主要由軟體公司DataStax進行開發和銷售推廣。另外還有一些NoSQL分布式資料庫如Riak, CouchDB也都在各自支持的廠商推動下取得了不錯的發展。

雖然我們也考慮到了HBase在實際應用中的不便之處比如對二級索引的支持程度不夠（只支持通過單個行鍵訪問，通過行鍵的范圍查詢，全表掃描），不過在明略的大數據基礎平台上，目前整合的是依然是HBase。

理由也很簡單，HBase出身就與Hadoop的生態系統緊密集成，其能夠很容易與其他SQL on Hadoop框架（Cloudera Impala, Apache Phoenix, or Hive on Tez）進行整合，而不需要重新部署一套分布式資料庫系統，而且可以很方便地將同樣的數據內容在同一個生態系統中根據不同框架需要來變換存儲格式（比如存儲成Hive表或者Parquet格式）。

我們在很多項目中都有需要用到多種SQL on Hadoop框架，來應對不同應用場景的情況，也體會到了在同一生態系統下部署多種框架的簡便性。但同時我們也遇到了一些問題，因為HBase項目本身與HDFS和Zookeeper系統分別是由不同開源團隊進行維護的，所以在系統整合時我們需要先對HBase所依賴的其他模塊進行設置再對HBase進行配置，在一定程度上降低了系統維護的友好性。

目前我們也已經在考慮將Cassandra應用到一些新的客戶項目中，因為很多企業級的應用都需要將線上線下資料庫進行分離，HBase更適合存儲離線處理的結果和數據倉庫，而更適合用作實時事務和並發交互性能更好的Cassandra作為線上服務資料庫會是一種很好的選擇。

3
大數據安全篇
隨著越來越多各式各樣的數據被存儲在大數據系統中，任何對企業級數據的破壞都是災難性的，從侵犯隱私到監管違規，甚至會造成公司品牌的破壞並最終影響到股東收益。給大數據系統提供全面且有效的安全解決方案的需求已經十分迫切：

大數據系統存儲著許多重要且敏感的數據，這些數據是企業長久以來的財富

與大數據系統互動的外部系統是動態變化的，這會給系統引入新的安全隱患

在一個企業的內部，不同Business Units會用不同的方式與大數據系統進行交互，比如線上的系統會實時給集群推送數據、數據科學家團隊則需要分析存儲在數據倉庫內的歷史數據、運維團隊則會需要對大數據系統擁有管理許可權。

因此為了保護公司業務、客戶、財務和名譽免於被侵害，大數據系統運維團隊必須將系統安全高度提高到和其他遺留系統一樣的級別。同時大數據系統並不意味著引入大的安全隱患，通過精細完整的設計，仍然能夠把一些傳統的系統安全解決方案對接到最新的大數據集群系統中。

一般來說，一個完整的企業級安全框架包括五個部分：

Administration: 大數據集群系統的集中式管理，設定全局一致的安全策略

Authentication: 對用戶和系統的認證

Authorization：授權個人用戶和組對數據的訪問許可權

Audit：維護數據訪問的日誌記錄

Data Protection：數據脫敏和加密以達到保護數據的目的

系統管理員要能夠提供覆蓋以上五個部分的企業級安全基礎設施，否則任何一環的缺失都可能給整個系統引入安全性風險。

在大數據系統安全集中式管理平台這塊，由Hortonworks推出的開源項目Apache Ranger就可以十分全面地為用戶提供Hadoop生態圈的集中安全策略的管理，並解決授權(Authorization)和審計(Audit)。例如，運維管理員可以輕松地為個人用戶和組對文件、數據等的訪問策略，然後審計對數據源的訪問。

與Ranger提供相似功能的還有Cloudera推出的Apache Sentry項目，相比較而言Ranger的功能會更全面一些。

而在認證（Authentication）方面, 一種普遍採用的解決方案是將基於Kerberos的認證方案對接到企業內部的LDAP環境中， Kerberos也是唯一為Hadoop全面實施的驗證技術。

另外值得一提的是Apache Knox Gateway項目，與Ranger提高集群內部組件以及用戶互相訪問的安全不同，Knox提供的是Hadoop集群與外界的唯一交互介面，也就是說所有與集群交互的REST API都通過Knox處理。這樣，Knox就給大數據系統提供了一個很好的基於邊緣的安全（perimeter-based security）。

基於以上提到的五個安全指標和Hadoop生態圈安全相關的開源項目，已經足已證明基於Hadoop的大數據平台我們是能夠構建一個集中、一致、全面且有效的安全解決方案。
我市再ITjob管網上面找的

G. 大數據能做什麼哪些領域會使用到大數據呢

零售行業、零售行業大數據應用有兩個層面，一個層面升液是零售行業可以了解客戶的消費喜好和趨勢，進行商品的精準營銷，降低營銷成本。另一個層面是依據客戶購買的產品，為客戶提供可能購買的其他產品，擴大銷售額，也屬於精準營銷范疇。未來考驗零售企業的是如悄碰何挖掘消費者需求，以及高效整合供應鏈滿足其需求的能力，因此，信息技術水平的高低成為獲得競爭優勢的關鍵要素。
金融行業、銀行數據應用場景：利用數據挖掘來分析出一些交易數據背後的商業價值。保險數據應用場景：用數據來提升保險產品的精算水平，提高利潤水平和投資收益。證券數據應用場景：對客戶交易習慣和行為分析可以幫助證券公司獲得更多的收益。
教育行業、信息技術已在教啟笑談育領域有了越來越廣泛的應用，教學、考試、師生互動、校園安全、家校關系等，只要技術達到的地方，各個環節都被數據包裹。通過大數據的分析來優化教育機制，也可以作出更科學的決策，這將帶來潛在的教育革命，在不久的將來，個性化學習終端將會更多地融入學習資源雲平台，根據每個學生的不同興趣愛好和特長，推送相關領域的前沿技術、資訊、資源乃至未來職業發展方向。
醫療行業擁有大量的病例、病理報告、治癒方案、葯物報告等，通過對這些數據進行整理和分析將會極大地輔助醫生提出治療方案，幫助病人早日康復。可以構建大數據平台來收集不同病例和治療方案，以及病人的基本特徵，建立針對疾病特點的資料庫，幫助醫生進行疾病診斷。醫療行業的大數據應用一直在進行，但是數據並沒有完全打通，基本都是孤島數據，沒辦法進行大規模的應用。未來可以將這些數據統一採集起來，納入統一的大數據平台，為人類健康造福。

H. apache開源項目有哪些

數據探查與可視化平台 Superset [推薦]
分布式資料庫 Apache HBase
分布式系統基礎架構 Hadoop [推薦]
Java 全文搜索框架 Lucene [推薦]
純 Java 的 FTP 伺服器 Apache FtpServer [推薦]
Java連接池 DBCP [推薦]
資料庫查詢工具包 DbUtils [推薦]
JMS消息伺服器 ActiveMQ [推薦]
分布式發布訂閱消息系統 Kafka [推薦]
HBase 的 SQL 驅動 Apache Phoenix [推薦]

導航:首頁 > 網路數據 > apache大數據開源項目

apache大數據開源項目

與apache大數據開源項目相關的資料

友情鏈接