Ⅰ 大數據分析的框架有哪些,各自有什麼特點
主流的大數據分析平台構架
1 Hadoop
Hadoop 採用 Map Rece 分布式計算框架,根據 GFS開發了 HDFS 分布式文件系統,根據 Big Table 開發了 HBase數據存儲系統。Hadoop 的開源特性使其成為分布式計算系統的事實上的國際標准。Yahoo,Facebook,Amazon 以及國內的網路,阿里巴巴等眾多互聯網公司都以 Hadoop 為基礎搭建自己的分布。
2 Spark
Spark 是在 Hadoop 的基礎上進行了一些架構上的改良。Spark 與Hadoop 最大的不同點在於,Hadoop 使用硬碟來存儲數據,而Spark 使用內存來存儲數據,因此 Spark 可以提供超過 Ha?doop 100 倍的運算速度。由於內存斷電後會丟失數據,Spark不能用於處理需要長期保存的數據。
3 Storm
Storm是 Twitter 主推的分布式計算系統。它在Hadoop的基礎上提供了實時運算的特性,可以實時的處理大數據流。不同於Hadoop和Spark,Storm不進行數據的收集和存儲工作,它直接通過網路實時的接受數據並且實時的處理數據,然後直接通過網路實時的傳回結果。
4Samza
Samza 是由 Linked In 開源的一項技術,是一個分布式流處理框架,專用於實時數據的處理,非常像Twitter的流處理系統Storm。不同的是Sam?za 基於 Hadoop,而且使用了 Linked In 自家的 Kafka 分布式消息系統。
Samza 非常適用於實時流數據處理的業務,如數據跟蹤、日誌服務、實時服務等應用,它能夠幫助開發者進行高速消息處理,同時還具有良好的容錯能力。
Ⅱ 澶ф暟鎹鎶鏈鏍堝寘鎷鍝浜涳紵
鎶鏈鏍堬紙Technology Stack錛夋槸鎸囩敤浜庡紑鍙戝拰榪愯屼竴涓搴旂敤紼嬪簭鐨勪竴浜涙妧鏈銆佹嗘灦鍜屽伐鍏風殑闆嗗悎銆
澶ф暟鎹鎶鏈鏍