『壹』 怎樣學習大數據
1.首先,我們想學習大數據,就要了解一下大數據的前景。大數據廣泛應用於電版網運行權、經營管理及優質服務等各大領域,並正在改變著各行各業,也引領了大數據人才的變革。大數據就業前景怎麼樣?這對於在就業迷途中的我們是一個很重要的信息。隨著國家重視大數據,政府扶持大數據,大數據在企業中生根發芽,開花結果。未來三至五年,中國需要180萬數據人才,但目前只有約30萬人。到2020年,企業基於大數據計算分析存儲、數據挖掘、數據分析等數據產業的發展,我國需要更多的數據人才。
2.學大數據之前,要有一定的電腦基礎,如果對電腦一竅不通,那麼無法快速接觸,因為大數據就是電腦專業。大數據屬於編程,學大數據java這一塊很重要,JAVA是學習大數據的基礎。正所謂基礎打撈才能學得更好。
3.我介意去專業的電腦學校學習,學校從辦學開始就一張從事計算機專業,那麼學校就會有專業的老師,專業的設備。
『貳』 Redis集群方案應該怎麼做
通常,為了提高網站響應速度,總是把熱點數據保存在內存中而不是直接從後端資料庫中讀取。Redis是一個很好的Cache工具。大型網站應用,熱點數據量往往巨大,幾十G上百G是很正常的事兒,在這種情況下,如何正確架構Redis呢?
首先,無論我們是使用自己的物理主機,還是使用雲服務主機,內存資源往往是有限制的,scale up不是一個好辦法,我們需要scale out橫向可伸縮擴展,這需要由多台主機協同提供服務,即分布式多個Redis實例協同運行。
其次,目前硬體資源成本降低,多核CPU,幾十G內存的主機很普遍,對於主進程是單線程工作的Redis,只運行一個實例就顯得有些浪費。同時,管理一個巨大內存不如管理相對較小的內存高效。因此,實際使用中,通常一台機器上同時跑多個Redis實例。
方案
1.Redis官方集群方案 Redis Cluster
Redis Cluster是一種伺服器Sharding技術,3.0版本開始正式提供。
Redis
Cluster中,Sharding採用slot(槽)的概念,一共分成16384個槽,這有點兒類似前面講的pre
sharding思路。對於每個進入Redis的鍵值對,根據key進行散列,分配到這16384個slot中的某一個中。使用的hash演算法也比較簡
單,就是CRC16後16384取模。
Redis集群中的每個node(節點)負責分攤這16384個slot中的一部分,也就是說,每個
slot都對應一個node負責處理。當動態添加或減少node節點時,需要將16384個槽做個再分配,槽中的鍵值也要遷移。當然,這一過程,在目前實
現中,還處於半自動狀態,需要人工介入。
Redis集群,要保證16384個槽對應的node都正常工作,如果某個node發生故障,那它負責的slots也就失效,整個集群將不能工作。
為
了增加集群的可訪問性,官方推薦的方案是將node配置成主從結構,即一個master主節點,掛n個slave從節點。這時,如果主節點失
效,Redis Cluster會根據選舉演算法從slave節點中選擇一個上升為主節點,整個集群繼續對外提供服務。這非常類似前篇文章提到的Redis
Sharding場景下伺服器節點通過Sentinel監控架構成主從結構,只是Redis Cluster本身提供了故障轉移容錯的能力。
Redis
Cluster的新節點識別能力、故障判斷及故障轉移能力是通過集群中的每個node都在和其它nodes進行通信,這被稱為集群匯流排(cluster
bus)。它們使用特殊的埠號,即對外服務埠號加10000。例如如果某個node的埠號是6379,那麼它與其它nodes通信的埠號是
16379。nodes之間的通信採用特殊的二進制協議。
對客戶端來說,整個cluster被看做是一個整體,客戶端可以連接任意一個
node進行操作,就像操作單一Redis實例一樣,當客戶端操作的key沒有分配到該node上時,Redis會返回轉向指令,指向正確的node,這
有點兒像瀏覽器頁面的302 redirect跳轉。
Redis Cluster是Redis 3.0以後才正式推出,時間較晚,目前能證明在大規模生產環境下成功的案例還不是很多,需要時間檢驗。
2.Redis Sharding集群
Redis 3正式推出了官方集群技術,解決了多Redis實例協同服務問題。Redis Cluster可以說是服務端Sharding分片技術的體現,即將鍵值按照一定演算法合理分配到各個實例分片上,同時各個實例節點協調溝通,共同對外承擔一致服務。
多Redis實例服務,比單Redis實例要復雜的多,這涉及到定位、協同、容錯、擴容等技術難題。這里,我們介紹一種輕量級的客戶端Redis Sharding技術。
Redis
Sharding可以說是Redis
Cluster出來之前,業界普遍使用的多Redis實例集群方法。其主要思想是採用哈希演算法將Redis數據的key進行散列,通過hash函數,特定
的key會映射到特定的Redis節點上。這樣,客戶端就知道該向哪個Redis節點操作數據。Sharding架構如圖:
慶幸的是,java redis客戶端驅動jedis,已支持Redis Sharding功能,即ShardedJedis以及結合緩存池的ShardedJedisPool。
Jedis的Redis Sharding實現具有如下特點:
采
用一致性哈希演算法(consistent
hashing),將key和節點name同時hashing,然後進行映射匹配,採用的演算法是MURMUR_HASH。採用一致性哈希而不是採用簡單類
似哈希求模映射的主要原因是當增加或減少節點時,不會產生由於重新匹配造成的rehashing。一致性哈希隻影響相鄰節點key分配,影響量小。
2.
為了避免一致性哈希隻影響相鄰節點造成節點分配壓力,ShardedJedis會對每個Redis節點根據名字(沒有,Jedis會賦予預設名字)會虛擬
化出160個虛擬節點進行散列。根據權重weight,也可虛擬化出160倍數的虛擬節點。用虛擬節點做映射匹配,可以在增加或減少Redis節點
時,key在各Redis節點移動再分配更均勻,而不是只有相鄰節點受影響。
3.ShardedJedis支持keyTagPattern模式,即抽取key的一部分keyTag做sharding,這樣通過合理命名key,可以將一組相關聯的key放入同一個Redis節點,這在避免跨節點訪問相關數據時很重要。
Redis Sharding採用客戶端Sharding方式,服務端Redis還是一個個相對獨立的Redis實例節點,沒有做任何變動。同時,我們也不需要增加額外的中間處理組件,這是一種非常輕量、靈活的Redis多實例集群方法。
當然,Redis Sharding這種輕量靈活方式必然在集群其它能力方面做出妥協。比如擴容,當想要增加Redis節點時,盡管採用一致性哈希,畢竟還是會有key匹配不到而丟失,這時需要鍵值遷移。
作為輕量級客戶端sharding,處理Redis鍵值遷移是不現實的,這就要求應用層面允許Redis中數據丟失或從後端資料庫重新載入數據。但有些時候,擊穿緩存層,直接訪問資料庫層,會對系統訪問造成很大壓力。有沒有其它手段改善這種情況?
Redis
作者給出了一個比較討巧的辦法--presharding,即預先根據系統規模盡量部署好多個Redis實例,這些實例佔用系統資源很小,一台物理機可部
署多個,讓他們都參與sharding,當需要擴容時,選中一個實例作為主節點,新加入的Redis節點作為從節點進行數據復制。數據同步後,修改
sharding配置,讓指向原實例的Shard指向新機器上擴容後的Redis節點,同時調整新Redis節點為主節點,原實例可不再使用。
presharding
是預先分配好足夠的分片,擴容時只是將屬於某一分片的原Redis實例替換成新的容量更大的Redis實例。參與sharding的分片沒有改變,所以也
就不存在key值從一個區轉移到另一個分片區的現象,只是將屬於同分片區的鍵值從原Redis實例同步到新Redis實例。
並不是只有增
刪Redis節點引起鍵值丟失問題,更大的障礙來自Redis節點突然宕機。在《Redis持久化》一文中已提到,為不影響Redis性能,盡量不開啟
AOF和RDB文件保存功能,可架構Redis主備模式,主Redis宕機,數據不會丟失,備Redis留有備份。
這樣,我們的架構模式變
成一個Redis節點切片包含一個主Redis和一個備Redis。在主Redis宕機時,備Redis接管過來,上升為主Redis,繼續提供服務。主
備共同組成一個Redis節點,通過自動故障轉移,保證了節點的高可用性。則Sharding架構演變成:
Redis Sentinel提供了主備模式下Redis監控、故障轉移功能達到系統的高可用性。
高訪問量下,即使採用Sharding分片,一個單獨節點還是承擔了很大的訪問壓力,這時我們還需要進一步分解。通常情況下,應用訪問Redis讀操作量和寫操作量差異很大,讀常常是寫的數倍,這時我們可以將讀寫分離,而且讀提供更多的實例數。
可以利用主從模式實現讀寫分離,主負責寫,從負責只讀,同時一主掛多個從。在Sentinel監控下,還可以保障節點故障的自動監測。
3.利用代理中間件實現大規模Redis集群
上面分別介紹了多Redis伺服器集群的兩種方式,它們是基於客戶端sharding的Redis Sharding和基於服務端sharding的Redis Cluster。
客戶端sharding技術其優勢在於服務端的Redis實例彼此獨立,相互無關聯,每個Redis實例像單伺服器一樣運行,非常容易線性擴展,系統的靈活性很強。其不足之處在於:
由於sharding處理放到客戶端,規模進步擴大時給運維帶來挑戰。
服務端Redis實例群拓撲結構有變化時,每個客戶端都需要更新調整。
連接不能共享,當應用規模增大時,資源浪費制約優化。
服務端sharding的Redis Cluster其優勢在於服務端Redis集群拓撲結構變化時,客戶端不需要感知,客戶端像使用單Redis伺服器一樣使用Redis集群,運維管理也比較方便。
不過Redis Cluster正式版推出時間不長,系統穩定性、性能等都需要時間檢驗,尤其在大規模使用場合。
能不能結合二者優勢?即能使服務端各實例彼此獨立,支持線性可伸縮,同時sharding又能集中處理,方便統一管理?本篇介紹的Redis代理中間件twemproxy就是這樣一種利用中間件做sharding的技術。
twemproxy處於客戶端和伺服器的中間,將客戶端發來的請求,進行一定的處理後(如sharding),再轉發給後端真正的Redis伺服器。也就是說,客戶端不直接訪問Redis伺服器,而是通過twemproxy代理中間件間接訪問。
參照Redis Sharding架構,增加代理中間件的Redis集群架構如下:
twemproxy中間件的內部處理是無狀態的,它本身可以很輕松地集群,這樣可避免單點壓力或故障。
twemproxy又叫nutcracker,起源於twitter系統中redis/memcached集群開發實踐,運行效果良好,後代碼奉獻給開源社區。其輕量高效,採用C語言開發,工程網址是:GitHub - twitter/twemproxy: A fast, light-weight proxy for memcached and redis
twemproxy後端不僅支持redis,同時也支持memcached,這是twitter系統具體環境造成的。
由於使用了中間件,twemproxy可以通過共享與後端系統的連接,降低客戶端直接連接後端伺服器的連接數量。同時,它也提供sharding功能,支持後端伺服器集群水平擴展。統一運維管理也帶來了方便。
當然,也是由於使用了中間件代理,相比客戶端直連伺服器方式,性能上會有所損耗,實測結果大約降低了20%左右。