① 大數據核心技術有哪些
大數據技術的體系龐大且復雜,基礎的技術包含數據的採集、數據預處理、分布式存儲、NoSQL資料庫、數據倉庫、機器學習、並行計算、可視化等各種技術范疇和不同的技術層面。首先給出一個通用化的大數據處理框架,主要分為下面幾個方面:數據採集與預處理、數據存儲、數據清洗、數據查詢分析和數據可視化。
一、數據採集與預處理
對於各種來源的數據,包括移動互聯網數據、社交網路的數據等,這些結構化和非結構化的海量數據是零散的,也就是所謂的數據孤島,此時的這些數據並沒有什麼意義,數據採集就是將這些數據寫入數據倉庫中,把零散的數據整合在一起,對這些數據綜合起來進行分析。數據採集包括文件日誌的採集、資料庫日誌的採集、關系型資料庫的接入和應用程序的接入等。在數據量比較小的時候,可以寫個定時的腳本將日誌寫入存儲系統,但隨著數據量的增長,這些方法無法提供數據安全保障,並且運維困難,需要更強壯的解決方案。
Flume NG作為實時日誌收集系統,支持在日誌系統中定製各類數據發送方,用於收集數據,同時,對數據進行簡單處理,並寫到各種數據接收方(比如文本,HDFS,Hbase等)。Flume NG採用的是三層架構:Agent層,Collector層和Store層,每一層均可水平拓展。其中Agent包含Source,Channel和 Sink,source用來消費(收集)數據源到channel組件中,channel作為中間臨時存儲,保存所有source的組件信息,sink從channel中讀取數據,讀取成功之後會刪除channel中的信息。
NDC,Netease Data Canal,直譯為網易數據運河系統,是網易針對結構化資料庫的數據實時遷移、同步和訂閱的平台化解決方案。它整合了網易過去在數據傳輸領域的各種工具和經驗,將單機資料庫、分布式資料庫、OLAP系統以及下游應用通過數據鏈路串在一起。除了保障高效的數據傳輸外,NDC的設計遵循了單元化和平台化的設計哲學。
Logstash是開源的伺服器端數據處理管道,能夠同時從多個來源採集數據、轉換數據,然後將數據發送到您最喜歡的 「存儲庫」 中。一般常用的存儲庫是Elasticsearch。Logstash 支持各種輸入選擇,可以在同一時間從眾多常用的數據來源捕捉事件,能夠以連續的流式傳輸方式,輕松地從您的日誌、指標、Web 應用、數據存儲以及各種 AWS 服務採集數據。
Sqoop,用來將關系型資料庫和Hadoop中的數據進行相互轉移的工具,可以將一個關系型資料庫(例如Mysql、Oracle)中的數據導入到Hadoop(例如HDFS、Hive、Hbase)中,也可以將Hadoop(例如HDFS、Hive、Hbase)中的數據導入到關系型資料庫(例如Mysql、Oracle)中。Sqoop 啟用了一個 MapRece 作業(極其容錯的分布式並行計算)來執行任務。Sqoop 的另一大優勢是其傳輸大量結構化或半結構化數據的過程是完全自動化的。
流式計算是行業研究的一個熱點,流式計算對多個高吞吐量的數據源進行實時的清洗、聚合和分析,可以對存在於社交網站、新聞等的數據信息流進行快速的處理並反饋,目前大數據流分析工具有很多,比如開源的strom,spark streaming等。
Strom集群結構是有一個主節點(nimbus)和多個工作節點(supervisor)組成的主從結構,主節點通過配置靜態指定或者在運行時動態選舉,nimbus與supervisor都是Storm提供的後台守護進程,之間的通信是結合Zookeeper的狀態變更通知和監控通知來處理。nimbus進程的主要職責是管理、協調和監控集群上運行的topology(包括topology的發布、任務指派、事件處理時重新指派任務等)。supervisor進程等待nimbus分配任務後生成並監控worker(jvm進程)執行任務。supervisor與worker運行在不同的jvm上,如果由supervisor啟動的某個worker因為錯誤異常退出(或被kill掉),supervisor會嘗試重新生成新的worker進程。
當使用上游模塊的數據進行計算、統計、分析時,就可以使用消息系統,尤其是分布式消息系統。Kafka使用Scala進行編寫,是一種分布式的、基於發布/訂閱的消息系統。Kafka的設計理念之一就是同時提供離線處理和實時處理,以及將數據實時備份到另一個數據中心,Kafka可以有許多的生產者和消費者分享多個主題,將消息以topic為單位進行歸納;Kafka發布消息的程序稱為procer,也叫生產者,預訂topics並消費消息的程序稱為consumer,也叫消費者;當Kafka以集群的方式運行時,可以由一個服務或者多個服務組成,每個服務叫做一個broker,運行過程中procer通過網路將消息發送到Kafka集群,集群向消費者提供消息。Kafka通過Zookeeper管理集群配置,選舉leader,以及在Consumer Group發生變化時進行rebalance。Procer使用push模式將消息發布到broker,Consumer使用pull模式從broker訂閱並消費消息。Kafka可以和Flume一起工作,如果需要將流式數據從Kafka轉移到hadoop,可以使用Flume代理agent,將Kafka當做一個來源source,這樣可以從Kafka讀取數據到Hadoop。
Zookeeper是一個分布式的,開放源碼的分布式應用程序協調服務,提供數據同步服務。它的作用主要有配置管理、名字服務、分布式鎖和集群管理。配置管理指的是在一個地方修改了配置,那麼對這個地方的配置感興趣的所有的都可以獲得變更,省去了手動拷貝配置的繁瑣,還很好的保證了數據的可靠和一致性,同時它可以通過名字來獲取資源或者服務的地址等信息,可以監控集群中機器的變化,實現了類似於心跳機制的功能。
二、數據存儲
Hadoop作為一個開源的框架,專為離線和大規模數據分析而設計,HDFS作為其核心的存儲引擎,已被廣泛用於數據存儲。
HBase,是一個分布式的、面向列的開源資料庫,可以認為是hdfs的封裝,本質是數據存儲、NoSQL資料庫。HBase是一種Key/Value系統,部署在hdfs上,克服了hdfs在隨機讀寫這個方面的缺點,與hadoop一樣,Hbase目標主要依靠橫向擴展,通過不斷增加廉價的商用伺服器,來增加計算和存儲能力。
Phoenix,相當於一個java中間件,幫助開發工程師能夠像使用JDBC訪問關系型資料庫一樣訪問NoSQL資料庫HBase。
Yarn是一種Hadoop資源管理器,可為上層應用提供統一的資源管理和調度,它的引入為集群在利用率、資源統一管理和數據共享等方面帶來了巨大好處。Yarn由下面的幾大組件構成:一個全局的資源管理器ResourceManager、ResourceManager的每個節點代理NodeManager、表示每個應用的Application以及每一個ApplicationMaster擁有多個Container在NodeManager上運行。
Mesos是一款開源的集群管理軟體,支持Hadoop、ElasticSearch、Spark、Storm 和Kafka等應用架構。
Redis是一種速度非常快的非關系資料庫,可以存儲鍵與5種不同類型的值之間的映射,可以將存儲在內存的鍵值對數據持久化到硬碟中,使用復制特性來擴展性能,還可以使用客戶端分片來擴展寫性能。
Atlas是一個位於應用程序與MySQL之間的中間件。在後端DB看來,Atlas相當於連接它的客戶端,在前端應用看來,Atlas相當於一個DB。Atlas作為服務端與應用程序通訊,它實現了MySQL的客戶端和服務端協議,同時作為客戶端與MySQL通訊。它對應用程序屏蔽了DB的細節,同時為了降低MySQL負擔,它還維護了連接池。Atlas啟動後會創建多個線程,其中一個為主線程,其餘為工作線程。主線程負責監聽所有的客戶端連接請求,工作線程只監聽主線程的命令請求。
Ku是圍繞Hadoop生態圈建立的存儲引擎,Ku擁有和Hadoop生態圈共同的設計理念,它運行在普通的伺服器上、可分布式規模化部署、並且滿足工業界的高可用要求。其設計理念為fast analytics on fast data。作為一個開源的存儲引擎,可以同時提供低延遲的隨機讀寫和高效的數據分析能力。Ku不但提供了行級的插入、更新、刪除API,同時也提供了接近Parquet性能的批量掃描操作。使用同一份存儲,既可以進行隨機讀寫,也可以滿足數據分析的要求。Ku的應用場景很廣泛,比如可以進行實時的數據分析,用於數據可能會存在變化的時序數據應用等。
在數據存儲過程中,涉及到的數據表都是成千上百列,包含各種復雜的Query,推薦使用列式存儲方法,比如parquent,ORC等對數據進行壓縮。Parquet 可以支持靈活的壓縮選項,顯著減少磁碟上的存儲。
三、數據清洗
MapRece作為Hadoop的查詢引擎,用於大規模數據集的並行計算,」Map(映射)」和」Rece(歸約)」,是它的主要思想。它極大的方便了編程人員在不會分布式並行編程的情況下,將自己的程序運行在分布式系統中。
隨著業務數據量的增多,需要進行訓練和清洗的數據會變得越來越復雜,這個時候就需要任務調度系統,比如oozie或者azkaban,對關鍵任務進行調度和監控。
Oozie是用於Hadoop平台的一種工作流調度引擎,提供了RESTful API介面來接受用戶的提交請求(提交工作流作業),當提交了workflow後,由工作流引擎負責workflow的執行以及狀態的轉換。用戶在HDFS上部署好作業(MR作業),然後向Oozie提交Workflow,Oozie以非同步方式將作業(MR作業)提交給Hadoop。這也是為什麼當調用Oozie 的RESTful介面提交作業之後能立即返回一個JobId的原因,用戶程序不必等待作業執行完成(因為有些大作業可能會執行很久(幾個小時甚至幾天))。Oozie在後台以非同步方式,再將workflow對應的Action提交給hadoop執行。
Azkaban也是一種工作流的控制引擎,可以用來解決有多個hadoop或者spark等離線計算任務之間的依賴關系問題。azkaban主要是由三部分構成:Relational Database,Azkaban Web Server和Azkaban Executor Server。azkaban將大多數的狀態信息都保存在MySQL中,Azkaban Web Server提供了Web UI,是azkaban主要的管理者,包括project的管理、認證、調度以及對工作流執行過程中的監控等;Azkaban Executor Server用來調度工作流和任務,記錄工作流或者任務的日誌。
流計算任務的處理平台Sloth,是網易首個自研流計算平台,旨在解決公司內各產品日益增長的流計算需求。作為一個計算服務平台,其特點是易用、實時、可靠,為用戶節省技術方面(開發、運維)的投入,幫助用戶專注於解決產品本身的流計算需求。
四、數據查詢分析
Hive的核心工作就是把SQL語句翻譯成MR程序,可以將結構化的數據映射為一張資料庫表,並提供 HQL(Hive SQL)查詢功能。Hive本身不存儲和計算數據,它完全依賴於HDFS和MapRece。可以將Hive理解為一個客戶端工具,將SQL操作轉換為相應的MapRece jobs,然後在hadoop上面運行。Hive支持標準的SQL語法,免去了用戶編寫MapRece程序的過程,它的出現可以讓那些精通SQL技能、但是不熟悉MapRece 、編程能力較弱與不擅長Java語言的用戶能夠在HDFS大規模數據集上很方便地利用SQL 語言查詢、匯總、分析數據。
Hive是為大數據批量處理而生的,Hive的出現解決了傳統的關系型資料庫(MySql、Oracle)在大數據處理上的瓶頸 。Hive 將執行計劃分成map->shuffle->rece->map->shuffle->rece…的模型。如果一個Query會被編譯成多輪MapRece,則會有更多的寫中間結果。由於MapRece執行框架本身的特點,過多的中間過程會增加整個Query的執行時間。在Hive的運行過程中,用戶只需要創建表,導入數據,編寫SQL分析語句即可。剩下的過程由Hive框架自動的完成。
Impala是對Hive的一個補充,可以實現高效的SQL查詢。使用Impala來實現SQL on Hadoop,用來進行大數據實時查詢分析。通過熟悉的傳統關系型資料庫的SQL風格來操作大數據,同時數據也是可以存儲到HDFS和HBase中的。Impala沒有再使用緩慢的Hive+MapRece批處理,而是通過使用與商用並行關系資料庫中類似的分布式查詢引擎(由Query Planner、Query Coordinator和Query Exec Engine三部分組成),可以直接從HDFS或HBase中用SELECT、JOIN和統計函數查詢數據,從而大大降低了延遲。Impala將整個查詢分成一執行計劃樹,而不是一連串的MapRece任務,相比Hive沒了MapRece啟動時間。
Hive 適合於長時間的批處理查詢分析,而Impala適合於實時互動式SQL查詢,Impala給數據人員提供了快速實驗,驗證想法的大數據分析工具,可以先使用Hive進行數據轉換處理,之後使用Impala在Hive處理好後的數據集上進行快速的數據分析。總的來說:Impala把執行計劃表現為一棵完整的執行計劃樹,可以更自然地分發執行計劃到各個Impalad執行查詢,而不用像Hive那樣把它組合成管道型的map->rece模式,以此保證Impala有更好的並發性和避免不必要的中間sort與shuffle。但是Impala不支持UDF,能處理的問題有一定的限制。
Spark擁有Hadoop MapRece所具有的特點,它將Job中間輸出結果保存在內存中,從而不需要讀取HDFS。Spark 啟用了內存分布數據集,除了能夠提供互動式查詢外,它還可以優化迭代工作負載。Spark 是在 Scala 語言中實現的,它將 Scala 用作其應用程序框架。與 Hadoop 不同,Spark 和 Scala 能夠緊密集成,其中的 Scala 可以像操作本地集合對象一樣輕松地操作分布式數據集。
Nutch 是一個開源Java 實現的搜索引擎。它提供了我們運行自己的搜索引擎所需的全部工具,包括全文搜索和Web爬蟲。
Solr用Java編寫、運行在Servlet容器(如Apache Tomcat或Jetty)的一個獨立的企業級搜索應用的全文搜索伺服器。它對外提供類似於Web-service的API介面,用戶可以通過http請求,向搜索引擎伺服器提交一定格式的XML文件,生成索引;也可以通過Http Get操作提出查找請求,並得到XML格式的返回結果。
Elasticsearch是一個開源的全文搜索引擎,基於Lucene的搜索伺服器,可以快速的儲存、搜索和分析海量的數據。設計用於雲計算中,能夠達到實時搜索,穩定,可靠,快速,安裝使用方便。
還涉及到一些機器學習語言,比如,Mahout主要目標是創建一些可伸縮的機器學習演算法,供開發人員在Apache的許可下免費使用;深度學習框架Caffe以及使用數據流圖進行數值計算的開源軟體庫TensorFlow等,常用的機器學習演算法比如,貝葉斯、邏輯回歸、決策樹、神經網路、協同過濾等。
五、數據可視化
對接一些BI平台,將分析得到的數據進行可視化,用於指導決策服務。主流的BI平台比如,國外的敏捷BI Tableau、Qlikview、PowrerBI等,國內的SmallBI和新興的網易有數(可點擊這里免費試用)等。
在上面的每一個階段,保障數據的安全是不可忽視的問題。
基於網路身份認證的協議Kerberos,用來在非安全網路中,對個人通信以安全的手段進行身份認證,它允許某實體在非安全網路環境下通信,向另一個實體以一種安全的方式證明自己的身份。
控制許可權的ranger是一個Hadoop集群許可權框架,提供操作、監控、管理復雜的數據許可權,它提供一個集中的管理機制,管理基於yarn的Hadoop生態圈的所有數據許可權。可以對Hadoop生態的組件如Hive,Hbase進行細粒度的數據訪問控制。通過操作Ranger控制台,管理員可以輕松的通過配置策略來控制用戶訪問HDFS文件夾、HDFS文件、資料庫、表、欄位許可權。這些策略可以為不同的用戶和組來設置,同時許可權可與hadoop無縫對接。
② 大數據培訓到底是培訓什麼
大數據培訓,目前主要有兩種:
1、大數據開發
數據工程師建設和優化系統。學內習hadoop、spark、storm、超大集群容調優、機器學習、Docker容器引擎、ElasticSearch、並發編程等;
2、數據分析與挖掘
一般工作包括數據清洗,執行分析和數據可視化。學習Python、資料庫、網路爬蟲、數據分析與處理等。
大數據培訓一般是指大數據開發培訓。
大數據技術龐大復雜,基礎的技術包含數據的採集、數據預處理、分布式存儲、資料庫、數據倉庫、機器學習、並行計算、可視化等各種技術范疇和不同的技術層面。
③ 大數據主要學什麼
大數據分析挖掘與處理、移動開發與架構、軟體開發、雲計算等前沿技術等。
主修課程:面向對象程序設計、Hadoop實用技術、數據挖掘、機器學習、數據統計分析、高等數學、Python編程、JAVA編程、資料庫技術、Web開發、Linux操作系統、大數據平台搭建及運維、大數據應用開發、可視化設計與開發等。
旨在培養學生系統掌握數據管理及數據挖掘方法,成為具備大數據分析處理、數據倉庫管理、大數據平台綜合部署、大數據平台應用軟體開發和數據產品的可視化展現與分析能力的高級專業大數據技術人才。
(3)elasticsearch大數據擴展閱讀:
越來越多的行業對大數據應用持樂觀的態度,大數據或者相關數據分析解決方案的使用在互聯網行業,比如網路、騰訊、淘寶、新浪等公司已經成為標准。而像電信、金融、能源這些傳統行業,越來越多的用戶開始嘗試或者考慮怎麼樣使用大數據解決方案,來提升自己的業務水平。
在「大數據」背景之下,精通「大數據」的專業人才將成為企業最重要的業務角色,「大數據」從業人員薪酬持續增長,人才缺口巨大。
④ 大數據技術是學什麼的就業方向
大數據技術主要學:熟練使用java、scala編程語言,hadoop生態圈相關技術,如HDFS、Hbase、Hive,spark、flink、Elasticsearch等技術原理,熟悉數據的採集、Linux命令,shell腳本等。大數據處理關鍵技術包括:大數據採集技術、大數據預處理技術等。大數據專業就業方向:
1、數據工程方向
畢業生能夠從事基於計算機、移動互聯網、電子信息、電子商務技術、電子金融、電子政務、軍事等領域的Java大數據分布式程序開發、大數據集成平台的應用、開發等方面的高級技術人才,可在政府機關、房地產、銀行、金融、移動互聯網等領域從事各類Java大數據分布式開發、基於大數據平台的程序開發、數據可視化等相關工作,也可在IT領域從事計算機應用工作。
2、數據分析方向
畢業生能夠從事基於計算機、移動互聯網、電子信息、電子商務技術、電子金融、電子政務、軍事等領域的大數據平台運維、流計算核心技術等方面的高級技術人才,可在政府機關、房地產、銀行、金融、移動互聯網等領域從事各類大數據平台運維、大數據分析、大數據挖掘等相關工作,也可在IT領域從事計算機應用工作。
⑤ 大數據未來就業都有哪些崗位
1、大數據開發工程師
主要負責數據模型的ETL開發、數據平台建設;面向業務的數據提取、分析、報表、挖掘等系統設計和開發工作。崗位要求:精通常用的數據結構和演算法,理解面向對象設計的基本原則,熟悉常用的設計模式;掌握Hadoop生態體系框架,包括Hadoop、Hive、Spark、Storm、Flink、ElasticSearch、HBase等。
2、大數據運維工程師
主要負責數據平台的集群管理,機器優化,集群監控等;對現有集群的優化和性能調優,滿足不斷增長的業務需求等。崗位要求:熟悉主流開源數據組件,包括但不限於HADOOP、Hive、HBase、ZK、Spark、Flink、Flume、ElasticSearch and etc;深入理解Hadoop各組件的原理和實現;熟悉分布式原理、分布式系統設計等。
3、大數據架構師
主要負責大數據基礎框架的整體架構設計,結合公司實際業務情況進行技術選型;負責數據存儲和計算平台的整體評估、設計以及核心功能模塊的開發等。崗位要求:熟悉常用的數據結構和演算法;具備豐富的開發經驗,了解主流的大數據技術框架組件,包括但不限於Hadoop、Spark、Storm、Flink等。
4、大數據分析師
大數據分析方向的崗位,則主要以數據分析挖掘為主,通常需要負責常規業務數據分析需求開發,用戶畫像構建,推薦演算法實現等。崗位要求:熟悉數據倉庫理論、數據挖掘理論基礎,熟悉常用機器學習演算法(如邏輯回歸、神經網路、決策樹、貝葉斯等);對Hadoop和Spark生態當中的主流技術組件,有相應程度的了解。
關於大數據未來就業都有哪些崗位,青藤小編就和您分享到這里了。如果您對大數據工程有濃厚的興趣,希望這篇文章可以為您提供幫助。如果您還想了解更多關於數據分析師、大數據工程師的技巧及素材等內容,可以點擊本站的其他文章進行學習。
⑥ 大數據技術是學什麼的就業方向
大數據技術專業屬於交叉學科,以統計學、數燃散學、計算機為三大支撐性學科;生物、醫學、環境科學、經濟學、社會學、管理學為應用拓展性學科。還需學習數據採集、分析、處理軟體,學習數學建模軟體及計算機編程語言等,知識結構是二專多能復合的跨界人才,包括有專業知識、有數據思維。
大數據技術要熟練使用java、scala編程語言,hadoop生態圈相關技術,如HDFS、Hbase、Hive,spark、flink、Elasticsearch等技術原理,熟悉數據的採集、Linux命令,shell腳本等。
大數據技術旨在培養學生系統掌握數據管理及數據挖掘方法,成為具備大數據分析處理、數據倉庫管理、大數察段答據平台綜合部署、大數據平台應用軟體開發和數據產品的可視化展現與分析能力的高級專業大數據技術人才。
大數據專業就業方向為計算機、移動互聯網、電子信息、電子商務技術、電子金融、電子政務、軍事等敗慧領域的Java大數據分布式程序開發、大數據集成平台的應用、開發等方面的高級技術人才,可在政府機關、房地產、銀行、金融、移動互聯網等領域從事各類Java大數據分布式開發、基於大數據平台的程序開發、數據可視化等相關工作,也可在IT領域從事計算機應用工作。
⑦ elasticsearch 在大數據中能實現哪些功能
由於需要提升項目的搜索質量,最近研究了一下Elasticsearch,一款非常優秀的分布式搜索程序。最開始的一些筆記放到github,這里只是歸納總結一下。
首先,為什麼要使用Elasticsearch?最開始的時候,我們的項目僅僅使用MySQL進行簡單的搜索,然後一個不能索引的like語句,直接拉低MySQL的性能。後來,我們曾考慮過sphinx,並且sphinx也在之前的項目中成功實施過,但想想現在的數據量級,多台MySQL,以及搜索服務本身HA,還有後續擴容的問題,我們覺得sphinx並不是一個最優的選擇。於是自然將目光放到了Elasticsearch上面。
根據官網自己的介紹,Elasticsearch是一個分布式搜索服務,提供Restful API,底層基於Lucene,採用多shard的方式保證數據安全,並且提供自動resharding的功能,加之github等大型的站點也採用 Elasticsearch作為其搜索服務,我們決定在項目中使用Elasticsearch。
對於Elasticsearch,如果要在項目中使用,需要解決如下問題:
索引,對於需要搜索的數據,如何建立合適的索引,還需要根據特定的語言使用不同的analyzer等。
搜索,Elasticsearch提供了非常強大的搜索功能,如何寫出高效的搜索語句?
數據源,我們所有的數據是存放到MySQL的,MySQL是唯一數據源,如何將MySQL的數據導入到Elasticsearch?
對於1和2,因為我們的數據都是從MySQL生成,index的field是固定的,主要做的工作就是根據業務場景設計好對應的mapping以及search語句就可以了,當然實際不可能這么簡單,需要我們不斷的調優。
而對於3,則是需要一個工具將MySQL的數據導入Elasticsearch,因為我們對搜索實時性要求很高,所以需要將MySQL的增量數據實時導入,筆者唯一能想到的就是通過row based binlog來完成。而近段時間的工作,也就是實現一個MySQL增量同步到Elasticsearch的服務。
Lucene
Elasticsearch底層是基於Lucene的,Lucene是一款優秀的搜索lib,當然,筆者以前仍然沒有接觸使用過。:-)
Lucene關鍵概念:
Document:用來索引和搜索的主要數據源,包含一個或者多個Field,而這些Field則包含我們跟Lucene交互的數據。
Field:Document的一個組成部分,有兩個部分組成,name和value。
Term:不可分割的單詞,搜索最小單元。
Token:一個Term呈現方式,包含這個Term的內容,在文檔中的起始位置,以及類型。
Lucene使用Inverted index來存儲term在document中位置的映射關系。
譬如如下文檔:
Elasticsearch Server 1.0 (document 1)
Mastring Elasticsearch (document 2)
Apache Solr 4 Cookbook (document 3)
使用inverted index存儲,一個簡單地映射關系:
Term
Count
Docuemnt
1.0 1 <1>
4 1 <3>
Apache 1 <3>
Cookbook 1 <3>
Elasticsearch 2 <1>.<2>
Mastering 1 <2>
Server 1 <1>
Solr 1 <3>
對於上面例子,我們首先通過分詞演算法將一個文檔切分成一個一個的token,再得到該token與document的映射關系,並記錄token出現的總次數。這樣就得到了一個簡單的inverted index。
Elasticsearch關鍵概念
要使用Elasticsearch,筆者認為,只需要理解幾個基本概念就可以了。
在數據層面,主要有:
Index:Elasticsearch用來存儲數據的邏輯區域,它類似於關系型資料庫中的db概念。一個index可以在一個或者多個shard上面,同時一個shard也可能會有多個replicas。
Document:Elasticsearch裡面存儲的實體數據,類似於關系數據中一個table裡面的一行數據。
document由多個field組成,不同的document裡面同名的field一定具有相同的類型。document裡面field可以重復出現,也就是一個field會有多個值,即multivalued。
Document type:為了查詢需要,一個index可能會有多種document,也就是document type,但需要注意,不同document裡面同名的field一定要是相同類型的。
Mapping:存儲field的相關映射信息,不同document type會有不同的mapping。
對於熟悉MySQL的童鞋,我們只需要大概認為Index就是一個db,document就是一行數據,field就是table的column,mapping就是table的定義,而document type就是一個table就可以了。
Document type這個概念其實最開始也把筆者給弄糊塗了,其實它就是為了更好的查詢,舉個簡單的例子,一個index,可能一部分數據我們想使用一種查詢方式,而另一部分數據我們想使用另一種查詢方式,於是就有了兩種type了。不過這種情況應該在我們的項目中不會出現,所以通常一個index下面僅會有一個 type。
在服務層面,主要有:
Node: 一個server實例。
Cluster:多個node組成cluster。
Shard:數據分片,一個index可能會存在於多個shards,不同shards可能在不同nodes。
Replica:shard的備份,有一個primary shard,其餘的叫做replica shards。
Elasticsearch之所以能動態resharding,主要在於它最開始就預先分配了多個shards(貌似是1024),然後以shard為單位進行數據遷移。這個做法其實在分布式領域非常的普遍,codis就是使用了1024個slot來進行數據遷移。
因為任意一個index都可配置多個replica,通過冗餘備份的方式保證了數據的安全性,同時replica也能分擔讀壓力,類似於MySQL中的slave。
Restful API
Elasticsearch提供了Restful API,使用json格式,這使得它非常利於與外部交互,雖然Elasticsearch的客戶端很多,但筆者仍然很容易的就寫出了一個簡易客戶端用於項目中,再次印證了Elasticsearch的使用真心很容易。
Restful的介面很簡單,一個url表示一個特定的資源,譬如/blog/article/1,就表示一個index為blog,type為aritcle,id為1的document。
而我們使用http標准method來操作這些資源,POST新增,PUT更新,GET獲取,DELETE刪除,HEAD判斷是否存在。
這里,友情推薦httpie,一個非常強大的http工具,個人感覺比curl還用,幾乎是命令行調試Elasticsearch的絕配。
一些使用httpie的例子:
# create
http POST :9200/blog/article/1 title="hello elasticsearch" tags:='["elasticsearch"]'
# get
http GET :9200/blog/article/1
# update
http PUT :9200/blog/article/1 title="hello elasticsearch" tags:='["elasticsearch", "hello"]'
# delete
http DELETE :9200/blog/article/1
# exists
http HEAD :9200/blog/article/1
索引和搜索
雖然Elasticsearch能自動判斷field類型並建立合適的索引,但筆者仍然推薦自己設置相關索引規則,這樣才能更好為後續的搜索服務。
我們通過定製mapping的方式來設置不同field的索引規則。
而對於搜索,Elasticsearch提供了太多的搜索選項,就不一一概述了。
索引和搜索是Elasticsearch非常重要的兩個方面,直接關繫到產品的搜索體驗,但筆者現階段也僅僅是大概了解了一點,後續在詳細介紹。
同步MySQL數據
Elasticsearch是很強大,但要建立在有足量數據情況下面。我們的數據都在MySQL上面,所以如何將MySQL的數據導入Elasticsearch就是筆者最近研究的東西了。
雖然現在有一些實現,譬如elasticsearch-river-jdbc,或者elasticsearch-river-mysql,但筆者並不打算使用。
elasticsearch-river-jdbc的功能是很強大,但並沒有很好的支持增量數據更新的問題,它需要對應的表只增不減,而這個幾乎在項目中是不可能辦到的。
elasticsearch-river-mysql倒是做的很不錯,採用了python-mysql-replication來通過binlog獲取變更的數據,進行增量更新,但它貌似處理MySQL mp數據導入的問題,不過這個筆者真的好好確認一下?話說,python-mysql-replication筆者還提交過pull解決了minimal row image的問題,所以對elasticsearch-river-mysql這個項目很有好感。只是筆者決定自己寫一個出來。
為什麼筆者決定自己寫一個,不是因為筆者喜歡造輪子,主要原因在於對於這種MySQL syncer服務(增量獲取MySQL數據更新到相關系統),我們不光可以用到Elasticsearch上面,而且還能用到其他服務,譬如cache上面。所以筆者其實想實現的是一個通用MySQL syncer組件,只是現在主要關注Elasticsearch罷了。
項目代碼在這里go-mysql-elasticsearch,現已完成第一階段開發,內部對接測試中。
go-mysql-elasticsearch的原理很簡單,首先使用mysqlmp獲取當前MySQL的數據,然後在通過此時binlog的name和position獲取增量數據。
一些限制:
binlog一定要變成row-based format格式,其實我們並不需要擔心這種格式的binlog佔用太多的硬碟空間,MySQL 5.6之後GTID模式都推薦使用row-based format了,而且通常我們都會把控SQL語句質量,不允許一次性更改過多行數據的。
需要同步的table最好是innodb引擎,這樣mysqlmp的時候才不會阻礙寫操作。
需要同步的table一定要有主鍵,好吧,如果一個table沒有主鍵,筆者真心會懷疑設計這個table的同學編程水平了。多列主鍵也是不推薦的,筆者現階段不打算支持。
一定別動態更改需要同步的table結構,Elasticsearch只能支持動態增加field,並不支持動態刪除和更改field。通常來說,如果涉及到alter table,很多時候已經證明前期設計的不合理以及對於未來擴展的預估不足了。
更詳細的說明,等到筆者完成了go-mysql-elasticsearch的開發,並通過生產環境中測試了,再進行補充。
總結
最近一周,筆者花了不少時間在Elasticsearch上面,現在算是基本入門了。其實筆者覺得,對於一門不懂的技術,找一份靠譜的資料(官方文檔或者入門書籍),蛋疼的對著資料敲一遍代碼,不懂的再問google,最後在將其用到實際項目,這門技術就算是初步掌握了,當然精通還得在下點功夫。
現在筆者只是覺得Elasticsearch很美好,上線之後鐵定會有坑的,那時候只能慢慢填了。話說,筆者是不是要學習下java了,省的到時候看不懂代碼就慘了。:-)
⑧ 大數據是干什麼的
大數據開發相關的崗位很多,比較熱門的包括:
1、大數據開發工程師
主要負責數據模型的ETL開發、數據平台建設;面向業務的數據提取、分析、報表、挖掘等系統設計和開發工作。
崗位要求:
精通常用的數據結構和演算法,理解面向對象設計的基本原則,熟悉常用的設計模式;
掌握Hadoop生態體系框架,包括Hadoop、Hive、Spark、Storm、Flink、ElasticSearch、HBase等;
2、大數據運維工程師
主要負責數據平台的集群管理,機器優化,集群監控等;對現有集群的優化和性能調優,滿足不斷增長的業務需求等。
崗位要求:
熟悉主流開源數據組件,包括但不限於HADOOP、Hive、HBase、ZK、Spark、Flink、Flume、ElasticSearch and etc;深入理解Hadoop各組件的原理和實現;熟悉分布式原理、分布式系統設計等。
3、大數據架構師
主要負責大數據基礎框架的整體架構設計,結合公司實際業務情況進行技術選型;負責數據存儲和計算平台的整體評估、設計以及核心功能模塊的開發等。
崗位要求:
熟悉常用的數據結構和演算法;具備豐富的開發經驗,了解主流的大數據技術框架組件,包括但不限於Hadoop、Spark、Storm、Flink等。
4、大數據分析師
大數據分析方向的崗位,則主要以數據分析挖掘為主,通常需要負責常規業務數據分析需求開發,用戶畫像構建,推薦演算法實現等。
⑨ 入門大數據需要學習什麼內容
作為一名零基礎學習者,請不要將大數據開發看做一門與Java、python等相似的IT語言,大數據更像是一門技術,其所包含的內容相對比較多。在正式開始學習之前,可以買一些大數據相關書籍或者找一些網上的學習資料,先建立對行業以及對大數據相關職位的了解。
比如,大數據分為哪些發展方向,不同的發展方向對應哪些發展職位,各個職位的發展所要求的核心技能點是什麼,企業對於大數據人才的需求是什麼樣的,了解清楚了這些,才能真正考慮清楚,學什麼怎麼學。
以大數據開發來說,其中涉及到的主要是大數據應用開發,要求一定的編程能力,在學習階段,主要需要學習掌握大數據技術框架,包括hadoop、hive、oozie、flume、hbase、kafka、scala、spark等等……
以大數據分析來說,有主攻業務運營方面的數據分析師,也有主攻機器學習、深度學習等的數據挖掘師,具體到其中的各個職位,更是有著更加具體的技能要求,那麼在學習階段就要先做好相關的准備了。
關於入門大數據需要學習什麼內容,青藤小編就和您分享到這里了。如果您對大數據工程有濃厚的興趣,希望這篇文章可以為您提供幫助。如果您還想了解更多關於數據分析師、大數據工程師的技巧及素材等內容,可以點擊本站的其他文章進行學習。