大數據dsl_大數據時代是如何到來的

A. 什麼是ADSLADSL是干什麼用的

客觀而言，ADSL是最容易實現的一種寬頻技術，因為它是建築在電話線基礎上的，而國內電信部門擁有著最豐富的銅線資源，在世界上排名第二，僅次於美國。也正是因為這個因素，ADSL正在全國各地大力推廣。

從技術上講，ADSL將一條雙絞線上用戶頻譜分為三個頻段。由於ADSL的這種上行速率低，下行速率高的不對稱性，因此稱ADSL為非對稱數字用戶線技術（Asymmetrical DSL）。其實這樣非常適合於用戶對瀏覽網頁、VOD這種高帶寬下載數據的應用。

性能分析

1、速度快

ADSL支持的常用下行速率最高達8Mbps，是Modem速度的150倍，上行也達640kbps。

2、上網不需交電話費

ADSL在同一銅線上分別傳送數據和語音信號，數據信號並不通過電話交換機設備，不需要撥號，這意味著使用ADSL上網無須交納電話費。在很多地區，ADSL基本上都是按月付費的，費用固定，在使用上沒有任何限制。另外，由於它是一種專線上網方式，可以與普通電話共存於一條電話線上，所以上網與接聽電話、撥打電話互不影響。

3、可實現多種服務

ADSL的有效傳輸距離為3～5公里，它還可以根據雙絞銅線質量的優劣和傳輸距離的遠近動態地調整用戶的訪問速度，可以滿足全屏動態圖像多媒體應用的要求，例如可以獲得1.5Mbps（MPEG-1）的帶寬，相當於VCD圖像質量，甚至3Mbps～6Mbps（MPEG-2的帶寬），相當於DVD圖像質量，這是傳統的傳輸方式遠遠不能滿足的。由於ADSL比Modem撥號上網要快得多，使ADSL成為用於網上高速沖浪、視頻點播、遠程局域網路訪問的理想技術。

雖然ADSL有很多優點，但一樣存在著自己的缺點，如對電信技術的要求比較高、對電話線路質量要求較高、製作成本較高、初裝費及使用費也較高，而且每位用戶佔用一條專線帶寬而使有限資源不能充分利用以及存在電話線質量和遠距離信息損耗較大的缺點等。
費用

對ADSL的用戶來說，成本投入主要包括：硬體設備（即ADSL Modem、網卡和分離器的費用），初裝費以及每月的使用費。國內每個城市的具體資費因其促銷政策而略有不同，但費用組成基本相近。
以上海為例，目前上海電信提供的終端設備費為790元，設備安裝調試費400元，加上10元手續費，初期投資的成本在1200元左右。在「首付」之後，只需每月再支付130元（其中包括50元月租費、80元包月信息費）就可以無時間限制地以512kbps的帶寬在網上暢游。

目前各地電信局在為用戶安裝ADSL時一般會要求購買他們提供的ADSL Modem終端設備，ADSL Modem可分為內置、外置及USB三種類型。具體選擇哪種，大家可根據自己的需求而定，其中外置ADSL Modem安裝、設置和使用較為方便，但價格較貴，而且由於外置的ADSL Modem（如圖2）使用了乙太網介面，所以在與電腦連接時還需要配一塊乙太網卡。而內置PCI介面的ADSL Modem價格便宜，一般主流的400~500元就能拿下，而且不佔外部空間，對於一般家庭用戶非常經濟。當然你也可以適當考慮USB的ADSL Modem，它具備安裝使用方便、支持熱插拔、介面速度較快等特點，也是一種選擇。

適用人群

通過以上介紹，我們可以對ADSL的特點、功能和目前的資費情況有了比較清楚的了解。那麼我們可以想像，最終影響大家選擇上網方式的主要問題無疑就是大家本身的需要、目的以及與之對應的接入方式的性價比了。

在現階段，除了Modem撥號作為低端普及型的接入方式外，ADSL技術無疑是電信公司佔領寬頻接入網市場的主要接入技術。所以，從實用的角度來看，目前對於家庭用戶以及部分小型企業來說，最實際和最合算的接入方式恐怕就是ADSL了。當然，隨著時間的推移，ADSL取代Modem撥號上網也是一種必然。

由於國內上網用戶數的飛速膨脹，網路速度太慢和收費太貴就成了中國Internet發展的兩大障礙。ADSL之所以迅速發展了起來，就是其沒有因為先進性而被「貴族化」，而是定位為「大眾化」的高速接入服務。作為上網最需要關注的兩個因素——性能和價格，ADSL方式都有不俗的表現：512kbps以上的帶寬比我們現在主流的Modem快很多；由於實施的是包月制度，100多元的網路費用也相對低廉。在目前ADSL 用戶中，個人用戶與企業用戶各佔一半，就說明了ADSL已步入小公司、家庭用戶，而且費用也是普通用戶所能承受的。所以，如果你上網較為頻繁，上網時間較長，需要經常進行大數據量的傳輸或者想看網路電影、收聽網路廣播，而當地又能提供ADSL寬頻接入的話，你還是早點裝上ADSL吧！

B. 如何在elasticsearch中查看Logstash打到elasticsearch的數據

Elasticsearch是一個高伸縮、高可用、基於Apache
Lucene的開源搜索與分析引擎。通過它你可以很方便地對數據進行深入挖掘，可以隨時放大與縮小搜索與分析的區間，並且這一切都是實時的。為了提供了一
個優秀的用戶體驗，我們對Elasticsearch投入了很大的精力。Elasticsearch本身的各種選項已有了良好的默認值，使用戶能夠更方便
地上手。但我們也為用戶提供了全方面的選項，在必要的情況下，可以對該引擎的幾乎每個方面進行定製。
舉例來說，當你使用它搜索數據的時候，可以使
用傳統的查詢（『查找滿足條件Y的所有項X』）進行過濾（在Elasticsearch術語中稱為「視圖」），高亮顯示搜索片段，為每條結果提供相應的上
下文。也可以使用地理位置（『查找在Z里之內的所有項』），或是為用戶提供搜索關鍵字建議，並且提供了強大的聚合（即Elasticsearch中的「分
面」（facet））能力，例如時間分布圖或者統計圖。
Elasticsearch既可以搜索、也可以保存數據。它提供了一種半結構化、不依賴
schema並且基於JSON的模型，你可以直接傳入原始的JSON文檔，Elasticsearch會自動地檢測出你的數據類型，並對文檔進行索引。你
也可以對schema映射進行定製，以實現你的目的，例如對單獨的欄位或文檔進行boost映射，或者是定製全文搜索的分析方式等等。
你既可以在自己的膝上電腦中啟用一個小型實例，也可以在雲端啟用幾十乃至幾百個實例，只需要一些極小的改變而已。Elasticsearch會自動進行橫向擴展，它能夠隨著你的應用一起成長。
Elasticsearch
運行在JVM之上，它使用JSON格式，通過RESTful
HTTP介面的方式訪問，因此任何一種客戶端或語言都能夠與其交互。目前已經有了大量的客戶端和框架的整合方案，包括對多種編程語言的支持，通過這些原生
的API與專門的DSL將不一致的地方最小化，並實現性能最大化。
Elasticsearch非常適合於大數據的場合，它的高伸縮性與分布式架構
的本質使得對大量信息的搜索與存儲都可以在近乎實時的情況下完成。通過Elasticsearch-Hadoop這個項目，我們使Hadoop使用者（這
里也包括Hive、Pig和Cascading）能夠用一個成熟的搜索引擎來增強他們的工作流。我們還為他們提供了一種豐富的語言，能夠讓他們更好地表達
意圖，因而更准確地獲得想要的結果，並且速度也大大提高了。

C. 智能合約怎麼運用在監獄中

數字化監獄時代已逐步邁向智慧監獄時代，智慧監獄是監獄信息化建設的最高形態。文章針對智慧監獄中存在的數據中心化、安全性欠缺等方面問題，分析區塊鏈技術應用於智慧監獄中的優勢及可行性，採用智能合約技術，給出了基於私有鏈的智慧監獄管理系統設計，保證了系統信息的共享、保密和不可篡改性。旨在為「區塊鏈+」監獄管理創新模式提供參考。

2016年12月「區塊鏈「首次被寫入《國務院關於印發「十三五「國家信息化規劃的通知》，監獄系統應該緊跟步伐，積極開拓一條新型發展之路叫區塊鏈技術最早在2008年中本聰發表的論文中被提出，後來依次經歷了以區塊鏈為單位的塊鏈式數據結構的區塊鏈1.0、創建可共用的技術平台的區塊鏈2.0、以價值互聯網為內核的區塊鏈3.0。

如今區塊鏈技術逐步發展，引起了國內外的極大重視，下面從以下三個方面來表述近幾年區塊鏈技術的發展。

國外製度監管層面：

2015年6月4日，紐約金融服務部門（NYDFS）發布了數字密碼貨幣公司監管框架BitLincense。2015年10月，奧巴馬政府和私人公司結成「區塊鏈聯盟」的夥伴關系，目的是監管防止將數字密碼貨幣用於非法用途。

2016年1 月19 H,英國政府公布了《分布式總賬技術：超越區塊鏈》；2016年2月，歐洲委員會（EC）宣布了歐洲反洗錢和反恐怖金融監管規劃。

2017年5 月25 H,美國國防高級研究計劃局要求印第安的科技與製造公司（ITAMCO）開發使用區塊鏈協議的平台。

教育科研發展層面：

2015年9月，肖風聯合以太坊創始人Vitalik Buterin和比特股聯合創始人沈波共同成立「區塊鏈實驗室」，以促進區塊鏈技術的教育；

2016年加州大學伯克利分校推行了針對區塊鏈的本科教育囚；

2018年3月，由牛津大學多名學者聯合推出成立了第一所基於區塊鏈技術的大學「伍爾夫大學」。

企業應用研究層面：

國內外許多企業都已致力於區塊鏈的架構的設計和應用的推廣。如文獻所述，紐約州電力公司TransActiveGrid建立微電網網路；Linux基金會於2015年提出了超級賬本項目; 2016年5月31日，騰訊對區塊鏈在金融應用方面的合作聯盟（深圳）成立；中國人民銀行於2017 年成立數字貨幣研究所。

區塊鏈技術雖然有了極大的進步，但在可行性、安全性和監管方面還需要進一步加強，預計還需 5~10年的時間才可達到成熟期山。伴隨區塊鏈技術的逐步完善，基於理論總歸要指導實踐，否則只是虛的概念的理念，區塊鏈技術得到了廣泛應用。

區塊鏈應用於醫學的成功案例較多，如全球具有最大規模的區塊鏈公司Guardtime利用區塊鏈各個節點間的共同協商來提升智慧醫療中數據的安全保護，實現100萬份數據的安全存儲，而將區塊鏈技術應用於監獄信息化的案例較少。

對於智慧監獄來說，安全是一切業務開展的基礎條件，信息安全和數據安全是核心要素。文章通過分析當前監獄信息化建設過程中存在的問題，探索基於區塊鏈技術如何減少信任程序、提供安全可靠的數據存儲、提高工作處理效率等問題，為區塊鏈於監獄系統的應用落地做必要的知識儲備回。

智慧監獄現狀分析

1.1智慧監獄的概念

智慧監獄就是在監獄中利用互聯網、雲計算、大數據整合系統內部的環境、人流、信息流，以智慧通信、智慧控制實現數字化採集信息、網路化傳輸信息、智能化管理信息，構建數據聯動的機制，對監獄數據採用數據挖掘，構成監獄大數據，對大數據進行分析，構建智慧監獄同。

1.2智慧監獄的問題分析

到目前為止，全國監獄已基本布設智能報警系統、監獄圍牆周界、綜合門禁系統等，監獄信息化建設水平有了顯著提升，但與理想狀態還有差距，主要表現在以下幾方面:

信息共享程度低

數據壁壘問題嚴重阻礙監獄信息化的發展性罪犯信息種類多、互補性強、關聯關系復雜。監獄內部數據集成化程度較低，信息缺少共享機制，難以形成協同效應，系統內部存在信息交叉錄入的狀況，造成存儲冗餘，浪費警力。

信息准確性難確保

現有的資料庫建設大多是對基礎數據的建設，如違法犯罪人員信息系統，必須保證信息的准確性, 並且可以作為司法依據，但目前因人為或失誤導致的身份信息有偏差，服刑表現數據不準確的問題，嚴重損害了執法形象。

信息安全機制不健全

信息安全結構欠成熟，細節描述欠清晰，具體管理中缺乏安全標准，應用缺乏實踐經驗，不能保證信息的完整存儲和安全傳輸，信息的丟失、泄露、篡改等現象具有發生的可能性。

警戒設備漏洞難避免

警戒設備的配比，很大程度上決定了監獄的安全性，當今門禁系統加了一門又一門，隔離網牆築了一道又一道，但其畢竟是「物」的防線叫還有諸多技術問題需解決，如基於視頻點名、條形碼掃描等的定位技術有時造成點名不準確；

高投入的視頻監控主要用於事後的取證，不能充分利用大數據分析罪犯通話記錄、行為習慣、交往圈、家庭背景等方面的信息，進行必要的監控預警和圖像智能化分析，避免脫逃或自殺的可能。

區塊鏈技術的優勢

區塊鏈利用數據加密技術將數據區塊以鏈式存儲結構的形式存儲，每個區塊包括區塊頭和區塊身，區塊頭存儲上一個區塊的哈希值，作用類似於指針，區塊身保存經過驗證合法的記錄和時間戳等。

區塊鏈利用P2P、共識機制來建立分布式存儲節點的信任；

利用智能合約實現交易的自動執行，並且是不受外面干擾的准確運行；

利用「腳本」對數據進行自動操作，實現可編程的資料庫。

區塊鏈可能會成為創造信任的一種協議，類似於HTTP協議、TCP/IP協議，利用計算機編程語言來開發去中心化的產品。

數據存儲：區塊鏈是去中心化的存儲結構，多個節點組成端到端的網路，每個節點的地位都是對等的，個別節點的故障不會影響到整個系統，可解決監獄系統內部共享性差的問題；

區塊鏈中若更改某個區塊的數據，則要更改此塊後面的所有數據，因此很難實現，區塊鏈本身的機制實現了其不可更改，即使內部工作人員也無法更改，確保監獄系統中數據一旦上鏈則不可更改；

區塊鏈中接入的節點越多，則安全性越高，當區塊後面連接6個區塊後，信息幾乎不可能被篡改，稱此時為穩定狀態圓，可實現智慧監獄中數據的可靠存儲。

數據溯源：利用時間戳和加密技術的鏈式存儲結構，保證可以追溯每一筆交易。在智慧監獄中實現數據的取證操作。區塊鏈節點利用相互驗證保證准確性，若對交易有疑問，可利用回溯交易記錄，從而准確判斷真實性。如監獄生產車間的產品信息上鏈保存，產品信息包括配件溯源信息和配件產品檢測證書，從而可以檢驗產品的質量合格性。

數據交易：所有的數據的傳送都是基於公鑰地址的，而非具體到個人真實身份，在匿名的狀態下完成區塊鏈中的交易，但無法知道其真實身份，匿名特徵為舉報者提供了安全保護；區塊鏈是創造信任的網路，節點之間按規則操作，實現對整個體系的信任，區塊鏈中數據記錄和規則都是透明的，任何人都可用公用介面來查詢數據，人為無法對它更改，實現監獄系統中所有數據都上區塊鏈，數據實時傳送。

數據安全：區塊鏈可以看作利用加密演算法和共識機制來保證數據不被篡改的一組協議氣區塊鏈利用最長鏈條來作為工作量的一種證明。只要長鏈條是誠實礦工創造的，則區塊鏈是安全的，利用時間戳來標識先後次序，避免重復交易。

區塊鏈利用哈希函數保證了數據的所有權，用表1來舉例說明。

美國的中本聰提出了泊松分布的概率論模型，計算出新的哈希頭刈後，後面要繼續追加N個頭部(名、入、燈…)後，刈才得到認可，在攻擊者未掌握超過51%的算力的情況下是較難實現的。攻擊者追上第z塊的概率見如下公式所示:P表示誠實者發現下一節點的概率，0表示攻擊者發現下一節點的概率。

分析可得隨著z的增大，其追上的機會越來越小。因此，用數學方法證明了區塊鏈的特殊結構實現了其不可篡改性。

區塊鏈技術應用研究

區塊鏈分為公有鏈、聯盟鏈和私有鏈，由於私有鏈主要提供安全、可追溯、不可篡改、自動執行的運算平台，可以同時避免來自內部和外部對數據的攻擊，因此符合承載公平、公正、嚴明、可靠的監獄環境。

首先利用區塊鏈保存信息並且保證其不可被更改，

其次實現信息的共享，建設良好的跨平台協作。

利用 IPFS ( Interplanetary File System )加密保存數據，與智能合約相結合，實現信息的保護和共享，區塊鏈系統與原始系統利用介面對接，實現對原始信息系統的保護。IPFS包括塊交換、哈希表等，保存文件時得到文件指紋，獲得文件後，通過文件指紋將文件取出並驗證，再將其返回。

3.1可行性分析

在智慧監獄領域，區塊鏈的去中心化，可以將不同數據資源集成於一個區塊鏈中，利用區塊鏈的分布式存儲並結合一定的雲存儲技術，實現對智慧監獄信息的存儲。

利用區塊鏈的共識機制實現信息的匿名性，確保了隱私保護。共識機制是通過投票，對交易確認。區塊鏈的共識機制確保所有誠實礦工的區塊鏈的前綴相同，同時保證由誠實礦工發布的信息會被其它誠實礦工添加到自己的區塊鏈中，共識機制有拼算力的PoW(Proof of Work),拼財力的 PoS(Proof of Stake)等。區塊鏈運作越高速則共識的代價越昂貴。

通過數據加密哈希演算法解決共享後的許可權問題，保證數據的不可篡改性，降低了系統的信任風險，將區塊鏈應用於智慧監獄，保存原始數據, 防止人為篡改，杜絕「走關系」篡改罪犯表現基礎數據，提高數據的可信度。

區塊鏈的每個節點都保存完整的數據備份，即使某個節點數據丟失也可從其它節點將數據恢復。將區塊鏈技術應用於數據採集方面，給加入區塊鏈的原始數據添加時間標記，從而證明數據的真實可靠性，是一種較低成本的驗證過程。

3.2體系結構

充分利用區塊鏈的特性來設計系統架構如圖2 所示，實現將各個監獄的數據資源集合到區塊鏈中，監獄管理局負責區塊鏈的監管，完成數據的上鏈和信息的共享。

3.2.1罪犯模塊

個人基本信息

將區塊鏈用於犯人基本信息記錄的保存，即每位犯人擁有一個賬本，從而有了關於自己過往的完整資料庫，這些數據的掌握者是罪犯本身，充分體現了智慧監獄的現代化的一個重要的考量標准「人文性」，從人性上避免犯罪心理上的漏洞。

獄中表現數據

罪犯在獄中會進行勞動改造和思想改造，獄中表現數據非常重要，且為罪犯減刑的重要依據，因此必須保證數據的真實性和無法篡改性。基於區塊鏈特有的數據安全性，能充分利用區塊鏈上的記錄來決定是否滿足減刑條件。監獄系統視頻監控中所獲數據，利用「區塊鏈+人工智慧」技術分析犯人的行為軌跡，避免脫逃、自殺的發生。

3.2.2警員模塊

警員任職履歷

包括警員的出生背景、教育程度、工作經歷、工作績效、年終考核等，形成多方共識的警員電子檔案，用技術手段避免繁瑣的信息整合，減輕了檔案管理的工作。

警員巡更管理

記錄警員巡邏路線並被保存，准確評定工作時間的表現；記錄警員能否走到罪犯中間，了解他們的思想波動，築造良好的警囚關系叫

3.2.3財務數據管理模塊

日常開支

監獄中所有開支數據實時存入區塊鏈，實現了過程的透明化和信息的准確性，較好實現了財務資金的監管。

勞動收益

由於勞作的特殊性，通過區塊鏈將勞動產品的追溯認證放到監管中，將整個製造過程存儲指紋記錄作為數據的存證，由於過程的公開化，避免了極端分子的破壞行為，保證了產品的安全性。

3.2.4信息管理模塊

日常的文件、工作安排和會議記錄等及時存入區塊鏈，利用區塊鏈信息的實時傳送使所有人都可及時獲取最新信息。對鏈中數據設置數據訪問許可權分級控制，不同級別獲得的信息量也不同，通過加密演算法，使數據只能被相關人員閱讀，從而強化對隱私內容的保護，提高數據的安全性。

3.2.5監控中心模塊

實時監控監舍、生產車間、食堂及監獄周邊區域，出現緊急事端及時報警。對監控中心數據開展預警判斷，將事端抹殺在萌芽中。監控數據及時打包上鏈叫。監獄內重要通道對出入人員實時記錄，對限制區域增設門禁。對監舍每個一小時清監一次, 人數不齊將會報警。勞作場地也要每隔半小時清點一次。通過必要的監控措施，減輕警力，提升監獄的安全性。

3.3智慧監獄中區塊鏈的數據類型

智慧監獄中區塊鏈採用多種數據類型，對不同的數據做不同數據存儲處理。區塊鏈API/SDK將適配接收並格式化這些數據，核心數據和計量證書簽名後上鏈存證，區塊鏈中存放文件的哈希值後，用戶在客戶端對文件查找，利用IPFS網路獲取目的文件凹。利用區塊鏈的防篡改性避免人為的篡改；利用鏈上時間戳和哈希值，實時追蹤數據變化的全過程，數據防偽性增強。如圖3所示。

3.4採用智能合約虛擬機分層思路

智能合約是可被所有節點運行的區塊鏈的代碼，按照定好的規則管理資產，通過多方協作，清除錯誤風險，實現每個用戶的透明操作回。鏈上腳本實現區塊鏈的可編程和智能合約自動執行，隨腳本機制的加強，實現了區塊鏈與智能合約的融合發展，鏈上腳本為區塊鏈提供了擴展介面，任何人都可利用腳本實現區塊鏈的應用。

頂層的DSL引擎將DSL翻譯成智能合約的開發語言Solidity, Solidity 是靜態語言，當其編譯完發到網路後，可被以太坊調用，實現web應用，中層的Solidity語言通過安全分析工具檢查後，轉換為EVM指令集，EVM使開發人員使用高級語言來編智能合約，再利用EVM 編譯成位元組碼後部署在區塊鏈中，實現開發智能合約，底層是可插拔的架構，可直接運行在EVM虛擬機上，也可轉換後運行在WASM虛擬機上。

事前使用比較嚴格的合約和虛擬機，上線前還要經過嚴格的審核和形式化證明，事後要強化運行控制和追責。

3.5隱私數據處理

由於區塊鏈是P2P網路，採用中繼轉發進行通信，因此比較難推測出信息傳播的去向。由於具體交易中使用用戶自己創建的地址，實現匿名操作，所以與個人具體信息無關，較好實現了數據存儲的安全性。區塊鏈中的隱私分為交易隱私和身份隱私, 許可權分層設計如圖5所示。

數據只能公開部分信息, 對於較敏感的數據利用私鑰授權設置隱私數據保護。利用加密演算法和智能合約相結合來實現對隱私數據的保護，如罪犯和警員的個人信息模塊的信息和加密密鑰一起存於區塊鏈中，通過數字指紋防止信息被泄露，其當事人可利用智能合約來更改數據訪問許可權網。有如下訪問許可權：

掌握許可權：對於犯人模塊，犯人自身擁有；對警員模塊，警員自己掌管。

虛許可權：只能查看到其密文而無法真正訪問內部數據。

結語

認真貫徹黨的十九大精神，積極落實「科技強國，網路強國，數字中國，智慧社會」戰略部署，秉承「沒有信息化就沒有現代化」的工作思路，注重在科學化、精細化、智慧化上下功夫，創造「獄警大腦」聰明過人、「感知觸角」無處不在、「智慧監獄」保佑平安的新氣象，推動區塊鏈、雲計算、大數據等先進技術在監獄工作中的深度融合發展，努力將罪犯改造為守法公民，維護社會的安全穩定。

智慧監獄是未來監獄系統信息化建設的基本方向，它是融合智慧城市、智慧地球理念於監獄領域的映射，加強對智慧監獄的研究探索，努力引導監獄信息化建設向更廣更深方向發展，為監獄現代化建設提供了長足動力。

文章探討了智慧監獄中存在的一些問題，探索利用區塊鏈技術特徵實現數據信息的不可篡改性和可追溯性，包括如何在區塊鏈上存放數據並保護數據隱私，探索解決智慧監獄現存問題。

若可對區塊鏈實際應用的成功案例進行二次開發，則可節省成本，還可保證運行的穩定性回。接下來將積極探索切實有效的區塊鏈應用落地，堅持不忘初心、牢記使命，積極努力探索監獄信息化建設向更高層次，更大成效發展。

D. 大數據時代是如何到來的,跟那些主要因素有關系

這東西只能說是時代在更新，社會在進步；必然會出現很多新的產物。大數據主要基於網路，因為現在基本誰都離不開手機，離不開網路。
不是專業人士，對錯勿怪啊

E. ISDN,DSL,ADSL,T

ISDN(Integrated Services Digital Network)綜合業務數字網路是基於公共電話網的數字化網路，它能夠利用普通的電話線雙向傳送高速數字信號，廣泛地進行各項通信業務，包括話音、數據、圖象等。因為它幾乎綜合了目前各單項業務網路的功能，所以被形象地稱作「一線通」。
ADSL（Asymmetric Digital Subscriber Line），即非對稱數字用戶環路，它利用數字編碼技術從現有銅質電話線上獲取最大數據傳輸容量,同時又不幹擾在同一條線上進行的常規話音服務。其原因是它用電話話音傳輸以外的頻率傳輸數據。也就是說，用戶可以在上網「沖浪」的同時打電話或發送傳真,而這將不會影響通話質量或降低下載互聯網內容的速度。
DSL的中文名是數字用戶線路，是以電話線為傳輸介質的傳輸技術組合。DSL技術在傳的公用電話網路的用戶環路上支持對稱和非對稱傳輸模式，解決了經常發生在網路服務供應商和最終用戶間的「最後一公里」的傳輸瓶頸問題。

F. 乙太網，DSL，ADSL是怎樣的一個概念

ADSL介紹

一、概述
ADSL是DSL的一種非對稱版本，它利用數字編碼技術從現有銅質電話線上獲取最大數據傳輸容量,同時又不幹擾在同一條線上進行的常規話音服務。其原因是它用電話話音傳輸以外的頻率傳輸數據。也就是說,用戶可以在上網"沖浪"的同時打電話或發送傳真,而這將不會影響通話質量或降低下載Internet內容的速度。
ADSL能夠向終端用戶提供8Mbps的下行傳輸速率和1Mbps的上行傳輸速率,比傳統的28.8K模擬數據機快將近200倍。這也是傳輸速率達128Kbps的ISDN(綜合業務數據網)所無法比擬的。與電纜數據機相比, ADSL具有獨特優勢:它提供針對單一電話線路用戶的專線服務,而電纜數據機則要求一個系統內的眾多用戶分享同一帶寬。盡管電纜數據機的下行速率比ADSL高,但考慮到將來會有越來越多的用戶在同一時間上網,電纜數據機的性能將大大下降。另外,電纜數據機的上行速率通常低於ADSL。不容忽視的是,目前,全世界有將近7.5億銅質電話線用戶,而享有電纜數據機服務的家庭只有1200萬。

ADSL設計目的有兩個功能：高速數據通信和交互視頻。數據通信功能可為網際網路訪問、公司遠程計算或專用的網路應用。交互視頻包括需要高速網路視頻通信的視頻點播(VoD)、電影、游戲等。目前，ADSL只支持與T1/E1的介面，在未來可以到桌面。

二、ADSL的標准

一直以來,ADSL有CAP和DMT兩種標准,CAP由AT&T Paradyne設計，而DMT由Amati通信公司發明，其區別在於發送數據的方式。ANSI標准T1.413是基於DMT的，DMT已經成為國際標准,而CAP則大有沒落之勢。近來談論很多的G.Lite標准很被看好,不過DMT和G.Lite兩種標准各有所長,分別適用於不同的領域。DMT是全速率的ADSL標准,支持8Mbps/1.5Mbps的高速下行/上行速率,但是,DMT要求用戶端安裝POTS分離器,比較復雜;而G.Lite標准雖然速率較低,下行/上行速率為1.5Mbps/512Kbps,但由於省去了復雜的POTS分離器,因此用戶可以像使用普通Modem一樣,直接從商店購買CPE,然後自己就可以簡單安裝。就適用領域而言,DMT可能更適用於小型或家庭辦公室(SOHO);G.Lite則更適用於普通家庭用戶。

1、CAP（Carrierless Amplitude/Phase Molation）

CAP是AT&T Paradyne的專有調制方式，數據被調制到單一載體信道，然後沿電話線發送。信號在發送前被壓縮，在接收端重組。

2、DMT（Discrete Multi-Tone）

將數據分成多個子載體信道，測試每個信道的質量，然後賦予其一定的比特數。DMT用離散快速傅立葉變換創建這些信道。

DMT使用了我們熟悉的機制來創建數據機間的連接。當兩個DMT數據機連接時，它們嘗試可能的最高速率。根據線路的雜訊和衰減，兩個數據機可能成功地以最高速率連接或逐步降低速率直到雙方都滿意。

3、G.Lite

正如N1標准和互用性測試曾推動了ISDN市場一樣,如今客戶和廠商也急切地等待著一項DSL設備互用性標準的到來。該標准被稱為G.lite,也被另稱為Consumer Asymmetrical DSL (消費者ADSL),它正在由一個幾乎包括所有主要的DSL設備製造商的集團--Universal ADSL Working Group進行開發。不過不要將這個標准與Rockwell公司1997年夏天展示的已不再使用的基於QAM的Consumer DSL晶元集或者與Universal ADSL相混淆。G.lite的第一版工作文檔是1998年6月在亞特蘭大舉行的Supercomm貿易博覽會上公布的。這項初步的G.lite標准首先由UAWG交付表決,然後作為一項建議轉交給國際電信聯盟ITU。ITU當時預計在1998年底之前簽署認可一項正式的G.lite標准。

未來的G.lite標準的某些細節已經明了,基於該標準的CPE也許很快就會出現。G.lite標准(即ADSL)將基於ANSI標准"T1.413 Issue 2 DMT Line Code"之上,並且將1.5Mbps的下行速度和384Kbps的上行速度預定為其最大速度。小於那些最大速度的"速度自適應(Rate-Adaptive)"也是該標準的一部分,所以,Internet服務提供商(ISP)可以提供256Kbps的對稱速度作為一個G.lite連接速度。不過,為了簡化設備和供應要求,多數設備將被限制在那些最大速度上。

1.5Mbps的速度限制雖然與DSL的一般被公布的7Mbps的最大下行速度相比似乎具有限制性,但它是基於典型客戶布線方案的經驗測試之上,也是基於可通過ISP獲得的實際骨幹帶寬之上。

DSL線路需要優質銅環--這意味著沒有加感線圈,橋接抽頭之間不超過2500英尺,而一般與中心局之間的距離不超過18000英尺。如果速度更高,距離要求就變得更加關鍵,而且線路也更容易被"擾亂者"--和DSL線路處於同樣線捆中的ISDN和T1線路--破壞。

雖然G.lite正被宣傳為一項"不分離(splitterless)"的標准,但新的標准所面臨的工程現實意味著,在一開始可能仍然對分離器、過濾器,甚至新的客戶場所布線有所需要。隨著G.lite的標准走向成熟,人們更好地理解這些問題,更好地實施廠商晶元,它也許才會更接近於成為一項真正的不分離的標准。

當然,即使處於G.lite速度,常規的PC串列埠上的UARTs(通用非同步接收機/發送器)也已不能跟上。因此,使用串列技術的單個用戶的外置PC數據機將會在PC上採用通用串列匯流排埠(Universal Serial Bus),也有可能採用增強的並行埠;路由器和橋接單位則使用乙太網;更新一點的晶元集,如Rockwell最近宣傳的V.90/ADSL配對晶元集,將會把G.lite和V.90標准結合在一個數據機上,為客戶提供一項連接配置選擇。

帶寬是另一項考慮因素。當Bellcore於1989年首次公布其DSL工作時,其目的是為了將DSL用於視頻點播服務,而不是純粹的數據通信。

但是,現在沒有幾家ISP能夠真正滿足1000個用戶的7Mbps Internet訪問需求。G.lite的1.5Mbps/384Kbps限制是一個合理的最大速度,無論如何,許多用戶很可能會選擇更慢的對稱速度。..

4、目前的標准

ANSI提出了速率可達6.1Mbps的ADSL標准T1.413，ETSI(European Technical Standard Institute)增加了附件以適應歐洲的需要，稱為T1E1.4，將擴展標准以包含用戶端的復用介面、網路配置和管理協議及其它改進。

三、原理

ADSL用其特有的調制解調硬體來連接現有雙絞線連接的各端，它創建具有三個信道的管道，見下圖。

該管道具有一個高速下傳信道(到用戶端)，一個中速雙工信道和一個POTS信道(4KHz)，POTS信道用以保證即使ADSL連接失敗了，語音通信仍能正常運轉。高速和中速信道均可以復用以創建多個低速通道。
在過去數年中，電話系統的硬體技術有了很大進步，然而ADSL使用了非常簡單的方法來獲取取驚人的速率：壓縮。它使用很先進的DSP和演算法在電話線（雙絞線）中壓縮盡可能多的信息。

ADSL用頻分復用(FDM)或回饋抑制(Echo Cancellation)在電話線中創建多個信道。FDM使用一條下傳數據管道和一條上傳數據管道，並用時分復用(TDM)將下傳管道分割，上傳管道也被分成多個低速信道。回饋抑制將下傳管道和上傳管道重疊，並用本地回饋抑制（如V.34規范）將二者區分。回饋抑制雖然更加有效，但增加了復雜性和成本。

ADSL復用下傳信道，雙工化，將信道分塊，給每塊加上錯誤碼，然後發送數據，接收端根據誤碼和塊長糾錯。測試表明ADSL數據機的糾錯足以應付MPEG2和多種其他的數字視頻方案。

四、ADSL的未來

ADSL的未來可能不會與現在有太大的差異。目前ADSL的實現有兩種方式：CAP和DMT，後者已成為標准。雖然CAP不是標准，但它由AT&T Paradyne發明，已經在通信中廣為應用。G.Lite也很有發展前途。很難說將來會是什麼樣子，但有一點可以肯定：廠商和電話公司有一個需要克服以發展網路的瓶頸，解決方法必須在目前很快可用，並在未來仍然有用武之地。
參考資料：http://kuandai.kfinfo.ha.cn/Article_Show.asp?ArticleID=115

G. Apache Flink現在在大數據處理方面能夠和Apache Spark分庭抗禮么

我們是否還需要另外一個新的數據處理引擎？當我第一次聽到flink的時候這是我是非常懷疑的。在大數據領域，現在已經不缺少數據處理框架了，但是沒有一個框架能夠完全滿足不同的處理需求。自從Apache spark出現後，貌似已經成為當今把大部分的問題解決得最好的框架了，所以我對另外一款解決類似問題的框架持有很強烈的懷疑態度。
不過因為好奇，我花費了數個星期在嘗試了解flink。一開始仔細看了flink的幾個例子，感覺和spark非常類似，心理就傾向於認為flink又是一個模仿spark的框架。但是隨著了解的深入，這些API體現了一些flink的新奇的思路，這些思路還是和spark有著比較明顯的區別的。我對這些思路有些著迷了，所以花費了更多的時間在這上面。
flink中的很多思路，例如內存管理，dataset API都已經出現在spark中並且已經證明這些思路是非常靠譜的。所以，深入了解flink也許可以幫助我們分布式數據處理的未來之路是怎樣的
在後面的文章里，我會把自己作為一個spark開發者對flink的第一感受寫出來。因為我已經在spark上幹了2年多了，但是只在flink上接觸了2到3周，所以必然存在一些bias，所以大家也帶著懷疑和批判的角度來看這篇文章吧。
Apache Flink是什麼
flink是一款新的大數據處理引擎，目標是統一不同來源的數據處理。這個目標看起來和spark和類似。沒錯，flink也在嘗試解決spark在解決的問題。這兩套系統都在嘗試建立一個統一的平台可以運行批量，流式，互動式，圖處理，機器學習等應用。所以，flink和spark的目標差別並不大，他們最主要的區別在於實現的細節。
後面我會重點從不同的角度對比這兩者。
Apache Spark vs Apache Flink
1.抽象 Abstraction
spark中，對於批處理我們有RDD,對於流式，我們有DStream，不過內部實際還是RDD.所以所有的數據表示本質上還是RDD抽象。
後面我會重點從不同的角度對比這兩者。在flink中，對於批處理有DataSet，對於流式我們有DataStreams。看起來和spark類似，他們的不同點在於：
一）DataSet在運行時是表現為運行計劃(runtime plans)的
在spark中，RDD在運行時是表現為java objects的。通過引入Tungsten，這塊有了些許的改變。但是在flink中是被表現為logical plan(邏輯計劃)的，聽起來很熟悉？沒錯，就是類似於spark中的dataframes。所以在flink中你使用的類Dataframe api是被作為第一優先順序來優化的。但是相對來說在spark RDD中就沒有了這塊的優化了。
flink中的Dataset，對標spark中的Dataframe，在運行前會經過優化。
在spark 1.6，dataset API已經被引入spark了，也許最終會取代RDD 抽象。
二）Dataset和DataStream是獨立的API
在spark中，所有不同的API，例如DStream，Dataframe都是基於RDD抽象的。但是在flink中，Dataset和DataStream是同一個公用的引擎之上兩個獨立的抽象。所以你不能把這兩者的行為合並在一起操作，當然，flink社區目前在朝這個方向努力(https://issues.apache.org/jira/browse/FLINK-2320)，但是目前還不能輕易斷言最後的結果。
2.內存管理
一直到1.5版本，spark都是試用java的內存管理來做數據緩存，明顯很容易導致OOM或者gc。所以從1.5開始，spark開始轉向精確的控制內存的使用，這就是tungsten項目了
flink從第一天開始就堅持自己控制內存試用。這個也是啟發了spark走這條路的原因之一。flink除了把數據存在自己管理的內存以外，還直接操作二進制數據。在spark中，從1.5開始，所有的dataframe操作都是直接作用在tungsten的二進制數據上。

3.語言實現
spark是用scala來實現的，它提供了Java，Python和R的編程介面。
flink是java實現的，當然同樣提供了Scala API
所以從語言的角度來看，spark要更豐富一些。因為我已經轉移到scala很久了，所以不太清楚這兩者的java api實現情況。
4.API
spark和flink都在模仿scala的collection API.所以從表面看起來，兩者都很類似。下面是分別用RDD和DataSet API實現的word count

// Spark wordcount
object WordCount {

def main(args: Array[String]) {

val env = new SparkContext("local","wordCount")

val data = List("hi","how are you","hi")

val dataSet = env.parallelize(data)

val words = dataSet.flatMap(value => value.split("\\s+"))

val mappedWords = words.map(value => (value,1))

val sum = mappedWords.receByKey(_+_)

println(sum.collect())

}

}

// Flink wordcount
object WordCount {

def main(args: Array[String]) {

val env = ExecutionEnvironment.getExecutionEnvironment

val data = List("hi","how are you","hi")

val dataSet = env.fromCollection(data)

val words = dataSet.flatMap(value => value.split("\\s+"))

val mappedWords = words.map(value => (value,1))

val grouped = mappedWords.groupBy(0)

val sum = grouped.sum(1)

println(sum.collect())
}

}
不知道是偶然還是故意的，API都長得很像，這樣很方便開發者從一個引擎切換到另外一個引擎。我感覺以後這種Collection API會成為寫data pipeline的標配。
Steaming
spark把streaming看成是更快的批處理，而flink把批處理看成streaming的special case。這裡面的思路決定了各自的方向，其中兩者的差異點有如下這些：

實時 vs 近實時的角度
flink提供了基於每個事件的流式處理機制，所以可以被認為是一個真正的流式計算。它非常像storm的model。
而spark，不是基於事件的粒度，而是用小批量來模擬流式，也就是多個事件的集合。所以spark被認為是近實時的處理系統。

Spark streaming 是更快的批處理，而Flink Batch是有限數據的流式計算。
雖然大部分應用對准實時是可以接受的，但是也還是有很多應用需要event level的流式計算。這些應用更願意選擇storm而非spark streaming，現在，flink也許是一個更好的選擇。

流式計算和批處理計算的表示
spark對於批處理和流式計算，都是用的相同的抽象：RDD，這樣很方便這兩種計算合並起來表示。而flink這兩者分為了DataSet和DataStream，相比spark，這個設計算是一個糟糕的設計。

對 windowing 的支持
因為spark的小批量機制，spark對於windowing的支持非常有限。只能基於process time，且只能對batches來做window。
而Flink對window的支持非常到位，且Flink對windowing API的支持是相當給力的，允許基於process time,data time,record 來做windowing。
我不太確定spark是否能引入這些API，不過到目前為止，Flink的windowing支持是要比spark好的。
Steaming這部分flink勝

SQL interface
目前spark-sql是spark裡面最活躍的組件之一，Spark提供了類似Hive的sql和Dataframe這種DSL來查詢結構化數據，API很成熟，在流式計算中使用很廣，預計在流式計算中也會發展得很快。
至於flink，到目前為止，Flink Table API只支持類似DataFrame這種DSL，並且還是處於beta狀態，社區有計劃增加SQL 的interface，但是目前還不確定什麼時候才能在框架中用上。
所以這個部分，spark勝出。

Data source Integration

Spark的數據源 API是整個框架中最好的，支持的數據源包括NoSql db,parquet,ORC等，並且支持一些高級的操作，例如predicate push down
Flink目前還依賴map/rece InputFormat來做數據源聚合。
這一場spark勝

Iterative processing
spark對機器學習的支持較好，因為可以在spark中利用內存cache來加速機器學習演算法。
但是大部分機器學習演算法其實是一個有環的數據流，但是在spark中，實際是用無環圖來表示的，一般的分布式處理引擎都是不鼓勵試用有環圖的。
但是flink這里又有點不一樣，flink支持在runtime中的有環數據流，這樣表示機器學習演算法更有效而且更有效率。
這一點flink勝出。

Stream as platform vs Batch as Platform
Spark誕生在Map/Rece的時代，數據都是以文件的形式保存在磁碟中，這樣非常方便做容錯處理。
Flink把純流式數據計算引入大數據時代，無疑給業界帶來了一股清新的空氣。這個idea非常類似akka-streams這種。
成熟度
目前的確有一部分吃螃蟹的用戶已經在生產環境中使用flink了，不過從我的眼光來看，Flink還在發展中，還需要時間來成熟。
結論
目前Spark相比Flink是一個更為成熟的計算框架，但是Flink的很多思路很不錯，Spark社區也意識到了這一點，並且逐漸在採用Flink中的好的設計思路，所以學習一下Flink能讓你了解一下Streaming這方面的更迷人的思路。

H. 大數據調度平台分類(Oozie/Azkaban/AirFlow/DolphinScheler)

大數據調度系統，是整個離線批處理任務和准實時計算計算任務的驅動器。這里我把幾個常見的調度系統做了一下分類總結，結合目前阿里雲上的MaxCompute中的調度系統，做個對比。

Oozie是一個workflow(工作流)協調系統,是由Cloudera公司貢獻給Apache的,主要用來管理Hadoop作業(job)。

統一調度hadoop系統中常見的mr任務啟動、Java MR、Streaming MR、Pig、Hive、Sqoop、Spark、Shell等。

配置相關的調度任務復雜，依賴關系、時間觸發、事件觸發使用xml語言進行表達。

任務狀態、任務類型、任務運行機器、創建時間、啟動時間、完成時間等。

支持啟動/停止/暫停/恢復/重新運行：支持啟動/停止/暫停/恢復/重新運行。

可以通過DB支持HA(高可用)。調度任務時可能出現死鎖，依賴當前集群版本，如更新最新版，易於現階段集群不兼容。

Azkaban是由Linkedin公司推出的一個批量工作流任務調度器，主要用於在一個工作流內以一個特定的順序運行一組工作和流程，它的配置是通過簡單的key:value對的方式，通過配置中的dependencies 來設置依賴關系，這個依賴關系必須是無環的，否則會被視為無效的工作流。Azkaban使用job配置文件建立任務之間的依賴關系，並提供一個易於使用的web用戶界面維護和跟蹤你的工作流。

command、HadoopShell、Java、HadoopJava、Pig、Hive等，支持插件式擴展。

實際項目中經常有這些場景：每天有一個大任務，這個大任務可以分成A，B，C，D四個小任務，A，B任務之間沒有依賴關系，C任務依賴A，B任務的結果，D任務依賴C任務的結果。一般的做法是，開兩個終端同時執行A,B，兩個都執行完了再執行C，最後再執行D。這樣的話，整個的執行過程都需要人工參加，並且得盯著各任務的進度。但是我們的很多任務都是在深更半夜執行的，通過寫腳本設置crontab執行。其實，整個過程類似於一個有向無環圖（DAG）。每個子任務相當於大任務中的一個流，任務的起點可以從沒有度的節點開始執行，任何沒有通路的節點之間可以同時執行，比如上述的A，B。總結起來的話，我們需要的就是一個工作流的調度器，而Azkaban就是能解決上述問題的一個調度器。

提供job配置文件快速建立任務和任務之間的依賴關系，通過自定義DSL繪制DAG並打包上傳。

只能看到任務狀態。

只能先將工作流殺死在重新運行。

通過DB支持HA，任務太多時會卡死伺服器。

Airflow 是 Airbnb 開源的一個用 Python 編寫的調度工具。於 2014 年啟動，2015 年春季開源，2016 年加入 Apache 軟體基金會的孵化計劃。Airflow 通過 DAG 也即是有向非循環圖來定義整個工作流，因而具有非常強大的表達能力。

支持Python、Bash、HTTP、Mysql等，支持Operator的自定義擴展。

需要使用Python代碼來定義流程。

不直觀。

殺掉任務，重啟。

任務過多會卡死。

XXL-JOB是一個開源的，具有豐富的任務管理功能以及高性能，高可用等特點的輕量級分布式任務調度平台，其核心設計目標是開發迅速、學習簡單、輕量級、易擴展、開箱即用。

基於Java。

無，但是可以配置任務之間的依賴。

無

可以暫停、恢復。

支持HA。任務是基於隊列的，輪詢機制。

DolphinScheler是今年（2019年）中國易觀公司開源的一個調度系統，在今年美國時間2019年8月29號，易觀開源的分布式任務調度引擎DolphinScheler（原EasyScheler）正式通過頂級開源組織Apache基金會的投票決議，根據Apache基金會郵件列表顯示，在包含11個約束性投票(binding votes)和2個無約束性投票(non-binding votes)的投票全部持贊同意見，無棄權票和反對票，投票順利通過，這樣便以全票通過的優秀表現正式成為了Apache孵化器項目。

Apache DolphinScheler是一個分布式、去中心化、易擴展的可視化DAG工作流任務調度系統，其致力於解決數據處理流程中錯綜復雜的依賴關系，使調度系統在數據處理流程中開箱即用。

支持傳統的shell任務，同時支持大數據平台任務調度：MR、Spark、SQL(mysql、postgresql、hive/sparksql)、python、procere、sub_process。

所有流、定時操作都是可視化的，通過拖拽來繪制DAG,配置數據源及資源，同時對於第三方系統，提供api方式的操作。

任務狀態、任務類型、重試次數、任務運行機器、可視化變數，以及任務流執行日誌。

支持暫停、恢復、補數操作。

支持HA，去中心化的多Master和多Worker。DolphinScheler上的用戶可以通過租戶和hadoop用戶實現多對一或一對一的映射關系。無法做到細節的許可權管控。

任務隊列機制，單個機器上可調度的任務數量可以靈活配置，當任務過多時會緩存在任務隊列中，不會操作機器卡死。

調度器使用分布式調度，整體的調度能力會隨集群的規模線性正常，Master和Worker支持動態上下線，可以自由進行配置。

可以通過對用戶進行資源、項目、數據源的訪問授權。支持，可視化管理文件，及相關udf函數等。

I. ADSL是什麼意思

J. Elasticsearch解決問題之道——請亮出你的DSL

0、引言

在業務開發中，我們往往會陷入開發的細枝末節之中，而忽略了事物的本源。

經常有同學問到：

等等等等…..

以上的看似復雜的問題，如果轉換成DSL，清楚的寫出來，梳理清楚問題的來龍去脈，問題就自然解決了一大半。

所以，請亮出你的dsl,不論什麼語言的檢索，轉換到es查詢都是sql查詢，在es中對應dsl語法，es再拆解比如：分詞match_phrase拆解成各term組合，最終傳給lucene處理。

亮出你的dsl,確保編程里的實現和你的kibana或者head插件一致是非常重要、很容易被忽視的工作。

如果對dsl拆解不理解，那就再加上 profile:true或者explain:true拆解結果一目瞭然。

維基網路定義：領域特定語言（英語：domain-specific language、DSL）指的是專注於某個應用程序領域的計算機語言。又譯作領域專用語言。

Elasticsearch提供基於JSON的完整查詢DSL來定義查詢。將Query DSL視為查詢的AST（抽象語法樹），由兩種類型的子句組成：

1、葉子查詢子句

葉查詢子句查找特定欄位中的特定值，例如匹配，術語或范圍查詢。這些查詢可以單獨使用。

2、復合查詢子句

復合查詢子句可以組合其他葉子或復合查詢，用於以邏輯方式組合多個查詢（例如bool或dis_max查詢），或更改其行為（例如constant_score查詢）。

給個例子，一看就明白。

看到這里，可能會有人著急了：「我X，這不是官網定義嗎？再寫一遍有意思嗎？」

引用一句雞湯話，「再顯而易見的道理，在中國，至少有一億人不知道」。同樣的，再顯而易見的問題，在Elasticsearch技術社區也會有N多人提問。

基礎認知不怕重復，可怕的是對基礎的專研、打磨、夯實。

Elasticsearch相關的核心操作，廣義上可做如下解讀，不一定涵蓋全，僅拋磚引玉，說明DSL的重要性。

從大到小。

集群的管理，一般我們會使用Kibana或者第三方工具Head插件、cerebro工具、elastic-hq工具。

基本上硬體的（磁碟、cpu、內存）使用率、集群的健康狀態都能一目瞭然。

但基礎的DSL會更便捷，便於細粒度分析問題。

如：集群狀態查詢：

如：節點熱點線程查看：

如：集群分片分配情況查看：

索引生命周期是一直強調的概念，主要指索引的「生、老、病、死」的全過程鏈條的管理。

創建索引我們優先使用較單純index更靈活的template模板。

創建索引類似Mysql的創建表的操作，提前設計好表結構對應ES是提前設計好M app ing非常重要。

兩個維度：

舉例：

如：索引清理緩存。

如：某原因導致分片重新分配，_recovery查看分片分配狀態。

高版本的索引生命周期管理推薦使用：ILM功能。

這個是大家再熟悉不過的了。

舉例：

刪除數據包括：指定id刪除 delete和批量刪除delete_by_query（滿足給定條件）。

更新操作。包括：指定id的update/upsert或者批量更新update_by_query。

這是ES的重頭戲。包含但不限於：

1、支持精確匹配查詢的：term、range、exists、wildcard、prefix、fuzzy等。

2、支持全文檢索的：match、match_phrase、query_string、multi_match等

1、Bucketing分桶聚合

舉例：最常用的terms就類似Mysql group by功能。2、Metric計算聚合

舉例：類比Mysql中的： MIN, MAX, SUM 操作。3、Pipeline針對聚合結果聚合

舉例：bucket_script實現類似Mysql的group by 後having的操作。

留給大家結合業務場景思考添加。

這里把開頭提到的幾個問題逐一解答一下。

實際Mysql業務中，我們一般是先驗證sql沒有問題，再寫業務代碼。

實際ES業務中，也一樣，先DSL確認沒有問題，再寫業務代碼。

寫完java或者python後，列印DSL，核對是否完全一致。

不一致的地方基本就是結果和預期不一致的原因所在。

第一步：藉助analyzer API分析查詢語句和待查詢document分詞結果。

這個API的重要性，再怎麼強調都不為過。

第二步：可以藉助profile:true查看細節。第三步：核對match_phrase詞序的原理。

6.3版本後已經支持sql，如果不會寫，可以藉助translate 如下API翻譯一下。

不夠精確，但足夠參考用了，需要根據業務細節微調。

當然，還是建議，從業務出發，自己寫DSL。

從大往小，逐步細化排解

END

公眾號 ( sheng )里回復面經、ES、Flink、 Spring、Java、Kafka、監控等關鍵字可以查看更多關鍵字對應的文章

1、《從0到1學習Flink》—— Apache Flink 介紹

2、《從0到1學習Flink》—— Mac 上搭建 Flink 1.6.0 環境並構建運行簡單程序入門

3、《從0到1學習Flink》—— Flink 配置文件詳解

4、《從0到1學習Flink》—— Data Source 介紹

5、《從0到1學習Flink》—— 如何自定義 Data Source ？

6、《從0到1學習Flink》—— Data Sink 介紹

7、《從0到1學習Flink》—— 如何自定義 Data Sink ？

8、《從0到1學習Flink》—— Flink Data transformation(轉換)

9、《從0到1學習Flink》—— 介紹 Flink 中的 Stream Windows

10、《從0到1學習Flink》—— Flink 中的幾種 Time 詳解

11、《從0到1學習Flink》—— Flink 讀取 Kafka 數據寫入到 ElasticSearch

12、《從0到1學習Flink》—— Flink 項目如何運行？

13、《從0到1學習Flink》—— Flink 讀取 Kafka 數據寫入到 Kafka

14、《從0到1學習Flink》—— Flink JobManager 高可用性配置

15、《從0到1學習Flink》—— Flink parallelism 和 Slot 介紹

16、《從0到1學習Flink》—— Flink 讀取 Kafka 數據批量寫入到 MySQL

17、《從0到1學習Flink》—— Flink 讀取 Kafka 數據寫入到 RabbitMQ

18、《從0到1學習Flink》—— 你上傳的 jar 包藏到哪裡去了

19、大數據「重磅炸彈」——實時計算框架 Flink

20、《Flink 源碼解析》—— 源碼編譯運行

21、為什麼說流處理即未來？

22、OPPO數據中台之基石：基於Flink SQL構建實數據倉庫

23、流計算框架 Flink 與 Storm 的性能對比

24、Flink狀態管理和容錯機制介紹

25、原理解析 | Apache Flink 結合 Kafka 構建端到端的 Exactly-Once 處理

26、Apache Flink 是如何管理好內存的？

27、《從0到1學習Flink》——Flink 中這樣管理配置，你知道？

28、《從0到1學習Flink》——Flink 不可以連續 Split(分流)？

29、Flink 從0到1學習—— 分享四本 Flink 的書和二十多篇 Paper 論文

30 、360深度實踐：Flink與Storm協議級對比

31、Apache Flink 1.9 重大特性提前解讀

32、如何基於Flink+TensorFlow打造實時智能異常檢測平台？只看這一篇就夠了

33、美團點評基於 Flink 的實時數倉建設實踐

34、Flink 靈魂兩百問，這誰頂得住？

35、一文搞懂 Flink 的 Exactly Once 和 At Least Once

36、你公司到底需不需要引入實時計算引擎？

導航:首頁 > 網路數據 > 大數據dsl

大數據dsl

與大數據dsl相關的資料

友情鏈接