大數據集群詳解_大數據核心技術有哪些

A. 大數據開發環境搭建之高可用集群安裝

配置如下內容：

在標簽中添加如下內容：

你會發現：集群只有 mapred-site.xml.template，可以從這個文件進行復制，或者直接改名也可

然後修改配置：

在標簽中添加如下內容：

添加如下內容：

比如剛才我是在 bigdata02 執行安裝的，那麼我現在要把 hadoop 安裝包分發到 bigdata03, bigdata04, bigdata05 的相同目錄下。

由於我們安裝Hadoop 集群使用的是 bigdata 用戶，那麼我們配置用戶變數即可。

在文件的末尾追加內容：

然後保存退出即可。需要注意的是：需要每個節點都配置環境變數

奇數個節點

在第一個namenode節點進行格式化

出現如上提示，則說明初始化成功。

選擇一個節點，這里選bigdata02

查看 HDFS 集群的兩個 namenode 的角色狀態：

查看YARN集群的兩個resourcemanager的角色狀態：

HDFS集群的Web UI地址：

YARN集群的Web UI地址：

B. 大數據集群治理平台的目標客戶特徵

1、根據公開信息查詢可知，大數據集群治理平台的目標客戶特徵是所需數據量大，需要數據分布規范處理速度快。
2、大數據集群是一組協同工作的服務實體，用以提供比單一服務實體更具擴展性與可用性的服務平台。

C. 如何為大數據處理構建高性能Hadoop集群

越來越多的企業開始使用Hadoop來對大數據進行處理分析，但Hadoop集群的整體性能卻取決於CPU、內存、網路以及存儲之間的性能平衡。而在這篇文章中，我們將探討如何為Hadoop集群構建高性能網路，這是對大數據進行處理分析的關鍵所在。

關於Hadoop

「大數據」是鬆散的數據集合，海量數據的不斷增長迫使企業需要通過一種新的方式去管理。大數據是結構化或非結構化的多種數據類型的大集合。而 Hadoop則是Apache發布的軟體架構，用以分析PB級的非結構化數據，並將其轉換成其他應用程序可管理處理的形式。Hadoop使得對大數據處理成為可能，並能夠幫助企業可從客戶數據之中發掘新的商機。如果能夠進行實時處理或者接近實時處理，那麼其將為許多行業的用戶提供強大的優勢。

Hadoop是基於谷歌的MapRece和分布式文件系統原理而專門設計的，其可在通用的網路和伺服器硬體上進行部署，並使之成為計算集群。

Hadoop模型

Hadoop的工作原理是將一個非常大的數據集切割成一個較小的單元，以能夠被查詢處理。同一個節點的計算資源用於並行查詢處理。當任務處理結束後，其處理結果將被匯總並向用戶報告，或者通過業務分析應用程序處理以進行進一步分析或儀表盤顯示。

為了最大限度地減少處理時間，在此並行架構中，Hadoop「moves jobs to data」，而非像傳統模式那樣「moving data to jobs」。這就意味著，一旦數據存儲在分布式系統之中，在實時搜索、查詢或數據挖掘等操作時，如訪問本地數據，在數據處理過程中，各節點之間將只有一個本地查詢結果，這樣可降低運營開支。

Hadoop的最大特點在於其內置的並行處理和線性擴展能力，提供對大型數據集查詢並生成結果。在結構上，Hadoop主要有兩個部分：

Hadoop分布式文件系統(HDFS)將數據文件切割成數據塊，並將其存儲在多個節點之內，以提供容錯性和高性能。除了大量的多個節點的聚合I/O，性能通常取決於數據塊的大小——如128MB。而傳統的linux系統下的較為典型的數據塊大小可能是4KB。

MapRece引擎通過JobTracker節點接受來自客戶端的分析工作，採用「分而治之」的方式來將一個較大的任務分解成多個較小的任務，然後分配給各個TaskTrack節點，並採用主站/從站的分布方式(具體如下圖所示)：

Hadoop系統有三個主要的功能節點：客戶機、主機和從機。客戶機將數據文件注入到系統之中，從系統中檢索結果，以及通過系統的主機節點提交分析工作等。主機節點有兩個基本作用：管理分布式文件系統中各節點以及從機節點的數據存儲，以及管理Map/Rece從機節點的任務跟蹤分配和任務處理。數據存儲和分析處理的實際性能取決於運行數據節點和任務跟蹤器的從機節點性能，而這些從機節點則由各自的主機節點負責溝通和控制。從節點通常有多個數據塊，並在作業期間被分配處理多個任務。

部署實施Hadoop

各個節點硬體的主要要求是市縣計算、內存、網路以及存儲等四個資源的平衡。目前常用的並被譽為「最佳」的解決方案是採用相對較低成本的舊有硬體，部署足夠多的伺服器以應對任何可能的故障，並部署一個完整機架的系統。

Hadoop模式要求伺服器與SAN或者NAS進行直接連接存儲(DAS)。採用DAS主要有三個原因，在標准化配置的集群中，節點的縮放數以千計，隨著存儲系統的成本、低延遲性以及存儲容量需求不斷提高，簡單配置和部署個主要的考慮因素。隨著極具成本效益的1TB磁碟的普及，可使大型集群的TB級數據存儲在DAS之上。這解決了傳統方法利用SAN進行部署極其昂貴的困境，如此多的存儲將使得Hadoop和數據存儲出現一個令人望而卻步的起始成本。有相當大一部分用戶的Hadoop部署構建都是採用大容量的DAS伺服器，其中數據節點大約1-2TB，名稱控制節點大約在1-5TB之間，具體如下圖所示：

來源：Brad Hedlund, DELL公司

對於大多數的Hadoop部署來說，基礎設施的其他影響因素可能還取決於配件，如伺服器內置的千兆乙太網卡或千兆乙太網交換機。上一代的CPU和內存等硬體的選擇，可根據符合成本模型的需求，採用匹配數據傳輸速率要求的千兆乙太網介面來構建低成本的解決方案。採用萬兆乙太網來部署Hadoop也是相當不錯的選擇。

萬兆乙太網對Hadoop集群的作用

千兆乙太網的性能是制約Hadoop系統整體性能的一個主要因素。使用較大的數據塊大小，例如，如果一個節點發生故障(甚至更糟，整個機架宕機)，那麼整個集群就需要對TB級的數據進行恢復，這就有可能會超過千兆乙太網所能提供的網路帶寬，進而使得整個集群性能下降。在擁有成千上萬個節點的大型集群中，當運行某些需要數據節點之間需要進行中間結果再分配的工作負載時，在系統正常運行過程中，某個千兆乙太網設備可能會遭遇網路擁堵。

每一個Hadoop數據節點的目標都必須實現CPU、內存、存儲和網路資源的平衡。如果四者之中的任意一個性能相對較差的話，那麼系統的潛在處理能力都有可能遭遇瓶頸。添加更多的CPU和內存組建，將影響存儲和網路的平衡，如何使Hadoop集群節點在處理數據時更有效率，減少結果，並在Hadoop集群內添加更多的HDFS存儲節點。

幸運的是，影響CPU和內存發展的摩爾定律，同樣也正影響著存儲技術(TB級容量的磁碟)和乙太網技術(從千兆向萬兆甚至更高)的發展。預先升級系統組件(如多核處理器、每節點5-20TB容量的磁碟，64-128GB內存)，萬兆乙太網卡和交換機等網路組件是重新平衡資源最合理的選擇。萬兆乙太網將在Hadoop集群證明其價值，高水平的網路利用率將帶來效益更高的帶寬。下圖展示了Hadoop集群與萬兆乙太網的連接：

許多企業級數據中心已經遷移到10GbE網路，以實現伺服器整合和伺服器虛擬化。隨著越來越多企業開始部署Hadoop，他們發現他們完全不必要大批量部署1U的機架伺服器，而是部署更少，但性能更高的伺服器，以方便擴展每個數據節點所能運行的任務數量。很多企業選擇部署2U或4U的伺服器(如戴爾 PowerEdge C2100)，每個節點大約12-16個核心以及24TB存儲容量。在這種環境下的合理選擇是充分利用已經部署的10GbE設備和Hadoop集群中的 10GbE網卡。

在日常的IT環境中構建一個簡單的Hadoop集群。可以肯定的是，盡管有很多細節需要微調，但其基礎是非常簡單的。構建一個計算、存儲和網路資源平衡的系統，對項目的成功至關重要。對於擁有密集節點的Hadoop集群而言，萬兆乙太網能夠為計算和存儲資源擴展提供與之相匹配的能力，且不會導致系統整體性能下降。

D. 基於Docker搭建大數據集群（一）Docker環境部署

yum install -y yum-utils #安裝工具包，缺少這些依賴將無法完成

yum-config-manager --add-repo https://download.docker.com/linux/centos/docker-ce.repo

yum install docker-ce

systemctl start docker

docker version

docker run hello-world

docker pull centos

docker imsages

docker network create --subnet=172.15.0.0/16 netgroup

master

slave1

slave2

slave3

docker ps

docker pa -a

docker run 容器名或容器ID

docker run exec -ti 容器名或容器ID bash

ssh-keygen -t rsa

passwd root

master

slave1

slave2

slave3

master

slave1

slave2

slave3

https://hub.docker.com/

E. 大數據核心技術有哪些

大數據技術的體系龐大且復雜，基礎的技術包含數據的採集、數據預處理、分布式存儲、NoSQL資料庫、數據倉庫、機器學習、並行計算、可視化等各種技術范疇和不同的技術層面。首先給出一個通用化的大數據處理框架，主要分為下面幾個方面：數據採集與預處理、數據存儲、數據清洗、數據查詢分析和數據可視化。

一、數據採集與預處理

對於各種來源的數據，包括移動互聯網數據、社交網路的數據等，這些結構化和非結構化的海量數據是零散的，也就是所謂的數據孤島，此時的這些數據並沒有什麼意義，數據採集就是將這些數據寫入數據倉庫中，把零散的數據整合在一起，對這些數據綜合起來進行分析。數據採集包括文件日誌的採集、資料庫日誌的採集、關系型資料庫的接入和應用程序的接入等。在數據量比較小的時候，可以寫個定時的腳本將日誌寫入存儲系統，但隨著數據量的增長，這些方法無法提供數據安全保障，並且運維困難，需要更強壯的解決方案。

Flume NG作為實時日誌收集系統，支持在日誌系統中定製各類數據發送方，用於收集數據，同時，對數據進行簡單處理，並寫到各種數據接收方(比如文本，HDFS，Hbase等)。Flume NG採用的是三層架構：Agent層，Collector層和Store層，每一層均可水平拓展。其中Agent包含Source，Channel和 Sink，source用來消費（收集）數據源到channel組件中，channel作為中間臨時存儲，保存所有source的組件信息，sink從channel中讀取數據，讀取成功之後會刪除channel中的信息。

NDC，Netease Data Canal，直譯為網易數據運河系統，是網易針對結構化資料庫的數據實時遷移、同步和訂閱的平台化解決方案。它整合了網易過去在數據傳輸領域的各種工具和經驗，將單機資料庫、分布式資料庫、OLAP系統以及下游應用通過數據鏈路串在一起。除了保障高效的數據傳輸外，NDC的設計遵循了單元化和平台化的設計哲學。

Logstash是開源的伺服器端數據處理管道，能夠同時從多個來源採集數據、轉換數據，然後將數據發送到您最喜歡的「存儲庫」中。一般常用的存儲庫是Elasticsearch。Logstash 支持各種輸入選擇，可以在同一時間從眾多常用的數據來源捕捉事件，能夠以連續的流式傳輸方式，輕松地從您的日誌、指標、Web 應用、數據存儲以及各種 AWS 服務採集數據。

Sqoop，用來將關系型資料庫和Hadoop中的數據進行相互轉移的工具，可以將一個關系型資料庫(例如Mysql、Oracle)中的數據導入到Hadoop(例如HDFS、Hive、Hbase)中，也可以將Hadoop(例如HDFS、Hive、Hbase)中的數據導入到關系型資料庫(例如Mysql、Oracle)中。Sqoop 啟用了一個 MapRece 作業（極其容錯的分布式並行計算）來執行任務。Sqoop 的另一大優勢是其傳輸大量結構化或半結構化數據的過程是完全自動化的。

流式計算是行業研究的一個熱點，流式計算對多個高吞吐量的數據源進行實時的清洗、聚合和分析，可以對存在於社交網站、新聞等的數據信息流進行快速的處理並反饋，目前大數據流分析工具有很多，比如開源的strom，spark streaming等。

Strom集群結構是有一個主節點（nimbus）和多個工作節點（supervisor）組成的主從結構，主節點通過配置靜態指定或者在運行時動態選舉，nimbus與supervisor都是Storm提供的後台守護進程，之間的通信是結合Zookeeper的狀態變更通知和監控通知來處理。nimbus進程的主要職責是管理、協調和監控集群上運行的topology（包括topology的發布、任務指派、事件處理時重新指派任務等）。supervisor進程等待nimbus分配任務後生成並監控worker（jvm進程）執行任務。supervisor與worker運行在不同的jvm上，如果由supervisor啟動的某個worker因為錯誤異常退出（或被kill掉），supervisor會嘗試重新生成新的worker進程。

當使用上游模塊的數據進行計算、統計、分析時，就可以使用消息系統，尤其是分布式消息系統。Kafka使用Scala進行編寫，是一種分布式的、基於發布/訂閱的消息系統。Kafka的設計理念之一就是同時提供離線處理和實時處理,以及將數據實時備份到另一個數據中心，Kafka可以有許多的生產者和消費者分享多個主題，將消息以topic為單位進行歸納；Kafka發布消息的程序稱為procer，也叫生產者，預訂topics並消費消息的程序稱為consumer，也叫消費者；當Kafka以集群的方式運行時，可以由一個服務或者多個服務組成，每個服務叫做一個broker，運行過程中procer通過網路將消息發送到Kafka集群，集群向消費者提供消息。Kafka通過Zookeeper管理集群配置，選舉leader，以及在Consumer Group發生變化時進行rebalance。Procer使用push模式將消息發布到broker，Consumer使用pull模式從broker訂閱並消費消息。Kafka可以和Flume一起工作，如果需要將流式數據從Kafka轉移到hadoop，可以使用Flume代理agent，將Kafka當做一個來源source，這樣可以從Kafka讀取數據到Hadoop。

Zookeeper是一個分布式的，開放源碼的分布式應用程序協調服務，提供數據同步服務。它的作用主要有配置管理、名字服務、分布式鎖和集群管理。配置管理指的是在一個地方修改了配置，那麼對這個地方的配置感興趣的所有的都可以獲得變更，省去了手動拷貝配置的繁瑣，還很好的保證了數據的可靠和一致性，同時它可以通過名字來獲取資源或者服務的地址等信息，可以監控集群中機器的變化，實現了類似於心跳機制的功能。

二、數據存儲

Hadoop作為一個開源的框架，專為離線和大規模數據分析而設計，HDFS作為其核心的存儲引擎，已被廣泛用於數據存儲。

HBase，是一個分布式的、面向列的開源資料庫，可以認為是hdfs的封裝，本質是數據存儲、NoSQL資料庫。HBase是一種Key/Value系統，部署在hdfs上，克服了hdfs在隨機讀寫這個方面的缺點，與hadoop一樣，Hbase目標主要依靠橫向擴展，通過不斷增加廉價的商用伺服器，來增加計算和存儲能力。

Phoenix，相當於一個Java中間件，幫助開發工程師能夠像使用JDBC訪問關系型資料庫一樣訪問NoSQL資料庫HBase。

Yarn是一種Hadoop資源管理器，可為上層應用提供統一的資源管理和調度，它的引入為集群在利用率、資源統一管理和數據共享等方面帶來了巨大好處。Yarn由下面的幾大組件構成：一個全局的資源管理器ResourceManager、ResourceManager的每個節點代理NodeManager、表示每個應用的Application以及每一個ApplicationMaster擁有多個Container在NodeManager上運行。

Mesos是一款開源的集群管理軟體，支持Hadoop、ElasticSearch、Spark、Storm 和Kafka等應用架構。

Redis是一種速度非常快的非關系資料庫，可以存儲鍵與5種不同類型的值之間的映射，可以將存儲在內存的鍵值對數據持久化到硬碟中，使用復制特性來擴展性能，還可以使用客戶端分片來擴展寫性能。

Atlas是一個位於應用程序與MySQL之間的中間件。在後端DB看來，Atlas相當於連接它的客戶端，在前端應用看來，Atlas相當於一個DB。Atlas作為服務端與應用程序通訊，它實現了MySQL的客戶端和服務端協議，同時作為客戶端與MySQL通訊。它對應用程序屏蔽了DB的細節，同時為了降低MySQL負擔，它還維護了連接池。Atlas啟動後會創建多個線程，其中一個為主線程，其餘為工作線程。主線程負責監聽所有的客戶端連接請求，工作線程只監聽主線程的命令請求。

Ku是圍繞Hadoop生態圈建立的存儲引擎，Ku擁有和Hadoop生態圈共同的設計理念，它運行在普通的伺服器上、可分布式規模化部署、並且滿足工業界的高可用要求。其設計理念為fast analytics on fast data。作為一個開源的存儲引擎，可以同時提供低延遲的隨機讀寫和高效的數據分析能力。Ku不但提供了行級的插入、更新、刪除API，同時也提供了接近Parquet性能的批量掃描操作。使用同一份存儲，既可以進行隨機讀寫，也可以滿足數據分析的要求。Ku的應用場景很廣泛，比如可以進行實時的數據分析，用於數據可能會存在變化的時序數據應用等。

在數據存儲過程中，涉及到的數據表都是成千上百列，包含各種復雜的Query，推薦使用列式存儲方法，比如parquent,ORC等對數據進行壓縮。Parquet 可以支持靈活的壓縮選項，顯著減少磁碟上的存儲。

三、數據清洗

MapRece作為Hadoop的查詢引擎，用於大規模數據集的並行計算，」Map（映射）」和」Rece（歸約）」，是它的主要思想。它極大的方便了編程人員在不會分布式並行編程的情況下，將自己的程序運行在分布式系統中。

隨著業務數據量的增多，需要進行訓練和清洗的數據會變得越來越復雜，這個時候就需要任務調度系統，比如oozie或者azkaban，對關鍵任務進行調度和監控。

Oozie是用於Hadoop平台的一種工作流調度引擎，提供了RESTful API介面來接受用戶的提交請求(提交工作流作業)，當提交了workflow後，由工作流引擎負責workflow的執行以及狀態的轉換。用戶在HDFS上部署好作業(MR作業)，然後向Oozie提交Workflow，Oozie以非同步方式將作業(MR作業)提交給Hadoop。這也是為什麼當調用Oozie 的RESTful介面提交作業之後能立即返回一個JobId的原因，用戶程序不必等待作業執行完成（因為有些大作業可能會執行很久(幾個小時甚至幾天)）。Oozie在後台以非同步方式，再將workflow對應的Action提交給hadoop執行。

Azkaban也是一種工作流的控制引擎，可以用來解決有多個hadoop或者spark等離線計算任務之間的依賴關系問題。azkaban主要是由三部分構成：Relational Database，Azkaban Web Server和Azkaban Executor Server。azkaban將大多數的狀態信息都保存在MySQL中，Azkaban Web Server提供了Web UI，是azkaban主要的管理者，包括project的管理、認證、調度以及對工作流執行過程中的監控等；Azkaban Executor Server用來調度工作流和任務，記錄工作流或者任務的日誌。

流計算任務的處理平台Sloth，是網易首個自研流計算平台，旨在解決公司內各產品日益增長的流計算需求。作為一個計算服務平台，其特點是易用、實時、可靠，為用戶節省技術方面（開發、運維）的投入，幫助用戶專注於解決產品本身的流計算需求。

四、數據查詢分析

Hive的核心工作就是把SQL語句翻譯成MR程序，可以將結構化的數據映射為一張資料庫表，並提供 HQL(Hive SQL)查詢功能。Hive本身不存儲和計算數據，它完全依賴於HDFS和MapRece。可以將Hive理解為一個客戶端工具，將SQL操作轉換為相應的MapRece jobs，然後在hadoop上面運行。Hive支持標準的SQL語法，免去了用戶編寫MapRece程序的過程，它的出現可以讓那些精通SQL技能、但是不熟悉MapRece 、編程能力較弱與不擅長Java語言的用戶能夠在HDFS大規模數據集上很方便地利用SQL 語言查詢、匯總、分析數據。

Hive是為大數據批量處理而生的，Hive的出現解決了傳統的關系型資料庫(MySql、Oracle)在大數據處理上的瓶頸。Hive 將執行計劃分成map->shuffle->rece->map->shuffle->rece…的模型。如果一個Query會被編譯成多輪MapRece，則會有更多的寫中間結果。由於MapRece執行框架本身的特點，過多的中間過程會增加整個Query的執行時間。在Hive的運行過程中，用戶只需要創建表，導入數據，編寫SQL分析語句即可。剩下的過程由Hive框架自動的完成。

Impala是對Hive的一個補充，可以實現高效的SQL查詢。使用Impala來實現SQL on Hadoop，用來進行大數據實時查詢分析。通過熟悉的傳統關系型資料庫的SQL風格來操作大數據，同時數據也是可以存儲到HDFS和HBase中的。Impala沒有再使用緩慢的Hive+MapRece批處理，而是通過使用與商用並行關系資料庫中類似的分布式查詢引擎（由Query Planner、Query Coordinator和Query Exec Engine三部分組成），可以直接從HDFS或HBase中用SELECT、JOIN和統計函數查詢數據，從而大大降低了延遲。Impala將整個查詢分成一執行計劃樹，而不是一連串的MapRece任務，相比Hive沒了MapRece啟動時間。

Hive 適合於長時間的批處理查詢分析，而Impala適合於實時互動式SQL查詢，Impala給數據人員提供了快速實驗，驗證想法的大數據分析工具，可以先使用Hive進行數據轉換處理，之後使用Impala在Hive處理好後的數據集上進行快速的數據分析。總的來說：Impala把執行計劃表現為一棵完整的執行計劃樹，可以更自然地分發執行計劃到各個Impalad執行查詢，而不用像Hive那樣把它組合成管道型的map->rece模式，以此保證Impala有更好的並發性和避免不必要的中間sort與shuffle。但是Impala不支持UDF，能處理的問題有一定的限制。

Spark擁有Hadoop MapRece所具有的特點，它將Job中間輸出結果保存在內存中，從而不需要讀取HDFS。Spark 啟用了內存分布數據集，除了能夠提供互動式查詢外，它還可以優化迭代工作負載。Spark 是在 Scala 語言中實現的，它將 Scala 用作其應用程序框架。與 Hadoop 不同，Spark 和 Scala 能夠緊密集成，其中的 Scala 可以像操作本地集合對象一樣輕松地操作分布式數據集。

Nutch 是一個開源Java 實現的搜索引擎。它提供了我們運行自己的搜索引擎所需的全部工具，包括全文搜索和Web爬蟲。

Solr用Java編寫、運行在Servlet容器（如Apache Tomcat或Jetty）的一個獨立的企業級搜索應用的全文搜索伺服器。它對外提供類似於Web-service的API介面，用戶可以通過http請求，向搜索引擎伺服器提交一定格式的XML文件，生成索引；也可以通過Http Get操作提出查找請求，並得到XML格式的返回結果。

Elasticsearch是一個開源的全文搜索引擎，基於Lucene的搜索伺服器，可以快速的儲存、搜索和分析海量的數據。設計用於雲計算中，能夠達到實時搜索，穩定，可靠，快速，安裝使用方便。

還涉及到一些機器學習語言，比如，Mahout主要目標是創建一些可伸縮的機器學習演算法，供開發人員在Apache的許可下免費使用；深度學習框架Caffe以及使用數據流圖進行數值計算的開源軟體庫TensorFlow等，常用的機器學習演算法比如，貝葉斯、邏輯回歸、決策樹、神經網路、協同過濾等。

五、數據可視化

對接一些BI平台，將分析得到的數據進行可視化，用於指導決策服務。主流的BI平台比如，國外的敏捷BI Tableau、Qlikview、PowrerBI等，國內的SmallBI和新興的網易有數（可點擊這里免費試用）等。

在上面的每一個階段，保障數據的安全是不可忽視的問題。

基於網路身份認證的協議Kerberos，用來在非安全網路中，對個人通信以安全的手段進行身份認證，它允許某實體在非安全網路環境下通信，向另一個實體以一種安全的方式證明自己的身份。

控制許可權的ranger是一個Hadoop集群許可權框架，提供操作、監控、管理復雜的數據許可權，它提供一個集中的管理機制，管理基於yarn的Hadoop生態圈的所有數據許可權。可以對Hadoop生態的組件如Hive，Hbase進行細粒度的數據訪問控制。通過操作Ranger控制台，管理員可以輕松的通過配置策略來控制用戶訪問HDFS文件夾、HDFS文件、資料庫、表、欄位許可權。這些策略可以為不同的用戶和組來設置，同時許可權可與hadoop無縫對接。

導航:首頁 > 網路數據 > 大數據集群詳解

大數據集群詳解

與大數據集群詳解相關的資料

友情鏈接