❶ hadoop在Linux下的簡單配置
實際生產環境中,員工不會直接登陸伺服器,而是通過遠程連接工具,進行遠程登陸。那麼就需要知道伺服器的IP地址,一個用戶名和密碼。
1)安羨巧困裝(略)
2)連接虛擬機(前提是物理機能ping通虛擬機)
當我們頻繁的在一台機器A上連接另外一台機器B時,不論是復制文件還是刪除文件,或者是進行其他操作。那麼都要使用機器B的用戶名和密碼。每次都需要輸入密碼,那麼效率降低了。這個時候,如果可以不輸入密碼,還有一定的安全性,可以防止黑客在中間截取信息。那麼就需要一種安全認證技術。
1)准備工作
2)測試
3)原理
[圖片上傳失敗...(image-3835b9-1576065751546)]
在搭建HDFS的完全分布式集群時,需要以下環境要求:
1)說明
2)配置域名映射
1)准備工作
2)解壓jdk到/opt/apps/
3)更名操作
4)配置環境變數
4.1)說明
4.2)配置
4.3)使當前窗口生效(或者reboot)
4.4)驗證
1)解壓縮
2)更名
3)配置
4)使當前窗口生效
5)驗證
1)守護進程布局
2)配置文件的說明
1)配置core-site.xml
2)hdfs-site.xml
3)mapred-site.xml
4)yarn-site.xml
5)slaves文件:配置所有datanode節點的主機名
6)hadoop-env.sh
7)yarn-env.sh
1)說寬耐明,使用完整克隆,克隆manager
2)克隆步驟
3)修改新克隆機器的主機名
4)修改新克隆機器的IP地址
5)重啟後,驗證免密登陸認證是否有效
1)目的
2)格式化的命令
注意:一定要選擇namenode所在的節點上進行格式化
1)開啟集群的命令
2)使用jps查看節點上的守護進程
3)使用http協議查看分布式文件系統
5)暴力解決節點不正常的方式
3.1 常用指令:
4.1.1 解壓hadoop-2.7.6.tar.gz到本地兄念磁碟,如下圖:
4.1.2 配置環境變數
4.1.3 由於Hadoop是在32位系統上編譯的,並且對windows支持不好,所以需要把64的編譯本地庫文件(下圖的兩個文件),放入bin目錄中。
10.1.4 驗證環境變數是否生效:
10.1.5 如果報錯:Error: java_HOME is incorrectly set
為了方便開發,我們可以將相關的jar提取出來。
❷ HADOOP安裝(安裝詳情私)-
2.1 准備
克隆三台虛擬機:hadoop102 hadoop103 hadoop104,
修改克隆虛擬機的靜態 IP:vim /etc/sysconfig/network-scripts/ifcfgens33
修改主機名稱 vim /etc/hostname
配置 Linux 克隆機主機名稱映射 hosts 文件:vim /etc/hosts
reboot
安裝 JDK 前,一定確保提前刪除了虛擬機自帶的 JDK
解壓、配置 JDK 環境變讓游量,測試:java -version
Hadoop 下載地址:https://archive.apache.org/dist/hadoop/common/hadoop-3.1.3/
解壓、將 Hadoop 添加到環境變數
2.2 Hadoop 重要目錄
bin 目錄:存放對 Hadoop 相關服務(hdfs,yarn,mapred)進行操作的腳本
etc 目錄:Hadoop 的配置文件目錄,存放 Hadoop 的配置文件
lib 目錄:存放 Hadoop 的本地庫(對數據進行壓縮解壓縮功能)
sbin 目錄:存放啟動或停止 Hadoop 相關服務的腳本
share 目錄:存放 Hadoop 的依賴 jar 包、文檔、和官方案例
2.3 Hadoop運行模式
Hadoop 運行模式包括:本地模式、偽分布式模式以及完全分布式模式
本地模式:單機運行,只是用來演示一下官方案例。生產環境不用。
偽分布式模式:也是單機運行,但是具備 Hadoop 集群的所有功能,一台伺服器模 擬一個分布式的環境。個別缺錢的公司用來測試,生產環境不用。
完全分布式模式:多台伺服器組成分布式環境。生產環境使用。
完全分布式運行模式(開發重點) 分析:1)准備 3 台客戶機(關閉防火牆、靜態 IP、主機名稱) 2)安裝 JDK 3)配置環境變數 4)安裝 Hadoop 5)配置環境變數 6)配置集群 7)單點啟動 8)配置 ssh 9)群起並測試集群
編寫集群分發腳本 xsync
scp安全拷貝語法:
scp -r $pdir/$fname $user@$host:$pdir/$fname
命令 遞歸 要拷貝的文件路徑/名稱 目的地用戶@主機:目的地路徑/名稱
rsync 遠程同步工具語法:
rsync -av $pdir/$fname $user@$host:$pdir/$fname
命令 選項參數 要拷貝的文件路徑/名稱 目的地用戶@主機:目的地路徑/名稱
rsync 和 scp 區別:仔橡用 rsync 做文件的復制要比 scp 的速度快,rsync 只對差異文件做更 新。scp 是把所有文件都復制過去。
rsync 主要用於備份和鏡像。具有速度快、避免復制相同內容和支持符號鏈接的優點。
SSH 無密登錄配置
命令:ssh-keygen -t rsa
然後敲(三個回車),就會生成兩個文件 id_rsa(私鑰)、id_rsa.pub(公鑰)
將公鑰拷貝到要免密登錄的目標機器上:ssh--id hadoop102
2.4 集群安裝
注意
NameNode 和 SecondaryNameNode 不要安裝在同一台伺服器
ResourceManager 也很消耗內存,不要和 NameNode、SecondaryNameNode 配置在 同一台機器上。
Hadoop 配置文件分兩類:默認配置念滑旁文件和自定義配置文件,只有用戶想修改某一默認 配置值時,才需要修改自定義配置文件,更改相應屬性值
自定義配置文件:core-site.xml、hdfs-site.xml、yarn-site.xml、mapred-site.xml 四個配置文件存放在 $HADOOP_HOME/etc/hadoop 這個路徑
❸ hadoop單機模式和偽分布式模式的異同
1、運行模式不同:
單機模式是Hadoop的默認模式。這種模式在一台單機上運行,沒有分布式文件系統,而是直接讀寫本地操作系統的文件系統。
偽分布模式這種模式也是在一台單機上運行,但用不同的Java進程模仿分布式運行中的各類結點。
2、配置不同:
單機模式(standalone)首次解壓Hadoop的源碼包時,Hadoop無法了解硬體安裝環境,便保守地選擇了最小配置。在這種默認模式下所有3個XML文件均為空。當配置文件為空時,Hadoop會完全運行在本地。
偽分布模式在「單節點集群」上運行Hadoop,其中所有的守護進程都運行在同一台機器上。
3、節點交互不同:
單機模式因為不需要與其他節點交互,單機模式就不使用HDFS,也不載入任何Hadoop的守護進程。該模式主要用於開發調試MapRece程序的應用邏輯。
偽分布模式在單機模式之上增加了代碼調試功能,允許你檢查內存使用情況,HDFS輸入輸出,以及其他的守護進程交互。
(3)完全分布式不需要修改的配置文件擴展閱讀:
核心架構:
1、HDFS:
HDFS對外部客戶機而言,HDFS就像一個傳統的分級文件系統。可以創建、刪除、移動或重命名文件,等等。存儲在 HDFS 中的文件被分成塊,然後將這些塊復制到多個計算機中(DataNode)。這與傳統的 RAID 架構大不相同。塊的大小和復制的塊數量在創建文件時由客戶機決定。
2、NameNode
NameNode 是一個通常在 HDFS 實例中的單獨機器上運行的軟體。它負責管理文件系統名稱空間和控制外部客戶機的訪問。NameNode 決定是否將文件映射到 DataNode 上的復制塊上。
3、DataNode
DataNode 也是在 HDFS實例中的單獨機器上運行的軟體。Hadoop 集群包含一個 NameNode 和大量 DataNode。DataNode 通常以機架的形式組織,機架通過一個交換機將所有系統連接起來。Hadoop 的一個假設是:機架內部節點之間的傳輸速度快於機架間節點的傳輸速度。
❹ VMware搭建完全分布式Hadoop集群
環境 :
修改名稱和存儲位置即可。
1.3.1 查看你PC上為VMware分配的IP地址段、子網掩碼和網關。打開終端,輸入如下命令:答伏搏
more /Library/Preferences/VMware Fusion/vmnet8/dhcpd.conf
添加以下信息:
重啟機器即可完成靜態IP的清祥修改。記得 ping www..com 測試網路的連通性。
1.4.1 修改主機名稱
sudo vim /etc/hostname
將文件修改為你的主機名,例如hadoop101
1.4.2 修改主機名和host的映射
sudo vim /etc/hosts
1.4.3 重啟機器,並使用 ping hadoop10x 測試連通性。
如果你在第一台虛擬機上完成了偽分布模式的搭建,那麼此時克隆的兩台機器也同樣擁有JDK和Hadoop。
scp命令
此時,如果只有一台機器完成了jdk和Hadoop的安裝配置,我們可以使用 scp 命令完成數據的安全拷貝。
命令格式: scp -r 要拷貝的文件路徑/名稱 user@ip:目的路徑/名稱
rsync命令
與 scp 相同的還有一個命令時 rsync ,其主要用於備份和鏡像。 rsync 做文件的復制要比 scp 的速度快, rsync 只對差異文件做更新。 scp 將所有文件都復制過去。使用方法和 scp 一樣。
基本格式: rsync -rvl 源文件 目的路徑
集群分發腳本
腳本sxync.sh可以更好的同步數據到其他機器上
這個很重要,後面的所有配置都是按照這個來的
3.2.1 配置hadoop-env.sh
3.2.2 配置hdfs-site.xml文件
3.3.1 配置yarn-env.sh
3.3.2 配置yarn-site.xml文件
3.4.1 配置mapred-env.sh
3.4.2 配置mapred-site.xml文件
xsync /opt/mole/hadoop-x.x.x/
rm -rf data/ logs/
根據集群配置圖,我們可以發現NameNode在hadoop102上,所以我們連接hadoop102,並執行如下命令:
bin/hdfs namenode -format
此時,不允許有任何錯,否則格式化失敗
4.4.1 在hadoop101上啟動DataNode。
sbin/hadoop-daemon.sh start datanode
4.4.2 在hadoop102上啟動NameNode和DataNode。
sbin/hadoop-daemon.sh start namenode
sbin/hadoop-daemon.sh start datanode
4.4.3 在hadoop101上啟動DataNode和SecondaryNode
sbin/hadoop-daemon.sh start datanode
sbin/hadoop-daemon.sh start secondarynamenode
在瀏覽器中輸入 http://hadoop102:50070 查看集群是否啟動成功。如果本機的hosts里邊沒有Hadoop102到ip地址的映射,此時會無法訪問,兩種辦法:第一,使用過ip:端廳迅口號訪問;第二,在本機hosts文件里加入三個節點的主機名到ip地址的映射。
5.1.1 在hadoop101上使用指令ssh-keygen -t rsa生成公鑰和密鑰
6.2.1 在hadoop102上啟動HDFS
sbin/start-dfs.sh
7.1 一個大文件個一個小文件
bin/hdfs dfs -put wcinput/wc.input /
bin/hdfs dfs -put /opt/software/hadoop-x.x.x.tar.gz
7.2 在瀏覽器中輸入 http://hadoop102:50070 查看上傳結果:
大功告成,告別從入門到放棄!
❺ hadoop2.2在windows下面如何安裝啊
Hadoop三種安裝模式:單機模式,偽分布式,真正分布式
一 單機模式standalone
單機模式是Hadoop的默認模式。當首次解壓Hadoop的源碼包時,Hadoop無法了解硬體安裝環境,便保守地選擇了最小配置。在這種默認模式下所有3個XML文件均為空。當配置文件為空時,Hadoop會完全運行在本地。因為不需要與其他節點交互,單機模式就不使用HDFS,也不載入任何Hadoop的守護進程。該模式主要用於開發調試MapRece程序的應用邏輯。
二 偽分布模式安裝
tar xzvf hadoop-0.20.2.tar.gz
Hadoop的配置文件:
conf/hadoop-env.sh 配置JAVA_HOME
core-site.xml 配置HDFS節點名稱和地址
hdfs-site.xml 配置HDFS存儲目錄,復制數量
mapred-site.xml 配置maprece的jobtracker地址
配置ssh,生成密匙,使到ssh可以免密碼連接
(RSA演算法,基於因數不對稱加密:公鑰加密私鑰才能解密,私鑰加密公鑰才能解密)
cd /root
ssh -keygen -t rsa
cd .ssh
cp id_rsa.pub authorized_keys覆蓋公鑰,就能免密碼連接
啟動Hadoop bin/start-all.sh
停止Hadoop bin/stop-all.sh
三 完全分布式模式
1. 配置etc/hosts文件,使主機名解析為IP 或者使用DNS服務解析主機名
2. 建立hadoop運行用戶: useradd grid>passwd grid
3. 配置ssh密碼連入: 每個節點用grid登錄,進入主工作目錄,ssh -keygen -t rsa生產公鑰,然後將每個節點的公鑰復制到同一個文件中,再將這個包含所有節點公鑰的文件復制到每個節點authorized_keys目錄,這個每個節點之間彼此可以免密碼連接
4. 下載並解壓hadoop安裝包
5. 配置namenode,修改site文件
6. 配置hadoop-env.sh
7. 配置masters和slaves文件
8. 向各個節點復制hadoop
9. 格式化namenode
10.啟動hadoop
11.用jps檢驗各後台進程是否成功啟動。
❻ HBase配置文件詳解(一)
HBase使用與Hadoop相同的配置系統,所有配置文件都位於 conf/ 目錄中,需要保持群集中每個節點的同步。
在對HBase進行配置,即編輯hbase-site.xml文件時,確保語法正確且XML格式良好。我們可以使用 xmllint 檢查XML格式是否正確,默認情況下, xmllint 重新流動並將XML列印到標准輸出。如果檢查格式是否正確,並且只在存在錯誤時才列印輸出,可以使用以下命令:
當在完全分布式環境下運行HBase時,在對HBase配置文件進行修改後,確保將 /conf/ 目錄下的配置文件同步到集群其他節點上,可以使用 rsync 、 scp 或其他安全機制將配置文件復制到其他節點上。(對於大多數配置,伺服器需要重新啟動配置才能生效)