linux创建hadoop用户_linux系统里面为什么安装完一个服务要建一个相应的nologin用户呢

① 怎么在linux虚拟机安装hadoop

namenode就是master。必须要此闷有一台启动namenode服务。 ============= 如果只需要 datanode，那么jps 命令轮哗后，查看到线程ID 然后kill 掉就好腊扒行了。注意 kill掉 namenode后，整个hadoop集群就宕掉了。

② 如何在Linux上安装与配置Hadoop

在Linux上安装Hadoop之前，需要先安装两个程序：
1. JDK 1.6或更高版本;
2. SSH(安全外壳协议)，推荐安装OpenSSH。岩带乎
下面简述一下安装这两个程序的原因：
1. Hadoop是用java开发的，Hadoop的编译及MapRece的运行都需要使用JDK。
2. Hadoop需要通过SSH来启动salve列表中各台主机的守护进程，因此SSH也是必须安装的，即使是安装伪分布式版本(因为Hadoop并没有区分集群式和伪分布式)。对于伪分布式，Hadoop会采用与集群相同的处理方式，即依次序启动文件conf/slaves中记载的主机上的进程，粗悉只不过伪分布式中salve为localhost(即为自身)，所以对于伪分布式Hadoop，SSH一样是必须的。
(2)配置环境变量
输入命令：
sudo gedit /etc/profile
输入密码，打开profile文件。
在文件的最下面输入如下内容：
#set Java Environment
export JAVA_HOME= （你的JDK安装位置，一般行唤为/usr/lib/jvm/java-6-sun）
export CLASSPATH=".:$JAVA_HOME/lib:$CLASSPATH"
export PATH="$JAVA_HOME/:$PATH"
这一步的意义是配置环境变量，使你的系统可以找到JDK。
(3)验证JDK是否安装成功
输入命令：
java -version
查看信息：
java version "1.6.0_14"
Java(TM) SE Runtime Environment (build 1.6.0_14-b08)
Java HotSpot(TM) Server VM (build 14.0-b16, mixed mode)

③ 在Linux虚拟机上配置Hadoop，在初始化时显示权限不够

要注意使用对应用户创建解压文件。并随时使用ll –a 查看文件权限。
[root@master hadoop-1.0.3]# chmod 777 logs/*
[root@master hadoop-1.0.3]# chmod 777 logs
[root@master hadoop-1.0.3]# chown root logs/*
[root@master hadoop-1.0.3]# chown root logs
[root@master hadoop-1.0.3]# bin/start-all.sh
弄了这之后发现依然namenode打不开，我就格式化了namenode：hadoopnamenode –format,发现里面原来有抛出例外：
ERRORnamenode.NameNode: java.io.IOException: Cannot create directory
/var/hadoop/hadoop-hadoop/dfs/name/current at org.apache.hadoop.hdfs.server.common.Storage$
StorageDirectory.clearDirectory(Storage.java:297)
atorg.apache.hadoop.hdfs.server.namenode.FSImage.format(FSImage.java:1320)
at org.apache.hadoop.hdfs.server.namenode.FSImage.format(FSImage.java:1339)
at.org.apache.hadoop.hdfs.server.namenode.NameNode.format(NameNode.java:1164)
at.org.apache.hadoop.hdfs.server.namenode.NameNode.createNameNode(NameNode.java:1271)
atorg.apache.hadoop.hdfs.server.namenode.NameNode.main(NameNode.java:1288)
根据列外是不能创建一个目录，有了上面的经验我就知道了是没有建目录的权限。所以我直接就在/var/下建了一个目录叫做hadoop/，并授予了权限。再格式化namenode，成功启动。但是转到子节点上输入jps查看,发现并没有完全启动。知道node也有同样问题。

④ 怎样在linux系统上搭建Hadoop集群

A、基础环境 1.jdk安装与配置 2.host 3.ssh 4.文件目录 B、 Hadoop安装与配置 1.下载hadoop软件 2.环境变量 3.hadoop配置 C、运行Hadoop 1.运行hdfs 2.运行yarn D、测试hadoop ，这是搭建集群的大题路径，详细的可以去看一下八斗学院的视频，第一部分是讲集群搭建的很详细

⑤ linux系统里面为什么安装完一个服务，要建一个相应的nologin用户呢

你的理解是正确的，如果用root用户运行，会因为权限过高引起安全隐患。

为什么内不可以建立一个专门的负责安容装和运行此类守护进程的用户呢？比如建立一个zhangsan的用户？
因为linux的执行权限是可以控制到用户的。
如果只一个zhangsan的用户那么他同样可以执行多种程序，有安全隐患。
现在是多个用户，那么zhangsan就无执行只有hadoop才能执行的程序

既然这些nologin用户不能登录到系统，那他们怎么运行程序呢？
它们只是取得了对应用户的权限，以该用户的身份执行程序。

其他用户需要在hadoop上运行一些程序，那这些用户如何获得hadoop的权限呢？
如果是在shell下有个命令行 runuser

⑥ 如何在linux下安装hadoop

如何在linux下安装hadoop

建议使用自动化部署吧。这个还是不太难做到哦。能否看一下my网名呢？帮助搞定一下

一、前期准备:
下载hadoop: :hadoop.apache./core/releases.
:hadoop.apache./mon/releases.
:apache./dyn/closer.cgi/hadoop/core/
:labs.xiaonei./apache-mirror/hadoop/core/hadoop-0.20.1/hadoop-0.20.1.tar.gz
:labs.xiaonei./apache-mirror/hadoop/
二、硬体环境
共有3台机器，均使用的CentOS，Java使用的是jdk1.6.0。
三、安装JAVA6
sudo apt-get install sun-java6-jdk
/etc/environment
开启之后加入：#中间是以英文的冒号隔开，记得windows中是以英文的分号做为宏没分隔的
CLASSPATH=.:/usr/local/java/lib
JAVA_HOME=/usr/local/java
三、配置host表
[root@hadoop ~]# vi /etc/hosts
127.0.0.1 localhost
192.168.13.100 namenode
192.168.13.108 datanode1
192.168.13.110 datanode2
[root@test ~]# vi /etc/hosts
127.0.0.1 localhost
192.168.13.100 namenode
192.168.13.108 datanode1
[root@test2 ~]# vi /etc/host
127.0.0.1 localhost
192.168.13.100 namenode
192.168.13.110 datanode2
新增使用者和使用者组
addgroup hadoop
adser hadoop
usermod -a -G hadoop hadoop
passwd hadoop
配置ssh:
服务端:
su hadoop
ssh-keygen -t rsa
cp id_rsa.pub authorized_keys
客户端
chmod 700 /home/hadoop
chmod 755 /home/hadoop/.ssh
su hadoop
cd /home
mkdir .ssh
服务端:
chmod 644 /home/hadoop/.ssh/authorized_keys
scp authorized_keys datanode1:/home/hadoop/.ssh/
scp authorized_keys datanode2:/home/hadoop/.ssh/
ssh datanode1
ssh datanode2
如果ssh配置好了就会蔽和纳出现以下提示棚纤资讯
The authenticity of host [dbrg-2] can't be established.
Key fingerpr is 1024 5f:a0:0b:65:d3:82:df:ab:44:62:6d:98:9c:fe:e9:52.
Are you sure you want to continue connecting (yes/no)?
OpenSSH告诉你它不知道这台主机但是你不用担心这个问题你是第次登入这台主机键入“yes”这将把
这台主机“识别标记”加到“~/.ssh/know_hosts”档案中第 2次访问这台主机时候就不会再显示这条提示信
不过别忘了测试本机sshdbrg-1

mkdir /home/hadoop/HadoopInstall
tar -zxvf hadoop-0.20.1.tar.gz -C /home/hadoop/HadoopInstall/
cd /home/hadoop/HadoopInstall/
ln -s hadoop-0.20.1 hadoop
export JAVA_HOME=/usr/local/java
export CLASSPATH=.:/usr/local/java/lib
export HADOOP_HOME=/home/hadoop/HadoopInstall/hadoop
export HADOOP_CONF_DIR=/home/hadoop/hadoop-conf
export PATH=$HADOOP_HOME/bin:$PATH
cd $HADOOP_HOME/conf/
mkdir /home/hadoop/hadoop-conf
cp hadoop-env.sh core-site.xml hdfs-site.xml mapred-site.xml masters slaves /home/hadoop/hadoop-conf
vi $HADOOP_HOME/hadoop-conf/hadoop-env.sh
# The java implementation to use. Required. --修改成你自己jdk安装的目录
export JAVA_HOME=/usr/local/java

export HADOOP_CLASSPATH=.:/usr/local/java/lib
# The maximum amount of heap to use, in MB. Default is 1000.--根据你的记忆体大小调整
export HADOOP_HEAPSIZE=200
vi /home/hadoop/.bashrc
export JAVA_HOME=/usr/local/java
export CLASSPATH=.:/usr/local/java/lib
export HADOOP_HOME=/home/hadoop/HadoopInstall/hadoop
export HADOOP_CONF_DIR=/home/hadoop/hadoop-conf
export PATH=$HADOOP_HOME/bin:$PATH
配置
namenode
#vi $HADOOP_CONF_DIR/slaves
192.168.13.108
192.168.13.110
#vi $HADOOP_CONF_DIR/core-site.xml
<?xml version="1.0"?>
<?xml-stylesheet type=text/xsl href="configuration.xsl"?>

<configuration>
<property>
<name>fs.default.name</name>
<value>hdfs:192.168.13.100:9000</value>
</property>
</configuration>
#vi $HADOOP_CONF_DIR/hdfs-site.xml
<?xml version="1.0"?>
<?xml-stylesheet type=text/xsl href="configuration.xsl"?>

<configuration>
<property>
<name>dfs.replication</name>
<value>3</value>
<description>Default block replication.
The actual number of replications can be specified when the file is created.
The default is used if replication is not specified in create time.
</description>
</property>
</configuration>
#vi $HADOOP_CONF_DIR/mapred-site.xml
<?xml version="1.0"?>
<?xml-stylesheet type=text/xsl href="configuration.xsl"?>

<configuration>
<property>
<name>mapred.job.tracker</name>
<value>192.168.13.100:11000</value>
</property>
</configuration>
~
在slave上的配置档案如下(hdfs-site.xml不需要配置)：
[root@test12 conf]# cat core-site.xml
<?xml version="1.0"?>
<?xml-stylesheet type=text/xsl href="configuration.xsl"?>

<configuration>
<property>
<name>fs.default.name</name>
<value>hdfs:namenode:9000</value>
</property>
</configuration>
[root@test12 conf]# cat mapred-site.xml
<?xml version="1.0"?>
<?xml-stylesheet type=text/xsl href="configuration.xsl"?>

<configuration>
<property>
<name>mapred.job.tracker</name>
<value>namenode:11000</value>
</property>
</configuration>
启动
export PATH=$HADOOP_HOME/bin:$PATH
hadoop namenode -format
start-all.sh
停止s-all.sh
在hdfs上建立danchentest资料夹，上传档案到此目录下
$HADOOP_HOME/bin/hadoop fs -mkdir danchentest
$HADOOP_HOME/bin/hadoop fs -put $HADOOP_HOME/README.txt danchentest
cd $HADOOP_HOME
hadoop jar hadoop-0.20.1-examples.jar wordcount /user/hadoop/danchentest/README.txt output1
09/12/21 18:31:44 INFO input.FileInputFormat: Total input paths to process : 1
09/12/21 18:31:45 INFO mapred.JobClient: Running job: job_200912211824_0002
09/12/21 18:31:46 INFO mapred.JobClient: map 0% rece 0%
09/12/21 18:31:53 INFO mapred.JobClient: map 100% rece 0%
09/12/21 18:32:05 INFO mapred.JobClient: map 100% rece 100%
09/12/21 18:32:07 INFO mapred.JobClient: Job plete: job_200912211824_0002
09/12/21 18:32:07 INFO mapred.JobClient: Counters: 17
09/12/21 18:32:07 INFO mapred.JobClient: Job Counters
09/12/21 18:32:07 INFO mapred.JobClient: Launched rece tasks=1
检视输出结果档案，这个档案在hdfs上
[root@test11 hadoop]# hadoop fs -ls output1
Found 2 items
drwxr-xr-x - root supergroup 0 2009-09-30 16:01 /user/root/output1/_logs
-rw-r--r-- 3 root supergroup 1306 2009-09-30 16:01 /user/root/output1/part-r-00000
[root@test11 hadoop]# hadoop fs -cat output1/part-r-00000
(BIS), 1
(ECCN) 1
检视hdfs执行状态,可以通过web介面来访问:192.168.13.100:50070/dfshealth.jsp;检视map-rece资讯，
可以通过web介面来访问:192.168.13.100:50030/jobtracker.jsp;下面是直接命令列看到的结果。
出现08/01/25 16:31:40 INFO ipc.Client: Retrying connect to server: foo.bar./1.1.1.1:53567. Already tried 1 time(s).
的原因是没有格式化:hadoop namenode -format

如何在windows下安装hadoop

建议你在windows上安装linux的虚拟机器，然后在linux上安装hadoop

1、安装Cygwin
下载cygwin的setup.exe，双击执行：

选择从Inter安装：
设定安装目录：

设定安装包目录：

设定“Inter Connection”的方式，选择“Direct Connection”：

选择一个下载站点：
“下一步”之后，可能会弹出下图的“Setup Alert”对话方块，直接“确定”即可
在“Select Packages”对话方块中，必须保证“Net Category”下的“OpenSSL”被安装：

如果还打算在eclipse 上编译Hadoop，则还必须安装“Base Category”下的“sed”：

“Devel Category”下的subversion 建议安装：

下载并安装：

当下载完后，会自动进入到“setup”的对话方块：

在上图所示的对话方块中，选中“Create icon on Desk”，以方便直接从桌面上启动
Cygwin，然后点选“完成”按钮。至此，Cgywin 已经安装完成。
2、配置环境变数
需要配置的环境变数包括PATH 和JAVA_HOME：将JDK 的bin 目录、Cygwin 的bin 目录
以及Cygwin 的usrin（ *** in）目录都新增到PATH 环境变数中；JAVA_HOME 指向JRE 安装目录。
3、windows系统上执行hadoop丛集，伪分散式模式安装步骤：
①启动cygwin，解压hadoop安装包。通过cygdrive（位于Cygwin根目录中）可以直接对映到windows下的各个逻辑磁碟分割槽。例如hadoop安装包放在分割槽D：下，则解压的命令为＄ tar -zxvf /cygdrive/d/hadoop-0.20.2.tar.gz,解压后可使用ls命令检视，如下图：
预设的解压目录为使用者根目录，即D：cygwinhomelsq（使用者帐户）。
②编辑conf/hadoop-env.sh档案，将JAVA_HOME变数设定为java的安装目录。例如java安装在目录C：Program Filesjavajdk1.6.0_13,如果路径没空格，直接配置即可。存在空格，需将Program Files缩写成Progra_1,如下图：
③依次编辑conf目录下的core-site.xml、mapred-site.xml和hdfs-site.xml档案，如下图：
④安装配置SSH
点选桌面上的Cygwin图示，启动Cygwin，执行ssh-host-config命令，然后按下图上的选择输入：

当提示Do you want to use a different name?输入yes，这步是配置安装的sshd服务，以哪个使用者登入，预设是cyg_server这个使用者，这里就不事先新建cyg_server这个使用者，用当前本机的超管本地使用者：chenx，后续根据提示，2次输入这个账户的密码

出现Host configuration finished. Have fun! 一般安装顺利完成。如下图：

输入命令$ start sshd，启动SSH，如下图：

注：sshd服务安装完之后，不会预设启动，如果启动报登入失败，不能启动，可在服务属性-Log On视窗手工修改，在前述的过程之中，cygwin不会校验密码是否正确，应该只是校验了2次的输入是否一致，然后再手工启动。不知道为什么，sshd服务如果选择local system的登入方式，后续会有问题，所以sshd服务最好设定成当前的登入使用者。

⑤配置ssh登入
执行ssh-keygen命令生成金钥档案
输入如下命令：
cd ~/.ssh
ls -l
cat id_rsa.pub >> authorized_keys
完成上述操作后，执行exit命令先退出Cygwin视窗，如果不执行这一步操作，下面的操作可能会遇到错误。接下来，重新执行Cygwin，执行ssh localhost命令，在第一次执行ssh localhost时，会有“are you sure you want to continue connection<yes/no>?”提示，输入yes，然后回车即可。当出现下图提示，即顺利完成该步：

⑥hadoop执行
格式化namenode
开启cygwin视窗，输入如下命令：
cd hadoop-0.20.2
mkdir logs
bin/hadoop namenode –format

启动Hadoop
在Cygwin 中，进入hadoop 的bin 目录，
执行./start-all.sh 启动hadoop；
可以执行./hadoop fs -ls /命令，检视hadoop 的根目录；
可以执行jps 检视相关程序；
如下图：（如果显示和下图类似，一般hadoop安装/启动成功）

如何在hadoop 环境下安装hive

不行。安装 vm 下载：去官网下 VMware-player-5.0.1-894247.zip 安装和配置ubanto 下载：去官网下 ubuntu-12.10-desk-i386.iso 开启vm，载入ubanto iso档案，进行安装更新进入ubanto，如果是第一个进入，则需要设定root的密码

如何在ubantu环境下安装hadoop

上apache的hadoop页下编译好的包，解压，配一些档案就行了很容易网上教程很多

如何在 Linux 下安装 PyCharm

PyCharm 是由 Jetbrains 公司开发的一个跨平台编辑器。如果你之前是在 Windows 环境下进行开发，那么你会立刻认出 Jetbrains 公司，它就是那个开发了 Resharper 的公司。这篇文章将讨论如何在 Linux 系统上获取、安装和执行 PyCharm 。

如何在linux下安装opencv

新建一个perl，名为bar.pl
内容如下：
#!/usr/bin/perl
while (<>){
chomp;
s/([^-]+) - .*/1/g;
system "apt-get install ".$_;
}
然后apt-cache search opencv | perl bar.pl

⑦ 如何在Linux上安装与配置Hadoop

一、安装hadoop

1 因为hadoop是基于java的，所以要保证hadoop能找到在本地系统中大路径，即正确设置java的环境变量。
详细请看：linux 安装配置jdk

2 到官网：http://www.apache.org/dyn/closer.cgi/hadoop/common/ 下载hadoop，
这里我选择hadoop1.0.4

3 解压到 /usr/local
tar -xvf hadoop-1.0.4.tar.gz

4 设置hadoop环境变量，为了使环境变量永久有效并对所有用户有效，我们将下面两句添加到/etc/profile

export HADOOP_HOME=/usr/local/hadoop-1.0.4
export PATH=$PATH:$HADOOP_HOME/bin

⑧ 熟悉常用的 Linux 操作和 Hadoop 操作

1.切换到当前目录的上一级目录
cd ..
2.切换到当前登录 Linux 系统的用户自己的主文件夹
cd ~
3.进入/tmp 目录，创建目录 a1/a2/a3/a4。
mkdir a1/a2/a3/a4 -p
4.删除目录
rmdir a
rmdir a1/a2/a3/a4 -p
5.cp 命令：复制文件或目录
(1) 将当前用户的主文件夹下的文件.bashrc 复制到目录“/usr”下，并重命名为 bashrc1
sudo cp .bashrc /usr/bashrc1
(2) 在目录“/tmp”下新建目录 test，再把这个目录复制到“/usr”目录下
cd /tmp
mkdir test
sudo cp /tmp/test /usr -r
6.mv 命令：移动文件与目录，或更名
(1) 将“/usr”目录下的文件 bashrc1 移动到“/usr/test”目录下
sudo mv /usr/bashrc1 /usr/test
(2) 将“/usr”目录下的 test 目录重命名为 test2
sudo mv /usr/test /usr/test2
7.rm 命令：移除文件或目录
(1) 将“/usr/test2”目录下的 bashrc1 文件删除
sudo rm /usr/test2/bashrc1
(2) 将“/usr”目录下的 test2 目录删除
sudo rm -rf /usr/test2
8.cat 命令：查看文件内容查看当前用户主文件夹下的.bashrc 文件内容
cat .bashrc
9.tac 命令：反向查看文件内容反向查看当前用户主文件夹下的.bashrc 文件的内容
tac .bashrc
10.more 命令：一页一页翻动查看翻页查看当前用户主文件夹下的.bashrc 文件的内容
more .bashrc
11.head 命令：取出前面几行
(1) 查看当前用户主文件夹下.bashrc 文件内容前 20 行
head -n20 .bashrc
(2)查看当前用户主文件夹下.bashrc 文件内容，后面 50 行不显示，只显示前面几行
head -n -50 .bashrc
12.tail 命令：取出后面几行
(1)查看当前用户主文件夹下.bashrc 文件内容最后 20 行
tail -n20 .bashrc
(2)查看当前用户主文件夹下.bashrc 文件内容，并且只列出 50 行以后的数据
tail -n -50 .bashrc
13.touch 命令：修改文件时间或创建新文件
(1) 在“/tmp”目录下创建一个空文件 hello，并查看文件时间
touch hello
stat hello
(2)修改 hello 文件，将文件时间整为 5 天前
touch -d "2019-3-26" hello
stat hello
14.chown 命令：修改文件所有者权限将 hello 文件所有者改为 root 帐号，并查看属性
sudo chown root hello
ls -l hello
15.find 命令：文件查找找出主文件夹下文件名为.bashrc 的文件
find .bashrc
16.tar 命令：压缩命令
(1) 在根目录“/”下新建文件夹 test，然后在根目录“/”下打包成 test.tar.gz
tar -zcvf test.tar.gz test/
(2) 把上面的 test.tar.gz 压缩包，解压缩到“/tmp”目录
tar -zxvf test.tar.gz
17.grep 命令：查找字符串从“～/.bashrc”文件中查找字符串'examples'
grep -rn "examples" .bashrc
18.使用 hadoop 用户登录 Linux 系统，启动 Hadoop（Hadoop 的安装目录为“/usr/local/hadoop”），为 hadoop 用户在 HDFS 中创建用户目录“/user/hadoop”
./bin/hadoop fs -mkdir -p /usr/hadoop
19.接着在 HDFS 的目录“/user/hadoop”下，创建 test 文件夹，并查看文件列表
./bin/hdfs dfs -mkdir test
./bin/hadoop fs -ls
20.将 Linux 系统本地的“～/.bashrc”文件上传到 HDFS 的 test 文件夹中，并查看 test

./bin/hadoop fs -put ~/.bashrc test

./bin/hadoop fs -ls test
21.将 HDFS 文件夹 test 复制到 Linux 系统本地文件系统的“/usr/local/hadoop”目录下

参考： 1

⑨ 如何在Linux上安装与配置Hadoop

Hadoop最早是为了在Linux平台上使用而开发的，但是Hadoop在UNIX、Windows和Mac OS X系统上也运行良好。不过，在Windows上运行Hadoop稍显复杂，首先必须安装Cygwin以模拟Linux环境，然后才能安装Hadoop。Hadoop的安装非常简单，大家可以在官网上下载到最近的几个版本，在Unix上安装Hadoop的过程与在Linux上安装基本相同，因此下面不会对其进行详细介绍。

在Linux上安装与配置Hadoop

在Linux上安装Hadoop之前，需要先安装两个程序：

1. JDK 1.6或更高版本;

2. SSH(安全外壳协议)，推荐安装OpenSSH。

下面简述一下安装这两个程序的原因：

1. Hadoop是用Java开发的，Hadoop的编译及MapRece的运行都需要使用JDK。

2. Hadoop需要通过SSH来启动salve列表中各台主机的守护进程，因此SSH也是必须安装的，即使是安装伪分布式版本(因为Hadoop并没有区分集群式和伪分布式)。对于伪分布式，Hadoop会采用与集群相同的处理方式，即依次序启动文件conf/slaves中记载的主机上的进程，只不过伪分布式中salve为localhost(即为自身)，所以对于伪分布式Hadoop，SSH一样是必须的。

一、安装JDK 1.6

安装JDK的过程很简单，下面以Ubuntu为例。

(1)下载和安装JDK

确保可以连接到互联网，输入命令：

sudoapt-getinstallsun-java6-jdk

输入密码，确认，然后就可以安装JDK了。

这里先解释一下sudo与apt这两个命令，sudo这个命令允许普通用户执行某些或全部需要root权限命令，它提供了详尽的日志，可以记录下每个用户使用这个命令做了些什么操作;同时sudo也提供了灵活的管理方式，可以限制用户使用命令。sudo的配置文件为/etc/sudoers。

apt的全称为the Advanced Packaging Tool，是Debian计划的一部分，是Ubuntu的软件包管理软件，通过apt安装软件无须考虑软件的依赖关系，可以直接安装所需要的软件，apt会自动下载有依赖关系的包，并按顺序安装，在Ubuntu中安装有apt的一个图形化界面程序synaptic(中文译名为“新立得”)，大家如果有兴趣也可以使用这个程序来安装所需要的软件。(如果大家想了解更多，可以查看一下关于Debian计划的资料。)

(2)配置环境变量

输入命令：

sudogedit/etc/profile

输入密码，打开profile文件。

在文件的最下面输入如下内容：

#setJavaEnvironment
exportJAVA_HOME=（你的JDK安装位置，一般为/usr/lib/jvm/java-6-sun）
exportCLASSPATH=".:$JAVA_HOME/lib:$CLASSPATH"
exportPATH="$JAVA_HOME/:$PATH"

这一步的意义是配置环境变量，使你的系统可以找到JDK。

(3)验证JDK是否安装成功

输入命令：

java-version

查看信息：

javaversion"1.6.0_14"
Java(TM)SERuntimeEnvironment(build1.6.0_14-b08)
JavaHotSpot(TM)ServerVM(build14.0-b16,mixedmode)

二、配置SSH免密码登录

同样以Ubuntu为例，假设用户名为u。

1)确认已经连接上互联网，输入命令

sudoapt-getinstallssh

2)配置为可以无密码登录本机。

首先查看在u用户下是否存在.ssh文件夹(注意ssh前面有“.”，这是一个隐藏文件夹)，输入命令：

ls-a/home/u

一般来说，安装SSH时会自动在当前用户下创建这个隐藏文件夹，如果没有，可以手动创建一个。

接下来，输入命令：

ssh-keygen-tdsa-P''-f~/.ssh/id_dsa

解释一下，ssh-keygen代表生成密钥;-t(注意区分大小写)表示指定生成的密钥类型;dsa是dsa密钥认证的意思，即密钥类型;-P用于提供密语;-f指定生成的密钥文件。(关于密钥密语的相关知识这里就不详细介绍了，里面会涉及SSH的一些知识，如果读者有兴趣，可以自行查阅资料。)

在Ubuntu中，~代表当前用户文件夹，这里即/home/u。

这个命令会在.ssh文件夹下创建两个文件id_dsa及id_dsa.pub，这是SSH的一对私钥和公钥，类似于钥匙及锁，把id_dsa.pub(公钥)追加到授权的key里面去。

输入命令：

cat~/.ssh/id_dsa.pub>>~/.ssh/authorized_keys

这段话的意思是把公钥加到用于认证的公钥文件中，这里的authorized_keys是用于认证的公钥文件。

至此无密码登录本机已设置完毕。

3)验证SSH是否已安装成功，以及是否可以无密码登录本机。

输入命令：

ssh-version

显示结果：

OpenSSH_5.1p1Debian-6ubuntu2,OpenSSL0.9.8g19Oct2007
Badescapecharacter'rsion'.

显示SSH已经安装成功了。

输入命令：

sshlocalhost

会有如下显示：

Theauthenticityofhost'localhost(::1)'can'tbeestablished.
RSAkeyfingerprintis8b:c3:51:a5:2a:31:b7:74:06:9d:62:04:4f:84:f8:77.
(yes/no)?yes
Warning:Permanentlyadded'localhost'(RSA)tothelistofknownhosts.
Linuxmaster2.6.31-14-generic#48-UbuntuSMPFriOct1614:04:26UTC2009i686
,pleasevisit:
http://help.ubuntu.com/
Lastlogin:MonOct1817:12:402010frommaster
admin@Hadoop:~$

这说明已经安装成功，第一次登录时会询问你是否继续链接，输入yes即可进入。

实际上，在Hadoop的安装过程中，是否无密码登录是无关紧要的，但是如果不配置无密码登录，每次启动Hadoop，都需要输入密码以登录到每台机器的DataNode上，考虑到一般的Hadoop集群动辄数百台或上千台机器，因此一般来说都会配置SSH的无密码登录。

三、安装并运行Hadoop

介绍Hadoop的安装之前，先介绍一下Hadoop对各个节点的角色定义。

Hadoop分别从三个角度将主机划分为两种角色。第一，划分为master和slave，即主人与奴隶;第二，从HDFS的角度，将主机划分为NameNode和DataNode(在分布式文件系统中，目录的管理很重要，管理目录的就相当于主人，而NameNode就是目录管理者);第三，从MapRece的角度，将主机划分为JobTracker和TaskTracker(一个job经常被划分为多个task，从这个角度不难理解它们之间的关系)。

Hadoop有官方发行版与cloudera版，其中cloudera版是Hadoop的商用版本，这里先介绍Hadoop官方发行版的安装方法。

Hadoop有三种运行方式：单节点方式、单机伪分布方式与集群方式。乍看之下，前两种方式并不能体现云计算的优势，在实际应用中并没有什么意义，但是在程序的测试与调试过程中，它们还是很有意义的。

你可以通过以下地址获得Hadoop的官方发行版，下载Hadoop-0.20.2.tar.gz并将其解压，这里会解压到用户目录下，一般为：/home/[你的用户名]/。

单节点方式配置：

安装单节点的Hadoop无须配置，在这种方式下，Hadoop被认为是一个单独的Java进程，这种方式经常用来调试。

伪分布式配置：

你可以把伪分布式的Hadoop看做是只有一个节点的集群，在这个集群中，这个节点既是master，也是slave;既是NameNode也是DataNode;既是JobTracker，也是TaskTracker。

伪分布式的配置过程也很简单，只需要修改几个文件，如下所示。

进入conf文件夹，修改配置文件：

Hadoop-env.sh:
exportJAVA_HOME=“你的JDK安装地址”

指定JDK的安装位置：

conf/core-site.xml:
<configuration>
<property>
<name>fs.default.name</name>
<value>hdfs://localhost:9000</value>
</property>
</configuration>

这是Hadoop核心的配置文件，这里配置的是HDFS的地址和端口号。

conf/hdfs-site.xml:
<configuration>
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
</configuration>

这是Hadoop中HDFS的配置，配置的备份方式默认为3，在单机版的Hadoop中，需要将其改为1。

conf/mapred-site.xml:
<configuration>
<property>
<name>mapred.job.tracker</name>
<value>localhost:9001</value>
</property>
</configuration>

这是Hadoop中MapRece的配置文件，配置的是JobTracker的地址和端口。

需要注意的是，如果安装的是0.20之前的版本，那么只有一个配置文件，即为Hadoop-site.xml。

接下来，在启动Hadoop前，需格式化Hadoop的文件系统HDFS(这点与Windows是一样的，重新分区后的卷总是需要格式化的)。进入Hadoop文件夹，输入下面的命令：

bin/HadoopNameNode-format

格式化文件系统，接下来启动Hadoop。

输入命令：

bin/start-all.sh（全部启动）

最后，验证Hadoop是否安装成功。

打开浏览器，分别输入网址：

http://localhost:50030(MapRece的Web页面)
http://localhost:50070(HDFS的Web页面)

如果都能查看，说明Hadoop已经安装成功。

对于Hadoop来说，安装MapRece及HDFS都是必须的，但是如果有必要，你依然可以只启动HDFS(start-dfs.sh)或MapRece(start-mapred.sh)。

⑩ 如何在Linux下搭建hadoop集群环境小残's Blog

前期准备
l 两台linux虚拟机（本文使用redhat5，IP分别为 IP1、IP2）
l JDK环境（本文使用jdk1.6，网上很多配置方法，本文省略）
l Hadoop安装包（本文使用Hadoop1.0.4）
搭建目标
210作为主机和节点机，211作为节点机。
搭建步骤
1修改hosts文件
在/etc/hosts中增加：

IP1 hadoop1
IP2 hadoop2

2 实现ssh无密码登陆
2.1 主机（master）无密码本机登陆

ssh-keygen -t dsa -P '' -f ~/.ssh/id_dsa

直接回车，完成后会在 ~/.ssh/ 生成两个文件： id_dsa 和 id_dsa.pub 。
这两个是成对出现，类似钥匙和锁。
再把 id_dsa.pub 追加到授权 key 里面 ( 当前并没有 authorized_key s文件 ) ：

cat ~/.ssh/id_dsa.pub >> ~/.ssh/authorized_keys

ssh localhost hostname

还是要输入密码，一般这种情况都是因为目录或文件的权限问题，看看系统日志，确实是权限问题
.ssh下的authorized_keys权限为600，其父目录和祖父目录应为755

2.2 无密码登陆节点机（slave）
slave上执行：

ssh-keygen -t dsa -P '' -f ~/.ssh/id_dsa

生成.ssh目录。
将master上的authorized_keys复制到slave上：

scp authorized_keys hadoop2:~/.ssh/

实验：在master上执行

ssh hadoop2

实现无密码登陆。
3 配置Hadoop
3.1拷贝hadoop
将hadoop-1.0.4.tar.gz ,拷贝到usr/local 文件夹下，然后解压。
解压命令：

tar –zxvf hadoop-1.0.4.tar.gz

3.2查看 cat /etc/hosts

IP1 hadoop1
IP2 hadoop2

3.3 配置 conf/masters 和 conf/slaves
conf/masters：
1

IP1

conf/slaves：
1
2

IP2
IP2

3.4 配置 conf/hadoop-env.sh
加入
1

export JAVA_HOME=/home/elvis/soft/jdk1.7.0_17

3.5 配置 conf/core-site.xml
1
2
3
4

<property>
<name>fs.default.name</name>
<value>hdfs://IP1:9000</value>
</property>

3.6 配置 conf/hdfs-site.xml
加入

<property>
<name>dfs.http.address</name>
<value>IP1:50070</value>
</property>
<property>
<name>dfs.name.dir</name>
<value>/usr/local/hadoop/namenode</value>
</property>
<property>
<name>dfs.data.dir</name>
<value>/usr/local/hadoop/data</value>
</property>
<property>
<name>dfs.replication</name>
<value>2</value>
</property>

3.7 配置conf/mapred-site.xml
加入

<property>
<name>mapred.job.tracker</name>
<value>192.168.1.50:8012</value>
</property>

3.8 建立相关的目录
1

/usr/local/hadoop/ //hadoop数据和namenode目录

【注意】只创建到hadoop目录即可，不要手动创建data和namenode目录。
其他节点机也同样建立该目录。
3.9 拷贝hadoop文件到其他节点机
将hadoop文件远程到其他节点（这样前面的配置就都映射到了其他节点上），
命令：
1

scp -r hadoop-1.0.4 IP2:/usr/local/

3.10 格式化Active master
命令：

bin/hadoop namenode -format

3.11 启动集群 ./start-all.sh
现在集群启动起来了，看一下，命令：
1

bin/hadoop dfsadmin -report

2个datanode，打开web看一下
浏览器输入:IP1:50070
打完收工，集群安装完成！

导航:首页 > 编程系统 > linux创建hadoop用户

linux创建hadoop用户

如何在linux下安装hadoop

如何在windows下安装hadoop

如何在hadoop 环境下安装hive

如何在ubantu环境下安装hadoop

如何在 Linux 下安装 PyCharm

如何在linux下安装opencv

与linux创建hadoop用户相关的资料

友情链接