hadoop配置文件路径_hadoop27配置文件在哪个目录

A. hadoop2.7配置文件在哪个目录

(1)dfs.replication:指定DataNode存储block的副本数量,不大于DataNode的个数就行
(2)dfs.nameservices：cluster1,cluster2，使用federation(HDFS联盟)时，如果使用了2个HDFS集群。这里抽象出两个NameService实际上就是给这2个HDFS集群起了个别名。名字可以随便起，相互不重复即可
(3)dfs.ha.namenodes.cluster1:hadoop101,hadoop102，指定NameService是cluster1时的namenode有哪些，这里的值也是逻辑名称，名字随便起，相互不重复即可
(4)dfs.namenode.rpc-address.cluster1.hadoop101:hadoop101:8020，指定hadoop101的RPC地址
(5)dfs.namenode.http-address.cluster1.hadoop101:hadoop101:50070,指定hadoop101的http地址！

B. Hadoop集群配置

切换到Hadoop解压目录的etc/hadoop/目录下，编辑hadoop-env.sh，修改如下内容：

该文件是Hadoop的核心配置文件，目的是配置HDFS地址、端口号以及临时文件目录。

该文件MapRece的核心文件，用于指定MapRece运行时框架。在etc/hadoop/目录没有该文件，需要将mapred-site.xml.template复制并重命名为mapred-site.xml。

该文件YARN的核心文件，需要指定YARN集群的管理者。

该文件记录Hadoop集群所有从节点(HDFSde DataNode和YARN的NodeManager所在主机)的主机名，用来配合一键启动脚本启动集群从节点(保证关联节点配置了SSH免密登录)。打开slaves文件，先删除里面的内容(默认localhost)，配置如下内容

完成Hadoop集群主节点hadoop01的配置后，还需要将系统环境配置文件、JDK安装目录和Hadoop安装目录分发到其他子节点hadoop02和hadoop03上，具体指令：

  scp /etc/profile hadoop02:/etc/profile

  scp /etc/profile hadoop03:/etc/profile

  scp -r /export/ hadoop02:/

  scp -r /export/ hadoop03:/

完成后，在hadoop02和hadoop03节点刷新配置文件：

  source /etc/profile

初次启动HDFS集群时，必须对主节点进行格式化处理。注意：格式化指令只需在Hadoop集群初次启动前执行即可。指令：

hdfs namenode –format

或

hadoop namenode -format

出现“successfully formatted"字样表示格式化成功。

针对Hadoop集群的启动，需要启动内部包含的HDFS集群和YARN集群两个集群框架。

启动：

（1）start-dfs.sh #启动所有HDFS服务进程

（2）start-yarn.sh #启动所有YARN服务进程

或者：

start-all.sh直接启动整个Hadoop集群服务

关闭则直接将上述指令中的start换成stop即可。

在整个Hadoop集群服务启动完成后，可以在各自机器上通过jps指令查看各节点的服务进程启动情况。

集群启动成功。

C. Hadoop软件包常见目录说明

bin ：

hadoop : 命令行
hadoop.cmd :运行在Windows上的

etc：
etc/hadoop:hadoop相关的配置文件存放目录

sbin: 启动hadoop相关进程的脚本
examples: 一些案例
lib：依赖包
share : 常用例子
./hadoop:

D. hadoop.home.dir在哪儿

1、bin：
bin目录是Hadoop最基本的管理脚本和使用脚本所在的目录，这些脚本是sbin目录下管理脚本的基础实现，用户可以直接使用这些脚本管理和使用Hadoop
在这里插入图片描述

2、sbin
存放的是我们管理脚本的所在目录，重要是对hdfs和yarn的各种开启和关闭和单线程开启和守护
在这里插入图片描述

文件名称作用
hadoop-daemon.sh 通过执行hadoop命令来启动/停止一个守护进程(daemon);他可以单独开启一个进程也可以使用hadoop-daemons来开启多个进程，这样我们在某台机器挂掉时，就不用全部重新开启了
start-all.sh 调用 start-dfs.sh和start-yarn.sh（官方不建议使用）
stop-all.sh 调用 stop-dfs.sh和stop-yarn.sh（官方不建议使用）
start-dfs.sh 启动NameNode ，SecondaryNamenode ，DataNode这些进程
start-yarn.sh 启动ResourceManager,nodeManager 这些进程
stop-dfs.sh 关闭NameNode ，SecondaryNamenode ，DataNode这些进程
stop-yarn.sh 关闭ResourceManager,nodeManager 这些进程
stop-balancer.sh 停止balancer
stop-mapred.sh 停止MapRece
3、etc
存放一些hadoop的配置文件
在这里插入图片描述

文件名称作用说明
core-site.xml Hadoop核心全局配置文件，可以其他配置文件中引用该文件中定义的属性，如在hdfs-site.xml及mapred-site.xml中会引用该文件的属性；该文件的模板文件存在于$HADOOP_HOME/src/core/core-default.xml，可将模板文件复制到conf目录，再进行修改。
hadoop-env.sh Hadoop环境变量
hdfs-site.xml HDFS配置文件，该模板的属性继承于core-site.xml；该文件的模板文件存于$HADOOP_HOME/src/hdfs/hdfs-default.xml，可将模板文件复制到conf目录，再进行修改
mapred-site.xml MapRece的配置文件，该模板的属性继承于core-site.xml；该文件的模板文件存于$HADOOP_HOME/src/mapred/mapredd-default.xml，可将模板文件复制到conf目录，再进行修改
slaves 用于设置所有的slave的名称或IP，每行存放一个。如果是名称，那么设置的slave名称必须在/etc/hosts有IP映射配置
4、lib
该目录下存放的是Hadoop运行时依赖的jar包，Hadoop在执行时会把lib目录下面的jar全部加到classpath中。
在这里插入图片描述

5、logs
该目录存放的是Hadoop运行的日志，查看日志对寻找Hadoop运行错误非常有帮助。
在这里插入图片描述

6、include
对外提供的编程库头文件（具体动态库和静态库在lib目录中），这些头文件均是用C++定义的，通常用于C++程序访问HDFS或者编写MapRece程序。

在这里插入图片描述

7、libexec
各个服务对用的shell配置文件所在的目录，可用于配置日志输出、启动参数（比如JVM参数）等基本信息。
在这里插入图片描述

8、share目录
Hadoop各个模块编译后的jar包所在的目录。
在这里插入图片描述
在这里插入图片描述

文章知识点与官方知识档案匹配
CS入门技能树Linux入门初识Linux
23099 人正在系统学习中

E. hadoop的核心配置文件有哪些

在hadoop1中核心组成部分是HDFS、MapRece，到了Hadoop2，核心变为HDFS、Yarn，而且新的HDFS中可以有多个NameNode，每个都有相同的职能。
以下内容是从http://www.superwu.cn/2014/02/12/1094/阅读后自己总结了一下：
配置文件无非就这几个文件：
1、hadoop-env.sh：
只需设置jdk的安装路径，如：export JAVA_HOME=/usr/local/jdk
2、core-site.xml：
(1)fs.defaultFS:hdfs://cluster1(域名)，这里的值指的是默认的HDFS路径
(2)hadoop.tmp.dir:/export/data/hadoop_tmp,这里的路径默认是NameNode、DataNode、JournalNode等存放数据的公共目录。用户也可以自己单独指定这三类节点的目录。
(3)ha.zookeeper.quorum:hadoop101:2181,hadoop102:2181,hadoop103:2181,这里是ZooKeeper集群的地址和端口。注意，数量一定是奇数，且不少于三个节点
(4)hadoop.proxyuser.erpmerge.hosts、hadoop.proxyuser.erpmerge.groups主要用来设置oozie的代理用户

F. 搭建hadoop集群，常用配置文件是什么，以及配置哪些属性

一. 简介

参考了网上许多教程，最终把hadoop在ubuntu14.04中安装配置成功。下面就把详细的安装步骤叙述一下。我所使用的环境：两台ubuntu 14.04 64位的台式机，hadoop选择2.7.1版本。（前边主要介绍单机版的配置，集群版是在单机版的基础上，主要是配置文件有所不同，后边会有详细说明）

二. 准备工作

2.1 创建用户

创建用户，并为其添加root权限，经过亲自验证下面这种方法比较好。

1 sudo adser hadoop2 sudo vim /etc/sudoers3 # 修改内容如下：4 root ALL = (ALL)ALL5 hadoop ALL = (ALL)ALL

给hadoop用户创建目录，并添加到sudo用户组中，命令如下：

1 sudo chown hadoop /home/hadoop2 # 添加到sudo用户组3 sudo adser hadoop sudo

最后注销当前用户，使用新创建的hadoop用户登陆。

2.2安装ssh服务

ubuntu中默认是没有装ssh server的（只有ssh client），所以先运行以下命令安装openssh-server。安装过程轻松加愉快～

sudo apt-get install ssh openssh-server

2.3 配置ssh无密码登陆

直接上代码：执行完下边的代码就可以直接登陆了（可以运行ssh localhost进行验证）

1 cd ~/.ssh# 如果找不到这个文件夹，先执行一下 "ssh localhost"2 ssh-keygen -t rsa3 cp id_rsa.pub authorized_keys

注意：

这里实现的是无密登陆自己，只适用与hadoop单机环境。如果配置Hadoop集群设置Master与Slave的SSH无密登陆可

三. 安装过程

3.1 下载hadoop安装包

有两种下载方式：

1. 直接去官网下载：

2. 使用wget命令下载：

3.2 配置hadoop

1. 解压下载的hadoop安装包，并修改配置文件。我的解压目录是（/home/hadoop/hadoop-2.7.1），即进入/home/hadoop/文件夹下执行下面的解压缩命令。

tar -zxvf hadoop-2.7.1.tar.gz

2. 修改配置文件：（hadoop2.7.1/etc/hadoop/）目录下，hadoop-env.sh，core-site.xml，mapred-site.xml.template，hdfs-site.xml。

(1). core-site.xml 配置：其中的hadoop.tmp.dir的路径可以根据自己的习惯进行设置。

至此，wordcount demo 运行结束。

六. 总结

配置过程遇到了很多问题，最后都一一解决，收获很多，特此把这次配置的经验分享出来，方便想要配置hadoop环境的各位朋友～

（Hadoop集群安装配置过程基本和单机版是一样的，主要是在配置文件方面有所区别，以及ssh无密登陆要求master和slave能够互相无密登陆。

G. 大数据 hadoop 三种运行模式的区别、及详细配置讲解

基于Hadoop进行开发时，有时候会被Hadoop的运行模式弄得晕头转向，傻傻分不清各种运行模式的区别，给日常开发带来很多困惑，不同集群配置文件也各不相不同。弄明白Hadoop的运行模式和对配置文件的作用要做到心中明了，在工作中才能得手顺心。

hadoop的配置文件均以XML文件进行配置，它有四个最常见的配置文件，分别为：

core-site.xml文件主要用于配置通用属性。

hdfs-site.xml文件用于配置Hdfs的属性。

mapred-site.xml文件用于配置Maprece的属性。

yarn-site.xml文件用于配置Yarn的属性。

一般来说，这四种配置文件都存储在hadoop默认的安装目录etc/hadoop子目录中。 不过我们也可以在搭建集群时根据实际需求，把etc/hadoop目录和其下的文件复制到另外一个位置。这样可以把配置文件和安装文件分离开来，方便管理。

注意：如果把etc/hadoop目录和其下的文件复制到另外一个位置。
我们需要在环境变量中将hadoop_conf_dir设置成指向新目录。

1、本地运行模式

无需任何守护进程 ，所有的程序都运行在同一个JVM上执行。在本地模式下调试MR程序非常高效方便，一般该模式主要是在学习或者开发阶段调试使用。

2、伪分布式模式

Hadoop守护进程运行在本地机器上 ，模拟一个小规模的集群，换句话说，可以配置一台机器的Hadoop集群，伪分布式是完全分布式的一个特例。

3、完全分布式模式

Hadoop守护进程运行在一个集群上 。这种运行模式也就是我们常见的各种云，主要用于大规模的生产环境中。

注意：分布式要启动守护进程，是指在使用分布式hadoop时，要先启动一些准备程序进程，然后才能使用。 比如start-dfs.sh start-yarn.sh，而本地模式不需要启动这些守护进程。

注意：在本地模式下，将使用本地文件系统和本地MapRece运行器。在分布式模式下，将启动HDFS和YARN守护进程。

H. hadoop 配置文件放到哪里

放在hadoop目录下的 etc/hadoop目录下

导航:首页 > 文件教程 > hadoop配置文件路径

hadoop配置文件路径

与hadoop配置文件路径相关的资料

友情链接