hadoop集群的文件配置教程图解

时间：2020-09-28来源：www.pcxitongcheng.com作者：电脑系统城

hadoop的文件配置可以概括为4+3+1！

4即是core-site.xml,hdfs-site.xml,yarn-site.xml,mapred-site.xml。3是hadoop-env.sh,yarn-env.sh,mapred-env.sh。1则是slaves文件。共8个文件。

1core-site.xml文件：因为hadoop默认设置数据是放在/tmp上面的，但是linux /tmp目录的文件见名知意的会被删除，所以hadoop.tmp.dir必须要改;fs.defaultFS指定代码访问集群的节点和端口，因为设计自己的ip问题，所以也必须改

<configuration>
<property>
<name>hadoop.tmp.dir</name>
<value>/usr/bigdata/hadoop/data</value>
</property>
<!--配置Hadoop NameNode节点-->
<property>
<name>fs.defaultFS</name>
<value>hdfs://master:9000</value>
</property>
</configuration>

2hdfs-site.xml文件:dfs.replication设置集群文件的副本数，副本数应该小于等于节点数，3个节点可以满足一般安全性；dfs.namenode.secondary.http-address指定secondarynamenode节点，可以辅助namenode，值得分配节点。

<configuration>
<property>
<name>dfs.replication</name>
<value>3</value>
</property>
<property>
<name>dfs.namenode.secondary.http-address</name>
<value>slave2:50090</value>
</property>
</configuration>

3yarn-site.xml文件：yarn.nodemanager.aux-services指定mapreduce_shuffle方式；yarn.resourcemanager.hostname指定yarn的主机，肯定要分配的，注：yarn的web端口默认为8088，在这里url为http://slave1:8088

<configuration>
<!-- Site specific YARN configuration properties -->
<!--reducer获取数据的方式--> 
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
<!--指定yarn的ResourceManager的地址-->
<property>
<name>yarn.resourcemanager.hostname</name>
<value>slave1</value>
</property>
</configuration>

4mapred-site.xml文件：mapreduce.framework.name指定mapreduce运行在yarn上面，yarn作为大数据集群调度框架可以协调hadoop、spark等，还是很重要的。注：这个文件需要从mapred-site.xml.template文件复制成mapred-site.xml文件。

<configuration>
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
</configuration>

5hadoop-env.sh、6yarn-env.sh、7mapred-env.sh文件都是修改JAVA_HOME路径，理论来说在linux上面环境变量JAVA_HOME设置后，hadoop是能获取的java路径的，但是实际hadoop可能获取不到，所以为了集群的独立性建议直接指定这些文件的JAVA_HOME路径，可以使用vim编辑器使用/JAVA_HOME搜索，将路径直接写在文件里面。

8slaves文件，这个文件主要是控制集群启动集群时命令通过访问这个文件启动对应虚拟机的hadoop进程。为了方便集群启动命令，也是要写上的。

将hadoop压缩包解压后，配置完4+3+1文件，就可以执行sbin/hadoop namenode -format命令格式化namenode信息，然后执行sbin/start-dfs.sh启动hdfs集群（namenode和datanode，SecondaryNamenode），在yarn所在的机器上执行sbin/start-yarn.sh命令启动yarn集群（resourcemanager和nodemanager）。

备注：namenode web端口时50070，yarn web端口时8088.