系统城装机大师 - 固镇县祥瑞电脑科技销售部宣传站!

当前位置:首页 > 系统教程 > 其它教程 > 详细页面

hadoop集群的文件配置教程图解

时间:2020-09-28来源:www.pcxitongcheng.com作者:电脑系统城

hadoop的文件配置可以概括为4+3+1!

4即是core-site.xml,hdfs-site.xml,yarn-site.xml,mapred-site.xml。3是hadoop-env.sh,yarn-env.sh,mapred-env.sh。1则是slaves文件。共8个文件。

1core-site.xml文件:因为hadoop默认设置数据是放在/tmp上面的,但是linux /tmp目录的文件见名知意的会被删除,所以hadoop.tmp.dir必须要改;fs.defaultFS指定代码访问集群的节点和端口,因为设计自己的ip问题,所以也必须改

复制代码
<configuration>
<property>
<name>hadoop.tmp.dir</name>
<value>/usr/bigdata/hadoop/data</value>
</property>
<!--配置Hadoop NameNode节点-->
<property>
<name>fs.defaultFS</name>
<value>hdfs://master:9000</value>
</property>
</configuration>
复制代码

2hdfs-site.xml文件:dfs.replication设置集群文件的副本数,副本数应该小于等于节点数,3个节点可以满足一般安全性;dfs.namenode.secondary.http-address指定secondarynamenode节点,可以辅助namenode,值得分配节点。


 
复制代码
<configuration>
<property>
<name>dfs.replication</name>
<value>3</value>
</property>
<property>
<name>dfs.namenode.secondary.http-address</name>
<value>slave2:50090</value>
</property>
</configuration>
复制代码

3yarn-site.xml文件:yarn.nodemanager.aux-services指定mapreduce_shuffle方式;yarn.resourcemanager.hostname指定yarn的主机,肯定要分配的,注:yarn的web端口默认为8088,在这里url为http://slave1:8088

复制代码
<configuration>
<!-- Site specific YARN configuration properties -->
<!--reducer获取数据的方式--> 
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
<!--指定yarn的ResourceManager的地址-->
<property>
<name>yarn.resourcemanager.hostname</name>
<value>slave1</value>
</property>
</configuration>
复制代码

4mapred-site.xml文件:mapreduce.framework.name指定mapreduce运行在yarn上面,yarn作为大数据集群调度框架可以协调hadoop、spark等,还是很重要的。注:这个文件需要从mapred-site.xml.template文件复制成mapred-site.xml文件。

<configuration>
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
</configuration>

5hadoop-env.sh、6yarn-env.sh、7mapred-env.sh文件都是修改JAVA_HOME路径,理论来说在linux上面环境变量JAVA_HOME设置后,hadoop是能获取的java路径的,但是实际hadoop可能获取不到,所以为了集群的独立性建议直接指定这些文件的JAVA_HOME路径,可以使用vim编辑器使用/JAVA_HOME搜索,将路径直接写在文件里面。

8slaves文件,这个文件主要是控制集群启动集群时命令通过访问这个文件启动对应虚拟机的hadoop进程。为了方便集群启动命令,也是要写上的。

 

将hadoop压缩包解压后,配置完4+3+1文件,就可以执行sbin/hadoop namenode -format命令格式化namenode信息,然后执行sbin/start-dfs.sh启动hdfs集群(namenode和datanode,SecondaryNamenode),在yarn所在的机器上执行sbin/start-yarn.sh命令启动yarn集群(resourcemanager和nodemanager)。

备注:namenode web端口时50070,yarn web端口时8088.

分享到:

相关信息

  • ThinkPad蓝牙鼠标如何配对

    ThinkPad蓝牙鼠标如何配对解答步骤41U5008鼠标驱动官网地址: https://support.lenovo.com/en_US/downloads/detail.page?&LegacyDocID=MIGR-67201 第一种方式是比较传统的:使...

    2024-04-11

  • USB接口无法识别设备的解决方法

    故障现象: USB设备U盘、移动硬盘等插入后提示无法识别的设备,确认设备本身正常,设备可加电,或插入设备后加电但无任何反应,无法使用。新型号机器多表现为黄色USB接口存在此问题,...

    2024-04-11

系统教程栏目

栏目热门教程

人气教程排行

站长推荐

热门系统下载