时间:2020-09-28来源:www.pcxitongcheng.com作者:电脑系统城
hadoop的文件配置可以概括为4+3+1!
4即是core-site.xml,hdfs-site.xml,yarn-site.xml,mapred-site.xml。3是hadoop-env.sh,yarn-env.sh,mapred-env.sh。1则是slaves文件。共8个文件。
1core-site.xml文件:因为hadoop默认设置数据是放在/tmp上面的,但是linux /tmp目录的文件见名知意的会被删除,所以hadoop.tmp.dir必须要改;fs.defaultFS指定代码访问集群的节点和端口,因为设计自己的ip问题,所以也必须改
<configuration> <property> <name>hadoop.tmp.dir</name> <value>/usr/bigdata/hadoop/data</value> </property> <!--配置Hadoop NameNode节点--> <property> <name>fs.defaultFS</name> <value>hdfs://master:9000</value> </property> </configuration>
2hdfs-site.xml文件:dfs.replication设置集群文件的副本数,副本数应该小于等于节点数,3个节点可以满足一般安全性;dfs.namenode.secondary.http-address指定secondarynamenode节点,可以辅助namenode,值得分配节点。
<configuration> <property> <name>dfs.replication</name> <value>3</value> </property> <property> <name>dfs.namenode.secondary.http-address</name> <value>slave2:50090</value> </property> </configuration>
3yarn-site.xml文件:yarn.nodemanager.aux-services指定mapreduce_shuffle方式;yarn.resourcemanager.hostname指定yarn的主机,肯定要分配的,注:yarn的web端口默认为8088,在这里url为http://slave1:8088
<configuration> <!-- Site specific YARN configuration properties --> <!--reducer获取数据的方式--> <property> <name>yarn.nodemanager.aux-services</name> <value>mapreduce_shuffle</value> </property> <!--指定yarn的ResourceManager的地址--> <property> <name>yarn.resourcemanager.hostname</name> <value>slave1</value> </property> </configuration>
4mapred-site.xml文件:mapreduce.framework.name指定mapreduce运行在yarn上面,yarn作为大数据集群调度框架可以协调hadoop、spark等,还是很重要的。注:这个文件需要从mapred-site.xml.template文件复制成mapred-site.xml文件。
<configuration> <property> <name>mapreduce.framework.name</name> <value>yarn</value> </property> </configuration>
5hadoop-env.sh、6yarn-env.sh、7mapred-env.sh文件都是修改JAVA_HOME路径,理论来说在linux上面环境变量JAVA_HOME设置后,hadoop是能获取的java路径的,但是实际hadoop可能获取不到,所以为了集群的独立性建议直接指定这些文件的JAVA_HOME路径,可以使用vim编辑器使用/JAVA_HOME搜索,将路径直接写在文件里面。
8slaves文件,这个文件主要是控制集群启动集群时命令通过访问这个文件启动对应虚拟机的hadoop进程。为了方便集群启动命令,也是要写上的。
将hadoop压缩包解压后,配置完4+3+1文件,就可以执行sbin/hadoop namenode -format命令格式化namenode信息,然后执行sbin/start-dfs.sh启动hdfs集群(namenode和datanode,SecondaryNamenode),在yarn所在的机器上执行sbin/start-yarn.sh命令启动yarn集群(resourcemanager和nodemanager)。
备注:namenode web端口时50070,yarn web端口时8088.
2024-04-11
台式机电脑如何连接外接显示器2024-04-11
小新系列打印机手机配置网络的方法教程2024-04-11
Thinkpad 笔记本F1-F12快捷键分别是什么功能ThinkPad蓝牙鼠标如何配对解答步骤41U5008鼠标驱动官网地址: https://support.lenovo.com/en_US/downloads/detail.page?&LegacyDocID=MIGR-67201 第一种方式是比较传统的:使...
2024-04-11
故障现象: USB设备U盘、移动硬盘等插入后提示无法识别的设备,确认设备本身正常,设备可加电,或插入设备后加电但无任何反应,无法使用。新型号机器多表现为黄色USB接口存在此问题,...
2024-04-11