3.1 部署 CDH 版本的 Hadoop
为了和以前的 Hadoop 做区分, 把新的 Hadoop 解压到 /opt/module/cdh
目录下.
所以需要先创建目录:
mkdir /opt/module/cdh
Hadoop 一共有 8 个文件需要配置, 绝大部分和前面的原生版本的配置是一样的, 只有极少部分不一样
1. hadoop-env.sh
配置 JAVA_HOME, 其他的不用配置.
export JAVA_HOME=/opt/module/jdk1.8.0_172
2. mapred-env.sh
也是只配置 JAVA_HOME
export JAVA_HOME=/opt/module/jdk1.8.0_172
3. yarn-env.sh
也是只配置 JAVA_HOME
export JAVA_HOME=/opt/module/jdk1.8.0_172
4. core-site.xml
<!-- 指定HDFS中NameNode的地址 -->
<property>
<name>fs.defaultFS</name>
<!-- 地址要根据自己实际情况来写. 具体的ip地址也是可以的 端口号改成和原来的不一样, 容易区别-->
<value>hdfs://hadoop201:8000</value>
</property>
<!-- 指定hadoop运行时产生文件的存储目录 改成现在的 Hadoop 的存储地址, 不要和以前的混在一起 -->
<property>
<name>hadoop.tmp.dir</name>
<value>/opt/module/cdh/hadoop-2.5.0-cdh5.3.6/data/tmp</value>
</property>
<!-- 新增, 代理用户和组 -->
<property>
<name>hadoop.proxyuser.atguigu.hosts</name>
<value>*</value>
</property>
<property>
<name>hadoop.proxyuser.atguigu.groups</name>
<value>*</value>
</property>
5. hdfs-site.xml
<configuration>
<property>
<name>dfs.replication</name>
<value>3</value>
</property>
<!--设置SecondaryNameNode的地址-->
<property>
<name>dfs.namenode.secondary.http-address</name>
<value>hadoop203:50090</value>
</property>
<property>
<name>dfs.namenode.checkpoint.period</name>
<value>120</value>
</property>
<property>
<name>dfs.namenode.name.dir</name>
<value>/opt/module/cdh/hadoop-2.5.0-cdh5.3.6/data/tmp/dfs/name</value>
</property>
</configuration>
6. mapred-site.xml
<!-- 指定mr运行在yarn上 -->
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
<!-- 配置job历史服务 -->
<property>
<name>mapreduce.jobhistory.address</name>
<value>hadoop201:10020</value>
</property>
<property>
<name>mapreduce.jobhistory.webapp.address</name>
<value>hadoop201:19888</value>
</property>
<!-- 日志聚集 -->
<property>
<name>yarn.log-aggregation-enable</name>
<value>true</value>
</property>
<!-- 日志保留时间设置7天 -->
<property>
<name>yarn.log-aggregation.retain-seconds</name>
<value>604800</value>
</property>
7. yarn-site.xml
<!-- reducer获取数据的方式 -->
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
<!-- 指定YARN的ResourceManager的地址 -->
<property>
<name>yarn.resourcemanager.hostname</name>
<value>hadoop202</value>
</property>
<!-- 配置 job 的日志查看地址 可以通过web的方式查看-->
<property>
<name>yarn.log.server.url</name>
<value>http://hadoop201:19888/jobhistory/logs/</value>
</property>
8. slaves
hadoop201
hadoop202
hadoop203
分发到其他设备, 并启动 Hadoop 集群
不要忘记分发到其他集群
格式化 namenode
bin/hdfs namenode -format
启动集群
sbin/start-dfs.sh sbin/start-yarn.sh
启动 historyserver
sbin/mr-jobhistory-daemon.sh start historyserver
如果 overview 看不到任何内容, 一般是缓存导致的问题, 禁用缓存就行了.
按下 F12, 然后: