3.1 部署 CDH 版本的 Hadoop

为了和以前的 Hadoop 做区分, 把新的 Hadoop 解压到 /opt/module/cdh 目录下.

所以需要先创建目录:

mkdir /opt/module/cdh

Hadoop 一共有 8 个文件需要配置, 绝大部分和前面的原生版本的配置是一样的, 只有极少部分不一样

1. hadoop-env.sh

配置 JAVA_HOME, 其他的不用配置.

export JAVA_HOME=/opt/module/jdk1.8.0_172

2. mapred-env.sh

也是只配置 JAVA_HOME

export JAVA_HOME=/opt/module/jdk1.8.0_172

3. yarn-env.sh

也是只配置 JAVA_HOME

export JAVA_HOME=/opt/module/jdk1.8.0_172

4. core-site.xml

<!-- 指定HDFS中NameNode的地址 -->
<property>
    <name>fs.defaultFS</name>
    <!-- 地址要根据自己实际情况来写. 具体的ip地址也是可以的 端口号改成和原来的不一样, 容易区别-->
    <value>hdfs://hadoop201:8000</value>
</property>
<!-- 指定hadoop运行时产生文件的存储目录 改成现在的 Hadoop 的存储地址, 不要和以前的混在一起 -->
<property>
    <name>hadoop.tmp.dir</name>
    <value>/opt/module/cdh/hadoop-2.5.0-cdh5.3.6/data/tmp</value>
</property>

<!-- 新增, 代理用户和组 -->
<property>
    <name>hadoop.proxyuser.atguigu.hosts</name>
    <value>*</value>
</property>
<property>
    <name>hadoop.proxyuser.atguigu.groups</name>
    <value>*</value>
</property>

5. hdfs-site.xml

<configuration>
<property>
    <name>dfs.replication</name>
    <value>3</value>
</property>
<!--设置SecondaryNameNode的地址-->
<property>
    <name>dfs.namenode.secondary.http-address</name>
    <value>hadoop203:50090</value>
</property>
<property>
    <name>dfs.namenode.checkpoint.period</name>
    <value>120</value>
</property>

<property>
    <name>dfs.namenode.name.dir</name>
    <value>/opt/module/cdh/hadoop-2.5.0-cdh5.3.6/data/tmp/dfs/name</value>
</property>
</configuration>

6. mapred-site.xml

<!-- 指定mr运行在yarn上 -->
<property>
    <name>mapreduce.framework.name</name>
    <value>yarn</value>
</property>

<!-- 配置job历史服务 -->
<property>
    <name>mapreduce.jobhistory.address</name>
    <value>hadoop201:10020</value>
</property>
<property>
    <name>mapreduce.jobhistory.webapp.address</name>
    <value>hadoop201:19888</value>
</property>

<!-- 日志聚集 -->
<property>
    <name>yarn.log-aggregation-enable</name>
    <value>true</value>
</property>

<!-- 日志保留时间设置7天 -->
<property>
    <name>yarn.log-aggregation.retain-seconds</name>
    <value>604800</value>
</property>

7. yarn-site.xml

<!-- reducer获取数据的方式 -->
<property>
    <name>yarn.nodemanager.aux-services</name>
    <value>mapreduce_shuffle</value>
</property>

<!-- 指定YARN的ResourceManager的地址 -->
<property>
    <name>yarn.resourcemanager.hostname</name>
    <value>hadoop202</value>
</property>

<!-- 配置 job 的日志查看地址 可以通过web的方式查看-->
<property> 
    <name>yarn.log.server.url</name> 
    <value>http://hadoop201:19888/jobhistory/logs/</value> 
</property>

8. slaves

hadoop201
hadoop202
hadoop203

分发到其他设备, 并启动 Hadoop 集群

  1. 不要忘记分发到其他集群

  2. 格式化 namenode

    bin/hdfs namenode -format
    
  3. 启动集群

    sbin/start-dfs.sh
    sbin/start-yarn.sh
    
  4. 启动 historyserver

    sbin/mr-jobhistory-daemon.sh start historyserver
    

如果 overview 看不到任何内容, 一般是缓存导致的问题, 禁用缓存就行了.

按下 F12, 然后:

Copyright © 尚硅谷大数据 2019 all right reserved,powered by Gitbook
该文件最后修订时间: 2019-03-28 17:36:49

results matching ""

    No results matching ""