3.1 部署 CDH 版本的 Hadoop

为了和以前的 Hadoop 做区分, 把新的 Hadoop 解压到 /opt/module/cdh 目录下.

所以需要先创建目录:

mkdir /opt/module/cdh

Hadoop 一共有 8 个文件需要配置, 绝大部分和前面的原生版本的配置是一样的, 只有极少部分不一样

1. `hadoop-env.sh`

配置 JAVA_HOME, 其他的不用配置.

export JAVA_HOME=/opt/module/jdk1.8.0_172

2. `mapred-env.sh`

也是只配置 JAVA_HOME

export JAVA_HOME=/opt/module/jdk1.8.0_172

3. `yarn-env.sh`

也是只配置 JAVA_HOME

export JAVA_HOME=/opt/module/jdk1.8.0_172

4. `core-site.xml`

<!-- 指定HDFS中NameNode的地址 -->
<property>
    <name>fs.defaultFS</name>
    <!-- 地址要根据自己实际情况来写. 具体的ip地址也是可以的 端口号改成和原来的不一样, 容易区别-->
    <value>hdfs://hadoop201:8000</value>
</property>
<!-- 指定hadoop运行时产生文件的存储目录 改成现在的 Hadoop 的存储地址, 不要和以前的混在一起 -->
<property>
    <name>hadoop.tmp.dir</name>
    <value>/opt/module/cdh/hadoop-2.5.0-cdh5.3.6/data/tmp</value>
</property>

<!-- 新增, 代理用户和组 -->
<property>
    <name>hadoop.proxyuser.atguigu.hosts</name>
    <value>*</value>
</property>
<property>
    <name>hadoop.proxyuser.atguigu.groups</name>
    <value>*</value>
</property>

5. `hdfs-site.xml`

<configuration>
<property>
    <name>dfs.replication</name>
    <value>3</value>
</property>
<!--设置SecondaryNameNode的地址-->
<property>
    <name>dfs.namenode.secondary.http-address</name>
    <value>hadoop203:50090</value>
</property>
<property>
    <name>dfs.namenode.checkpoint.period</name>
    <value>120</value>
</property>

<property>
    <name>dfs.namenode.name.dir</name>
    <value>/opt/module/cdh/hadoop-2.5.0-cdh5.3.6/data/tmp/dfs/name</value>
</property>
</configuration>

6. `mapred-site.xml`

<!-- 指定mr运行在yarn上 -->
<property>
    <name>mapreduce.framework.name</name>
    <value>yarn</value>
</property>

<!-- 配置job历史服务 -->
<property>
    <name>mapreduce.jobhistory.address</name>
    <value>hadoop201:10020</value>
</property>
<property>
    <name>mapreduce.jobhistory.webapp.address</name>
    <value>hadoop201:19888</value>
</property>

<!-- 日志聚集 -->
<property>
    <name>yarn.log-aggregation-enable</name>
    <value>true</value>
</property>

<!-- 日志保留时间设置7天 -->
<property>
    <name>yarn.log-aggregation.retain-seconds</name>
    <value>604800</value>
</property>

7. `yarn-site.xml`

<!-- reducer获取数据的方式 -->
<property>
    <name>yarn.nodemanager.aux-services</name>
    <value>mapreduce_shuffle</value>
</property>

<!-- 指定YARN的ResourceManager的地址 -->
<property>
    <name>yarn.resourcemanager.hostname</name>
    <value>hadoop202</value>
</property>

<!-- 配置 job 的日志查看地址 可以通过web的方式查看-->
<property> 
    <name>yarn.log.server.url</name> 
    <value>http://hadoop201:19888/jobhistory/logs/</value> 
</property>

8. `slaves`

hadoop201
hadoop202
hadoop203

分发到其他设备, 并启动 Hadoop 集群

不要忘记分发到其他集群
格式化 namenode
```
bin/hdfs namenode -format
```
启动集群
```
sbin/start-dfs.sh
sbin/start-yarn.sh
```

启动 historyserver

sbin/mr-jobhistory-daemon.sh start historyserver

如果 overview 看不到任何内容, 一般是缓存导致的问题, 禁用缓存就行了.

按下 F12, 然后:

3.1 部署 CDH 版本的 Hadoop

3.1 部署 CDH 版本的 Hadoop

1. `hadoop-env.sh`

2. `mapred-env.sh`

3. `yarn-env.sh`

4. `core-site.xml`

5. `hdfs-site.xml`

6. `mapred-site.xml`

7. `yarn-site.xml`

8. `slaves`

分发到其他设备, 并启动 Hadoop 集群

results matching ""

No results matching ""

3.1 部署 CDH 版本的 Hadoop

1. hadoop-env.sh

2. mapred-env.sh

3. yarn-env.sh

4. core-site.xml

5. hdfs-site.xml

6. mapred-site.xml

7. yarn-site.xml

8. slaves

分发到其他设备, 并启动 Hadoop 集群

results matching ""

No results matching ""

1. `hadoop-env.sh`

2. `mapred-env.sh`

3. `yarn-env.sh`

4. `core-site.xml`

5. `hdfs-site.xml`

6. `mapred-site.xml`

7. `yarn-site.xml`

8. `slaves`