第 2 章 Spark 运行模式

本章介绍在各种运行模式如何运行 Spark 应用.

首先需要下载 Spark

下载 Spark

1．官网地址 http://spark.apache.org/

2．文档查看地址 https://spark.apache.org/docs/2.1.1/

3．下载地址 https://archive.apache.org/dist/spark/

目前最新版本为 2.4.0, 考虑到国内企业使用情况我们仍然选择 2.1.1 来学习. 不过2.x.x 的版本差别都不大.

集群角色

Master 和 Worker

1. Master

Spark 特有资源调度系统的 Leader。掌管着整个集群的资源信息，类似于 Yarn 框架中的 ResourceManager，主要功能：

监听 Worker，看 Worker 是否正常工作；
Master 对 Worker、Application 等的管理(接收 Worker 的注册并管理所有的Worker，接收 Client 提交的 Application，调度等待的 Application 并向Worker 提交)。

2. Worker

Spark 特有资源调度系统的 Slave，有多个。每个 Slave 掌管着所在节点的资源信息，类似于 Yarn 框架中的 NodeManager，主要功能：

通过 RegisterWorker 注册到 Master；
定时发送心跳给 Master；
根据 Master 发送的 Application 配置进程环境，并启动 ExecutorBackend(执行 Task 所需的临时进程)

Driver和Executor

1. Driver（驱动器）

Spark 的驱动器是执行开发程序中的 main 方法的线程。

它负责开发人员编写的用来创建SparkContext、创建RDD，以及进行RDD的转化操作和行动操作代码的执行。如果你是用Spark Shell，那么当你启动Spark shell的时候，系统后台自启了一个Spark驱动器程序，就是在Spark shell中预加载的一个叫作 sc 的SparkContext对象。如果驱动器程序终止，那么Spark应用也就结束了。主要负责：

将用户程序转化为作业（Job）；
在Executor之间调度任务（Task）；
跟踪Executor的执行情况；
通过UI展示查询运行情况。

2. Executor（执行器）

Spark Executor是一个工作节点，负责在 Spark 作业中运行任务，任务间相互独立。Spark 应用启动时，Executor 节点被同时启动，并且始终伴随着整个 Spark 应用的生命周期而存在。如果有Executor节点发生了故障或崩溃，Spark 应用也可以继续执行，会将出错节点上的任务调度到其他Executor节点上继续运行。主要负责：

负责运行组成 Spark 应用的任务，并将状态信息返回给驱动器程序；
通过自身的块管理器（Block Manager）为用户程序中要求缓存的RDD提供内存式存储。RDD是直接缓存在Executor内的，因此任务可以在运行时充分利用缓存数据加速运算。

总结：Master 和 Worker 是 Spark 的守护进程，即 Spark 在特定模式下正常运行所必须的进程。Driver 和 Executor 是临时程序，当有具体任务提交到 Spark 集群才会开启的程序。

第 2 章 Spark 运行模式

第 2 章 Spark 运行模式

下载 Spark

集群角色

Master 和 Worker

1. Master

2. Worker

Driver和Executor

1. Driver（驱动器）

2. Executor（执行器）

results matching ""

No results matching ""