5.1 RDD 编程模型

在 Spark 中,RDD 被表示为对象,通过对象上的方法调用来对 RDD 进行转换。

经过一系列的transformations定义 RDD 之后,就可以调用 actions 触发 RDD 的计算

action可以是向应用程序返回结果(count, collect等),或者是向存储系统保存数据(saveAsTextFile等)。

在Spark中,只有遇到action,才会执行 RDD 的计算(即延迟计算),这样在运行时可以通过管道的方式传输多个转换。

要使用 Spark,开发者需要编写一个 Driver 程序,它被提交到集群以调度运行 Worker

Driver 中定义了一个或多个 RDD,并调用 RDD 上的 action,Worker 则执行 RDD 分区计算任务。

Copyright © 尚硅谷大数据 2019 all right reserved,powered by Gitbook
该文件最后修订时间: 2019-04-02 22:29:42

results matching ""

    No results matching ""