联系我们
第 1 部分 Spark 基础
第 1 章 Spark 概述
1.1 什么是 Spark
1.2 Spark 特点
1.3 Spark 内置模块介绍
第 2 章 Spark 运行模式
2.1 Local 模式
2.2 Spark 核心概念介绍
2.3 Standalone 模式
2.3.1 配置 Standalone 模式
2.3.2 使用 Standalone 模式运行计算 PI 的程序
2.3.3 在 Standalone 模式下启动 Spark-shell
2.3.4 配置 Spark 任务历史服务器
2.3.5 HA 配置(为 Mater 配置)
2.3.6 Standalone 工作模式图解
2.4 Yarn 模式
2.5 Mesos 模式
2.6 几种运行模式的对比
第 3 章 案例实操
3.1 编写 WordCount 程序
3.2 测试
第 2 部分 Spark Core
第 4 章 RDD 概述
第 5 章 RDD 编程
5.1 RDD 编程模型
5.2 RDD 的创建
5.3 RDD 的转换(transformation)
5.3.1 Value 类型---1
5.3.1 Value 类型---2
5.3.2 双 Value 类型交互
5.3.3 Key-Value 类型--1
5.3.3 Key-Value 类型---2
5.3.4 案例实操
5.4 RDD的 Action 操作
5.5 RDD 中函数的传递
5.6 RDD 的依赖关系
5.7 Spark 中的 Job 调度
5.8 Spark Job 的划分
5.9 RDD 的持久化
5.10 设置检查点
第 6 章 Key-Value 类型 RDD 的数据分区器
第 7 章 文件中数据的读取和保存
7.1 读写 Text 文件
7.2 读写 Json 文件
7.3 读写 Sequence 文件
7.4 读写 Object 文件
7.5 从 HDFS 读写文件
7.6 从 Mysql 数据读写文件
7.7 从 Hbase 读写文件
第 8 章 RDD 编程进阶
8.1 累加器
8.2 广播变量
第 3 部分 Spark Core 项目实战
第 1 章 准备数据
第 2 章 需求 1: Top10 热门品类
第 3 章 需求 2: Top10热门品类中每个品类的 Top10 活跃 Session 统计
第 4 章 需求 3: 页面单跳转化率统计
第 4 部分 Spark Sql
第 9 章 Spark SQL 概述
9.1 什么是 Spark SQL
9.2 Spark SQL 的特点
9.3 什么是 DataFrame
9.4 什么是 DataSet
第 10 章 Spark SQL 编程
10.1 SparkSession
10.2 使用 DataFrame 进行编程
10.2.1 创建 DataFrame
10.2.2 DataFrame 语法风格
10.2.3 RDD 和 DataFrame 的交互
10.3 使用 DataSet 进行编程
10.3.1 创建 DataSet
10.3.2 RDD 和 DataSet 的交互
10.4 DataFrame 和 DataSet 之间的交互
10.5 RDD, DataFrame和 DataSet 之间的关系
10.6 使用 IDEA 创建SparkSQL 程序
10.7 自定义 SparkSQL 函数
10.7.1 自定义 UDF 函数
10.7.2 用户自定会聚合函数
第 11 章 Spark SQL 数据源
11.1 通用加载和保存函数
11.2 加载 JSON 文件
11.3 读取 Parquet 文件
11.3 JDBC
11.4 Hive 数据库
第 5 部分 SparkSql 项目实战
第 1 章 准备数据
第 2 章 需求 1: 各区域热门商品 Top3
第 6 部分 Spark Streaming
第 13 章 Spark Streaming 概述
第 14 章 DStream 入门
14.1 wordcount 案例
14.2 wordcount 案例解析
第 15 章 DStream 创建
15.1 RDD 队列
15.2 自定义数据源
15.3 Kafka数据源
高级 API
低级 API
第 16 章 DStream 转换
16.1 无状态转换操作
16.1.1 transform 操作
16.2 有状态转换操作
16.2.1 updateStateByKey
16.2.2 window 操作
第 17 章 DStream 输出
第 18 章 DStream 编程进阶
第 7 部分 Structured Streaming
第 1 章 Structured Streaming 概述
第 2 章 Structure Streaming 快速入门
第 3 章 Structured Streaming 编程模型
3.1 基本概念
3.2 处理事件-时间和延迟数据
3.3 容错语义
第 4 章 创建 Streaming DataFrame 和 Streaming DataSet
4.1 socket source
4.2 file source
4.3 Kafka source
4.4 Rate Source
第 5 章 操作 Streaming DataFrame/Streaming DataSet
5.1 基本操作
5.2 基于 event-time 的窗口操作
5.3 基于 Watermark 处理延迟数据
5.3.1 update 模式下使用 watermark
5.3.2 append 模式下使用 wartermark
5.3.3 watermark 机制总结
5.4 流数据去重
5.5 join 操作
5.5.1 Stream-static Joins
5.5.2 Stream-stream Joins
5.6 Streaming DF/DS 不支持的操作
第 6 章 输出分析结果
6.1 输出模式(output mode)
6.2 输出接收器(output sink)
6.2.1 file sink
6.2.2 kafka sink
6.2.3 console sink
6.2.4 memory sink
6.2.5 foreach sink
6.2.6 ForeachBatch Sink
第 7 章 Trigger(触发器)
7.1 连续处理模式
第 8 部分 Structured Streaming 项目实战
第 1 章 准备数据
1.1 数据生成方式
1.2 数据生成模块
1.3 从 Kafka 读取数据
第 2 章 广告黑名单实时统计
第 3 章 广告点击量实时统计
第 4 章 每天每地区热门广告 top3 实时统计
第 5 章 最近一小时广告点击量实时统计
本书使用 GitBook 发布
9.2 Spark SQL 的特点
9.2 Spark SQL 的特点
1. Integrated(易整合)
无缝的整合了 SQL 查询和 Spark 编程.
2. Uniform Data Access(统一的数据访问方式)
使用相同的方式连接不同的数据源.
3. Hive Integration(集成 Hive)
在已有的仓库上直接运行 SQL 或者 HiveQL
4. Standard Connectivity(标准的连接方式)
通过 JDBC 或者 ODBC 来连接
results matching "
"
No results matching "
"