联系我们
第 1 章 Hive 概述
1.1 什么是 Hive
1.2 Hive 优缺点
1.3 Hive 架构原理
1.4 Hive 和数据库比较
第 2 章 hive 安装和基本操作
2.1 下载 Hive
2.2 安装 Hive
2.3 Hive 基本配置
2.4 运行 Hive
2.5 Hive 基本操作
2.6 导入文件到表中
2.7 配置 Mysql 服务器
2.7.1 Hive 为啥需要普通的数据库
2.7.2 为啥要用 Mysql
2.7.3 安装 Mysql
2.7.4 Hive 中的元数据配置到 Mysql
2.8 HIve 其他常用命令
2.9 Hive 常见属性配置
第 3 章 常用数据类型
3.1 基本数据类型
3.2 复杂数据类型
3.3 类型的转换
第 4 章 DDL 数据定义
4.1 数据库相关 DDL 操作
4.2 表 DDL 操作:创建表和删除表
4.3 表 DDL 操作: 修改表
4.4 内部表和外部表
4.5 分区表
第 5 章 DML 数据操作
5.1 数据导入表
5.2 数据从表中导出
5.3 清空表中的数据
第 7 章 函数
7.1 系统内置函数
7.2 自定义函数
7.3 自定义 UDF 函数
第 6 章 查询
6.1 基本查询
6.2 where 语句
6.3 分组
6.4 join 语句
6.5 排序
6.6 分桶和抽样查询
6.7 多行转列查询
5.7 列转行查询
5.8 窗口查询
5.8_1 rank 函数
5.9 给 NULL 字段赋值
5.10 case when
第 8 章 压缩和存储
8.1 编译 Hadoop 源码
8.2 压缩配置
8.3 开启 Map 阶段输出压缩
8.4 开启 Reduce 输出阶段压缩
8.5 文件存储格式
8.5 主流文件格式对比实验
8.6 存储和压缩的结合
第 9 章 企业级调优
9.1 Fetch 抓取
9.2 本地模式
9.3 表的优化
9.3.1 小表和大表 join
9.3.2 空 key 过滤
9.3.3 空 key 转换
9.3.4 map join
9.3.5 group by 优化
9.3.6 count(distinct) 去重统计
9.3.7 避免笛卡尔积
9.3.8 行列过滤
9.3.9 动态分区调整
9.3.10 分区和分桶
9.4 数据倾斜
9.5 并行执行
9.6 严格模式
9.7 JVM 重用
9.8 推测执行
9.9 数据压缩
9.10 执行计划
第 11 章 Hive 实战之谷粒影音
11.1 需求描述
11.2 数据结构
11.3 准备工作
11.4 业务分析
11.4.1 统计视频观看数 Top10
11.4.2 统计视频类别热度 Top10
11.4.3 统计出视频观看数最高的20个视频的所属类别以及类别包含Top20视频的个数
11.4.4 统计视频观看数Top50所关联视频的所属类别 Rank
11.4.5 统计每个类别中的视频热度 Top10
11.4.6 统计每个类别中视频流量Top10
11.4.7 统计上传视频最多的用户 Top10 以及他们上传的观看次数在前 20 的视频
本书使用 GitBook 发布
2.7 配置 Mysql 服务器
2.7 配置 Mysql 数据库
默认的 deby 数据库只能连接一个客户端.
所以在实际工作中, 都会把元数据换到 Mysql 数据库中.
results matching "
"
No results matching "
"