6.6 分桶(bucket)和抽样查询

Hive 在查询数据的时候，一般会扫描整个表的数据,会消耗很多不必要的时间。

有些时候，我们只需要关心一部分数据,比如 WHERE子句所接的查询条件，那这时候这种全表扫描的方式是很影响性能的。

从而引入了分区的概念。分区就是对某列有相同的数据或者某一个数据范围的数据进行分类，这样在查询的时候，就可以只是针对分区查询，从而不必全表扫描。

6.6.1 分桶表数据存储

对于每一个表或者分区，可以进一步细分成桶，桶是对数据进行更细粒度的划分。默认时对某一列进行 hash，使用hashcode对桶的个数求模取余，确定哪一条记录进入哪一个桶。

每个分区在 HDFS 上表现为一个文件夹, 每个桶在 HDFS 上表现一个文件.

步骤1: 准备数据

学生数据:

1001    zhangsan
1002    zhiling
1003    fengjie
1004    yifei
1005    baby
1006    ss1
1005    ss5
1009    ss9
1012    ss12
1016    ss16
1002    ss2
1006    ss6
1013    ss13
1003    ss3
1007    ss7
1010    ss10
1014    ss14
1004    ss4
1008    ss8
1011    ss11
1015    ss15

步骤3: 把刚才的数据导入到一个普通的表(非分桶的表)

create table stu(id int, name string) row format delimited fields terminated by '\t';

load data local inpath '/opt/module/datas/students.txt' into table stu;

步骤3: 创建一个新的分桶表, 并打开分桶开关(默认关闭)

create table stu_buck(id string,name string)
clustered by(id) into 4 buckets
row format delimited fields terminated by ',';

说明: clustered by(id) 按照 id 分桶, into 4 buckets 分成 4 个桶.

// 打开强制分桶开关
set hive.enforce.bucketing=true;

步骤4: 通过子查询的方式把数据插入到分桶表

insert into table stu_buck
select id, name from stu;

6.6.2 分桶抽样查询

对于非常大的数据集，有时用户需要使用的是一个具有代表性的查询结果而不是全部结果。

Hive 可以通过对表进行抽样来满足这个需求。

select * from stu_buck tablesample(bucket 1 out of 4 on id);

取样语法: tablesample(bucket x out of y on colname)

说明:

colname 是一个列名, 表示按照哪个列来取样查询.
x的是一个大于等于 1 小于等于 y 的整数.表示从哪个桶开始抽取数据.
y是抽取因子. 必须是桶的数量的整数倍, 或者是桶数的因子.
第 x 个桶被选中, x + y 个被选中, x + 2 * y 个被选中.

比如:

桶的数量是count = 32, x = 3, y = 16

一共抽取 count/y=32/16=2 2 个桶, 从第 3 个桶开始抽取, 然后是第 19 个桶被选中.

桶的数量是count = 32, x = 6, y = 8 会抽取 4 个桶: 第6, 14, 22, 30 个桶
桶的数量是count = 32, x = 2, y = 64 会抽取 1/2 个桶: 第 2 个桶的一半数据.

6.6.3 数据块抽样

Hive 提供了另外一种按照百分比进行抽样的方式，这种是基于行数的，按照输入路径下的数据块百分比进行的抽样。

select * from stu_buck tablesample(0.1 percent) ;

提示：这种抽样方式不一定适用于所有的文件格式。另外，这种抽样的最小抽样单元是一个HDFS数据块。因此，如果表的数据大小小于普通的块大小 128M 的话，那么将会返回所有行。

6.6 分桶和抽样查询