2.7.1 Hive 为什么需要普通的数据库
Hive 本身已经是一种类似数据库的存在了, 为什么还需要普通的关系型数据库来配合呢?
Hive 严格来说并不是一种真正的数据库, 他应该算是数据仓库: 管理数据的参考, 而不负责存储数据.
Hive 管理的数据都存储在 HDFS 系统上. Hive 都那些自己经手的数据使用表格的方式管理, 但是本质上仍然是 HDFS 系统上的文件.
Hive 要管理文件作为表格, 那么就涉及到表的一些结构等元数据, 对于这些元数据 Hive 选择存放在了通常的关系型数据库中. 而真实的数据存放在 HDFS 系统上.
Hive 本书自带了一个 derby 数据库, 是随着 hive或者(hiveserver2)的启动而启动的, 不用单独启服务.
Hive 选择把元数据存存储在 derby 中.