1.1 什么是 Hive

Apache Hive 是一种数据仓库, 可以非常方便的使用 SQL 去读,写,管理存储在分布式式系统的大数据.

用户可以使用一个命令行工具和 JDBC 去连接到 Hive.

Hive 的设计初衷是:

  1. 对于大量的数据, 使得数据汇总, 查询和分析更加简单

  2. 它提供 SQL, 允许用户更加简单的进行查询, 汇总和数据分析.

  3. 对用户的复杂需求, Hive 的 SQL 允许用户来集成自己的功能, 做定制化的查询. 例如使用自定义函数(User Defined Functions, UDFs)


Hive 表面是使用 SQL 像在数据库中查询数据一样从 HDFS 查询数据.

本质是, Hive 把 SQL 转换成 MapReduce 程序去执行相应的操作, 并返回结果

Copyright © 尚硅谷大数据 2019 all right reserved,powered by Gitbook
该文件最后修订时间: 2018-11-20 18:14:22

results matching ""

    No results matching ""