10.1 SparkSession
在老的版本中,SparkSQL 提供两种 SQL 查询起始点:一个叫SQLContext
,用于Spark 自己提供的 SQL 查询;一个叫 HiveContext
,用于连接 Hive 的查询。
从2.0开始, SparkSession
是 Spark 最新的 SQL 查询起始点,实质上是SQLContext
和HiveContext
的组合,所以在SQLContext
和HiveContext
上可用的 API 在SparkSession
上同样是可以使用的。
SparkSession
内部封装了SparkContext
,所以计算实际上是由SparkContext
完成的。
当我们使用 spark-shell 的时候, spark 会自动的创建一个叫做spark
的SparkSession
, 就像我们以前可以自动获取到一个sc
来表示SparkContext