Hive到SparkSql

1、SQLContext/HiveContext/SparkSession的使用

Spark1.x中SparkSql的入口点是:HiveContext

#sc is an existing SparkContext

Val sqlContext = new org.apache.spark.sql.hive.HiveContext(sc)

Spark 2.x中SparkSql的入口点是:SparkSession

val spark = SparkSession.builder().appName(“Spark SQL basic example”).config(“spark.some.config.option”,”some-value’).getOrCreate()

2、spark-shell/spark-sql的使用

    1)、添加hive-site.xml配置文件,添加到spark /conf文件夹下面

    2)、--jars 传递mysql驱动包

3、查看执行计划

explain extended select a.key*(2+3),b.value from t a join t b on a.key = b.key and a.key >3

4、thrift server/beeline的使用

   1)启动thrift server

   2)启动beeline连接到thrfitserver

   beeline -u jdbc:hive2://localhost:10000 -n hadoop

5、thrift server和普通的spark-shell/spark-sql有什么区别?

   1)spark-shell、spark-sql都是一个spark application

   2)thrift server,不管你启动多少个客户端(beeline/code),永远都是一个spark application 解决一个数据共享的问题,多个客户端可以共享数据

6、jdbc方式编程访问

  1)、maven添加依赖:org.spark-project.hive#hive-jdbc

  2)、开发代码访问thrift server

注意事项:在使用jdbc开发时,一定要先启动thriftserver

猜你喜欢

转载自blog.csdn.net/weixin_41362649/article/details/84664649