Spark SQL加载数据和保存数据通用方式

加载数据

spark.read.format("…")[.option("…")].load("…")
  • format("…"):指定加载的数据类型,包括"csv"、“jdbc”、“json”、“orc”、“parquet"和"textFile”。
  • load("…"):在"csv"、“jdbc”、“json”、“orc”、"parquet"和"textFile"格式下需要传入加载数据的路径。默认加载的是parquet类型的文件。
  • option("…"):在"jdbc"格式下需要传入JDBC相应参数,url、user、password和dbtable。
df.write.save("D:\\develop\\workspace\\bigdata2021\\spark2021\\out")

保存数据

df.write.format("…").mode("...")[.option("…")].save("…")
  • format、option参数同上。
  • save:指定存储路径。默认是snappy压缩的parquet文件存储格式。
  • mode:用来指明如何处理数据。默认error,如果文件存在就抛出异常;append如果文件存在则追加;overwrite如果文件存在就覆盖;ignore如果文件存在就忽略。
// 默认保存
df.write.save("D:\\develop\\workspace\\bigdata2021\\spark2021\\out")

// 使用format保存指定格式的文件
df.write.format("json").save("D:\\develop\\workspace\\bigdata2021\\spark2021\\out")

// mode指定保存选项  
df.write.format("json").mode("append").save("D:\\develop\\workspace\\bigdata2021\\spark2021\\out")

df.write.format("json").mode("overwrite").save("D:\\develop\\workspace\\bigdata2021\\spark2021\\out")

猜你喜欢

转载自blog.csdn.net/FlatTiger/article/details/115284467