加载数据
spark.read.format("…")[.option("…")].load("…")
- format("…"):指定加载的数据类型,包括"csv"、“jdbc”、“json”、“orc”、“parquet"和"textFile”。
- load("…"):在"csv"、“jdbc”、“json”、“orc”、"parquet"和"textFile"格式下需要传入加载数据的路径。默认加载的是parquet类型的文件。
- option("…"):在"jdbc"格式下需要传入JDBC相应参数,url、user、password和dbtable。
df.write.save("D:\\develop\\workspace\\bigdata2021\\spark2021\\out")
保存数据
df.write.format("…").mode("...")[.option("…")].save("…")
- format、option参数同上。
- save:指定存储路径。默认是snappy压缩的parquet文件存储格式。
- mode:用来指明如何处理数据。默认error,如果文件存在就抛出异常;append如果文件存在则追加;overwrite如果文件存在就覆盖;ignore如果文件存在就忽略。
df.write.save("D:\\develop\\workspace\\bigdata2021\\spark2021\\out")
df.write.format("json").save("D:\\develop\\workspace\\bigdata2021\\spark2021\\out")
df.write.format("json").mode("append").save("D:\\develop\\workspace\\bigdata2021\\spark2021\\out")
df.write.format("json").mode("overwrite").save("D:\\develop\\workspace\\bigdata2021\\spark2021\\out")