Spark SQL로드 데이터 및 데이터 저장 일반적인 방법

데이터 다운로드

spark.read.format("…")[.option("…")].load("…")
  • format ( "...") : "csv", "jdbc", "json", "orc", "parquet"및 "textFile"을 포함하여로드 할 데이터 유형을 지정합니다.
  • load ( "...") : "csv", "jdbc", "json", "orc", "parquet"및 "textFile"형식에서 데이터로드 경로를 전달해야합니다. 기본적으로 parquet 파일이로드됩니다.
  • option ( "...") : "jdbc"형식에서 해당 JDBC 매개 변수, URL, 사용자, 비밀번호 및 dbtable을 전달해야합니다.
df.write.save("D:\\develop\\workspace\\bigdata2021\\spark2021\\out")

데이터를 저장

df.write.format("…").mode("...")[.option("…")].save("…")
  • 형식 및 옵션 매개 변수는 위와 동일합니다.
  • 저장 : 저장 경로를 지정합니다. 기본값은 깔끔한 압축 마루 파일 저장 형식입니다.
  • 모드 : 데이터 처리 방법을 지정하는 데 사용됩니다. 기본 오류, 파일이있는 경우 예외 발생, 파일이있는 경우 추가, 추가, 파일이있는 경우 덮어 쓰기, 덮어 쓰기, 파일이있는 경우 무시, 무시합니다.
// 默认保存
df.write.save("D:\\develop\\workspace\\bigdata2021\\spark2021\\out")

// 使用format保存指定格式的文件
df.write.format("json").save("D:\\develop\\workspace\\bigdata2021\\spark2021\\out")

// mode指定保存选项  
df.write.format("json").mode("append").save("D:\\develop\\workspace\\bigdata2021\\spark2021\\out")

df.write.format("json").mode("overwrite").save("D:\\develop\\workspace\\bigdata2021\\spark2021\\out")

추천

출처blog.csdn.net/FlatTiger/article/details/115284467