Улей формат хранения ORC, ПАРКЕТ Сравнительный

  улей имеет три формата хранения по умолчанию, текст, ORC, ПАРКЕТ. TEXT является форматом по умолчанию, ORC, ПАРКЕТ хранится в формате колонки, пространства и эффективность запросов отличается, особенно после тестовой записи его.

A: построение различий таблицы отчетности

создать таблицу , если не существует текст (
BigInt
) , разделенный на (дт строка)
Формат строки с разделителями полей заканчиваются «\ 001»
места «/ HDFS / текст /»;

создать таблицу , если не существует орка (
BigInt) ,
разделенная на (дт строка)
Формат строки с разделителями полей , заканчивающейся «\ 001»
хранится как оркское
место «/ HDFS / орк /»;

создать таблицу , если не существует паркет (
BigInt) ,
разделенный на (дт строка) в
формате строка с разделителями полей заканчиваются «\ 001» ,
хранящихся в паркетном
месте «/ HDFS / паркет /»;

 

Является ли на самом деле хранится за это не то же самое, как с

Два: HDFS хранения Сравнение

паркет орк текст
709M 275M 1G
687M 249M 1G
647M 265M 1G

 

Сравнение времени запроса: Три

паркет орк текст
36,451 26,133 42,574
38,425 29,353 41,673
36,647 27,825 43,938

Четыре: Как подать поколение

Val sparkSession = SparkSession.builder (). getOrCreate () мастер ( "локальный"). APPNAME ( "pushFunnelV3").
Вал javasc = новый JavaSparkContext (sparkSession.sparkContext)
вал nameRDD = javasc.parallelize (util.Arrays.asList (» { 'имя': 'zhangsan', 'возраст': '18'}», "{ 'имя': 'Лиси', 'возраст': '19'}")) РДД;.
sparkSession.read.json (nameRDD) .write.mode (SaveMode.Overwrite) .csv ( "/ данные / аа")
sparkSession.read.json (nameRDD) .write.mode (SaveMode.Overwrite) .orc ( "/ данные / бб ")
sparkSession.read.json (nameRDD) .write.mode (SaveMode.Overwrite) .parquet (" / данные / см ")

рекомендация

отwww.cnblogs.com/wuxiaolong4/p/11809291.html