【大数据Hive】hive 表数据优化使用详解

一、前言

通过之前的学习了解到，hive本身并不存储数据，其数据存储的本质还是HDFS，所有的数据读写都基于HDFS的文件来实现，因此对于hive表数据的优化可以归结为对hdfs上面存储数据相关的优化，比如数据存储格式的选择等。

为了提高对HDFS文件读写的性能，Hive提供了多种文件存储格式：TextFile、SequenceFile、ORC、Parquet等，不同的文件存储格式具有不同的存储特点，有的可以降低存储空间，有的可以提高查询性能。

Hive的文件格式在建表时指定，默认是TextFile，在hive的建表语法树中，在 [STORED AS file_format] 这一项中可以进行指定；