hive 数据单元

按照粒度从大到小:

数据库Databases:可以用show databases; 命令查看所有的数据库,并用use d1; 命令来选中d1数据库,接下来就可以操作d1数据库中的表了。

表Tables:可以用show tables; 命令查看当前库中所有的表。

分区Partitions:每一个表都可以有一个或者多个分区key,这些分区key决定了数据的存储方式。分区,除了作为存储单元外,还允许用户有效地识别满足指定标准的行;例如,某表有一个string类型的date_partition和一个string类型的country_partition,则分区key的每一个值都定义了该表的一个分区。例如,"2009-12-23"中的所有"US"数据都是该表的分区。因此,如果仅对"2009-12-23"的"US"数据进行分析,则只会在表的相关分区上运行查询,从而显著加快分析速度。

猜你喜欢

转载自www.cnblogs.com/koushr/p/5965676.html