hive存储格式大白话解析

一、两种存储格式

1.行存储:以行为单位进行存储的格式。逻辑上可以假设为一座高楼大厦每一层为一行。那么这栋楼会特别高,但是比较窄。
2.列存储:以行为单位进行存储的格式,逻辑上可以假设为一座高楼大厦每一层为一列,那么这栋楼会比较低,但是比较宽。

二、优缺点

1.行存储:
TEXTFILE SEQUENCEFILE
行存储的写入是一次性完成,消耗的时间比列存储少,并且能够保证数据的完整性;缺点是数据读取过程中会产生冗余数据,如果只有少量数据,此影响可以忽略;数量大可能会影响到数据的处理效率。比如:我要插入数据,只需在加一层,效率非常高;但是我要查询计算,需要一层一层得去找,效率很慢。
行存储,查询计算速度慢,插入数据快
2.列存储:
ORC PARQUET
列存储在写入效率、保证数据完整性上都不如行存储;优势是在读取过程,不会产生冗余数据,适用于大数据处理领域对数据完整性要求不高的场景。比如:我要找某个房子时,我只要锁定某一层去找就行,这样就找的特别快;但是我要在插入一行数据就相当于我还得垒这么高一栋楼,比较困难。
列存储,查询计算速度快,插入数据慢

猜你喜欢

转载自blog.csdn.net/qq_33202508/article/details/108887195