hive表新增字段后,新字段无法写入的问题 -- cascade

转自:https://blog.csdn.net/lele5000/article/details/89856355

给hive表新增了三个字段,重新insert overwrite了历史有数据的分区,但是select 新增字段仍然没有数据,值一直为NULL,莫名其妙

我的修改表结构的sql是这样子的

alter table app_dlink_project_temp add columns(media_name string COMMENT '媒介名称');

可是新增的这个字段的值总是NULL

解决办法很简单,将修改表结构的sql改成这样

alter table app_dlink_project_temp add columns(media_name string COMMENT '媒介名称') cascade;

然后重新insert overwrite,再查询就新增字段就会有数据了。

另外一种解决方式:

可以手动使用如下命令来对分区添加 alter table 表名 partition(dt='2019-04-26') add columns(字段名 类型);

或者也可以直接将分区数据删除,然后重新insert,这样新的字段也会有了

官方文档描述如下:

The CASCADE|RESTRICT clause is available in Hive 1.1.0. ALTER TABLE ADD|REPLACE COLUMNS with CASCADE command changes the columns of a table's metadata, and cascades the same change to all the partition metadata. RESTRICT is the default, limiting column changes only to table metadata.

如上所述,在1.1.0中表和分区的元数据就是分开处理的,在增加字段的时候添加CASCADE能同时更新表和分区 对于,在添加字段的时候没有指定的cascade的情况

因为我们在重跑数据的时候,虽然HDFS上的数据更新了,但是我们查询的时候仍然查询的是旧的元数据信息(即Mysql中的信息)

注意:对于执行了add column语句之后新生成的分区,是不会有问题的,Hive会自动维护新分区中的元数据。

猜你喜欢

转载自www.cnblogs.com/zhangqian27/p/12654067.html