Hive 导入的中文数据出现乱码问题

1, hive支持的utf8,所以需要将文件的格式转换为对应的utf8。

2,

Hive中文乱码问题的解决办法,网上有很多帖子,然而很多都是基于Linux终端显示字符的修改,其实上对于一些条件下的HIVE中文乱码问题是无法解决的,如从CSV文件导入到HIVE中出现的中文乱码问题。

大家都知道,HIVE原生的字符编码是采用UTF-8方式的,这是支持中文的。然而在从Oracle导出CSV文件,注入到HIVE表中的时候,就发现输入时出现中文乱码。按照HIVE中文乱码的解决思路(基于系统字符编码的修改方式)总是没有成功。

后来考虑到HIVE将数据是存放在HDFS上的,并以序列化的方式存在,因此应该考虑HDFS中文乱码的问题,这一查,资料还不少。也看到了核心的问题所在: Hadoop涉及输出文本的默认输出编码统一用没有BOM的UTF-8的形式,但是对于中文的输出window系统默认的是GBK,有些格式文件例如CSV格式的文件用Excel打开输出编码为没有BOM的UTF-8文件时,输出的结果为乱码,只能由UE或者记事本打开才能正常显示。因此将Hadoop默认输出编码更改为GBK成为非常常见的需求。 
考虑到这个问题,于是想着在HIVE中序列化的时候需要指定一下字符编码,终于找到相关的解决思路,这是HIVE issue解决办法中找到的。https://issues.apache.org/jira/browse/HIVE-7142


依照这个文档的说明,对指定的表进行设置,即设置序列化编码为GBK,以WINDOW拷贝导入的数据编码相匹配。
ALTER TABLE ** SET SERDEPROPERTIES ('serialization.encoding'='GBK'); 通过这样设置,果然实现一直困扰多时的HIVE中文乱码问题。

3,

平时我们在将外部文件导入到hive表的过程中,要是原文件包含有中文的,导入就经常会出现乱码,这个时候我们可以事先把文件编码格式修改为utf8后再导入.

1.查看文件的当前的编码

[hadoop@master exter_data]$ file --mime-encoding provcode.TXT
provcode.TXT: iso-8859-1

2.转换为utf8格式

iconv -f iso-8859-1 -t utf-8 provcode.TXT -o provcode.TXT.utf8

3.然后进行导入

load data local inpath '/opt/hadoop/exter_data/provcode.TXT.utf8' into table xxx

猜你喜欢

转载自blog.csdn.net/erinapple/article/details/81207865