往hive表中导入导出数据的load，insert等方式详解

往hive数据仓库的表中导入数据，可以直接insert ，也可以选择load方式。当然也可以通过第三方工具如sqoop等将数据导入到hive当初。特别注意：hive虽然不会验证用户装载的数据和表的模式是否匹配，但是hive会验证文件的存储格式和hive定义的表结构的存储格式是否一致。比如讲文本文件装载到sequencefile表中则报错。

一：往hive表中导入数据

1.load data 导入数据到hive中，这种情况适合提供了外部数据文件，然后将其导入hive仓库的表中。（这种方式其实使用的不是太多，大厂的数据源一般都是数据库中数据，直接定时任务抽取即可，除非外包数据以文件形式提供）

1.将本地数据文件导入到hive非分区表中
load data local inpath '/home/robot/'
overwrite into table fdm_sor.personinfo
2.将本地数据文件导入到hive分区表中
load data local inpath '/home/robot/'
overwrite into table fdm_sor.personinfo
partition(country='china',city='nanjing')
注意：1.inpath里只要填目录即可，不用具体到文件，会将该目录下所有文件都加载到表中，特别注意该目录下不能再有子目录，否则报错。
      2.overwrite 可以不加，加的话会将表中所有数据覆盖掉（分区表只覆盖当前分区数据），into talbe 将数据追加到表中。
      3.into talbe 如果表里数据已经存在了，会再次到导入，底层文件存储会给同文件名加序列号然后存储。
3.将分布式文件系统上的数据导入的hive中，比如讲hdfs上数据导入到hive中
load data inpath '/user/robot/'
overwrite into table fdm_sor.personinfo
注意：去掉local，则默认的路径是分布式文件系统上的路径，如hdfs上的路径。

2.通过查询insert ....select的形式往hive中导入数据，适合数据已经存在于hive仓库的某些表中

 
1.通过查询将数据覆盖导入的分区表中(或者用into追加结果，往动态分区表中插入数据，请参考本系列其他博客。）
insert overwrite table fdm_sor.personinfo
partition(statis_date='${staits_date}'
select a.id,a.name,b.address
from  person a left join address b
on a.id = b.id

注意：使用，insert...select 往表中导入数据时，查询的字段个数必须和目标的字段个数相同，不能多，也不能少,否则会报错。但是如果字段的类型不一致的话，则会使用null值填充，不会报错。而使用load data形式往hive表中装载数据时，则不会检查。如果字段多了则会丢弃，少了则会null值填充。同样如果字段类型不一致，也是使用null值填充。

3.使用create....as 语句往hive表里装载数据，适合从一个大的宽表中选取部分数据到新的表中。

hive (fdm_sor)> create table mytest_createas  
              > as select id ,name
                 from  mytest_tmp2_p
                where country='china' and city='beijing';
注意：使用create... as 创建的表，表的存储属性是默认的textfile，serde也是默认的lazyserde.同时表没有分区.如果对表的结构有要求，
比如我们公司sor要求使用rcfile存储，则不能使用create ..as创建表，并且加载数据。
2.如果多次操作需要取同一个表中数据，可以优化如下,将from放到最前面，这样只扫描一次表即可完成。
  from  tu_trade t
  insert overwrite table credit
       partition(statis_date='201805')
       select *  where t.statis_date ='201805'
  insert overwrite table credit
    partition(statis_date='201804')
    select *  where t.statis_date ='201804'
    .......
  insert overwrite table credit
    partition(statis_date='201704')
    select *  where t.statis_date ='201704'

4.使用sqoop等工具往hive里导入数据，参考其他博客

二：从hive里导出数据

不管数据在hive中如何存储，hive会将所有内容以字符串的形式序列化到文件里。但是要注意的是hive将数据序列化成文件的时候，文件的编码格式和hive里的一致。比如，hive中存储格式为sequencefile，则序列化的数据文件编码也是二进制格式，如果hive中列分隔符是默认的，则序列化文件也是默认的^A（不可视）的分隔符。所以为了序列化后文件可读性，一般要将需要导出的数据在hive中的编码格式改成textfile,分隔符比如为逗号等等（可以通过使用临时表）。

1.使用insert ....directory方式导出数据到本地或者分布式文件系统上

标准语法：INSERT OVERWRITE [LOCAL] DIRECTORY directory1 SELECT ... FROM ...
hive (fdm_sor)> insert overwrite local directory '/home/robot/mydata/111' 
              > select *  from mytest_tmp2_p where country='china';
注意：1.不加local则将数据导出到分布式文件系统上，比如hdfs.加了local则默认为本地，如linux上。
     2.overwrite会将目录下的内容覆盖掉，尤其是如果当前目录下有数据，会丢失。但是这里没有into的用法。
     3.如果导出的目录，不存在，则会重新创建。
     4.注意导出产生的文件个数取决于计算过程中reducers个数。

2.如果对表里的数据全部需要的话，因为hive的数据存储在hdfs上，可以直接通过hadoop命令-cp从该表的存储位置上将数据文件下载下来

3.通过sqoop等工具导出数据，具体参考sqoop篇章。

往hive表中导入导出数据的load，insert等方式详解

猜你喜欢