Hive3详细教程(六)基于Hive3的词频统计

1.准备单词文件words.txt

apple orange pear apple
banana peach pear
orange apple

2.新建word_r表

create table word_r(
line string
)

3.load进数据到表

load data local inpath '/apps/words.txt' overwrite into table word_r;

4.验证

select * from word_r;

在这里插入图片描述

以上本质上是将txt中的行数据,转换到数据库的line列的一个单元格中。

5.编写查询sql:
explode函数的使用,其作用是可以将一个数组以列的形式组织出来

可以先在beeline中执行以下语句,将line列的单元格数据以列的形式展示出来

select explode(split(line,' ')) as word from word_r

在这里插入图片描述

然后进行分组count聚合统计,并将单词以升序排序

select word,count(1) as count from 
(select explode(split(line,' ')) as word from word_r) w    
group by word
order by word;

在这里插入图片描述

每次执行时候都要编写该sql,较为复杂,可以通过create select的方式建一个新的表:

create table word_count as 
select word,count(1) as count from 
(select explode(split(line,' ')) as word from word_r) w    
group by word
order by word;

以后使用

select * from word_count

即可进行查询。

在这里插入图片描述

猜你喜欢

转载自blog.csdn.net/GodBlessYouAndMe/article/details/121558020