Hive3详细教程（六）基于Hive3的词频统计 - 代码天地

Hive3详细教程（六）基于Hive3的词频统计

其他 2021-12-13 22:46:18 阅读次数: 0

1.准备单词文件words.txt

apple orange pear apple
banana peach pear
orange apple

2.新建word_r表

create table word_r(
line string
)

3.load进数据到表

load data local inpath '/apps/words.txt' overwrite into table word_r;

4.验证

select * from word_r;

在这里插入图片描述

以上本质上是将txt中的行数据，转换到数据库的line列的一个单元格中。

5.编写查询sql：
explode函数的使用，其作用是可以将一个数组以列的形式组织出来

可以先在beeline中执行以下语句，将line列的单元格数据以列的形式展示出来

select explode(split(line,' ')) as word from word_r

在这里插入图片描述

然后进行分组count聚合统计，并将单词以升序排序

select word,count(1) as count from 
(select explode(split(line,' ')) as word from word_r) w    
group by word
order by word;

在这里插入图片描述

每次执行时候都要编写该sql，较为复杂，可以通过create select的方式建一个新的表：

create table word_count as 
select word,count(1) as count from 
(select explode(split(line,' ')) as word from word_r) w    
group by word
order by word;

以后使用

select * from word_count

即可进行查询。

在这里插入图片描述

猜你喜欢

转载自blog.csdn.net/GodBlessYouAndMe/article/details/121558020

Hive3详细教程（六）基于Hive3的词频统计

Hive3详细教程（三）Hive3的数据类型

Hive3详细教程（二）Hive3的基本使用

Hive3详细教程（八）Hive3自定义UDF函数（elipse版）

Hive3详细教程（七）Java使用JDBC访问Hive3

Hive3安装

Hive3详细教程（四）beeline的使用

Hive3详细教程（九）Hive3自定义UDF函数（IDEA Maven版）

大数据：hive3

openEuler 部署 hive3

Hive3详细教程（一）Hive3+Hadoop3环境安装

Hive3详细教程（五）内部表、外部表与导入数据

7.Hive性能优化及Hive3新特性

0505-使用Apache Hive3实现跨数据库的联邦查询

Hive3 中case when的一个乱码问题与实践

Hive3入门至精通(基础、部署、理论、SQL、函数、运算以及性能优化)15-28章

Hive3入门至精通(基础、部署、理论、SQL、函数、运算以及性能优化)1-14章

CentOS6.5环境如何安装伪分布式的hive3版本

hive学习01词频统计

3 词频统计

Hive简单编程实践-词频统计

02 在Hive中完成词频统计

3（Hive）

（3）结对编程 - 词频统计

20180912-3 词频统计

2、Hive安装详细教程

大数据开发之Hive优化篇3-Hive的统计信息

hive优化（3）

3、hive存储格式

3-hive、sqoop

今日推荐

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

周排行

Java自定义时间格式

同步整形电路

在开发中最最最常用的字符串的属性大集合

Linux 查看端口占用并杀掉

Java基础四：ArrayList

多线程之死锁就是这么简单

mysql 基础命令集

awk 命令详解

Centos6.3编译安装nginx+php步骤

OCR （Optical Character Recognition，光学字符识别）

每日归档

更多

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)