Hive简单编程实践-词频统计 - 代码天地

Hive简单编程实践-词频统计

其他 2019-04-07 00:41:24 阅读次数: 0

一、使用MapReduce的方式进行词频统计

（1）在HDFS用户目录下创建input文件夹

hdfs dfs -mkdir input

注意：林子雨老师的博客(http://dblab.xmu.edu.cn/blog/1080-2/)中是在hadoop目录下创建input文件，而MapReduce读取的是HDFS目录中的文件，因此笔者认为该博客存在错误。

（2）在hadopp根目录中创建两个测试文件file1.txt和file2.txt，并将他们拷贝到HDFS中的input目录下

echo "hello world" > file1.txt
echo "hello hadoop" > file2.txt
hdfs dfs -put file1.txt file2.txt input/

知识点延伸:

echo " hello world"  >  file1.txt    # 表示创建file1.txt 
echo "nihao"   >> file1.txt     # 表示往file1.txt里追加内容
echo "" > file1.txt  # 表示清空file1.txt里的内容，但是文件中还存在空字符串
echo -n > file1.txt  # 清除文件的所有内容，包括空字符串
参考：https://linux.cn/article-8024-1.html

（3）调用MapReduce程序对input文件夹中的文件进行词频统计

cd  /usr/local/hadoop  #切换到hadoop目录下
hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.6.jar wordcount input output

注意：虽然输入目录是在hadoop目录下，但是自动生成的输出目录是在HDFS目录下的，如果HDFS目录下已存在output文件夹，就需要先删除，否则会出现下图所示的错误：

（4）执行结果

二、使用Hive完成词频统计(7行代码搞定)

1.编写Hql代码

create table docs(line string); # 创建docs表并注明表里的数据类型是String
load data inpath 'input' overwrite into table docs;  # 向表中装载数据
create table word_count as  # 创建word_count表，将数据保存到该表
select word, count(1) as count from
(select explode(split(line,' '))as word from docs) w
group by word
order by word;

2.查询执行结果

select  *   from  word_count

猜你喜欢

转载自www.cnblogs.com/2sheep2simple/p/10663358.html

Hive简单编程实践-词频统计

MapReduce编程：词频统计

hive学习01词频统计

（3）结对编程 - 词频统计

简单的结巴分词与词频统计

02 在Hive中完成词频统计

#软工实践-个人项目-词频统计

软件工程实践之词频统计

结对编程-词频统计（第9组）

第11组结对编程 - 词频统计

结对编程-词频统计（C#）

Python编程PTA题解——词频统计

使用shell实现简单的词频统计

flink实现简单的词频统计实验

词频统计

统计词频

对词频统计算法的代码实践

Python项目实践：文本词频统计、软文的诗词风

Hive3详细教程（六）基于Hive3的词频统计

Spark编程模型（之莎士比亚文集词频统计实现）

结对编程第4小组-词频统计

软工作业3：词频统计个人编程练习

软工作业3：个人编程练习--Python统计词频

软工作业 3：个人编程练习——词频统计

Week3 结对编程总结-词频统计

第二次结对编程-词频统计

现代软件工程结对编程词频统计

Linux shell 编程之 sort uniq 命令统计单词词频

spark学习（二）之简单应用程序——词频统计

利用python实现简单词频统计、构建词云

今日推荐

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

周排行

【转】spring中对控制反转和依赖注入的理解

tms webcore 安装和使用

java程序员进阶相关书籍

SpringMVC接受请求参数、

如何保存训练好的机器学习模型

MyEclipse、Eclipse设置项目JDK的三个地方

商超行业微信小程序开发定制一般多少钱（行业技术人员解读）

Markdown编辑器语言——30分钟入门到到精通

Linux系统下MongoDB的简单安装与基本操作

Power Strings

每日归档

更多

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)