简单理解MapReduce如何做词频统计 - 代码天地

简单理解MapReduce如何做词频统计

其他 2019-02-19 03:20:49 阅读次数: 0

MapReduce是Hadoop解决大规模数据布式计算的方案，可以解决几乎所有大数据领域内的计算需求。MapReduce顾名思义包含Map和Reduce两个过程，map 的主要输入是一对 <Key, Value> 值，经过 map 计算后输出一对 <Key, Value> 值；然后将相同 Key 合并，形成 <Key, Value 集合 >；再将这个 <Key, Value 集合 > 输入 reduce，经过计算输出零个或多个 <Key, Value> 对。
假如我现在有文本：

hello master
bye master

首先构建输入的键值对，一行数据做为一个value，key在计算过程中不需要使用，将value映射为<单词，1>的形式：

<key1, "hello master">
<key2, "bye master">

经过map计算后得到：

<hello, 1>
<master, 1>
<bye, 1>
<master, 1>

接下来合并相同key的键值对，得到：

<hello, 1>
<master, [1,1]>
<bye, 1>

将这个结果交给Reduce操作，得到：

<hello, 1>
<master, 2>
<bye, 1>

经过这么几个步骤，MapReduce就帮我们计算好了我们输入文本的词频结果。

这样的计算框架使得MapReduce进行分布式计算也非常方便，只要将输入的文本内容分开，map操作之间完全解耦，可以放到不同的机器上独立进行，这样就极大的加快了大数据的处理速度。

猜你喜欢

转载自blog.csdn.net/weixin_34326179/article/details/87568261

简单理解MapReduce如何做词频统计

MapReduce编程：词频统计

MapReduce词频统计

MapReduce - 词频统计

MapReduce实现WordCount词频统计

Mapreduce之wordcount词频统计

如何做最简单的编程？

利用python做词频统计

MapReduce编写实现wordcount词频统计

MapReduce运行模式之词频统计

Excel 如何做不定长区间汇总统计

简单的结巴分词与词频统计

如何做番茄炖牛腩——hadoop理解

如何做科研？

如何做研究

如何做EDA？

如何做采访？

如何做需求

如何做笔记

如何做PPT

如何做馒头

结合jieba库分词并做词频统计

c语言：做单词词频统计

linux下如何做ghost，又简单又方便，很实用的方法

C++小白如何做简单游戏

如何用R包做词频统计图（词云）？

Elasticsearch词频统计实现与原理解读

使用MapReduce框架做词频分析案例（案例一）

(四)利用Hadoop MapReduce 实现文本单词频率统计

基于MapReduce的词频统计程序WordCountApp(一)

今日推荐

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

周排行

Java自定义时间格式

同步整形电路

在开发中最最最常用的字符串的属性大集合

Linux 查看端口占用并杀掉

Java基础四：ArrayList

多线程之死锁就是这么简单

mysql 基础命令集

awk 命令详解

Centos6.3编译安装nginx+php步骤

OCR （Optical Character Recognition，光学字符识别）

每日归档

更多

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)