python基于Hadoop Streaming实现简单的WordCount - 代码天地

python基于Hadoop Streaming实现简单的WordCount

企业开发 2018-05-13 02:52:27 阅读次数: 0

1. Eclipse下配置python插件PyDev

参考：http://blog.chinaunix.net/uid-11121450-id-1476897.html

2. Hadoop Streaming编程

Hadoop Streaming是利用“标准输入”和“标准输出”与我们编写的Map和Reduce进行数据的交换。
那么，任何能够使用“标准输入”和“标准输出”的编程语言都应该可以用来编写MapReduce程序。

3. Python实现简单的Word Count程序

需要注意python中对分隔符的要求比较严格，尽量不要混用tab和空格，很容易导致编译失败

mapper.py

#!/usr/bin/python
import sys 
for line in sys.stdin:
 #去除字符串两边的空格 
 line = line.strip() 
 #按照空格去划分单词
 words = line.split()
  for word in words:
   print '%s %s' % (word, 1)

reducer.py

#!/usr/bin/python 
from operator import itemgetter
import sys 
word2count = {} 
for line in sys.stdin:
   line = line.strip() 
   word, count = line.split(' ', 1)   
   try:
    count = int(count)
    word2count[word] = word2count.get(word, 0) + count
   except ValueError:      
    pass 
   sorted_word2count = sorted(word2count.items(), key=itemgetter(0))
   for word, count in sorted_word2count:
    print '%s %s'% (word, count)

4. 在hadoop上运行python脚本

#在Hadoop Home路径下运行以下命令
bin/hadoop jar contrib/streaming/hadoop-streaming-1.0.0.jar -mapper /usr/local/mapper.py -reducer /usr/local/reducer.py -input /test.txt -output /result

猜你喜欢

转载自zhao-rock.iteye.com/blog/2009969

python基于Hadoop Streaming实现简单的WordCount

Hadoop WordCount（Streaming，Python，Java三合一）

基于Hadoop的WordCount案例实现（Linux版本）

hadoop简单实例-WordCount

Spark Streaming实现WordCount

Hadoop MapReduce各阶段执行过程以及Python代码实现简单的WordCount程序

在Hadoop上用Python实现WordCount

Python+Hadoop Streaming实现MapReduce任务

hadoop中wordcount的实现

Spark Streaming 简单示例(WordCount)

Hadoop上简单运行WordCount

基于Java对WordCount实现

Hadoop入门案例-实现WordCount

WordCount实现--Hadoop学习笔记

Maven集成hadoop实现wordcount

用Python实现基于Hadoop Stream的mapreduce任务

python实现Mapreduce的wordcount

[Hadoop] Hadoop Streaming使用Python编程

Python Hadoop的Wordcount入门示例

java8实现spark streaming的wordcount

streaming通过sql实现wordcount代码

Python实现一个最简单的MapReduce编程模型WordCount

Python Hadoop Mapreduce 实现Hadoop Streaming分组和二次排序

Python初次实现MapReduce——WordCount

利用Hadoop MapReduce实现单词统计——Wordcount

hadoop入门程序，wordcount本地版实现

使用hadoop的MapReduce来实现WordCount

Hadoop 之 MapReduce 概述--WordCount 案例实现

Hadoop学习：MapReduce实现WordCount经典案例

基于Java的Spark WordCount编程实现

今日推荐

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

周排行

NEFU 117 素数个数的位数

Closest Common Ancestors (Lca,tarjan)

ELK部署

【转载】Hive笔记整理（三）

SQL语句（一）基本表的定义

关于Java web开发中的MySQL的事务语句

MFC创建自定义窗体

如何用一句话激怒程序员？

《逆袭大学》文摘——9.4 基础和应用的平衡中找到大学的节奏

【spring源码分析】@Value注解原理

每日归档

更多

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)