hadoop（4）——用python代码结合hadoop完成一个小项目 - 代码天地

hadoop（4）——用python代码结合hadoop完成一个小项目

其他 2020-10-16 05:41:20 阅读次数: 0

mapper.py和reducer.py文件内容借鉴于如下博客： https://blog.csdn.net/marywang56/article/details/80395519

我们都知道hadoop是在java环境下完成的，但是通过hadoop-streaming这个java小程序，我们可以把python代码放入hadoop中，然后通过stdin和stdout来进行数据的传递。
（1）开启yarn
通过jps命令查看
在这里插入图片描述

（2）查看mapper.py和reducer.py

import sys
# input comes from STDIN (standard input)
for line in sys.stdin:
    line = line.strip()
    words = line.split()
    for word in words:
        print '%s\t%s' % (word, 1)

在这里插入图片描述

from operator import itemgetter
import sys

current_word = None
current_count = 0
word = None

for line in sys.stdin:
    line = line.strip()
    word, count = line.split('\t', 1)
    try:
        count = int(count)
    except ValueError:
        continue
    if current_word == word:
        current_count += count
    else:
        if current_word:
            print '%s\t%s' % (current_word, current_count)
        current_count = count
        current_word = word

if current_word == word:
    print '%s\t%s' % (current_word, current_count)

（3）测试命令
<1>
先看hadoop.txt
在这里插入图片描述

<2>
在这里插入图片描述
可以看见mapper把每一个字符都分割了开来
<3>

可见sort函数将字母进行排序，对应hadoop里的shuffle过程
<4>

这时可以看见模拟出了最后输出的结果，将一样的词合并作为输出
（4）用hadoop来实现
此时要写好脚本，如图：

在这里插入图片描述
（5）实行脚本

任务实行结束
（6）查看输出结果

（7）可视化查看

如图，此运算例已经实行成功

猜你喜欢

转载自blog.csdn.net/weixin_48445640/article/details/108956144

hadoop（4）——用python代码结合hadoop完成一个小项目

Hadoop的搭建和第一个Hadoop小项目：单词计数

使用ionic完成的一个小项目

用python做一个小项目,python做简单的项目

【python小项目】用python写一个小工具——番茄钟

做一个完整的Hadoop项目

用webmagic实现一个java爬虫小项目

一个小项目

递归实现的一个小项目----实现代码数目的统计（python实现）

新建python的第一个小项目

做了一个Python的实战小项目——银行系统

【Python】第一个微信小项目

第一个Python小项目——秒表

Python 的一个小项目 —— 飞机大战

使用Hadoop Streaming 完成MapReduce(Python代码)

手把手教你完成一个数据科学小项目（4）：评论数变化情况

第一次用Python完成一个小小的游戏项目

scrapy的一个简单小项目

iOS的一个小项目

关于vue的一个小项目

关于web的一个小项目

创建一个SpringMVC小项目

flutter[做一个小项目

Django开发一个小项目

第一个小项目

hadoop的一个坑

Zookeeper最早是Hadoop的一个子项目

我的第一个hadoop项目的构建

用现有框架创建一个新的小项目的步骤细节

（记录）用react-native编写的一个App小项目

今日推荐

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

周排行

NEFU 117 素数个数的位数

Closest Common Ancestors (Lca,tarjan)

ELK部署

【转载】Hive笔记整理（三）

SQL语句（一）基本表的定义

关于Java web开发中的MySQL的事务语句

MFC创建自定义窗体

如何用一句话激怒程序员？

《逆袭大学》文摘——9.4 基础和应用的平衡中找到大学的节奏

【spring源码分析】@Value注解原理

每日归档

更多

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)