在centos6.5上hadoop mapreduce 统计英文单词

版权声明:本文为博主原创文章,大家可以转载分享学习 https://blog.csdn.net/qq_31469369/article/details/79878130

在centos6.5上hadoop python实例统计英文单词


linux上的单词删选实例

  1. 安装的是centos6.5系统,搭建hadoop集群

  2. 统计一篇文章中英文单词的数量

    统计1.txt中单词的数量,新建一个mds目录,把文件移到此目录下
    QQ截图20180409110539.png-24.5kB

    a.写一个shell脚本
    新建一个run.sh文件并编辑

    HADOOP_CMD=”/usr/local/src/hadoop-1.2.1/bin/hadoop”
    STREAM_JAR_PATH=”/usr/local/src/hadoop-1.2.1/contrib/streaming/hadoop-streaming-1.2.1.jar”
    INPUT_FILE_PATH_1=”/The_Man_of_Property.txt” //这是配置mapreduce的输入
    OUTPUT_PATH=”/output” //指定一个输出路径

    H A D O O P C M D f s r m r s k i p T r a s h OUTPUT_PAHT

    Step .

    H A D O O P C M D j a r STREAM_JAR_PATH\ //输入
    -input I N P U T F I L E P A H T 1   o u t p u t OUTPUT_PATH \
    -mapper “python map.py” \
    -reduce “python red.py” \
    -file ./map.py \
    -fiel ./red.py
    脚本如圖所示:
    QQ截图20180409160415.png-38.1kB

执行 ./bin.hadoop fs -ls 查看hdfs的文件
把需要操作的文件01.txt放到文件系统中
上传:
hadoop fs -put 01.txt / 上传文件
hadoop环境变量需要配置 ,并在权限下操作root
hadoop fs -ls / 查看文件列表 可以查看到01.txt则上传成功

QQ截图20180409160541.png-30.2kB

    不多说,直接运行脚本 
bash run.sh

QQ截图20180410102910.png-78.7kB
打开浏览器查看hdfs (浏览器是linux自带,window浏览器需要在在电脑配置)
浏览器 master:50030
QQ截图20180410103117.png-24kB
QQ截图20180410103153.png-51.4kB

点击查看运行成功

我们可以把输出的结果当到本地
查看hdfs输出目录
hadoop fs -ls
QQ截图20180410105846.png-12.3kB

QQ截图20180410105910.png-18.2kB

QQ截图20180410105930.png-20.4kB

QQ截图20180410105942.png-17.5kB
查看输出结果 成功

猜你喜欢

转载自blog.csdn.net/qq_31469369/article/details/79878130
今日推荐