pyspark单词统计(python编写)文件在hdfs上 - 代码天地

pyspark单词统计(python编写)文件在hdfs上

其他 2019-04-27 09:00:55 阅读次数: 0

在写代码之前先了解一下代码中一些方法的作用：
**sparkContext：**在Spark应用程序的执行过程中起着主导作用，它负责与程序和spark集群进行交互，包括申请集群资源、创建RDD、accumulators及广播变量等。
**sc.textFiles(path)：**能将path 里的所有文件内容读出，以文件中的每一行作为一条记录的方式，文件的每一行相当于 List中以 “,”号隔开的一个元素，因此可以在每个partition中用for i in data的形式遍历处理Array里的数据。
**map(func)：**将每个元素传递到函数func中，并将结果返回为一个新的数据集
**flatMap(func)：**与map()相似，但每个输入元素都可以映射到0或多个输出结果
**reduceByKey(func)：**应用于(K,V)键值对的数据集时，返回一个新的(K, V)形式的数据集，其中的每个值是将每个key传递到函数func中进行聚合
**saveAsTextFile：**会按照执行task的多少生成多少个文件

代码如下：

import os
import shutil
from pyspark import SparkConf, SparkContext
input = 'hdfs://master:9000/hello.txt'
output = 'hdfs://master:9000/out1'
sc = SparkContext('local', 'WordCount')
# 读取文件
test_file = sc.textFile(input)
# 切分单词
word = test_file.flatMap(lambda line: line.split(' '))
# 转换成键值对并计数
count = word.map(lambda word: (word, 1)).reduceByKey(lambda x, y: x + y)
# 输出结果
count.foreach(print)
# 删除输出目录
if os.path.exists(outputpath):  //判断目录是否存在
    shutil.rmtree(outputpath, True)  //目录存在删掉
# 将统计结果写入结果文件
counts.saveAsTextFile(output)

或者可以放在一起

import os
import shutil
from pyspark import SparkConf, SparkContext
input = 'hdfs://master:9000/hello.txt'
output = 'hdfs://master:9000/out1'
sc = SparkContext('local', 'WordCount')
test_file = sc.textFile(input).test_file.flatMap(lambda line: line.split(' ')).map(lambda word: (word, 1)).reduceByKey(lambda x, y: x + y)
test_file.foreach(print)
# 删除输出目录
if os.path.exists(outputpath):  //判断目录是否存在
    shutil.rmtree(outputpath, True)  //目录存在删掉
# 将统计结果写入结果文件
counts.saveAsTextFile(output)

猜你喜欢

转载自blog.csdn.net/weixin_41895381/article/details/89485675

pyspark单词统计(python编写)文件在hdfs上

Pyspark获取hdfs上多个文件

python编写文件统计脚本

如何在pyspark里引用上传到hdfs上的文件

python读取hdfs上的parquet文件

【单词查询/统计】python实现文件级单词统计/定位程序

Python-文件与异常-统计文本的单词数

5.1统计英文文件中的单词数python

使用java编写代码,统计出txt文件中每行第1个单词是redis 的数量。

使用java编写代码,统计出txt文件中每个单词的个数,在控制台输出

统计文件中单词个数

统计文件中单词的个数

统计文件内单词个数

hdfs统计行数和统计文件大小

python pyspark-submit 保存模型到hdfs（全网之最）

Python读写HDFS上的文本文件

pyspark程序从hdfs上读取数据求其TopN，并将结果存回hdfs

python之单词词频统计

python 统计文章单词个数

编写程序统计一个英文文本文件中每个单词的出现次数

往HDFS 上写文件

删除hdfs上指定的文件

如何修改HDFS上的文件

python-8, 编写一个函数,实现统计字符串中单词的个数并返回

pyspark将本地数据转化为方便在hdfs上读取的分布式数据

彷徨 | HDFS系统里面文件的词频统计

统计hdfs中小文件的占比

pyspark系列--统计基础

统计文件中单词出现的频次

Hadoop 统计文件中单词出现的次数

今日推荐

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

《2024 年一季度互联网投融资运行情况》研究报告

报告：Django 仍然是 74% 开发者的首选

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

周排行

记一下去大梅沙的准备（2018-05-26）

Spring 注解事务

基于HTTP协议的客户端缓存

阿里云rds 备份和还原

[PHP] 几个拖慢 PHP 程序/API 运行速度的点

python 代码风格------------PEP8规则

js控制json生成菜单——自制菜单（一）

将字符串: 'k:1|k1:2|k2:3|k3:4 ' ,处理成 python 字典: {'k':1, 'k1':2, ...}

微信小程序转支付宝小程序

Qt551.窗口滚动条

每日归档

更多

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)