pyspark学习系列（二）读取CSV文件为RDD或者DataFrame进行数据处理

其他 2018-06-07 05:08:28 阅读次数: 2

一、本地csv文件读取：

最简单的方法：

import pandas as pd
lines = pd.read_csv(file)
lines_df = sqlContest.createDataFrame(lines)

或者采用spark直接读为RDD 然后在转换

lines = sc.textFile('file'))

如果你的csv文件有标题的话，需要剔除首行

header = lines.first()#第一行 
lines = lines.filter(lambda row:row != header)#删除第一行

此时lines 为RDD。如果需要转换成dataframe：

schema = StructType([StructField('HWMC',StringType(),True),StructField('code',StringType(),True)])
lines_df = sqlContest.createDataFrame(lines,schema)

二、hdfs上的csv文件读取：

1，采用先读为RDD再转换的形式

2，采用sqlContext.read.format（），这个有个前提需要提前做好依赖com.databricks.spark.csv

sqlContext = SQLContext(sc)
sqlContext.read.format('com.databricks.spark.csv').options(header='true', inferschema='true').load('file')

猜你喜欢

转载自blog.csdn.net/qq_36603091/article/details/79626675

pyspark学习系列（二）读取CSV文件为RDD或者DataFrame进行数据处理

pyspark读取csv文件创建DataFrame

pyspark 读取csv文件创建DataFrame的两种方法

matlab 读取txt文件以及进行数据处理

python 数据处理对csv文件进行数据处理

Pandas使用DataFrame进行数据分析比赛进阶之路（二）：日期数据处理：按日期筛选、显示及统计数据

python遍历文件进行数据处理

Python学习 | Numpy 利用数组进行数据处理

python 数据处理对txt文件进行数据处理

pyspark 读取csv 到dataframe 参数

（2）pyspark建立RDD以及读取文件成dataframe

scala spark2.0 sparksql 连接mysql8.0 操作多表使用 dataframe 及RDD进行数据处理

使用机器学习和数据挖掘算法进行数据处理

读取csv文件的数据

.csv文件与数据的读取

利用Python进行数据分析系列之：DataFrame

从csv文件读取数据到二维vector

【pyspark】一 dataframe 读写parquet、json、csv等文件

Python3，csvkit功能竟如此强大，不仅可以转换csv格式文件，还能进行数据处理和分析。

Python学习笔记_从CSV读取数据写入Excel文件中

pyspark学习系列（一）创建RDD

Spark读取普通RDD加载为DataFrame

java读取excel或者csv时日期格式数据处理

#学习笔记2# 自动化二：读取csv参数化文件（get请求+连接数据库）

PySpark学习笔记（6）——数据处理

Python读取本地文件OSM文件中的路网数据结合CSV数据处理

pyspark系列--pyspark读写dataframe

二进制数据存储、读取；TXT或CSV格式文件的存储、读取（savetxt、loadtxt）

【pandas】将单元格中的多个数据拆分为多行数据(explode)，以csv文件为源文件进行处理

【PySpark学习笔记二】DataFrame用法

今日推荐

NetBSD 禁止提交由 AI 生成的代码

Apache Doris 2.0.10 版本正式发布！

开源日报 | 大模型开战；大模型独角兽被曝卖身；周鸿祎建议谷歌开源所有产品；最大开源AI社区提供1000万美元共享GPU

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

周排行

static方法和非static方法的区别（java）

如何查找计算机专业paper

java.lang.ClassFormatError: Incompatible magic value 0 in class file com/sitecha

跳跃游戏II

stm32_之【建立工程】

TeaWeb v0.0.9 发布，统计底层优化、主机监控功能改进

事件分发 -----控制字体大小

JavaScript DOM练习（动态表格添加） December 25，2019

JSF Scope & CDI

实现从零搭建一个登录注册页面（附源代码）

每日归档

2024-05-19(0)

2024-05-18(4)

2024-05-17(34)

2024-05-16(6)

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

pyspark学习系列（二）读取CSV文件 为RDD或者DataFrame进行数据处理

猜你喜欢

pyspark学习系列（二）读取CSV文件为RDD或者DataFrame进行数据处理