Spark实战(九)sparkRDD转为DataFrame的两种方式 - 代码天地

Spark实战(九)sparkRDD转为DataFrame的两种方式

编程语言 2025-04-09 21:08:08 阅读次数: 0

一、使用反射的方式

这种方式是使用反射的方式，用反射去推倒出来RDD里面的schema，也就是根据包括case class数据的RDD转换成DataFrame，这个方式简单，在已知schema的时候非常方便

def main(args: Array[String]): Unit = {

val spark = SparkSession.builder().appName("TopNStatJob")
  .config("spark.sql.sources.partitionColumnTypeInference.enabled","false")
  .master("local[2]").getOrCreate()

//    val accessRdd = spark.sparkContext.textFile("D://item//mukewang//data//1.txt")
    val accessRdd = transfer(spark,"D://item//mukewang//data//province.txt")

inferReflection(accessRdd,spark)

 }
	def inferReflection(rdd :RDD[String],spark:SparkSession): Unit = {

//    val  rdd1 = rdd.map(line =>{
//      val splits = line.split("\t")
//
//    })
    //注意：需要导入隐式转换
    import spark.implicits._
    val rddDF = rdd.map(_.split("\t")).map(line => region(line(0),line(1))).toDF()
    rddDF.show()

  }
 case class region(code: String, name: String)

二、使用编程方式动态转

首先构建一个RDD，再创建由一个 StructType 表示的模式，构造schema用到了两个类StructType和StructFile，然后通过 createDataFrame 方法应用模式

def program(rdd :RDD[String],spark:SparkSession):Unit={

//    rdd.take(10).foreach(println)
    val rddDF = rdd.map(_.split("\t")).map(line => Row(line(0),line(1)))
    val structType = StructType(Array(StructField("code",StringType,true),
      StructField("name",StringType,true)
    ))

    val infoDF = spark.createDataFrame(rddDF,structType)
    infoDF.printSchema()
    infoDF.show()
  }

三、txt文件中文乱码

下面是一个读取txt文件中文乱码的解决方法：

def transfer(sc:SparkSession,path:String):RDD[String]={
    sc.sparkContext.hadoopFile(path,classOf[TextInputFormat],classOf[LongWritable],classOf[Text],1)
      .map(p => new String(p._2.getBytes, 0, p._2.getLength, "GBK"))
  }

在使用时直接调用即可：

 val accessRdd = transfer(spark,"D://item//mukewang//data//province.txt")

猜你喜欢

转载自blog.csdn.net/u013305783/article/details/88877805

Spark实战(九)sparkRDD转为DataFrame的两种方式

Spark 读写 HBase 的两种方式（RDD、DataFrame）

Spark RDD转换成DataFrame的两种方式

Spark将RDD转换成DataFrame的两种方式

RDD转换为DataFrame的两种方式及spark sql的简单实例

spark消费kafka的两种方式

spark创建DF的两种方式

Spark WordCount的两种方式

spark连接hive的两种方式

Spark创建DataFream的两种方式

Spark中RDD转换成DataFrame的两种方式（分别用Java和Scala实现）

对DataFrame列名进行更改的两种方式

RDD转换成DataFrame的两种方式

DataFrame和RDD互操作的两种方式：

RDD转DataFrame常用的两种方式

json array 转为 list/set 的两种方式

【ES从入门到实战】九、全文检索-ElasticSearch-进阶-两种查询方式

Spark Streaming集成Kafka的两种方式

Spark Streaming 读取 Kafka 数据的两种方式

Spark提交代码的两种方式

Spark-SQL导出查询结果的两种方式

Spark中yarn模式两种提交任务方式

Spark Streaming整合Kafka的两种方式

Spark Streaming整合Flume的两种方式

Spark Streaming连接Flume的两种方式

spark-streaming获取kafka数据的两种方式

spark-streaming-连接kafka的两种方式

Spark基于Yarn提交任务两种方式

.Spark基于Standalone提交任务两种方式

spark streaming 消费kafka两种方式的对比

今日推荐

Electron中的关于静态资源加载问题解决方案

《Cursor-AI编程》基础篇-界面指南

《Cursor-AI编程》基础篇-Tab代码智能补充

《Cursor-AI编程》基础篇-Composer功能详解

《Cursor-AI编程》基础篇-Chat功能详解

《Cursor-AI编程》进阶篇-自定义模型

《Cursor-AI编程》进阶篇-上下文详解

【大模型系列篇】最强检索增强技术GraphRAG基本原理详解

【大模型系列篇】基于Ollama和GraphRAG v2.0.0快速构建知识图谱

解释什么是迁移学习？在 CNN 中如何应用？（面试题200合集，高频、关键）

解释数据增强（Data Augmentation）的概念和方法（（面试题200合集，高频、关键））

揭秘大模型“魔法”：Function Calling 让 AI 不止会说，更能“做”！

周排行

集成学习——LightGBM原理理解

java复制pdf并且往pdf文件中添加内容

DRF的解析器和渲染器 DRF的解析器和渲染器

pytest以函数形式的测试用例

CSS3 边框

C语言编程经典案例，三种方法求水仙花数（附完整代码）

算法题（313）

css如何让背景透明，文字不透明

linux下网络程序遭遇SIGPIPE的解决（转）

用xposed Hook框架Hook 安卓apk的按钮Id

每日归档

更多

2025-04-13(999)

2025-04-12(10529)

2025-04-11(9561)

2025-04-10(1213)

2025-04-09(10354)

2025-04-08(12998)

2025-04-07(0)

2025-04-06(0)

2025-04-05(0)

2025-04-04(0)