Spark读取目录获取文件名 - 代码天地

Spark读取目录获取文件名

其他 2020-09-14 22:45:36 阅读次数: 0

import org.apache.hadoop.io.{LongWritable, Text}
import org.apache.hadoop.mapreduce.InputSplit
import org.apache.hadoop.mapreduce.lib.input.{FileSplit, TextInputFormat}
import org.apache.spark.{SparkConf, SparkContext}
import org.apache.spark.rdd.NewHadoopRDD

object sparkReadDir{
  def main(args: Array[String]): Unit = {
    val conf = new SparkConf()
    conf.setAppName("testtoarquet")
    conf.setMaster("local")
    conf.set("spark.serializer", "org.apache.spark.serializer.KryoSerializer")
    val sc = new SparkContext(conf)
    var input = "C:\\Users\\mzz\\Desktop\\tt\\20180315\\"
    var output = ""
//val value = sc.textFile(input+"20180314_HK5-10.82.26.22.txt")
    val fileRDD = sc.newAPIHadoopFile[LongWritable, Text, TextInputFormat](input)
    val hadoopRDD = fileRDD.asInstanceOf[NewHadoopRDD[LongWritable, Text]]
    val fileAdnLine = hadoopRDD.mapPartitionsWithInputSplit((inputSplit: InputSplit, iterator: Iterator[(LongWritable, Text)]) => {
      val file = inputSplit.asInstanceOf[FileSplit]
      iterator.map(x => {
        //file.getPath.toString   文件的全路径
        //file.getPath.getName  文件名
        file.getPath.toString.split("/")(6) + "," + x._2
      })
    })
    fileAdnLine.foreach(println)
  }
}

猜你喜欢

转载自blog.csdn.net/xiaozhaoshigedasb/article/details/90675765

Spark读取目录获取文件名

批量获取目录文件名

更具后缀名获取目录下的文件名

读取目录下所有文件名写入文件

spark读取当前处理数据的文件名

利用FS读取当前目录的所有文件名

c++批量读取文件------获取文件名

java读取resource/通过文件名获取文件类型

python获取文件所在目录和文件名，检索当前文件名的方法

获取文件名

[Shell]shell获取文件名和文件目录

spark实现hadoop中获取文件名的功能

C# 获取文件名、目录、后缀、无后缀文件名、扩展名、根目录等

windows 获取目录下文件名

python之获取目录下的文件名

获取指定目录下所有的文件名

python3获取目录下的文件名

获取当前目录下的所有文件名

php 获取当前目录下的所有文件名

PHP获取路径或目录或当前文件名

php获取目录中所有文件名

Shell获取目录下文件名、后缀并操作

Windows获取目录下所有文件名

ndk获取指定目录下的所有文件名

unity 获取指定目录下所有文件名

Python文件名读取

【spark】Spark Session 读取csv文件、修改无列名文件名

python 获取当前目录下的文件目录和文件名 python 获取当前目录下的文件目录和文件名

JavaScript读取文件目录信息以及目录下的文件名信息

Python获取文件路径的父级目录、文件名、扩展名

今日推荐

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

周排行

计算机组成与设计（七）—— 除法器

Integer Approximation(分治+枚举)

大话数据库索引

windows10系统JDK的配置及下载地址

mysql实现秒值转换中原六仔平台搭建

Codeforces Round #556 (Div. 1)

百练1064 网线主管

Codeforces 995F Cowmpany Cowmpensation

子集生成之增量构造法，位向量法，二进制法

ERROR: cmd.exe failed with args /c "/APK\gradle\rungradle.bat...

每日归档

更多

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)