Hadoop＿Map中获取当前spilt文件名

编程语言 2018-05-12 05:15:47 阅读次数: 0

Hadoop＿Map中获取当前spilt文件名

分类： hadoop mapreduce 2012-07-18 09:59 3223人阅读评论(0) 收藏举报

 
 hadoop 
 string 
 mapreduce 
 path 
 测试 

有时候需要在Map类中的map函数中获取当前split所读取的文件名。

在旧版mapred下面实现方法如下：

// 获得输入文件的路径名
String path=((FileSplit)reporter.getInputSplit()).getPath().toString();

//使用Reporter reporter对象来获取，在新版mapreduce中，

Reporter reporter被封装在类MapContext中（StatusReporter reporter），

在map函数中就是Context context，实现方法应该类似，有兴趣的朋友可以试试。

-----------分割线----------->

import org.apache.hadoop.mapreduce.InputSplit;
import org.apache.hadoop.mapreduce.lib.input.FileSplit;

InputSplit inputSplit = context.getInputSplit();
String fileName = ((FileSplit) inputSplit).getPath().toString();

扫描二维码关注公众号，回复： 559776 查看本文章

刚刚搜索了下，新版中实现如下（转载，未测试，方法应该正确）

以下转载：

在mapper中获取当前正在处理的HDFS文件名/HDFS目录名

有时候，Hadoop是按行来对数据进行处理的，由于对每一行数据，map()函数会被调用一次，我们有时可以根据文件名/目录名来获取一些信息，从而把它们输出，例如，目录名中包含了日期，则我们可以取出来并输出到Reducer。在map()函数中，我们可以这样取文件名：

 
         InputSplit inputSplit = context.getInputSplit(); 
        
         String fileName = ((FileSplit) inputSplit).getName();

假设当前正在处理的HDFS文件路径为：/user/hadoop/abc/myFile.txt，则上面的 fileName 取到的是“myFile.txt”这样的字符串。但如果要获取其目录名“abc”，则可以这样做：

 
         InputSplit inputSplit = context.getInputSplit(); 
        
         String dirName = ((FileSplit) inputSplit).getPath().getParent().getName();

猜你喜欢

转载自wangjin161.iteye.com/blog/2078283

Hadoop＿Map中获取当前spilt文件名

Hadoop在Mapper中获取当前操作文件的文件名

spark实现hadoop中获取文件名的功能

Python获取当前文件名读文件

python获取文件所在目录和文件名，检索当前文件名的方法

教你在Nodejs中如何获取当前函数被调用的行数及文件名

在JAVA中如何获取当前源文件名以及代码的行号

代码中获取当前代码的类名、方法名、文件名以及获取这些信息代码所在的行数

PHP中获取文件名的方式

获取地址中的文件名

JS获取路径中的文件名

python获取路径中的文件名

获取URL中后缀的文件名

php怎样获取当前页面文件名

获取当前目录下的所有文件名

php 获取当前目录下的所有文件名

PHP获取路径或目录或当前文件名

获取当前文件名和函数名

python-获取当前文件名

获取文件名

函数CELL/FIND/MID - 获取当前文件名(包括路径和当前sheet的全名、仅仅文件名等)

PHP中获取当前页面的完整URL、PHP URL处理、获取不带扩展名的文件名 php URL处理函数 php获取文件名和后缀名

shell获取当前目录和当前文件名和当前目录的路径

从文件夹中获取指定文件的文件名

python 获取当前目录下的文件目录和文件名 python 获取当前目录下的文件目录和文件名

Java获取文件名

获取文件名lastindexOf()

python获取文件名

批量获取文件名

andriod中drawable文件名获取id

今日推荐

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

周排行

基本数据类型封装类比较 Java源码解读(一) 8种基本类型对应的封装类型

JS实现无缝滚动上

深入解析HashMap原理（基于JDK1.8）

mysql的连接池

关于.htc

linux下的ubuntu12.04图形界面

【数论】好推不好记的扩展欧几里德

设备树详解

cscope + tags 简单设置

xml学习

每日归档

更多

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)