mapreduce 输出乱码 - 代码天地

mapreduce 输出乱码

其他 2018-05-30 06:57:14 阅读次数: 0

Hadoop处理GBK文本时,发现输出出现了乱码,原来HADOOP在涉及编码时都是写死的UTF-8，如果文件编码格式是其它类型（如GBK)，则会出现乱码。

此时只需在mapper或reducer程序中读取Text时，使用transformTextToUTF8(text, "GBK");进行一下转码，以确保都是以UTF-8的编码方式在运行。

String line=new String(text.getBytes(),0,text.getLength(),"GBK"); //这里的value是Text类型

若直接使用 String line=value.toString(); 会输出乱码, 这是由Text这个Writable类型造成的。初学时，一直认为和LongWritable对long的封装一样，Text类型是String的Writable封装。但其实Text和String还是有些区别，它是一种UTF-8格式的Writable，而Java中的String是Unicode字符。所以直接使用value.toString()方法，会默认其中的字符都是UTF-8编码过的，因而原本GBK编码的数据使用Text读入后直接使用该方法就会变成乱码。

修改后：

猜你喜欢

转载自blog.csdn.net/qq_33290422/article/details/69552316

mapreduce 输出乱码

MapReduce系列之MapReduce的输出

mapreduce清理数据的时候输出结果乱码，已解决

MapReduce中文乱码

MapReduce输出格式

mapreduce多文件输出

MapReduce输入输出

MapReduce之多目录输出

用Python脚本解决Linux上MapReduce输出结果中的中文乱码问题

MapReduce多种输出格式

MapReduce的输入输出机制

MapReduce 之OutputFormat数据输出

MapReduce输出结果导入HBase

MapReduce

Hadoop之MapReduce输入(split)输出

mapreduce的reduce输出文件进行压缩

mapreduce输出文件的重命名

MapReduce输入输出的处理流程及combiner

【Hadoop】26-MapReduce的输出格式

MapReduce练习自定义输出类型

Hadoop源码分析——MapReduce输入和输出

Hadoop | MapReduce 中MapTask输出结果的分区

MapReduce编程场景之数据分类输出

HADOOP | MapReduce篇 (02) 输入与输出

十三、MapReduce--output输出源码分析

8.1 Mapreduce输入输出类型

9.2.1 hadoop mapreduce任务输出的默认排序

MapReduce中map的输出与ruduce输入的区别

Hadoop之 MapReduce （OutputFormat 数据输出）

MapReduce自定义文件输出名

今日推荐

NetBSD 禁止提交由 AI 生成的代码

Apache Doris 2.0.10 版本正式发布！

开源日报 | 大模型开战；大模型独角兽被曝卖身；周鸿祎建议谷歌开源所有产品；最大开源AI社区提供1000万美元共享GPU

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

周排行

static方法和非static方法的区别（java）

如何查找计算机专业paper

java.lang.ClassFormatError: Incompatible magic value 0 in class file com/sitecha

跳跃游戏II

stm32_之【建立工程】

TeaWeb v0.0.9 发布，统计底层优化、主机监控功能改进

事件分发 -----控制字体大小

JavaScript DOM练习（动态表格添加） December 25，2019

JSF Scope & CDI

实现从零搭建一个登录注册页面（附源代码）

每日归档

更多

2024-05-19(0)

2024-05-18(4)

2024-05-17(34)

2024-05-16(6)

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)