[转帖]Hadoop涉及GBK编码的文件_Hadoop，ERP及大数据讨论区_Weblogic技术|Tuxedo技术|中间件技术|Oracle论坛|JAVA论坛|Linux/Unix技术|hadoop论坛

总帖数

每页帖数

1/1页

返回列表

发起投票

查看: 3686 | 回复: 0

主题： [转帖]Hadoop涉及GBK编码的文件

huizai

注册用户

等级：少校
经验：933
发帖：83
精华：0
注册：2013-6-18
状态：离线
发送短消息息给huizai

加好友发送短消息息给huizai

发消息

发表于：

2013-6-24 9:35:55 | [全部帖] [楼主帖]

楼主

Hadoop源代码中涉及编码问题时都是写死的utf-8，但是不少情况下，也会遇到输入文件和输出文件需要GBK编码的情况。

输入文件为GBK，则只需在mapper或reducer程序中读取Text时，使用transformTextToUTF8(text, "GBK");进行一下转码，以确保都是以UTF-8的编码方式在运行。

public static Text transformTextToUTF8(Text text, String encoding) {
      String value = null;
      try {
            value = new String(text.getBytes(), 0, text.getLength(), encoding);
      } catch (UnsupportedEncodingException e) {
            e.printStackTrace();
      }
      return new Text(value);
}

输出文件为GBK，则重写TextOutputFormat类，public class GBKFileOutputFormat<K, V> extends FileOutputFormat<K, V>，把TextOutputFormat的源码拷过来，然后把里面写死的utf-8编码改成GBK编码。最后，在run程序中，设置job.setOutputFormatClass(GBKFileOutputFormat.class);

本版精华
热门帖子

操作引用/回复

总帖数

每页帖数

1/1页

返回列表

用户登录

Weblogic中间件技术论坛

Tuxedo中间件技术论坛

数据库论坛

Java论坛

Linux/unix论坛

网站地图