[转帖]按字节截取含有中文汉字的字符串_Android, Python及开发编程讨论区_Weblogic技术|Tuxedo技术|中间件技术|Oracle论坛|JAVA论坛|Linux/Unix技术|hadoop论坛

总帖数

每页帖数

1/1页

返回列表

发起投票

查看: 4301 | 回复: 0

主题： [转帖]按字节截取含有中文汉字的字符串

mengyuanye

注册用户

等级：少校
经验：1413
发帖：108
精华：7
注册：2012-11-14
状态：离线
发送短消息息给mengyuanye

加好友发送短消息息给mengyuanye

发消息

发表于：

2012-11-21 10:42:41 | [全部帖] [楼主帖]

楼主

Java中1个char类型的变量可存储任意编码的1个字符，如1个ASC码和或1个中文字符，例如：含有3个ASC和含有3个汉字字符的字符串长度是一样的：

"1ac".length()==3;

"你好a".length()=3;
但上述两个字符串所占的byte是不一样的，前者是3，后者是5（1个汉字2byte）。
请编写函数:

public static String leftStr(String source, int maxByteLen)
从source中取最大maxByteLen个byte的子串。当最后一个byte恰好为一个汉字的前半个字节时，舍弃此byte。例如：
String str="我LRW爱JAVA";
leftStr(str,1)=="";

     leftStr(str,2)=="我";
     leftStr(str,4)=="我LR";
     leftStr(str,11)=="我LRW";
或者，当最后一个byte恰好为一个汉字的前半个字节时，补全汉字（多截取一个byte）。例如：
     String str="我LRW爱JAVA";
     leftStr(str,1)=="我";
     leftStr(str,2)=="我";
     leftStr(str,4)=="我LR";
     leftStr(str,11)=="我LRW爱";

一种做法是依次判断每一个字符是否为中文。（参考http://zangweiren.javaeye.com/blog/216005中的四）

在此考虑另一种解决办法。因为汉字只涉及到最后一个字节，当最后一个字节是汉字的前半个字节时需要特殊处理，所以就围绕“怎么判断最后一个字节是汉字的前半个字节”进行考虑。单独来讲，是无法判定一个字节到底是不是一个汉字的前半个字节，但可以判断出是否是字串中某个汉字的前半个字节。汉字为：“\u4e00-\u9fa5”（未考证）

解决办法就是：将截取的最后一个字节与紧跟在后面的一个字节进行组合（考虑后面已经没字节的情况），判断组合出来的一个字符是否包含在原字符串中：如果包含，则说明是前半个汉字；如果不包含，则说明不是前半个汉字。（应该也无法区分汉字、韩文、日文）。

    以“我LRW爱JAVA”为例。其getBytes()（使用默认的字符集）得到的二进制码为：CED2 4C 52 57 B0AE 4A 41 56 41。
  截取前1个字节时，为“CE”，那么就判断“CED2”是否是前半个汉字，用“CED2”构造一个字符出来（亦使用默认字符集），判断构造出来的字符是否包含在原字串中。发现构造出来的字符是“我”，显然包含在原字串中，所以是前半个汉字。
  截取前2个字节时，为“CED2”（就是“我”字），那么就判断“D2”是否是前半个汉字，用“D24C”构造一个字符出来（亦使用默认字符集），发现构造出来的字符是“襆”，显然不包含在原字串中，所以不是前半个汉字。

判断出来了最后一个字节是否为前半个汉字后就很容易处理了，一种是舍弃最后一个字节，一种是加多一个字节，以便保证汉字的完整。

所有过程均采用默认字符集，绕过了不同字符集编码不同的影响。

完整源码如下：

public static String leftStr(String source, int maxByteLen, int flag){
      if(source == null maxByteLen <= 0){
            return "";
      }
      byte[] bStr = source.getBytes();
      if(maxByteLen >= bStr.length)return source;
      String cStr = new String(bStr, maxByteLen - 1, 2);
      if(cStr.length() == 1 && source.contains(cStr)){
            maxByteLen += flag;
      }
      return new String(bStr, 0, maxByteLen);
}

本版精华
热门帖子

操作引用/回复

总帖数

每页帖数

1/1页

返回列表

用户登录

Weblogic中间件技术论坛

Tuxedo中间件技术论坛

数据库论坛

Java论坛

Linux/unix论坛

网站地图