[转帖]按字节截取含有中文汉字的字符串_Android, Python及开发编程讨论区_Weblogic技术|Tuxedo技术|中间件技术|Oracle论坛|JAVA论坛|Linux/Unix技术|hadoop论坛_联动北方技术论坛  
网站首页 | 关于我们 | 服务中心 | 经验交流 | 公司荣誉 | 成功案例 | 合作伙伴 | 联系我们 |
联动北方-国内领先的云技术服务提供商
»  游客             当前位置:  论坛首页 »  自由讨论区 »  Android, Python及开发编程讨论区 »
总帖数
1
每页帖数
101/1页1
返回列表
0
发起投票  发起投票 发新帖子
查看: 3467 | 回复: 0   主题: [转帖]按字节截取含有中文汉字的字符串        下一篇 
mengyuanye
注册用户
等级:少校
经验:1413
发帖:108
精华:7
注册:2012-11-14
状态:离线
发送短消息息给mengyuanye 加好友    发送短消息息给mengyuanye 发消息
发表于: IP:您无权察看 2012-11-21 10:42:41 | [全部帖] [楼主帖] 楼主

Java1char类型的变量可存储任意编码的1个字符,如1ASC码和或1个中文字符,例如:含有3ASC和含有3个汉字字符的字符串长度是一样的: 

 "1ac".length()==3;


    "你好a".length()=3; 
但上述两个字符串所占的byte是不一样的,前者是3,后者是51个汉字2byte)。
请编写函数

 public static String leftStr(String source, int maxByteLen)
从source中取最大maxByteLen个byte的子串。当最后一个byte恰好为一个汉字的前半个字节时,舍弃此byte。例如:
String str="我LRW爱JAVA";
leftStr(str,1)=="";


     leftStr(str,2)=="我";
     leftStr(str,4)=="我LR";
     leftStr(str,11)=="我LRW";
或者,当最后一个byte恰好为一个汉字的前半个字节时,补全汉字(多截取一个byte)。例如: 
     String str="我LRW爱JAVA";
     leftStr(str,1)=="我";
     leftStr(str,2)=="我";
     leftStr(str,4)=="我LR";
     leftStr(str,11)=="我LRW爱";

    一种做法是依次判断每一个字符是否为中文。(参考http://zangweiren.javaeye.com/blog/216005中的四)

    在此考虑另一种解决办法。因为汉字只涉及到最后一个字节,当最后一个字节是汉字的前半个字节时需要特殊处理,所以就围绕怎么判断最后一个字节是汉字的前半个字节”进行考虑。单独来讲,是无法判定一个字节到底是不是一个汉字的前半个字节,但可以判断出是否是字串中某个汉字的前半个字节。汉字为:“\u4e00-\u9fa5”(未考证)

    解决办法就是:将截取的最后一个字节与紧跟在后面的一个字节进行组合(考虑后面已经没字节的情况),判断组合出来的一个字符是否包含在原字符串中:如果包含,则说明是前半个汉字;如果不包含,则说明不是前半个汉字。(应该也无法区分汉字、韩文、日文)。

    以LRWJAVA”为例。其getBytes()(使用默认的字符集)得到的二进制码为:CED2 4C 52 57 B0AE 4A 41 56 41。
  截取前1个字节时,为“CE”,那么就判断“CED2”是否是前半个汉字,用“CED2”构造一个字符出来(亦使用默认字符集),判断构造出来的字符是否包含在原字串中。发现构造出来的字符是,显然包含在原字串中,所以是前半个汉字。
  截取前2个字节时,为“CED2”(就是字),那么就判断“D2”是否是前半个汉字,用“D24C”构造一个字符出来(亦使用默认字符集),发现构造出来的字符是,显然不包含在原字串中,所以不是前半个汉字。

    判断出来了最后一个字节是否为前半个汉字后就很容易处理了,一种是舍弃最后一个字节,一种是加多一个字节,以便保证汉字的完整。

    所有过程均采用默认字符集,绕过了不同字符集编码不同的影响。

完整源码如下:

public static String leftStr(String source, int maxByteLen, int flag){
      if(source == null maxByteLen <= 0){
            return "";
      }
      byte[] bStr = source.getBytes();
      if(maxByteLen >= bStr.length)return source;
      String cStr = new String(bStr, maxByteLen - 1, 2);
      if(cStr.length() == 1 && source.contains(cStr)){
            maxByteLen += flag;
      }
      return new String(bStr, 0, maxByteLen);
}




赞(0)    操作        顶端 
总帖数
1
每页帖数
101/1页1
返回列表
发新帖子
请输入验证码: 点击刷新验证码
您需要登录后才可以回帖 登录 | 注册
技术讨论