Java中文乱码原因_Tomcat, WebLogic及J2EE讨论区_Weblogic技术|Tuxedo技术|中间件技术|Oracle论坛|JAVA论坛|Linux/Unix技术|hadoop论坛_联动北方技术论坛  
网站首页 | 关于我们 | 服务中心 | 经验交流 | 公司荣誉 | 成功案例 | 合作伙伴 | 联系我们 |
联动北方-国内领先的云技术服务提供商
»  游客             当前位置:  论坛首页 »  自由讨论区 »  Tomcat, WebLogic及J2EE讨论区 »
总帖数
3
每页帖数
101/1页1
返回列表
0
发起投票  发起投票 发新帖子
查看: 2439 | 回复: 2   主题: Java中文乱码原因        下一篇 
ke.li
注册用户
等级:上士
经验:283
发帖:12
精华:0
注册:1970-1-1
状态:离线
发送短消息息给ke.li 加好友    发送短消息息给ke.li 发消息
发表于: IP:您无权察看 2016-4-18 15:02:24 | [全部帖] [楼主帖] 楼主

Java中文乱码原因 

Java在中文环境中乱码无处不在,而且出现的时间和位置也包涵广泛,具体的解决方法也是千奇百怪。 
但是如果能理清其中的脉络,理解字符处 理的过程,对于解决问题很有指导意义,不至于解决了问题也不知道为什么。 
其实,原因不外乎出在String输入时和输出时。 

首先,Java中的任何String都是以UNICODE格式存在的。 
很多人因为在GBK环境中使用String,会误以为String是GBK格式,实际上Java的String类中并没有存储CharSet信息的字段, 所有String中的字符只会以UNICODE的2字节形式存在。 
String在构造时会逐一把字符按指定编码(默认值为系统编码GBK),转换为UNICODE字符,存入一个Char(无符号16位)数组中。 

如: 
new String(bytes,"gbk"); 

并不是说,生成一个GBK编码的字符串,而是按GBK逐一辨认字节数组bytes中的字符转化为UNICODE。 
假设,bytes本是按GB编码的,构造方法在发现一个最高位为0的byte就作为ascii字符处理,最高位为1就和后面的一个byte合成中文字符, 再转换编码。 
可以看出,在这个过程中,编码选择错误就会导致程序按错误方法辨认bytes,乱码就出现了。 
在这里产生的乱码,很多时候还可以通过.getByte()方法修复,还没有后面的严重。 

如: 
"中".getBytes("iso-8859-1"); 

因为iso-8859-1中没有中文,所以"中"的值被替换成63,显示'?',无法判断以前是什么值。 

所以如下String将被破坏掉: 
new String("中文".getBytes("iso-8859-1"),"iso-8859-1"); 

如果目标编码方式支持中文,就不会损坏String: 
new String("中文".getBytes("utf-8"),"utf-8"); 

Java在显示字符时,还需要进行一次转换,把UNICODE字符转换成用于显示的字符编码形式。 
很多时候,这个过程是自动的,会按系统的默认编码(一般是GBK)转换String。 
如果和页面编码不一样,就会出现乱码,虽然在Java的程序中只有一种编码,输出却可以有不同的编码。 

有时候,我们需要用 iso-8859-1格式分解String的中文,以便在不支持中文的系统中存储: 
new String("中文".getBytes("GBK"),"iso-8859-1"); 
先通过GBK等支持中文的编码方式分解为byte数组,再做为iso-8859-1字符组成字符串,就避免了被替换为Char(63)。 

========================================================================= 

示例程序 

public static void main(String[] args) 
{  
String str = "中国";  
printBytes("中国的UNICODE编码:", str.getBytes(Charset.forName("unicode")));  
printBytes("中国的GBK编码:", str.getBytes(Charset.forName("GBK")));  
printBytes("中国的UTF-8编码:", str.getBytes(Charset.forName("UTF-8")));  
}  

public static void printBytes(String title, byte[] data) 
{  
System.out.println(title);  
for (byte b : data) 
{  
System.out.print("0x" + toHexString(b) + " ");  
}  
System.out.println();     
}  

public static String toHexString(byte value) 
{  
String tmp = Integer.toHexString(value & 0xFF);  
if (tmp.length() == 1) 
{  
tmp = "0" + tmp;  
}  

return tmp.toUpperCase();  
}  

上例的输出结果为: 

中国的UNICODE编码: 
0xFE 0xFF 0x4E 0x2D 0x56 0xFD 
中国的GBK编码: 
0xD6 0xD0 0xB9 0xFA 
中国的UTF-8编码: 
0xE4 0xB8 0xAD 0xE5 0x9B 0xBD 





赞(0)    操作        顶端 
duff
注册用户
等级:少校
经验:968
发帖:0
精华:0
注册:2015-7-22
状态:离线
发送短消息息给duff 加好友    发送短消息息给duff 发消息
发表于: IP:您无权察看 2016-4-20 7:37:20 | [全部帖] [楼主帖] 2  楼



赞(0)    操作        顶端 
山友木樨
注册用户
等级:少校
经验:1040
发帖:9
精华:0
注册:2015-6-1
状态:离线
发送短消息息给山友木樨 加好友    发送短消息息给山友木樨 发消息
发表于: IP:您无权察看 2016-4-20 9:21:33 | [全部帖] [楼主帖] 3  楼

顶一个



赞(0)    操作        顶端 
总帖数
3
每页帖数
101/1页1
返回列表
发新帖子
请输入验证码: 点击刷新验证码
您需要登录后才可以回帖 登录 | 注册
技术讨论