10分钟搞清字符集和字符编码--如何识别乱码的本来想要表达的文字_MySQL, Oracle及数据库讨论区_Weblogic技术|Tuxedo技术|中间件技术|Oracle论坛|JAVA论坛|Linux/Unix技术|hadoop论坛

总帖数

每页帖数

1/1页

返回列表

查看: 2848 | 回复: 0

主题： 10分钟搞清字符集和字符编码--如何识别乱码的本来想要表达的文字

i1314lovejoy

注册用户

等级：少校
经验：1234
发帖：69
精华：0
注册：2015-7-14
状态：离线
发送短消息息给i1314lovejoy

加好友发送短消息息给i1314lovejoy

发消息

发表于： 2015-8-27 9:23:46 | [全部帖] [楼主帖] 楼主

要从乱码字符中反解出原来的正确文字需要对各个字符集编码规则有较为深刻的掌握。但是原理很简单，这里用最常见的UTF-8被错误用GBK展示时的乱码为例，来说明具体反解和识别过程。

假设我们在页面上看到寰堝睂这样的乱码，而又得知我们的浏览器当前使用GBK编码。那么第一步我们就能先通过GBK把乱码编码成二进制表达式。当然查表编码效率很低，我们也可以用以下SQL语句直接通过MySQL客户端来做编码工作：

现在我们得到了解码后的二进制字符串E5BE88E5B18C。然后我们将它按字节拆开。

Byte 1	Byte 2	Byte 3	Byte 4	Byte 5	Byte 6
E5	BE	88	E5	B1	8C

然后套用之前UTF-8编码介绍章节中总结出的规律，就不难发现这6个字节的数据符合UTF-8编码规则。如果整个数据流都符合这个规则的话，我们就能大胆假设乱码之前的编码字符集是UTF-8

然后我们就能拿着E5BE88E5B18C用UTF-8解码，查看乱码前的文字了。当然我们可以不查表直接通过SQL获得结果：

操作引用/回复

总帖数

每页帖数

1/1页

返回列表

Weblogic中间件技术论坛