MyException - 我的异常网
当前位置:我的异常网» 互联网 » 技术文章 | 电脑字符编码详解与汇总

技术文章 | 电脑字符编码详解与汇总

www.MyException.Cn  网友分享于:2013-08-09  浏览:0次
技术文章 | 计算机字符编码详解与汇总

 

前言

       计算机中的数据是以二进制格式表示的(其中8位二进制称为一个字节,比如00100101就是一个字节。通常为了更方便的表示二进制数据,也可以转换成16进制表示出来,比如00100101就可以用0x25来表示)。把所有字符转换成二进制数据的规则就是字符编码。字符编码的方式很多,本文对每一种字符编码做尽可能详细的讲解。

       本文中红色字体或加粗字体是需要重点理解或者记忆的。

1. ASCII

       ASCII是美国国家标准定制的一套基于拉丁字母的电脑编码系统,可表示数字、字母等字符符号。

       一个ASCII码在计算机中由一个字节存储,因此它最多可表示256个符号(一个字节为8位,28次方等于256),实事上,标准的ASCII编码时只用到了低7(最高位统一为0,或者为奇偶校验位),故ASCII码可表示的数据一共只有128个(27次方)。这128个字符中,其中95个为可显示字符(可打印字符,比如数字、字母、标点符号),还有33个如比如“换行”之类的控制字符(控制字符主要是用来操控已经处理过的文字)。

       对于ASCII具体哪个编码表示哪个符号,大家可以去查阅ASCII编码码表,并具最好能记住数字符、字母、回车换行等常用字符对应的ASCII编码,至少记住它的十进制编码。

常用字符对应的ASCII编码:

回车,ASCII13(十进制,下同)
换行,ASCII10
空格,ASCII32

数字09ASCII依次是4857

大写字母AZASCII依次是6590

小写字母azASCII依次是97122

大小规则总结:

1)数字0~9比字母要小。如"7"<"F"

2)数字0比数字9要小,并按09顺序递增。如"3"<"8"

3)字母A比字母Z要小,并按AZ顺序递增。如"A"<"Z"

4)同个字母的大写字母比小写字母要小。如"A"<"a"

 

2. iso8859-1

       iso8859-1通常叫做Latin-1它和ascii编码相似,都属于单字节编码,不同于ASCII的是,每个字节中的最高位也参与了编码(如果最高位为0,它的意义同ASCII)。正因为如此,iso8859-1最多能表示的字符范围是0-255,应用于英文系列。很明显,iso8859-1编码表示的字符范围很窄,无法编码中文字符。尽管如此,我们可以先把中文字符按照其它的编码方式编码成二进制数据,然后将编码后的结果再逐字节逐字节的用iso8859-1解码。也就是说,中文字符,它没有iso8859-1编码,但可以在用其它编码方式编码后的基础上再用iso8859-1编码来表示。举个栗子,虽然“中文”的“中”这个字不存在iso8859-1编码,可以先把它按gb2312编码方式编码为"d6d0"这个二字节的编码(16进制),然后将它拆开为两个字节("d6" "d0"),每个字节都可以看作是一个iso8859-1码。

iso8859-1编码在网络传输中的利用:

       iso8859-1由于是单字节编码,和计算机最基础的表示单位一致,因此在很多网络传输协议上,默认使用iso8859-1编码。网络上传输的数据都是二进制的,服务器从网络io流中收到这些数据后,默认把每个字节的数据按iso8859-1编码来处理。

       实事上,通过网络流传输中文时,客户端可以先把中文字符按照其它的编码方式(比如GBKUTF-8)转换成字节数据发送到服务器,服务器收到后在不指定编码方式的情况下默认会逐个逐个字节的按照iso8859-1编码方式来解码。

       写点题外话,对于java web程序员来说,有时候可以在servlet代码中看到类似于String str = new String(restr.getBytes("iso8859-1"),"utf-8");的转换代码,它的意思就是先把字符串restr通过restr.getBytes("iso8859-1")编码为字节数组(restr是请求参数被按照iso8859-1方式解码后的结果。如果请求参数为中文,因为iso8859-1编码无法直接解码中文,会导致解码后的restr为乱码),然后再按照utf-8的编码方式重新转换为一个新的字符串。

       当然,在java web中也可以用request.setCharacterEncoding("utf-8");方法,直接告诉服务器按照指定的utf-8方式编码。但值得一提的是在执行setCharacterEncoding()之前,不能执行任何getParameter(),而且,该指定只对POST方法有效,对GET方法无效。原因是在执行第一个getParameter()的时候,java将会按照编码分析所有的提交内容,而后续的getParameter()不再进行分析,所以setCharacterEncoding()无效。而对于GET方法提交表单是,提交的内容在URL中,一开始就已经按照编码分析所有的提交内容,setCharacterEncoding()自然就无效。多说一句,为了避免总是要写setCharacterEncoding("utf-8"),通常会在web.xml配置文件中配置一个最上层的字符编码过滤器。

 

3. GB2312

       无论是ascii码还是iso8859-1码,都无法直接编码中文,于是有了GB2312码。GB2312 是对 ASCII 的中文扩展,考虑到每个ASCII码只用了一个字节的底7位(高位为0),所以每个的ASCII码都小于或等于12701111111)。于是规定:一个小于127的字符的意义与原来相同(为了兼容ASCII码),但两个大于127的字符连在一起时,就表示一个汉字,而且这两个字节中,前面的一个字节(他称之为高字节)从0xA1用到0xF7,后面一个字节(低字节)从0xA10xFE,这样我们可以组合出大约7000多个简体汉字,这就是GB2312编码。

       这样,计算机在解码时,可以逐字节逐字节的判断它的是否小于127,如果小于或等于127,就按ASCII直接解码,如果大于127,就再往后多读取一个字节,如果后面那个字节也大于127,就把这两个字节连起来再通过查找GB2312编码码表来解码成一个中文字符。由此可见,GB2312码是一种变长的编码方式,英文占一个字节(而且小于127),中文占两个字节(都是大于127的字节),而且兼容ASCII

4. GBK

       GB2312码中用两个连续的大于127字节的数据来表示一个中文,它能表示的数量刚好也就满足简体中文编码的需要。后来发现,其实表示一个中文的两个字符中,可以不要求两个字节都大于127,只要第一个字符大于127,就可以作为解码中文的开始字符,第二个字符是否大于127都不会对计算机解码造成二义性错误(在逐字节解码的过程中,只要读到一个节字大于127,就直接往后再读一个字节,不判断第二个字节是否大于127就直接将这两个字节连到一起然后再通过编码码表来解码)。这样,在GB2312码的基础上,通过不限定第二个字节是否大于127的方式扩展出了GBK码。GBK包括了GB2312的所有内容,同时又增加了近20000个新的汉字(包括繁体字)和符号。

5. GB18030

       GBK码的基础上,再进一步扩展,增加了一些连续四个字节的汉字,于是也就有了

 

>>>展开全文

文章评论

一个程序员的时间管理
一个程序员的时间管理
如何成为一名黑客
如何成为一名黑客
程序猿的崛起——Growth Hacker
程序猿的崛起——Growth Hacker
总结2014中国互联网十大段子
总结2014中国互联网十大段子
 程序员的样子
程序员的样子
程序员应该关注的一些事儿
程序员应该关注的一些事儿
Java 与 .NET 的平台发展之争
Java 与 .NET 的平台发展之争
看13位CEO、创始人和高管如何提高工作效率
看13位CEO、创始人和高管如何提高工作效率
每天工作4小时的程序员
每天工作4小时的程序员
如何区分一个程序员是“老手“还是“新手“?
如何区分一个程序员是“老手“还是“新手“?
程序员最害怕的5件事 你中招了吗?
程序员最害怕的5件事 你中招了吗?
Google伦敦新总部 犹如星级庄园
Google伦敦新总部 犹如星级庄园
60个开发者不容错过的免费资源库
60个开发者不容错过的免费资源库
Java程序员必看电影
Java程序员必看电影
程序员周末都喜欢做什么?
程序员周末都喜欢做什么?
团队中“技术大拿”并非越多越好
团队中“技术大拿”并非越多越好
我跳槽是因为他们的显示器更大
我跳槽是因为他们的显示器更大
那些性感的让人尖叫的程序员
那些性感的让人尖叫的程序员
初级 vs 高级开发者 哪个性价比更高?
初级 vs 高级开发者 哪个性价比更高?
不懂技术不要对懂技术的人说这很容易实现
不懂技术不要对懂技术的人说这很容易实现
漫画:程序员的工作
漫画:程序员的工作
Web开发者需具备的8个好习惯
Web开发者需具备的8个好习惯
那些争议最大的编程观点
那些争议最大的编程观点
2013年美国开发者薪资调查报告
2013年美国开发者薪资调查报告
十大编程算法助程序员走上高手之路
十大编程算法助程序员走上高手之路
程序员和编码员之间的区别
程序员和编码员之间的区别
5款最佳正则表达式编辑调试器
5款最佳正则表达式编辑调试器
程序员必看的十大电影
程序员必看的十大电影
10个调试和排错的小建议
10个调试和排错的小建议
中美印日四国程序员比较
中美印日四国程序员比较
编程语言是女人
编程语言是女人
Web开发人员为什么越来越懒了?
Web开发人员为什么越来越懒了?
什么才是优秀的用户界面设计
什么才是优秀的用户界面设计
旅行,写作,编程
旅行,写作,编程
科技史上最臭名昭著的13大罪犯
科技史上最臭名昭著的13大罪犯
我的丈夫是个程序员
我的丈夫是个程序员
“懒”出效率是程序员的美德
“懒”出效率是程序员的美德
程序员的鄙视链
程序员的鄙视链
“肮脏的”IT工作排行榜
“肮脏的”IT工作排行榜
当下全球最炙手可热的八位少年创业者
当下全球最炙手可热的八位少年创业者
我是如何打败拖延症的
我是如何打败拖延症的
老程序员的下场
老程序员的下场
亲爱的项目经理,我恨你
亲爱的项目经理,我恨你
做程序猿的老婆应该注意的一些事情
做程序猿的老婆应该注意的一些事情
要嫁就嫁程序猿—钱多话少死的早
要嫁就嫁程序猿—钱多话少死的早
为啥Android手机总会越用越慢?
为啥Android手机总会越用越慢?
老美怎么看待阿里赴美上市
老美怎么看待阿里赴美上市
2013年中国软件开发者薪资调查报告
2013年中国软件开发者薪资调查报告
程序员的一天:一寸光阴一寸金
程序员的一天:一寸光阴一寸金
软件开发程序错误异常ExceptionCopyright © 2009-2015 MyException 版权所有