ASCII 码(仅适用全英文字符):

编码规则:总共0~127共128个字符编码:占用一个字节的后面7位,最前面的一位统一规定为0

0~31及127(共33个)是控制字符或通信专用字符(不可显示字符):

  • 控制符:LF(换行)、CR(回车)、FF(换页)、DEL(删除)、BS(退格)、BEL(振铃)等;
  • 通信专用字符:SOH(文头)、EOT(文尾)、ACK(确认)等;
  • ASCII值为 8、9、10 和 13 分别转换为退格、制表、换行和回车字符;

32~126(共95个)是字符,其中

  • 48~57为0到9十个阿拉伯数字;
  • 65~90为26个大写英文字母;
  • 97~122号为26个小写英文字母
  • 其余为一些标点符号、运算符号,例如:32是空格

 

ISO-8859-1:

编码规则:1个字节,包括255个字符

能与ASCII兼容(第 0 ~ 127 和ASCII一致)

 

GBK:

2个字节表示,共 21886 个字符,囊括简体中文(GB 2312),繁体中文(BIG5)和其它字符

 

GB2312(简体中文字符):

编码规则:所有字符用2个字节表示,每个字节只采用后7位,最高位是1

英文字符里可打印的字符范围是33 ~ 126,由于最高位是1,所以+128后,每个字节的最大区间是161 ~ 254(94个) 

即:2个字节最大能表示 94 X 94 个字符

第一个字节: 0xB0 ~ 0xF7(对应十进制为176-247)-----72个分区

  • 01-09区为符号、数字区
  • 16-87区为汉字区(0xb0-0xf7)----72个
  • 10-15区、88-94区是有待进一步标准化的空白区

第二个字节: 0xA1~ 0xFE(对应十进制为161-254)-----94位

总共 7445个中文字符

  • 6763个(本来是6768(72 分区 X 94 位),有5个编码为空白) 简体汉字
  • 682 个标准中文符号

具体:

    区号      位    字符类别

  • 01      94    一般符号  
  • 02      72    顺序号码  
  • 03      94    拉丁字母(ASCII码中所有可见字符)  
  • 04      83    日文假名  
  • 05      86    Katakana  
  • 06      48    希腊字母  
  • 07      66    俄文字母  
  • 08      63    汉语拼音符号  
  • 09      76    图形符号  
  •  10-15            备用区  
  •  16-55    3755    一级汉字,以拼音为序  
  •  56-87    3008    二级汉字,以笔划为序  
  •  88-94            备用区   

备注:具体GB2312码表  http://www.cnblogs.com/thinksasa/p/3956458.html

Unicode(简称UCS,能表示全世界所有的符号):

根据 存储字符需要多少个字节 的编码方式,其实现方式有UCS-2(默认,2个字节),UTF-8(变长,使用1~4个字节),UTF-16(字符用两个字节或四个字节表示),UTF-32(字符用四个字节表示)等

在windows的记事本里:

Unicode little endian(Unicode默认格式):属于UCS-2,2个字节,高位在后,低位在前

Unicode big endian:属于UCS-2,2个字节,高位在前,低位在后

 

UTF-8(Unicode的一种实现):

编码规则:1 ~ 4 个字节

  • 对于单字节的符号,字节的第一位设为0,后面7位为这个符号的 Unicode 码。因此对于英语字母,UTF-8 编码和 ASCII 码是相同的
  • 对于n字节的符号(n > 1),第一个字节的前n位都设为1,第n + 1位设为0,后面字节的前两位一律设为10。剩下的没有提及的二进制位,全部为这个符号的 Unicode 码

即:

\"\"

1字节:0X00 ~ 0X7F  最高7位,

2字节:0X80 ~ 0X07 0XFF  最高11位,

3字节:0X08 0X00 ~ 0XFF 0XFF  最高16位

4字节:0X01 0X00 0X00 ~ 0X3F 0XFF 0XFF最高21位

 

 

文件头部字节(默认不显示,windows文本编辑器通过头部字节判断是哪种编码方式):

Unicode little endian :FF FE

Unicode big endian:FE FF

UTF-8:EF BB BF

注:在windows里保存为 ANSI编码格式

ANSI:英文文件是ASCII编码,对于简体中文文件是GB2312编码,繁体中文版会采用 Big5 码

收藏 打印