三、符号的表达方式 要让计算机处理各种符号,如,汉字、英文字母、标点符号、数字、数学符 号、物理符号等,也必须对这些符号进行编码。人类使用的符号非常多,只 能选岀常用部分字符进行编码,供计算机处理,被选出的供计算机处理的符 号称为字符集。 1、 ASCII码 英文字符集是美国信息交流标准代码,简称 ASCII码( American Standard Code for Information Interchange) ASCI码采用7位二进制编码,共计128个字符,包含: 26个大写英文字符,A~Z。(A=41H,B=42H, 26个小写英文字符,a~z。(a=61H,b=62H,…) 10个数字,O~9。(0=30H,1=31H,…,9=39H) 其他字符。(空格键SP=20H,ESC键=1AH,回车CR=0DH,换行 LF=0AH)
三、 符号的表达方式 要让计算机处理各种符号,如,汉字、英文字母、标点符号、数字、数学符 号、物理符号等,也必须对这些符号进行编码。人类使用的符号非常多,只 能选出常用部分字符进行编码,供计算机处理,被选出的供计算机处理的符 号称为字符集。 1、 ASCII码 英文字符集是美国信息交流标准代码,简称ASCII码(American Standard Code for Information Interchange)。 ASCII码采用7位二进制编码,共计128个字符,包含: 26个大写英文字符,A~Z。(A=41H,B=42H,….) 26个小写英文字符,a~z。(a=61H,b=62H,….) 10个数字,0~9。(0=30H, 1=31H,….,9=39H) 其他字符。 (空格键SP=20H, ESC键=1AH, 回车CR=0DH, 换行 LF=0AH)
2、汉字编码 (1)GB2312-80。 简体中文国标字库(1981年订,中国大陆)。7445个字符,其中汉字6773个,包 括一级汉字3755个,二级汉字3008个。采用2字节(16位二进制)编码。 区位码:国标GB2312规定,所有的国标汉字与符号组成一个94×94的矩阵。在此方 阵中,每一行称为一个区",每一列称为一个"位",因此,这个方阵实际上组成了一个有 94个区(区号分别为01到94)、每个区内有94个位(位号分别为01到94)的汉字字符 集。一个汉字所在的区号和位号简单地组合在一起就构成了该汉字的"区位码"。在汉 字的区位码中,高两位为区号,低两位为位号。由此可见区位码与汉字或符号之间是一 一对应的。 内码:汉字的內码是指在计算机中表示汉字的编码。机内码与区位码稍有区别。为什 么不直接用区位码作为计算机内的编码呢?这是因为汉字的区码和位码的范围都在1 到94内,如果直接用区位码作机内码,就会与基本ASCI码冲突。汉字的内码通常与 所使用的计算机系统有关。目前,对于国内大多数的计算机系统,一个汉字的内码占两 个字节,分别称为高位字节与低位字节,且这两位字节与区位码的关系如下:内码高位 =区码+AOH(H表示十六进制)内码低位=位码+AOH例如,汉字"啊"的区位码为 "1601"区码和位码分别用十六进制表示即为"1001H",则它的内码为"BOA1H"。其 中BOH为内码的高位字节,A1H为内码的低位字节
2、 汉字编码 (1) GB2312-80。 简体中文国标字库(1981年订,中国大陆)。7445个字符,其中汉字6773个,包 括一级汉字3755个,二级汉字3008个。采用2字节(16位二进制)编码。 区位码:国标GB2312规定,所有的国标汉字与符号组成一个94×94的矩阵。在此方 阵中,每一行称为一个"区",每一列称为一个"位",因此,这个方阵实际上组成了一个有 94个区(区号分别为0 1到94)、每个区内有94个位(位号分别为01到94)的汉字字符 集。一个汉字所在的区号和位号简单地组合在一起就构成了该汉字的"区位码"。在汉 字的区位码中,高两位为区号,低两位为位号。由此可见,区位码与汉字或符号之间是一 一对应的。 内码:汉字的内码是指在计算机中表示汉字的编码。机内码与区位码稍有区别。为什 么不直接用区位码作为计算机内的编码呢? 这是因为汉字的区码和位码的范围都在1 到94内, 如果直接用区位码作机内码, 就会与基本ASCII码冲突。 汉字的内码通常与 所使用的计算机系统有关。目前,对于国内大多数的计算机系统,一个汉字的内码占两 个字节,分别称为高位字节与低位字节,且这两位字节与区位码的关系如下: 内码高位 =区码+A0H(H表示十六进制) 内码低位=位码+A0H 例如,汉字"啊"的区位码为 "1601",区码和位码分别用十六进制表示即为"1001H",则它的内码为"B0A1H"。其 中B0H为内码的高位字节,A1H为内码的低位字节
(2)BIG5码。 香港、台湾地区使用的汉字编码。13053个汉字。 (3)HZ码。 便于 Internet传输的7位汉字编码字符集。(某些 Internet主机不支持8位 码的传输)。 (4)ISO10646(1992年)。国际标准大字符集汉字系统(CJK:中、 日、韩统一汉字编码字符集),20902个汉字。通用多8位编码(UCS) 对应的中国国家标准是GB-13000,其内码标准为GBK国家汉字扩充内码 规范(1996年)。 注意:某些软件可能只能识别一种或几种汉字编码,当遇到不能识别的汉 字编码时,显示出乱字符(称"乱码"),此时,应使用内码转换软件,如" 两岸通"、"南极星"等
(2) BIG5码。 香港、台湾地区使用的汉字编码。13053个汉字。 (3) HZ码。 便于Internet传输的7位汉字编码字符集。(某些Internet主机不支持8位 码的传输)。 (4) ISO10646(1992年)。国际标准大字符集汉字系统(CJK:中、 日、韩统一汉字编码字符集),20902个汉字。通用多8位编码(UCS)。 对应的中国国家标准是GB-13000,其内码标准为GBK国家汉字扩充内码 规范(1996年)。 注意:某些软件可能只能识别一种或几种汉字编码,当遇到不能识别的汉 字编码时,显示出乱字符(称"乱码"),此时,应使用内码转换软件,如" 两岸通" 、 "南极星"等