三、守符的表示 1.西文字符 25=(00100101) BCD , 每一个字符有一个唯一的编码。 251 (1)ACSIIAL(American Standard Code for Information Interchange) 常用字符有128个,编码从O到127 空格 20H 32 0 30H~39H48~57 A~Z94H~5AH65~90 4、27?名u a 6IHEZAH 97~122 控制字符:0~32,127;普通字符:94个。 每个字符占一个字节,用7位,最高位不用,一般为0。 例如:“a3字符的编码为10000应的十进制数是97 (2) EBCDIC码 Extended Binary Coded Decimal Interchange Code 扩展的二一十进制交换码
36 三、字符的表示 1. 西文字符 每一个字符有一个唯一的编码。 (1) ACSII码(American Standard Code for Information Interchange) 常用字符有128个,编码从0到127。 空格 20H 32 ‘0’~‘9’ 30H~39H 48~57 ‘A’~‘Z’ 41H~5AH 65~90 ‘a’~‘z’ 61H~7AH 97~122 控制字符:0~32,127;普通字符:94个。 每个字符占一个字节,用7位,最高位不用,一般为0。 例如:“a”字符的编码为1100001,对应的十进制数是97; (2) EBCDIC码 Extended Binary Coded Decimal Interchange Code 扩展的二-十进制交换码。 25=(0010 0101) BCD 2 5
2.汉字编码 输入码 国标码 机内码 地址码 字形码 汉字输入 」汉字输出 (1)汉字输入码 音码类全拼、双拼、微软拼音、自然码和智能ABC等 形码类五笔字型法、郑码输入法等 (2)汉字内码 汉字在设备或信息处理系统内部最基本的表达形式 国标码(GB232-80及其机内码1 4、27?名u 级汉字:375个:级汉字:308个 汉字分区,每个区94个汉字。 区号区中位置 mbyp每个汉字占两个字节 机内码:最高位为1 汉字 国标码 汉字内码 中86800101011001010000 (110101011010000)g 华594200110100101010)(01101101010)B37
37 2. 汉字编码 (1) 汉字输入码 音码类 全拼、双拼、微软拼音、自然码和智能ABC等 形码类 五笔字型法、郑码输入法等 。 (2) 汉字内码 汉字在设备或信息处理系统内部最基本的表达形式。 • 国标码(GB2312-80)及其机内码 一级汉字:3755个;二级汉字:3008个。 汉字分区,每个区94个汉字。 每个汉字占两个字节。 区号 区中位置 汉字 国标码 汉字内码 中 8680(01010110 01010000)B (11010110 11010000)B 华 5942(00111011 00101010)B (10111011 10101010)B • 机内码:最高位为1。 输入码 国标码 机内码 地址码 字形码 汉字输出 汉字输入
(3)汉字字形码 m汉字字形码通常有两种表示方式:点阵和矢量表示方式。 点阵:汉字字形点阵的代码一 910112131415十六进制码 16×16、24×24、32×32、48×48。 矢量:存储的是描述汉字字形的轮廓特征 ih. 7lnioerxilyp 13 018 点阵和矢量方式区别: 2|0oc □●。lcoo7 前者特点编码、存储方式简单、无需转换直接输出,但字形放大后 生的效果差,而且同一种字体不同的点阵需要不同的字库;矢量方式特 点正好与前者相反。 (4汉字地址码 汉字地址码:每个汉字字形码在汉字字库中的相对位移地址 地址码和机内码要有简明的对应转换关系。 38
38 (3) 汉字字形码 汉字字形码通常有两种表示方式:点阵和矢量表示方式。 点阵:汉字字形点阵的代码 16×16、24×24、32×32、48×48。 矢量:存储的是描述汉字字形的轮廓特征。 点阵和矢量方式区别: 前者特点 编码、存储方式简单、无需转换直接输出,但字形放大后 产生的效果差,而且同一种字体不同的点阵需要不同的字库;矢量方式特 点正好与前者相反。 (4)汉字地址码 汉字地址码:每个汉字字形码在汉字字库中的相对位移地址。 地址码和机内码要有简明的对应转换关系
(5)其他汉字编码 UCS码、 Unicode码、GBK码、BlG5码等 UCS码 国际标准:通用多八位编码字符集UCS( Universal Code set) 世界各种文字的统一的编码方案,一个字符占4个字节。分为 组 平面行字位 「最高位为0 基本多文种平面(BMP):0组0平面,包含字母、音节及表意文字等 例如:A2 41H(ASCID 00000041HUCS) 大 3473H(GB2312)0000927H(UCS 39
39 (5)其他汉字编码 UCS码、Unicode码、GBK码、BIG5码等 • UCS码 国际标准:通用多八位编码字符集UCS(Universal Code Set) 世界各种文字的统一的编码方案,一个字符占4个字节。分为: 基本多文种平面(BMP):0组0平面,包含字母、音节及表意文字等。 组 平面 行 字位 最高位为0 例如:‘A’ 41H(ASCII) 00000041H(UCS) ‘大’ 3473H(GB2312) 00005927H(UCS)
Unicode码 另一国际标准:采用双字节编码统一地表示世界上的主要文字。 其字符集内容与UCS的BMP相同。 GBK码 GBK等同于UCS的新的中文编码扩展国家标准,2字节表示一个汉字。 第一字节从81F,最高位为1 第二字节从4 OH- FEH,第二字节的最高位不一定是1。 ·BIG5编码 台湾、香港地区普遍使用的一种繁体汉字的编码标准,包括440个符 号,一级汉字5401个、二级汉字7652个,共计13060个汉字。 sily
40 • Unicode码 另一国际标准:采用双字节编码统一地表示世界上的主要文字。 其字符集内容与UCS的BMP相同。 • GBK码 GBK等同于UCS的新的中文编码扩展国家标准,2字节表示一个汉字。 第一字节从81H~FEH,最高位为1; 第二字节从40H~FEH,第二字节的最高位不一定是1。 • BIG5编码 台湾、香港地区普遍使用的一种繁体汉字的编码标准,包括440个符 号,一级汉字5 401个、二级汉字7 652个,共计13 060个汉字