2.1.1汉字代码 汉字代码是真实世界的汉字信息在计算机 系统中的最基本表示。 根据在计算机内部使用的目的和存储的方 式,汉字代码有各种不同的形式和称谓: s交换码 机内码 输入码 s字形码 苏州大学:中文信息处理
苏州大学:中文信息处理 2.1.1 汉字代码 ❖ 汉字代码是真实世界的汉字信息在计算机 系统中的最基本表示。 ❖ 根据在计算机内部使用的目的和存储的方 式,汉字代码有各种不同的形式和称谓: 交换码 机内码 输入码 字形码 ……
2.1.2汉字交换码 用于信息交换的汉字代码。 双字节、3字节和4字节 一般不能直接用于信息处理 s例如,在GB2312中,“码”字的交换码为十六进制的 42HG6BH。无法与ASC码的“Bκ相区别。 在实际使用中,交换码必须转换为机内码。 例外: s|SO/EC10646和 Unicode中,交换码与机内码一致 6 ascII1也采用双字节表示 苏州大学:中文信息处理
苏州大学:中文信息处理 2.1.2 汉字交换码 ❖ 用于信息交换的汉字代码。 ❖ 双字节、3字节和4字节。 ❖ 一般不能直接用于信息处理 例如,在GB2312中,“码”字的交换码为十六进制的 42H/6BH。无法与ASCII码的“Bk”相区别。 ❖ 在实际使用中,交换码必须转换为机内码。 ❖ 例外: ISO/IEC 10646和Unicode中,交换码与机内码一致 ASCII码也采用双字节表示
2.1.2汉字机内码 用于信息处理的汉字代码,也称: 汉字处理码 处理码 机内码 内码 ◆汉字内码长度24字节,通常是双字节。 单字节操作系统内核,汉字代码为了与ASC‖码相 区分,往往把内码的两字节(至少把第一个字节) 的最高位(Bt7)置为1。 苏州大学:中文信息处理
苏州大学:中文信息处理 2.1.2 汉字机内码 ❖ 用于信息处理的汉字代码,也称: ❖ 汉字处理码 ❖ 处理码 ❖ 机内码 ❖ 内码 ❖ 汉字内码长度2-4字节,通常是双字节。 ❖ 单字节操作系统内核,汉字代码为了与ASCII码相 区分,往往把内码的两字节(至少把第一个字节) 的最高位(Bit 7)置为1
2.1.3相互关系 今GB2312 中 s5650(交换码)0 0 sD6D0(机内码)1 ☆ Unicode s4E2DH(交换码) s4E2DH(机内码) 苏州大学:中文信息处理
苏州大学:中文信息处理 2.1.3 相互关系 ❖ GB2312 中 56 50 (交换码) D6 D0 (机内码) ❖ Unicode 中 4E2DH (交换码) 4E2DH (机内码) 0 1 0 1 0 1 1 0 0 1 0 1 0 0 0 0 1 1 0 1 0 1 1 0 1 1 0 1 0 0 0 0
内容 ASC码及其扩展 中文信息在计算机内的表示 令|SOEC2022 汉字编码字符集 今GB2312-80 令BG5 Unicode和|SO10646 画GBK和GB18030 苏州大学:中文信息处理
苏州大学:中文信息处理 内容 ❖ ASCII码及其扩展 ❖ 中文信息在计算机内的表示 ❖ ISO/IEC 2022 ❖ 汉字编码字符集 ❖ GB2312-80 ❖ BIG-5 ❖ Unicode和ISO10646 ❖ GBK和GB18030