1.2.3IS0/IEC8859举例 lso∥Ec8859-1 0x128x5 so/Ec88597 0 x1 x2 x3 x4 x5 X6 x7 x8 x9 XA XB XC XD XE XF 守集显示。 3x0123452×sp #%& 4x@ ABCDE3x0123456789 5x P S TU4XQABCDEFGHIJKLMNO a QRSTUVWXYZ 7x ox abe kIm no xp tuvwxyz(1- 语字母换走,加入土耳其语字母。 Ax NBSPi 来代替Lain4。 ±2| Ax NBSP:E∈415 集演化而来 CxAAAAA H1,o左Yn DXDNOOOoCxTABTAEZHOIKAMNEO Exaaaaaal Dx n Pz1 Roxy d:n苏兰语字母和大写法语重音字母,以及 6i66 a 令|SOEC8 Fx COSaTu甲xlro.亚语使用,并加入欧元符号。 苏州大学:中文信息处理
苏州大学:中文信息处理 1.2.3 ISO/IEC 8859 举例 ❖ ISO/IEC 8859-1 (Latin-1) - 西欧语言 ❖ ISO/IEC 8859-2 (Latin-2) - 中欧语言 ❖ ISO/IEC 8859-3 (Latin-3) - 南欧语言。世界语也可用此字符集显示。 ❖ ISO/IEC 8859-4 (Latin-4) - 北欧语言 ❖ ISO/IEC 8859-5 (Cyrillic) - 斯拉夫语言 ❖ ISO/IEC 8859-6 (Arabic) - 阿拉伯语 ❖ ISO/IEC 8859-7 (Greek) - 希腊语 ❖ ISO/IEC 8859-8 (Hebrew) - 希伯来语(视觉顺序) ❖ ISO 8859-8-I -希伯来语(逻辑顺序) ❖ ISO/IEC 8859-9(Latin-5 或 Turkish)- 它把Latin-1的冰岛语字母换走,加入土耳其语字母。 ❖ ISO/IEC 8859-10(Latin-6 或 Nordic)- 北日耳曼语支,用来代替Latin-4。 ❖ ISO/IEC 8859-11 (Thai) - 泰语,从泰国的TIS620 标准字集演化而来。 ❖ ISO/IEC 8859-13(Latin-7 或 Baltic Rim)- 波罗的语族 ❖ ISO/IEC 8859-14(Latin-8 或 Celtic)- 凯尔特语族 ❖ ISO/IEC 8859-15 (Latin-9) - 西欧语言,加入Latin-1欠缺的芬兰语字母和大写法语重音字母,以及 欧元(€)符号。 ❖ ISO/IEC 8859-16 (Latin-10) - 东南欧语言。主要供罗马尼亚语使用,并加入欧元符号
1.3 CJK-Roman 令ASC川码一样,7位二进制数编码。 令收录字符基本与ASCH码一样,个别字符作了调整。 符合本国使用需要 s货币单位($(美国)--¥(中国)) 中、日、韩字符编码标准: sGB- Roman(中国ASC码字符集ASC字符编码标准,代号为 GB1988-89); CNS- Roman(台湾ASC1吗标准,代号为CNS5205-1989); JS- Roman(日本ASC码标准,代号为JSⅩ0201-1997) sKS- Roman(韩国ASC川码标准,代号为KSⅩ1003:1993)。 苏州大学:中文信息处理
苏州大学:中文信息处理 1.3 CJK-Roman ❖ ASCII码一样,7位二进制数编码。 ❖ 收录字符基本与ASCII码一样,个别字符作了调整。 ❖ 符合本国使用需要 货币单位 ($(美国)----- ¥(中国)) ❖ 中、日、韩字符编码标准: GB-Roman(中国ASCII码字符集ASCII字符编码标准,代号为 GB 1988-89); CNS-Roman(台湾ASCII码标准,代号为CNS 5205-1989); JIS-Roman(日本ASCII码标准,代号为JIS X 0201-1997); KS-Roman(韩国ASCII码标准,代号为KS X 1003:1993)
CJK- Roman一特殊字符 ASC|码 GB-Roman CNS JIS-RomanKS-Roman 码元值 Roman 0x24 (美圆) ¥(人民币) 0x5C V反斜杠)V反斜杠)V反斜杠)¥(日圆)w(韩团) Ox7E ~(波浪线)一(顶线) (顶线) (顶线) (顶线) 苏州大学:中文信息处理
苏州大学:中文信息处理 CJK-Roman-特殊字符 码元值 ASCII码 GB-Roman CNSRoman JIS-Roman KS-Roman 0x24 $(美圆) ¥(人民币)$ $ $ 0x5C \(反斜杠) \(反斜杠) \(反斜杠) ¥(日圆) ₩(韩圆) 0x7E ~(波浪线) —(顶线) —(顶线) —(顶线) —(顶线)
内容 ASC码及其扩展 令中文信息在计算机内的表示 ☆|SOEC2022 汉字编码字符集 今GB2312-80 B|G-5 Unicode和|SO10646 GBK和GB18030 苏州大学:中文信息处理
苏州大学:中文信息处理 内容 ❖ ASCII码及其扩展 ❖ 中文信息在计算机内的表示 ❖ ISO/IEC 2022 ❖ 汉字编码字符集 ❖ GB2312-80 ❖ BIG-5 ❖ Unicode和ISO10646 ❖ GBK和GB18030
2.1概述 最早在计算机内表示中文信息: BM、富士通、日立等计算机生产厂家。 s采用的编码形式互不兼容 令为了通用性,SO、EE以及各个使用汉字的国 家和地区,都制定了各种各样的汉字编码字符集。 汉字代码:汉字在计算机内表示 令通过扩充ASC码编码长度实现 sASC川码(扩展)最多256个码位 汉字数量成千上万 s如何放? 苏州大学:中文信息处理
苏州大学:中文信息处理 2.1 概述 ❖ 最早在计算机内表示中文信息: IBM、富士通、日立等计算机生产厂家。 采用的编码形式互不兼容。 ❖ 为了通用性,ISO、IEEE以及各个使用汉字的国 家和地区,都制定了各种各样的汉字编码字符集。 ❖ 汉字代码:汉字在计算机内表示。 ❖ 通过扩充ASCII码编码长度实现 ASCII码(扩展)最多256个码位 汉字数量成千上万 如何放?