第5章单词与词组的处理与分析 5.2自动分词 汉语自动分词是我国计算机科学研究的重要课题之一,它是自然语言理 解、自动翻译、电子词典等信息处理的基础性工件。所谓分词,就是要把 句话,一篇文章甚至一部著作中的词语逐个逐个的切分出来。汉语不象拼音 文字那样有自然切分标志,而且词语长短不一,词语的定义也不统一,语言 学中对词的定义多种多样,造成切分的多样性,这也自然给自动分词的同一性 带来很大困难。汉语中词语本身的词素、词、词组无明显的区分界限,没有 一个统一的标准许多东西都是凭经验和语感来划分。这项工作如果全部交 给计算机来作,就没有那么简单了。 尽管计算机自动分词在诸多方面存在着许多困难,但是由于自动分词是 许多应用工作的第一步(也是自动翻译的第一步,这就促进了研究的持续不断, 提出了不少方法,它们各有优缺点,也可能是基于特定环境的
第 5 章 单词与词组的处理与分析 5 . 2 自动分词 汉语自动分词是我国计算机科学研究的重要课题之一, 它是自然语言理 解、自动翻译、电子词典等信息处理的基础性工件。所谓分词, 就是要把一 句话, 一篇文章甚至一部著作中的词语逐个逐个的切分出来。汉语不象拼音 文字那样有自然切分标志, 而且词语长短不一, 词语的定义也不统一, 语言 学中对词的定义多种多样, 造成切分的多样性, 这也自然给自动分词的同一性 带来很大困难。汉语中词语本身的词素、词、词组无明显的区分界限, 没有 一个统一的标准, 许多东西都是凭经验和语感来划分。.这项工作如果全部交 给计算机来作, 就没有那么简单了。 尽管计算机自动分词在诸多方面存在着许多困难, 但是由于自动分词是 许多应用工作的第一步(也是自动翻译的第一步), 这就促进了研究的持续不断, 提出了不少方法, 它们各有优缺点, 也可能是基于特定环境的
第5章单词与词组的处理与分析 5.2.1典型的自动分词方法 5.2.1.1正向最大匹配法和逆向最大匹配法 正向最大匹配法是最早提出的自动分词方法,它的基本思想是先取一句话 的前六个字查字库,若不是一个词,则删除六个字的最后一个字再查,这样一直 查下去,至找到一个词为止。句子剩余部分重复此工作,直到把所有的词都分 出为止。逆向最大匹配法也一样,每次匹配不成功时去掉汉字串中最前面的一 个字。 两法思路清晰,易于计算机实现,但由于试图用相对稳定的词表来代替灵 活多变,充满活力的词汇,把词库搜索作为判词的唯一标准,因而具有很大的 主观性和局限性。另外,这两种方法实际上否认了语言中的歧义现象 在实际应用中,方法有所变化。如下述算法我们初始不是取六个字而是取长 度最短词的个数
第 5 章 单词与词组的处理与分析 5. 2 . 1 典型的自动分词方法 5 . 2 . 1 . 1 正向最大匹配法和逆向最大匹配法 正向最大匹配法是最早提出的自动分词方法, 它的基本思想是先取一句话 的前六个字查字库, 若不是一个词, 则删除六个字的最后一个字再查, 这样一直 查下去, 至找到一个词为止。句子剩余部分重复此工作, 直到把所有的词都分 出为止。逆向最大匹配法也一样, 每次匹配不成功时去掉汉字串中最前面的一 个字。 两法思路清晰, 易于计算机实现, 但由于试图用相对稳定的词表来代替灵 活多变, 充满活力的词汇, 把词库搜索作为判词的唯一标准, 因而具有很大的 主观性和局限性。另外, 这两种方法实际上否认了语言中的歧义现象。 在实际应用中, 方法有所变化。如下述算法我们初始不是取六个字而是取长 度最短词的个数
第5章单词与词组的处理与分析 A1:一条汉语语句分划成单一字符X1,X2,,M。 A2:决定语词中可能出现的词最大字符长度Lmax,最小字符 长度Lmin A3:逆向匹配取语句最后的mm个字查关键词库,若查不到 加入一个字重复此工作直至字符数为Lmax为止。 A4:若实施A3查不到词去掉语句中最后一个字再实施A3直 至整个语句只剩下Lmin为止
第 5 章 单词与词组的处理与分析 A1: 一条汉语语句分划成单一字符X1,X2,…,XM。 A2: 决定语词中可能出现的词最大字符长度Lmax, 最小字符 长度 Lmin。 A3: 逆向匹配,取语句最后的Lmin个字查关键词库, 若查不到, 加入一个字重复此工作,直至字符数为Lmax为止。 A4: 若实施A3查不到词,去掉语句中最后一个字,再实施A3,直 至整个语句只剩下L min为止
第5章单词与词组的处理与分析 5.2.1.2高频优选法 这一方法基于词频的统计、字与字之间的构成结合律和歧 义切分等现象的分析而提出来的。根据《现代汉语频率词典》, 对于报刊和政论性文章,不同音节词的词频构成为:双音节词大 约有74%;三音节词大约有3.7%;单音节词大约有7.2%;而 五以上字音节词则大约只有0.4%左右。汉语是一字一音节,因 而也可以说,两字组词的频率比其它所有方式的概率加起来都还 要多。自动分词时首先考虑两字词,然后再考虑单字词,如此频 率低的词语最后才考虑。这种方法提高了分词效率,但对歧义问 题也无能为力,出错率并不低
第 5 章 单词与词组的处理与分析 5 . 2 . 1 . 2 高频优选法 这一方法基于词频的统计、字与字之间的构成结合律和歧 义切分等现象的分析而提出来的。根据《现代汉语频率词典》, 对于报刊和政论性文章,不同音节词的词频构成为:双音节词大 约有74%;三音节词大约有3 . 7%;单音节词大约有17 . 2%;而 五以上字音节词则大约只有0 . 4%左右。汉语是一字一音节,因 而也可以说,两字组词的频率比其它所有方式的概率加起来都还 要多。自动分词时首先考虑两字词,然后再考虑单字词,如此频 率低的词语最后才考虑。这种方法提高了分词效率,但对歧义问 题也无能为力,出错率并不低
第5章单词与词组的处理与分析 5.2.1.3其它方法 设立切分标志 切分标志有自然和非自然之分。自然切分标志是指文章的非 文字符号,例如标点符号等等;非自然切分标志是利用词缀和不 构成词的词(单字词等等)。设立切分标志方法的基本思想就是 通过建立非自然切分标志的一张表存储于计算机中用程序来识别 所有的非自然标志。这样一来,一个句子链将被化为若干短链, 然后再用其它切分方法进行各种细加工,这种多方法合作的综合 应用,途径增多,可以大大提高效率
第 5 章 单词与词组的处理与分析 5 . 2 . 1 . 3 其它方法 设立切分标志 切分标志有自然和非自然之分。自然切分标志是指文章的非 文字符号,例如标点符号等等;非自然切分标志是利用词缀和不 构成词的词(单字词等等)。设立切分标志方法的基本思想就是 通过建立非自然切分标志的一张表存储于计算机中用程序来识别 所有的非自然标志。这样一来,一个句子链将被化为若干短链, 然后再用其它切分方法进行各种细加工,这种多方法合作的综合 应用,途径增多,可以大大提高效率