7.1.3未登陆词问题(3/4) ■未登陆词的识别面临很多困难: 。由普通词汇构成,长度不定,也没有明显的边界标志 词。 ·专有名词的首词和尾词可能与上下文中的其他词汇存 在交集型歧义切分。 。新出现的通用词汇和专业术语:面临词的界定问题。 又回到了分词规范的问题上
◼ 未登陆词的识别面临很多困难: ⚫ 由普通词汇构成,长度不定,也没有明显的边界标志 词。 ⚫ 专有名词的首词和尾词可能与上下文中的其他词汇存 在交集型歧义切分。 ⚫ 新出现的通用词汇和专业术语:面临词的界定问题。 又回到了分词规范的问题上。 7.1.3 未登陆词问题(3/4)
7.1.3未登陆词问题(4/4) ■在真实文本的切分中,未登陆词总数的大约九成是 专有名词,其余的为通用新词或专业术语[黄昌宁等, 2003]。 ■在自然语言处理研究中,人们通常将专有名词和数 字、日期等词通称为命名实体(named entity)。 命名实体识别NER是汉语自动分词研究中的关键问 题之一
◼ 在真实文本的切分中,未登陆词总数的大约九成是 专有名词,其余的为通用新词或专业术语[黄昌宁等, 2003]。 ◼ 在自然语言处理研究中,人们通常将专有名词和数 字、日期等词通称为命名实体(named entity)。 命名实体识别NER是汉语自动分词研究中的关键问 题之一。 7.1.3 未登陆词问题(4/4)
本章主要内容 ■7.1汉语自动分词中的基本问题 ■7.2基本分词方法 ·7.3未登录词处理方法概述 ■7.4基于多特征的命名实体识别模型 ■7.5词性标注 ■7.6词性标注的一致性检查与自动校对 ■7.7汉语分词与词性标注系统评测
本章主要内容 ◼ 7.1 汉语自动分词中的基本问题 ◼ 7.2 基本分词方法 ◼ 7.3 未登录词处理方法概述 ◼ 7.4 基于多特征的命名实体识别模型 ◼ 7.5 词性标注 ◼ 7.6 词性标注的一致性检查与自动校对 ◼ 7.7 汉语分词与词性标注系统评测
7.2.1基于统计语言模型的分词方法(1/10〉 ■为了给自动分词任务一个明确的定义,J.Go等人 (2003)对文本中的词给出了一个可操作的定义, 把汉语词定义成下列4类: ·能与分词词表中任意一个词相匹配的字段为一个词; 。任意一个经词法派生出来的词或短语为一个词; ◆重叠形式(高高兴兴、说说话、天天) ◆前缀派生(非党员、副部长) ◆后缀派生(全面性、朋友们) ◆中缀派生(看得出、看不出) ◆动词加时态助词(克服了、蚕食着) ◆动词加趋向动词(走出、走出来) ◆动词的分离形式(长度不超过3个字,如:洗了澡、洗 过澡)
◼ 为了给自动分词任务一个明确的定义,J.Gao等人 (2003)对文本中的词给出了一个可操作的定义, 把汉语词定义成下列4类: ⚫ 能与分词词表中任意一个词相匹配的字段为一个词; ⚫ 任意一个经词法派生出来的词或短语为一个词; ◆ 重叠形式(高高兴兴、说说话、天天) ◆ 前缀派生(非党员、副部长) ◆ 后缀派生(全面性、朋友们) ◆ 中缀派生(看得出、看不出) ◆ 动词加时态助词(克服了、蚕食着) ◆ 动词加趋向动词(走出、走出来) ◆ 动词的分离形式(长度不超过3个字,如:洗了澡、洗 过澡) 7.2.1 基于统计语言模型的分词方法(1/10)
7.2.1基于统计语言模型的分词方法(2/10) 。文本中被明确定义的任意一个实体名词是一个词; ◆如:日期、时间、货币、百分数、温度、长度、面积、 体积、重量、地址、电话号码、传真号码、电子邮件 地址等 。文本中任意一个专有名词是一个词。 ◆如:人名、地名、机构名 ■定义中没有考虑文本中的新词问题。 ■这个定义中很多约定与《信息处理用限定分词规范》 中的规定不一致。 。规范中重叠形式应切分:研究研究; 。规范中复数应单独切分:朋友们
⚫ 文本中被明确定义的任意一个实体名词是一个词; ◆ 如:日期、时间、货币、百分数、温度、长度、面积、 体积、重量、地址、电话号码、传真号码、电子邮件 地址等 ⚫ 文本中任意一个专有名词是一个词。 ◆ 如:人名、地名、机构名 ◼ 定义中没有考虑文本中的新词问题。 ◼ 这个定义中很多约定与《信息处理用限定分词规范》 中的规定不一致。 ⚫ 规范中重叠形式应切分:研究研究; ⚫ 规范中复数应单独切分:朋友们 7.2.1 基于统计语言模型的分词方法(2/10)