第7章汉语自动分词与词性标注
第7章 汉语自动分词与词性标注
本章主要内容 ■7.1汉语自动分词中的基本问题 ■7.2基本分词方法 ·73未登录词处理方法概述 ■7.4基于多特征的命名实体识别模型 ■7.5词性标注 ■7.6词性标注的一致性检查与自动校对 ■7.7汉语分词与词性标注系统评测
本章主要内容 ◼ 7.1 汉语自动分词中的基本问题 ◼ 7.2 基本分词方法 ◼ 7.3 未登录词处理方法概述 ◼ 7.4 基于多特征的命名实体识别模型 ◼ 7.5 词性标注 ◼ 7.6 词性标注的一致性检查与自动校对 ◼ 7.7 汉语分词与词性标注系统评测
7.1汉语自动分词中的基本问题 期 汉语自动分词就是让计算机系统在汉语文本中的词 与词之间自动加上空格或其他边界标记。 看似简单,却使人扼腕感叹
7.1 汉语自动分词中的基本问题 ◼ 汉语自动分词就是让计算机系统在汉语文本中的词 与词之间自动加上空格或其他边界标记。 ◼ 看似简单,却使人扼腕感叹
7.1.1汉语分词规范问题(1/2) ■“词”的概念(词是什么一词的抽象定义、什么是 词一词的具体界定)飘忽不定,原因: 。单字词与词素之间的划界,如:新华社25日讯 。词与短语的划界,如:花草、湖边、鸭蛋、小鸡、担 水、房项、一层、翻过 。对“词”的认识,普通人和语言学家的标准也有较大 差异
7.1.1 汉语分词规范问题(1/2) ◼ “词”的概念(词是什么—词的抽象定义、什么是 词—词的具体界定)飘忽不定,原因: ⚫ 单字词与词素之间的划界,如:新华社25日讯 ⚫ 词与短语的划界,如:花草、湖边、鸭蛋、小鸡、担 水、房顶、一层、翻过 ⚫ 对“词”的认识,普通人和语言学家的标准也有较大 差异
7.1.1汉语分词规范问题(2/2) 1992年国家标准局颁布了作为国家标准的《信息处 理用现代汉语分词规范》[刘源等,1994;刘开瑛, 2000] ·大部分规定是通过举例和定性描述来体现 ◆如:规范4.2规定:二字或三字词以及结合紧密、使用 稳定的二字或三字词组,一律为分词单位 。规定的操作尺度难把握 ·因而《规范》并没有从根本上统一对汉语词的认识
◼ 1992年国家标准局颁布了作为国家标准的《信息处 理用现代汉语分词规范》[刘源等,1994;刘开瑛, 2000] ⚫ 大部分规定是通过举例和定性描述来体现 ◆ 如:规范4.2规定:二字或三字词以及结合紧密、使用 稳定的二字或三字词组,一律为分词单位 ⚫ 规定的操作尺度难把握 ⚫ 因而《规范》并没有从根本上统一对汉语词的认识 7.1.1 汉语分词规范问题(2/2)