7.1.2歧义切分问题(6/8) 定义7-3'(多义组合型切分歧义)汉字串AB称作多 义组合型切分歧义,如果满足(1)A、B、AB同时 为词;(2)文本中至少存在一个上下文语境C,在 C的约束下,A、B在语法和语义上都成立。 。例如,汉字串“平淡”符合定义7-3,但不符合定义 7-3(因为“平淡”在文本中不可能成立)
◼ 定义7-3’(多义组合型切分歧义) 汉字串AB称作多 义组合型切分歧义,如果满足(1)A、B、AB同时 为词;(2)文本中至少存在一个上下文语境C,在 C的约束下,A、B在语法和语义上都成立。 ⚫ 例如,汉字串“平淡”符合定义7-3,但不符合定义 7-3’(因为“平|淡”在文本中不可能成立)。 7.1.2 歧义切分问题(6/8)
7.1.2歧义切分问题(7/8) ■孙茂松等(1997)认为,定义7-3中的名称称作 “包孕型”或“覆盖型”更恰当。 董振东(1997)称交集型切分歧义为“偶发歧义”, 称多义组合型切分歧义为“固有歧义”。 ■刘开瑛(2000)统计了510万字的网络新闻语料, 统计其中交集型歧义字段7.8余万次,约16次/1000 字。其中出现次数的97%以上是链长为1和2的歧义 字段,链长为3的占3.11%,其他不足1.5%
◼ 孙茂松等(1997)认为,定义7-3中的名称称作 “包孕型”或“覆盖型”更恰当。 ◼ 董振东(1997)称交集型切分歧义为“偶发歧义” , 称多义组合型切分歧义为“固有歧义” 。 ◼ 刘开瑛(2000)统计了510万字的网络新闻语料, 统计其中交集型歧义字段7.8余万次,约16次/1000 字。其中出现次数的97%以上是链长为1和2的歧义 字段,链长为3的占3.11%,其他不足1.5%。 7.1.2 歧义切分问题(7/8)
7.1.2歧义切分问题(8/8) ■侯敏等(1995)认为,汉语自动分词中的歧义现象 并不能简单地划分为交集型和组合型两种,就字段 的结构形式而言,至少还可以分出一种“混合型”。 。这篇文章写得太平淡了。 。这墙抹得太平了。 ·即使在太平时期也不应该放松警惕。 处理这类歧义字段时,首先处理交集型字段,如果 匹配不成功,在短语层面再按组合型字段处理
◼ 侯敏等(1995)认为,汉语自动分词中的歧义现象 并不能简单地划分为交集型和组合型两种,就字段 的结构形式而言,至少还可以分出一种“混合型” 。 ⚫ 这篇文章写得太平淡了。 ⚫ 这墙抹得太平了。 ⚫ 即使在太平时期也不应该放松警惕。 ◼ 处理这类歧义字段时,首先处理交集型字段,如果 匹配不成功,在短语层面再按组合型字段处理。 7.1.2 歧义切分问题(8/8)
7.1.3未登陆词问题(1/4) 未登陆词主要包括两大类: 。新出现的词汇、短语或专业术语等,例如:博客、超 女、恶搞、禽流感、裸退. ·人名、地名、组织机构名称等,例如:蔡国庆、张建 国、新右卫门、山本五十六、约翰.斯特朗、詹姆斯. 埃尔德、人民公园、中国科学院自动化研究所
7.1.3 未登陆词问题(1/4) ◼ 未登陆词主要包括两大类: ⚫ 新出现的词汇、短语或专业术语等,例如:博客、超 女、恶搞、禽流感、裸退…… ⚫ 人名、地名、组织机构名称等,例如:蔡国庆、张建 国、新右卫门、山本五十六、约翰.斯特朗、詹姆斯. 埃尔德、人民公园、中国科学院自动化研究所……
7.1.3未登陆词问题(2/4) 以下是来自真实文本的例子: 。他还兼任何应钦在福州办的东路军军官学校的政治 教官。 ·林徽因此时已离开了那里。 。大不列颠及北爱尔兰联合王国外交和英联邦事务大臣、 议会议员杰克:斯特劳阁下在联合国安理会就伊拉克 问题发言。 。坐落于江苏省南京市玄武湖公园内的夏璞墩是晋代著 名的文学家、科学家夏璞的衣冠冢
◼ 以下是来自真实文本的例子: ⚫ 他还兼任何应钦在福州办的东路军军官学校的政治 教官。 ⚫ 林徽因此时已离开了那里。 ⚫ 大不列颠及北爱尔兰联合王国外交和英联邦事务大臣、 议会议员杰克·斯特劳阁下在联合国安理会就伊拉克 问题发言。 ⚫ 坐落于江苏省南京市玄武湖公园内的夏璞墩是晋代著 名的文学家、科学家夏璞的衣冠冢。 7.1.3 未登陆词问题(2/4)