7.2.1基于统计语言模型的分词方法(8/10)》 ■对交集型歧义字段(OAS)的处理措施(黄昌宁): 。通过最大匹配方法(正向最大匹配、反向最大匹配) 检测出这些字段; 。用一个特定的类<GAP>取代全体OAS,依次来训练语 言模型P(C)。 。类<GAP>的生成模型的参数通过消歧规则或机器学 习方法来估计
◼ 对交集型歧义字段(OAS)的处理措施(黄昌宁): ⚫ 通过最大匹配方法(正向最大匹配、反向最大匹配) 检测出这些字段; ⚫ 用一个特定的类<GAP>取代全体OAS,依次来训练语 言模型P(C)。 ⚫ 类<GAP>的生成模型的参数通过消歧规则或机器学 习方法来估计。 7.2.1 基于统计语言模型的分词方法(8/10)
7.2.1基于统计语言模型的分词方法(9/10) a对组合型歧义字段(CAS)的处理措施: 。通过对训练语料的统计,选出最高频、且其切分分布 比较均衡的70条CAS; 。用机器学习方法为每一条CAS训练一个二值分类器; 。再用这些分类器在训练语料中消解这些CAS的歧义 ■微软亚洲研究所对该基于统计语言模型的分词系统 做了全面测试: 。该系统自动分词的正确率和召回率均优于正向最大分 词方法; ·正确率和召▣率分别达到96.3%和97.4%
◼ 对组合型歧义字段(CAS)的处理措施: ⚫ 通过对训练语料的统计,选出最高频、且其切分分布 比较均衡的70条CAS; ⚫ 用机器学习方法为每一条CAS训练一个二值分类器; ⚫ 再用这些分类器在训练语料中消解这些CAS的歧义 ◼ 微软亚洲研究所对该基于统计语言模型的分词系统 做了全面测试: ⚫ 该系统自动分词的正确率和召回率均优于正向最大分 词方法; ⚫ 正确率和召回率分别达到96.3%和97.4%。 7.2.1 基于统计语言模型的分词方法(9/10)
7.2.1基于统计语言模型的分词方法(10/10) >优点: ·减少了很多手工标注的工作 ·在训练语料规模足够大和覆盖领域足够 多时,可以获得较高的切分正确率 >弱点: ·训练语料的规模和覆盖领域不好把握 ·计算量较大
7.2.1 基于统计语言模型的分词方法(10/10)
7.2.2N-最短路径方法(1/10) 张华平(2003)提出了旨在提高召回率并兼顾准确 率的词语粗分模型: 。根据词典,找出字串中所有可能的词,构造词语切分 有向无环图。 。每个词对应图中的一条有向边,并赋给相应的边长 (权值)。 。针对该切分图,在起点到终点的所有路径中,求出长 度值按严格升序排列一次为第1、第2..第i、 第N的路径集合作为相应的粗分结果集。 。 如果两条或两条以上路径长度相等,它们的长度并列 第,都要列入粗分结果集,而且不影响其他路径的 排列序号,最后的粗分结果集合大小大于或等于N
◼ 张华平(2003)提出了旨在提高召回率并兼顾准确 率的词语粗分模型: ⚫ 根据词典,找出字串中所有可能的词,构造词语切分 有向无环图。 ⚫ 每个词对应图中的一条有向边,并赋给相应的边长 (权值)。 ⚫ 针对该切分图,在起点到终点的所有路径中,求出长 度值按严格升序排列一次为第1、第2……第i、…… 第N的路径集合作为相应的粗分结果集。 ⚫ 如果两条或两条以上路径长度相等,它们的长度并列 第i,都要列入粗分结果集,而且不影响其他路径的 排列序号,最后的粗分结果集合大小大于或等于N。 7.2.2 N-最短路径方法(1/10)
7.2.2N-最短路径方法(2/10) 设待分字串S=℃192Cn’其中c(i=1,2,,n) 为单个的字,n为串的长度,n21。建立一个节 点数为+1的切分有向无环图G,各节点编号依 次为Vo,V1,V2,,'n Ci 求最短路径:贪心法或简单扩展法
7.2.2 N-最短路径方法(2/10)