02语素与分词
02 语素与分词
语素与分词语素是语言学术语,是指语言中最小的音义结合体它的主要功能就是作为构成词语的材料。对于表音文字如英语,可以简单的理解为前缀,词干,后缀等根据分割原理,可将现有的分词方法归纳为:字符串匹配法:将待分析的汉字串与前定的词典词条匹配,若某个字符串可在词典中找到,则记为识别出一个词。该方法的好处是简便快速,但容易存在歧义词的问题;基于理解的分词方法在分词的同时进行句法、语义分析,以改进对歧义词的处理基于统计的分词方法则先用机器学习模型学习已经切分好的词语的规律,进而实现对未知文本的切分,常用方法包括最大概率分词法和最大炳分词法等
语素与分词 语素是语言学术语,是指语言中最小的音义结合体, 它的主要功能就是作为构成词语的材料。对于表音文字 如英语,可以简单的理解为前缀,词干,后缀等。 根据分割原理,可将现有的分词方法归纳为: • 字符串匹配法:将待分析的汉字串与前定的词典词条匹配,若某个字符串可在词 典中找到,则记为识别出一个词。该方法的好处是简便快速,但容易存在歧义词 的问题; • 基于理解的分词方法在分词的同时进行句法、语义分析,以改进对歧义词的处理; • 基于统计的分词方法则先用机器学习模型学习已经切分好的词语的规律,进而实 现对未知文本的切分,常用方法包括最大概率分词法和最大熵分词法等
基于统计的分词如果有一个句子S,它有m种分词选项如下:通过标准语料库,我们可以近似的计算出所有的分词之间的二元条件概率,比如任意两个词w1,W2,它们的AA12-A1m条件概率分布可以近似的表示为:A21A22...A2n2P(wi,W2)freq(w,W2)P(w2|w,)P(w)freq(w)Am1Am2...mn.P(W2.W1)freq(wi.w2).P(wi/w2)=如果我们从中选择了最优的第r种分词方法,那么这P(w2)freg(w2)种分词方法对应的统计分布概率应该最大即:其中freg(w1w2)表示w1w2在语料库中相邻一起=argmaxP(Ai1,Ai2.,Ain)出现的次数而其中freg(w1),freg(w2)分别表示w1为了简化计算,我们通常使用马尔科夫假设,即每一W2在语料库中出现的统计次数。个分词出现的概率仅仅和前一个分词有关,即:P(A;/Ai1,Ai2,.,AiG-1)=-P(Ag/Ai(i-1)基于语料库建立的统计概率,对于一个新的句子,我们使用了马尔科夫假设,求联合分布就可以通过计算各种分词方法对应的联合分布概率,找到最大概率对应的分词方法,即最优分词。P(AlAi2-Am,)=P(A1)P(A/A1)P(As/A2)...P(Am/A(n-1)
基于统计的分词 如果有一个句子S,它有m种分词选项如下: 如果我们从中选择了最优的第r种分词方法,那么这 种分词方法对应的统计分布概率应该最大,即: 为了简化计算,我们通常使用马尔科夫假设,即每一 个分词出现的概率仅仅和前一个分词有关,即: 使用了马尔科夫假设,求联合分布: 11 12. 1 1 21 22. 2 2 . 1 2. r=argmax i P(Ai1,Ai2,.,Aini ) P Aij Ai1,Ai2,.,Ai j-1 =P(Aij|Ai(j-1)) 通过标准语料库,我们可以近似的计算出所有的分词之 间的二元条件概率,比如任意两个词w1,w2,它们的 条件概率分布可以近似的表示为: 其中freq(w1,w2)表示w1,w2在语料库中相邻一起 出现的次数,而其中freq(w1),freq(w2)分别表示w1, w2在语料库中出现的统计次数。 基于语料库建立的统计概率,对于一个新的句子,我们 就可以通过计算各种分词方法对应的联合分布概率,找 到最大概率对应的分词方法,即最优分词。 P w2 w1 = P(w1 ,w2 ) P(w1 ) ≈ freq(w1 ,w2 ) freq(w1 )