非二值关联矩阵(词频 Anthony Julius The Hamlet Othello Macbeth and Caesar Tempest Cleopatra ANTHONY 157 73 BRUTUS 4 157 CAESAR 232 227 CALPURNIA 10 CLEOPATRA 0722 5 MERCY 000 0000031 0220081 0010051 1000085 WORSER 每篇文档可以表示成一个词频向量∈NW 12
12 非二值关联矩阵(词频) 每篇文档可以表示成一个词频向量 ∈ N|V| 12 Anthony and Cleopatra Julius Caesar The Tempest Hamlet Othello Macbeth . . . ANTHONY BRUTUS CAESAR CALPURNIA CLEOPATRA MERCY WORSER . . . 157 4 232 0 57 2 2 73 157 227 10 0 0 0 0 0 0 0 0 3 1 0 2 2 0 0 8 1 0 0 1 0 0 5 1 1 0 0 0 0 8 5
词袋( Bag of words)模型 不考虑词在文档中出现的顺序 John is quicker than Mary及 Mary is quicker than John are的表 示结果一样 这称为一个词袋模型( bag of words mode 在某种意思上说,这种表示方法是一种“倒退”,因为位置 索引中能够区分上述两篇文档
13 词袋(Bag of words)模型 ▪不考虑词在文档中出现的顺序 ▪John is quicker than Mary 及 Mary is quicker than John are 的表 示结果一样 ▪这称为一个词袋模型(bag of words model) ▪在某种意思上说,这种表示方法是一种“倒退”,因为位置 索引中能够区分上述两篇文档 13
词项频率tf 词项t的词项频率t是指t在中出现的次数 下面将介绍利用t来计算文档评分的方法 第一种方法是采用原始的t值(awt) 但是原始t不太合适: 某个词项在A文档中出现十次,即tf=10,在B文档中tf= 1,那么A比B更相关 但是相关度不会相差10倍 相关度不会正比于词项频率tf
14 词项频率 tf ▪词项t的词项频率 tft,d 是指t 在d中出现的次数 ▪下面将介绍利用tf来计算文档评分的方法 ▪第一种方法是采用原始的tf值(raw tf) ▪但是原始tf不太合适: ▪某个词项在A文档中出现十次,即tf = 10,在B文档中 tf = 1,那么A比B更相关 ▪但是相关度不会相差10倍 ▪相关度不会正比于词项频率tf 14
种替代原始t的方法:对数词频 t在d中的对数词频权重定义如下: ∫1+log1 no tot, d if tft t;d>0 t d 0 otherwise tf:d>Wd:0→0,1→1,2→1.3,10→2,10004,等等 文档词项的匹配得分是所有同时出现在q和文档d中的词 项的对数词频之和(1+ogt:d) 如果两者没有公共词项,则得分为0 15
15 一种替代原始tf的方法: 对数词频 ▪t 在 d 中的对数词频权重定义如下: ▪tft,d → wt,d : 0 → 0, 1 → 1, 2 → 1.3, 10 → 2, 1000 → 4, 等等 ▪文档-词项的匹配得分是所有同时出现在q和文档d中的词 项的对数词频之和(1 + log tft,d ) ▪如果两者没有公共词项,则得分为0 15
提纲 排序式检索 2.词项频率 3.tidf权重计算 4.向量空间模型
提纲 16 1. 排序式检索 2. 词项频率 3. tf-idf权重计算 4. 向量空间模型