信息检索与数据挖掘 2019/3/16 7 回顾:idf权重 ·df,是出现词项t的文档数目 ·df,是和词项t的信息量成反比的一个值 ·于是可以定义词项t的idf权重: N idf=og.) (其中W是文档集中文档的数目) ·idf,是反映词项t的信息量的一个指标 逆文档频率:多个文档中都会出现的常见词、高频词idf较 低;反之罕见词的idf高
信息检索与数据挖掘 2019/3/16 7 回顾:idf权重 • dft 是出现词项t的文档数目 • dft 是和词项t的信息量成反比的一个值 • 于是可以定义词项t的idf权重: (其中N 是文档集中文档的数目) • idft 是反映词项t的信息量的一个指标 7 逆文档频率:多个文档中都会出现的常见词、高频词idf较 低;反之罕见词的idf高 𝑖𝑑𝑓𝑡 = 𝑙𝑜𝑔10( 𝑁 𝑑𝑓𝑡 )
信息检索与数据挖掘 2019/3/16 8 ▣顾:f-idf权重 。tf-idf权重 N wia=(1+lo)) ·tf-idf是信息检索中最著名的权重计算方法 。tf-idf值随着词项在单个文档中出现次数增加而增 大 ·tf-idf值随着词项在文档集中数目减少而增加 某一特定文件内的高词语频率,以及该词语在整个文件集合 中的低文件频率,可以产生出高权重的TF-IDF。因此,TF IDF倾向于过滤掉常见的词语,保留重要的词语。 8
信息检索与数据挖掘 2019/3/16 8 回顾:tf-idf权重 • tf-idf权重 • tf-idf 是信息检索中最著名的权重计算方法 • tf-idf值随着词项在单个文档中出现次数增加而增 大 • tf-idf值随着词项在文档集中数目减少而增加 8 某一特定文件内的高词语频率,以及该词语在整个文件集合 中的低文件频率,可以产生出高权重的TF-IDF。因此,TFIDF倾向于过滤掉常见的词语,保留重要的词语。 𝑤𝑡,𝑑 = (1 + 𝑙𝑜𝑔10𝑡𝑓𝑡,𝑑) × 𝑙𝑜𝑔10( 𝑁 𝑑𝑓𝑡 )
信息检索与数据挖掘 2019/3/16 9 词袋模型(Bag of Words) 。不考虑词在文档中出现的顺序 。“John is quicker than Mary”和“Mary is quicker than John”的表示结果一样 ·这就是词袋模型 ·TF、DF、IDF、TF-IDF都只考虑:词袋模型
信息检索与数据挖掘 2019/3/16 9 词袋模型(Bag of Words ) • 不考虑词在文档中出现的顺序 • “John is quicker than Mary ” 和“Mary is quicker than John ”的表示结果一样 • 这就是词袋模型 • TF、DF、IDF、TF-IDF都只考虑:词袋模型
信息检索与数据挖掘 2019/3/16 10 图像的特征 Bag-of-words representation for an image Object Bag-of-words
信息检索与数据挖掘 2019/3/16 10 图像的特征 Bag-of-words representation for an image
信息检索与数据挖掘 2019/3/16 11 二值关联矩阵 Anthony Julius The Hamlet( Othello Macbet and Caesar Tempest h.. Cleopatra ANTHONY 1 1 0 0 001 1 BRUTUS 1 1 0 1 0 CAESAR 1 1 0 1 1 CALPURNIA 0 1 0 0 0 0 CLEOPATRA 1 0 0 0 0 0 MERCY 1 0 1 1 1 1 WORSER 1 0 1 1 1 0 每篇文档表示成一个二值向量∈{0,1yM
信息检索与数据挖掘 2019/3/16 11 二值关联矩阵 每篇文档表示成一个二值向量∈ {0, 1}|V| Anthony and Cleopatra Julius Caesar The Tempest Hamlet Othello Macbet h . . . ANTHONY BRUTUS CAESAR CALPURNIA CLEOPATRA MERCY WORSER . . . 1 1 1 0 1 1 1 1 1 1 1 0 0 0 0 0 0 0 0 1 1 0 1 1 0 0 1 1 0 0 1 0 0 1 1 1 0 1 0 0 1 0