信息检索与数据挖掘 2019/3/16 12 二值矩阵→词频矩阵 Anthony Julius The Hamlet Othello Macbet and Caesar Tempest h..: Cleopatra ANTHONY 157 73 0 0 1 BRUTUS 4 157 0 0 CAESAR 232 227 22 001 0 CALPURNIA 0 10 0 0 0 0 CLEOPATRA 57 0 0 0 05 0 MERCY 3 WORSER 2 0 1 1 1 5 每篇文档表示成一个词频向量∈NM
信息检索与数据挖掘 2019/3/16 12 二值矩阵词频矩阵 每篇文档表示成一个词频向量∈ N|V| Anthony and Cleopatra Julius Caesar The Tempest Hamlet Othello Macbet h . . . ANTHONY BRUTUS CAESAR CALPURNIA CLEOPATRA MERCY WORSER . . . 157 4 232 0 57 2 2 73 157 227 10 0 0 0 0 0 0 0 0 3 1 0 2 2 0 0 8 1 0 0 1 0 0 5 1 1 0 0 0 0 8 5
信息检索与数据挖掘 2019/3/16 13 二值→词频权重矩阵 Anthony Julius The Hamlet Othello Macbet and Caesar Tempest h..: Cleopatra ANTHONY 5.25 3.18 0.0 0.0 0.0 0.35 BRUTUS 1.21 6.10 0.0 1.0 0.0 0.0 CAESAR 8.59 2.54 0.0 1.51 0.25 0.0 CALPURNIA 0.0 1.54 0.0 0.0 0.0 0.0 CLEOPATRA 2.85 0.0 0.0 0.0 0.0 0.0 MERCY 1.51 0.0 1.90 0.12 5.25 0.88 WORSER 1.37 0.0 0.11 4.15 0.25 1.95 每篇文档表示成一个基于tf-idf权重的实值向量∈RIM
信息检索与数据挖掘 2019/3/16 13 二值 → 词频 → 权重矩阵 每篇文档表示成一个基于tf-idf权重的实值向量 ∈ R|V| Anthony and Cleopatra Julius Caesar The Tempest Hamlet Othello Macbet h . . . ANTHONY BRUTUS CAESAR CALPURNIA CLEOPATRA MERCY WORSER . . . 5.25 1.21 8.59 0.0 2.85 1.51 1.37 3.18 6.10 2.54 1.54 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 1.90 0.11 0.0 1.0 1.51 0.0 0.0 0.12 4.15 0.0 0.0 0.25 0.0 0.0 5.25 0.25 0.35 0.0 0.0 0.0 0.0 0.88 1.95
信息检索与数据挖掘 2019/3/16 14 回顾:查询和文档之间的余弦相似度计算 点积 向量 cos(g,d)= …d d ∑9d, 7 同同Σ∑4 ·q,是词项i在query中的tf-idf权值 ·d是词项i在文档中的tf-idf权值 ·cos(q,d)与d的余弦相关性 。等价于向量G与d夹角的余弦值 14
信息检索与数据挖掘 2019/3/16 14 回顾:查询和文档之间的余弦相似度计算 • qi 是词项i在query中的tf-idf 权值 • di 是词项i在文档中的tf-idf 权值 • cos(𝑞 , 𝑑 ) 𝑞 与𝑑 的余弦相关性 • 等价于向量𝑞 与𝑑 夹角的余弦值 14
信息检索与数据挖掘 2019/3/16 15 查询表示为向量 只会有少数分量非零 Searches by Number of Words BLUE NILE RESEARCH 35% 30% ◆29% 25% 20% 20% 5 15% 15% 15% 10 5% 7% 6% 5% 2 3 4 5 6 8+ No.of Words Research Reveals The Distinct Ways Users Search http://searchengineland.com/research-reveals-distinct-ways-users-search-220977 15
信息检索与数据挖掘 2019/3/16 15 查询表示为向量 只会有少数分量非零 15 Research Reveals The Distinct Ways Users Search http://searchengineland.com/research-reveals-distinct-ways-users-search-220977
信息检索与数据挖掘 2019/3/16 16 POOR d2:Rich poor gap grows 1t d:Ranks of starving poets swell q:[rich-poor] d3:Record baseball salaries in 2010 0 RICH 0 1 POOR 1↑(d1) 长度归一化后,余弦的计算可 直接通过点积的方式得到→ (q) 、 (d2 cos(,d=可d=∑9.d 0 (d的) 0 RICH 16 0 1
信息检索与数据挖掘 2019/3/16 16 16 长度归一化后,余弦的计算可 直接通过点积的方式得到