当前位置：和泉文库 > 计算机 > 浏览文档

苏州大学：文档评分与向量空间模型（PPT讲稿）

1. 排序式检索 2. 词项频率词项频率 3. tf-idf权重计算 4. 向量空间模型

文件格式：PPT，文件大小：720.5KB，售价：11.2元

文档详细内容（约50页）

非二值关联矩阵(词频 Anthony Julius The Hamlet Othello Macbeth and Caesar Tempest Cleopatra ANTHONY 157 73 BRUTUS 4 157 CAESAR 232 227 CALPURNIA 10 CLEOPATRA 0722 5 MERCY 000 0000031 0220081 0010051 1000085 WORSER 每篇文档可以表示成一个词频向量∈NW 12

12 非二值关联矩阵(词频) 每篇文档可以表示成一个词频向量 ∈ N|V| 12 Anthony and Cleopatra Julius Caesar The Tempest Hamlet Othello Macbeth . . . ANTHONY BRUTUS CAESAR CALPURNIA CLEOPATRA MERCY WORSER . . . 157 4 232 0 57 2 2 73 157 227 10 0 0 0 0 0 0 0 0 3 1 0 2 2 0 0 8 1 0 0 1 0 0 5 1 1 0 0 0 0 8 5

词袋( Bag of words)模型不考虑词在文档中出现的顺序 John is quicker than Mary及 Mary is quicker than John are的表示结果一样这称为一个词袋模型( bag of words mode 在某种意思上说,这种表示方法是一种“倒退”,因为位置索引中能够区分上述两篇文档

13 词袋(Bag of words)模型 ▪不考虑词在文档中出现的顺序 ▪John is quicker than Mary 及 Mary is quicker than John are 的表示结果一样 ▪这称为一个词袋模型(bag of words model) ▪在某种意思上说，这种表示方法是一种“倒退”，因为位置索引中能够区分上述两篇文档 13

词项频率tf 词项t的词项频率t是指t在中出现的次数下面将介绍利用t来计算文档评分的方法第一种方法是采用原始的t值(awt) 但是原始t不太合适: 某个词项在A文档中出现十次,即tf=10,在B文档中tf= 1,那么A比B更相关但是相关度不会相差10倍相关度不会正比于词项频率tf

14 词项频率 tf ▪词项t的词项频率 tft,d 是指t 在d中出现的次数 ▪下面将介绍利用tf来计算文档评分的方法 ▪第一种方法是采用原始的tf值(raw tf) ▪但是原始tf不太合适： ▪某个词项在A文档中出现十次，即tf = 10，在B文档中 tf = 1，那么A比B更相关 ▪但是相关度不会相差10倍 ▪相关度不会正比于词项频率tf 14

种替代原始t的方法:对数词频 t在d中的对数词频权重定义如下: ∫1+log1 no tot, d if tft t;d>0 t d 0 otherwise tf:d>Wd:0→0,1→1,2→1.3,10→2,10004,等等文档词项的匹配得分是所有同时出现在q和文档d中的词项的对数词频之和(1+ogt:d) 如果两者没有公共词项,则得分为0 15

15 一种替代原始tf的方法: 对数词频 ▪t 在 d 中的对数词频权重定义如下： ▪tft,d → wt,d : 0 → 0, 1 → 1, 2 → 1.3, 10 → 2, 1000 → 4, 等等 ▪文档-词项的匹配得分是所有同时出现在q和文档d中的词项的对数词频之和(1 + log tft,d ) ▪如果两者没有公共词项，则得分为0 15

提纲排序式检索 2.词项频率 3.tidf权重计算 4.向量空间模型

提纲 16 1. 排序式检索 2. 词项频率 3. tf-idf权重计算 4. 向量空间模型

点击进入文档下载页（PPT格式）

共50页，可试读17页，点击继续阅读 ↓↓

您可能感兴趣的文档

淮阴工学院：《数据库原理》课程教学资源（PPT课件讲稿）第2章数据库系统结构
四川大学：《操作系统 Operating System》课程教学资源（PPT课件讲稿）Chapter 5 互斥与同步（Mutual Exclusion and Synchronization）5.3 Semaphores
《编译原理》课程教学资源（PPT课件讲稿）第五章语法制导的翻译 5.1 语法制导的定义 5.2 S属性定义的自下而上计算
《数字图像处理》课程教学资源（PPT课件讲稿）第7章图像分割
《人工智能》课程电子教案（PPT课件讲稿）第9章机器学习与知识发现
赣南师范大学：《计算机网络原理》课程教学资源（PPT课件讲稿）第七章网络层
四川大学：《计算机操作系统 Operating System Principles》课程教学资源（PPT课件讲稿）第1章导论（主讲：段磊）
新乡学院：《多媒体技术应用》课程教学大纲
搜索引擎技术（PPT讲稿）Web Spam
电子科技大学：《密码理论》课程教学资源（PPT课件讲稿）第2章流密码
《编译原理》课程教学资源（PPT课件讲稿）语法制导的翻译（Syntax-Directed Translation）
《Photoshop CS教程》教学资源（PPT课件）第7章编辑文字
清华大学：Computational Models for Social Network Analysis（PPT讲稿）mining big social networks（Part III：Group and Structure）
中国科学技术大学：《网络信息安全 NETWORK SECURITY》课程教学资源（PPT课件讲稿）第一章计算机网络安全概述2/2（主讲：肖明军）
《计算机硬件基础》课程教学资源（PPT课件讲稿）第六章汇编语言及其程序设计
山东大学：《微机原理及单片机接口技术》课程教学资源（PPT课件讲稿）第四章指令系统及汇编语言程序设计（4.9-4.11）
《C语言程序设计》课程教学资源（PPT课件讲稿）第三章控制语句
《机器学习》课程教学资源（PPT课件讲稿）第十三章半监督学习
《数字图像处理》课程教学资源（PPT课件）第三章灰度直方图
《电子技术》课程教学资源（PPT讲稿资料）玩转Arduino合集
《计算机网络》课程教学资源（PPT课件讲稿）第7章广域网
电子科技大学：《信息安全概论》课程教学资源（PPT课件讲稿）第一章概述（秦志光）
西安交通大学：《微型计算机硬件技术》课程教学资源（PPT课件讲稿）第三章总线线驱动与接口（主讲：桂小林）
基于分布式哈希表的对等系统关键技术研究（论文PPT）

点击购买下载（PPT）

下载及服务说明

购买前请先查看本文档预览页，确认内容后再进行支付；
如遇文件无法下载、无法访问或其它任何问题，可发送电子邮件反馈，核实后将进行文件补发或退款等其它相关操作；
邮箱：

文档浏览记录