当前位置：和泉文库 > 计算机 > 浏览文档

哈尔滨工业大学：《信息检索》课程教学资源（课件讲义）搜索引擎技术 SearchEngine

文本处理 term处理文本的特性索引与检索倒排文件 Signature文件 PAT Tree Query处理相关反馈查询扩展

文件格式：PDF，文件大小：501.69KB，售价：23.22元

文档详细内容（约118页）

Heaps'Law ■V是词表大小，n是语料库的长度（词书) V=KnB with constants K 0<B<1 ■典型的常数： ■K≈10-100 ■B≈0.40.6 (approx.square-root)

Heaps’ Law V 是词表大小，n 是语料库的长度（词书）典型的常数: K ≈ 10−100 β ≈ 0.4−0.6 (approx. square-root) = with constants , 0 < β <1 β V Kn K

Heaps'定律 250 20 150 之之一 100 …zf2 50 ap2 wsi2 --2 0 0 Words in Collection,N(millions)

Heaps’ 定律

词的分辨力分辨力是一个词作为特征将它所在的文档与其它文档区别开来的能力无意义的无意义的高频词低频词有意义的分辨力最强按词频降序排列

词的分辨力按词频降序排列无意义的高频词无意义的低频词有意义的分辨力最强分辨力是一个词作为特征将它所在的文档与其它文档区别开来的能力

索引项的分辨力 ■好的索引项能够将文档尽可能地离散开 ·例如：在一个关于“计算机科学”的文档集合中 xx 原始文档空间：添加了好的索引项：添加了不好的索引项： system system,database system,computer

索引项的分辨力好的索引项能够将文档尽可能地离散开例如：在一个关于 “计算机科学 ”的文档集合中 X X X X X X X X X X X X 添加了好的索引项： system, database 添加了不好的索引项： system, computer 原始文档空间： system

索引项分辨力举例 all terms indexed bad good d1 (a,b,c,d,r) (b,c,d) (a,b,c,d) (b,c,d,r) d2 (a,b,n,d,r) (b,n,d) (a,b,n,d) (b,n,d,r） d3 (a,m,p,q) (m,p,q) (a,m,p,q) (m,p,q) d4 (a,x,p,q) (&P,q) (a,x,p,q)(x,p,q) ■a就不是一个好的索引项，因为各个文档都包含a ■r可以使d1和d2靠近，并使它们远离d3和d4

索引项分辨力举例 a就不是一个好的索引项，因为各个文档都包含 a r可以使d1和d2 靠近，并使它们远离 d3和d4 all terms indexed bad good d1 (a,b,c,d,r) (b,c,d) (a,b,c,d) (b,c,d,r) d2 (a,b,n,d,r) (b,n,d) (a,b,n,d) (b,n,d,r) d3 (a,m,p,q) (m,p,q) (a,m,p,q) (m,p,q) d4 (a,x,p,q) (x,p,q) (a,x,p,q) (x,p,q)

点击进入文档下载页（PDF格式）

共118页，试读已结束，阅读完整版请下载

您可能感兴趣的文档

哈尔滨工业大学：《信息检索》课程教学资源（课件讲义）信息检索概述
哈尔滨工业大学：《信息检索》课程教学资源（课件讲义）信息检索模型 IRModel
哈尔滨工业大学：《信息检索》课程教学资源（课件讲义）信息过滤（主讲：刘挺）
哈尔滨工业大学：《信息检索》课程教学资源（课件讲义）文本分类 Text Categorization（主讲：刘挺）
北京大学：《信息检索》课程教学资源（PPT课件讲稿）Essential Background
北京大学：《信息检索》课程教学资源（PPT课件讲稿）Retrieval Models
北京大学：《信息检索》课程教学资源（PPT课件讲稿）Crawling the Web
北京大学：《信息检索》课程教学资源（PPT课件讲稿）Web Search
北京大学：《信息检索》课程教学资源（PPT课件讲稿）Course Overview（主讲：闫宏飞）
中国科学技术大学：《人工智能基础》课程教学资源（课件讲稿）Lecture 01 Introdution（主讲：吉建民）
中国科学技术大学：《人工智能基础》课程教学资源（课件讲稿）Lecture 15 智能机器人系统介绍
中国科学技术大学：《人工智能基础》课程教学资源（课件讲稿）Lecture 14 Reinforcement Learning
《统计自然语言处理》课程教学资源（PPT课件讲稿）第7章汉语自动分词与词性标注
北京大学：《信息检索》课程PPT课件讲稿（自然语言处理）01 Introduction（主讲：彭波）The CCF Advanced Disciplines Lectures
北京大学：《信息检索》课程PPT课件讲稿（自然语言处理）02 Link Analysis
北京大学：《信息检索》课程PPT课件讲稿（自然语言处理）03 Web Spam
北京大学：《信息检索》课程PPT课件讲稿（自然语言处理）04 Recommendation System
北京大学：《信息检索》课程PPT课件讲稿（自然语言处理）05 Infrastructure and Cloud
河南科技学院：信息工程学院本科课程教学大纲汇编（计算机科学与技术专业）
广东茂名农林科技职业学院：计算机网络技术人才培养方案（2020级）
广东茂名农林科技职业学院：计算机网络技术专业人才培养方案（2021级）
广东茂名农林科技职业学院：动漫制作技术专业人才培养方案（2020级）
南京农业大学：《面向对象程序设计实验》课程教学大纲 Experiment in Object-Oriented Programming
广东茂名农林科技职业学院：电子商务专业人才培养方案（2019级）

点击购买下载（PDF）

下载及服务说明

购买前请先查看本文档预览页，确认内容后再进行支付；
如遇文件无法下载、无法访问或其它任何问题，可发送电子邮件反馈，核实后将进行文件补发或退款等其它相关操作；
邮箱：

文档浏览记录