当前位置：和泉文库 > 计算机 > 浏览文档

北京大学：《数据结构与算法》课程教学资源（实验班讲义）第十章索引技术

文件格式：PDF，文件大小：518.39KB，售价：4.77元

文档详细内容（约19页）

6 北京大学信息学院张铭编写 ©版权所有，转载或翻印必究 Page 31 10.3.1 基于属性的倒排对某属性按属性值建立索引表，称倒排表 (attr, ptrList) （属性值，具有该属性值的各记录指针）记录指针可以是关键码，或该记录的主文件地址颠覆主文件的顺序，因而称为倒排索引属性往往是离散型的对于连续型的索引，往往用B树倒排文件：带有倒排索引的文件北京大学信息学院张铭编写 ©版权所有，转载或翻印必究 Page 32 0375, 0552 0197 0204, 0673 0100, 0193 0172, 0201, 0221 2500 3000 3500 4000 5000 SAL list EMP# 0197, 0375, 0552 0100 0193, 0204 0673 0172 0221 0201 26 32 39 40 43 47 55 AGE list EMP# 0100, 0221, 0552 0172, 0201 0193, 0197, 0204 0375, 0673 玩具部食品部服装部电器部 DEPT list EMP# 北京大学信息学院张铭编写 ©版权所有，转载或翻印必究 Page 33 检索实例列出玩具部中年龄在50岁以上或者工资在 5000元以上的职工记录 (DEPT=“Toy”AND(AGE≥50 OR SAL≥5000))。分别找出满足条件DEPT=“Toy”， AGE≥50，和SAL≥5000的指针集合，然后对后两个指针集合求并，并且将结果集合与第一个指针集合求交，最后的结果集合中包含的指针所指的各记录即为所求。北京大学信息学院张铭编写 ©版权所有，转载或翻印必究 Page 34 优点：能够对于基于属性的检索进行较高效率的处理缺点：花费了保存倒排表的存储代价降低了更新运算的效率北京大学信息学院张铭编写 ©版权所有，转载或翻印必究 Page 35 10.3.2 对正文文件的倒排正文索引(Text Indexing)处理的就是“建立一个数据结构以提供对文本内容的快速检索”。方法词索引(word index) 全文索引(full-text index) 北京大学信息学院张铭编写 ©版权所有，转载或翻印必究 Page 36 词索引基本思想：把正文看作由符号和词所组成的集合，从正文中抽取出关键词，然后用这些关键词组成一些适合快速检索的数据结构。适用于多种文本类型，特别是那些可以很容易就解析成一组词的集合的文本适用于英文中文等东方文字要经过“切词”处理

点击进入文档下载页（PDF格式）

共19页，试读已结束，阅读完整版请下载

您可能感兴趣的文档

点击购买下载（PDF）

下载及服务说明

购买前请先查看本文档预览页，确认内容后再进行支付；
如遇文件无法下载、无法访问或其它任何问题，可发送电子邮件反馈，核实后将进行文件补发或退款等其它相关操作；
邮箱：

文档浏览记录