教师数据库倒排表 Department list EMP# 数学 0155,0132,0119 物理 0208,0211 计算机 0330,0310,0341 外语 0421,0455 Profession list EMP# 教授 0155,0330 讲师 0211,0119,0455,0310 助教 0421,0208,0132,0341 S pecialty EMP# 代数 0155,0119 几何 0132 力学 0208 原子物理 0211 软件 0330,0341 英语 0421,0310 法语 0455 “十一五”国家缀规划教材。张铭,王腾蛟,赵海£,《飙据结构与算法》,高教社,B0.6
“十一五”国家级规划教材。张铭,王腾蛟,赵海燕,《数据结构与算法》,高教社,2008. 6。 教师数据库倒排表 Department list EMP# 数学 物理 计算机 外语 0155, 0132, 0119 0208, 0211 0330, 0310, 0341 0421, 0455 Profession list EMP# 教授 讲师 助教 0155, 0330 0211, 0119, 0455, 0310 0421, 0208, 0132, 0341 Specialty list EMP# 代数 几何 力学 原子物理 软件 英语 法语 0155, 0119 0132 0208 0211 0330, 0341 0421, 0310 0455
优缺点 优点:能够对于基于属性的检索进行较高效率 的处理 缺点: 口花费了保存倒排表的存储代价 口降低了更新运算的效率 “十一五”国家缀规划教材。张铭,王腾蛟,赵海£,《飙据结构与算法》,高教社,B0.6
“十一五”国家级规划教材。张铭,王腾蛟,赵海燕,《数据结构与算法》,高教社,2008. 6。 优缺点 ◼ 优点:能够对于基于属性的检索进行较高效率 的处理 ◼ 缺点: ❑ 花费了保存倒排表的存储代价 ❑ 降低了更新运算的效率
1132对正文文件的倒排 正文索引( Text Indexing处理的就是“建立 个数据结构以提供对文本内容的快速检索 方法 口词索引( word index) 口全文索引 ull-text index) “十一五”国家缀规划教材。张铭,王腾蛟,赵海£,《飙据结构与算法》,高教社,B0.6
“十一五”国家级规划教材。张铭,王腾蛟,赵海燕,《数据结构与算法》,高教社,2008. 6。 11.3.2 对正文文件的倒排 ◼ 正文索引(Text Indexing)处理的就是“建立一 个数据结构以提供对文本内容的快速检索”。 ◼ 方法 ❑ 词索引(word index) ❑ 全文索引(full-text index)
词索引 基本思想: 口把正文看作由符号和词所组成的集合,从正文 中抽取出关键词,然后用这些关键词组成一些 适合快速检索的数据结构。 适用于多种文本类型,特别是那些可以很容易 就解析成一组词的集合的文本 口适用于英文 口中文等东方文字要经过“切词”处理 “十一五”国家缀规划教材。张铭,王腾蛟,赵海£,《飙据结构与算法》,高教社,B0.6
“十一五”国家级规划教材。张铭,王腾蛟,赵海燕,《数据结构与算法》,高教社,2008. 6。 词索引 ◼ 基本思想: ❑ 把正文看作由符号和词所组成的集合,从正文 中抽取出关键词,然后用这些关键词组成一些 适合快速检索的数据结构。 ◼ 适用于多种文本类型,特别是那些可以很容易 就解析成一组词的集合的文本 ❑ 适用于英文 ❑ 中文等东方文字要经过“切词”处理
全文索引 基本思想: 口把正文看作一个长的字符串 口在数据结构中记录的是子字符串的开始位置 口查询就可以针对正文中的任何子字符串 可以对每一个字符建立索引,从而使查询词不 再限于关键词 需要更大的空间 “十一五”国家缀规划教材。张铭,王腾蛟,赵海£,《飙据结构与算法》,高教社,B0.6
“十一五”国家级规划教材。张铭,王腾蛟,赵海燕,《数据结构与算法》,高教社,2008. 6。 全文索引 ◼ 基本思想: ❑ 把正文看作一个长的字符串 ❑ 在数据结构中记录的是子字符串的开始位置 ❑ 查询就可以针对正文中的任何子字符串 ◼ 可以对每一个字符建立索引,从而使查询词不 再限于关键词 ◼ 需要更大的空间