信息检索与数据挖掘 2019/3/71 信息检索与数据挖掘 第4章索引构建与索引压缩 一一第一讲索引构建
信息检索与数据挖掘 2019/3/7 1 信息检索与数据挖掘 第4章 索引构建与索引压缩 ——第一讲 索引构建
信息检索与数据挖掘 2019/3/73 第一讲:索引构建 ·索引构建(Index Construction或Indexing) ·构建索引的程序或计算机称倒排器(索引器,Indexer) 3
信息检索与数据挖掘 2019/3/7 3 •第一讲:索引构建 • 索引构建(Index Construction 或 Indexing) • 构建索引的程序或计算机称倒排器(索引器, Indexer) 3
信息检索与数据挖掘 2019/3/74 索引构建 (Index construction) ·思考如下问题: ·我们怎样建立一个索引? ·对于给定的计算机内存,我们可以采用怎样的索引构建 策略? How do we construct an index? What strategies can we use with limited main memory? 4
信息检索与数据挖掘 2019/3/7 4 索引构建 (Index construction) •思考如下问题: • 我们怎样建立一个索引? • 对于给定的计算机内存,我们可以采用怎样的索引构建 策略? • How do we construct an index? • What strategies can we use with limited main memory? 4
信息检索与数据挖掘 2019/3/75 索引构建 ·硬件基础 ·语料库介绍 ·索引构建算法 ·分布式索引构建 ·动态索引 5
信息检索与数据挖掘 2019/3/7 5 索引构建 • 硬件基础 • 语料库介绍 • 索引构建算法 • 分布式索引构建 • 动态索引 5
信息检索与数据挖掘 2019/3/76 典型硬件性能参数(2007年水平) 符号 含义 值 S 平均寻道时间 5ms=5x10-3s b 每个字节的传输时间 0.02μs=2x10-8s 处理器时钟频率 109s-1(也就是GHz) 底层操作时间 0.01μs=10-8s (如单词的比较或者交换) 内存大小 几个GB 磁盘空间大小 1TB或者更多 存储 (硬磁盘/SSD、内存) 计算 (CPU架构、主频) I/O(磁盘←→内存←→CPU) 6
信息检索与数据挖掘 2019/3/7 6 典型硬件性能参数(2007年水平) 符号 含义 值 s 平均寻道时间 5ms = 5 x 10−3s b 每个字节的传输时间 0.02 μs = 2 x 10−8s 处理器时钟频率 109 s −1(也就是GHz) p 底层操作时间 (如单词的比较或者交换) 0.01μs = 10−8s 内存大小 几个GB 磁盘空间大小 1TB或者更多 存储(硬磁盘/SSD、内存) 计算(CPU架构、主频) I/O(磁盘内存CPU) 6