多维数据模型上的OLAP操作 上卷(roup):汇总数据 口通过一个维的概念分层向上攀升或者通过维规约 下钻(dr"-down):上卷的逆操作 口由不太详细的数据到更详细的数据,可以通过沿维的概念分层向下 或引入新的维采实 切片和切块s| lice and dice) ¤投影和选择操作 转轴( pivot 口立方体的重定位,可视化,或将一个3维立方体转化维一个2维平 面序列 其他OLAP操作 口钻过( drill across):执行涉及多个事实表的查询 口钻透( drill through):使用关系SQL机制,钻到数据立方体的底层, 到后端关系表
多维数据模型上的OLAP操作 ◼ 上卷(roll-up):汇总数据 ❑ 通过一个维的概念分层向上攀升或者通过维规约 ◼ 下钻(drill-down):上卷的逆操作 ❑ 由不太详细的数据到更详细的数据,可以通过沿维的概念分层向下 或引入新的维来实现 ◼ 切片和切块(slice and dice) ❑ 投影和选择操作 ◼ 转轴(pivot) ❑ 立方体的重定位,可视化,或将一个3维立方体转化维一个2维平 面序列 ◼ 其他OLAP操作 ❑ 钻过(drill_across):执行涉及多个事实表的查询 ❑ 钻透(drill_through):使用关系SQL机制,钻到数据立方体的底层, 到后端关系表
数据仓库设计的四种视图 数据仓库设计的四种视图 a自顶向下视图 允许我们选择数据仓库所需的相关信息 口数据源视图 ■揭示被操作数据库系统所捕获、存储和管理的信息 a数据仓库视图 有事实表和维表所组成 口商务查询视图 从最终用户的角度透视数据仓库中的数据
数据仓库设计的四种视图 ◼ 数据仓库设计的四种视图 ❑ 自顶向下视图 ◼ 允许我们选择数据仓库所需的相关信息 ❑ 数据源视图 ◼ 揭示被操作数据库系统所捕获、存储和管理的信息 ❑ 数据仓库视图 ◼ 有事实表和维表所组成 ❑ 商务查询视图 ◼ 从最终用户的角度透视数据仓库中的数据
三种数据仓库模型 企业仓库 ¤搜集关于跨越整个组织的主题的所有信息 数据集市 口企业范围数据的一个子集,对于特定的客户是有用的。其范 围限于选定的主题,比如一个商场的数据集市 独立的数据集市VS.非独立的数据集市(数据来自于企业数据 仓库) 虚拟仓库 ¤操作数据库上的一系列视图 a只有一些可能的汇总视图被物化
三种数据仓库模型 ◼ 企业仓库 ❑ 搜集关于跨越整个组织的主题的所有信息 ◼ 数据集市 ❑ 企业范围数据的一个子集,对于特定的客户是有用的。其范 围限于选定的主题,比如一个商场的数据集市 ◼ 独立的数据集市 VS. 非独立的数据集市(数据来自于企业数据 仓库) ◼ 虚拟仓库 ❑ 操作数据库上的一系列视图 ❑ 只有一些可能的汇总视图被物化
OLAP服务器类型 逻辑上,OLAP服务器从数据仓库或数据集市中给商业用户提供多 维数据 物理上,OLAP的底层数据存储实现可以有多种不同的方式 口关系OLAP服务器( ROLAP) 使用关系数据库或扩展的关系数据库存放并管理数据仓库的数据,而 用OLAP中间件支持其余部分 包括每个DBMS后端优化,聚集导航逻辑的实现,附加的工具和服务 较大的可扩展性 口多维OLAP服务器 MOLAP) 基于数组的多维存储引擎(稀疏矩阵技术) 能对预计算的汇总数据快速索引 口混合OLAP服务器( HOLAP) 结合上述两种技术,更大的使用灵活性 口特殊的SQL服务器 在星型和雪花模型上支持SQL査询
OLAP服务器类型 ◼ 逻辑上,OLAP服务器从数据仓库或数据集市中给商业用户提供多 维数据 ◼ 物理上,OLAP的底层数据存储实现可以有多种不同的方式 ❑ 关系OLAP服务器(ROLAP) ◼ 使用关系数据库或扩展的关系数据库存放并管理数据仓库的数据,而 用OLAP中间件支持其余部分 ◼ 包括每个DBMS后端优化,聚集导航逻辑的实现,附加的工具和服务 ◼ 较大的可扩展性 ❑ 多维OLAP服务器(MOLAP) ◼ 基于数组的多维存储引擎(稀疏矩阵技术) ◼ 能对预计算的汇总数据快速索引 ❑ 混合OLAP服务器(HOLAP) ◼ 结合上述两种技术,更大的使用灵活性 ❑ 特殊的SQL服务器 ◼ 在星型和雪花模型上支持SQL查询
方体计算的多路数组聚集方法(1) 将数组分成块( chunk,一个可以装入内存的小子方) 压缩的稀疏数组寻址:( chunk id,ofet) 通过访问立方体单元,计算聚集。可以优化访问单元组的次序, 使得每个单元被访问的次数最小化,从而减少内存访问和磁盘O 的开销。 Cites e C245246448 13141516 哪个是多路数组 6 聚集的最佳遍历 b2 B(city b 951 次序? 2 4 ao al 2 3 a(month)
方体计算的多路数组聚集方法(1) ◼ 将数组分成块(chunk,一个可以装入内存的小子方) ◼ 压缩的稀疏数组寻址:(chunk_id, offset) ◼ 通过访问立方体单元,计算聚集。可以优化访问单元组的次序, 使得每个单元被访问的次数最小化,从而减少内存访问和磁盘I/O 的开销。 A(month) B 29 30 31 32 1 2 3 4 5 9 13 14 15 16 61 62 63 64 45 46 47 48 a0 a1 c3 c2 c1 c 0 b3 b2 b1 b0 a2 a3 C(item) B(city) 44 28 56 40 24 52 36 20 60 哪个是多路数组 聚集的最佳遍历 次序?