数据仓库与异种数据库集成 传统的异种数据库集成: 口在多个异种数据库上建立包装程序( wrappers)和中介程序 (mediators 口查询驱动方法——当从客户端传过来一个查询时,首先使用 元数据字典将查询转换成相应异种数据库上的查询;然后, 将这些查询映射和发送到局部查询处理器 口缺点:复杂的信息过虑和集成处理,竞争资源 ■数据仓库:更新驱动 口将来自多个异种源的信息预先集成,并存储在数据仓库中 供直接查询和分析 高性能
数据仓库与异种数据库集成 ◼ 传统的异种数据库集成: ❑ 在多个异种数据库上建立包装程序(wrappers)和中介程序 (mediators ) ❑ 查询驱动方法——当从客户端传过来一个查询时,首先使用 元数据字典将查询转换成相应异种数据库上的查询;然后, 将这些查询映射和发送到局部查询处理器 ❑ 缺点:复杂的信息过虑和集成处理,竞争资源 ◼ 数据仓库: 更新驱动 ❑ 将来自多个异种源的信息预先集成,并存储在数据仓库中, 供直接查询和分析 ❑ 高性能
OLTP系统和OLAP系统的比较 特征 OLTP OLAP 任务特点操作处理 信息处理 面向 事务 分析 用户 办事员、DBA、数据库专业人员经理、主管、数据分析员 功能 日常操作 长期信息分析、决策支持 DB设计基于ER,面向应用 星型雪花,面向主体 数据 最新的、详细的 历史的、汇总的 视图 详细的、二维关系型 汇总的、多维的 任务单位简短的事务 复杂的查询 访问数据量数十个 数百万个 用户数 数千个 数百个 DB规模 100M-数GB 100GB-数TB 优先性 高性能、高可用性 高灵活性、端点用户自治 度量 事务吞吐量 查询吞吐量、响应时间
OLTP系统和OLAP系统的比较 特征 OLTP OLAP 任务特点 操作处理 信息处理 面向 事务 分析 用户 办事员、DBA、数据库专业人员 经理、主管、数据分析员 功能 日常操作 长期信息分析、决策支持 DB设计 基于E-R,面向应用 星型/雪花,面向主体 数据 最新的、详细的 历史的、汇总的 视图 详细的、二维关系型 汇总的、多维的 任务单位 简短的事务 复杂的查询 访问数据量 数十个 数百万个 用户数 数千个 数百个 DB规模 100M-数GB 100GB-数TB 优先性 高性能、高可用性 高灵活性、端点用户自治 度量 事务吞吐量 查询吞吐量、响应时间
从关系表和电子表格到数据立方体 ■数据仓库和数据仓库技术基于多维数据模型。这个模型把数据看 作是数据立方体形式。多维数据模型围绕中心主题组织,该主题 用享实表表示。享实是数值度量的 数据立方体允许以多维数据建模和观察。它由维和事实定义 维是关于一个组织想要记录的视角或观点。每个维都有一个表与 之相关联,称为维表。 享实表包括事实的名称或度量以及每个相关维表的关键字 在数据仓库的研究文献中,一个n维的数据的立方体叫做基本方体。 给定一个维的集合,我们可以构造一个方体的格,每个都在不同 的汇总级或不同的数据子集显示数据,方体的格称为数据立方体。 0维方体存放最高层的汇总,称作顶点方体;而存放最底层汇总的 方体则称为基本方体
从关系表和电子表格到数据立方体 ◼ 数据仓库和数据仓库技术基于多维数据模型。这个模型把数据看 作是数据立方体形式。多维数据模型围绕中心主题组织,该主题 用事实表表示。事实是数值度量的。 ◼ 数据立方体允许以多维数据建模和观察。它由维和事实定义。 ◼ 维是关于一个组织想要记录的视角或观点。每个维都有一个表与 之相关联,称为维表。 ◼ 事实表包括事实的名称或度量以及每个相关维表的关键字 ◼ 在数据仓库的研究文献中,一个n维的数据的立方体叫做基本方体。 给定一个维的集合,我们可以构造一个方体的格,每个都在不同 的汇总级或不同的数据子集显示数据,方体的格称为数据立方体。 0维方体存放最高层的汇总,称作顶点方体;而存放最底层汇总的 方体则称为基本方体
度量的分类 个数据立方体的度量是一个数值函数,该函数可以 对数据立方体的每一个点求值。度量可以根据其所用 的聚集函数分为三类: a分布的( distributive):将函数用于n个聚集值得到的结果和将 函数用于所有数据得到的结果一样。 比如: count0,sum(),min0,max)等 口代数的( algebraic):函数可以由一个带M个参数的代数函数 计算(M为有界整数),而每个参数值都可以有一个分布的 聚集函数求得 比如:avg0,minN(O, standard deviation0 口整体的( holistic):描述函数的子聚集所需的存储没有一个常 数界 比如: median0,mode0,rank0
度量的分类 ◼ 一个数据立方体的度量是一个数值函数,该函数可以 对数据立方体的每一个点求值。度量可以根据其所用 的聚集函数分为三类: ❑ 分布的(distributive):将函数用于n个聚集值得到的结果和将 函数用于所有数据得到的结果一样。 ◼ 比如:count(),sum(),min(),max()等 ❑ 代数的(algebraic):函数可以由一个带M个参数的代数函数 计算(M为有界整数),而每个参数值都可以有一个分布的 聚集函数求得。 ◼ 比如:avg(),min_N(),standard_deviation() ❑ 整体的(holistic):描述函数的子聚集所需的存储没有一个常 数界。 ◼ 比如:median(),mode(),rank()
概念分层: location维的一个概念分层 a region Europe North america country Germany ain anada Mexico city Frankfurt Vancouver Toronto office L Chan.. M. Wind
概念分层:location维的一个概念分层 all Europe North_America Germany Spain Canada Mexico Vancouver L. Chan M. Wind ... ... ... ... ... ... all region office country city Frankfurt Toronto