数据仓库 概述 >两种数据操作:OLTP&OLAP ■OLTP(on-line transaction processing),联机事务处理 ◆传统关系数据库管理系统的主要任务 ◆日常操作:购物,库存,制造,银行,工资,注册,记账等。 ■OLAP(on--line analytical processing),联机分析处理 ◆数据仓库系统的主要任务 ◆数据分析和决策制定 ■区别(OLTP vs.OLAP): ◆用户和系统的面向性:顾客一一事务和查询(办事员,打工仔)与市场—数据 分析(知识工人,老板) ◆数据内容:当前的,细节的VS.历史的,汇总聚集的 ◆数据库设计:E-R+业务应用Vs.星形、雪花型+主题 ◆视图:当前的,局部的Vs.进化的,集成的 ◆访问模式:更新vs.只读但查询复杂 学以致用 DATABASE@UESTC 用以促学
学以致用 DATABASE@UESTC 用以促学 两种数据操作:OLTP & OLAP OLTP (on-line transaction processing),联机事务处理 传统关系数据库管理系统的主要任务 日常操作:购物,库存,制造,银行,工资,注册,记账等。 OLAP (on-line analytical processing),联机分析处理 数据仓库系统的主要任务 数据分析和决策制定 区别 (OLTP vs. OLAP): 用户和系统的面向性:顾客——事务和查询(办事员,打工仔) 与 市场——数据 分析(知识工人,老板) 数据内容: 当前的,细节的 vs. 历史的, 汇总聚集的 数据库设计: E-R + 业务应用 vs. 星形、雪花型 + 主题 视图: 当前的,局部的 vs. 进化的,集成的 访问模式: 更新 vs. 只读 但查询复杂
S 数据仓库 概述 ☒ >为什么需要分离数据仓库? ■ 提高两个系统的性能 ◆数据库一为了OLTP,关注业务处理能力及性能:增、删、改,并发访问 、数据恢复 ◆数据仓库一为了OLAP,关注复杂OLAP查询,多维视图 ■不同的功能和不同的数据: ◆数据不全 ◆数据聚合 ◆数据质量 ■Note:越来越多的系统直接在DBMS上进行 学以致用 DATABASE@UESTC 用以促学
学以致用 DATABASE@UESTC 用以促学 为什么需要分离数据仓库? 提高两个系统的性能 数据库— 为了OLTP,关注业务处理能力及性能:增、删、改,并发访问 、数据恢复 数据仓库 —为了OLAP,关注复杂OLAP查询,多维视图 不同的功能和不同的数据: 数据不全 数据聚合 数据质量 Note: 越来越多的系统直接在DBMS上进行
数据仓库 概述 36 >数据仓库的定义 ■数据仓库是一个面向主题的、集成的、时变的和非易失的数据 集合,支持管理部门的决策过程。W.H.Inmon 企业数据仓库 旧数据 操作数据 外部数据 分析性报告 数据集市 学以致用 DATABASE@UESTC 用以促学
学以致用 DATABASE@UESTC 用以促学 数据仓库的定义 数据仓库是一个面向主题的、集成的、时变的和非易失的数据 集合,支持管理部门的决策过程。W. H. Inmon
数据仓库 概述 ☒ 数据仓库中数据特,点 ■面向主题的 ◆围绕主题组织数据,如顾客、产品、销售等。 ◆关注决策者的数据建模与分析,而不是组织机构的日常操作和事务处理。 ◆提供特定主题的简明视图,排除对于决策支持过程无用的数据。 ■集成的 ◆由多个异构数据源集成构建:关系数据库,平面文件,联机事务记录 ◆应用数据清理和数据集成技术:确保命名约定,编码结构,属性度量等一致性; 将数据迁入数据仓库时需要进行数据转换 学以致用 DATABASE@UESTC 用以促学
学以致用 DATABASE@UESTC 用以促学 数据仓库中数据特点 面向主题的 围绕主题组织数据, 如顾客、产品、销售等。 关注决策者的数据建模与分析,而不是组织机构的日常操作和事务处理。 提供特定主题的简明视图,排除对于决策支持过程无用的数据。 集成的 由多个异构数据源集成构建:关系数据库,平面文件,联机事务记录 应用数据清理和数据集成技术:确保命名约定,编码结构,属性度量等一致性; 将数据迁入数据仓库时需要进行数据转换
数据仓库 概述 936 >数据仓库中数据特点 ■时变的 ◆数据仓库中数据的时间范围比业务操作系统中长得多:业务操作数据库 →当前数据;数据仓库→提供历史数据信息(如过去5-10年) ◆数据仓库中的数据必须以一定时间段为单位进行统一更新。 ■非易失的(不可更新的) ◆物理存储:与操作环境分离,虽然来自其中。 ◆数据仓库环境中不发生数据更新操作 ◆只需要两种数据操作:数据初始化装入和数据访问 ◆数据仓库的存储管理相对于DBMS简单得多:不需要事务处理,恢复和并 发控制机制 ◆注:有时也可写回分析结果 学以致用 DATABASE@UESTC 用以促学
学以致用 DATABASE@UESTC 用以促学 数据仓库中数据特点 时变的 数据仓库中数据的时间范围比业务操作系统中长得多:业务操作数据库 当前数据;数据仓库提供历史数据信息 (如过去5-10年) 数据仓库中的数据必须以一定时间段为单位进行统一更新。 非易失的 (不可更新的) 物理存储:与操作环境分离,虽然来自其中。 数据仓库环境中不发生数据更新操作 只需要两种数据操作:数据初始化装入和数据访问 数据仓库的存储管理相对于DBMS简单得多:不需要事务处理,恢复和并 发控制机制 注:有时也可写回分析结果