1数据仓库 1.1数据仓库的定义、特征和结构 前端应用工具 数据仓库工具层 OLAP 数据挖掘工具 最终用户 多维分析工具 DSS/ EIS ■■■ 数据挖掘 数据仓库的 回流 高度综合数据 般概念结构 数据库 清洗 数据仓库层 羟度综合 其他数据输入 数据 重新格式化 当前细节数据 元数据 备注:" 表示关系型数据 早期细节数据 H:表示多维数据
1.1 数据仓库的定义、特征和结构 1 数据仓库 高度综合数据 轻度综合 数据 早期细节数据 备注: " " " " 数 据 仓 库 工 具 层 多维分析工具 数据挖掘工具 前端应用工具 最终用户 : 表示关系型数据 : 表示多维数据 数据仓库的一 般概念结构 元 数 据 当前细节数据 数 据 仓 库 层 数据库 其他数据输入 清洗 回流 重新格式化 OLAP DSS/ EIS 数据挖掘
1数据仓库 12数据仓库的元数据 元数据的定义 通常被定义为“关于数据的数据” CIESIN的定义:元数据是关于数据和信息资源的描 述信息。它们描述、指示或者补充与之相关的信息 的内容 USGS的定乂:元数据描述数据的内容、质量、条 件和其他特征,元数据帮助人们定位数据和理解数 据 IEEE提出了的一个比较系统的定义:元数据是关于 信息实体的语义、结构、存储、管理和使用的信息, 以及实体之间的关系、导出/派生的信息和历史记录
• 元数据的定义 – 通常被定义为“关于数据的数据” – CIESIN的定义:元数据是关于数据和信息资源的描 述信息。它们描述、指示或者补充与之相关的信息 的内容 – USGS的定义:元数据描述数据的内容、质量、条 件和其他特征,元数据帮助人们定位数据和理解数 据 – IEEE提出了的一个比较系统的定义:元数据是关于 信息实体的语义、结构、存储、管理和使用的信息, 以及实体之间的关系、导出/派生的信息和历史记录 等 1.2 数据仓库的元数据 1 数据仓库
1数据仓库 12数据仓库的元数据 数据仓库中元数据的分类 从操作型环境相数据仓库环境转换而建立的元数据, 包括数据字典信息、主题信息、外部和非结构化数 据信息及其在数据仓库中的转换规则等 为管理数据仓库中的数据而建立的元数据,一方面, 要划分不同的粒度层次,选择分割策略,建立索引。 另一方面,数据仓库中包含着较长时期内的数据, 不同时期不同的需求使得其数据从“形式”到“内 容”都可能不同 用来与多维模型/前端工具之间建立映射的元数据, 也称为DSS元数据,包括数据的抽取历史、抽取粒 度和广义索引等信息
• 数据仓库中元数据的分类 – 从操作型环境相数据仓库环境转换而建立的元数据, 包括数据字典信息、主题信息、外部和非结构化数 据信息及其在数据仓库中的转换规则等 – 为管理数据仓库中的数据而建立的元数据,一方面, 要划分不同的粒度层次,选择分割策略,建立索引。 另一方面,数据仓库中包含着较长时期内的数据, 不同时期不同的需求使得其数据从“形式”到“内 容”都可能不同。 – 用来与多维模型/前端工具之间建立映射的元数据, 也称为DSS元数据,包括数据的抽取历史、抽取粒 度和广义索引等信息。 1.2 数据仓库的元数据 1 数据仓库
1数据仓库 12数据仓库的元数据 数据仓库中元数据的内容 数据仓库的主题描述:主题名,主题的公共码键,有关描述 信息等 外部数据和非结构化数据的描述:外部数据源名,存储地点, 存储内容简述 记录系统定义:主题名,属性名,数据源系统,源表名,源 属性名 逻辑模型的定义:如关系名,属性1,属性2,属性3,,属 性 数据进入数据仓库的转换规则 数据的抽取历史 粒度的定义 数据分割的定义 广义索引:广义索引名,属性1,属性2,…,属性n 有关存储路径和结构的描述
• 数据仓库中元数据的内容 – 数据仓库的主题描述:主题名,主题的公共码键,有关描述 信息等。 – 外部数据和非结构化数据的描述:外部数据源名,存储地点, 存储内容简述。 – 记录系统定义:主题名,属性名,数据源系统,源表名,源 属性名。 – 逻辑模型的定义:如关系名,属性1,属性2,属性3,…,属 性n – 数据进入数据仓库的转换规则 – 数据的抽取历史 – 粒度的定义 – 数据分割的定义 – 广义索引:广义索引名,属性1,属性2,…,属性n – 有关存储路径和结构的描述 1.2 数据仓库的元数据 1 数据仓库
1数据仓库 13数据仓库的数据模型 基本概念 变量:也称度量,是指数据的实际含义,即描述数 据“是什么”,如销售量等 维:是人们观察数据的特定角度。通常时间都是 个维,还有地理位置。 维层次:维存在细节程度不同的多个描述方面,这 些描述方面称作维层次 维成员:维的取值称为该维的一个维成员 多维数组:可表示为(维1,维2,,维n,变量) 数据单元:多维数组的取值称为数据单元 多维数据库:以多维方式来组织和显示数据,多维 数据库可理解为一个“超立方”块结构
• 基本概念 – 变量:也称度量,是指数据的实际含义,即描述数 据“是什么”,如销售量等 – 维:是人们观察数据的特定角度。通常时间都是一 个维,还有地理位置。 – 维层次:维存在细节程度不同的多个描述方面,这 些描述方面称作维层次。 – 维成员:维的取值称为该维的一个维成员。 – 多维数组:可表示为(维1,维2,…,维n,变量) – 数据单元:多维数组的取值称为数据单元 – 多维数据库:以多维方式来组织和显示数据,多维 数据库可理解为一个“超立方”块结构 1.3 数据仓库的数据模型 1 数据仓库