数据概化:数据立方体方法 执行计算并将结果存储在数据立方体中 优点: 口数据概化的一种有效实现 口可以计算各种不同的度量值 比如: count),sum(, average(0,max() 口概化和特惩分析通过一系列的数据立方体操作完成,比如上 ■缺点 °毋署蒜整蘖桊的醌宮筆萋獒墊翟星犧您分套 ¤缺乏智能分析,不能自动确定分析中该使用哪些维,应该概 化到哪个层次
数据概化:数据立方体方法 ◼ 执行计算并将结果存储在数据立方体中 ◼ 优点: ❑ 数据概化的一种有效实现 ❑ 可以计算各种不同的度量值 ◼ 比如:count(), sum(), average(), max() ❑ 概化和特征分析通过一系列的数据立方体操作完成,比如上 卷、下钻等 ◼ 缺点 ❑ 只能处理非数值类型的维和简单聚集数值类型的度量值(大 部分现有商业系统中,只能为非数值类型的维产生概念分层) ❑ 缺乏智能分析,不能自动确定分析中该使用哪些维,应该概 化到哪个层次
面向属性的归纳 种面向关系数据查询的、基于汇总的在线数据分析 技术。 受数据类型和度量类型的约束比较少 ■面向属性归纳的基本思想: ¤使用关系数据库査询收集任务相关的数据 ¤通过考察任务相关数据中每个属性的不同值的个数进行概化, 方法是属性删除或者是属性概化 ¤通过合并相等的,概化的广义元组,并累计他们对应的计数 值进行聚集操作 a通过与用户交互,将广义关系以图表或规则等形式,提交给 用户
面向属性的归纳 ◼ 一种面向关系数据查询的、基于汇总的在线数据分析 技术。 ◼ 受数据类型和度量类型的约束比较少 ◼ 面向属性归纳的基本思想: ❑ 使用关系数据库查询收集任务相关的数据 ❑ 通过考察任务相关数据中每个属性的不同值的个数进行概化, 方法是属性删除或者是属性概化 ❑ 通过合并相等的,概化的广义元组,并累计他们对应的计数 值进行聚集操作 ❑ 通过与用户交互,将广义关系以图表或规则等形式,提交给 用户
面向属性的归纳的基本步骤 数据聚焦,获得初始工作关系 进行面向属性的归纳 口基本操作是数据概化,对有大量不同值的属性,进 行进一步概化 ■属性删除 ■属性概化 ¤属性概化控制:控制概化过程,确定有多少不同的 值才算是有大量不同值的属性 属性概化临界值控制 概化关系临界值控制
面向属性的归纳的基本步骤 ◼ 数据聚焦,获得初始工作关系 ◼ 进行面向属性的归纳 ❑ 基本操作是数据概化,对有大量不同值的属性,进 行进一步概化 ◼ 属性删除 ◼ 属性概化 ❑ 属性概化控制:控制概化过程,确定有多少不同的 值才算是有大量不同值的属性 ◼ 属性概化临界值控制 ◼ 概化关系临界值控制
数据聚焦(1) 目的是获得跟任务相关的数据集,包括属性或维,在 DMQL中他们由 in relevance to子句表示 示例 口DMQL:描述Big- Universit!y数据库中研笼生的一般特征 use Big University DB mine charas七eris七 ics as science students" in relevance to name, gender, major, birth place r birth date, residence, phone#, gpa from studen七 where status in graduate
数据聚焦 (1) ◼ 目的是获得跟任务相关的数据集,包括属性或维,在 DMQL中他们由in relevance to子句表示。 ◼ 示例: ❑ DMQL: 描述Big-University数据库中研究生的一般特征 use Big_University_DB mine characteristics as “Science_Students” in relevance to name, gender, major, birth_place, birth_date, residence, phone#, gpa from student where status in “graduate
数据聚焦(2) ¤将数据挖掘査询转换为关系查询 Select name, gender, major, birth place r birth date, residence, phone#, gpa from student where status in (Msc,"MBA"PhD"] 数据聚焦时的困难 口用户在指定相关的数据集方面存在困难,遗漏在描 述中可能起作用的属性 口用户可能引进太多的属性
数据聚焦 (2) ❑ 将数据挖掘查询转换为关系查询 Select name, gender, major, birth_place, birth_date, residence, phone#, gpa from student where status in {“Msc”, “MBA”, “PhD” } ◼ 数据聚焦时的困难 ❑ 用户在指定相关的数据集方面存在困难,遗漏在描 述中可能起作用的属性 ❑ 用户可能引进太多的属性