面向属性的归纳算法 输入 口1.DB;2.数据挖掘查询 DMQuery;3.属性列表;4.属性的概念分层; 属性的概化临界值: 输出 口主概化关系P 算法描述: 1. W+get task_ relevant data(DMQuery, DB) 2. prepare_for_generalization w) 1.扫描W,收集每个属性a的不同值 2.对每个属性a,根据临界值确定是否删除,如果不删除,则计算其最小 期望层次L,并确定映射对(Vv) 3.P← generalization() 口通过使用ⅴ代替Ⅵ中每个v,累计计数并计算所有聚集值,导出P 1.每个概化元组的插入或累积计数 2.用数组表示P
面向属性的归纳算法 ◼ 输入 ❑ 1. DB; 2. 数据挖掘查询DMQuery; 3. 属性列表; 4. 属性的概念分层; 属性的概化临界值; ◼ 输出 ❑ 主概化关系P ◼ 算法描述: 1. W get_task_relevant_data(DMQuery, DB) 2. prepare_for_generalization(W) 1. 扫描W,收集每个属性a的不同值 2. 对每个属性a,根据临界值确定是否删除,如果不删除,则计算其最小 期望层次L,并确定映射对(v,v`) 3. P generalization(W) ❑ 通过使用v`代替W中每个v,累计计数并计算所有聚集值,导出P 1. 每个概化元组的插入或累积计数 2. 用数组表示P
导出概化的表示(1 概化关系 部分或者所有属性得到概化的关系,包含计数或其他 度量值的聚集 ■交叉表 口二维交叉表使用每行显示一个属性,使用每列显示另外 个属性将结果集映射到表中 可视化技巧: 条形图、饼图、曲线和数据立方体浏览工具(用单元的大小代 表计数,用单元亮度代表另外的度量)
导出概化的表示 (1) ◼ 概化关系 ❑ 一部分或者所有属性得到概化的关系,包含计数或其他 度量值的聚集 ◼ 交叉表 ❑ 二维交叉表使用每行显示一个属性,使用每列显示另外 一个属性将结果集映射到表中 ❑ 可视化技巧: ◼ 条形图、饼图、曲线和数据立方体浏览工具(用单元的大小代 表计数,用单元亮度代表另外的度量)
导出概化的表示(2) ■量化规贝 口使用 t weight表示主概化关系中每个元组的典型性 weight=eom()∑ count(g,) 量化特征规则 ¤将概化的结果映射到相应的量化特征规则中,比如: VX,target_ class(X)= condition, (r)[t: w,]v.v conditionm(x)[t:w 量化特征规则中每个条件的析取成为目标类的一个必要条件;亦即, 如果X在目标类中,则X满足 condition、的概率是W VX, item(X)="computer"=(location(X)="Asia )[t: 25%]v.(location(X) North American")It: 45%
导出概化的表示 (2) ◼ 量化规则 ❑ 使用t_weight表示主概化关系中每个元组的典型性 ◼ 量化特征规则 ❑ 将概化的结果映射到相应的量化特征规则中,比如: = = n i a qi t weight count q count 1 _ ( )/ ( ) , arg _ ( ) ( )[ : ] ... ( )[ : ] l l m wm X t et class X condition X t w condition X t " ")[ : 45%] , ( ) " " ( ( ) " ")[ : 25%] ...( ( ) North American t X item X computer location X Asia t location X = = = 量化特征规则中每个条件的析取成为目标类的一个必要条件;亦即, 如果X在目标类中,则X满足conditioni的概率是wi
特征化过程中的困难 特征化过程中的两大困难 a复杂数据类型的处理 口缺乏一种自动概化的过程,用户必须告诉系统 哪些属性或维应该包括在类特征化中 每个维应该概化到多高的程度
特征化过程中的困难 ◼ 特征化过程中的两大困难 ❑ 复杂数据类型的处理 ❑ 缺乏一种自动概化的过程,用户必须告诉系统 ◼ 哪些属性或维应该包括在类特征化中 ◼ 每个维应该概化到多高的程度
为什么进行属性相关分析? 数据仓库和OLAP系统中的多维数据分析缺乏 个自动概化过程,这使得这个过程中需要有 很多用户干预 口用户必须告诉系统哪些维或属性应当包含在类分析 中(难) ■属性太少,则造成挖掘的描述结果不正确 属性太多,浪费计算、淹没知识 口告诉系统每个维应当概化到多高的层次(易) 直接通过概化的临界值,说明给定维应当达到的概化程度 ■对概化层次不满意,则可以指定需要上卷或下钻的维
为什么进行属性相关分析? ◼ 数据仓库和OLAP系统中的多维数据分析缺乏 一个自动概化过程,这使得这个过程中需要有 很多用户干预 ❑ 用户必须告诉系统哪些维或属性应当包含在类分析 中 (难) ◼ 属性太少,则造成挖掘的描述结果不正确 ◼ 属性太多,浪费计算、淹没知识 ❑ 告诉系统每个维应当概化到多高的层次 (易) ◼ 直接通过概化的临界值,说明给定维应当达到的概化程度 ◼ 对概化层次不满意,则可以指定需要上卷或下钻的维