当前位置：和泉文库 > 计算机 > 浏览文档

浙江大学：《数据挖掘》课程电子教案（PPT教学课件）第五章概念描述：特征化与比较

从数据分析的角度看,数据挖掘可以分为描述性挖掘和预测性挖掘描述性挖掘:以简洁概要的方式描述数据,并提供数据的有趣的一般性质。预测性数据挖掘:通过分析数据建立一个或一组模型,并试图预测新数据集的行为。

文件格式：PPT，文件大小：917.5KB，售价：16.13元

文档详细内容（约62页）

面向属性的归纳算法输入口1.DB;2.数据挖掘查询 DMQuery;3.属性列表;4.属性的概念分层; 属性的概化临界值: 输出口主概化关系P 算法描述: 1. W+get task_ relevant data(DMQuery, DB) 2. prepare_for_generalization w) 1.扫描W,收集每个属性a的不同值 2.对每个属性a,根据临界值确定是否删除,如果不删除,则计算其最小期望层次L,并确定映射对(Vv) 3.P← generalization() 口通过使用ⅴ代替Ⅵ中每个v,累计计数并计算所有聚集值,导出P 1.每个概化元组的插入或累积计数 2.用数组表示P

面向属性的归纳算法 ◼ 输入 ❑ 1. DB; 2. 数据挖掘查询DMQuery; 3. 属性列表; 4. 属性的概念分层; 属性的概化临界值； ◼ 输出 ❑ 主概化关系P ◼ 算法描述： 1. W get_task_relevant_data(DMQuery, DB) 2. prepare_for_generalization(W) 1. 扫描W，收集每个属性a的不同值 2. 对每个属性a，根据临界值确定是否删除，如果不删除，则计算其最小期望层次L，并确定映射对(v,v`) 3. P generalization(W) ❑ 通过使用v`代替W中每个v，累计计数并计算所有聚集值，导出P 1. 每个概化元组的插入或累积计数 2. 用数组表示P

导出概化的表示(1 概化关系部分或者所有属性得到概化的关系,包含计数或其他度量值的聚集 ■交叉表口二维交叉表使用每行显示一个属性,使用每列显示另外个属性将结果集映射到表中可视化技巧: 条形图、饼图、曲线和数据立方体浏览工具(用单元的大小代表计数,用单元亮度代表另外的度量)

导出概化的表示 (1) ◼ 概化关系 ❑ 一部分或者所有属性得到概化的关系，包含计数或其他度量值的聚集 ◼ 交叉表 ❑ 二维交叉表使用每行显示一个属性，使用每列显示另外一个属性将结果集映射到表中 ❑ 可视化技巧： ◼ 条形图、饼图、曲线和数据立方体浏览工具（用单元的大小代表计数，用单元亮度代表另外的度量）

导出概化的表示(2) ■量化规贝口使用 t weight表示主概化关系中每个元组的典型性 weight=eom()∑ count(g,) 量化特征规则 ¤将概化的结果映射到相应的量化特征规则中,比如: VX,target_ class(X)= condition, (r)[t: w,]v.v conditionm(x)[t:w 量化特征规则中每个条件的析取成为目标类的一个必要条件;亦即, 如果X在目标类中,则X满足 condition、的概率是W VX, item(X)="computer"=(location(X)="Asia )[t: 25%]v.(location(X) North American")It: 45%

导出概化的表示 (2) ◼ 量化规则 ❑ 使用t_weight表示主概化关系中每个元组的典型性 ◼ 量化特征规则 ❑ 将概化的结果映射到相应的量化特征规则中，比如： = = n i a qi t weight count q count 1 _ ( )/ ( ) , arg _ ( ) ( )[ : ] ... ( )[ : ] l l m wm X t et class X  condition X t w   condition X t " ")[ : 45%] , ( ) " " ( ( ) " ")[ : 25%] ...( ( ) North American t X item X computer location X Asia t location X =  =  =  量化特征规则中每个条件的析取成为目标类的一个必要条件；亦即，如果X在目标类中，则X满足conditioni的概率是wi

特征化过程中的困难特征化过程中的两大困难 a复杂数据类型的处理口缺乏一种自动概化的过程,用户必须告诉系统哪些属性或维应该包括在类特征化中每个维应该概化到多高的程度

特征化过程中的困难 ◼ 特征化过程中的两大困难 ❑ 复杂数据类型的处理 ❑ 缺乏一种自动概化的过程，用户必须告诉系统 ◼ 哪些属性或维应该包括在类特征化中 ◼ 每个维应该概化到多高的程度

为什么进行属性相关分析? 数据仓库和OLAP系统中的多维数据分析缺乏个自动概化过程,这使得这个过程中需要有很多用户干预口用户必须告诉系统哪些维或属性应当包含在类分析中(难) ■属性太少,则造成挖掘的描述结果不正确属性太多,浪费计算、淹没知识口告诉系统每个维应当概化到多高的层次(易) 直接通过概化的临界值,说明给定维应当达到的概化程度 ■对概化层次不满意,则可以指定需要上卷或下钻的维

为什么进行属性相关分析？ ◼ 数据仓库和OLAP系统中的多维数据分析缺乏一个自动概化过程，这使得这个过程中需要有很多用户干预 ❑ 用户必须告诉系统哪些维或属性应当包含在类分析中 (难) ◼ 属性太少，则造成挖掘的描述结果不正确 ◼ 属性太多，浪费计算、淹没知识 ❑ 告诉系统每个维应当概化到多高的层次（易） ◼ 直接通过概化的临界值，说明给定维应当达到的概化程度 ◼ 对概化层次不满意，则可以指定需要上卷或下钻的维

点击进入文档下载页（PPT格式）

共62页，试读已结束，阅读完整版请下载

您可能感兴趣的文档

浙江大学：《数据挖掘》课程电子教案（PPT教学课件）第四章数据挖掘原语、语言和系统结构
浙江大学：《数据挖掘》课程电子教案（PPT教学课件）第三章数据预处理
浙江大学：《数据挖掘》课程电子教案（PPT教学课件）第二章数据仓库和数据挖掘的OLAP技术
浙江大学：《数据挖掘》课程电子教案（PPT教学课件）第一章序论（主讲教师：王灿）
浙江大学：《数据挖掘》课程电子教案（PPT教学课件）第七章分类和预测
浙江大学：《数据挖掘》课程电子教案（PPT教学课件）第九章电子商务与数据挖掘
浙江大学：《数据挖掘》课程电子教案（PPT教学课件）期末复习
浙江大学：《数据挖掘》课程电子教案（PPT教学课件）第八章聚类分析
浙江大学：《数据挖掘》课程电子教案（PPT教学课件）第六章大型数据库中的关联规则挖掘
大连理工大学：《Java语言程序设计》课程电子教案（讲稿）第三篇图形程序设计第10章 applet和高级图形界面
大连理工大学：《Java语言程序设计》课程电子教案（讲稿）第三篇图形程序设计第9章创建用户界面
大连理工大学：《Java语言程序设计》课程电子教案（讲稿）第三篇图形程序设计第8章图形程序设计入门
《网页制作宝典》第1章网页制作初识
《网页制作宝典》第10章 JavaScriptDHTML和技术
《网页制作宝典》第11章示例网页利用ASP实现交互功能
《网页制作宝典》第12章利用ADO实现网页与数据库的链接
《网页制作宝典》第2章创建站点
《网页制作宝典》第3章网页文本的处理
《网页制作宝典》第4章网页表格的处理
《网页制作宝典》第5章网页框架的处理
《网页制作宝典》第6章网页图像处理
《网页制作宝典》第7章在网页中使用超链接
《网页制作宝典》第8章网页表单的处理
《网页制作宝典》第9章美化网页

点击购买下载（PPT）

下载及服务说明

购买前请先查看本文档预览页，确认内容后再进行支付；
如遇文件无法下载、无法访问或其它任何问题，可发送电子邮件反馈，核实后将进行文件补发或退款等其它相关操作；
邮箱：

文档浏览记录