当前位置：和泉文库 > 计算机 > 浏览文档

《数据把掘概念与技术》第七章决策树和决策规则

一、分析解决分类问题的基于逻辑的方法的特性二、描述决策树和决策规则在最终分类模型中的表述之间的区别三、介绍C4.5算法. 四、了解采用修剪方法降低决策树和决策规则的复杂度

文件格式：PPT，文件大小：342.5KB，售价：10.32元

文档详细内容（约36页）

ID3算法的基本思路从树的根节点处的所有训练样本开始,选取一个属性来划分这些样本。对属性的每值产生一分枝。分枝属性值的相应样本子集被移到新生成的子节点上。 2.这个算法递归地应用于每个子节点,直到个节点上的所有样本都分区到某个类中。 3.到达决策树的叶节点的每条路径表示分类规则

◼ ID3算法的基本思路： 1. 从树的根节点处的所有训练样本开始，选取一个属性来划分这些样本。对属性的每一个值产生一分枝。分枝属性值的相应样本子集被移到新生成的子节点上。 2. 这个算法递归地应用于每个子节点，直到一个节点上的所有样本都分区到某个类中。 3. 到达决策树的叶节点的每条路径表示一个分类规则

该算法的关键性决策是对节点属性值的选择。ID3和C4.5算法的属性选择的基础是基于使节点所含的信息熵最小化。基于信息论的方法坚持对数据库中一个样本进行分类时所做检验的数量最小。ID3的属性选择是根据个假设,即:决策树的复杂度和所给属性值表达的信息量是密切相关的。基于信息的试探法选择的是可以给出最高信息的属性,即这个属性是使样本分类的结果子树所需的信息最小

◼ 该算法的关键性决策是对节点属性值的选择。ID3和C4.5算法的属性选择的基础是基于使节点所含的信息熵最小化。 ◼ 基于信息论的方法坚持对数据库中一个样本进行分类时所做检验的数量最小。ID3的属性选择是根据一个假设，即：决策树的复杂度和所给属性值表达的信息量是密切相关的。基于信息的试探法选择的是可以给出最高信息的属性，即这个属性是使样本分类的结果子树所需的信息最小

7,24.5算法:生成一个决策树 C4.5算法最重要的部分是由一组训练样本生成一个初始决策树的过程。决策树可以用来对一个新样本进行分类,这种分类从该树的根节点开始,然后移动样本直至达叶节点。在每个非叶决策点处,确定该节点的属性检验结果,把注意力转移到所选择子树的根节点上

7.2 C4.5算法：生成一个决策树 ◼ C4.5算法最重要的部分是由一组训练样本生成一个初始决策树的过程。决策树可以用来对一个新样本进行分类，这种分类从该树的根节点开始，然后移动样本直至达叶节点。在每个非叶决策点处，确定该节点的属性检验结果，把注意力转移到所选择子树的根节点上

例如,如图73a为决策树分类模型,待分类有样本如图73b所示,由决策树分类模型可得出待分类样本为类2。(节点ACF(叶节点) (属性1>5) A 假属性值 B)(属性2=“黑”)(C)(属性3=“否”) 属性 5 假真假属性2 黑属性3 否 E F G 类类2 类2 类 a)决策树 b)分类的例子图7-3基于决策树模型的一个新样本的分类

◼ 例如，如图7-3a为决策树分类模型，待分类有样本如图7-3b所示，由决策树分类模型可得出待分类样本为类2。(节点A,C,F(叶节点))

C45算法的构架是基于亨特的CLS方法其通过一组训练样本「构造一个决策树用{C1CCk来表示这些类,集合T所含的内容信息有3种可能性丁包含一个或更多的样本,全部属于单个的类C那么的决策树是曲类C标识的个叶节点 2.T不包含样本。决策树也是一个叶,但和该叶关联的类由不同于T的信息决定,如「中的绝大多数类

◼ C4.5算法的构架是基于亨特的CLS方法，其通过一组训练样本T构造一个决策树。用{C1 ,C2 ,…,CK}来表示这些类，集合T所含的内容信息有3种可能性： 1. T包含一个或更多的样本，全部属于单个的类Cj。那么T的决策树是由类Cj标识的一个叶节点。 2. T不包含样本。决策树也是一个叶，但和该叶关联的类由不同于T的信息决定，如T 中的绝大多数类

点击进入文档下载页（PPT格式）

共36页，可试读12页，点击继续阅读 ↓↓

您可能感兴趣的文档

《数据把掘概念与技术》第七章（7-4）修剪决策树
《数据把掘概念与技术》第一章数据挖掘的概念
《数据把掘概念与技术》第九章根据内容检索
《数据把掘概念与技术》第九章（9-3）文本检索
广东白云学院：《单片机原理与应用》教学大纲
西安交通大学：《微机原理与接口技术》课程教学资源（PPT课件讲稿）第7章常用数字接口电路
西安交通大学：《微机原理与接口技术》课程教学资源（PPT课件讲稿）第8章模拟量的输入输出
西安交通大学：《微机原理与接口技术》课程教学资源（PPT课件讲稿）第4章汇编语言程序设计 4.2 伪指令（4.2.4-4.2.6）4.3 DOS系统功能调用介绍 4.4 汇编语言程序设计基础
西安交通大学：《微机原理与接口技术》课程教学资源（PPT课件讲稿）总复习
西安交通大学：《微机原理与接口技术》课程教学资源（PPT课件讲稿）第6章输入输出和中断技术
西安交通大学：《微机原理与接口技术》课程教学资源（PPT课件讲稿）第3章 8086/8088指令系统 3.3 8086/8088指令系统 3.3.2 减法指令
西安交通大学：《微机原理与接口技术》课程教学资源（PPT课件讲稿）第4章汇编语言程序设计 4.1 汇编语言源程序 4.2 伪指令（4.2.1-4.2.3）
《数据把掘概念与技术》第三章数据归约
《数据把掘概念与技术》第二章数据准备
《数据把掘概念与技术》第五章（5-1）统计推断
《数据把掘概念与技术》第五章（5-5）方差分析
《数据把掘概念与技术》第八章（8-1）购物篮分析
《数据把掘概念与技术》第八章(8-6) 多维关联规则挖掘
《数据把掘概念与技术》第八章(8-6) 多维关联规则挖掘
《数据把掘概念与技术》第六章（6-1）聚类概念
《数据把掘概念与技术》第六章(6-3) 凝聚层次聚类
《数据把掘概念与技术》第四章从数据中学习
万博科技职业学院：《Visual Basic程序设计》第一章概论
万博科技职业学院：《Visual Basic程序设计》第三章 BASIC语言基础

点击购买下载（PPT）

下载及服务说明

购买前请先查看本文档预览页，确认内容后再进行支付；
如遇文件无法下载、无法访问或其它任何问题，可发送电子邮件反馈，核实后将进行文件补发或退款等其它相关操作；
邮箱：

文档浏览记录