第七章决策树和决策规则 本章目标 分析解决分类问题的基于逻辑的方法的特 性 描述决策树和决策规则在最终分类模型中 的表述之间的区别 介绍C4.5算法 了解采用修剪方法降低决策树和决策规则 的复杂度
第七章 决策树和决策规则 本章目标 ◼ 分析解决分类问题的基于逻辑的方法的特 性. ◼ 描述决策树和决策规则在最终分类模型中 的表述之间的区别. ◼ 介绍C4.5算法. ◼ 了解采用修剪方法降低决策树和决策规则 的复杂度
决策树和决策规则是解决实际应用中分类 问题的数据挖掘方法。 个堆来分迷是故精项吹到博 过程。由一组输入的属性值向量(也叫属性 向量)和相应的类,用基于归纳学习算法得 出分类 学习的目标是构建—个分类模型,通常也 叫分类器。它可以根据有效的属性输入值 预测一些实体(所给样本)的类。是一个在样 本其他属性已知的情况下预测另外一个属 性(样本的类)舶模型(分类的结果)
◼ 决策树和决策规则是解决实际应用中分类 问题的数据挖掘方法。 ◼ 一般来说,分类是把数据项映射到其中一 个事先定义的类中的这样一个学习函数的 过程。由一组输入的属性值向量(也叫属性 向量)和相应的类,用基于归纳学习算法得 出分类。 ◼ 学习的目标是构建一个分类模型,通常也 叫分类器。它可以根据有效的属性输入值 预测一些实体(所给样本)的类。是一个在样 本其他属性已知的情况下预测另外一个属 性(样本的类)的模型(分类的结果)
7.1决策树 」从数据中生成分类器的一个特别有效的方 法是生成一个决策树。它是种基于逻辑 的方法,通过组输入-输出样本构建决策 树的有指导学习方法。 决策树包含属性已被检验的节点,个节 点的输出分枝和该节点的所有可能的检验 结果相对应
7.1 决策树 ◼ 从数据中生成分类器的一个特别有效的方 法是生成一个决策树。它是一种基于逻辑 的方法,通过一组输入-输出样本构建决策 树的有指导学习方法。 ◼ 决策树包含属性已被检验的节点,一个节 点的输出分枝和该节点的所有可能的检验 结果相对应
图72是一个简单的决策树。该问题有两个 属性XY。所有属性值X>1和Y>B的样本属 于类2。不论属性Y的值是多少,值×<1的 样本都属于类1。 X>1 是 Y>? YA Y>B Y>C 类1 类2 类2 类1 图7-2关于属性X和Y的检验的一个简单的决策树
◼ 图7-2是一个简单的决策树。该问题有两个 属性X,Y。所有属性值X>1和Y>B的样本属 于类2。不论属性Y的值是多少,值X <1的 样本都属于类1
对于树中的非叶节点,可以沿着分枝 继续分区样本,每—个节点得到它相 应的样本子集。 生成决策树的一个著名的算法是 Quinlan的ID3算法,C4.5是它改进版
◼ 对于树中的非叶节点,可以沿着分枝 继续分区样本,每一个节点得到它相 应的样本子集。 ◼ 生成决策树的一个著名的算法是 Quinlan的ID3算法,C4.5是它改进版