7.4修剪决策树 决策树修剪的主要任务是抛弃一个或更多 的子树,并用叶替代这些子树,使决策树 首单化。 问题是修剪后的结果能达到我们期望算法 降低预测误差率来提高分类器的质量,但 差率计算并不简单。 °评价预测误差的一个可行方法是用另外 个新的有效检验样本,或用第四章中讲述 的交叉确认法
7.4 修剪决策树 • 决策树修剪的主要任务是抛弃一个或更多 的子树,并用叶替代这些子树,使决策树 简单化。 • 问题是修剪后的结果能达到我们期望算法 降低预测误差率来提高分类器的质量,但 误差率计算并不简单。 • 评价预测误差的一个可行方法是用另外一 个新的有效检验样本,或用第四章中讲述 的交叉确认法
)在具备可用的训练和检验样本的情況下 决策树修剪的基本思想是去掉那些对未知 检验样本的分类精度没有帮助的部分树 子树),生成一个更简单,更容易理解的 树 有两种改进的递归分区方法 1.在某些情况下决定不把样本集合分区 得更细。停止准则通常是基于些统计检 验,如X检验:如果分区前后分类精度没 有显著的不同,那么用当前的点作为 叶。该方法称为预剪法
• 在具备可用的训练和检验样本的情况下, 决策树修剪的基本思想是去掉那些对未知 检验样本的分类精度没有帮助的部分树 (子树),生成一个更简单,更容易理解的 树。 • 有两种改进的递归分区方法: 1. 在某些情况下决定不把样本集合分区 得更细。停止准则通常是基于一些统计检 验,如χ 2检验:如果分区前后分类精度没 有显著的不同,那么用当前的点作为一个 叶。该方法称为预剪法
2用所选的精度准则回头去除树的一些点。 称为后修剪。 yC45采用后修剪方法,但它用具体的方法评 佔预测误差率,该方法称为悲观修 基本思想 对于树中的每个节点,可以用二项式分布统 计表计算置信极限的上限的估计值。参数 L是所给节点的不和E的函数。C4.5用25% 置信度,比较所给节点7的U5%(/E)与它 的叶的加权置信度。权值是每个叶的样本的 数
2.用所选的精度准则回头去除树的一些点。 称为后修剪。 • C4.5采用后修剪方法,但它用具体的方法评 估预测误差率,该方法称为悲观修剪。 • 基本思想: 对于树中的每个节点,可以用二项式分布统 计表计算置信极限的上限Ucf的估计值。参数 Ucf是所给节点的|Ti |和E的函数。C4.5用25% 置信度,比较所给节点Ti的U25%(|Ti |/E)与它 的叶的加权置信度。权值是每个叶的样本的 总数
基本思想: 如果子树中的某个根节点的预测误差比叶的 (子树的预测误差加权和小,那么用它 的根节点替换该子树,变成修剪后的树的一 例如,决策树的子树如图7-9乐示,根节点的 子节点是用相应的类和参数(/)表示的叶。 XI 类2(16,1 A=1 A=2 A=3 类1(6,0) 类1(90) 类2(1,0) 图7-9用一个叶节点替换修剪子树
• 基本思想: 如果子树中的某个根节点的预测误差比叶的 U25% (子树的预测误差)加权和小,那么用它 的根节点替换该子树,变成修剪后的树的一 个新叶。 • 例如,决策树的子树如图7-9所示,根节点的 子节点是用相应的类和参数(|Ti |/E)表示的叶
)问题是估计修剪子树并用它的根节点替换 它作为一个新的归纳叶节点的概率 ③为了分析用叶节点替换子树的概率,必须计 算被替换节点和初始树的预测误差PE。 用默认置信度25%,上限置信极限可从统 计表中求得: L256(60)=0.206,U25%(9,0)=0.143 L25(1,0)=0.750,U25(16,1)=0.157
• 问题是估计修剪子树并用它的根节点替换 它作为一个新的归纳叶节点的概率。 • 为了分析用叶节点替换子树的概率,必须计 算被替换节点和初始树的预测误差PE。 • 用默认置信度25%,上限置信极限可从统 计表中求得: U25%(6,0)=0.206, U25%(9,0)=0.143 U25%(1,0)=0.750, U25%(16,1)=0.157