划分选择-增益率C4.5 口增益率定义: Gain ratio(D,a)=S Gain(D,a) 其中 IV(a) IV) 21=1 称为属性a的“固有值”[QuinIan,.1993], 属性α的可能取值数目 越多(即V越大),则V(a)的值通常就越大 口存在的问题 增益率准则对可取值数目较少的属性有所偏好 ▣C4.5[QuinIan,1993]使用了一个启发式:先从候选划分属性中找出 信息增益高于平均水平的属性,再从中选取增益率最高的
划分选择-增益率C4.5 p 增益率定义: 其中 称为属性 的“固有值” [Quinlan, 1993] ,属性 的可能取值数目 越多(即 越大),则 的值通常就越大 p 存在的问题 p C4.5 [Quinlan, 1993]使用了一个启发式:先从候选划分属性中找出 信息增益高于平均水平的属性,再从中选取增益率最高的 增益率准则对可取值数目较少的属性有所偏好
大纲 口基本流程 口划分选择 ▣剪枝处理 口连续与缺失值 口多变量决策树
大纲 p 基本流程 p 划分选择 p 剪枝处理 p 连续与缺失值 p 多变量决策树
剪枝处理 口为什么剪枝 ●“剪枝”是决策树学习算法对付“过拟合”的主要手段 可通过“剪枝”来一定程度避免因决策分支过多,以致于把训练集自 身的一些特点当做所有数据都具有的一般性质而导致的过拟合 口剪枝的基本策略 ●预剪枝 。后剪枝 口判断决策树泛化性能是否提升的方法 ●留出法:预留一部分数据用作“验证集”以进行性能评估
剪枝处理 p 为什么剪枝 l “剪枝”是决策树学习算法对付“过拟合”的主要手段 l 可通过“剪枝”来一定程度避免因决策分支过多,以致于把训练集自 身的一些特点当做所有数据都具有的一般性质而导致的过拟合 p 剪枝的基本策略 l 预剪枝 l 后剪枝 p 判断决策树泛化性能是否提升的方法 l 留出法:预留一部分数据用作“验证集”以进行性能评估
剪枝处理 数据集 编号 色泽 根蒂 敲声 纹理 脐部 触感 好瓜 青绿 蜷缩 浊响 清晰 凹陷 硬滑 是 乌黑 蜷缩 沉闷 清晰 凹陷 乌黑 蜷缩 浊响 清晰 凹陷 硬滑 是 青绿 稍蜷 浊响 清晰 稍凹 软粘 训练集 乌黑 稍蜷 浊响 稍糊 稍凹 软粘 是 10 青绿 硬挺 清脆 清晰 平坦 软粘 否 14 浅白 稍蜷 沉闷 稍糊 凹陷 硬滑 15 乌黑 稍蜷 浊响 清晰 稍凹 软粘 否 16 浅白 蜷缩 浊响 模糊 平坦 硬滑 17 青绿 蜷缩 沉闷 稍糊 稍凹 硬滑 否 编停 色泽 根蒂 敲声 纹理 脐部 触感 好瓜 青绿 蜷缩 沉闷 清晰 凹陷 硬滑 是 浅白 蜷缩 浊响 清晰 凹陷 硬滑 是 验证集 乌黑 稍蜷 浊响 清晰 稍凹 硬滑 乌黑 稍蜷 沉闷 稍糊 稍凹 硬滑 否 浅白 硬挺 清脆 模糊 平坦 硬滑 12 浅白 蜷缩 浊响 模糊 平坦 软粘 13 青绿 稍蜷 浊响 稍糊 凹陷 硬滑 否
剪枝处理 数据集 训练集 验证集
剪枝处理 未剪枝决策树 1 脐部=? 凹陷 稍凹 平坦 ② 色泽=? 根蒂-? 坏瓜 青绿 乌黑 浅白 稍蜷 蜷缩 硬挺 好瓜 好瓜 坏瓜 色泽=? 坏瓜 好瓜 青绿 乌黑 浅白 6 好瓜 纹理=? 好瓜 稍糊 清晰 模糊 好瓜 坏瓜 好瓜
剪枝处理 未剪枝决策树 好瓜 坏瓜 好瓜 清晰 纹理=? 稍糊 模糊 好瓜 好瓜 青绿 乌黑 浅白 色泽=? 坏瓜 好瓜 稍蜷 蜷缩 硬挺 根蒂=? 好瓜 好瓜 坏瓜 青绿 乌黑 浅白 色泽=? 坏瓜 脐部=? 凹陷 稍凹 平坦 1 2 3 4 5 6