划分选择-信息增益 口以属性“色泽”为例,其对应的3个数据子集分别为D(色泽=青 绿),D2(色泽=乌黑),D3(色泽=浅白) 口子集D包含编号为{1,4,6,10,13,17}的6个样例,其中正例占 反例占P=6,DD同理,3个结点的信息熵为 EtD)=-(6log26+81og23) Ent(D log,4⊥29/0.918 6+6 Ent(D log23+31og23)=0.722 口属性“色泽”的信息增益为 Gain(D.色泽)=EtD)-∑ D Ent(D) 0.998-(1×1.000+52×0918+5×0.722) 0.109
划分选择-信息增益 以属性“色泽”为例,其对应的 个数据子集分别为 (色泽=青 绿), (色泽=乌黑), (色泽=浅白) 子集 包含编号为 的 个样例,其中正例占 ,反例占 , 、 同理, 个结点的信息熵为: 属性“色泽”的信息增益为
划分选择-信息增益 口类似的,其他属性的信息增益为 Gain(D,根蒂)=0.43Gain(D,敲声)=0.141 Gain(D,纹理)=0.381Gain(D,脐部)=0.289 Gain(D,触感)=0006 口显然,属性“纹理”的信息增益最大,其被选为划分属性 纹理=? 清晰 稍糊 模糊 1,234,5,6,8,10,15} 79,13,14,17} {11,12,16}
划分选择-信息增益 类似的,其他属性的信息增益为 显然,属性“纹理”的信息增益最大,其被选为划分属性 清晰 稍糊 模糊 {1,2,3,4,5,6,8,10,15} 纹理=? {7,9,13,14,17} {11,12,16}
划分选择-信息增益 口决策树学习算法将对每个分支结点做进一步划分,最终得到的决 策树如图: 纹理 清晰 稍糊 模糊 根蒂 触感=? 坏瓜 蜷缩 稍蜷硬挺 硬滑 软粘 好瓜)色泽 坏瓜 好瓜(坏瓜 青绿 乌黑浅白 好瓜)触感=?(好瓜 硬滑 软粘 好瓜(坏瓜
划分选择-信息增益 决策树学习算法将对每个分支结点做进一步划分,最终得到的决 策树如图: 清晰 稍糊 模糊 根蒂=? 坏瓜 纹理=? 好瓜 坏瓜 蜷缩 稍蜷 硬挺 好瓜 坏瓜 好瓜 好瓜 色泽=? 青绿 乌黑 浅白 好瓜 坏瓜 触感=? 硬滑 软粘 触感=? 硬滑 软粘
划分选择-信息增益 存在的问题 口若把“编号”也作为一个候选划分属性,则其信息增益一般远大 于其他属性。显然,这样的决策树不具有泛化能力,无法对新样本 进行有效预测 信息增益对可取值数目较多的属性有所偏好
划分选择-信息增益 存在的问题 若把“编号”也作为一个候选划分属性,则其信息增益一般远大 于其他属性。显然,这样的决策树不具有泛化能力,无法对新样本 进行有效预测 信息增益对可取值数目较多的属性有所偏好
划分选择-增益率 口增益率定义: Gain ratiO(D, a Gain(D, a 其中 ()=-∑ D Du 2 称为属性α的“固有值”[α quinlan,1993],属性α的可能取值数目 越多(即V越大),则Ⅳ(a)的值通常就越大 口存在的问题 增益率准则对可取值数目较少的属性有所偏好 口C4.5[ Quinlan,1993]使用了一个启发式:先从候选划分属性中找出 信息增益高于平均水平的属性,再从中选取增益率最高的
划分选择-增益率 增益率定义: 其中 称为属性 的“固有值” [Quinlan, 1993] ,属性 的可能取值数目 越多(即 越大),则 的值通常就越大 存在的问题 C4.5 [Quinlan, 1993]使用了一个启发式:先从候选划分属性中找出 信息增益高于平均水平的属性,再从中选取增益率最高的 增益率准则对可取值数目较少的属性有所偏好