基尼指数(gini index) 基尼值: 10川 Gini(D)=∑∑ 反映了从D中随机抽取两个样例, PkPk k=1k'≠k 其类别标记不一致的概率 Gini(D)越小,数据集D的纯度越高 =1 1.所有样本一个类,Gini=0; k=1 2.所有样本等概率出现,Gini最大 属性a的基尼指数 (.=∑ Gini(D) D:D中在属性a上取值=a°的样本集合 在候选属性集合中,选取那个使划分后基尼指数最小的属性 CART算法中使用
(gini index) CART,( * ! D 4$& -%0/+') Gini(D) 1 5 D +.16 a + 2523 "+ 1. Gini = 0 2. Gini Dv: D a = av +
划分选择VS.剪枝 研究表明:划分选择的各种准则虽然对决策树的尺寸有较 大影响,但对泛化性能的影响很有限 例如信息增益与基尼指数产生的结果,仅在约2%的情况下不同 剪枝方法和程度对决策树泛化性能的影响更为显著 在数据带噪时甚至可能将泛化性能提升25% Why? 剪枝(pruning)是决策树对付“过拟合”的 主要手段!
Y3 vs. @ JMU:: Y3HKTE&NAH(%>W #, &D.QH,->Z $/"I!)47 GHP? O 2% H0 @8CL+&NAD.QH,=<S 75*9FRQ'D.Q6 25% Why? @ (pruning) ;NA&X2H V1B