划分选择-基尼指数 口数据集D的纯度可用“基尼值”来度量 反映了从D中随机抽 GiD)=∑∑m=1-∑n|取两个样本,其类别 k=1k≠k 标记不一致的概率 GinD越小,数据集D的纯度越高 口属性α的基尼指数定义为: Gini index(D, a)=v D Gini(Do 口应选择那个使划分后基尼指数最小的属性作为最优划分属性,即 argmin (_Index (D,a) a∈A 口CART[ Breiman et a,1984]采用“基尼指数”来选择划分属性
划分选择-基尼指数 数据集 的纯度可用“基尼值”来度量 越小,数据集 的纯度越高 属性 的基尼指数定义为: 应选择那个使划分后基尼指数最小的属性作为最优划分属性,即 CART [Breiman et al., 1984]采用“基尼指数”来选择划分属性 反映了从 中随机抽 取两个样本,其类别 标记不一致的概率
口基本流程 口划分选择 口剪枝处理 口连续与缺失值 多变量决策树
大纲 基本流程 划分选择 剪枝处理 连续与缺失值 多变量决策树