>》》一个身边的例子成绩成绩等级评定决策树N=90?优秀成绩N?=80?这是一个由分支/选择判断构成的良好成绩判定流程。N>=70?中等基于“分数”的多重二叉树判定。成绩N?=60?也可以转换成多叉树的一重判定。及格不及格成绩判定决策树
一个身边的例子 成绩等级评定决策树 这是一个由分支/选择判断构成的 判定流程。 基于“分数”的多重二叉树判定。 也可以转换成多叉树的一重判定。 成绩 >=90? 优秀 Y 成绩 >=80? 良好 成绩 >=70? 中等 成绩 >=60? 及格 不及格 N Y N Y Y N N 成绩判定决策树
>》》一个身边的例子成绩N=90?上述过程可抽象为:优秀成绩2=80?输入成绩+判定规则→判定结果良好成绩N=70?数据挖掘的目的在于,逆向寻找判定规则中等成绩N?=60?输入成绩+判定结果→判定树/决策树及格不及格成绩判定决策树
一个身边的例子 上述过程可抽象为: 成绩 >=90? 优秀 Y 成绩 >=80? 良好 成绩 >=70? 中等 成绩 >=60? 及格 不及格 N Y N Y Y N N 成绩判定决策树 • 输入成绩 + 判定规则 → 判定结果 数据挖掘的目的在于,逆向寻找判定规则 • 输入成绩 + 判定结果 → 判定树/决策树
回归类方法vS.树类分析树类分析是对一个一个特征进行处理,采用分割的方法能够深入数据细部,但同时失去了对全局的把握。一个分层一旦形成,它和别的层面或节点的关系就被切断了,以后的挖掘只能在局部中进行。同时由于切分,样本数量不断萎缩,所以无法支持对多变量的同时检验。回归类模型,始终着眼整个数据的拟合对全局把握较好无法兼顾局部数据,或者说缺乏探查局部结构的内在机制
树类分析是对一个一个特征进行处理,采用分割的方法 回归类方法 vs. 树类分析 回归类模型,始终着眼整个数据的拟合 • 能够深入数据细部,但同时失去了对全局的把握。一个分层一旦形成,它和别的层面或节点的 关系就被切断了,以后的挖掘只能在局部中进行。 • 同时由于切分,样本数量不断萎缩,所以无法支持对多变量的同时检验。 • 对全局把握较好 • 无法兼顾局部数据,或者说缺乏探查局部结构的内在机制
决策树算法的原理
二 决策树算法的原理
决策树算法的基本流程分裂准则选择合理的根节点划分结点分类树:信息增益,信息增益率,基尼系数条件1回归树:最小方差决策结果分支节点(叶子节点)判断划分停剪枝:预剪枝,后剪枝条件2止点决策结果分支节点(叶子节点)条件3分类树:取叶节点中数量最多的类叶节点的输决策结果决策结果回归树:取响应变量的均值/预测值出值(叶子节点)(叶子节点)
决策树算法的基本流程