S:{1,C),(2,C),(3,C),(4,B),(5,A),(6,A),(7,C),(8,B),(9,A),(10,A),(11,B),(12,B)} 性别 男 女 S1:{3,C),(4,B),(7,C),(8,B),(11,B),(12,B)} S2:{(1,C),(2,C),(5,A),(6,A),(9,A),(10,A)} 年龄段 年龄段 大 小 小 大 中 中 S11:{(11,B),(12,B)} S13:{3,C),(4,B)} S21:{(1,C),(2,C)} S23:{(9,A),(10,A)} B S12:{(7,C),(8,B)} 婚状 S22:{5,A,(6,A)}CA 婚状 未 未 S131:{(3,C)}S132:{(4,B)} S121:{(7,C)} S122:{(8,B)} C B B Hangchou①ianzi Universi的y杭州电子科技大学 School of Computer Science andT2 chnology计算机学院周文库
Hangzhou Dianzi University 杭州电子科技大学 School of Computer Science and Technology 计算机学院 周文晖
最终决策树生成图 性别 男 女 年龄段 年龄段 大 小 大 中 中 B 婚状 婚状 A 未 未 C B C B Hangzhiou①ianzi Universi的抗州电子科技大学 School of Computer Science and Tecfnology计算机学院周文库
Hangzhou Dianzi University 杭州电子科技大学 School of Computer Science and Technology 计算机学院 周文晖 最终决策树生成图
性别 由决策树所得的规则集 男 女 年龄段 年龄段 ·女性且年龄在25岁以上,则给予A类保险: 小 中 中 ·女性且年龄在21岁到25岁之间,则给予A类保险: 婚状 婚状 C ·女性且年龄在21岁以下,则给予C类保险; 未 ·男性且年龄在25岁以上,则给予B类保险: ·男性且年龄在21岁到25岁之间且未婚,则给予C类保险: (e) ·男性且年龄在21岁到25岁之间且己婚,则给予B类保险; ·男性且年龄在21岁以下且未婚,则给予C类保险: ·男性且年龄在21岁以下且已婚,则给予B类保险。 Hangzhou Dianzi Universi的y杭州电子科技大学 School of Computer Science and Tecfnology计算机学院周文库
Hangzhou Dianzi University 杭州电子科技大学 School of Computer Science and Technology 计算机学院 周文晖 由决策树所得的规则集 • 女性且年龄在25岁以上,则给予A类保险; • 女性且年龄在21岁到25岁之间,则给予A类保险; • 女性且年龄在21岁以下,则给予C类保险; • 男性且年龄在25岁以上,则给予B类保险; • 男性且年龄在21岁到25岁之间且未婚,则给予C类保险; • 男性且年龄在21岁到25岁之间且已婚,则给予B类保险; • 男性且年龄在21岁以下且未婚,则给予C类保险; • 男性且年龄在21岁以下且已婚,则给予B类保险
若按另外属性顺序分类 年龄段 小 大 中 (1,C.(2,C),3,C),(4,B) (5,A),(6,A),(7,C).(8,B) (9,A),(10,A).(11,B).(12,B) 婚状 婚状 婚状 未 未 未 (2,C),(4,B) (1,C),(3,C) (6,C),(8,B) (5,A),(7,C) (9,A),(11,B) (10,A),(12,B) 性别 C 性别 性别 性别 性别 男 女 男 女 男 女 男 女 男 女 (4,B) 2,C (8B) (6,C) (7,C) (5,A) (11,B) (9,A)(12,B) (10,A) B B C C A B A B A Hangzhou Dianzi Universi的杭州电子科技大学 School of Computer Science and Technology计算机学院周文库
Hangzhou Dianzi University 杭州电子科技大学 School of Computer Science and Technology 计算机学院 周文晖 年龄段 婚状 婚状 婚状 (1,C),(2,C),(3,C),(4,B) (5,A),(6,A),(7,C),(8,B) (9,A),(10,A),(11,B),(12,B) 小 中 大 性别 (2,C),(4,B) (1,C),(3,C) C 已 未 性别 (6,C),(8,B) (5,A),(7,C) 已 未 性别 性别 (10,A),(12,B) 已 未 性别 (9,A),(11,B) 男 女 B C (4,B) (2,C) 男 女 B C (8,B) (6,C) 男 女 C A (7,C) (5,A) 男 女 B A (11,B) (9,A) 男 女 B A (12,B) (10,A) 若按另外属性顺序分类
Algorithm1决策树学习基本算法 输入: 决策树基本流程 。训练集D={(x1,1),.,(xm,ym) 。属性集A={a1,,aa} 过程:函数TreeGenerate(D,A) 1:生成结点node; (1)当前结点包含的样本全部属 2:ifD中样本全属于同一类别C then 于同一类别,无需进一步划分。、一 3 将node标记为C类叶结点:eturn 4:end if 5:fA=0ORD中样本在A上取值相同then (2)当前属性集为空,或所有样 6 将node标记叶结点,其类别标记为D中样本数最多的类:return 7:end if 本在所有属性上取值相同,无 8:从A中选择最优划分属性a: 决策树学习的关键 法划分。 9:fora+的每一个值a¥do 10: 为node生成每一个分枝;令D。表示D中在a,上取值为a:的样本子集: 11: ifD为空then (3)当前结点包含的样本集合为 12 将分枝结点标记为叶结点,其类别标记为D中样本最多的类:return 13: else 空,不能划分。 14 以TreeGenerate(D,A-{a*})为分枝结点 15: end if Hangzhou Dianzi Universi的y杭州 16:end for 输出:以node为根结点的一棵决策树
Hangzhou Dianzi University 杭州电子科技大学 School of Computer Science and Technology 计算机学院 周文晖 决策树基本流程 (1)当前结点包含的样本全部属 于同一类别,无需进一步划分。 (2)当前属性集为空,或所有样 本在所有属性上取值相同,无 法划分。 (3)当前结点包含的样本集合为 空,不能划分。 决策树学习的关键