当前位置：和泉文库 > 计算机 > 浏览文档

电子科技大学：《数据分析与数据挖掘 Data Analysis and Data Mining》课程教学资源（课件讲稿）决策树

文件格式：PDF，文件大小：10.8MB，售价：13.22元

文档详细内容（约47页）

基本流程策略：“分而治之”(divide-and-conquer))。从根节点开始自至叶节点的递归过程。在每个中间结点寻找一个“划分” (splitter test)属性。三种停止条件： (1)当前结点包含的样本全属于同一类别，无需划分； (2)当前属性集为空，或是所有样本在所有属性上取值相同，无法划分； (③)当前结点包含的样本集合为空，不能划分

%* )#! (1) -&'" ,0 ; (2) /+, " ( $ ; (3) -&'" /+. . (divide-and-conquer) ! !#" $ (splitter test)

(1) 当前结点包含的样本全属于同一类别，无需划分；基本算法 (2) 当前属性集为空，或是所有样本在所有属性上取值相同，无法划分； (3)当前结点包含的样本集合为空，不能划分. 输入：训练集D= {(c1,1),(x2,2),,(cm,ym)}; 属性集A={a1,a2,,ad 过程：函数TreeGenerate(D,A) 1:生成结点node 递归返回， 2: ifD中样本全属于同一类别C then 情形(1) 3: 将node标记为C类叶结点；return 4:end if 递归返回， 5:fA=⑦ORD中样本在A上取值相同then 将node标记为叶结点，其类别标记为D中样本数最多的类；情形(2) 6: return 7:end if 8:从A中选择最优划分属性a*; 利用当前结点的后验分布 9: fora*的每一个值agdo 10: 为node生成一个分支；士D,表示D中在a*上取值为a的样本子集； ifD,为空then 递归返回， 11: 12: 将分支结点标记为叶结其类别标记为D中样本最多的类；return 情形(3) 13: else 将父结点的样本分布作为 14: 以TreeGenerate(Du,A\)为分支结点当前结点的先验分布 15: end if 16: end for 决策树算法的输出：以node为根结点的一棵决策树核心

(4, 98 "(1) 98 "(2) /6-0< 98 "(3) .6-0*( 6-0 < 3)4,0 + (1) 6-0*( 5%; ; (2) !:2, #&$'*($'!1%, ; (3) 6-0*(:27 .

划分选择决策树学习的关键在于如何选择最优划分属性。般而言，随着划分过程不断进行，我们希望决策树的分支结点所包含的样本尽可能属于同一类别，即结点的"纯度”(purity)越来越高 ▣经典的属性划分方法：。信息增益-ID3算法中使用 ●增益率-C4.5算法中使用基尼指数-CART算法中使用

p 905 GF&, "KJ @>BH7D8*EA$ -90 5(=3%51.?J: =35;!(purity)C/CI p<5"+2 l #6 - ID3 l 64 - C4.5 l ') - CART

信息增益(information gain) 信息熵 (entropy)是度量样本集合“纯度”最常用的一种指标假定当前样本集合D中第k类样本所占的比例为Pk,则D的信息熵定义为计算信息熵时约定：若 p=0,则plog2p=0. Ent(D)=-∑pr log2pk k=1 Ent(D)的最小值为0，最大值为log2门儿. Et(D)的值越小，则D的纯度越高信息增益直接以信息熵为基础，计算当前划分对信息熵所造成的变化

+ (information gain) ( (entropy) "6&$72#)*. % &$7 D / k 1&$*' D * ( *4 *248 +,! (-30 (5*

表4.1西瓜数据集2.0 一个例子编号色泽根蒂敲声纹理脐部触感好瓜青绿蜷缩浊响清晰凹陷硬滑是 2 乌黑蜷缩沉闷清晰凹陷硬滑是 3 乌黑蜷缩浊响清晰凹陷硬滑是使用哪个属性划分？青绿蜷缩沉闷清晰凹陷硬滑是 5 浅白蜷缩浊响清晰凹陷硬滑是 6 青绿稍蜷浊响清晰稍凹软粘是 7 乌黑稍蜷浊响稍糊稍凹软粘是 8 乌黑稍蜷浊响清晰稍凹硬滑是 9 乌黑稍蜷沉闷稍糊稍凹硬滑 10 青绿硬挺清脆清晰平坦软粘否该数据集包含17个 11 浅白硬挺清脆模糊平坦硬滑否 12 浅白蜷缩浊响模糊平坦软粘否训练样例，川=2 13 青绿稍蜷浊响稍糊凹陷硬滑否其中正例占P1=7 14 浅白稍蜷沉闷稍糊凹陷硬滑否 9 反例占p2= 15 乌黑稍蜷浊响清晰稍凹软粘否 16 浅白蜷缩浊响模糊平坦硬滑否 17 青绿蜷缩沉闷稍糊稍凹硬滑否根结点的信息熵为 BmtD)=-2 n oga4=-(8+}1g2）=090s k=1

点击进入文档下载页（PDF格式）

共47页，可试读17页，点击继续阅读 ↓↓

您可能感兴趣的文档

电子科技大学：《数据分析与数据挖掘 Data Analysis and Data Mining》课程教学资源（课件讲稿）线性模型
电子科技大学：《数据分析与数据挖掘 Data Analysis and Data Mining》课程教学资源（课件讲稿）模型评估与选择
电子科技大学：《数据分析与数据挖掘 Data Analysis and Data Mining》课程教学资源（课件讲稿）绪论
南京大学：《软件工程 Software Engineering》课程教学资源（PPT课件讲稿）Part 25 软件开发的新方法 New Methodology（Agile方法）
南京大学：《软件工程 Software Engineering》课程教学资源（PPT课件讲稿）Part 24 软件工程中的高级课题 Advanced Topics in Software Engineering
南京大学：《软件工程 Software Engineering》课程教学资源（PPT课件讲稿）Part 23 软件过程、管理与质量 Software Process, Management, and Quality
南京大学：《软件工程 Software Engineering》课程教学资源（PPT课件讲稿）Part 22 面向对象软件工程 Object-Oriented Software Engineering（Unified Modeling Language, UML）
南京大学：《软件工程 Software Engineering》课程教学资源（PPT课件讲稿）Part 21 传统软件工程方法 Conventional Methods for Software Engineering
《软件工程 Software Engineering》课程教学资源：软件文档编写指南
南京大学：《软件工程 Software Engineering》课程教学资源（PPT课件讲稿）第三部分软件过程、管理与质量
南京大学：《软件工程 Software Engineering》课程教学资源（PPT课件讲稿）第二部分面向对象软件工程（标准建模语言UML）
南京大学：《软件工程 Software Engineering》课程教学资源（PPT课件讲稿）第一部分传统软件工程方法（李宣东）
电子科技大学：《数据分析与数据挖掘 Data Analysis and Data Mining》课程教学资源（课件讲稿）量子力学
电子科技大学：《数据分析与数据挖掘 Data Analysis and Data Mining》课程教学资源（课件讲稿）聚类算法
电子科技大学：《数据分析与数据挖掘 Data Analysis and Data Mining》课程教学资源（课件讲稿）分类算法（朱钦圣）
电子科技大学：《数据分析与数据挖掘 Data Analysis and Data Mining》课程教学资源（课件讲稿）降维算法
电子科技大学：《数据分析与数据挖掘 Data Analysis and Data Mining》课程教学资源（课件讲稿）隐马尔科夫算法
电子科技大学：《数据分析与数据挖掘 Data Analysis and Data Mining》课程教学资源（课件讲稿）量子机器学习（量子K-means算法）
电子科技大学：《数据分析与数据挖掘 Data Analysis and Data Mining》课程教学资源（课件讲稿）量子支持向量机（support vector machine, SVM）
电子科技大学：《数据分析与数据挖掘 Data Analysis and Data Mining》课程教学资源（课件讲稿）量子神经网络（Neural Network，NN）
电子科技大学：《数据分析与数据挖掘 Data Analysis and Data Mining》课程教学资源（课件讲稿）量子降维算法
电子科技大学：《数据分析与数据挖掘 Data Analysis and Data Mining》课程教学资源（课件讲稿）Lecture 01 Overview Data Analysis and Data Mining（李晓瑜）
电子科技大学：《数据分析与数据挖掘 Data Analysis and Data Mining》课程教学资源（课件讲稿）Lecture 02 Raw Data Analysis and Pre-processing（2.5-2.7）
电子科技大学：《数据分析与数据挖掘 Data Analysis and Data Mining》课程教学资源（课件讲稿）Lecture 02 Raw Data Analysis and Pre-processing（2.1-2.4）

点击购买下载（PDF）

下载及服务说明

购买前请先查看本文档预览页，确认内容后再进行支付；
如遇文件无法下载、无法访问或其它任何问题，可发送电子邮件反馈，核实后将进行文件补发或退款等其它相关操作；
邮箱：

文档浏览记录