当前位置：和泉文库 > 计算机 > 浏览文档

复旦大学：《商务智能》课程PPT教学课件（商务数据分析）05 数据挖掘技术方法

文件格式：PPT，文件大小：10.24MB，售价：36.84元

文档详细内容（约227页）

CART算法 CART算法(C&R算法)采用一种二分递归分割的方法,每次都把当前样本集分割为两个子样本集,使生成的决策树的非叶结点都有两个分枝, 因此ART算法生成的决策树是结构简单的二叉树。这种算法选择分枝属性A判别函数如下 p(A)=2piPR2IP(i)-p(is 式中和g分别是属性A的左有分枝的样本数占总体的比例,以和分别表示属性A的左右分枝中样本子集属于类别的比例,m为分类类别数使Φ(A)最大的属性A作为分枝的属性,因为这需要满足下面的条件左右分枝样本的数量差不多。左右分枝的样本集尽量不要属于同一类 CART算法也使用后剪枝。在决策树生成过程中,考虑到多展开一层就会有更多信息被发现,CART算法运行到不能再长出分枝为止,从而得到一棵最大的决策树。然后CART对生成的决策树进行剪枝。剪枝算法使用独立于训练样本集的测试样本集对子树的分类错误进行计算,找出分类错误最小的子树作为最终的分类模型。 31

31 CART算法 ◼ CART算法（C&R算法）采用一种二分递归分割的方法，每次都把当前样本集分割为两个子样本集，使生成的决策树的非叶结点都有两个分枝，因此CART算法生成的决策树是结构简单的二叉树。这种算法选择分枝属性A的判别函数如下：式中pL和pR分别是属性A的左右分枝的样本数占总体的比例，p(iL )和p(iR ) 分别表示属性A的左右分枝中样本子集属于类别i的比例，m为分类类别数。使Ф（A）最大的属性A作为分枝的属性，因为这需要满足下面的条件： ◼ 左右分枝样本的数量差不多。 ◼ 左右分枝的样本集尽量不要属于同一类。 ◼ CART 算法也使用后剪枝。在决策树生成过程中，考虑到多展开一层就会有更多信息被发现，CART 算法运行到不能再长出分枝为止，从而得到一棵最大的决策树。然后CART 对生成的决策树进行剪枝。剪枝算法使用独立于训练样本集的测试样本集对子树的分类错误进行计算，找出分类错误最小的子树作为最终的分类模型。 1 ( ) 2 | ( ) ( ) | m L R L R i A p p p i p i =  = − 

QUEST算法 QUEST( quick unbiased efficient statistical tree)算法是1997 年Loh等提出的二元决策树分类方法 QUEST算法也需要确定分支属性和分割值等问题,但是以不同的策略处理分支属性选择和分隔值的确定,运算过程比CART 算法简单有效。 QUEST算法的输入变量可以使分类型变量和数值型变量,但目标变量(输出变量)是二值型(多值的变量要通过聚类转化为二值的) QUEST算法中确定分支属性时,需要检验属性对目标变量的独立性,以便确定分支属性

QUEST算法 ◼ QUEST（quick unbiased efficient statistical tree）算法是1997 年Loh等提出的二元决策树分类方法。 ◼ QUEST算法也需要确定分支属性和分割值等问题，但是以不同的策略处理分支属性选择和分隔值的确定，运算过程比CART 算法简单有效。 ◼ QUEST算法的输入变量可以使分类型变量和数值型变量，但目标变量（输出变量）是二值型（多值的变量要通过聚类转化为二值的）。 ◼ QUEST算法中确定分支属性时，需要检验属性对目标变量的独立性，以便确定分支属性。 32

样本集的划分训练集、验证集和测试集。训练数据用来训练模型;验证集用于在每一步测试模型;测试集用于最后评估模型。通常数据集以80:10:10或70:20:10的比例分配

样本集的划分 ◼ 训练集、验证集和测试集。训练数据用来训练模型；验证集用于在每一步测试模型；测试集用于最后评估模型。 ◼ 通常数据集以 80:10:10 或 70:20:10 的比例分配。 33

评估分类算法的准确性—K折交叉校验(1) 交叉验证是防止过拟合的方法 K折交叉校验(k- fold cross validation:把数据集分为k 子集,用k-1个子集为训练集,1个子集作为测试集,然后k次交叉验证如何提高分类算法的准确率? Tralning tolds Test fold Literation = 2- iteration Ex Et E 10 eration

34 评估分类算法的准确性——K折交叉校验（1） ◼ 交叉验证是防止过拟合的方法。 ◼ K折交叉校验（k-fold cross validation: 把数据集分为k 子集，用k-1个子集为训练集，1个子集作为测试集，然后k次交叉验证。 ◼ 如何提高分类算法的准确率？

评估分类算法的准确性K折交叉校验(2) 嵌套交叉验证(η ested cross validatioη)算法(外循环通过k折等进行模型训练, 内循环使用交叉验证),对特定数据集进行模型选择。嵌套交叉验证外部有一个k折交叉验证将数据分为训练集和测试集,内部交叉验证用于选择模型算法。 Training folds Test fold Outer loo Train with of parameters I Training fod validation fold Inner loop Tune parameters

35 评估分类算法的准确性——K折交叉校验（2） ◼ 嵌套交叉验证(nested cross validation)算法（外循环通过k折等进行模型训练，内循环使用交叉验证），对特定数据集进行模型选择。 ◼ 嵌套交叉验证外部有一个k折交叉验证将数据分为训练集和测试集，内部交叉验证用于选择模型算法

点击进入文档下载页（PPT格式）

共227页，可试读40页，点击继续阅读 ↓↓

您可能感兴趣的文档

复旦大学：《商务智能》课程PPT教学课件（商务数据分析）04 数据挖掘基础（数据挖掘原理）
复旦大学：《商务智能》课程PPT教学课件（商务数据分析）03 在线分析处理 Online Analytical Processing
复旦大学：《商务智能》课程PPT教学课件（商务数据分析）02 数据仓库 Data Warehouse
复旦大学：《商务智能》课程PPT教学课件（商务数据分析）11 大数据分析与应用 Big data analytics and applications
复旦大学：《商务智能》课程PPT教学课件（商务数据分析）10 流程智能 Process Intelligence
复旦大学：《商务智能》课程PPT教学课件（商务数据分析）01 商务智能概论 Introduction to Business Intelligence
《商务智能》课程学习资料：集成学习实用机器学习方法 Ensemble Learning
复旦大学：《商务智能》课程教学讲义（商务数据分析）电子推荐系统
复旦大学《商务智能》课程参考资料：室内位置服务与商业智能
《计算机教育Computer Education》：数据分析类课程的技能培养方法探讨（复旦大学：赵卫东，蒲实）
《计算机教育Computer Education》：基于项目实践的机器学习课程改革（复旦大学：赵卫东，袁雪茹）
复旦大学：《商务智能》课程学习资料（商务数据分析）一个课程内容专题（主题）的详细教学设计与实施方案
复旦大学：《商务智能》课程PPT教学课件（商务数据分析）06 数据挖掘应用
复旦大学：《商务智能》课程PPT教学课件（商务数据分析）07 Web挖掘基础
复旦大学：《商务智能》课程PPT教学课件（商务数据分析）08 知识管理
复旦大学：《商务智能》课程PPT教学课件（商务数据分析）09 搜索引擎优化 Search Engine Optimization
复旦大学：《商务智能》课程PPT教学课件（商务数据分析）关联规则 CARMA Continuous Association Rule Mining Algorithm
复旦大学：《商务智能》课程PPT教学课件（商务数据分析）密度聚类——算法详解
复旦大学：《商务智能》课程PPT教学课件（商务数据分析）序列模式挖掘算法
中国科学院计算技术研究所：《高级人工智能》PPT课件_贝叶斯网络——概率推理（史忠植）
复旦大学：《数据挖掘实用案例分析》课程教学资源（PPT课件讲稿）第10章基于逻辑回归模型的高危
复旦大学：《数据挖掘实用案例分析》课程教学资源（PPT课件讲稿）第11章卷积神经网络在音频质量评价领域的应用
复旦大学：《数据挖掘实用案例分析》课程教学资源（PPT课件讲稿）第1章数据分析过程的主要问题
复旦大学：《数据挖掘实用案例分析》课程教学资源（PPT课件讲稿）第2章保险产品推荐

点击购买下载（PPT）

下载及服务说明

购买前请先查看本文档预览页，确认内容后再进行支付；
如遇文件无法下载、无法访问或其它任何问题，可发送电子邮件反馈，核实后将进行文件补发或退款等其它相关操作；
邮箱：

文档浏览记录