数据挖掘技术 赵卫东博士 复旦大学软件学院 wdzhao@fudan.edu.cn
1 数据挖掘技术 赵卫东 博士 复旦大学软件学院 wdzhao@fudan.edu.cn
且导理 D document for Review June 8. 2001 4.27 am 分类和预测 Mining your own business in banking using Intelligent Miner for Data What are banking business issues w to address them through mining algorithms 2
2 分类和预测
分类 ■对离散数据的分类称为分类,对数值数据的分类称为预测。 分类要解决的问题是为一个事件或对象归类,即确定一个 特定的对象属于哪一类。分类函数或分类模型(分类器) 分类模型是通过那些已知历史数据训练出来的。 这里用于建立模型的数据称为训练集,通常是已经掌握的历 史数据。 在训练集中每个对象都赋予一个类别的标记,不同的类别具 有不同的标记 分类就是通过分析训练集(决策表)中的数据,为每个类 别做岀准确的描述或建立分析模型或挖掘岀分类规则,然 后用这个分类规则对其它数据对象进行分类。 3
3 分类 ◼ 对离散数据的分类称为分类,对数值数据的分类称为预测。 ◼ 分类要解决的问题是为一个事件或对象归类,即确定一个 特定的对象属于哪一类。分类函数或分类模型(分类器) ◼ 分类模型是通过那些已知历史数据训练出来的。 ◼ 这里用于建立模型的数据称为训练集,通常是已经掌握的历 史数据。 ◼ 在训练集中每个对象都赋予一个类别的标记,不同的类别具 有不同的标记。 ◼ 分类就是通过分析训练集(决策表)中的数据,为每个类 别做出准确的描述或建立分析模型或挖掘出分类规则,然 后用这个分类规则对其它数据对象进行分类
决策树 新数据 判定树分类算法 分类 训练集 决策树 对数据进行分析 对未来迎行预题 对将要采取的 把客户,事 企业数 商业活动和业务系统 4
4 决策树 判定树分类算法 output 训练集 决策树 input 新数据 分类
使用决策树进行分类 决策树 个树形的结构 内部节点上选用一个属性进行分割 每个分叉都是分割的一个部分 叶子节点表示一个分类 决策树生成算法分成两个步骤 树的生成 开始,数据都在根节点 递归的进行数据分片 ■树的修剪:去掉一些可能是噪音或者异常的数据 决策树使用:对未知数据进行分割 ■按照决策树上采用的分割属性逐层往下,直到叶子节点
5 使用决策树进行分类 ◼ 决策树 ◼ 一个树形的结构 ◼ 内部节点上选用一个属性进行分割 ◼ 每个分叉都是分割的一个部分 ◼ 叶子节点表示一个分类 ◼ 决策树生成算法分成两个步骤 ◼ 树的生成 ◼ 开始,数据都在根节点 ◼ 递归的进行数据分片 ◼ 树的修剪:去掉一些可能是噪音或者异常的数据 ◼ 决策树使用: 对未知数据进行分割 ◼ 按照决策树上采用的分割属性逐层往下,直到叶子节点