分类和预测
分类和预测
分类VS.预测 分类: ¤预测分类标号(或离散值) ¤根据训练数据集和类标号属性,构建模型来分类现有数据, 并用来分类新数据 预测: ¤建立连续函数值模型,比如预测空缺值 典型应用 口信誉证实 a目标市场 a医疗诊断 口性能预测
分类 VS. 预测 ◼ 分类: ❑ 预测分类标号(或离散值) ❑ 根据训练数据集和类标号属性,构建模型来分类现有数据, 并用来分类新数据 ◼ 预测: ❑ 建立连续函数值模型,比如预测空缺值 ◼ 典型应用 ❑ 信誉证实 ❑ 目标市场 ❑ 医疗诊断 ❑ 性能预测
数据分类 个两步过程(1) 第一步,建立一个模型,描述预定数据类集和概念集 口假定每个元组属于一个预定义的类,由一个类标号属性 确定 口基本概念 训综数据集:由为建立模型而被分析的数据元组形成 训练样本:训练数据集中的单个样本(元组) 口学习模型可以用分类规则、判定树或数学公式的形式提 供
数据分类——一个两步过程 (1) ◼ 第一步,建立一个模型,描述预定数据类集和概念集 ❑ 假定每个元组属于一个预定义的类,由一个类标号属性 确定 ❑ 基本概念 ◼ 训练数据集:由为建立模型而被分析的数据元组形成 ◼ 训练样本:训练数据集中的单个样本(元组) ❑ 学习模型可以用分类规则、判定树或数学公式的形式提 供
数据分类 个两步过程() 第二步,使用模型,对将来的或未知的对象进行分类 口首先评估模型的预测准确率 对每个测试样本,将已知的类标号和该样本的学习模型类预测 比较 ■模型在给定测试集上的准确率是正确被模型分类的测试样本的 百分比 测试集要独立于训练样本集,否则会出现“过分适应数据”的 情况
数据分类——一个两步过程 (2) ◼ 第二步,使用模型,对将来的或未知的对象进行分类 ❑ 首先评估模型的预测准确率 ◼ 对每个测试样本,将已知的类标号和该样本的学习模型类预测 比较 ◼ 模型在给定测试集上的准确率是正确被模型分类的测试样本的 百分比 ◼ 测试集要独立于训练样本集,否则会出现“过分适应数据”的 情况
第一步——建立模型 分类算法 训练数 据集 NAME RANK YEARS TENURED 分类规则 Mike Assistant Prof no Mary Assistant Prof yes B Professor yes m Associate Prof 37276 yes D ave Assistant Prof IF rank=professor no OR years >6 Anne Associate Prof 3 no THEN tenured =yes
第一步——建立模型 训练数 据集 N AM E RANK YEA RS TEN U RED Mike Assistant Prof 3 n o Mary Assistant Prof 7 yes Bill Professor 2 yes Jim Associate Prof 7 yes Dave Assistant Prof 6 n o Anne Associate Prof 3 n o 分类算法 IF rank = ‘professor’ OR years > 6 THEN tenured = ‘yes’ 分类规则