第二步——用模型进行分类 分类规则 测试集 未知数据 (Jeff, Professor, 4) NAME RANK YEARS TENURED Tom Assistant Prof no Tenured? Merlisa Associate Prof George Professor 2757 no es Joseph Assistant Prof yes
第二步——用模型进行分类 分类规则 测试集 N AM E RANK YEA RS TEN U RED Tom Assistant Prof 2 n o Merlisa Associate Prof 7 n o George Professor 5 yes Joseph Assistant Prof 7 yes 未知数据 (Jeff, Professor, 4) Tenured?
有指导的学习V.无指导的学习 有指导的学习(用于分类) 口模型的学习在被告知每个训练样本属于哪个类的 “指导”下进行 口新数据使用训练数据集中得到的规则进行分类 无指导的学习(用于聚类) a每个训练样本的类编号是未知的,要学习的类集合 或数量也可能是事先未知的 口通过一系列的度量、观察来建立数据中的类编号或 进行聚类
有指导的学习 VS. 无指导的学习 ◼ 有指导的学习(用于分类) ❑ 模型的学习在被告知每个训练样本属于哪个类的 “指导”下进行 ❑ 新数据使用训练数据集中得到的规则进行分类 ◼ 无指导的学习(用于聚类) ❑ 每个训练样本的类编号是未知的,要学习的类集合 或数量也可能是事先未知的 ❑ 通过一系列的度量、观察来建立数据中的类编号或 进行聚类
准备分类和预测的数据 通过对数据进行预处理,可以提高分类和预测 过程的准确性、有效性和可伸缩性 ¤数据清理 消除或减少噪声,处理空缺值,从而减少学习时的混乱 口相关性分析 ■数据中的有些属性可能与当前任务不相关;也有些属性可 能是冗余的;删除这些属性可以加快学习步骤,使学习结 果更精确 口数据变换 可以将数据概化到较高层概念,或将数据进行规范化
准备分类和预测的数据 ◼ 通过对数据进行预处理,可以提高分类和预测 过程的准确性、有效性和可伸缩性 ❑ 数据清理 ◼ 消除或减少噪声,处理空缺值,从而减少学习时的混乱 ❑ 相关性分析 ◼ 数据中的有些属性可能与当前任务不相关;也有些属性可 能是冗余的;删除这些属性可以加快学习步骤,使学习结 果更精确 ❑ 数据变换 ◼ 可以将数据概化到较高层概念,或将数据进行规范化
比较分类方法 使用下列标准比较分类和预测方法 ¤预测的准确率:模型正确预测新数据的类编号的能 力 ¤速度:产生和使用模型的计算花销 ¤健壮性:给定噪声数据或有空缺值的数据,模型正 确预测的能力 口可伸缩性:大量数据,有效的构建模型的能力 口可解释性:学习模型提供的理解和洞察的层次
比较分类方法 ◼ 使用下列标准比较分类和预测方法 ❑ 预测的准确率:模型正确预测新数据的类编号的能 力 ❑ 速度:产生和使用模型的计算花销 ❑ 健壮性:给定噪声数据或有空缺值的数据,模型正 确预测的能力 ❑ 可伸缩性:对大量数据,有效的构建模型的能力 ❑ 可解释性:学习模型提供的理解和洞察的层次
用判定树归纳分类 什么是判定树? 口类似于流程图的树结构 a每个内部节点表示在一个属性上的测试 a每个分枝代表一个测试输出 口每个树叶节点代表类或类分布 判定树的生成由两个阶段组成 a判定树构建 开始时,所有的训练样本都在根节点 递归的通过选定的属性,来划分样本(必须是离散值) 口树剪枝 多分枝反映的是训练数据中的噪声和孤立点,树剪枝试图检 和剪去这种分枝 判定树的使用:对未知样本进行分类 ¤通过将样本的属性值与判定树相比较
用判定树归纳分类 ◼ 什么是判定树? ❑ 类似于流程图的树结构 ❑ 每个内部节点表示在一个属性上的测试 ❑ 每个分枝代表一个测试输出 ❑ 每个树叶节点代表类或类分布 ◼ 判定树的生成由两个阶段组成 ❑ 判定树构建 ◼ 开始时,所有的训练样本都在根节点 ◼ 递归的通过选定的属性,来划分样本 (必须是离散值) ❑ 树剪枝 ◼ 许多分枝反映的是训练数据中的噪声和孤立点,树剪枝试图检 测和剪去这种分枝 ◼ 判定树的使用:对未知样本进行分类 ❑ 通过将样本的属性值与判定树相比较