第二章数据准备 本章目标 ■分析原始大型数据集的基本表述和特征 ■对数值型属性应用不同的标准化技术。 ■了解数据准备的不同技术,包括属性转化。 ■比较去除丢失值的不同方法。 ■构造时间相关数据的统一表达方法。 ■比较不同异常点探测技术。 ■实现一些数据预处理技术
第二章 数据准备 本章目标: 分析原始大型数据集的基本表述和特征。 对数值型属性应用不同的标准化技术。 了解数据准备的不同技术,包括属性转化。 比较去除丢失值的不同方法。 构造时间相关数据的统一表达方法。 比较不同异常点探测技术。 实现一些数据预处理技术
2.1原始数据的表述 ■常见的数据类型 数据挖掘过程的基本对象是数据样本 每个样本都用几个特征来描述,每个特 征有不同的类型的值。常见类型:数值 型和分类型。数值型的值包括实型变量 和整型变量, ■数值型:其特征是其值有顺序关系和距 离关系。 ■分类型:其特征是变量间是否相等,且 可用二进制数来表述
2.1 原始数据的表述 常见的数据类型: 数据挖掘过程的基本对象是数据样本, 每个样本都用几个特征来描述,每个特 征有不同的类型的值。常见类型:数值 型和分类型。数值型的值包括实型变量 和整型变量。 数值型:其特征是其值有顺序关系和距 离关系。 分类型:其特征是变量间是否相等,且 可用二进制数来表述
■基于变量值的变量分类法:连续型变 量和离散型变量 ■连续型变量也称为定量型或度量型变 量。可用间隔尺度或比例尺度來衡量。 温度尺度属间隔尺度,没有绝对零点。 高度、长度和工资属例尺度,有绝 对零点 ■离散型变量也称为定性型变量。可用 名义尺度或有序尺度来衡量。顾客类 型标志和邮编属名义尺度,排名属有 序尺度
基于变量值的变量分类法:连续型变 量和离散型变量. 连续型变量也称为定量型或度量型变 量。可用间隔尺度或比例尺度来衡量。 温度尺度属间隔尺度,没有绝对零点。 高度、长度和工资属比例尺度,有绝 对零点, 离散型变量也称为定性型变量。可用 名义尺度或有序尺度来衡量。顾客类 型标志和邮编属名义尺度,排名属有 序尺度
■周期变量是一种特殊的离散变量, 存在距离关系不存在顺序关系。 星期、月属周期变量 ■基于数据的与时间有关的行为特 性的类型:静忞数据和动态数据
周期变量是一种特殊的离散变量, 存在距离关系不存在顺序关系。 星期、月属周期变量。 基于数据的与时间有关的行为特 性的类型:静态数据和动态数据
2.2原始数据的特性 ■在数据挖掘初始阶段面对的数据也 许有潜在的条乱性,存在着丢失值 失真、误记录和不适当的样本。因 此在必须根据已有的数据甚至是丢 失值的数据进行建模。这样就可能 避免在挖掘前处理丢失值问题
在数据挖掘初始阶段面对的数据也 许有潜在的杂乱性,存在着丢失值、 失真、误记录和不适当的样本。因 此在必须根据已有的数据甚至是丢 失值的数据进行建模。这样就可能 避免在挖掘前处理丢失值问题。 2.2 原始数据的特性