■另一个问题是必须有处理“非常值”的 机制,来消除“非常值”对最终结果的 影响,数据可能并不是來自我们假定的 总体。异常点是典型的例子。 ■失真的数据、方法上错误的步驟、滥用 挖掘工具、模型太理想化、超出各种不 确定性和模糊性的数据来源的模型可能 导致挖掘方向的错误。因此挖掘不只是 简单在应用一系列工具于已知问题,而 是一种批判性的鉴定、考查、检查以及 评佔过程
另一个问题是必须有处理“非常值”的 机制,来消除“非常值”对最终结果的 影响,数据可能并不是来自我们假定的 总体。异常点是典型的例子。 失真的数据、方法上错误的步骤、滥用 挖掘工具、模型太理想化、超出各种不 确定性和模糊性的数据来源的模型可能 导致挖掘方向的错误。因此挖掘不只是 简单在应用一系列工具于已知问题,而 是一种批判性的鉴定、考查、检查以及 评估过程
■挖掘过程中一个最关键的步骤是 对初始数据集的预备和转换,数 据预备有两个中心任务 1.把数据组织成一种标准形式,使 其能被挖掘工具和其他基于计弇 机的工具处理(一个关系表) 准备数据集使之能得到最佳的挖 掘效果
挖掘过程中一个最关键的步骤是 对初始数据集的预备和转换,数 据预备有两个中心任务: 1.把数据组织成一种标准形式,使 其能被挖掘工具和其他基于计算 机的工具处理(一个关系表) 2.准备数据集使之能得到最佳的挖 掘效果
2.3原始数据的转换 1.标准化 挖掘中基于n维空间距离讣算 的方法需要对数据进行标准化处 理来达到最佳效果,将数据按比例 对应到特定的范围,否则距离测 量将会超出平均起来数值更大的 那些特征。标准化常用技术
1.标准化 挖掘中基于n维空间距离计算 的方法需要对数据进行标准化处 理来达到最佳效果,将数据按比例 对应到特定的范围,否则距离测 量将会超出平均起来数值更大的 那些特征。标准化常用技术: 2.3 原始数据的转换
(1)小数缩放:小数缩放移动小数点,但 大多数原始数据保持不变。设缩放区 间为[-1,1,其变换公式为 v(i)=v(i)/10 K是保证缩放后的值落在指定区间的最小 比例。方法为:在原数据集中选择绝 对值最大者,取K使该值绝对值〈1, 然后将该因子施加于所有数据进行缩 放
(1)小数缩放:小数缩放移动小数点,但 大多数原始数据保持不变。设缩放区 间为[-1,1],其变换公式为: k v (i) v(i)/10 ' = K是保证缩放后的值落在指定区间的最小 比例。方法为:在原数据集中选择绝 对值最大者,取K使该值绝对值〈1, 然后将该因子施加于所有数据进行缩 放