数据理解 数据理解是数据分析的基础 提升数据的准确性,多维的源数据需要进行预处理和降维 结合业务逻辑,明确数据代表的意义,分析数据的结构和各个字段 之间的关系 关注业务变化导致的数据变化 数据分析方案需要有一定的拓展性
数据理解 • 数据理解是数据分析的基础 • 提升数据的准确性,多维的源数据需要进行预处理和降维 • 结合业务逻辑,明确数据代表的意义,分析数据的结构和各个字段 之间的关系 • 关注业务变化导致的数据变化 • 数据分析方案需要有一定的拓展性
数据质量问题与预处理 ·数据质量要求数据是完整的和真实的,并且具有一致性和可靠性 “垃圾进,垃圾出” 数据预处理占用整个数据挖掘项目60%的工作量 问题 数据量较少 数据量过多 维度灾难 数据不完整 异常数据 重复数据 数据不一致
数据质量问题与预处理 • 数据质量要求数据是完整的和真实的,并且具有一致性和可靠性 • “垃圾进,垃圾出” • 数据预处理占用整个数据挖掘项目60%的工作量 • 问题 • 数据量较少 • 数据量过多 • 维度灾难 • 数据不完整 • 异常数据 • 重复数据 • 数据不一致
数据量较少 数据挖掘需要一定的数据量作支撑 数据量增多,其中的规律会越发明显,也更易发现与分析目标相关的 因素 神经网络 深度学习 ·一般来说,数据量是自变量数量的10~20倍为佳 ·数据样本需要有足够的覆盖范围,需要覆盖与分析目标相关的维度
• 数据挖掘需要一定的数据量作支撑 • 数据量增多,其中的规律会越发明显,也更易发现与分析目标相关的 因素 – 神经网络 – 深度学习 • 一般来说,数据量是自变量数量的10~20倍为佳 • 数据样本需要有足够的覆盖范围,需要覆盖与分析目标相关的维度 议程数据量较少
数据量过多 数据量过多时,对全部数据集进行分析要耗费更多的计算资源,要求 硬件配置较髙,可应用数据采样技术随机提取样本子集 对海量的同质化数据,可通过聚集技术按照时间、空间等属性进行均 值等汇总,减少数据数量 ·数据集不平衡问题可能导致出现较大的结果误差,因此要对数据集应 用采样技术或对异常数据进行复制,提高其占比
• 数据量过多时,对全部数据集进行分析要耗费更多的计算资源,要求 硬件配置较高,可应用数据采样技术随机提取样本子集 • 对海量的同质化数据,可通过聚集技术按照时间、空间等属性进行均 值等汇总,减少数据数量 • 数据集不平衡问题可能导致出现较大的结果误差,因此要对数据集应 用采样技术或对异常数据进行复制,提高其占比 议程数据量过多
维度灾难 当数据中的自变量较多时,会出现维度灾难问题 特别是在矩阵数据中,其中冗余变量占比比较高时,可用数据变成稀 疏矩阵,在分类算法处理时就没办法可靠地进行类别划分,在聚类算 法中则容易使聚类质量下降 可采用线性代数的相关方法将数据从高维空间影射到低维空间中 主成分分析(PCA) 奇异值分解(SVD)
• 当数据中的自变量较多时,会出现维度灾难问题 • 特别是在矩阵数据中,其中冗余变量占比比较高时,可用数据变成稀 疏矩阵,在分类算法处理时就没办法可靠地进行类别划分,在聚类算 法中则容易使聚类质量下降 • 可采用线性代数的相关方法将数据从高维空间影射到低维空间中 – 主成分分析(PCA) – 奇异值分解(SVD) 议程维度灾难