维度灾难 PCA在信用卡消费行为与是否存在欺诈分析中的应用 信用卡用户消费记录如图所示,一共有19个输入变量 卡关米日日置单笔费费入是否存在着性婚应籍 据关型(业工保车总得分体电等 400103005600 」盏艦蟲m區1 J類81 6900115002297 129来填天士段以上自期私需山4有 在 SPSS Modeler中应用主成分分析/因子节点对数据进行降维,选择日 均消费金额等9个字段作为输入,以70%数据集、30%测试集的比例进 行分区,选择“专家模式”,参数为默认值
• PCA在信用卡消费行为与是否存在欺诈分析中的应用 • 信用卡用户消费记录如图所示,一共有19个输入变量 • 在SPSS Modeler中应用主成分分析/因子节点对数据进行降维,选择日 均消费金额等9个字段作为输入,以70%数据集、30%测试集的比例进 行分区,选择“专家模式”,参数为默认值 议程维度灾难
维度灾难 公因子方差 在总方差解释表中 日均消费金额1.000 914 日均次数 1,000 697 前4个变量的初始特征 单笔消费低1.000922 单笔消费最高1.000 785 值大于1,分别为日均 年收入 1,000 年龄 1.000 消费金额、日均次数 工作年限 1.000928 总评分 单笔消费最低、单 提取方法:主成分分析法 笔消费最高,这4项累 总方要解释 计占比84507%,符合 总计为百 3.351 37234372343.35137.23437.23 主成分80%以上占比 21.123583571.9012112358357 1.2801421772.5751.2801421772.575 024 4.507 11.93284.507 的标准 783 8.70493.211 3379 96.590 161198201 1.24399.444 556100.000
• 在总方差解释表中, 前4个变量的初始特征 值大于1,分别为日均 消费金额、日均次数 、单笔消费最低、单 笔消费最高,这4项累 计占比84.507%,符合 主成分80%以上占比 的标准 议程维度灾难
维度灾难 降低维度的其他方法 通过特征子集选择的方式,将那些不相关的特征剔除 使用特征加权技术,结合领域知识人为赋予某些特征更大的影响力权重 在深度学习领域,常用特征提取和特征创建的技术将原始数据中的特 征进行重构,以获得模型需要的特征,并且在重构过程中加以格式转 换和数据变换 傅里叶变换:将时域信号转化为频域信号 小波变换:主要处理时间序列
• 降低维度的其他方法 – 通过特征子集选择的方式,将那些不相关的特征剔除 – 使用特征加权技术,结合领域知识人为赋予某些特征更大的影响力权重 • 在深度学习领域,常用特征提取和特征创建的技术将原始数据中的特 征进行重构,以获得模型需要的特征,并且在重构过程中加以格式转 换和数据变换 – 傅里叶变换:将时域信号转化为频域信号 – 小波变换:主要处理时间序列 议程维度灾难
数据不完整 数据的种类要多,种类多少直接影响数据挖掘方法的选择,可以通过 编写程序抓取外部数据作为补充 ·数据缺失也是数据不完整的一种表现,包括了空白值、空值、无效值 等 需要针对不同原因对缺失值进行数据预处理,有多种方法可以操作 采用众数、中位数、均值、最短距离等方法进行人为补充 通过回归或贝叶斯定理等预测缺失值 删除含有缺失值的数据
• 数据的种类要多,种类多少直接影响数据挖掘方法的选择,可以通过 编写程序抓取外部数据作为补充 • 数据缺失也是数据不完整的一种表现,包括了空白值、空值、无效值 等 • 需要针对不同原因对缺失值进行数据预处理,有多种方法可以操作 – 采用众数、中位数、均值、最短距离等方法进行人为补充 – 通过回归或贝叶斯定理等预测缺失值 – 删除含有缺失值的数据 议程数据不完整
异常数据 异常数据分为错误的数据和小概率事件(又称稀有事件)两类 对错误数据,需要将其剔除或修正 对稀有事件,如信用卡欺诈行为、垃圾邮件,需要重点分析其特征
• 异常数据分为错误的数据和小概率事件(又称稀有事件)两类 • 对错误数据,需要将其剔除或修正 • 对稀有事件,如信用卡欺诈行为、垃圾邮件,需要重点分析其特征 议程异常数据