高危人群的相关数据收集与预处理 系统整合的数十个外部数据源中的属性字段值可以组成数以百计甚至更多 的可用变量,其中大部分变量与木次数据挖据工作无关联,如何适当地抽 取变量用于模型的创建是非常重要的 首先在系统初始变量基础上进行相关性分析 最后得到清理后的初始变量为67个 然后根据数据理解和专家讨论,完成了衍射变量的添加 最后得到的变量个数为20个
高危人群的相关数据收集与预处理 • 系统整合的数十个外部数据源中的属性字段值可以组成数以百计甚至更多 的可用变量,其中大部分变量与木次数据挖据工作无关联,如何适当地抽 取变量用于模型的创建是非常重要的。 • 首先在系统初始变量基础上进行相关性分析 • 最后得到清理后的初始变量为67个 • 然后根据数据理解和专家讨论,完成了衍射变量的添加 • 最后得到的变量个数为20个
高危人群的相关数据收集与预处理 在初始生成的20个变量的基础上进行变量的筛选,其主要思想是对变量进 行重要性分析。处理过程主要包括删除强相关性变量以及样本数量较少的 对象。然后,通过 IBM SPSS Modeler软件的特征选择组件进行二次筛选,在 分析方法上使用似然比进行特征重要性分析 通过对缺失值最大百分比、单个类别中记录最大百分比、最大类别数、最 小变异系数、最小标准差等值的设定,划分出重要、边际、不重要等类别 的特征变量 在变量重要性分析中,类别预测变量p值(重要性)的基础为“似然比(LR) 似然比指标可以反映变量真实性,属于同时反映特异度与灵敏度的复合指 标。在本检验下,似然比可以分为犯罪似然比与非犯罪似然比
高危人群的相关数据收集与预处理 • 在初始生成的20个变量的基础上进行变量的筛选,其主要思想是对变量进 行重要性分析。处理过程主要包括删除强相关性变量以及样本数量较少的 对象。然后,通过IBM SPSS Modeler软件的特征选择组件进行二次筛选,在 分析方法上使用似然比进行特征重要性分析 • 通过对缺失值最大百分比、单个类别中记录最大百分比、最大类别数、最 小变异系数、最小标准差等值的设定,划分出重要、边际、不重要等类别 的特征变量。 • 在变量重要性分析中,类别预测变量p值(重要性)的基础为“似然比(LR)”。 似然比指标可以反映变量真实性,属于同时反映特异度与灵敏度的复合指 标。在本检验下,似然比可以分为犯罪似然比与非犯罪似然比