高危人群的相关数据收集与预处理 ·所有数据划分为以下几个步骤:原始类型转换、清理、整合、拆分、终止 。所有表在数据清理阶段(第一阶段),判断数据是否重复,如果数据重复, 则直接将数据步骤置为终止状态记录终止原因,所有终止状态数据不参与 后面的步骤 数据清理完成后,根据业务要求将数据整合为人口动态轨迹数据库,并在 数据库中根据不同的主题分类抽取数据变量,通过数据导入功能将数据存 入数据中心库中。以此完成数据的准备工作,为后续的数据模型的生成建 立了基础
高危人群的相关数据收集与预处理 • 所有数据划分为以下几个步骤:原始类型转换、清理、整合、拆分、终止 。所有表在数据清理阶段(第一阶段),判断数据是否重复,如果数据重复, 则直接将数据步骤置为终止状态记录终止原因,所有终止状态数据不参与 后面的步骤 • 数据清理完成后,根据业务要求将数据整合为人口动态轨迹数据库,并在 数据库中根据不同的主题分类抽取数据变量,通过数据导入功能将数据存 入数据中心库中。以此完成数据的准备工作,为后续的数据模型的生成建 立了基础
高危人群的相关数据收集与预处理 人员轨迹信息同构整合用于将异构的数据源全部同构化到髙危人员分析系 统数据库中。异构的数据源包括:网吧上网人员的数据、宾(旅)馆、浴场住 宿人员数据、违法犯罪人员数据库、吸毒人员数据库、执法办案过程中采 集的人员信息、违法犯罪人员手机号码采集系统、看守所释放人员数据、 分局47008査询人员数据、工作对象综合信息系统数据、案事件信息管理系 统、服务行业从业人员C卡数据库、实有人口库基础数据等
高危人群的相关数据收集与预处理 • 人员轨迹信息同构整合用于将异构的数据源全部同构化到高危人员分析系 统数据库中。异构的数据源包括:网吧上网人员的数据、宾(旅)馆、浴场住 宿人员数据、违法犯罪人员数据库、吸毒人员数据库、执法办案过程中采 集的人员信息、违法犯罪人员手机号码采集系统、看守所释放人员数据、 分局47008查询人员数据、工作对象综合信息系统数据、案事件信息管理系 统、服务行业从业人员IC卡数据库、实有人口库基础数据等
高危人群的相关数据收集与预处理 外部数据表 散据类型 吧上网人员的数据 人员信息、上网时问、下网时间、网吧名称、网吧地址 所属派出所、经营性质 宾《旅)馆、浴场住宿人员数人员信息、入住时向、退房时间、场所名称、场所地址 属派出所、企业名称、营业范围 人员信息、案件类型、定罪时问、定罪名称、处理结果 违法犯罪人员数据库 关押时间 人员信息、涉毒类型、是否戒毒所、入所时间、出所时 吸毒人员数据厍 执法办案过程中采集的人员信人员信息、采集地点,采集事由、处置结果 全市进看守所人员数据、全市进治安拘留所人员数据 看守所拘留所入所数据 全市刑释解教人员数据、刑释强戒人员数据、全市吸毒 人员数据、各业务管理确定的工作对象信息 违法犯罪人员手机号码采集系 人员信息、案件类型、定罪时间、手机号码信息 分局47008查询人员数据 人员信息、排查时问、查询事由、人员标签 工作对象综合信息系统数据 人员信息、工作对象类型、嫌疑事由、采集时间、处置 案事件信息管理系统数据 案件类型、案件时间、地点、涉及人员、案件处置结果 服务行业从业人员C卡数据库人员信息、所属单位、管控类别、涉罪情况 姓名、身份证、性别、年龄、户籍地、居住地、职业 实有人口库基础数据
高危人群的相关数据收集与预处理 • 外部数据表 序 号 数据类型 数据内容 1 网吧上网人员的数据 人员信息、上网时间、下网时间、网吧名称、网吧地址、 所属派出所、经营性质 2 宾(旅)馆、浴场住宿人员数 据 人员信息、入住时间、退房时间、场所名称、场所地址、 所属派出所、企业名称、营业范围 3 违法犯罪人员数据库 人员信息、案件类型、定罪时间、定罪名称、处理结果、 关押时间 4 吸毒人员数据库 人员信息、涉毒类型、是否戒毒所、入所时间、出所时 间 5 执法办案过程中采集的人员信 息 人员信息、采集地点、采集事由、处置结果 6 看守所拘留所入所数据 全市进看守所人员数据、全市进治安拘留所人员数据、 全市刑释解教人员数据、刑释强戒人员数据、全市吸毒 人员数据、各业务管理确定的工作对象信息 7 违法犯罪人员手机号码采集系 统 人员信息、案件类型、定罪时间、手机号码信息 8 分局47008查询人员数据 人员信息、排查时间、查询事由、人员标签 9 工作对象综合信息系统数据 人员信息、工作对象类型、嫌疑事由、采集时间、处置 结果 10 案事件信息管理系统数据 案件类型、案件时间、地点、涉及人员、案件处置结果 11 服务行业从业人员IC卡数据库 人员信息、所属单位、管控类别、涉罪情况 12 实有人口库基础数据 姓名、身份证、性别、年龄、户籍地、居住地、职业、 学历
高危人群的相关数据收集与预处理 导入过程是将数据原样全部以字符串类型导入到数据库,表结构与源文件 结构基本样,增加数据源和导入时间两个字段。导入完成后记录日志,并 将源文件从文件缓冲区移动到文件备份区。导入如果失败,则记录错误日 志,并向接入监控模块发送警报,将源文件从文件缓冲区移动到文件备份 区。全部执行完毕,则开始导入下一个文件,直到文件缓冲区没有文件为 止 首先进行数据格式转换,将数据准备库中的原始数据转换成对应的数据类 型,并存储在缓冲库中,在数据准备库中根据数据类型分为数值型或日期 型,其他数据类型均设置为 NVARCHARZ2(2000)。例如,对“宾旅馆入住时间 ”等日期型字段统一进行日期格式化处理,统一处理为“YYY- MM-Cdhh: mm:ss"形式。缓冲区数据库的字段类型根据数据含义已经设定成了相应 的数据类型
高危人群的相关数据收集与预处理 • 导入过程是将数据原样全部以字符串类型导入到数据库,表结构与源文件 结构基本样,增加数据源和导入时间两个字段。导入完成后记录日志,并 将源文件从文件缓冲区移动到文件备份区。导入如果失败,则记录错误日 志,并向接入监控模块发送警报,将源文件从文件缓冲区移动到文件备份 区。全部执行完毕,则开始导入下一个文件,直到文件缓冲区没有文件为 止 • 首先进行数据格式转换,将数据准备库中的原始数据转换成对应的数据类 型,并存储在缓冲库中,在数据准备库中根据数据类型分为数值型或日期 型,其他数据类型均设置为NVARCHAR2(2000)。例如,对“宾旅馆入住时间 ”等日期型字段统一进行日期格式化处理,统一处理为“YYYY-MM-ddhh: mm:ss.ff”形式。缓冲区数据库的字段类型根据数据含义已经设定成了相应 的数据类型
高危人群的相关数据收集与预处理 ·先对缓冲库中的数据表进行扫描,如果有数据,则循环处理每行数据,获 取到行数据后,将每个字段的值取出逐个转换,如果全部没有错误,则将 该行数据插入到主题库中,并记录操作日志和将原始数据移动到备份表中 如果有错误,则记录错误日志和将原始数据移动到错误表中 对于数据质量较差的字段或进行清洗,或直接抛弃 对数据噪声的处理,主要采用平滑处理的方式 在重复数据处理方面,由于外部数据源存在相同业务含义数据重叠的情况 ,如违法犯罪库与工作对象综合信息系统数据库中关于案情描述数据岀现 记录或属性重复的情况,原因是两种库之间存在继承关系,针对该类情况 制订清理规则,明确了重复数据情况下以违法犯罪库为优先,保留该库数 据并删除其他相同数据记录
高危人群的相关数据收集与预处理 • 先对缓冲库中的数据表进行扫描,如果有数据,则循环处理每行数据,获 取到行数据后,将每个字段的值取出逐个转换,如果全部没有错误,则将 该行数据插入到主题库中,并记录操作日志和将原始数据移动到备份表中 ;如果有错误,则记录错误日志和将原始数据移动到错误表中 • 对于数据质量较差的字段或进行清洗,或直接抛弃 • 对数据噪声的处理,主要采用平滑处理的方式 • 在重复数据处理方面,由于外部数据源存在相同业务含义数据重叠的情况 ,如违法犯罪库与工作对象综合信息系统数据库中关于案情描述数据出现 记录或属性重复的情况,原因是两种库之间存在继承关系,针对该类情况 制订清理规则,明确了重复数据情况下以违法犯罪库为优先,保留该库数 据并删除其他相同数据记录