数据预处理 原始数据很粗糙,缺少列名称,同时冗余数据和残缺数据都较多 1 instar囗味4非服务4非环境4(非 frank03-31更新于17-04121257iom01985 2im-sta味4(非最务4((11man2041 特别喜欢吃菜 3 irr-star囗味4(非猴务4(非3环境4(非 urbank0411 luckys jn 4ir-star口味3(很如服务4非环境3《很 urr-ran50411 er.23928410 5i-sta味(非务2(好)环2(好) urr-rar0410 61 stari口味4非务4(环境4(非3uma010 爱吃智莲的x小姐 7 instar:味3(很务4(#境4(非m-:0409 pogIng 8im-gtar口味4非务4(B3环1(m:20409 时光素雨颜依日 9 instar:味4(非务3(很环境3(得 urT-ranl0409 user.306081072 10 instar囗味4(非猴务4(非环境3(很 frank10408 学院路路草 1 instar!囗味4(非丰服务4(非3环境3(很uram0408 南 12 instant囗味4(非务4(菲环境4排 Tran.007 小洁7689 13ir-star口味4(非猴务4(非环境4非 urr-rankt0407 ser 82055 14ir-star口味4(非服务4(环境4(非u-ark0407 1a11a 15ir-star口味4(非服务4(#环境4(非 Crank04-06 La 66 16 Instar口味3(很如猴务3(很环境3(很 urbank0406 雷少66
数据预处理 • 原始数据很粗糙,缺少列名称,同时冗余数据和残缺数据都较多
数据预处理 添加列名称,在第一行对数据添加类别说明 分别为“评价均分”,“口味评分”,“服务评分”,“环境评分”,“用户贡献值”, 评价日期”,“用户昵称”,“评价内容”,“评价点赞数” 去重处理:全选,点击“数据”“删除重复项” 1评价均分口味评分服务评分环境评分用户贡献作评价日期用户昵称 评价内容评价点赞数 lirr-stars味非服务4(非环境4(非mra0119o1985 3 lirr-start味4(非服务4(非环境4(非uxak0+11特别喜欢吃川菜 4rxst味4(非服务4(非2乐境4(非mr:1uky 5 irr-star味(很如服务4(非环境3(很urra011daer2392890 6ir-t味4(务2(环境2()mrak0410童的舌头 0 ir-sta味4服务4(34(非umr0410爱吃榴莲的z小姐 0 ir-sta味3很服务4非环境4(mrk09+09pgrg 0 irr-starf味4非服务4(丰环境4(umr-a2009时光煮雨颜依旧 10ir-star口味4(非服务3(很环境3(很umr0+09c06807 1lir-str味非服务4(非环场境3(很如ur10408学院路草 12ixst味4(联务4(境3(很umr0南{ 13 Jirr-star味4非车务(1mr07清769 14rst味4(非服务4(非2乐境9(非mr00782976 15 irr-star口味4(非服务4(排环墙4(非 urrranke+07 uijiajia
数据预处理 • 添加列名称,在第一行对数据添加类别说明 – 分别为“评价均分”,“口味评分”,“服务评分”,“环境评分”,“用户贡献值”,“ 评价日期”,“用户昵称”,“评价内容”,“评价点赞数” • 去重处理:全选,点击“数据”-“删除重复项
数据预处理 将数据导入 SPSS Modeler180 表(6个字段,5160条记录)#1 0[ 如件辑6生成國 用户贡敢评价日 数据过类型注解 计4解.4车x年+m2:1 导入文件 AUsersiadmin Desktop\=淘海底火锅址丹园店刈x m50口味3(好)那务4丰篇好)环填3很好)uman50411 ista50口味4丰常好)服务4丰常好)环情4非常好) urr-rank3004-1 使用指定的范图 irr-star50口味3很好)服务4丰常好)环搋4啡常好) urr-rank200409 irr-stard50口味4丰常好)服务4(丰常好)环境4常好)uman200409 选择工作表:@按索引 4丰常好)服务4车丰常好)环3 sta50口味4丰常好)服务4常好)环3很好) O按名称 工作表范国:@范围从第一个丰空行开始 O单元格的显示范国 味4丰常好)服务4丰常好)环墳4非常好) uff-ranc50406 在空行 小m 11141171 半4率4率3解厘m2 ˇ第一行存在列名称 4:m29 确定取消 应用重
数据预处理 • 将数据导入SPSS Modeler 18.0
数据预处理 数值化“评价月份” ②评价月份 导出为公式 顶式:单个O多个 号出字段 中价月份 导出为公式 字共型分共 ngt评伯曰)==a) then substring between(4,5,评价日抛 endit 应用重置
数据预处理 • 数值化“评价月份
数据预处理 将“评价均分”和“用户贡献值”改为数字形式。分别添加“导出”节点 设置“导出字段”和“公式”为“评价均分(数字)”、 “ substring between(99,评价均分);“用户贡献值(数字)” “ allbutfirst(8,用户贡献值y。 添加“过滤”节点,已经不需要“评价均分”、“用户贡献值”和“评价 日期”三个字段了,将其叉掉。添加“表”节点
数据预处理 • 将“评价均分”和“用户贡献值”改为数字形式。分别添加“导出”节点 ,设置“导出字段”和“公式”为“评价均分(数字)”、 “substring_between(9,9, 评价均分)”;“用户贡献值(数字)”、 “allbutfirst(8,用户贡献值)”。 • 添加“过滤”节点,已经不需要“评价均分”、“用户贡献值”和“评价 日期”三个字段了,将其叉掉。添加“表”节点