章数据分析概述与软件入门 (3) Results coach是关于结果的解释惨见图1.21)。在结果窗口中,只要对相应的输出含 义不太清楚,即可选中该输出,并右击鼠标,右键菜单上会有 Results coach选项,它可以链接到 相应的向导界面,详细地对该过程的功能和结果加以讲解。但需要注意的是,对于少数统计上比 较复杂,难以解释清楚的方法,S°SS没有提供 图1.21 Result coach在解释频数表 (4) Case Stud ie上述三个向导多少都有一些入门和救急的味道,对于希望系统学习SPSS 中统计功能的用户而言,就可以使用 Case studies这一详细的案例向导。用户选择菜单项Help Case Studies即可进入,如图122所示,它为中级用户提供了SPS各模块的主要分析方法的 基本操作和结果解释。其讲解方式也是示例化、图形化的。只要大家的英文水平和统计功底尚 可,实际上可以通过该向导掌握绝大多数的SPSs基本操作,从而避免了到处寻找一本优秀的 SPSs入门教材的痛苦 Means Table urith Owe Creping Variab oooo 图1.22 Case Study在演示 Means过程 2帮助菜单 SPSs的帮助文件就是一个标准的 w indows帮助文件,在菜单上选择 Help- Top ics进入。在 使用上没有太多特殊的地方,主要也是通过目录和索引两种方式查找所需的内容
18 第 1章 数据分析概述与软件入门 (3)ResultsCoach:是关于结果的解释(参见图 1.21)。在结果窗口中,只要对相应的输出含 义不太清楚,即可选中该输出,并右击鼠 标,右键 菜单上会有 ResultsCoach选项,它可以链接到 相应的向导界面,详细地对该过程的功能和结果加以讲解。但需要注意的是,对于少数统计上比 较复杂,难以解释清楚的方法,SPSS没有提供。 图 1.21 ResultCoach在解释频数表 (4)CaseStudies:上述三个向导多 少都有一些入门 和救急的味道,对于希望系统学习 SPSS 中统计功能的用户而言,就可以 使用 CaseStudies这一详细的案例向导。用户选择菜单项 Help →CaseStudies即可进入,如图 1.22所示,它为中级 用户提 供了 SPSS各模块 的主要分析方法的 基本操作和结果解释。其讲解方式也是示例化、图形化的。只要大家 的英文水平和统 计功底尚 可,实际上可以通过该向 导掌握绝 大多数的 SPSS基本操作,从 而避免了 到处寻找 一本优秀的 SPSS入门教材的痛苦。 图 1.22 CaseStudy在演示 Means过程 2.帮助菜单 SPSS的帮助文件就是一个标准的 Windows帮助文件,在菜单上选择 Help→Topics进入。在 使用上没有太多特殊的地方,主要也是通过目录和索引两种方式查找所需的内容
1.2SP操作入门19 (1)目录树方式:目录树像一本电子书的目录一样,将所有主题分成了一个树状结构,如图 1.23所示。只要循着该目录的各级分支,最终总能找到所需的内容。用户可以在“目录”表中浏 览用户手册从而学习SP⑤的使用。从左边选择一个主题,如“ ow to read exce l5 or la ter”,右 边内容区即显示此部分内容。 Verve wwent ve 图长的 wHu. .tete theg ans ha anpt care 图1.23sSS帮助主题 (2)索引方式:目录树的结构比较完整,但使用上要求用户首先要熟悉分类,而且要一层层 找下去,如果知道希望查找的关键词,用户就可以在紫索引”表中键入关键词,系统会在其左边的 索引栏中寻找与键入词完全匹配的内容。如在索引栏中键入“ Frequency,左边的索引栏的第 行即显示“ Frequency”,双击并选择其中一个表,即可出现内容。而当关键词不确定时也可以通 过“搜索”表查询相关内容。在搜索”栏中键入待搜索内容,单击咧出主题”,下边即列出包含 该搜索内容的所有主题 3对话框帮助 sPSS的界面做得非常友好,对话框界面中到处都是帮助功能。首先,在所有主对话框或子 对话框中都会有Help按钮,单击Hep后系统会弹出相应的帮助内容,用于解释各个选项、框组 的作用是什么。除这种标准的帮助以外,任何时候如果对某个选项的功能不太熟悉,则可以直接 在该选项框上方单击鼠标右键,就会立刻弹出相应的解释(见图124,注意此处的帮助内容并 非Help菜单中相应内容的重复,一般来说要更详细些 图L.24SSs中的对话框帮助
1.2 SPSS操作入门 19 (1)目录树方式:目录树像一本电子书的目录一样,将所有主题分成了一个树状结 构,如图 1.23所示。只要循着该目录的各级分支,最终总能找到所需的内容。用户可以在“目录”表中浏 览用户手册从而学习 SPSS的使用。从左边选 择一个主题,如 “HowtoreadExcel5orlater?”,右 边内容区即显示此部分内容。 图 1.23 SPSS帮助主题 (2)索引方式:目录树的结构比较完整,但使用上要求用户首先要熟悉分类,而且 要一层层 找下去,如果知道希望查找的关键词,用户就可以在“索引”表中键入关键词,系统会在其左边的 索引栏中寻找与键入词完全匹配的内容。如在索引栏中键入“Frequency”,左边的索引栏的第一 行即显示“Frequency”,双击并选择其中一个 表,即可出现内 容。而当关键词不确定时也可以通 过“搜索”表查询相关内容。在“搜索”栏中键入待搜索内容,单击“列出主题 ”,下边即 列出包含 该搜索内容的所有主题。 3.对话框帮助 SPSS的界面做得非常友好,对话框界面中到处 都是帮助功能。首先,在 所有主对话框或子 对话框中都会有 Help按钮,单击 Help后系统会弹出相应的帮助内容,用于解 释各个选 项、框组 的作用是什么。除这种标准的帮助以外,任何时候如果对某个选项的功能不太熟悉,则可以直接 在该选项框上方单击鼠标右键,就会立刻弹出相应的解释(见图 1.24),注意此处的帮 助内容并 非 Help菜单中相应内容的重复,一般来说要更详细些。 图 1.24 SPSS中的对话框帮助
章数据分析概述与软件入门 4.语法手册 当大家对SSs的熟悉达到一定程度时,就会发现许多操作使用对话框来做非常麻烦,甚至 无法用对话框来实现。实际上,至少有20%的高级功能是必须使用程序方式才能实现的,而且 使用编程方式来完成相同的工作时,操作效率也要高得多。由于目前国内几乎没有对SPSS编程 加以深入讲解的资料,此时可以直接参考SPS附带的语法指南。在SPSS的安装文件中都附送 了所有模块语法指南书的PDF格式文档,这是SPSS官方提供的最为权威的使用指导,学会如何 使用它,是最有效的学习SPSs的方法。语法指南的调用非常简单,只要选择 He b Cammand Synax Refrence就会自动打开相应的PDF文档。该文档自带一个目录树,通过它就可以查找到 希望学习的SPS过程名称,从而进行深入的学习。 13数据分析概述 1.31数据分析方法论介绍 任何一个数据分析项目,如果按照整个分析过程的流程结构来看,都可以被分解为大致7个 阶段:计划阶段、数据收集、数据获取、数据准备、数据分析、结果报告和模型发布阶段。下面就来 对这7个阶段做一下简单的探讨。 (1)计划阶段。在分析项目的初始阶段,需要花费大量的时间来设计分析计划,以减少盲目 分析,避免资源浪费。在该阶段,要对数据分析的各个行动步骤作好规划,主要任务是弄清楚以 下几个问题 ①确定研究问题。从研究分析开始,就确立明确的分析目标是非常重要的。它可以帮助用 户合理地计划人员、时间、资源分配,并能指导用户集中精力于研究性分析 ②建立项目预算。 ③确定研究范围即确定研究总体和个体。 ④确定样本的抽取方法 ⑤分析评估所需样本量。 ⑥确定数据收集方式 ⑦确定与研究问题相关的数据即确定应该收集个体的哪些数据 ⑧确定研究问题的分析方法和分析工具 (2)数据收集阶段。如果手头已经有现成的数据,就可以不必再进行数据收集。数据收集 的目标、方式完全取决于在上一步中所制定的计划。数据收集方式有很多种,可以是电话式访 问,可以是面谈式收集,也可以是拦截式访问。如果是从头进行数据收集,则应当有一份标准问 卷,问题的设计不仅要相关,还要能够从中得出有意义的结论 (3)数据获取阶段。该阶段的目的是将分散的、原始格式各不相同的数据读入分析工具中
20 第 1章 数据分析概述与软件入门 4.语法手册 当大家对 SPSS的熟悉达到一定程度时,就会发现许多操作使用对话框来做非常麻 烦,甚至 无法用对话框来实现。实际上,至少有 20%的高级 功能是必须使用 程序方式才能实现的,而且 使用编程方式来完成相同的工作时,操作效率也要高得多。由于目前国内几乎没有对 SPSS编程 加以深入讲解的资料,此时可以直接参考 SPSS附带的 语法指南。在 SPSS的安装文件 中都附送 了所有模块语法指南书的 PDF格式文档,这是 SPSS官方提供的最为权威的使 用指导,学会如何 使用它,是最有效的学习 SPSS的方 法。语法 指南的调 用非常简 单,只要选 择 Help→ Command SyntaxReference,就会自动打开相应的 PDF文档。该文档自带一个目录树,通过它就可以查找到 希望学习的 SPSS过程名称,从而进行深入的学习。 1.3 数据分析概述 1.3.1 数据分析方法论介绍 任何一个数据分析项目,如果按照整个分析过程的流程结构来看,都可以被分解为大致 7个 阶段:计划阶段、数据收集、数据获取、数据准备、数据分析、结果报告和模型发布阶段。下面就来 对这 7个阶段做一下简单的探讨。 (1)计划阶段。在分析项目的初始阶段,需要花费大量的时间来设计分析计划,以减少盲目 分析,避免资源浪费。在该阶段,要对数据分析的各个行动步骤作好规划,主要任务是 弄清楚以 下几个问题: ① 确定研究问题。从研究分析开始,就确立明确的分析目标是非常重要的。它可以帮助用 户合理地计划人员、时间、资源分配,并能指导用户集中精力于研究性分析。 ② 建立项目预算。 ③ 确定研究范围即确定研究总体和个体。 ④ 确定样本的抽取方法。 ⑤ 分析评估所需样本量。 ⑥ 确定数据收集方式。 ⑦ 确定与研究问题相关的数据即确定应该收集个体的哪些数据。 ⑧ 确定研究问题的分析方法和分析工具。 (2)数据收集阶段。如果手头已经有现成的数据,就可以不必再进行数据收集。 数据收集 的目标、方式完全取决于在上一步中所制定的计划。数据 收集方式 有很多种,可以是电话式访 问,可以是面谈式收集,也可以是拦截式访问。如果是从头进行数据收集,则应当有一 份标准问 卷,问题的设计不仅要相关,还要能够从中得出有意义的结论。 (3)数据获取阶段。该阶段的目的是将分散的、原始格式各不相同的数据读入分析工具中
3数据分析概述21 使分析工具可以对数据进行分析 (4)数据准备阶段。该阶段的主要任务是 ①清理数据以保证数据的准确性。数据准确性是数据分析结果正确的最基本的前提条件。 ②对数据进行必要的转换。如生成一些新的字段以供分析:将连续字段离散化:将字符型 字段数值化等。目的是将数据结构转换成合适的形式。 ③填充缺失数据。对各种缺失字段,利用适当的方法进行填补 ④对数据进行合并、汇总等。将数据文件进行合并,将个体数据进行汇总,生成各组数据 5)数据分析阶段。利用各种数据分析方法对数据进行分析,得出结论。数据分析阶段又 可以分为几个部分 ①预分析:包括概括性统计描述和探索性统计推断两部分,前者是使用统计图和统计表对 数据进行更好地理解,而后者则基于对数据的理解开始尝试进行分析,以寻找最终分析模型的雏 形。具体使用的方法可以是单因素分析,也可以是简单的多因素分析。 ②精确分析:基于上一步得到的各种信息,开始尝试拟合最佳的统计模型,以寻求对数据中 所蕴含信息最完美的解释。完成这一部分的工作往往需要统计知识和专业知识互相补充,而所 使用的统计方法一般都是多变量方法,甚至是多元统计分析方法。 (6)结果报告阶段。结果报告的目的是将整个数据分析项目的结果以一种非学术化的方式 表达出来,使得决策者服报告的阅读者)能够快速理解,并基于此分析结果做出决策。报告可以 是文本文档、表格、图形或者是网页 (⑦)模型发布阶段。结果报告仅仅是对基于历史数据所建立的模型加以阐述,当需要利用 该模型进行预测时,具体的做法可以是在分析软件中加以预测,也可以将生成的模型编译成单独 运行的控件或程序,将其模型整合到应用平台中去。该阶段的目标是将分析阶段得到的模型、信 息和知识带给机构决策者以便他们能为机构做出更好的未来规划。 在大多数分析过程中,不一定会经历所有的这7步。例如,根据分析的目的,所需的数据仅 是日常工作产生的交易数据,那么就不必再经历数据收集”阶段,而是直接进入“數数据获取”阶 段。另外,各阶段之间可能交叉进行。例如,有时在对原始数据进行分析之后,即进入了数据 分析”阶段,突然发现其他数据也是分析必需的,所以不得不重新返回数据收集”阶段。又如, 在嗷數据分析”阶段中发现某个字段因其格式不能参与分析,所以就需要再进行数据准备”阶段 所做的工作 在一个数据分析项目结束后,可能因该项目中的新发现和对数据的新的理解,从而引发一个 新数据分析项目。 1.32SPSs系列产品对数据分析流程的支持 作为一家信息统计决策支持服务的提供商,SPSS公司在以上涉及的各个数据分析阶段均有 相应的产品与其对应。例如,在计划阶段可以用 SampePower来计算样本量,用 SPSS Compex mpk模块设定样本抽取计划,甚至直接抽取样本:数据收集阶段可以用 SPSS D ata Entry来进 行问卷设计及数据网络录入工作:数据准备阶段可以用 SPSS Base和 M issing vaue等对数据进 行必要的整理和修补工作:;数据分析阶段是SPSS产品的核心功能,多个SPSS模块和SPSS独立
1.3 数据分析概述 21 使分析工具可以对数据进行分析。 (4)数据准备阶段。该阶段的主要任务是: ① 清理数据以保证数据的准确性。数据准确性是数据分析结果正确的最基本的前提条件。 ② 对数据进行必要的转换。如生成一些新的字段以供分析;将连续字段 离散化;将字符型 字段数值化等。目的是将数据结构转换成合适的形式。 ③ 填充缺失数据。对各种缺失字段,利用适当的方法进行填补。 ④ 对数据进行合并、汇总等。将数据文件进行合并,将个体数据进行汇总,生成各组数据。 (5)数据分析阶段。利用各种数据分析方法对数据进行 分析,得出结论。数据分 析阶段又 可以分为几个部分: ① 预分析:包括概括性统计描述和探索性统计推断两部分,前者是使用统计图和统计表对 数据进行更好地理解,而后者则基于对数据的理解开始尝试进行分析,以寻找最终分析模型的雏 形。具体使用的方法可以是单因素分析,也可以是简单的多因素分析。 ② 精确分析:基于上一步得到的各种信息,开始尝试拟合最佳的统计模型,以寻求对数据中 所蕴含信息最完美的解释。完成这一部分的工作往往需要统计知识和专业知识互相补 充,而所 使用的统计方法一般都是多变量方法,甚至是多元统计分析方法。 (6)结果报告阶段。结果报告的目的是将整个数据分析项目的结果以一种非学术化的方式 表达出来,使得决策者(报告的阅 读者)能够快速理解,并基于此分析结果做 出决策。报告可以 是文本文档、表格、图形或者是网页。 (7)模型发布阶段。结果报告仅仅是对基于历史数据所建立的模型加以阐述,当 需要利用 该模型进行预测时,具体的做法可以是在分析软件中加以预测,也可以将生成的模型编译成单独 运行的控件或程序,将其模型整合到应用平台中去。该阶段的目标是将分析阶段得到的模型、信 息和知识带给机构决策者以便他们能为机构做出更好的未来规划。 在大多数分析过程中,不一定会经历所有 的这 7步。例如,根据分析的目的,所需 的数据仅 是日常工作产生的交易数据,那么就不必再经历“数据收集”阶段,而是直接进入“数据获取”阶 段。另外,各阶段之间可能交叉 进行。 例如,有 时在对原始数据进行分析 之后,即进入了“数据 分析”阶段,突然发现其他数据也是分析必需的,所以不得不重新返回“数据收集”阶段。又如, 在“数据分析”阶段中发现某个字段因其格式不能参与分析,所以就需要再进行“数据准备”阶段 所做的工作。 在一个数据分析项目结束后,可能因该项目中的新发现和对数据的新的理解,从而引发一个 新数据分析项目。 1.3.2 SPSS系列产品对数据分析流程的支持 作为一家信息统计决策支持服务的提供商,SPSS公司在以上涉及的各个数据分析阶段均有 相应的产品 与其对应。例如,在计划阶段可以用 SamplePower来计 算样本量,用 SPSSComplex Sample模块设定样本抽取计划,甚至直接抽取样本;数据 收集阶段 可以用 SPSSDataEntry来进 行问卷设计及数据网络录入工作;数据准备阶段可以用 SPSSBase和 MissingValue等 对数据进 行必要的整理和修补工作;数据分析阶段是 SPSS产品 的核心功能,多 个 SPSS模块和 SPSS独立
22第1章数据分析概述与软件入门 软件为数据分析提供了各种统计分析方法和数据挖掘方法。而SPS软件提供的统计图、统计报 表功能和结果输出功能则可以很好地支持结果报告阶段的需求。总之,以上提到的各阶段均可 以从SP公司的产品线中获得支持。而SS软件本身则作为一个核心平台,在整个数据分析 流程中起着关键的作用 1.33本书内容介绍 本书将以上述数据分析的7个阶段为主线来组织内容。在本书的第2章详细介绍了各种格 式的数据如何读入SPSS中,即数据获取阶段的内容:第3章介绍了数据转换、合并、汇总等各种 数据准备问题:第4、5章介绍了数据分析的最初阶段,即描述性统计分析:第6章~第9章介绍 了各种表格、图形的制作,而表格、图形正是分析报告阶段的必需品:第10章~第15章讲述数据 分析的初级内容,即推断性统计分析的部分方法。更复杂的统计分析方法将在本套丛书的 幻PSs统计分析高级教程》中讲解。至于计划阶段、数据收集阶段、结果发布阶段等往往因为会 涉及具体的行业应用,不应当是统计教程的讲解内容,所以在基础教程和高级教程中都不会有太 多介绍,但将会在本丛书的其他行业应用分册中涉及,感兴趣的读者可参考这些分册中的相关内 思考与练习 L.试检查自己的SPS软件共有几个模块,其中包括了哪些功能,并思考平时的统计分析究 竟要哪些模块才能够满足需求 2尝试使用本章所介绍的4种方法来使用SPSS进行书中例题的分析,并体会这4种方法 各自的优缺点 参考文献 1 The Basics SPSS for W nd ows 10. 0. SPSS Inc Chicago Il lino is 19 2 Programm ig wit SPSs Syntax and M ac os (vI0. 0 Revised). SPSS Inc Ch iago Ill no is 文彤主编.SPSS1统计分析教程(基础篇).北京:北京希望电子出版社
22 第 1章 数据分析概述与软件入门 软件为数据分析提供了各种统计分析方法和数据挖掘方法。而 SPSS软件提供的统计图、统计报 表功能和结果输出功能则可以很好地支持结果报告阶段的需 求。总之,以上提到的各 阶段均可 以从 SPSS公司的产品线中获得支持。而 SPSS软件本身则作为一个核心平台,在整个 数据分析 流程中起着关键的作用。 1.3.3 本书内容介绍 本书将以上述数据分析的 7个阶段为主线来组织内容。在本书的第 2章详细介绍了各种格 式的数据如何读入 SPSS中,即数据获取阶段的内容;第 3章介绍了数据转换、合并、汇 总等各种 数据准备问题;第 4、5章介绍了数据分析的最初阶段,即描述性统计分析;第 6章 ~第 9章介绍 了各种表格、图形的制作,而表格、图形正是分析报告阶段的必需品;第 10章 ~第 15章讲述数据 分析的初级内容,即 推断性统计 分析 的部分 方法。更 复杂 的统计 分 析方法将 在本套丛 书的 《SPSS统计分析高级教程》中讲解。至于计划阶段、数据收集 阶段、结 果发布阶段等往 往因为会 涉及具体的行业应用,不应当是统计教程的讲解内容,所以在基础教程和高级教程中都不会有太 多介绍,但将会在本丛书的其他行业应用分册中涉及,感兴趣的读者可参考这些分册中的相关内 容。 思考与练习 1.试检查自己的 SPSS软件共有几个模块,其中包括了哪些功能,并思考平时的统计分析究 竟要哪些模块才能够满足需求。 2.尝试使用本章 所介绍的 4种方法来使 用 SPSS进行书中例题的 分析,并体会这 4种方法 各自的优缺点。 参考文献 1 TheBasics:SPSSforWindows10.0.SPSSInc.Chicago,Illinois,1999 2 ProgrammingwithSPSSSyntaxandMacros(v10.0Revised).SPSSInc.Chicago,Illinois, 1999 3 张文彤主编.SPSS11统计分析教程(基础篇).北京:北京希望电子出版社,2002