《实用统计分析方法与SPSS应用》初稿/张文璋 除了理论统计学和应用统计学外,还有统计史学、统计法制学、比较统计学等其他统计 学科,以及经济计量学、保险精算学、运筹学、信息论等边缘学科。 本关于实用统计分析方法的 物,所以,主要包括了应用数理统计的一些内容。本书强调统计分析方法的基本思想和应用 条件,培养用计算机进行统计计算的能力,并希望通过案例分析提高学生的解决实际问题的 能力。 图1-1统计学分类 统计本体论 统计设计 描 统计调查 统计整理 转计指粉 动态分析 概率论 经典统计理论 贝叶斯理论 理论数理统计学 统计判决 。 推断 抽样技术 试验设计 计学 相关分析 方差分析 应用数理统计学 多元统计分析 序贯分析 线性统计模型 时间序列分析 经济续计学 非参数统计 社会统计学 科技统计学 统计学 环境统计学 生物统计学 心理统计学 天文统计学 气象统计学 工程技术统计学
《实用统计分析方法与 SPSS 应用》初稿 / 张文璋 7 除了理论统计学和应用统计学外,还有统计史学、统计法制学、比较统计学等其他统计 学科,以及经济计量学、保险精算学、运筹学、信息论等边缘学科。 从统计学的学科分类可以看出,统计学的内容是十分丰富的,其研究和应用的领域非常 广泛。本书主要是为非统计专业的学生和统计工作者提供一本关于实用统计分析方法的读 物,所以,主要包括了应用数理统计的一些内容。本书强调统计分析方法的基本思想和应用 条件,培养用计算机进行统计计算的能力,并希望通过案例分析提高学生的解决实际问题的 能力。 图 1-1 统计学分类 统 计 学 统计本体论 统计设计 统计调查 统计整理 统计指数 动态分析 . 概率论 经典统计理论 贝叶斯理论 统计判决 . 抽样技术 试验设计 相关分析 方差分析 多元统计分析 序贯分析 线性统计模型 时间序列分析 非参数统计 . 经济统计学 社会统计学 科技统计学 环境统计学 . 生物统计学 心理统计学 天文统计学 气象统计学 工程技术统计学 . 应用数理统计学 理论数理统计学 描 述 统 计 学 推 断 统 计 学 核 算 统 计 学 实 验 统 计 学 理 论 统 计 学 应 用 统 计 学
《实用统计分析方法与SPSS应用》初稿/张文璋 第三节实用统计分析方法概述 一、变量(Variable)的分类 要进行统计分析,离不开统计数据。在搜索数据之前,必须首先了解数据的种类。数据 涉及到变量的取值,通常用变量的取值来描述数据。变量可按多种方法分类,这些分类有助 于选择适当的统计分析方法作进一步的分析与研究。下面按三种方法对变量进行分类:按间 隙分类、按作用分类和按测量尺度分类。 (一)按间隙(aDs)别分 根据一个变量紧挨着的两个观测值之间是否有空隙(缺口),可以把变量分为两类:离 散型变量((variable)和连续型变量((variable)).如果一个变量的覆测值之间有 空隙,该变量称为离散型变量,否则称为连续型变量,如图1-2(A)所示。更准确地说,当 一个变量的任意两个可能取值之间没有其他取值时,该变量是离散的:当一个变量的任意两 个可能取值之间还有其他可能取值时,该变量是连续的。例如,性别(设男性取值为0,女 性取值为)、企业数目、分组情况(设A组取值为1,B组取值为2等)等为离散型变量: 身高、体重、 血压、GDP等为连续型变量 图1-2离散型变量与连续型变量 空隙 没有空隙 (A)离散变量的取值 (B)连续变量的取值 需要指出的是,由于分析的需要,离散型变量经常作为连续型变量处理。而连续型变量 也可以作为离散型变量处理,如可以把“血压”变量分为“低”、“中”、“高”三组变为离散 型变量。 二)按作用划分 根据一个变量在分析时的作用,可以把变量分为因变量(dependent variable)或自变量 (independent variable)。如果一个变量由其他变量来描述,该变量称为因变量或反应变量 (response variable):如果一个变量与其他变量一起用于描述因变量,该变量称为自变量或预 测变量(predictor variable)。例如,在分析家庭收入、性别等因素对消费支出的影响时,收入 变量和性别变量是自变量 ,消费支出变量是因变量 个变量是因变量还是自变量,与统计分析的目的有关。同一个变量在某种分析中作为 因变量,而在其它分析中可能作为自变量。 (三)根据量尺度别分 根据变量测量精度不同,可把变量由低到倒高分为四种尺度:定类变量、定序变量、定距 1、定类变 定类变量又称为名义(nominal)变量。这是一种测量精确度最低、最粗略的基于“质 因素的变量,它的取值只代表观测对象的不同类别,例如“性别”变量、“职业”变量等都 是定类变量。定类变量的取值称为定类数据或名义数据。定类数据的其同特点是用不多的名 称来加以表法,并由梦研究变量每一组出现的次数及其总计数所组成,这种数据是枚举性的 即由计数 一而得。唯一适合于定类数据的数学关系是“等价关系”。因而, 在定类数据叶 同一组内各单位是等价的,同时若更换各不同组的符号并不会改变数据原有的基本信息。因
《实用统计分析方法与 SPSS 应用》初稿 / 张文璋 8 第三节 实用统计分析方法概述 一、变量(Variable)的分类 要进行统计分析,离不开统计数据。在搜索数据之前,必须首先了解数据的种类。数据 涉及到变量的取值,通常用变量的取值来描述数据。变量可按多种方法分类,这些分类有助 于选择适当的统计分析方法作进一步的分析与研究。下面按三种方法对变量进行分类:按间 隙分类、按作用分类和按测量尺度分类。 (一)按间隙(gaps)划分 根据一个变量紧挨着的两个观测值之间是否有空隙(缺口),可以把变量分为两类:离 散型变量(discrete variable)和连续型变量(continuous variable)。如果一个变量的观测值之间有 空隙,该变量称为离散型变量,否则称为连续型变量,如图 1-2 (A)所示。更准确地说,当 一个变量的任意两个可能取值之间没有其他取值时,该变量是离散的;当一个变量的任意两 个可能取值之间还有其他可能取值时,该变量是连续的。例如,性别(设男性取值为 0,女 性取值为 1)、企业数目、分组情况(设 A 组取值为 1,B 组取值为 2 等)等为离散型变量; 身高、体重、血压、GDP 等为连续型变量。 图 1-2 离散型变量与连续型变量 需要指出的是,由于分析的需要,离散型变量经常作为连续型变量处理。而连续型变量 也可以作为离散型变量处理,如可以把“血压”变量分为“低”、“中”、“高”三组变为离散 型变量。 (二)按作用划分 根据一个变量在分析时的作用,可以把变量分为因变量(dependent variable)或自变量 (independent variable)。如果一个变量由其他变量来描述,该变量称为因变量或反应变量 (response variable);如果一个变量与其他变量一起用于描述因变量,该变量称为自变量或预 测变量(predictor variable)。例如,在分析家庭收入、性别等因素对消费支出的影响时,收入 变量和性别变量是自变量,消费支出变量是因变量。 一个变量是因变量还是自变量,与统计分析的目的有关。同一个变量在某种分析中作为 因变量,而在其它分析中可能作为自变量。 (三)根据测量尺度划分 根据变量测量精度不同,可把变量由低到高分为四种尺度:定类变量、定序变量、定距 变量和定比变量。 1、定类变量 定类变量又称为名义(nominal)变量。这是一种测量精确度最低、最粗略的基于“质” 因素的变量,它的取值只代表观测对象的不同类别,例如“性别”变量、“职业”变量等都 是定类变量。定类变量的取值称为定类数据或名义数据。定类数据的其同特点是用不多的名 称来加以表达,并由被研究变量每一组出现的次数及其总计数所组成,这种数据是枚举性的, 即由计数一一而得。唯一适合于定类数据的数学关系是“等价关系”。因而,在定类数据中, 同一组内各单位是等价的,同时若更换各不同组的符号并不会改变数据原有的基本信息。因 空隙 没有空隙 (A)离散变量的取值 (B)连续变量的取值
《实用统计分析方法与SPSS应用》初稿/张文球 此,最常用来综合定类数据的统计量是频数、比率或百分比等。 2、定序变量 变凳汉玫为省华odi变圆变。文的收的大小超表元视黎 某种顺序关系(等级、方位 大小等,也是基于“质”因素的变量。例如 变量的取值是:1一小学及以下、2一初中、3一高中、中专、技校、4 -大学专料、5一大学 本科、6一研究生以上。由小到大的取值能够代表学历由低到高。定序变量的取值称为定序 数据或有序数据。适合于定序数据的数学关系是“大于())”和“小于(《)”关系。在定序 据中,同一组内各单位是等价的,相邻组之间的单位是不等价的,它们存在“大于”或不 于”的关系。而且,并进行保序变换(或称单 周变换) 则不 级顺序。最适合用于综合定序数据取值的集中趋势的统计量是中位数。 3、定距变量 定距变量又称为间隔(interval))变量,它的取值之间可以比较大小,可以用加减法计算 出弟异的大小。例如,“年龄”变量,其取值60与20相比,表示60岁比20岁大,并日可 以计算出大40岁(60-20). 定距变量的取值称为定距数据或间隔数据。 定距数据是一些 实的数值,具有公共的、不变的测定单位,可以进行加减乘除运算。定距数据的基本特点是 两个相同间隔的数值的差异相等,例如,年龄的60岁与50岁之差等于40岁与30岁之差。 对于定距数据,不仅可以规定“等价关系”以及“大于关系”和“小于关系”,而且也可以 规定任意两个相同间隔的比值或差值。如果将每个数值分别乘以一个正的常数再加上一一个常 数,即进行正线性变换,并不影响定距数据原有的基本信息。因此,常用的统计量如均值、 标准差、相关系数等都可直接用于定距数据。 4、定比变理 定比变量又称为比率(ratio)变量,它与定距变量意义相近,细微差别在于定距变量中 的“0”值只表示某一取值,不表示“没有”。例如,人的身高就是一个定比变量,如果身 高值为“0”米,则表示这个人不存在。而定比变量的“0”值表示“没有”。而在测定温度 的摄氏表 并不表示没有温度,因为还有在零点以下的温度。定比变量的取值称为 比数据或比率数据。定比数据也同样可进行算术运算和线性变换等。通常对定距变量和定比 变量不需再加以区别,两者统称为定距变量或间隔变量。 一般地,定类变量和定序变量用于描述定性数据,属于定性变量:而定距变量和定比变 量用于描述定量数据,属于定量变量。 同其他公举标准一样 一个变量在不同分析中可当作不同尺度的变量。例如,“年龄” 在某些分析中(如回归分析)当作定距变量,而在另外一些分析中(如方差分析)可通过分 组作为定类变量处理。 另外,较高尺度的变量包含了较低尺度变量的性质。定序变量包含了定类变量的所有特 征,定距变量同时包含了定序变量和定类变量的特征。这种性质允许在分析数据时把一些较 高尺度变量作为较低尺度变量处理。例如,定距变量可当作定类变量或定序变量看待,而定 序变量可作为定序变量分析 以上通过三种不同方法对变量进行分类。这些分类是可以重叠的。一个变量可能是离散 型变量、自变量、定类变量(如“最高学历”),也可能是连续型变量、因变量、定距变量(如 “血压”)。按间隙分类和按测量尺度分类的重叠如图1-3所示
《实用统计分析方法与 SPSS 应用》初稿 / 张文璋 9 此,最常用来综合定类数据的统计量是频数、比率或百分比等。 2、定序变量 定序变量又称为有序(ordinal)变量、顺序变量,它的取值的大小能够表示观测对象的 某种顺序关系(等级、方位或大小等),也是基于“质”因素的变量。例如,“最高学历” 变量的取值是:1—小学及以下、2—初中、3—高中、中专、技校、4—大学专科、5—大学 本科、6—研究生以上。由小到大的取值能够代表学历由低到高。定序变量的取值称为定序 数据或有序数据。适合于定序数据的数学关系是“大于(>)”和“小于(<)”关系。在定序 数据中,同一组内各单位是等价的,相邻组之间的单位是不等价的,它们存在“大于”或“小 于”的关系。而且,并进行保序变换(或称单调变换),则不改变数据原有的基本信息即等 级顺序。最适合用于综合定序数据取值的集中趋势的统计量是中位数。 3、定距变量 定距变量又称为间隔(interval)变量,它的取值之间可以比较大小,可以用加减法计算 出差异的大小。例如,“年龄”变量,其取值 60 与 20 相比,表示 60 岁比 20 岁大,并且可 以计算出大 40 岁(60-20)。定距变量的取值称为定距数据或间隔数据。定距数据是一些真 实的数值,具有公共的、不变的测定单位,可以进行加减乘除运算。定距数据的基本特点是 两个相同间隔的数值的差异相等,例如,年龄的 60 岁与 50 岁之差等于 40 岁与 30 岁之差。 对于定距数据,不仅可以规定“等价关系”以及“大于关系”和“小于关系”,而且也可以 规定任意两个相同间隔的比值或差值。如果将每个数值分别乘以一个正的常数再加上一个常 数,即进行正线性变换,并不影响定距数据原有的基本信息。因此,常用的统计量如均值、 标准差、相关系数等都可直接用于定距数据。 4、定比变量 定比变量又称为比率(ratio)变量,它与定距变量意义相近,细微差别在于定距变量中 的“0”值只表示某一取值,不表示“没有”。例如,人的身高就是一个定比变量,如果身 高值为“0”米,则表示这个人不存在。而定比变量的“0”值表示“没有”。而在测定温度 的摄氏表中, C o 0 并不表示没有温度,因为还有在零点以下的温度。定比变量的取值称为定 比数据或比率数据。定比数据也同样可进行算术运算和线性变换等。通常对定距变量和定比 变量不需再加以区别,两者统称为定距变量或间隔变量。 一般地,定类变量和定序变量用于描述定性数据,属于定性变量;而定距变量和定比变 量用于描述定量数据,属于定量变量。 同其他分类标准一样,一个变量在不同分析中可当作不同尺度的变量。例如,“年龄” 在某些分析中(如回归分析)当作定距变量,而在另外一些分析中(如方差分析)可通过分 组作为定类变量处理。 另外,较高尺度的变量包含了较低尺度变量的性质。定序变量包含了定类变量的所有特 征,定距变量同时包含了定序变量和定类变量的特征。这种性质允许在分析数据时把一些较 高尺度变量作为较低尺度变量处理。例如,定距变量可当作定类变量或定序变量看待,而定 序变量可作为定序变量分析。 以上通过三种不同方法对变量进行分类。这些分类是可以重叠的。一个变量可能是离散 型变量、自变量、定类变量(如“最高学历”),也可能是连续型变量、因变量、定距变量(如 “血压”)。按间隙分类和按测量尺度分类的重叠如图 1-3所示
《实用统计分析方法与SPSS应用》初稿/张文璋 图1-3变量分类的重叠 定距变量 连续变量 定序变量 变量“年龄 定类变量 变量“性别 离散变量V 因为自变量与因变量是根据分析目的而不是按变量本身性质来划分的,所以图1-3中没 有包括这种分类。 从图 1-3中可以看出,定类变量必须是离散变量,而定距变量和定序变量 可以是离散变量或连续变量:连续变量必须是定序变量或定距变量。例如,变量“性别”是 离散变量又是定类变量:变量“年龄”可当作定距变量、连续变量,也可以作为定类变量、 离散变量。 二、统计分析方法的分类与选择 对数据进行统计分析时,选择正确的分析方法是非常重要的。选择统计分析方法时,必 须考虑许多因素,主要有:(1)统计分析的目的,(2)所用变量的特征,(3)对变量所作的 服定,(4)数据的收集方法(即抽样过程)。选择统计分析方法时一般考虑前两个因素就足 够了。 一)根据统计分析目的不同进行分类 统计分析方法根据统计分析目的的不同,可以分成四大类:相关分析方法、结构简化方 法、分类分析方法、预测决策方法。 (二)根据变量特征的不同进行分类 根据变量的分类不同分类方法,把变量分为因变量、自变量以及定量变量、定性变量 可把统计分析方法 进行归类 (如表1-1所示),这是正确选择统计分析方法的一种有效 方法。 表11统计分析方法分类表 D弹见何晓群编著:《现代统计分析方法与应用》,中国人民大学出版社,1998年。 公
《实用统计分析方法与 SPSS 应用》初稿 / 张文璋 10 图 1-3 变量分类的重叠 因为自变量与因变量是根据分析目的而不是按变量本身性质来划分的,所以图 1-3中没 有包括这种分类。从图 1-3中可以看出,定类变量必须是离散变量,而定距变量和定序变量 可以是离散变量或连续变量;连续变量必须是定序变量或定距变量。例如,变量“性别”是 离散变量又是定类变量;变量“年龄”可当作定距变量、连续变量,也可以作为定类变量、 离散变量。 二、统计分析方法的分类与选择 对数据进行统计分析时,选择正确的分析方法是非常重要的。选择统计分析方法时,必 须考虑许多因素,主要有:(1)统计分析的目的,(2)所用变量的特征,(3)对变量所作的 假定,(4)数据的收集方法(即抽样过程)。选择统计分析方法时一般考虑前两个因素就足 够了。 (一)根据统计分析目的不同进行分类 统计分析方法根据统计分析目的的不同,可以分成四大类:相关分析方法、结构简化方 法、分类分析方法、预测决策方法①。 (二)根据变量特征的不同进行分类 根据变量的分类不同分类方法,把变量分为因变量、自变量以及定量变量、定性变量, 可把统计分析方法一一进行归类(如表 1-1所示),这是正确选择统计分析方法的一种有效 方法。 表 1-1 统计分析方法分类表 ① 详见何晓群编著:《现代统计分析方法与应用》,中国人民大学出版社,1998 年。 定距变量 定序变量 变量“年龄” 定类变量 连续变量 离散变量 变量“性别
《实用统计分析方法与SPSS应用》初稿1张文球 店量据刊 统计分析方法 统计分析目的 因变量自变量 定量 定量 回归分析(或线性模 描述一个或多个自变量与一个因变量之间 型)、相关分析 的因果依存关系,或变量之间的相关关系。 T检验、方差分析 描述一个连续型因变量与一个或多个定类 定量 定性 白套量之间的关系」 定性、定 协方差分析(或线性 描述在控制了一个或多个连续型自变量的 定量 模型) 影响下一个连续因变量与一个或多个定类 量 自变量之间的关系。 定性 定性 联分析1横型描术定性品之的相五影响关系。 定性 定量 Log1stic回归分析、判 描述多个定量变量与定性变量之间的依赖 别分析、聚类分析 关系。 定性 定性、定对数线性模型 描述定性或定量变量与分类变量之间的关 量 系 定性、定定性、定 量 相依模型 主成分分析、因子分描述变量、样品或类型之间的结构关系。 析、对应分析等
《实用统计分析方法与 SPSS 应用》初稿 / 张文璋 11 变量类型 因变量 自变量 统计分析方法 统计分析目的 定量 定量 回归分析(或线性模 型)、相关分析 描述一个或多个自变量与一个因变量之间 的因果依存关系,或变量之间的相关关系。 定量 定性 T 检验、方差分析 描述一个连续型因变量与一个或多个定类 自变量之间的关系。 定量 定性、定 量 协方差分析(或线性 模型) 描述在控制了一个或多个连续型自变量的 影响下一个连续因变量与一个或多个定类 自变量之间的关系。 定性 定性 列联分析,Logit 模型 描述定性变量之间的相互影响关系。 定性 定量 Logistic 回归分析、判 别分析、聚类分析 描述多个定量变量与定性变量之间的依赖 关系。 定性 定性、定 量 对数线性模型 描述定性或定量变量与分类变量之间的关 系。 定性、定 量 定性、定 量 / / 相依模型 主成分分析、因子分 析、对应分析等。 描述变量、样品或类型之间的结构关系