的描述性统计分析,用到的一般是均值、标准差、方差等统计量。需要强调的是, 在变量的描述统计中,由于各个分量表和因子构面所包含的题项数是不相等的, 因而不能以构面的平均分比较受试者在各个构面上的得分高低,而是应该将各个 构面的平均分除以构面的题项数,求出构面中每个题项的平均得分,才能进行比 较分析。 2、学生的英语焦虑、态度、投入动机、成绩之间是否有显著相关性 相关分析是变量间关系分析的必要步骤,主要目的是探究变量之间是否两两 相关,采用的方法主要是皮尔逊积差相关分析。需要注意的是,积差相关的基本 假定有四项:(1)受试样本人数最好在25人以上:(2)变量间均为连续变量(等 距和等比变量);(3)变量总体均呈常态分配;(4)变量间相关型态为直线相关, 而非曲线相关。如果两个变量并非都是连续变量,就应该采用其它统计方法,具 体情况如表56所示。 表5.6变量性质与相关分析方法选择 X变量 Y变量 适用方法 连续变量 连续变量 积差相关 人为二分变量 人为二分变量 四分相关 真正二分变量 真正二分变量 p相关 人为二分变量 连续变量 系列相关 真正二分变量 连续变量 点二系列相关 其中的真正二分变量指的是变量属性原来就是二分变量或两分次序变量,例如性 别。人为二分变量指的是变量属性原来是等距或等比变量,经人为操控转换为二 分类别变量或二分次序变量,例如收入水平原来为连续变量,现在将其转换为“富 裕”和“贫困”两类。 在相关分析中,相关系数值在-1~+1之间,正负号表示相关的方向或斜率, 负相关表示线性相关的斜率为负,正相关表示线性相关的斜率为正。相关系数的 平方称为决定系数或解释变异量的比例。在统计分析中,相关系数的意义与样本 人数大小有关,统计推论时,如果受试样本很大,即使相关系数的值很小,也很 容易达到显著。因此,在相关分析的解释过程中,除了说明两个变量是否达到显 著相关外,也应该呈现决定系数的大小,并加以说明。但是,无论相关系数或决
- 11 - 的描述性统计分析,用到的一般是均值、标准差、方差等统计量。需要强调的是, 在变量的描述统计中,由于各个分量表和因子构面所包含的题项数是不相等的, 因而不能以构面的平均分比较受试者在各个构面上的得分高低,而是应该将各个 构面的平均分除以构面的题项数,求出构面中每个题项的平均得分,才能进行比 较分析。 2、学生的英语焦虑、态度、投入动机、成绩之间是否有显著相关性? 相关分析是变量间关系分析的必要步骤,主要目的是探究变量之间是否两两 相关,采用的方法主要是皮尔逊积差相关分析。需要注意的是,积差相关的基本 假定有四项:(1)受试样本人数最好在 25 人以上;(2)变量间均为连续变量(等 距和等比变量);(3)变量总体均呈常态分配;(4)变量间相关型态为直线相关, 而非曲线相关。如果两个变量并非都是连续变量,就应该采用其它统计方法,具 体情况如表 5.6 所示。 表 5.6 变量性质与相关分析方法选择 X 变量 Y 变量 适用方法 连续变量 连续变量 积差相关 人为二分变量 人为二分变量 四分相关 真正二分变量 真正二分变量 相关 人为二分变量 连续变量 二系列相关 真正二分变量 连续变量 点二系列相关 其中的真正二分变量指的是变量属性原来就是二分变量或两分次序变量,例如性 别。人为二分变量指的是变量属性原来是等距或等比变量,经人为操控转换为二 分类别变量或二分次序变量,例如收入水平原来为连续变量,现在将其转换为“富 裕”和“贫困”两类。 在相关分析中,相关系数值在 1 1 之间,正负号表示相关的方向或斜率, 负相关表示线性相关的斜率为负,正相关表示线性相关的斜率为正。相关系数的 平方称为决定系数或解释变异量的比例。在统计分析中,相关系数的意义与样本 人数大小有关,统计推论时,如果受试样本很大,即使相关系数的值很小,也很 容易达到显著。因此,在相关分析的解释过程中,除了说明两个变量是否达到显 著相关外,也应该呈现决定系数的大小,并加以说明。但是,无论相关系数或决
定系数,它们只能说明变量之间关系的密切程度,而不能说明变量之间的因果关 系。例如x变量和y变量之间的相关系数为0.0(P<000),决定系数为025, 意味着“Y变量的变异中可被X变量解释的变异量百分比为25%”,相对应的也 意味着“X变量的变异中可被}变量解释的变异量百分比为25%”。而相关系数 等于0.5则表示两个变量间有显著的正相关。 3、不同性别学生的英语焦虑、投入动机、态度和成绩是否有显著差异? 此研究问题中的自变量为“性别”,属于类别变量,有“男生”和“女生” 两个“水准”( level)。因变量为“英语焦虑”、“英语投入动机”、“英语态度”和 “英语成绩”,此四个变量均为连续变量。要探索因变量在自变量不同取值方面 体现的差异,可以采用独立样本的t-lest。需要强调的是,独立样本的t-test适 用于自变量为二分变量,因变量为连续变量的情境。由于自变量的两个取值或组 别是独立的,彼此不受影响,独立样本t-test的目的是检验两个独立总体平均数 的差异情形。另外一种检验两个总体参数的方法称为相依样本的t-test。在相依 样本的t-tes中,受试者是同一组受试者,这就是进行重复量数设计法。实验设 计中的“配对组”法也适用于相依样本的t-test 4、不同“大学年级”学生,其“英语焦虑”、“英语成绩”是否有显著差异? 在此研究问题中,“大学不同年级”为自变量,有四个水准:一年级、二年 级、三年级、四年级。因变量为连续变量。对于此问题,由于每个因变量分开检 验,可以采用独立样本单因子变异数分析( one-way ANOVA)。这就是说,如果 自变量为间断变量(三个水准以上),因变量为一个连续变量,就需要考虑使用 独立样本单因子变异数分析。如果自变量为连续变量时,应将此连续变量转化为 间断变量(类别变量或次序变量) 在将连续性自变量转化为间断变量时,如果自变量只归类为两组,如“高分 组”和“低分组”、“高成绩组”和“低成绩组”、“及格组”和“不及格组”等, 则可使用独立样本的t-test法。如果要将连续变量转化为三个水准的间断变量, 则三组人数做好不要差距太大,常用的方法是: (1)以连续自变量层面的平均数上下0.5个标准差为划分组别界限,平均 数0.5个标准差以下者为高分组,平均数0.5个标准差以下者为低分组,介于二 者之间者为中分组
- 12 - 定系数,它们只能说明变量之间关系的密切程度,而不能说明变量之间的因果关 系。例如 X 变量和 Y 变量之间的相关系数为 0.50 0.001 p ,决定系数为 0.25, 意味着“ Y 变量的变异中可被 X 变量解释的变异量百分比为 25%”,相对应的也 意味着“ X 变量的变异中可被 Y 变量解释的变异量百分比为 25%”。而相关系数 等于 0.5 则表示两个变量间有显著的正相关。 3、不同性别学生的英语焦虑、投入动机、态度和成绩是否有显著差异? 此研究问题中的自变量为“性别”,属于类别变量,有“男生”和“女生” 两个“水准”(level)。因变量为“英语焦虑”、“英语投入动机”、“英语态度”和 “英语成绩”,此四个变量均为连续变量。要探索因变量在自变量不同取值方面 体现的差异,可以采用独立样本的 t test 。需要强调的是,独立样本的 t test 适 用于自变量为二分变量,因变量为连续变量的情境。由于自变量的两个取值或组 别是独立的,彼此不受影响,独立样本 t test 的目的是检验两个独立总体平均数 的差异情形。另外一种检验两个总体参数的方法称为相依样本的 t test 。在相依 样本的 t test 中,受试者是同一组受试者,这就是进行重复量数设计法。实验设 计中的“配对组”法也适用于相依样本的 t test 。 4、不同“大学年级”学生,其“英语焦虑”、“英语成绩”是否有显著差异? 在此研究问题中,“大学不同年级”为自变量,有四个水准:一年级、二年 级、三年级、四年级。因变量为连续变量。对于此问题,由于每个因变量分开检 验,可以采用独立样本单因子变异数分析(one-way ANOVA)。这就是说,如果 自变量为间断变量(三个水准以上),因变量为一个连续变量,就需要考虑使用 独立样本单因子变异数分析。如果自变量为连续变量时,应将此连续变量转化为 间断变量(类别变量或次序变量)。 在将连续性自变量转化为间断变量时,如果自变量只归类为两组,如“高分 组”和“低分组”、“高成绩组”和“低成绩组”、“及格组”和“不及格组”等, 则可使用独立样本的 t test 法。如果要将连续变量转化为三个水准的间断变量, 则三组人数做好不要差距太大,常用的方法是: (1)以连续自变量层面的平均数上下 0.5 个标准差为划分组别界限,平均 数 0.5 个标准差以下者为高分组,平均数 0.5 个标准差以下者为低分组,介于二 者之间者为中分组
(2)以连续自变量层面的平均数上下1个标准差为划分组别界限,平均数 1个标准差以下者为高分组,平均数1个标准差以下者为低分组,介于二者之间 者为中分组 (3)将连续自变量层面得分按照高低顺序排列,分数前25%~33%者为高 分组,分数为后25%~33%者为低分组,中间34%~50%者为中分组。 与独立样本单因子变异数分析模式很接近者为独立样本单变量单因子变异 数分析,后者是共变量分析法的一种,共变量也是一个连续变量,对因变量有影 响,但不是实验操弄的自变量,为探究实验处理对因变量的真正影响效果,就要 排除共变量对因变量的影响效果。也就是说,当存在另外一个作为共变量的连续 变量与多水准间断变量同时对因变量产生影响时,此时需要进行的是独立样本单 变量单因子变异数分析 5、学生性别、英语焦虑、英语态度、英语投入动机是否可以有效预测学生 的英语成绩?其预测力如何? 在此研究问题中,由于预测变量包括了“学生性别”、“英语焦虑”“英语态 度”、“英语投入动机”等多个变量,而因变量只有“英语成绩”一个连续变量」 此时,可采用多元回归分析法或称复回归法。也就是说,如果预测变量为多个连 续变量,而效标变量为一个连续变量,此时应采用多元回归分析。也就是说,回 归分析中的预测变量和效标变量通常都应该是连续变量。但是,如果预测变量中 包括了非连续变量(非等距变量也非比率变量而是名义变量或次序变量),则此 预测变量要化为“虚拟变量”,如“学生性别”是一个类别变量,此时,要将其 纳入预测变量,其数据必须要转化为“0”“1”,以虚拟变量方式转化变量后可 将“学生性别”作为一个预测变量。如果因变量不是连续变量,而是二分类别变 量或二分次序变量,应进行“判别分析”( discriminant analysis)或“逻辑斯回归 分析”( logistic regression analysis)。其中,如果因变量是多分类别变量或多分次 序变量(水准在三个及以上),则必须进行判别分析。 (1)判别分析 判别分析的主要目的在于计算一组“预测变量”(自变量)的线性组合,对 因变量(间断变量)加以分类,并检验其再分组的正确率,自变量间的线性组合 ①吴明隆问卷统计分析实务—SPSS操作与应用[M重庆:重庆大学出版社,2010:460-462
- 13 - (2)以连续自变量层面的平均数上下 1 个标准差为划分组别界限,平均数 1 个标准差以下者为高分组,平均数 1 个标准差以下者为低分组,介于二者之间 者为中分组。 (3)将连续自变量层面得分按照高低顺序排列,分数前 25%~33%者为高 分组,分数为后 25%~33%者为低分组,中间 34%~50%者为中分组。 与独立样本单因子变异数分析模式很接近者为独立样本单变量单因子变异 数分析,后者是共变量分析法的一种,共变量也是一个连续变量,对因变量有影 响,但不是实验操弄的自变量,为探究实验处理对因变量的真正影响效果,就要 排除共变量对因变量的影响效果。也就是说,当存在另外一个作为共变量的连续 变量与多水准间断变量同时对因变量产生影响时,此时需要进行的是独立样本单 变量单因子变异数分析。 5、学生性别、英语焦虑、英语态度、英语投入动机是否可以有效预测学生 的英语成绩?其预测力如何? 在此研究问题中,由于预测变量包括了“学生性别”、“英语焦虑”、“英语态 度”、“英语投入动机”等多个变量,而因变量只有“英语成绩”一个连续变量, 此时,可采用多元回归分析法或称复回归法。也就是说,如果预测变量为多个连 续变量,而效标变量为一个连续变量,此时应采用多元回归分析。也就是说,回 归分析中的预测变量和效标变量通常都应该是连续变量。但是,如果预测变量中 包括了非连续变量(非等距变量也非比率变量而是名义变量或次序变量),则此 预测变量要化为“虚拟变量”,如“学生性别”是一个类别变量,此时,要将其 纳入预测变量,其数据必须要转化为“0”、“1”,以虚拟变量方式转化变量后可 将“学生性别”作为一个预测变量。如果因变量不是连续变量,而是二分类别变 量或二分次序变量,应进行“判别分析”(discriminant analysis)或“逻辑斯回归 分析”(logistic regression analysis)。其中,如果因变量是多分类别变量或多分次 序变量(水准在三个及以上),则必须进行判别分析。 (1)判别分析 判别分析的主要目的在于计算一组“预测变量”(自变量)的线性组合①,对 因变量(间断变量)加以分类,并检验其再分组的正确率,自变量间的线性组合 ① 吴明隆. 问卷统计分析实务——SPSS 操作与应用[M]. 重庆:重庆大学出版社,2010:460-462
即为判别函数。例如,某一大学将申请就大学的学生分为两类,一类为顺利完成 大学学业者,另一类为第一年中途辍学者。学校根据学生入学时的数学、语文入 学考试成绩、高中毕业平均成绩、高中阶段课外活动成绩(音乐、美术等)等变 量,通过判别分析方法,将新进学生加以预测分类。四年后根据学生在校表现 验证判别分析分类的正确性如何。如果判别分析正确率很高,表示学校可以由以 上所列几个变量,将入学的新生加以分类 在行为科学领域中,判别分析应用的实例很多,如某教育学者根据高中毕业 生的在校成绩、社会经济地位、投人动机、家长支持度变量作为自变量,以研究 学生是否考上大学的预测变量,此时的因变量分为“考取重本大学”“考取二本 大学”“未录取”等三类,此三类为三分类别变量;如果因变量只分为两个水平 “录取”与“未录取”,则除了采用判别分析方法外,也可用 Logistic回归分析 法。此外,如以员工的工作承诺、工作满意、组织气氛等变量来预测组织的绩效 表现,此时的因变量为组织的绩效表现,分为“高绩效”、“中绩效”和“低绩效” 三类。因变量如果是间断变量,使用者若以回归分析进行预测以研究自变量对因 变量的解释变异量,则会出现严重的错误 判别分析与多变量方差分析及多元回归分析有密切关系,开始时依使用者根 据的分类标准将观察体或受试者划分成两个以上的群组,接着使用判别分析程序 来辨认计量性预测变量的一个线性组合,此线性组合能有效展现群体间差异的特 征。预测变量的线性组合类似多元回归方程式的右边乘积和,判别分析中它是变 量与区别函数系数的乘积总和(加权总和)。判别分析与单因子多变量方差分析 ( MANOVA)的基本原理相近,两者的计算过程也相当类似,都是在使组间的 变异量与组内变异量的比值最大化,但 MANOVA的目的在于了解各组样本究竟 在哪几个依变量的平均数差异值达到显著水平;而判别分析则是通过得到观察值 在自变量(此自变量在 MANOVA中为依变量)的线性组合方程函数,来了解观 察值在因变量上分类的正确性,进而知悉究竟是哪几个预测变量可以有效区分观 察值在因变量上的分类(王保进,2004)。 根据预测的效用,判别分析有两种取向:一是预测取向的判别分析( predictive discriminant analysis;PDA);:一是描述取向的判别分析( descriptive discriminant analysis;DDA)( Huberty,1994)。预测取向的判别分析其功用与回归分析类似
- 14 - 即为判别函数。例如,某一大学将申请就大学的学生分为两类,一类为顺利完成 大学学业者,另一类为第一年中途辍学者。学校根据学生入学时的数学、语文入 学考试成绩、高中毕业平均成绩、高中阶段课外活动成绩(音乐、美术等)等变 量,通过判别分析方法,将新进学生加以预测分类。四年后根据学生在校表现, 验证判别分析分类的正确性如何。如果判别分析正确率很高,表示学校可以由以 上所列几个变量,将入学的新生加以分类。 在行为科学领域中,判别分析应用的实例很多,如某教育学者根据高中毕业 生的在校成绩、社会经济地位、投人动机、家长支持度变量作为自变量,以研究 学生是否考上大学的预测变量,此时的因变量分为“考取重本大学”“考取二本 大学”“未录取”等三类,此三类为三分类别变量;如果因变量只分为两个水平 “录取”与“未录取”,则除了采用判别分析方法外,也可用 Logistic 回归分析 法。此外,如以员工的工作承诺、工作满意、组织气氛等变量来预测组织的绩效 表现,此时的因变量为组织的绩效表现,分为“高绩效”、“中绩效”和“低绩效” 三类。因变量如果是间断变量,使用者若以回归分析进行预测以研究自变量对因 变量的解释变异量,则会出现严重的错误。 判别分析与多变量方差分析及多元回归分析有密切关系,开始时依使用者根 据的分类标准将观察体或受试者划分成两个以上的群组,接着使用判别分析程序 来辨认计量性预测变量的一个线性组合,此线性组合能有效展现群体间差异的特 征。预测变量的线性组合类似多元回归方程式的右边乘积和,判别分析中它是变 量与区别函数系数的乘积总和(加权总和)。判别分析与单因子多变量方差分析 (MANOVA)的基本原理相近,两者的计算过程也相当类似,都是在使组间的 变异量与组内变异量的比值最大化,但 MANOVA 的目的在于了解各组样本究竟 在哪几个依变量的平均数差异值达到显著水平;而判别分析则是通过得到观察值 在自变量(此自变量在 MANOVA 中为依变量)的线性组合方程函数,来了解观 察值在因变量上分类的正确性,进而知悉究竟是哪几个预测变量可以有效区分观 察值在因变量上的分类(王保进,2004)。 根据预测的效用,判别分析有两种取向:一是预测取向的判别分析(predictive discriminant analysis;PDA);一是描述取向的判别分析(descriptive discriminant analysis;DDA)(Huberty,1994)。预测取向的判别分析其功用与回归分析类似
主要在于解释与预测,其概念基础与回归分析有许多相同的地方,主要目的在于 计算一组预测变量(或称区别变量)的线性组合,以对另一个分组变量重新加以 分类,并检查其分组的正确性。预测取向的判别分析与回归分析概念相似之处在 于两者都是在求得一组自变量(预测变量)的线性组合,其加权值在回归分析中 称为回归系数,在判别分析中则称为判别函数系数,两者都有原始的系数(未标 准化的系数)与标准化的系数。不过,判别分析通常会计算单一预测变量与线性 组合分数(实际上就是效标变量的预测值)的相关系数。不过,许多学者建议在 进行回归分析时,仍应留意结构系数(傅粹馨,1996)。描述取向的判别分析主 要使用分组变量或称为解释变量,以了解它与预测变量或称为反应变量的关系, 此种描述取向的区别分析与多变量方差分析( multivariate analysis of variance)的 关系较为密切(陈正昌等,2003)。 判别分析的基本原理与单因子多变量方差分析十分类似,两者计算的过程也 相似,都是在使组间的变异量与组内变异量的比值极大化,因而在单因子多变量 方差分析的显著检验后,进一步可以采用判别分析法(林清山,1988)。但两者 间也有差异存在, MANOVA检验的目的在于了解各组样本究竟在哪几个依变量 上的平均数差异达到显著水平;而判别分析则是通过得到观察值在自变量(这些 自变量在MANOⅥA检验中为因变量——计量数据)的线性组合函数,了解观察 值在因变量( MANOVA检验中为自至分组变量)上分类的正确性,进而了解究 竟是哪几个自变量可以有效区分观察值在量的分类(王保进,2004)。 判别分析的自变量(预测变量)必须是连续变量(等距或者比率变量),而 因变量是间断变量,如果预测变量为非连续变量,也应转化为虚拟变量。为探讨 聚类分析的群组划分的正确性,部分学者认为使用者在使用聚类分析法后,可进 步以判别分析法加以检验。由于判别分析与多变量方差分析中的变量属性刚好 相反,多变量方差中自变量是名义或次序变量,而因变量则为连续变量,因而也 有学者提出在多变量分析中,如果整体检验显著,也可以用判别分析作为其追踪 检验,以找出最能解释因变量的自变量。 (2)逻辑斯回归分析 判别分析属于多变量分析的一种,其依变量通常是三分名义以上变量①。若 ①吴明隆问卷统计分析实务—SPSS操作与应用[M重庆:重庆大学出版社,2010:436-438
- 15 - 主要在于解释与预测,其概念基础与回归分析有许多相同的地方,主要目的在于 计算一组预测变量(或称区别变量)的线性组合,以对另一个分组变量重新加以 分类,并检查其分组的正确性。预测取向的判别分析与回归分析概念相似之处在 于两者都是在求得一组自变量(预测变量)的线性组合,其加权值在回归分析中 称为回归系数,在判别分析中则称为判别函数系数,两者都有原始的系数(未标 准化的系数)与标准化的系数。不过,判别分析通常会计算单一预测变量与线性 组合分数(实际上就是效标变量的预测值)的相关系数。不过,许多学者建议在 进行回归分析时,仍应留意结构系数(傅粹馨,1996)。描述取向的判别分析主 要使用分组变量或称为解释变量,以了解它与预测变量或称为反应变量的关系, 此种描述取向的区别分析与多变量方差分析(multivariate analysis of variance)的 关系较为密切(陈正昌等,2003)。 判别分析的基本原理与单因子多变量方差分析十分类似,两者计算的过程也 相似,都是在使组间的变异量与组内变异量的比值极大化,因而在单因子多变量 方差分析的显著检验后,进一步可以采用判别分析法(林清山,1988)。但两者 间也有差异存在,MANOVA 检验的目的在于了解各组样本究竟在哪几个依变量 上的平均数差异达到显著水平;而判别分析则是通过得到观察值在自变量(这些 自变量在 MANOVA 检验中为因变量——计量数据)的线性组合函数,了解观察 值在因变量(MANOVA 检验中为自至分组变量)上分类的正确性,进而了解究 竟是哪几个自变量可以有效区分观察值在量的分类(王保进,2004)。 判别分析的自变量(预测变量)必须是连续变量(等距或者比率变量),而 因变量是间断变量,如果预测变量为非连续变量,也应转化为虚拟变量。为探讨 聚类分析的群组划分的正确性,部分学者认为使用者在使用聚类分析法后,可进 一步以判别分析法加以检验。由于判别分析与多变量方差分析中的变量属性刚好 相反,多变量方差中自变量是名义或次序变量,而因变量则为连续变量,因而也 有学者提出在多变量分析中,如果整体检验显著,也可以用判别分析作为其追踪 检验,以找出最能解释因变量的自变量。 (2)逻辑斯回归分析 判别分析属于多变量分析的一种,其依变量通常是三分名义以上变量①。若 ① 吴明隆. 问卷统计分析实务——SPSS 操作与应用[M]. 重庆:重庆大学出版社,2010:436-438