第八章了解研究效度的方法 研究设计中总要安排研究情境,控制相关的因素,以减少研究的误差。为此需要了解研究 效度( research validity)及其影响因素。研究效度常用于定量研究,了解硏究效度可以使我们细 致地进行研究设计,更好地控制无关变量,使研究更趋完善。 、研究效度的概念 从事任何研究,我们都期望研究是有效的,是基于事实的,是能够被证明的,这些就是研 究的效度。研究效度是指研究的有效性和真实程度,是指研究结果的可靠性和普遍性,通俗的 说就是一个测验如果能测出预期想要测量的能力或特质时,这个测验就是有效的,否则就是无 效的。科学研究最怕的就是失去效度,尤其是实验研究 研究效度涉及两个概念:内在效度( internal validity)和外在效度( external validity)。内在 效度是指硏究人员控制外部变量的程度,是指硏究结果能否被明确解释的程度。内在效度通常 要回答的问题是:研究结果是否真实可信?研究结果是否是由所操纵的自变量引起?外在效度 是指研究结果的代表性和可推广程度,即研究结果能否被推广到更大范围的程度。外在效度通 常要回答的问题是:研究结果是否具有代表性并能解释一般的情形?研究结果有多大的概括 性?在类似情境中能否验证研究结果? 研究效度通常作为衡量研究质量水平的指标,研究设计也是以提高研究的内在效度和外在 效度为基本目标的。要提高研究的效度,提高研究设计的水平,首先要了解威胁或影响研究内 在效度及外在效度的因素,然后采取措施,设法排除或控制这些因素 、影响内在效度的因素 内在效度又称内部效度,是指研究结果的解释能力和可靠性,即研究结果是否完全归因于 自变量的操纵,是否真实地反映了自变量和因变量的关系。 内在效度与无关变量的控制有关,一个研究能有效地控制研究条件,能清楚地解释研究结 果,能合理地推论因果关系,这个研究的内在效度就高;反之,一个硏究不能有效地控制硏究 条件,不能合理地推论因果关系,这个研究的内在效度就低。一般来说,除了研究变量以外, 所有的可能影响研究结果的因素都是对内在效度的威胁。研究中最忌讳的就是变量混淆,以至 于无法解释研究结果。影响研究内在效度的因素很多,最经典的概括是坎贝尔和斯坦利1963年 提出的影响研究内在效度的8个因素,以及1979年库克和坎贝尔加以补充的一些因素。综合 起来有以下一些: 1、偶然事件( History) 偶然事件也有人译为“历史”,指研究过程中发生的,没有预料到的,会影响研究结果的因 素。例如,研究者采用问卷调査学生对学校生活的满意程度,但实施调查时正逢学校校庆周 系列的校庆活动使学校生活变得丰富多彩,因此在回答问卷时就有可能获得偏向满意方向的 答案。这类的事件,研究者应予密切关注。 由于这类事件难以事先估计,防不胜防,通常可以在研究设计时,设置一个对照组加以控 制,使偶然事件的效力对两个组的影响均等。如,用一种新的教学方法对某一班级进行一年的 实验,由于在这一年中学生除了在课堂教学中学到了一些知识,可能还从课外吸收许多知识 会经历学校各种各样的活动,设置一个经历相同的对照组,可以控制偶然事件的影响 2、成熟的过程( Maturation) 成熟是指在研究过程中被试生理或心理方面发生的变化。教育研究的对象通常是学生,是 D T Campbell & J C. Stanley(1963), Experimental and Quasi-Experimental Designs for Research. p5 T.D. Cook D. T Campbell( 1979), Quasi-Experimentation Design and Analysis Issues for Houghton Mifflin Company, p51
第八章 了解研究效度的方法 研究设计中总要安排研究情境,控制相关的因素,以减少研究的误差。为此需要了解研究 效度(research validity)及其影响因素。研究效度常用于定量研究,了解研究效度可以使我们细 致地进行研究设计,更好地控制无关变量,使研究更趋完善。 一、研究效度的概念 从事任何研究,我们都期望研究是有效的,是基于事实的,是能够被证明的,这些就是研 究的效度。研究效度是指研究的有效性和真实程度,是指研究结果的可靠性和普遍性,通俗的 说就是一个测验如果能测出预期想要测量的能力或特质时,这个测验就是有效的,否则就是无 效的。科学研究最怕的就是失去效度,尤其是实验研究。 研究效度涉及两个概念:内在效度(internal validity)和外在效度(external validity)。内在 效度是指研究人员控制外部变量的程度,是指研究结果能否被明确解释的程度。内在效度通常 要回答的问题是:研究结果是否真实可信?研究结果是否是由所操纵的自变量引起?外在效度 是指研究结果的代表性和可推广程度,即研究结果能否被推广到更大范围的程度。外在效度通 常要回答的问题是:研究结果是否具有代表性并能解释一般的情形?研究结果有多大的概括 性?在类似情境中能否验证研究结果? 研究效度通常作为衡量研究质量水平的指标,研究设计也是以提高研究的内在效度和外在 效度为基本目标的。要提高研究的效度,提高研究设计的水平,首先要了解威胁或影响研究内 在效度及外在效度的因素,然后采取措施,设法排除或控制这些因素。 二、影响内在效度的因素 内在效度又称内部效度,是指研究结果的解释能力和可靠性,即研究结果是否完全归因于 自变量的操纵,是否真实地反映了自变量和因变量的关系。 内在效度与无关变量的控制有关,一个研究能有效地控制研究条件,能清楚地解释研究结 果,能合理地推论因果关系,这个研究的内在效度就高;反之,一个研究不能有效地控制研究 条件,不能合理地推论因果关系,这个研究的内在效度就低。一般来说,除了研究变量以外, 所有的可能影响研究结果的因素都是对内在效度的威胁。研究中最忌讳的就是变量混淆,以至 于无法解释研究结果。影响研究内在效度的因素很多,最经典的概括是坎贝尔和斯坦利 1963 年 提出的影响研究内在效度的 8 个因素①,以及 1979 年库克和坎贝尔加以补充的一些因素②。综合 起来有以下一些: 1、偶然事件(History) 偶然事件也有人译为“历史”,指研究过程中发生的,没有预料到的,会影响研究结果的因 素。例如,研究者采用问卷调查学生对学校生活的满意程度,但实施调查时正逢学校校庆周, 一系列的校庆活动使学校生活变得丰富多彩,因此在回答问卷时就有可能获得偏向满意方向的 答案。这类的事件,研究者应予密切关注。 由于这类事件难以事先估计,防不胜防,通常可以在研究设计时,设置一个对照组加以控 制,使偶然事件的效力对两个组的影响均等。如,用一种新的教学方法对某一班级进行一年的 实验,由于在这一年中学生除了在课堂教学中学到了一些知识,可能还从课外吸收许多知识, 会经历学校各种各样的活动,设置一个经历相同的对照组,可以控制偶然事件的影响。 2、成熟的过程 (Maturation) 成熟是指在研究过程中被试生理或心理方面发生的变化。教育研究的对象通常是学生,是 ① D. T. Campbell & J. C. Stanley (1963), Experimental and Quasi-Experimental Designs for Research. p.5. ② T. D. Cook & D. T. Campbell(1979), Quasi-Experimentation: Design and Analysis Issues for Field Settings. Boston: Houghton Mifflin Company, p.51
成长中的个体,在研究周期比较长的研究中,其身心状况可能会发生改变,这种改变对学生的 习会产生影响,有时能促进学业成绩,像认知能力的发展与成熟,体能更强壮,更自信或更 独立。如,对初一新生进行逻辑思维的测验,然后进行有关的训练,三年后再进行逻辑思维的 测验发现学生逻辑思维能力增强了,但是这种增强是来自于逻辑思维能力训练呢?还是来自学 生三年来自身的成熟?或是逻辑思维能力训练与成熟的共同作用? 成熟有时则会对学业成绩起消极作用,如饥饿、疲劳等。有人研宄语言习得的关键期效应 分别用成人组、12-15岁组、810岁组、3-5岁组四个组进行实验,最后测试时间长达一个半小 时。无论结果如何,让后两组参加这样长时间的测试是不合适的,他们的成绩会受测试疲劳的 影响。总之,凡涉及时间较长的研究,都会受到被试自身成熟过程的影响。尤其是年龄小的被 试在成熟问题上,反应更明显。控制的方法可以设置对照组,或缩短研究时间的周期 3、前测效应( Testing) 前测效应是指有前测的经历会对后测的效果造成影响,有人称之为练习效应或热身效应 凡是有前后测设计的研究,被试有了前测的经验,会有利于后测的作答。因此,这种后测分数 比前测分数高的现象未必就是研究的本身的效果,有可能来自被试对测验内容或形式的了解和 熟悉,来自于对前测的敏感。尤其是在能力、成就、情感、态度等方面的测试,前测效应更为 明显。一般来说,当研究者有理由怀疑前测会对研究结果造成影响,或者前测很花费时间和经 费,那么最好避免采用前后测设计,仅采用后测设计 4、测量工具( Instrumentation) 指测量手段不统一产生的负面效果。如果用来测量研究结果的工具,在前测与后测中所用 的内容、难度都不一样,就难以确定研究结果的最终效果。如一位老师进行教改实验,上一学 期自己命题进行期终考试,班级学生平均分为75分;这一学期他又自己命题进行期终考试,班 级学生平均分为80分。表面上这学期比上学期平均分提高了5分,但很难说这增长的分数一定 归功于教改的效果。因为两次测验的内容和难度不一样,上学期考的是上学期的内容,这学期 考的是这学期的内容,没有可比性:也可能由于这学期考试题比上一学期的试题更容易些 另外,考试测验的程序、标准、时间等也不同,都会影响测验结果。如两位主考人对I 教学实验进行后测,但所用的测量工具不统一,所用的标准和方法也不一致,最后导致测验结 果的差异 5、统计回归( Statistical regression) 统计回归是指多次测量研究对象时出现的一种倾向,即对一个变量进行测试时,他们的分 数出现两极分化,但当再次进行同样的测试时,他们的分数更接近于平均数。如选择研究对象 时,录用测量中获极端分值段的被试。假如我们选择60分左右的被试,再次测验的分数可能会 高于第一次测验的分数。同样道理,如果我们选择90分左右的被试,再次测验的分数可能会低 于第一次测验的分数,原因可能就是统计回归。统计回归的基本原理如同政治经济学中的有关 价格和价值的关系,即价格是围绕着价值这根中轴上下波动,当价格离价值中轴太远了,就有 向价值中轴回归的趋向。如图 回归趋势 → 价格 归趋势 回归趋势 图8-1 统计回归示意图
成长中的个体,在研究周期比较长的研究中,其身心状况可能会发生改变,这种改变对学生的 学习会产生影响,有时能促进学业成绩,像认知能力的发展与成熟,体能更强壮,更自信或更 独立。如,对初一新生进行逻辑思维的测验,然后进行有关的训练,三年后再进行逻辑思维的 测验发现学生逻辑思维能力增强了,但是这种增强是来自于逻辑思维能力训练呢?还是来自学 生三年来自身的成熟?或是逻辑思维能力训练与成熟的共同作用? 成熟有时则会对学业成绩起消极作用,如饥饿、疲劳等。有人研究语言习得的关键期效应, 分别用成人组、12-15 岁组、8-10 岁组、3-5 岁组四个组进行实验,最后测试时间长达一个半小 时。无论结果如何,让后两组参加这样长时间的测试是不合适的,他们的成绩会受测试疲劳的 影响。总之,凡涉及时间较长的研究,都会受到被试自身成熟过程的影响。尤其是年龄小的被 试在成熟问题上,反应更明显。控制的方法可以设置对照组,或缩短研究时间的周期。 3、前测效应(Testing) 前测效应是指有前测的经历会对后测的效果造成影响,有人称之为练习效应或热身效应。 凡是有前后测设计的研究,被试有了前测的经验,会有利于后测的作答。因此,这种后测分数 比前测分数高的现象未必就是研究的本身的效果,有可能来自被试对测验内容或形式的了解和 熟悉,来自于对前测的敏感。尤其是在能力、成就、情感、态度等方面的测试,前测效应更为 明显。一般来说,当研究者有理由怀疑前测会对研究结果造成影响,或者前测很花费时间和经 费,那么最好避免采用前后测设计,仅采用后测设计。 4、测量工具 (Instrumentation) 指测量手段不统一产生的负面效果。如果用来测量研究结果的工具,在前测与后测中所用 的内容、难度都不一样,就难以确定研究结果的最终效果。如一位老师进行教改实验,上一学 期自己命题进行期终考试,班级学生平均分为 75 分;这一学期他又自己命题进行期终考试,班 级学生平均分为 80 分。表面上这学期比上学期平均分提高了 5 分,但很难说这增长的分数一定 归功于教改的效果。因为两次测验的内容和难度不一样,上学期考的是上学期的内容,这学期 考的是这学期的内容,没有可比性;也可能由于这学期考试题比上一学期的试题更容易些。 另外,考试测验的程序、标准、时间等也不同,都会影响测验结果。如两位主考人对同一 教学实验进行后测,但所用的测量工具不统一,所用的标准和方法也不一致,最后导致测验结 果的差异。 5、统计回归 (Statistical regression) 统计回归是指多次测量研究对象时出现的一种倾向,即对一个变量进行测试时,他们的分 数出现两极分化,但当再次进行同样的测试时,他们的分数更接近于平均数。如选择研究对象 时,录用测量中获极端分值段的被试。假如我们选择 60 分左右的被试,再次测验的分数可能会 高于第一次测验的分数。同样道理,如果我们选择 90 分左右的被试,再次测验的分数可能会低 于第一次测验的分数,原因可能就是统计回归。统计回归的基本原理如同政治经济学中的有关 价格和价值的关系,即价格是围绕着价值这根中轴上下波动,当价格离价值中轴太远了,就有 向价值中轴回归的趋向。如图 回归趋势 价值 价格 回归趋势 回归趋势 图 8-1 统计回归示意图
在硏究过程中,如果以测验成绩为基础来选择被试,选择测验成绩较高或较低的为样本, 在实施后测时就会受到统计回归的影响。假设进行一项数学教学方法改革的实验研究,通过测 量选择数学学习成绩很差的学生为被试,可以设想,他们可能会有怎样的结局?他们原有的数 学水平如此之低,通常只是在教室陪练,他们已经不太可能变得更糟了,已经到了学习的底部 跌不动了,而向平均数回归的机会往往要大于再往下跌的可能。同样道理,如果选择的对象都 是学习成绩90分以上的学生,最后考试成绩往下降的可能性要大于往上升。所以统计学家经常 举例告诫,身材非常高大的父母,他们子女的身高可能比他们矮;而身材非常矮小的父母,他 们子女的身高可能比他们高 统计回归的威胁主要是所选择的被试处于极端的位置,随后测量他们发生的变化会让人误 判为实验处理的效果。实验设计中要避免选择测试特别好的或特别差的被试,因此选择被试要 随机化,要有代表性 6、被试选择的偏差( Selection biases) 当必须采用两组被试进行比较研究,如果这两组被试的能力、特质、条件、背景等因素不 相同,那么就会导致测验结果的差异,从而混淆研究的效果。如某学校在三年级两个班进行教 改对比实验,实验班本来就是一个高分录取的高才生班,对照班则是普通水平的班。加上实验 班配备有经验的优秀教师,对照班则是一般的教师。这样的比较研究没有实际意义,两组根本 没有可比性。控制样本偏差的措施是随机抽样,随机分组、随机分配实验处理,尽可能使实验 组和对照组除了在实验处理上的不同外,在其他各种条件上做到均等、相似。 7、实验样本的流失( Experimental mortality) 实验样本的流失有的翻译为实验的偶然减员,是指在研究期间有些被试缺席或中途退出, 以致前测与后测人数不符,样本失去代表性,而影响统计分析的结论。如,在一项判断运动效 果的健康实验中,部分被试感到这项运动难度太大而中途退出。由于这部分被试都属于某一特 征的被试,可能是很少参加运动的学生或运动技能比较差的学生,去掉这部分学生,会对最后 研究的统计结果产生影响。一般,流失的被试是在前测中成绩较差者,则样本后测的平均成绩 会提高:反之,流失的被试是在前测中成绩较好者,则样本后测的平均成绩会降低。 8、选择与成熟的交互作用( Interactions of selection and maturation) 研究中最忌讳的是变量的混淆,各种因素互相干扰,互相作用,以至于无法确切解释自变 量和因变量之间的关系。在研究设计中,由于被选取的两组被试具有不同的能力、特质、条件, 导致对以上各个因素产生不同的作用,从而影响研究结果。如,对两所学校学生进行课程改革 的研究,由于两所学校入学政策不同,因此具有较好的家庭社会经济背景的学校,可能在认知 能力的发展与成熟方面要比较差社会经济背景的学校在后测中更易获得好成绩。这就是选择与 成熟的交互作用。又如,进行教学方法的比较实验,实验组的平均年龄比对照组大6个月(选 择与成熟),因此在学业成绩方面的各种差异都可能归因于学生年龄差异的影响,而不是教学方 法的效果 9、因果方向不明( Ambiguity about the direction of causal inference) 在研究中分不清自变量和因变量的研究不多见,但有时由于研究设计的不确切,导致在两 个变量之间很难确定谁是因,谁是果,这种现象在相关性研究中尤为普遍。一旦因果关系不明, 对研究结论的解释就会受到挑战。如,探讨教师期望与学生学业成绩的关系时,如果设计不明 确,可能很难由研究结果断言是教师期望影响学生学业成绩。或许真实情景是学生学业成绩影 响教师的期望水平。 又如,据调查,学生的侵犯性行为与喜欢看暴力电视有较高的相关,但究竟是看暴力电视 导致侵犯性行为增加,还是具有较高侵犯性行为的学生更喜欢看暴力电视。这些都需要做进 步的因果研究设计来探讨其中的方向关系。有较高的相关不一定具有因果关系,但具有因果关 系必定有很高的相关 10、实验处理的扩散( Diffusion of treatments) 有时在实验研究中,实验组与对照组互相沟通,导致主试或被试有可能把实验处理传递给
在研究过程中,如果以测验成绩为基础来选择被试,选择测验成绩较高或较低的为样本, 在实施后测时就会受到统计回归的影响。假设进行一项数学教学方法改革的实验研究,通过测 量选择数学学习成绩很差的学生为被试,可以设想,他们可能会有怎样的结局?他们原有的数 学水平如此之低,通常只是在教室陪练,他们已经不太可能变得更糟了,已经到了学习的底部, 跌不动了,而向平均数回归的机会往往要大于再往下跌的可能。同样道理,如果选择的对象都 是学习成绩 90 分以上的学生,最后考试成绩往下降的可能性要大于往上升。所以统计学家经常 举例告诫,身材非常高大的父母,他们子女的身高可能比他们矮;而身材非常矮小的父母,他 们子女的身高可能比他们高。 统计回归的威胁主要是所选择的被试处于极端的位置,随后测量他们发生的变化会让人误 判为实验处理的效果。实验设计中要避免选择测试特别好的或特别差的被试,因此选择被试要 随机化,要有代表性。 6、被试选择的偏差 (Selection biases) 当必须采用两组被试进行比较研究,如果这两组被试的能力、特质、条件、背景等因素不 相同,那么就会导致测验结果的差异,从而混淆研究的效果。如某学校在三年级两个班进行教 改对比实验,实验班本来就是一个高分录取的高才生班,对照班则是普通水平的班。加上实验 班配备有经验的优秀教师,对照班则是一般的教师。这样的比较研究没有实际意义,两组根本 没有可比性。控制样本偏差的措施是随机抽样,随机分组、随机分配实验处理,尽可能使实验 组和对照组除了在实验处理上的不同外,在其他各种条件上做到均等、相似。 7、实验样本的流失 (Experimental mortality) 实验样本的流失有的翻译为实验的偶然减员,是指在研究期间有些被试缺席或中途退出, 以致前测与后测人数不符,样本失去代表性,而影响统计分析的结论。如,在一项判断运动效 果的健康实验中,部分被试感到这项运动难度太大而中途退出。由于这部分被试都属于某一特 征的被试,可能是很少参加运动的学生或运动技能比较差的学生,去掉这部分学生,会对最后 研究的统计结果产生影响。一般,流失的被试是在前测中成绩较差者,则样本后测的平均成绩 会提高;反之,流失的被试是在前测中成绩较好者,则样本后测的平均成绩会降低。 8、选择与成熟的交互作用 (Interactions of selection and maturation) 研究中最忌讳的是变量的混淆,各种因素互相干扰,互相作用,以至于无法确切解释自变 量和因变量之间的关系。在研究设计中,由于被选取的两组被试具有不同的能力、特质、条件, 导致对以上各个因素产生不同的作用,从而影响研究结果。如,对两所学校学生进行课程改革 的研究,由于两所学校入学政策不同,因此具有较好的家庭社会经济背景的学校,可能在认知 能力的发展与成熟方面要比较差社会经济背景的学校在后测中更易获得好成绩。这就是选择与 成熟的交互作用。又如,进行教学方法的比较实验,实验组的平均年龄比对照组大 6 个月(选 择与成熟),因此在学业成绩方面的各种差异都可能归因于学生年龄差异的影响,而不是教学方 法的效果。 9、因果方向不明 (Ambiguity about the direction of causal inference) 在研究中分不清自变量和因变量的研究不多见,但有时由于研究设计的不确切,导致在两 个变量之间很难确定谁是因,谁是果,这种现象在相关性研究中尤为普遍。一旦因果关系不明, 对研究结论的解释就会受到挑战。如,探讨教师期望与学生学业成绩的关系时,如果设计不明 确,可能很难由研究结果断言是教师期望影响学生学业成绩。或许真实情景是学生学业成绩影 响教师的期望水平。 又如,据调查,学生的侵犯性行为与喜欢看暴力电视有较高的相关,但究竟是看暴力电视 导致侵犯性行为增加,还是具有较高侵犯性行为的学生更喜欢看暴力电视。这些都需要做进一 步的因果研究设计来探讨其中的方向关系。有较高的相关不一定具有因果关系,但具有因果关 系必定有很高的相关。 10、实验处理的扩散 (Diffusion of treatments) 有时在实验研究中,实验组与对照组互相沟通,导致主试或被试有可能把实验处理传递给
对照组,对照组可能会有意无意的模仿、运用、吸收,产生与实验处理相符的行为和活动,产 生与实验组相同的结果。这种实验处理扩散的结果就是:实验处理的效果会被抵消。为了避免 实验处理的扩散,应尽量将实验组与对照组的接触降到最低限度 11、补偿性均等( Compensatory equalization of treatments) 在现场的教学实验研究中,实验处理往往是向实验组被试提供较好的学习机会,提供具有 吸引力的材料(如采用多媒体教学,或试验新教材),而对照组被试经常要被剥夺某种好的学习 机会或被认为有价值的东西,以配合实验组。但是从教育伦理角度考虑,这样做对某些学生不 平,学生的学习和发展机会应该均等。因此,有时校方或行政管理人员会为他们提供有益于 学习的活动或资源,作为某种补偿,以示均等。这种做法,将使对照组被试也有良好的学习表 现,从而导致实验效果的混淆。 12、补偿性的竞争( Compensatory rivalry) 补偿性的竞争指对照组被试在与实验组竞争时,表现出超常努力的现象。海尼奇于1970年 在评论电视教学与课堂常规教学的研究时,把这种现象命名为约翰.亨利效应。传说有一名叫约 翰.亨利的黑人铁路工人是位打道钉能手,为了与刚引进的蒸汽打道钉机抗争,以维持职业和地 位,所以拼命以他的体力和技巧手工打道钉,想把蒸汽打道钉机给拼掉。最后却耗尽体力而死。 补偿性的竞争这种现象在教育研究情景中常会发生。如在新的教学方法与旧的教学方法比较研 究中,对照组被试往往会把实验情景看作一种竞争或威胁,或者由于没有作为实验组心里不服 气,从而加倍努力,以证明自己能力不亚于实验组。结果造成无法确定教学实验效果 13、自暴自弃( Demoralization) 自暴自弃是指被试由于得知未被选为实验组产生的怨恨,并且故意怠工,失去自信心,表 现比平时差,自甘堕落的现象。这样会导致实验处理效果突显,但这种实验效果未必真实可靠。 以上提到的13种因素,都会对研究的内在效度产生影响。事实上,内在效度就是指研究结 论有没有准确地反映研究内容本身。只要研究内容以外的因素影响了因变量,就会威胁研究的 内在效度,就会导致研究结果的混淆。因此,在研究设计时对以上这些因素要认真考虑,对可 能产生影响的因素要设法加以控制。一般来说,随机分配、设对照组、前测和后测的安排都是 研究设计需要着重考虑的关键因素。 三、影响外在效度的因素 外在效度( external validity)是指研究结果的代表性或普遍性。具体说来,就是指研究结 果是否可以推广到类似情景中去的程度。如果能在实际硏究以外的更大范围获得相似的结果, 研究的外在效度就高,研究结果的解释与推论范围越广,研究的外在效度越高:如果一个研究 在相似的情景中难以重复,研究结果不能推广运用到现实世界,那么,这个研究的外在效度就 低 影响研究外在效度的因素很多,经典的是坎贝尔(D.T. Campbel)与斯坦利(JC. Stanley) 提出的4个影响外在效度的因素:前测与实验处理的交互作用:选择偏差与实验处理的交互作 用:实验安排的反作用;多重实验处理的干扰。 以上4个因素都是干扰因子与实验处理结合才产生作用,导致实验结果不能类推到相似情 境中去。后经布莱切(G.H. Bracht)与格拉斯(G.V. Glass)将外在效度分为总体效度( population validity)和生态效度( ecological validity)两类,并加以扩充成以下一些影响因素。 1、取样的偏差 由于抽样范围的限制,样本不具有代表性,无法将研究结果类推到样本以外的人群,从而 影响研究的外在效度。例如,要从事一项有关上海市中学生道德发展的研究,但样本仅从上海 几所重点中学抽取,这样的研究结果只能代表重点中学学生的道德发展情况,不能代表一般中 学学生的道德发展情况。由于样本有偏差,研究结果就难以推论整个上海市中学生的道德发展 的普遍状况。因此,为了使研究结果具有可推广性,研究设计时应考虑样本与总体的同质性和 ①转引自吴明清:《教育研究:基本观念与方法分析》五南图书出版公司,1991年,第248-251页
对照组,对照组可能会有意无意的模仿、运用、吸收,产生与实验处理相符的行为和活动,产 生与实验组相同的结果。这种实验处理扩散的结果就是:实验处理的效果会被抵消。为了避免 实验处理的扩散,应尽量将实验组与对照组的接触降到最低限度。 11、补偿性均等 (Compensatory equalization of treatments) 在现场的教学实验研究中,实验处理往往是向实验组被试提供较好的学习机会,提供具有 吸引力的材料(如采用多媒体教学,或试验新教材),而对照组被试经常要被剥夺某种好的学习 机会或被认为有价值的东西,以配合实验组。但是从教育伦理角度考虑,这样做对某些学生不 公平,学生的学习和发展机会应该均等。因此,有时校方或行政管理人员会为他们提供有益于 学习的活动或资源,作为某种补偿,以示均等。这种做法,将使对照组被试也有良好的学习表 现,从而导致实验效果的混淆。 12、补偿性的竞争(Compensatory rivalry) 补偿性的竞争指对照组被试在与实验组竞争时,表现出超常努力的现象。海尼奇于 1970 年 在评论电视教学与课堂常规教学的研究时,把这种现象命名为约翰.亨利效应。传说有一名叫约 翰.亨利的黑人铁路工人是位打道钉能手,为了与刚引进的蒸汽打道钉机抗争,以维持职业和地 位,所以拼命以他的体力和技巧手工打道钉,想把蒸汽打道钉机给拼掉。最后却耗尽体力而死。 补偿性的竞争这种现象在教育研究情景中常会发生。如在新的教学方法与旧的教学方法比较研 究中,对照组被试往往会把实验情景看作一种竞争或威胁,或者由于没有作为实验组心里不服 气,从而加倍努力,以证明自己能力不亚于实验组。结果造成无法确定教学实验效果。 13、自暴自弃(Demoralization) 自暴自弃是指被试由于得知未被选为实验组产生的怨恨,并且故意怠工,失去自信心,表 现比平时差,自甘堕落的现象。这样会导致实验处理效果突显,但这种实验效果未必真实可靠。 以上提到的 13 种因素,都会对研究的内在效度产生影响。事实上,内在效度就是指研究结 论有没有准确地反映研究内容本身。只要研究内容以外的因素影响了因变量,就会威胁研究的 内在效度,就会导致研究结果的混淆。因此,在研究设计时对以上这些因素要认真考虑,对可 能产生影响的因素要设法加以控制。一般来说,随机分配、设对照组、前测和后测的安排都是 研究设计需要着重考虑的关键因素。 三、影响外在效度的因素 外在效度(external validity)是指研究结果的代表性或普遍性。具体说来,就是指研究结 果是否可以推广到类似情景中去的程度。如果能在实际研究以外的更大范围获得相似的结果, 研究的外在效度就高,研究结果的解释与推论范围越广,研究的外在效度越高;如果一个研究 在相似的情景中难以重复,研究结果不能推广运用到现实世界,那么,这个研究的外在效度就 低。 影响研究外在效度的因素很多,经典的是坎贝尔(D.T.Campbell)与斯坦利(J.C.Stanley) 提出的 4 个影响外在效度的因素:前测与实验处理的交互作用;选择偏差与实验处理的交互作 用;实验安排的反作用;多重实验处理的干扰。 以上 4 个因素都是干扰因子与实验处理结合才产生作用,导致实验结果不能类推到相似情 境中去。后经布莱切(G.H.Bracht)与格拉斯(G.V.Glass)将外在效度分为总体效度(population validity)和生态效度(ecological validity)两类,并加以扩充成以下一些影响因素①。 1、取样的偏差 由于抽样范围的限制,样本不具有代表性,无法将研究结果类推到样本以外的人群,从而 影响研究的外在效度。例如,要从事一项有关上海市中学生道德发展的研究,但样本仅从上海 几所重点中学抽取,这样的研究结果只能代表重点中学学生的道德发展情况,不能代表一般中 学学生的道德发展情况。由于样本有偏差,研究结果就难以推论整个上海市中学生的道德发展 的普遍状况。因此,为了使研究结果具有可推广性,研究设计时应考虑样本与总体的同质性和 ① 转引自吴明清:《教育研究:基本观念与方法分析》五南图书出版公司,1991 年,第 248-251 页
代表性,避免抽样的偏差。 样本必须要有一定的量才会有足够的代表性。对有些研究来说要找到足够的被试并不容易, 尤其是周期比较长的研究,要占用被试许多时间。为了获得被试,有些研究要给被试一定的报 酬,有些研究招收自愿者。当然,自愿者作为被试有时会使样本失去一部分代表性,影响研究 结果的外推能力,影响研究的外在效度 2、被试与实验处理的交互作用 只要研究对象是人,就会具有个别差异。由于每个人的特质不同,对于实验处理的反应也 会不一样。交互作用就是不同变量之间的影响相互不一致。例如,智力水平比较高的学生喜欢 讨论式教学,智力水平较低的学生则喜欢传统式的讲授式教学。在一个常规班级(既有智力高 的学生,也有智力低的学生)进行实验,由于学生特质(智力程度)与实验处理(讨论式教学 具有交互作用,对智力高的学生更有效,因此在解释实验结果时,不可将样本当作一个“整体 来说明。当实验被试与实验处理具有交互作用时,用样本推论总体就受到限制,研究结果可能 只适用于解释总体中的某一种特征的人,而不适用于总体中的全部成员。因此,在研究设计中 要关注总体中各层次的差异,要考虑研究结果能否解释总体中的各个层次。 3、研究变量与情景的叙述不清 外在效度关心的一个问题是:研究结果会不会因环境的不同而变化,在研究情景中表现出 的效果是否会在一般情景中再现,换句话说,就是能否“复制”。任何研究均需界定研究变量 并说明研究情景,给人以操作的程序和测量的标准。如果研究变量没有明确界定,硏究情景也 不交代清楚,他人便无法知晓研究的程序和方法,也无法了解研究结果的真实性和适用范围, 研究的推广解释就会受到限制。因此,研究设计过程中,必须界定研究变量,下操作性定义, 规定研究的情景和条件。 4、重复测验的干扰 重复测验的干扰是指前测对后测的影响或交互作用,前测的内容或程序可能会引起被试的 对某些论题或事物的注意和敏感,往往会影响后测的成绩。例如,研究人员想了解学生经过思 想品德教育后思想认识和态度的变化。学习前,先进行思想认识和态度的测验,经过两周的集 中学习后,再用相似内容测学生的思想认识和态度,结果发现测验成绩有变化。这种变化可能 来自于两周的思想品德教育,也可能来自前测所产生的敏感效应,还可能来自思想品德教育与 前测敏感的共同作用,这些可能性给研究结果的推论带来了麻烦。因此,当估计前测会对后测 造成影响,研究设计应尽可能避免采用有前测的设计,无论这种影响是积极的还是消极的 5、实验安排的反作用 实验安排的反作用是指由于实验情境的安排,被试知道自己正在被观察或正在接受实验处 理而产生的一种实验效应(霍桑效应)。被试往往会投实验者之所好,改变自己原来的常态行为 表现更积极,更努力,提供实验者所期望的行为。这样往往会对实验效果的推论造成影响。例 如,当学生知道自己所在班级为实验班,正在进行一种新的教学方法的实验,因此在实验过程 中全班学生表现比平时更积极、更主动,情绪高涨,干劲倍増,结果造成实验效果无法确定是 来自新的教学方法,还是来自学生的积极投入,或者是两者的结合。因此,在研究设计时,最 好不让被试知道各自扮演的角色,采用盲法控制。或设对照组,并宣布两个组都为实验组,让 实验效应互相抵消。 6、新颖的干扰 由于实验情景是经过特别安排的,其内容、程序、步骤、环境等都可能给被试带来新奇感 由此会激发被试的参与热情,进而促使实验效果的提高。例如,参加某项课堂教学实验的学生 会有某种优越感,他们可能对实施的新的教学方法好奇,感到新鲜,因而特别投入,主动参与 这种非常态的实验情景与真实情景的差异,会对实验结果的推论和解释造成麻烦。因此,在研 究设计中始终要考虑研究情景的生态效应,尽可能保持实验情景与非实验情景的一致性程度, 以提高研究结果推论的合理性和解释的适切性。 7、实验者效应 实验者效应指在实验情景中,实验者或主试的行为、外表对被试行为的影响。实验者或主
代表性,避免抽样的偏差。 样本必须要有一定的量才会有足够的代表性。对有些研究来说要找到足够的被试并不容易, 尤其是周期比较长的研究,要占用被试许多时间。为了获得被试,有些研究要给被试一定的报 酬,有些研究招收自愿者。当然,自愿者作为被试有时会使样本失去一部分代表性,影响研究 结果的外推能力,影响研究的外在效度。 2、被试与实验处理的交互作用 只要研究对象是人,就会具有个别差异。由于每个人的特质不同,对于实验处理的反应也 会不一样。交互作用就是不同变量之间的影响相互不一致。例如,智力水平比较高的学生喜欢 讨论式教学,智力水平较低的学生则喜欢传统式的讲授式教学。在一个常规班级(既有智力高 的学生,也有智力低的学生)进行实验,由于学生特质(智力程度)与实验处理(讨论式教学) 具有交互作用,对智力高的学生更有效,因此在解释实验结果时,不可将样本当作一个“整体” 来说明。当实验被试与实验处理具有交互作用时,用样本推论总体就受到限制,研究结果可能 只适用于解释总体中的某一种特征的人,而不适用于总体中的全部成员。因此,在研究设计中 要关注总体中各层次的差异,要考虑研究结果能否解释总体中的各个层次。 3、研究变量与情景的叙述不清 外在效度关心的一个问题是:研究结果会不会因环境的不同而变化,在研究情景中表现出 的效果是否会在一般情景中再现,换句话说,就是能否“复制”。任何研究均需界定研究变量, 并说明研究情景,给人以操作的程序和测量的标准。如果研究变量没有明确界定,研究情景也 不交代清楚,他人便无法知晓研究的程序和方法,也无法了解研究结果的真实性和适用范围, 研究的推广解释就会受到限制。因此,研究设计过程中,必须界定研究变量,下操作性定义, 规定研究的情景和条件。 4、重复测验的干扰 重复测验的干扰是指前测对后测的影响或交互作用,前测的内容或程序可能会引起被试的 对某些论题或事物的注意和敏感,往往会影响后测的成绩。例如,研究人员想了解学生经过思 想品德教育后思想认识和态度的变化。学习前,先进行思想认识和态度的测验,经过两周的集 中学习后,再用相似内容测学生的思想认识和态度,结果发现测验成绩有变化。这种变化可能 来自于两周的思想品德教育,也可能来自前测所产生的敏感效应,还可能来自思想品德教育与 前测敏感的共同作用,这些可能性给研究结果的推论带来了麻烦。因此,当估计前测会对后测 造成影响,研究设计应尽可能避免采用有前测的设计,无论这种影响是积极的还是消极的。 5、实验安排的反作用 实验安排的反作用是指由于实验情境的安排,被试知道自己正在被观察或正在接受实验处 理而产生的一种实验效应(霍桑效应)。被试往往会投实验者之所好,改变自己原来的常态行为, 表现更积极,更努力,提供实验者所期望的行为。这样往往会对实验效果的推论造成影响。例 如,当学生知道自己所在班级为实验班,正在进行一种新的教学方法的实验,因此在实验过程 中全班学生表现比平时更积极、更主动,情绪高涨,干劲倍增,结果造成实验效果无法确定是 来自新的教学方法,还是来自学生的积极投入,或者是两者的结合。因此,在研究设计时,最 好不让被试知道各自扮演的角色,采用盲法控制。或设对照组,并宣布两个组都为实验组,让 实验效应互相抵消。 6、新颖的干扰 由于实验情景是经过特别安排的,其内容、程序、步骤、环境等都可能给被试带来新奇感, 由此会激发被试的参与热情,进而促使实验效果的提高。例如,参加某项课堂教学实验的学生 会有某种优越感,他们可能对实施的新的教学方法好奇,感到新鲜,因而特别投入,主动参与。 这种非常态的实验情景与真实情景的差异,会对实验结果的推论和解释造成麻烦。因此,在研 究设计中始终要考虑研究情景的生态效应,尽可能保持实验情景与非实验情景的一致性程度, 以提高研究结果推论的合理性和解释的适切性。 7、实验者效应 实验者效应指在实验情景中,实验者或主试的行为、外表对被试行为的影响。实验者或主