《教育学》课程教学资源（教育研究方法）第八章测量研究.doc_P6-P10

的特点是依据标准,判断被试的达标程度,而不是将被试的成绩与其他人作比较。如:毕业考试、英语水平测试、钢琴考级、律师、经济师的资格考试等均是目标参照测验。 5.按测验的标准化程度可分为: ①标准化测验。由专家学者或专门机构采用系统的科学程序编制的、在测验施测过程评分手续和分数的解释上具有统一标准的,并对测验误差做了严格控制的测验。标准化测验编制和施测有一套标准程序。测验编制包括确定测验目的、科学命题、选取有代表性的样本进行试测;根据数量化指标筛选测验题目:鉴定整个测验的信度和效度;建立常模、确定指导语、时限和施测条件;规定评分标准、分数转换和解释方法等。标准化测验所获得的测量结果比较客观、可靠,应用范围较广,通常测量法所用的测验工具均为标准化测验 ②非标准化测验。指测验的编制和施测不按标准程序进行的测验,通常由教师或研究人员自编的、为临时测验所用的简单测验。如课堂测验,期中、期末的测验,等级评定量表等。这些测验是教师根据教学目标和自己的教学经验编制而成,它通常与日常教学工作紧密联系:测验内容与教材内容、教学进度一致:难易程度由教师把握;针对性较强。非标准化测验的编制省时、省力、灵活、方便。不足之处在于测验的客观性和标准化程度不如标准化测验,测验的实施和记分也不甚严格。三、测验的性质和条件教育研究中的测量通常是凭借教育测验得以实现。测验是对行为样本进行客观的和标准化的测量。测验中的客观性指要用数量化的指标筛选测验题目,并对整个测验进行信度和效度的鉴定。测验中的标准化指测验的编制、实施、记分、分数的解释等都要按照统一的标准和严格的规定进行。换句话说,标准化就是使所有被试的测验条件一致。教育测验必须考虑以下一些基本特性。 1.信度信度指测验结果的可靠性和稳定性,即同一个测验对同一组被试先后实施二次,所得测量的一致性程度。例如,用一杆秤来称一样物品,第一次称出的重量与第二次称出的重量不样,那么我们说这杆秤不可靠,称出的结果不可信。这样的测量工具是不可靠的工具。又如,某幼儿经过几次智力测验,其智商均在120左右,结果基本保持一致,那么这个测量工具(智力测验)是可靠的、可信的。估计测验信度主要用测验结果的相关程度表示 ①再测法

6 的特点是依据标准，判断被试的达标程度，而不是将被试的成绩与其他人作比较。如：毕业考试、英语水平测试、钢琴考级、律师、经济师的资格考试等均是目标参照测验。 5.按测验的标准化程度可分为： ①标准化测验。由专家学者或专门机构采用系统的科学程序编制的、在测验施测过程、评分手续和分数的解释上具有统一标准的，并对测验误差做了严格控制的测验。标准化测验编制和施测有—套标准程序。测验编制包括确定测验目的、科学命题、选取有代表性的样本进行试测；根据数量化指标筛选测验题目；鉴定整个测验的信度和效度；建立常模、确定指导语、时限和施测条件；规定评分标准、分数转换和解释方法等。标准化测验所获得的测量结果比较客观、可靠，应用范围较广，通常测量法所用的测验工具均为标准化测验。 ②非标准化测验。指测验的编制和施测不按标准程序进行的测验，通常由教师或研究人员自编的、为临时测验所用的简单测验。如课堂测验，期中、期末的测验，等级评定量表等。这些测验是教师根据教学目标和自己的教学经验编制而成，它通常与日常教学工作紧密联系；测验内容与教材内容、教学进度一致；难易程度由教师把握；针对性较强。非标准化测验的编制省时、省力、灵活、方便。不足之处在于测验的客观性和标准化程度不如标准化测验，测验的实施和记分也不甚严格。三、测验的性质和条件教育研究中的测量通常是凭借教育测验得以实现。测验是对行为样本进行客观的和标准化的测量。测验中的客观性指要用数量化的指标筛选测验题目，并对整个测验进行信度和效度的鉴定。测验中的标准化指测验的编制、实施、记分、分数的解释等都要按照统一的标准和严格的规定进行。换句话说，标准化就是使所有被试的测验条件一致。教育测验必须考虑以下一些基本特性。 1.信度信度指测验结果的可靠性和稳定性，即同一个测验对同一组被试先后实施二次，所得测量的一致性程度。例如，用一杆秤来称—样物品，第一次称出的重量与第二次称出的重量不一样，那么我们说这杆秤不可靠，称出的结果不可信。这样的测量工具是不可靠的工具。又如，某幼儿经过几次智力测验，其智商均在 120 左右，结果基本保持一致，那么这个测量工具(智力测验)是可靠的、可信的。估计测验信度主要用测验结果的相关程度表示。 ①再测法

用同一种测验对同一组被试实施两次或更多次的测验,前后两次或多次测验分数间的相关系数即为再测信度。如果相关系数为高度的正相关,则表示该测验信度高,反之则信度低。再测法只要用一种测验形式,即可获得有关测试结果是否随时间而变异的资料。但,前次测验会影响后次测验的成绩。 ②复本法用两个或更多的等值测验复本,对一组被试先后进行两次或更多次的测验,前后两次测验分数的相关系数即为复本信度。如果相关系数为高度的正相关,则表示该测验信度高,反之则信度低。复本法避免了一套测验可能引起的练习效应和记忆效应。但要编制多个完全等值的复本难度很大 ③分半法在测验没有复本,并且只能施测一次的情况下,可将测验题目分成对等的两半,它们的内容和难度相当,然后根据各人在这两半测验上的分数,计算其相关系数,即为分半信度如果两半为高度的正相关,则表示该测验信度高,反之则信度低为使分半后的两组等值,一般采取先将题目按难易顺序排列,然后按奇数或偶数平分为两半,也有将题目拦腰分为上下两半,求其信度系数。分半法常用于估计测验内部的一致性以及测验成绩的稳定性,问题是我们往往很难将题目分成平均数、标准差基本相等的等值的两半 ④评判员法一些主观性测验题日(如作文、口试、唱歌、图画等)需要评判员来评分或打等级,评分常会出现误差。如:一个评判员对许多份测验试卷中的同一题目所作的先后评阅可能会因前后次序效应而不一致。另外,不同的评判员对同一题目也可能会有不同的评判。通常有两种求评判员信度的方法,一是随机地抽取一些测验卷进行重新评阅,然后计算二次评分的相关系数,以了解一个评判员先后评分的信度。二是让两个或两个以上的评判员分别评阅同一批测验卷,然后计算其相关系数,以了解不同评判员之间的信度影响测验信度的因素很多,从测验本身来看主要有: ①测验的长度。测验项目多,信度就会提高 ②测验的时间。增加测验时间,保证被试能做完所有题目,可提高信度。 ③测验的同质性。如果测验项目涉及同一能力倾向,信度也会提高 ④测验的区分度。区分能力强的题目越多,信度也会提高

7 用同一种测验对同一组被试实施两次或更多次的测验，前后两次或多次测验分数间的相关系数即为再测信度。如果相关系数为高度的正相关，则表示该测验信度高，反之则信度低。再测法只要用一种测验形式，即可获得有关测试结果是否随时间而变异的资料。但，前次测验会影响后次测验的成绩。 ②复本法用两个或更多的等值测验复本，对一组被试先后进行两次或更多次的测验，前后两次测验分数的相关系数即为复本信度。如果相关系数为高度的正相关，则表示该测验信度高，反之则信度低。复本法避免了一套测验可能引起的练习效应和记忆效应。但要编制多个完全等值的复本难度很大。 ③分半法在测验没有复本，并且只能施测一次的情况下，可将测验题目分成对等的两半，它们的内容和难度相当，然后根据各人在这两半测验上的分数，计算其相关系数，即为分半信度。如果两半为高度的正相关，则表示该测验信度高，反之则信度低。为使分半后的两组等值，一般采取先将题目按难易顺序排列，然后按奇数或偶数平分为两半，也有将题目拦腰分为上下两半，求其信度系数。分半法常用于估计测验内部的一致性以及测验成绩的稳定性，问题是我们往往很难将题目分成平均数、标准差基本相等的等值的两半。 ④评判员法一些主观性测验题目(如作文、口试、唱歌、图画等)需要评判员来评分或打等级，评分常会出现误差。如：一个评判员对许多份测验试卷中的同一题目所作的先后评阅可能会因前后次序效应而不一致。另外，不同的评判员对同一题目也可能会有不同的评判。通常有两种求评判员信度的方法，一是随机地抽取一些测验卷进行重新评阅，然后计算二次评分的相关系数，以了解一个评判员先后评分的信度。二是让两个或两个以上的评判员分别评阅同一批测验卷，然后计算其相关系数，以了解不同评判员之间的信度。影响测验信度的因素很多，从测验本身来看主要有： ①测验的长度。测验项目多，信度就会提高。 ②测验的时间。增加测验时间，保证被试能做完所有题目，可提高信度。 ③测验的同质性。如果测验项目涉及同一能力倾向，信度也会提高。 ④测验的区分度。区分能力强的题目越多，信度也会提高

⑤测验变量的性质。学术和技能领域的测验要比兴趣和态度领域的测验信度要高o ⑥测验的形式。如多项选择题等客观性试题要比论述题等主观性试题信度更高。 ⑦被试的差异性。被试能力差异越大,信度也越高。从被试的角度来看,影响信度的因素主要有 ①身体健康状况。 ②情绪紧张,疲劳, ③人的记忆波动 ④对测验形式的了解 ⑤施测的环境条件。 ⑥具备其他有关知识 ⑦对测定内容的熟悉情况。以上罗列的种种因素,或多或少会对测验信度造成影响,并且其中有些因素是难以预测和控制的,但一个可靠的测验必须对这些影响因素进行考虑,尽可能提高测验信度。一般来说,在运用测验工具前必须了解该测验的可靠性,当自行编制测验工具时必须测定它的信度。 2.效度效度指测验的有效性和准确性,即一种测验在多大程度上达到了测量目标。例如:数学能力倾向测验,测验的结果必须反映一个学生数学能力的真实程度,那这种测验是有较高效度的。如果测验结果只是反映学生的语言理解能力,那这种测验效度就很差。换句话说,效度所要鉴定的是一个测量工具用来测量某种属性是否有效。对某个目标有效的测验,对其他目标就不一定准确有效。一个秤米的工具用来秤米可以是有效的,但用它来秤金子就不一定有效。又如:智力测验,测验项目尽是知识性的题目,这对被试的智力来说会失去效度,因为测验目的是要测量被试的智力,但实际测得的都是被试原有的知识,这就大大降低了想要测量的智力的效度效度常用相关系数来表示,称效度系数。由于测量的目的不同,效度就有不同的类型常用的类型有: ①内容效度指测验题目对所要测的内容的覆盖程度,即测验题目对有关内容或行为范围取样的适当性和代表性。内容效度主要用于成就测验,通过对内容的逻辑分析,从而确定它们的代表程度。内容效度的值常由该领域的专家判定。例如:教师要了解学生对某门课的掌握程度,他可以对这门课的所有内容进行测验,但由于内容很多,不可能面面俱到都测,因此只能选择

8 ⑤测验变量的性质。学术和技能领域的测验要比兴趣和态度领域的测验信度要高 o ⑥测验的形式。如多项选择题等客观性试题要比论述题等主观性试题信度更高。 ⑦被试的差异性。被试能力差异越大，信度也越高。从被试的角度来看，影响信度的因素主要有： ①身体健康状况。 ②情绪紧张，疲劳。 ③人的记忆波动。 ④对测验形式的了解。 ⑤施测的环境条件。 ⑥具备其他有关知识。 ⑦对测定内容的熟悉情况。以上罗列的种种因素，或多或少会对测验信度造成影响，并且其中有些因素是难以预测和控制的，但一个可靠的测验必须对这些影响因素进行考虑，尽可能提高测验信度。一般来说，在运用测验工具前必须了解该测验的可靠性，当自行编制测验工具时必须测定它的信度。 2.效度效度指测验的有效性和准确性，即一种测验在多大程度上达到了测量目标。例如：数学能力倾向测验，测验的结果必须反映一个学生数学能力的真实程度，那这种测验是有较高效度的。如果测验结果只是反映学生的语言理解能力，那这种测验效度就很差。换句话说，效度所要鉴定的是一个测量工具用来测量某种属性是否有效。对某个目标有效的测验，对其他目标就不一定准确有效。一个秤米的工具用来秤米可以是有效的，但用它来秤金子就不一定有效。又如：智力测验，测验项目尽是知识性的题目，这对被试的智力来说会失去效度，因为测验目的是要测量被试的智力，但实际测得的都是被试原有的知识，这就大大降低了想要测量的智力的效度。效度常用相关系数来表示，称效度系数。由于测量的目的不同，效度就有不同的类型，常用的类型有： ①内容效度指测验题目对所要测的内容的覆盖程度，即测验题目对有关内容或行为范围取样的适当性和代表性。内容效度主要用于成就测验，通过对内容的逻辑分析，从而确定它们的代表程度。内容效度的值常由该领域的专家判定。例如：教师要了解学生对某门课的掌握程度，他可以对这门课的所有内容进行测验，但由于内容很多，不可能面面俱到都测，因此只能选择

部分内容或题目进行测验,然后用测验结果推论学生是否掌握了这门课的内容,很显然,测验所选内容的代表性如何,会直接影响对总体情况进行推论的准确性。 ②效标效度又称效标关联效度。效标效度是通过将测验与某种外在标准作比较来确定的。效标效度是由两个量数之间的相关关系决定的,一种是测量到的量数,另一种是作为参照标准用的量数,后一种量数就称为效标(效度标准),两个量数的效度系数(相关系数)越大,则测验的效度越高。反之,效度则低。例如:用《中国儿童发展量表(CDCC》的测验分数与效标《韦氏儿童智力量表( WISC-CR)》的测验分数进行相关比较效标效度又可分为两种类型,一是共时效度,即测验分数是否测出了目前实际存在的情况,具体做法是在收集测验分数的同时,收集效标资料,然后计算两组数据的相关系数,决定测验分数是否可取代效标分数。二是预测效度,即测验分数是否预测到了将来发生的特定情况,具体做法是先收集测验分数,经过一段时间(如半年或一年)之后再收集效标资料,然后计算两组相关系数,目的是决定测验分数是否具有预测性。例如:对5岁幼儿在绘人智能测验中获得的分数与半年后在《中国比纳测验》测得的智商进行相关系数比较 ③结构效度结构效度指一个测验在多大程度上测量了所要测的理论构想。它验证的是所提出的理论假说是否有效的问题。结构效度包括内容效度和预测效度,当理论构想涉及测验内容时,便是内容效度,如果涉及外部标准,则为预测效度。当要求回答这样的问题:这个测验究竟测量了什么?实际上就是在考虑这个测验的结构效度,例如:智力测验的结构效度是指被试解答的问题足以智力来加以解释,而不是以学习成绩或知识多少来加以解释。智力测验的结构效度越高,它所测量的智力因素也越高。又如:关于智力测验有许多理论假说,如测验分数在16岁以前随年龄的增长而增加:一种智力测验的分数与其他智力测验的分数呈正相关测验分数能区别智力水平;测验分数受教学的直接影响不大:智商具有相对的稳定性等,然后通过智力测验的具体项目来验证这些理论假设。如果假设得到材料的支持,则认为这个智力测验的结果与智力的理论结构相符合,即有结构效度。由于结构指的是理论结构,而不是测验项目的外在技术结构,还由于结构是抽象的,而不是实在的事物,因此确定结构效度比较复杂。既要从实际中收集各方面的资料,又要从理论上对构想进行分析。如,分析测验过程与测验题目之间的关系:比较两组被试在同一测验中的结果:比较前测与后测的变化:求出一种测验与其他测验的相关等。影响测验效度的因素很多,主要有以下几个方面:

9 部分内容或题目进行测验，然后用测验结果推论学生是否掌握了这门课的内容，很显然，测验所选内容的代表性如何，会直接影响对总体情况进行推论的准确性。 ②效标效度又称效标关联效度。效标效度是通过将测验与某种外在标准作比较来确定的。效标效度是由两个量数之间的相关关系决定的，一种是测量到的量数，另一种是作为参照标准用的量数，后一种量数就称为效标(效度标准)，两个量数的效度系数(相关系数)越大，则测验的效度越高。反之，效度则低。例如：用《中国儿童发展量表(CDCC)》的测验分数与效标《韦氏儿童智力量表(WISC—CR)》的测验分数进行相关比较。效标效度又可分为两种类型，一是共时效度，即测验分数是否测出了目前实际存在的情况，具体做法是在收集测验分数的同时，收集效标资料，然后计算两组数据的相关系数，决定测验分数是否可取代效标分数。二是预测效度，即测验分数是否预测到了将来发生的特定情况，具体做法是先收集测验分数，经过一段时间(如半年或一年)之后再收集效标资料，然后计算两组相关系数，目的是决定测验分数是否具有预测性。例如：对 5 岁幼儿在绘人智能测验中获得的分数与半年后在《中国比纳测验》测得的智商进行相关系数比较。 ③结构效度结构效度指一个测验在多大程度上测量了所要测的理论构想。它验证的是所提出的理论假说是否有效的问题。结构效度包括内容效度和预测效度，当理论构想涉及测验内容时，便是内容效度，如果涉及外部标准，则为预测效度。当要求回答这样的问题：这个测验究竟测量了什么?实际上就是在考虑这个测验的结构效度，例如：智力测验的结构效度是指被试解答的问题足以智力来加以解释，而不是以学习成绩或知识多少来加以解释。智力测验的结构效度越高，它所测量的智力因素也越高。又如：关于智力测验有许多理论假说，如测验分数在 16 岁以前随年龄的增长而增加；一种智力测验的分数与其他智力测验的分数呈正相关；测验分数能区别智力水平；测验分数受教学的直接影响不大；智商具有相对的稳定性等，然后通过智力测验的具体项目来验证这些理论假设。如果假设得到材料的支持，则认为这个智力测验的结果与智力的理论结构相符合，即有结构效度。由于结构指的是理论结构，而不是测验项目的外在技术结构，还由于结构是抽象的，而不是实在的事物，因此确定结构效度比较复杂。既要从实际中收集各方面的资料，又要从理论上对构想进行分析。如，分析测验过程与测验题目之间的关系；比较两组被试在同一测验中的结果；比较前测与后测的变化；求出一种测验与其他测验的相关等。影响测验效度的因素很多，主要有以下几个方面：

《教育学》课程教学资源（教育研究方法）第八章 测量研究

《教育学》课程教学资源（教育研究方法）第八章测量研究