2.通过决定在研究中如何控制和测量变量,对假设中的每个变量下操作定义:(即 选择模型) 3.编制或选择获取和量化每一变量观察值的工具及程序:(确定测验分数的使用目 的一确定代表该结构的行为(包括内容分析、研究回顾、关键事件、直接观察、专家判 断、教学目标等方法)一领域取样(包括随机抽样、系统抽样、多阶段抽样、分层抽样 整群抽样、分层整群抽样、重复抽样、配额抽样、判断抽样等多种方法)一准备测验说 明书一项目编制(包括最佳行为测验法(包括是非、多选、配对入、调查问卷项目形式 (包括二分法、五级连续法、两极形容词列表法)) 4.检查所使用的工具和程序的准确性及敏感性:(注意精确性、与测验说明相符或 相关程度、项目编制的技术性缺点、语法、攻击性语言或“偏见”的出现、可读性水平 等问题,然后进行试测检查,进行项目分析,得出项目的相关指标,即信度、效度、难 度、区分度等) 5.收集实验设计框架内的实验资料,以回答最初提出的问题: 6.用数学方法处理数据资料,适当地利用统计检验去判断观察结果归因于机遇的 可能性。 在这个过程中,测验理论的内容与步骤2、步骤3和步聚4有很大关系。有必要指 出,在进行大范围的实验研究(步骤5和6)之前,步骤4通常要求收集预试样组试测结 果的数据并进行统计分析,以确保工具的有效性。编制和预试研究工具失败的部分原因 是与教育和社会科学研究经常具有矛盾和模糊的结果的特点有关。在物理和生物科学 中,测量程序在实验使用之前全都要经过检验。一位生物化学家在没花大量时间校准分 光仪,以保证它能够提供精确的波长读数时,是绝不会试图去分析实验室中未知的化合 物的。然而,相比之下社会科学家们更经常地尝试通过实际上从未试用过的测验去评估 实验程序如何舞影响了一个复杂的变量,如心理病人的焦虑水平或学前儿童的语言发展。 从提出研究问题和定义变量直接跳到收集实验资料的研究者很可能会一无所获。假如研 究者没有观察到各种处理之间的差异,那么他们也就不可能知道是各种处理无效,还是 测量不那么精确以致处理的真实效果未被觉察到。在实施最后的正式实验前,严格地遵 照优秀测验编制程序和在实践中试测的原则将对提高教育学和心理学研究的总体质量 大有裨益。 三、测验理论中的统计概念(主要是复习) (一)频数表和分布图 (二)集中量数(众数、中位数、平均数) (三)差异量数(全距、离差、方差、标准差) (四)Z分数(后面还会再讲) (五)正态分布 (六)用于描述两个变量间关系的量(散点图、相关系数,包括皮尔逊积差相关、 斯皮尔曼等级相关、点二列相关、列联相关等) (七)用于倾测个体表现的量(回归分析、估计的标准误等)
11 2.通过决定在研究中如何控制和测量变量,对假设中的每个变量下操作定义;(即 选择模型) 3.编制或选择获取和量化每一变量观察值的工具及程序;(确定测验分数的使用目 的-确定代表该结构的行为(包括内容分析、研究回顾、关键事件、直接观察、专家判 断、教学目标等方法)-领域取样(包括随机抽样、系统抽样、多阶段抽样、分层抽样、 整群抽样、分层整群抽样、重复抽样、配额抽样、判断抽样等多种方法)-准备测验说 明书-项目编制(包括最佳行为测验法(包括是非、多选、配对)、调查问卷项目形式 (包括二分法、五级连续法、两极形容词列表法))) 4.检查所使用的工具和程序的准确性及敏感性;(注意精确性、与测验说明相符或 相关程度、项目编制的技术性缺点、语法、攻击性语言或“偏见”的出现、可读性水平 等问题,然后进行试测检查,进行项目分析,得出项目的相关指标,即信度、效度、难 度、区分度等) 5.收集实验设计框架内的实验资料,以回答最初提出的问题; 6.用数学方法处理数据资料,适当地利用统计检验去判断观察结果归因于机遇的 可能性。 在这个过程中,测验理论的内容与步骤 2、步骤 3 和步骤 4 有很大关系。有必要指 出,在进行大范围的实验研究(步骤 5 和 6)之前,步骤 4 通常要求收集预试样组试测结 果的数据并进行统计分析,以确保工具的有效性。编制和预试研究工具失败的部分原因 是与教育和社会科学研究经常具有矛盾和模糊的结果的特点有关。在物理和生物科学 中,测量程序在实验使用之前全都要经过检验。一位生物化学家在没花大量时间校准分 光仪,以保证它能够提供精确的波长读数时,是绝不会试图去分析实验室中未知的化合 物的。然而,相比之下社会科学家们更经常地尝试通过实际上从未试用过的测验去评估 实验程序如何影响了一个复杂的变量,如心理病人的焦虑水平或学前儿童的语言发展。 从提出研究问题和定义变量直接跳到收集实验资料的研究者很可能会一无所获。假如研 究者没有观察到各种处理之间的差异,那么他们也就不可能知道是各种处理无效,还是 测量不那么精确以致处理的真实效果未被觉察到。在实施最后的正式实验前,严格地遵 照优秀测验编制程序和在实践中试测的原则将对提高教育学和心理学研究的总体质量 大有裨益。 三、测验理论中的统计概念(主要是复习) (一)频数表和分布图 (二)集中量数(众数、中位数、平均数) (三)差异量数(全距、离差、方差、标准差) (四)Z 分数(后面还会再讲) (五)正态分布 (六)用于描述两个变量间关系的量(散点图、相关系数,包括皮尔逊积差相关、 斯皮尔曼等级相关、点二列相关、列联相关等) (七)用于预测个体表现的量(回归分析、估计的标准误等)
第二章教育测量的质量指标 第一节信度 一、信度的概念 信度指测量结果的稳定性或可靠性程度,亦即测量的结果是否真实、客观反映了老 先生的实际水平。可从三个方面来考虑 第一,信度指实测值和真值相差的程度 测量的目的之一,就是希望通过测量得到的实测值能够接近事物的真值。但由于各 种原因,实测值与真值之间必然存在误差。但误差越小,说明信度越高。 (实测值)=T(真值)+E(误差) 由于真值是未知的,因此误差值是大是小也是未可知的。一般为求得最接近的实测 值都是通过多次实测取其平均值来作为真值的近似值。但这一方法缺乏实际可操作性, 也无法求得信度的大小。 第二,信度是指统计量与参数之间的接近程度 统计量和参数是统计学中的两个基本概念。统计量是指样本上的各种数字特征(如 样本的平均数、标准差等),参数是总体上的各种数字特征(如总体的平均数、标准差 等)。统计量越接近参数,这个统计量的可靠性程度就越高,因此信度越高。 而要知道统计量与参数的接近程度高,可以对参数进行区间估计,这种方法对估计 真分数有用,但仍然无法计算出信度。 第三,信度指两次重复测量或等值测量之间的关联程度。 如果对同一对象进行两次重复测量或者等值测量后,计算两次测量的相关系数,相 关系数截高,说明侧量的信度越高:反之,信度越低。 但应注意的是,重复测量会受到被试的经验、知识的增长等因素的影响,等值测量 又较难编制,因此,采用这种方法计算信度时,也是有误差的。 信度是任何一个测量的必要条件,对于教有测量来说,它具有更为重要的意义。因 为教育测量的对象主要是精神现象,所测量的特性不易把握,为了能真实地反映测量对 象的某种特点,更加需要注意测量的信度。 二、信度的理论公式 见P32。 这里需要注意的是,对实得分数进行分解后,可以分解成真分数的方差、随机误差 的方差两部分。很明显,随机误差的方差越小,测量的信度就越高 信度取值范围为0,1]。 三、信度的类型 用上面的理论公式计算不了信度,因为真分数根本不知道,如果知道就不用算了。 实际中常用以下几种方法(也就是几种不同的信度): (一)稳定性系数(重测信度) 12
12 第二章 教育测量的质量指标 第一节 信度 一、信度的概念 信度指测量结果的稳定性或可靠性程度,亦即测量的结果是否真实、客观反映了老 先生的实际水平。可从三个方面来考虑: 第一,信度指实测值和真值相差的程度 测量的目的之一,就是希望通过测量得到的实测值能够接近事物的真值。但由于各 种原因,实测值与真值之间必然存在误差。但误差越小,说明信度越高。 (实测值) = T(真值) + E(误差) 由于真值是未知的,因此误差值是大是小也是未可知的。一般为求得最接近的实测 值都是通过多次实测取其平均值来作为真值的近似值。但这一方法缺乏实际可操作性, 也无法求得信度的大小。 第二,信度是指统计量与参数之间的接近程度 统计量和参数是统计学中的两个基本概念。统计量是指样本上的各种数字特征(如 样本的平均数、标准差等),参数是总体上的各种数字特征(如总体的平均数、标准差 等)。统计量越接近参数,这个统计量的可靠性程度就越高,因此信度越高。 而要知道统计量与参数的接近程度高,可以对参数进行区间估计,这种方法对估计 真分数有用,但仍然无法计算出信度。 第三,信度指两次重复测量或等值测量之间的关联程度。 如果对同一对象进行两次重复测量或者等值测量后,计算两次测量的相关系数,相 关系数越高,说明测量的信度越高;反之,信度越低。 但应注意的是,重复测量会受到被试的经验、知识的增长等因素的影响,等值测量 又较难编制,因此,采用这种方法计算信度时,也是有误差的。 信度是任何一个测量的必要条件,对于教育测量来说,它具有更为重要的意义。因 为教育测量的对象主要是精神现象,所测量的特性不易把握,为了能真实地反映测量对 象的某种特点,更加需要注意测量的信度。 二、信度的理论公式 见 P32。 这里需要注意的是,对实得分数进行分解后,可以分解成真分数的方差、随机误差 的方差两部分。很明显,随机误差的方差越小,测量的信度就越高。 信度取值范围为[0,1]。 三、信度的类型 用上面的理论公式计算不了信度,因为真分数根本不知道,如果知道就不用算了。 实际中常用以下几种方法(也就是几种不同的信度): (一)稳定性系数(重测信度)
指用同一测验试卷,在先后两个不同时间内对同一组被试进行测验,两次测验实得 分数的相关系数。这是最简单的估量信度的方法。 要注意的是:(1)重测法只适用于速度测验而不适用于难度测验:(2)所测的信度 大小,常常受到两次测验时间间隔长短影响:(3)第二次测验没有吸引力,不易引起被 试的兴趣;(4)要实施两次测验,耗费人力、物力和时间较多。 (二)等值性系数 当同一测验的一种型式不能或不适合实施两次时,就需要采用该测验的另一个平等 测验或者复份(复本)。复份要求在测验的内容、题数、格式、难度、平均数、标准差 等方面应与原测验一样,否则,估计的等值系数就会出现较大误差。 决定等值系数的方法是,先实施第一次测验,然后在最短时间内实施第二份等值的 测验,再求它们的相关系数,这个相关系数就是信度的等值性系数。 采用复份法估计信度系数要注意:(1)两次测验试卷要等值,即在内容范围、题型、 题数、难度、区分度等方面要基本相同:(2)两次测验要尽可能在较短的时距内进行: (3)确定两次测验是否等值,还要考察两次测验结果的平均数与标准差。但在实际操 作中,要编制两份等值的测验是非常困难的。 (三)内部一致性系数 前面两种估计信度系数的方法都是要测验两次的,但在实际的测验之中,一方面教 师很难编制两份等值的试卷,学生也没有那么多时间和精力重复参加测验。因此需要根 据一次测验来估计测验的信度系数。这就是内部一致性系数,即把一次测验人为地分成 两个部分,比较两个部分的一致程度,从而估计信度系数。 按照分成两个部分的不同,内部一致性系数的估计方法有两种: 1、分半信度 这种方法是将一次测验分成两个假定相等而独立的部分来记分,通常是以题目的奇 数为一组,偶数为一组,计算两组的相关系数,最后用斯皮尔曼一布朗公式校正,求得 整个测验的信度系数。(公式见教材) 2、库德尔一理查森公式法 用这种方法只需要测验一次,然后以各个问题的正确反应数为基础(此可视为各题 难度的信息),或根据各人部分的平均数和标准差,计算信度系数。库德尔一理查森公 式有好几个,最常用的是IKR2o和IK2I。 KR0的用法:以每题能正确回答的人数占总人数的百分数为基础计算(每题只有 通过或未通过两种分数)。具体公式见教材。 「K2的用法:这个公式以各反应者总分的平均数和方差为基础计算,无需各题难 度的信息。公式见教材。 计算内部一致性系数,需要注意下列问题: A、若用分半法时,以按奇数题和偶数题分为两半为宜。若把整个测验分为前后两 半,一方面前半部试题与后半部试题未必等值,另一方面被试者在完成后半部试题时, 可能因疲劳、厌倦等原因而影响回答质量,以致前后反应不一致,影响信度。 B、若速率是测验的重要因素,则不宜用分半法,因为速度测验中试题的难度低
13 指用同一测验试卷,在先后两个不同时间内对同一组被试进行测验,两次测验实得 分数的相关系数。这是最简单的估量信度的方法。 要注意的是:(1)重测法只适用于速度测验而不适用于难度测验;(2)所测的信度 大小,常常受到两次测验时间间隔长短影响;(3)第二次测验没有吸引力,不易引起被 试的兴趣;(4)要实施两次测验,耗费人力、物力和时间较多。 (二)等值性系数 当同一测验的一种型式不能或不适合实施两次时,就需要采用该测验的另一个平等 测验或者复份(复本)。复份要求在测验的内容、题数、格式、难度、平均数、标准差 等方面应与原测验一样,否则,估计的等值系数就会出现较大误差。 决定等值系数的方法是,先实施第一次测验,然后在最短时间内实施第二份等值的 测验,再求它们的相关系数,这个相关系数就是信度的等值性系数。 采用复份法估计信度系数要注意:(1)两次测验试卷要等值,即在内容范围、题型、 题数、难度、区分度等方面要基本相同;(2)两次测验要尽可能在较短的时距内进行; (3)确定两次测验是否等值,还要考察两次测验结果的平均数与标准差。但在实际操 作中,要编制两份等值的测验是非常困难的。 (三)内部一致性系数 前面两种估计信度系数的方法都是要测验两次的,但在实际的测验之中,一方面教 师很难编制两份等值的试卷,学生也没有那么多时间和精力重复参加测验。因此需要根 据一次测验来估计测验的信度系数。这就是内部一致性系数,即把一次测验人为地分成 两个部分,比较两个部分的一致程度,从而估计信度系数。 按照分成两个部分的不同,内部一致性系数的估计方法有两种: 1、分半信度 这种方法是将一次测验分成两个假定相等而独立的部分来记分,通常是以题目的奇 数为一组,偶数为一组,计算两组的相关系数,最后用斯皮尔曼—布朗公式校正,求得 整个测验的信度系数。(公式见教材) 2、库德尔—理查森公式法 用这种方法只需要测验一次,然后以各个问题的正确反应数为基础(此可视为各题 难度的信息),或根据各人部分的平均数和标准差,计算信度系数。库德尔—理查森公 式有好几个,最常用的是 rKR20 和 rKR21。 rKR20 的用法:以每题能正确回答的人数占总人数的百分数为基础计算(每题只有 通过或未通过两种分数)。具体公式见教材。 rKR21 的用法:这个公式以各反应者总分的平均数和方差为基础计算,无需各题难 度的信息。公式见教材。 计算内部一致性系数,需要注意下列问题: A、若用分半法时,以按奇数题和偶数题分为两半为宜。若把整个测验分为前后两 半,一方面前半部试题与后半部试题未必等值,另一方面被试者在完成后半部试题时, 可能因疲劳、厌倦等原因而影响回答质量,以致前后反应不一致,影响信度。 B、若速率是测验的重要因素,则不宜用分半法,因为速度测验中试题的难度低
被试者得分多少,在很大程度上是因为答题的多少,分半法易使得分相同,从而夸大分 半法的信度估计。 C、如果答案多种多样,得分也多种多样时(如论文式考试),则不能用上列公式计 算一致性系数。 (四)论文式测验的信度系数 论文式测验的评分,没有严格的评分标准,以致同样一个题目,不同的应试者的回 答和得分都不一样,所以无法用前面的公式,而要用克龙巴赫所创的α系数公式(见教 材)。 (五)评分者信度 一般论文式考试,只能提供列出答案要点的参考答案而无固定的标准答案,因而不 同的评分者对同一份试卷往往给分不同,甚至有很大悬殊。在作文测验、投射测验、品 德测验、创造力测验等的评分中,都存在这个问题。 计算这种信度需要区分评分者的人次数。 若为2人评N份试卷,可用斯皮尔曼等级相关计算: 若为三人以上评N份试卷,则用肯德尔和谐系数计算 四、提高信度的方法 (一)信度以多大为宜:对于学科测验,要求达到0.9以上:智力测验要求达到0.8 以上品德测验能达到0.6以上就不错了。 (二)测量误差的来源 1、测验本身所引起的误差: 测验本身的有些因素会直接产生误差:如题目格式中的判断题猜测的可能性会很 大:规定的时限:用词不准确引起的误解:题目的多少等。 测验所包括的测题样本也会引起测量误差。 2、测验的实施所引起的误差: 如指导语错误,对答案纸的错划、时间记录的错误、主试本身的主观影响、记分误 差等。 3、被试引起的误差 这是最难控制的误差,具体表现为动机的作用:学习、发展和教育的影响:对于测 验的经验:测验的焦虑:生理因素等。 (三)提高测险信度的方法 1、适当增加测验题目的数量,即可提高信度也可提高效度: 2、测验的难度要适中,这样信度能达到最大,也能使测验区分度达到最大: 3、测验的内容应尽量同质: 4、测验的程序应统一,包括试卷统一、测验开始时的指导语、回答问题的方式、 分发及收回试卷的办法、测验时间的掌握等,特别应该提到的是,考试的组织问题、监 考问题等,这是关系到测验信度的重要因素: 5、测验的时间要充分:
14 被试者得分多少,在很大程度上是因为答题的多少,分半法易使得分相同,从而夸大分 半法的信度估计。 C、如果答案多种多样,得分也多种多样时(如论文式考试),则不能用上列公式计 算一致性系数。 (四)论文式测验的信度系数 论文式测验的评分,没有严格的评分标准,以致同样一个题目,不同的应试者的回 答和得分都不一样,所以无法用前面的公式,而要用克龙巴赫所创的 α 系数公式(见教 材)。 (五)评分者信度 一般论文式考试,只能提供列出答案要点的参考答案而无固定的标准答案,因而不 同的评分者对同一份试卷往往给分不同,甚至有很大悬殊。在作文测验、投射测验、品 德测验、创造力测验等的评分中,都存在这个问题。 计算这种信度需要区分评分者的人次数。 若为 2 人评 N 份试卷,可用斯皮尔曼等级相关计算; 若为三人以上评 N 份试卷,则用肯德尔和谐系数计算。 四、提高信度的方法 (一)信度以多大为宜:对于学科测验,要求达到 0.9 以上;智力测验要求达到 0.8 以上;品德测验能达到 0.6 以上就不错了。 (二)测量误差的来源 1、测验本身所引起的误差: 测验本身的有些因素会直接产生误差:如题目格式中的判断题猜测的可能性会很 大;规定的时限;用词不准确引起的误解;题目的多少等。 测验所包括的测题样本也会引起测量误差。 2、测验的实施所引起的误差: 如指导语错误,对答案纸的错划、时间记录的错误、主试本身的主观影响、记分误 差等。 3、被试引起的误差: 这是最难控制的误差,具体表现为动机的作用;学习、发展和教育的影响;对于测 验的经验;测验的焦虑;生理因素等。 (三)提高测验信度的方法 1、适当增加测验题目的数量,即可提高信度也可提高效度; 2、测验的难度要适中,这样信度能达到最大,也能使测验区分度达到最大; 3、测验的内容应尽量同质; 4、测验的程序应统一,包括试卷统一、测验开始时的指导语、回答问题的方式、 分发及收回试卷的办法、测验时间的掌握等,特别应该提到的是,考试的组织问题、监 考问题等,这是关系到测验信度的重要因素; 5、测验的时间要充分;
6、评分要尽量做到客观化、减少评分误差。 第二节效度 一、概念 指测量结果的准确性和有效性的程度,亦即测量是否达到了预期目的: 首先,测量的效度始终是对一定的测量目的而言的。一般而言,任何测量都有某种 特定的目的和功能,判断效度高低,就是判断测验达到目的的程度。 其次,测量的效度也是对测量的结果而言的。一种测量工具只能经过实际测量,才 能根据出来的结果判断它的效度。所以也可以把效度理解为测量的结果正确反映所欲测 量的特性或功能的程度。对于任何一种测量来说,只有当它的测量结果真实、正确地反 映所欲测量的功能和特性时,才能认为这种测量是较为有效地或效度较高的。 第三,一种测量的效度只是高或低的问题。因为,一种测量在编制时,总是针对一 定目的而编制的。不存在无效度的测量,只是高或低的问题而已。 第四,在教育测量中,效度问题比在其他领域的测量更为重要。因为,首先,教育 测量的对象大多是精神现象,只能通过对其具有可测性的外部表现(如言语或动作等》 的测量,以间接认识其心理活动、心理特征或知识水平等。其次,学生的心理活动、心 理特征与其外部表现之间,一般仅具有相关关系而无函数关系,外部行为并不能准确无 误地反映某种心理状态。此外,教育测量的对象不是物而是具有主观能动性的人,人能 有意识地调节自己的外部行为,掩盖自己的内心活动,这就增加了认识其精神现象的难 度。 二、效度的理论公式 实得分数可分解为潜在真分数,系统误差,随机误差三部分。 具体关系见教材P43。 三、效度的分类及估计 (一)、内容效度 指测验目的代表所欲测量的内容和引起预期反应所达到的程度,也就是测量内容的 代表性程度。 在编制测验时,内容效度是一个相当复杂和不易解决的问题。以成绩测验来说,周 然要求测验题目能代表所学习过的全部内容,但仅仅在形式上做到这一点还不能保证足 够的内容效度,因为学习成绩的高低要从学习内容的巩固程度、理解程度和应用能力几 种行为反应去考察。如果测验题目大多是只需要牢记教材就可以回答的问题,那么,对 全面测验学生的成绩这一目的来说,内容效度仍然不高。 估计内容效度的方法: 1、逻辑分析的方法。这是根据教育学和心理学的理论,根据教学大纲要求,勾画 出学生掌握知识内容的范围和深度,提出应形成的技能名称,然后以逻辑分析的方法估 计测验在多大程度上代表了这些内容,在多大程度上能够测量出所要测量的特性和功 能。 2、用测验题目与教材内容比较的方法。这需要先制两个表:一个是测验的双向细
15 6、评分要尽量做到客观化、减少评分误差。 第二节 效度 一、概念 指测量结果的准确性和有效性的程度,亦即测量是否达到了预期目的。 首先,测量的效度始终是对一定的测量目的而言的。一般而言,任何测量都有某种 特定的目的和功能,判断效度高低,就是判断测验达到目的的程度。 其次,测量的效度也是对测量的结果而言的。一种测量工具只能经过实际测量,才 能根据出来的结果判断它的效度。所以也可以把效度理解为测量的结果正确反映所欲测 量的特性或功能的程度。对于任何一种测量来说,只有当它的测量结果真实、正确地反 映所欲测量的功能和特性时,才能认为这种测量是较为有效地或效度较高的。 第三,一种测量的效度只是高或低的问题。因为,一种测量在编制时,总是针对一 定目的而编制的。不存在无效度的测量,只是高或低的问题而已。 第四,在教育测量中,效度问题比在其他领域的测量更为重要。因为,首先,教育 测量的对象大多是精神现象,只能通过对其具有可测性的外部表现(如言语或动作等) 的测量,以间接认识其心理活动、心理特征或知识水平等。其次,学生的心理活动、心 理特征与其外部表现之间,一般仅具有相关关系而无函数关系,外部行为并不能准确无 误地反映某种心理状态。此外,教育测量的对象不是物而是具有主观能动性的人,人能 有意识地调节自己的外部行为,掩盖自己的内心活动,这就增加了认识其精神现象的难 度。 二、效度的理论公式 实得分数可分解为潜在真分数,系统误差,随机误差三部分。 具体关系见教材 P43。 三、效度的分类及估计 (一)、内容效度 指测验目的代表所欲测量的内容和引起预期反应所达到的程度,也就是测量内容的 代表性程度。 在编制测验时,内容效度是一个相当复杂和不易解决的问题。以成绩测验来说,固 然要求测验题目能代表所学习过的全部内容,但仅仅在形式上做到这一点还不能保证足 够的内容效度,因为学习成绩的高低要从学习内容的巩固程度、理解程度和应用能力几 种行为反应去考察。如果测验题目大多是只需要牢记教材就可以回答的问题,那么,对 全面测验学生的成绩这一目的来说,内容效度仍然不高。 估计内容效度的方法: 1、逻辑分析的方法。这是根据教育学和心理学的理论,根据教学大纲要求,勾画 出学生掌握知识内容的范围和深度,提出应形成的技能名称,然后以逻辑分析的方法估 计测验在多大程度上代表了这些内容,在多大程度上能够测量出所要测量的特性和功 能。 2、用测验题目与教材内容比较的方法。这需要先制两个表:一个是测验的双向细