需要性评价是指根据某种需要,对新提出的教育目标、计划方案的必要性作出价值 判断。其目的是要判断新提出的教育目标、计划方案或活动是否有必须进行或开展。一 般是在某种教有改革项目开始前或对教育活动整个时程讲行总体反思时讲行 可行性评价是指对教育目标、计划、方案实现的条件、可行性程度的评价。目标是 了解实施教育目标、计划、方案的物质条件、技术条件和经济效益。 配胃性评价是指对教育目标、计划、方案所需要的资源条件、人员与技术条件的配 置进行价值判断。目的是合理安排和利用人力、物力和财力。 (五)根据评价的主客体不同,可分为自我评价和他人评价 自我评价指被评者按照一定的评价目的与要求,对自身的工作、学习和品德等方面 的表现讲行价值判断。他人评价指被评者以外的人讲行的评价,也叫外部评价。 第三节教育测评的发展阶段 一、教育测量的发展阶段 (一)教育测量的萌芽阶段(1864年以前) 根据《学记》记载,我早在西周时期,就实行了教育考评 自隋炀帝大业三年(公元606年)始置进士科开始的科举制度,到清末光绪三十一 年(1905年)废止,正好1300年,对我国进一步完善高等学校招生制度乃至整个干部 选拔制度,都有重要的借鉴意义。 科举制度的特点:第一,要经过严格的政治条件方面审查:第二,要进行严格的文 化考查:第三,历代对考生都有健康方面的标准。 科举制度可取之处:第一,政治理论考试是最主要的考试项目:第二,文化素养特 别是写作能力是必考项目:第三,注意考查分析问题和解决问题的能力。 录取原则:第一,对已被录取者一律要进行复试:第二,对落选者要给予其他出路: 第三,录取时要参考平时成绩。 注意的问题:第一,考生入场挟带文书,是历代都极为注意的:第二,考场秩序也 是历代都极为重视的问题:第三,试卷是评定成绩高低,录取与否的唯一依据,它屡经 考生和各类考试工作人员之手,如不严格管理,很容易使舞弊者有机可乘。 科举制度实际上就是一个关于学生学力检测、评价制度,但是它缺乏对人全面的、 科学的考察,并且存在着许多弊端。 在18世纪以前的西方各国,由于学校尚未普及,学校老试主要是口试。1702年, 英国剑桥大学首先以笔试代替口试,开西方学校考试先河。 1845年,美国初等学校普及,学生数激增,对毕业生一一口试己不可能,于是,波 士顿市教育委员会率先在美国相继以笔试代替口试。 由于笔试客观性、可靠性比口试高,并且节约时间,测试结果大大优于口试,但因 为评分易受主观偏见影响,况且题目太少,不足以反映学生所获知识与能力的全貌,因 此,为矫正弊端,力求考试客观化,于是测验方法随之出现。 (二)教育测量的蓬勃兴起阶段(1864一一1940年) 1864年英国格林威治医院附属学校一位名叫费舍的教师收集了许多学生成绩样本 6
6 需要性评价是指根据某种需要,对新提出的教育目标、计划方案的必要性作出价值 判断。其目的是要判断新提出的教育目标、计划方案或活动是否有必须进行或开展。一 般是在某种教育改革项目开始前或对教育活动整个过程进行总体反思时进行。 可行性评价是指对教育目标、计划、方案实现的条件、可行性程度的评价。目标是 了解实施教育目标、计划、方案的物质条件、技术条件和经济效益。 配置性评价是指对教育目标、计划、方案所需要的资源条件、人员与技术条件的配 置进行价值判断。目的是合理安排和利用人力、物力和财力。 (五)根据评价的主客体不同,可分为自我评价和他人评价 自我评价指被评者按照一定的评价目的与要求,对自身的工作、学习和品德等方面 的表现进行价值判断。他人评价指被评者以外的人进行的评价,也叫外部评价。 第三节 教育测评的发展阶段 一、教育测量的发展阶段 (一)教育测量的萌芽阶段(1864 年以前) 根据《学记》记载,我国早在西周时期,就实行了教育考评。 自隋炀帝大业三年(公元 606 年)始置进士科开始的科举制度,到清末光绪三十一 年(1905 年)废止,正好 1300 年,对我国进一步完善高等学校招生制度乃至整个干部 选拔制度,都有重要的借鉴意义。 科举制度的特点:第一,要经过严格的政治条件方面审查;第二,要进行严格的文 化考查;第三,历代对考生都有健康方面的标准。 科举制度可取之处:第一,政治理论考试是最主要的考试项目;第二,文化素养特 别是写作能力是必考项目;第三,注意考查分析问题和解决问题的能力。 录取原则:第一,对已被录取者一律要进行复试;第二,对落选者要给予其他出路; 第三,录取时要参考平时成绩。 注意的问题:第一,考生入场挟带文书,是历代都极为注意的;第二,考场秩序也 是历代都极为重视的问题;第三,试卷是评定成绩高低,录取与否的唯一依据,它屡经 考生和各类考试工作人员之手,如不严格管理,很容易使舞弊者有机可乘。 科举制度实际上就是一个关于学生学力检测、评价制度,但是它缺乏对人全面的、 科学的考察,并且存在着许多弊端。 在 18 世纪以前的西方各国,由于学校尚未普及,学校考试主要是口试。1702 年, 英国剑桥大学首先以笔试代替口试,开西方学校考试先河。 1845 年,美国初等学校普及,学生数激增,对毕业生一一口试已不可能,于是,波 士顿市教育委员会率先在美国相继以笔试代替口试。 由于笔试客观性、可靠性比口试高,并且节约时间,测试结果大大优于口试,但因 为评分易受主观偏见影响,况且题目太少,不足以反映学生所获知识与能力的全貌,因 此,为矫正弊端,力求考试客观化,于是测验方法随之出现。 (二)教育测量的蓬勃兴起阶段(1864——1940 年) 1864 年英国格林威治医院附属学校一位名叫费舍的教师收集了许多学生成绩样本
汇集了一本《量表集》,作为度量学生各科成绩的标准。可以说是客观标准化测量的萌 芽。 1897年莱斯发表了他对20所学校3000余名学生所作的拼字测验研究结果,测验表 明:8年中每天花45分钟时间进行拼字练习同每天花15分钟进行练习的成绩并没有多 大差别。这一结论尽管遭到了不少人反对,但它引起了人们对测验问题的普遍关心,推 动了教育测验问题的研究。 中世纪以后,西方自然科学由于在方法论上引入了测定、观察和实验, 一些传统科 学取得了长足发展。1879年冯特在德国莱比锡建立了第一个心理学实验室,为进一步揭 示人的心理本质而设计了种种周密的实验方案与实现方案的各种严密的测量方法。所有 这些方法论的变革促进了教育测量运动的兴起。 1882年英国高尔顿受达尔文影响,在伦敦建立了人类学测验实验室,与德国冯特的 心理学实验室相对特。德困实验心理学派通过专门研究人类的一般行为规律来进一步揭 示人的心理本质,而英国人类学派则对人类个别差异寄予了关心。高尔顿在统计学家皮 尔逊的帮助下,设计了许多统计方法。这些统计方法不仅对美国的人事工程思想甚有帮 助,而且一些教育家借鉴这些方法,在教育上把不同学生的学习能力与学习效果量化, 并加以客观比较,促讲了教育测量运动的发展」 19世纪末,法国在“自由”“平等”“博爱”等进步思想的影响下,提出社会不仅要 对身体有缺陷的儿童加以关怀,还要结心理、精神智能有缺陷的儿童给予关怀。恰好当 时巴黎一带的学校有许多学习效果低劣的孩子很成问题,比纳想鉴别这些孩子是因为懒 惰,还是因为智能低下而不能适应,并且想在教育上尝试如何加以辅教。因此,1895 年,比纳等设计了一套智力测验的方法,1905年在西蒙的协助下,制成了著名的比纳一 西蒙智力量表。 20世纪20年代,美国的教育侧验运动灌勒发展起来。可分为三个时期: 开拓期(19041915),这一段时间是方法的探索与初步的发展时期。在美国心理学 家卡特尔研究的基础上,1904年桑代克发表了《精神与社会测验学导论》,这是一本在 测验学史上划时代巨著,标志教育测验运动的开始。桑代克在书中宣称:“凡是存在的 东西都有数量:凡是有数量的东西都可测量。” 兴盛期(1915-1930),这一时期对桑代克提出的信条不但在技术方面努力求得正确 应用,而且不断提高到理论上加以证实。这一时期已发展了三种不同性质的测验,即学 力测验、智力测验和人格测验 批判期(1930-1940),随着教育测验运动的不断发展,人们逐渐认识到,教育测验 尽管能使考试客观化、标准化,并能把人的能力换算成数字,甚至个别差异的程度也可 以量化,但它毕竟不能测出人的全部,即使是研究最多最富成果的学力测验也不能测得 学力的全部领域。在人格测验方面,单纯的测验是无法把握的,如社会态度、兴趣、情 绪、鉴赏力等。1931年,塞蒙兹发表了《人格与行动的诊断》一书,主张人格测量应用 评定法、问卷法、轶事记录法等,从而从思想上否定了单纯的人格测量法。从此,教育 测量运动逐步过渡到教育评价时期。 (三)教有测量的深入发展阶段(1940至今)
7 汇集了一本《量表集》,作为度量学生各科成绩的标准。可以说是客观标准化测量的萌 芽。 1897 年莱斯发表了他对 20 所学校 3000 余名学生所作的拼字测验研究结果,测验表 明:8 年中每天花 45 分钟时间进行拼字练习同每天花 15 分钟进行练习的成绩并没有多 大差别。这一结论尽管遭到了不少人反对,但它引起了人们对测验问题的普遍关心,推 动了教育测验问题的研究。 中世纪以后,西方自然科学由于在方法论上引入了测定、观察和实验,一些传统科 学取得了长足发展。1879 年冯特在德国莱比锡建立了第一个心理学实验室,为进一步揭 示人的心理本质而设计了种种周密的实验方案与实现方案的各种严密的测量方法。所有 这些方法论的变革促进了教育测量运动的兴起。 1882 年英国高尔顿受达尔文影响,在伦敦建立了人类学测验实验室,与德国冯特的 心理学实验室相对峙。德国实验心理学派通过专门研究人类的一般行为规律来进一步揭 示人的心理本质,而英国人类学派则对人类个别差异寄予了关心。高尔顿在统计学家皮 尔逊的帮助下,设计了许多统计方法。这些统计方法不仅对美国的人事工程思想甚有帮 助,而且一些教育家借鉴这些方法,在教育上把不同学生的学习能力与学习效果量化, 并加以客观比较,促进了教育测量运动的发展。 19 世纪末,法国在“自由”“平等”“博爱”等进步思想的影响下,提出社会不仅要 对身体有缺陷的儿童加以关怀,还要结心理、精神智能有缺陷的儿童给予关怀。恰好当 时巴黎一带的学校有许多学习效果低劣的孩子很成问题,比纳想鉴别这些孩子是因为懒 惰,还是因为智能低下而不能适应,并且想在教育上尝试如何加以辅救。因此,1895 年,比纳等设计了一套智力测验的方法,1905 年在西蒙的协助下,制成了著名的比纳— 西蒙智力量表。 20 世纪 20 年代,美国的教育测验运动蓬勃发展起来。可分为三个时期: 开拓期(1904-1915),这一段时间是方法的探索与初步的发展时期。在美国心理学 家卡特尔研究的基础上,1904 年桑代克发表了《精神与社会测验学导论》,这是一本在 测验学史上划时代巨著,标志教育测验运动的开始。桑代克在书中宣称:“凡是存在的 东西都有数量;凡是有数量的东西都可测量。” 兴盛期(1915-1930),这一时期对桑代克提出的信条不但在技术方面努力求得正确 应用,而且不断提高到理论上加以证实。这一时期已发展了三种不同性质的测验,即学 力测验、智力测验和人格测验。 批判期(1930-1940),随着教育测验运动的不断发展,人们逐渐认识到,教育测验 尽管能使考试客观化、标准化,并能把人的能力换算成数字,甚至个别差异的程度也可 以量化,但它毕竟不能测出人的全部,即使是研究最多最富成果的学力测验也不能测得 学力的全部领域。在人格测验方面,单纯的测验是无法把握的,如社会态度、兴趣、情 绪、鉴赏力等。1931 年,塞蒙兹发表了《人格与行动的诊断》一书,主张人格测量应用 评定法、问卷法、轶事记录法等,从而从思想上否定了单纯的人格测量法。从此,教育 测量运动逐步过渡到教育评价时期。 (三)教育测量的深入发展阶段(1940 至今)
在经过以上批判期以后,现代教育测量在以下方面有了新的发展: 第一,开始重视学生智力和思想品德的测量。 第一,现代教有测量量表的编制突破了讨去单一答蜜的求同式思维题,发展为句杆 多种答案的求异式思维题和论文式试题。 第三,教育测量的范围由过去偏重于学生学习成绩的测量,发展到涉及到课程设置 教材、教育改革方案等效益方面的测量。 第四,现代的教育测量由过去单一的常模参照性测验模式发展到常模参照性测验与 目标参照性测验相结合的模式。 第五,教有测量本身的理论研究与技术开发更加深入与完善。如关于测验等值、项 目反应理论(IRT)、测验信度、评分误差控制的研究等都有了较大的发展。 二、教育评价的发展阶段 教育评价作为科学概念,是20世纪30年代在美国进步主义教育聪明的新教育课程 的改革实验“八年研究”中正式诞生的 (一)教育评价产生的历史渊源与社会背景 1、我国古代教育考试制度 自人类社会形成,人类祖先为了生存、延续,自发地产生了原始生产经验和生活规 范的传递,这种传递就是教育的萌芽。随着社会经济、政治和文化的发展,特别是由于 古文字的出现,产生了学校。各种教育机构都有了相应的数育内容,从而产生了衡量数 育结果的手段和规定。 从我国教育史上看,早在西周时代,已经形成了较为完备的考试制度,如《学记》 中记载的“比年入学,中年考校”就是典型例子。更多的科举制度更是历时1300年。 2、西方教育测量运动的兴起 古代西方教育盛行以口头提问和实际操作来评定学生的学业。 从中世纪到19世纪的学校基本以口试作为考查学生成绩的方法 进入资本主义发展时期以后,由于社会需要大量掌握读写算的人力,学校和学生激 增,口试被笔试取代。但笔试也有很多弊端。为追求测验、考试的客观性,受实验心理 学、个别差异研究和智力测验的影响,20世纪初,在美国,教育测量取代了传统的考试, 并形成了一种趋势和运动:20年代末,由于新教育思潮的出现,教育测量己不能完全适 应教育发展的需要,因而出现了对教育测量的批判。 3、社会背景 20世纪20年代末30年代初,美国爆发了空前的经济危机,许多工厂倒闭,工人失 业,大批青年为了加强劳动力市场的竞争能力,重新涌入中学学习,谋求新职业。但当 时美国的中学所开设的课程是为了升大学服务的,不适应整个社会与失业青年的需要, 这就使学生与学校课程之间发生了尖锐矛盾。在这种情况下,美国一些受杜威教育思想 影响的教有家,组织了进步主义教育同盟(PEA),他们提出教育的目的在于生活,在 于儿童,反对旧的传统的死记硬背的考试测验。 他们以新教育理论为依据,以全面发展人的才能为主要目标,设计了一套新的课程, 并在7所大学30所中学进行教育实验。为达到实验目标,需要研究一套新的考查教育
8 在经过以上批判期以后,现代教育测量在以下方面有了新的发展: 第一,开始重视学生智力和思想品德的测量。 第二,现代教育测量量表的编制突破了过去单一答案的求同式思维题,发展为包括 多种答案的求异式思维题和论文式试题。 第三,教育测量的范围由过去偏重于学生学习成绩的测量,发展到涉及到课程设置、 教材、教育改革方案等效益方面的测量。 第四,现代的教育测量由过去单一的常模参照性测验模式发展到常模参照性测验与 目标参照性测验相结合的模式。 第五,教育测量本身的理论研究与技术开发更加深入与完善。如关于测验等值、项 目反应理论(IRT)、测验信度、评分误差控制的研究等都有了较大的发展。 二、教育评价的发展阶段 教育评价作为科学概念,是 20 世纪 30 年代在美国进步主义教育聪明的新教育课程 的改革实验“八年研究”中正式诞生的。 (一)教育评价产生的历史渊源与社会背景 1、我国古代教育考试制度 自人类社会形成,人类祖先为了生存、延续,自发地产生了原始生产经验和生活规 范的传递,这种传递就是教育的萌芽。随着社会经济、政治和文化的发展,特别是由于 古文字的出现,产生了学校。各种教育机构都有了相应的教育内容,从而产生了衡量教 育结果的手段和规定。 从我国教育史上看,早在西周时代,已经形成了较为完备的考试制度,如《学记》 中记载的“比年入学,中年考校”就是典型例子。更多的科举制度更是历时 1300 年。 2、西方教育测量运动的兴起 古代西方教育盛行以口头提问和实际操作来评定学生的学业。 从中世纪到 19 世纪的学校基本以口试作为考查学生成绩的方法。 进入资本主义发展时期以后,由于社会需要大量掌握读写算的人力,学校和学生激 增,口试被笔试取代。但笔试也有很多弊端。为追求测验、考试的客观性,受实验心理 学、个别差异研究和智力测验的影响,20 世纪初,在美国,教育测量取代了传统的考试, 并形成了一种趋势和运动;20 年代末,由于新教育思潮的出现,教育测量已不能完全适 应教育发展的需要,因而出现了对教育测量的批判。 3、社会背景 20 世纪 20 年代末 30 年代初,美国爆发了空前的经济危机,许多工厂倒闭,工人失 业,大批青年为了加强劳动力市场的竞争能力,重新涌入中学学习,谋求新职业。但当 时美国的中学所开设的课程是为了升大学服务的,不适应整个社会与失业青年的需要, 这就使学生与学校课程之间发生了尖锐矛盾。在这种情况下,美国一些受杜威教育思想 影响的教育家,组织了进步主义教育同盟(PEA),他们提出教育的目的在于生活,在 于儿童,反对旧的传统的死记硬背的考试测验。 他们以新教育理论为依据,以全面发展人的才能为主要目标,设计了一套新的课程, 并在 7 所大学 30 所中学进行教育实验。为达到实验目标,需要研究一套新的考查教育
成就的方法,经推荐,组成了以泰勒为首的评价委员会,时间从1933年到1940年,历 时8年,史称“八年研究”。 1940年,泰勒教授提出了第一个报告,第一次提出了“教育评价”这个概念,认为 实施教育评价首先必须分析教育应达到的目标,再用这个目标来评价教育的效果,运用 评价来促进教育活动向理想的目标逼近。被人们称为“划时代的教育评价宣言”。 (二)现代教育评价的发展阶段 1、教育评价的开创时期(1930-1958) “八年研究”后,现代教育评价正式诞生,终于取代了教有测量成为考查教有效果, 促进教育改革的重要理论和手段。 在这一阶段中,教育评价方法论的实证化特点非常明显。主要表现在目标导向评价 模式之中。首先,泰勒认为开展评价的论据是把所要评价的内容分成具体可见的、可操 作的学生行为目标,以便在评价中能够围绕这些行为目标进行观察和测定。其次,泰勒 在他的评价模式中非常强调对学习和教育结果进行客观的测量、统计。他提出三种评价 手段:专家测验、情境考察、提问作答。并提出运用时三个重要准则:客观性、信度和 效度。 2、大发展时期(1958-1972) 1957年前苏联的人造卫生上天后,美国朝野一片震惊,并对教育进行了深刻的反思。 在加大教育投资力度的同时,教有评价很快从过去仅是学术机构和民间的研究转而被纳 入各级政府和各地方教育当局的议事日程。1963年美国政府正式提出要对教育的效能和 质量进行评价,并拨出大量专款用于教育评价理论与技术、方法的研究和培养专门的教 育评价工作人员。 1963年,克龙巴赫发表《通过评价改革课程》,提出评价的内容不应仅仅是课程或 教学目标及其被达到的程度,而应更关心对教育决策及其所依据的准则的评价。为决策 提供信息更应是评价的中心 1963年格拉泽发表文章,在指出相对评价的不足时,提出在学校教育中应着重绝对 评价 1967年斯克里芬发表评价史上具有深远影响的《评价方法论》,指出过去的评价不 仅在理论上而且在实践中都很不全面。他第一次对形成性评价与终结性评价、专业性评 价与业余性评价、对目标到达程度的评价与对目标本身价值及比较性评价与非比较性评 价等作了明确的阐述和区分。 1969年,艾斯纳对泰勒的目标评价理论进行了抨击,认为对教育本质的不同理解, 可以造成对目标的不同表述,泰勒的评价方法不一定适用于教育实际,因为它既没有提 供评价目标本身的方法,也没有提出判断评价目标与结果之间差异的标准。从此,以目 标为中心的评价模式不再是唯一的了。其它评价模式相继出现,目标的价值结构受到了 挑战。在这一段时间里,出现了40多种评价模式,各适用于不同的范围,采取不同的 方式方法。 3、专业时期(1973至今) 在这一阶段中,教育评价方法论的人文化特点得到迅速发展并有超过实证化倾向的
9 成就的方法,经推荐,组成了以泰勒为首的评价委员会,时间从 1933 年到 1940 年,历 时 8 年,史称“八年研究”。 1940 年,泰勒教授提出了第一个报告,第一次提出了“教育评价”这个概念,认为 实施教育评价首先必须分析教育应达到的目标,再用这个目标来评价教育的效果,运用 评价来促进教育活动向理想的目标逼近。被人们称为“划时代的教育评价宣言”。 (二)现代教育评价的发展阶段 1、教育评价的开创时期(1930-1958) “八年研究”后,现代教育评价正式诞生,终于取代了教育测量成为考查教育效果, 促进教育改革的重要理论和手段。 在这一阶段中,教育评价方法论的实证化特点非常明显。主要表现在目标导向评价 模式之中。首先,泰勒认为开展评价的论据是把所要评价的内容分成具体可见的、可操 作的学生行为目标,以便在评价中能够围绕这些行为目标进行观察和测定。其次,泰勒 在他的评价模式中非常强调对学习和教育结果进行客观的测量、统计。他提出三种评价 手段:专家测验、情境考察、提问作答。并提出运用时三个重要准则:客观性、信度和 效度。 2、大发展时期(1958-1972) 1957 年前苏联的人造卫生上天后,美国朝野一片震惊,并对教育进行了深刻的反思。 在加大教育投资力度的同时,教育评价很快从过去仅是学术机构和民间的研究转而被纳 入各级政府和各地方教育当局的议事日程。1963 年美国政府正式提出要对教育的效能和 质量进行评价,并拨出大量专款用于教育评价理论与技术、方法的研究和培养专门的教 育评价工作人员。 1963 年,克龙巴赫发表《通过评价改革课程》,提出评价的内容不应仅仅是课程或 教学目标及其被达到的程度,而应更关心对教育决策及其所依据的准则的评价。为决策 提供信息更应是评价的中心。 1963 年格拉泽发表文章,在指出相对评价的不足时,提出在学校教育中应着重绝对 评价。 1967 年斯克里芬发表评价史上具有深远影响的《评价方法论》,指出过去的评价不 仅在理论上而且在实践中都很不全面。他第一次对形成性评价与终结性评价、专业性评 价与业余性评价、对目标到达程度的评价与对目标本身价值及比较性评价与非比较性评 价等作了明确的阐述和区分。 1969 年,艾斯纳对泰勒的目标评价理论进行了抨击,认为对教育本质的不同理解, 可以造成对目标的不同表述,泰勒的评价方法不一定适用于教育实际,因为它既没有提 供评价目标本身的方法,也没有提出判断评价目标与结果之间差异的标准。从此,以目 标为中心的评价模式不再是唯一的了。其它评价模式相继出现,目标的价值结构受到了 挑战。在这一段时间里,出现了 40 多种评价模式,各适用于不同的范围,采取不同的 方式方法。 3、专业时期(1973 至今) 在这一阶段中,教育评价方法论的人文化特点得到迅速发展并有超过实证化倾向的
势头。这些评价模式的共同特点就是在评价中不只是单纯从评价者的需要出发,而是考 虑到所有参与人的需要,强周个体的经验、活动和主观认识的作用,不过分追求客观化 并试图摒弃数量特征,而是从人的角度出发,重视人文社会科学方法在评价中的运用。 如应答评价模式的应答,就是让评价对象和其他与评价有关人员提出他们关心的问题, 并表达他们各自的意见,在评价过程中,评价者的职责就是把收集到这些资料与众人讨 论,并以磋商的形式,逐渐消除分歧,最近达成共同的、公认的、统一的观点。 第二章教育测量的基本问题(添加内容) 一、测验必须注意的问题 我们前面已经说过,教育测量实际上是基于心理结构的分析而进行的间接测查,这 一特点给相应的测量工具的设计带来了几个难题,如人事部门的一位心理学家想编制用 于测试某工厂求职人员机械能力的测验,一位学校心理学家想编制教师对身体残疾学生 的态度量志 ,一位教师想编制一套五年级学生解答多位数除法技能的单元测验.这 里,每个人要测的东西结构上完全不同,那么应该怎么米设计呢? 其实,对于所有的心理测评,测验编制者至少要考虑五个问题 首先,对任何结构的测量不存在普遍认同的一种方法,因为对某种心理结构的测量 总是建立在被认为与该结构相关的行为研究的基础上间接进行的,当人们谈到同一结构 时却往往选择不同类型的行为给该结构下操作性定义,也可能要求学生解答一系列问 题,也可能要求学生写出每一步的结果,也可能要求他们找出答错的题目中的错误,也 可能要求学生用多种方法解答,因而不同的操作性定义会得出不同的测量程序,这又很 可能导致对学生知识水平的不同评价。 其次,心理测量通常是基于有限的行为样组的。我们不可能考核所有我们要考查的 行为,只能从其中抽样,这就涉及测量题目的数量和内容广度,这是产生一个良好测量 的最主要的步骤。 第三,测量的结果总人受到误差的影响。 第四,测量量表缺乏定义清晰的单位。受测者未能回答出多位数除法测验的任一测 题是否意味着他们没有这种技能?如果一位同学答对了5个题,另一同学答对了10个 题,第三位同学答对了15道题,是否能认为前两位同学之间的差异与第二、三位同学 之间的差异一样呢?三个学生在测验所测验的能力连续体上的差距是否相等? 第五,心理结构不能仅以操作定义来界定,还必须说明它与其他结构或可视察现象 间的关系。虽然心理测量建立在可观察到的反应基础之上,但只有它能够按照所依赖的 理论结构讲行合理解释时,它才具有意义。因此(1)必须根据可观察行为来界定结构, 这类定义具体说明了如何进行测量:(2)必须在理论系统内根据它与别的结构间的逻辑 或数学关系来界定结构,这类定义为的获得的测量结果的解释提供了基础。 测验理论在研究和评估中的作用为了阐明测验理论在义的研究和评估方法学中 的作用,把教有和社会科学研究看作是由几个明确界定的步骤所组成的调查过程,将有 助于问题的说明。这个过程可以分为以下几个步骤: 1.简洁明白地陈述研究的问题或假设:
10 势头。这些评价模式的共同特点就是在评价中不只是单纯从评价者的需要出发,而是考 虑到所有参与人的需要,强调个体的经验、活动和主观认识的作用,不过分追求客观化, 并试图摒弃数量特征,而是从人的角度出发,重视人文社会科学方法在评价中的运用。 如应答评价模式的应答,就是让评价对象和其他与评价有关人员提出他们关心的问题, 并表达他们各自的意见,在评价过程中,评价者的职责就是把收集到这些资料与众人讨 论,并以磋商的形式,逐渐消除分歧,最近达成共同的、公认的、统一的观点。 第二章 教育测量的基本问题(添加内容) 一、测验必须注意的问题 我们前面已经说过,教育测量实际上是基于心理结构的分析而进行的间接测查,这 一特点给相应的测量工具的设计带来了几个难题,如人事部门的一位心理学家想编制用 于测试某工厂求职人员机械能力的测验,一位学校心理学家想编制教师对身体残疾学生 的态度量表,一位教师想编制一套五年级学生解答多位数除法技能的单元测验.这 里,每个人要测的东西结构上完全不同,那么应该怎么来设计呢? 其实,对于所有的心理测评,测验编制者至少要考虑五个问题: 首先,对任何结构的测量不存在普遍认同的一种方法,因为对某种心理结构的测量 总是建立在被认为与该结构相关的行为研究的基础上间接进行的,当人们谈到同一结构 时却往往选择不同类型的行为给该结构下操作性定义,也可能要求学生解答一系列问 题,也可能要求学生写出每一步的结果,也可能要求他们找出答错的题目中的错误,也 可能要求学生用多种方法解答,因而不同的操作性定义会得出不同的测量程序,这又很 可能导致对学生知识水平的不同评价。 其次,心理测量通常是基于有限的行为样组的。我们不可能考核所有我们要考查的 行为,只能从其中抽样,这就涉及测量题目的数量和内容广度,这是产生一个良好测量 的最主要的步骤。 第三,测量的结果总人受到误差的影响。 第四,测量量表缺乏定义清晰的单位。受测者未能回答出多位数除法测验的任一测 题是否意味着他们没有这种技能?如果一位同学答对了 5 个题,另一同学答对了 10 个 题,第三位同学答对了 15 道题,是否能认为前两位同学之间的差异与第二、三位同学 之间的差异一样呢?三个学生在测验所测验的能力连续体上的差距是否相等? 第五,心理结构不能仅以操作定义来界定,还必须说明它与其他结构或可观察现象 间的关系。虽然心理测量建立在可观察到的反应基础之上,但只有它能够按照所依赖的 理论结构进行合理解释时,它才具有意义。因此(1)必须根据可观察行为来界定结构, 这类定义具体说明了如何进行测量;(2)必须在理论系统内根据它与别的结构间的逻辑 或数学关系来界定结构,这类定义为的获得的测量结果的解释提供了基础。 测验理论在研究和评估中的作用为了阐明测验理论在广义的研究和评估方法学中 的作用,把教育和社会科学研究看作是由几个明确界定的步骤所组成的调查过程,将有 助于问题的说明。这个过程可以分为以下几个步骤: 1.简洁明白地陈述研究的问题或假设;