了评估该过程的每一步还要使用等级量表,对于所产生的教学的评价要用另外一种量表 显然,在某些情况下,过程是主要输出,很少考虑作品,认为只要重复这个过程,产品 就会不断得到改进。但是在其它的一些情况下,产品或结果可能是最重要的,学习者所采用 的过程倒并不重要。作为设计师,你必须既能开发出传统的考试题,也要能开发出其他创新 的评估方式,如观察表格、等级打分评价方式等。在这一节里,要介绍一些开发这样的量表 所使用的方法 编写操作说明指导学习者行为表现和作品的指示要清楚地说明学习者要做什么、怎么 做,要说明所需要的特殊条件,如资源和时间限制。在编写操作说明时,还要考虑要提供的 指示的多寡。一般来说,操作说明要能够提醒学习者做一些特定的步骤,并告诉他们将要用 来评估他们工作的标准。在象写一篇研究报告或做一个讲演这样的例子中,被测试者应该得 到一份评估核查表或用来评判他们工作的评分表,这些资料应该是操作说明的一部分;但是 在另外的场合(如要回答一个论述题,或换轮胎),提供这样的指示就违背了考试的宗旨 你可以用来决定指示数量多寡合适的因素包括:要评测的技能特点,技能的复杂性,目标学 习者的思辨水平,以及在环境分析中所确定的技能要迁移到的应用环境的特点 测试态度的说明与测定行为和作品的说明不同,为了精确测定态度,重要的是被测试者 要能够感到自己是“自由地”根据自己的态度来选择行为的,那些知道自己被人观察的测试 者是不太可能展示出反映他们态度的行为的。 但是在许多工作场合偷偷摸摸地观察雇员会引发很多问题。在雇员和雇主之间经常会就 谁被评估、谁能做评估、评估什么、雇员是否要被事先通知、数据会怎么被使用等方面签署 协议。即使有这些可以理解的条件限制,有时候也还是可以通过计划和事先协议来创建一个 环境,在其间可以对态度进行合理地评估 开发量表除了为学习者编写操作说明之外,你还需要开发一个评分表格来指导对行为 表现、作品或态度的评估。开发这样的量表要经历五个步骤: 1.确定要评估的要素 2.重新表述每个要素 3.在量表中安排各要素的顺序 4.选择评估人员要做的判断类型 5.决定量表如何计分 确定、表述和顺序化量表要素与考试题类似,要评判的要素直接取自行为目标中的行 为。这些要素的类型包括作品或行为的物理形态方面、作品或行为的用途,作品和行为的美 感等等。你要保证所选择的要素实际是可以从行为或作品中观察到的。 每个要素都要在量表中重新表述。因为观察和打分的时间有限,特别在观察现场表演时 更是如此。过长的描述,象教学目标中的那些描述,会妨碍评估过程。一般来说只要用一两 个词组,表示过程的步骤、产品、行为的某些方面,从而达到与评估者沟通的目的即可。在 表述的时候,还要注意每个词表述方式的一致性,这样评估者给“是”就表示是正面输出, “否”就为负面输出。请看下面这个关于口头讲演的例子 不正确 是否正确 是否
了评估该过程的每一步还要使用等级量表,对于所产生的教学的评价要用另外一种量表。 显然,在某些情况下,过程是主要输出,很少考虑作品,认为只要重复这个过程,产品 就会不断得到改进。但是在其它的一些情况下,产品或结果可能是最重要的,学习者所采用 的过程倒并不重要。作为设计师,你必须既能开发出传统的考试题,也要能开发出其他创新 的评估方式,如观察表格、等级打分评价方式等。在这一节里,要介绍一些开发这样的量表 所使用的方法。 编写操作说明 指导学习者行为表现和作品的指示要清楚地说明学习者要做什么、怎么 做,要说明所需要的特殊条件,如资源和时间限制。在编写操作说明时,还要考虑要提供的 指示的多寡。一般来说,操作说明要能够提醒学习者做一些特定的步骤,并告诉他们将要用 来评估他们工作的标准。在象写一篇研究报告或做一个讲演这样的例子中,被测试者应该得 到一份评估核查表或用来评判他们工作的评分表,这些资料应该是操作说明的一部分;但是 在另外的场合(如要回答一个论述题,或换轮胎),提供这样的指示就违背了考试的宗旨。 你可以用来决定指示数量多寡合适的因素包括:要评测的技能特点,技能的复杂性,目标学 习者的思辨水平,以及在环境分析中所确定的技能要迁移到的应用环境的特点。 测试态度的说明与测定行为和作品的说明不同,为了精确测定态度,重要的是被测试者 要能够感到自己是“自由地”根据自己的态度来选择行为的,那些知道自己被人观察的测试 者是不太可能展示出反映他们态度的行为的。 但是在许多工作场合偷偷摸摸地观察雇员会引发很多问题。在雇员和雇主之间经常会就 谁被评估、谁能做评估、评估什么、雇员是否要被事先通知、数据会怎么被使用等方面签署 协议。即使有这些可以理解的条件限制,有时候也还是可以通过计划和事先协议来创建一个 环境,在其间可以对态度进行合理地评估。 开发量表 除了为学习者编写操作说明之外,你还需要开发一个评分表格来指导对行为 表现、作品或态度的评估。开发这样的量表要经历五个步骤: 1. 确定要评估的要素 2. 重新表述每个要素 3. 在量表中安排各要素的顺序 4. 选择评估人员要做的判断类型 5. 决定量表如何计分 确定、表述和顺序化量表要素 与考试题类似,要评判的要素直接取自行为目标中的行 为。这些要素的类型包括作品或行为的物理形态方面、作品或行为的用途,作品和行为的美 感等等。你要保证所选择的要素实际是可以从行为或作品中观察到的。 每个要素都要在量表中重新表述。因为观察和打分的时间有限,特别在观察现场表演时 更是如此。过长的描述,象教学目标中的那些描述,会妨碍评估过程。一般来说只要用一两 个词组,表示过程的步骤、产品、行为的某些方面,从而达到与评估者沟通的目的即可。在 表述的时候,还要注意每个词表述方式的一致性,这样评估者给“是”就表示是正面输出, “否”就为负面输出。请看下面这个关于口头讲演的例子: 不正确 是 否 正确 是 否
不能维持视觉接触 1.保持视觉接触 2.有“嗯啊”停顿 2.防止“嗯啊”停顿 3.忘了想法 3.能记住想法 在表达不正确的例子中,行为的表述混淆了正面和负面的输出,这会很难计分。在表达 正确的列表中,这些项的措辞做到了:“是”表示正面评判,“否”表示否定评判,这种一致 性便于累计“是”项,从而得到行为或作品质量的总得分。 在确定了要素表述之后,下一步就是安排要素在量表中的顺序。要素的顺序应该与事件 发生的自然顺序一致,如果有这样的顺序的话。例如,一篇短文或段落的评估核查表要包括 这些内容,首先是引言,其次是立论观点,最后是结论。换轮胎的时间顺序也会被用来作为 其核查表中各步骤的顺序。银行柜员行为的最有效的顺序毫无疑问是先与顾客打招呼,处理 业务,最后结束交易。一般来说,目的分析得到的顺序可以用来建议各评判要素的顺序。 设计评判格式开发测量行为表现、作品或态度量表的第四个活动是决定评估人员会怎 样做出评价,会怎么记录评价。评估人员常用的评估量表至少有三种:核查表(如,是或否)、 记录不同质量等级的等级量表(如,差、中、好)、记录每个要素出现次数的频数计数表, 或者是上述表格的混合。要确定最佳的评估格式需要考虑下面几个因素:(1)所观察要素和 复杂度,(2)观察时间、判断时间和记录判断的时间,(3)评估人员做出评判的准确性或 致性:(4)向被考者提供的反馈的质量 核查表三种评判量表中最基本的是核查表。如果你选择采用核查表,你可以很容易就 完成你的评估量表:在每个要被观察的已经表述好的并且顺序化的要素旁边增加两列,一列 用来在每个要素出现时标记“是”,另一列为“否”,表示要素没有出现或者表现不充分。核 查表的好处是包含了许多不同的要素,这些要素可以在给定的时间内由评估人员以可能完成 的速度完成观察,可以保证所做评价的一致性或可靠性,便于获得整个行为的分数。核查表 的一个不足是没有信息说明为什么会出现不做判断的情况。 等级量表如果存在着不同的质量等级,核查表就可以通过增加每个要素的质量等级数 目而转换为一个等级量表。等级量表不是用两列来为一个元素计分,而是至少使用三列,这 三列包括“不出现(0)”、“出现(1)”和“好(2)”,或者“差(0)”“中(1)”、“好(2)” 是将(或(1)作为最低档取决于是否所判断的要素可以完全从作品或行为中忽略,例如, 某种程度的视觉接触会出现在讲演报告中,最低级别应该是1,但是一个段落,可能完全没 有结束语句,那么在这种情况下就应该得0分,计分档次的确定取决于要判断的要素的特点。 类似于核查表,等级量表有好的一面也有不好的一面。从好的一面来看,它们可以分析 评价行为表演或作品的子成分。对于被评估者来说,等级量表比核查表提供了更多关于他们 的行为质量方面的信息。从不好的一面来说,等级量表使用起来比较费时间,因为要对所评 价的每个要素的质量做更细的区分。另外,它们所提供的分数的可靠性也不如核查表,特别 是当包含了较多的质量级别时,这一方面是可能没有时间进行区分,另一方面也很难保证评 分的一致性。试想如果有一个等级量表每个要素有10个不同的质量级别,那么等级3和4 或者等级6和7的区别该如何精确定义?要评估的维度太多必然给评估人员以及评估人员之 间的评判造成不一致 在开发等级量表时有两种策略可以帮助产生更可靠的等级评定,第一条策略是为每个质 量水平提供一个清楚的言语描述。不是简单地用数字表示类别,也不是用“(1)差,(2)中, (3)好”这样的一般性描述,而是用更精确的语言描述每个质量层次的评判标准,请看下 面的例子,这是一个关于段落中主题句的例子:
1.不能维持视觉接触 1.保持视觉接触 2.有“嗯啊”停顿 2.防止“嗯啊”停顿 3.忘了想法 3.能记住想法 在表达不正确的例子中,行为的表述混淆了正面和负面的输出,这会很难计分。在表达 正确的列表中,这些项的措辞做到了:“是”表示正面评判,“否”表示否定评判,这种一致 性便于累计“是”项,从而得到行为或作品质量的总得分。 在确定了要素表述之后,下一步就是安排要素在量表中的顺序。要素的顺序应该与事件 发生的自然顺序一致,如果有这样的顺序的话。例如,一篇短文或段落的评估核查表要包括 这些内容,首先是引言,其次是立论观点,最后是结论。换轮胎的时间顺序也会被用来作为 其核查表中各步骤的顺序。银行柜员行为的最有效的顺序毫无疑问是先与顾客打招呼,处理 业务,最后结束交易。一般来说,目的分析得到的顺序可以用来建议各评判要素的顺序。 设计评判格式 开发测量行为表现、作品或态度量表的第四个活动是决定评估人员会怎 样做出评价,会怎么记录评价。评估人员常用的评估量表至少有三种:核查表(如,是或否)、 记录不同质量等级的等级量表(如,差、中、好)、记录每个要素出现次数的频数计数表, 或者是上述表格的混合。要确定最佳的评估格式需要考虑下面几个因素:(1)所观察要素和 复杂度,(2)观察时间、判断时间和记录判断的时间,(3)评估人员做出评判的准确性或一 致性;(4)向被考者提供的反馈的质量 核查表 三种评判量表中最基本的是核查表。如果你选择采用核查表,你可以很容易就 完成你的评估量表:在每个要被观察的已经表述好的并且顺序化的要素旁边增加两列,一列 用来在每个要素出现时标记“是”,另一列为“否”,表示要素没有出现或者表现不充分。核 查表的好处是包含了许多不同的要素,这些要素可以在给定的时间内由评估人员以可能完成 的速度完成观察,可以保证所做评价的一致性或可靠性,便于获得整个行为的分数。核查表 的一个不足是没有信息说明为什么会出现不做判断的情况。 等级量表 如果存在着不同的质量等级,核查表就可以通过增加每个要素的质量等级数 目而转换为一个等级量表。等级量表不是用两列来为一个元素计分,而是至少使用三列,这 三列包括“不出现(0)”、“出现(1)”和“好(2)”,或者“差(0)”、“中(1)”、“好(2)”。 是将(0)或(1)作为最低档取决于是否所判断的要素可以完全从作品或行为中忽略,例如, 某种程度的视觉接触会出现在讲演报告中,最低级别应该是 1,但是一个段落,可能完全没 有结束语句,那么在这种情况下就应该得 0 分,计分档次的确定取决于要判断的要素的特点。 类似于核查表,等级量表有好的一面也有不好的一面。从好的一面来看,它们可以分析 评价行为表演或作品的子成分。对于被评估者来说,等级量表比核查表提供了更多关于他们 的行为质量方面的信息。从不好的一面来说,等级量表使用起来比较费时间,因为要对所评 价的每个要素的质量做更细的区分。另外,它们所提供的分数的可靠性也不如核查表,特别 是当包含了较多的质量级别时,这一方面是可能没有时间进行区分,另一方面也很难保证评 分的一致性。试想如果有一个等级量表每个要素有 10 个不同的质量级别,那么等级 3 和 4 或者等级6和7的区别该如何精确定义?要评估的维度太多必然给评估人员以及评估人员之 间的评判造成不一致。 在开发等级量表时有两种策略可以帮助产生更可靠的等级评定,第一条策略是为每个质 量水平提供一个清楚的言语描述。不是简单地用数字表示类别,也不是用“(1)差,(2)中, (3)好”这样的一般性描述,而是用更精确的语言描述每个质量层次的评判标准,请看下 面的例子,这是一个关于段落中主题句的例子: