第三节题库 反映现代编制数学测验技术的题库理论和它的应用,主要涉及题库的 意义、题库建设、利用题库生成数学测验题这三个方面的内容。 、题库的意义 20世纪中叶,迅猛发展的世界经济迫使人们寻找编制测验的新技术 以保证客观、准确、及时地选拔人才,题库正是顺应这一时代潮流需要的 产物。题库的建立使编制测验技术发生了根本性的变革。在已建立的不同 级别、不同类型题库的实践中,已显示了题库的优越性。 1.题库的概念 题库是带有必要参数的大量题目的有机组合。按建设题库的主管单位 划分,有国家级、省级、校级等题库;按其生成测验题的能力,则可分为 只能生成一种测试性质的单功能题库,以及能生成两种或两种以上测试性 质的多功能题库;按构成题库的学科可分为单分支学科题库和多分支学科 题库;按接受测试的对象来分,则有适宜于各级、各类在校学生与适用于 非在校人员的题库。容量小的题库往往只有单功能,而国家级和省级题库 般具有多种功能。 题库除了能完成建库所规定的任务外,还应符合如下标准: (1)高效、经济、保密、易于管理; (2)库题的质量应是较高的,能预控,且等值可比; (3)题库应便于技术上的维修,并不断完善和增加新库题,具有根据 考试水平的变化及时修改库题的参数值的能力。 2.建立题库的基本条件 建立题库一般应具备如下基本条件: (1)有一个成熟、稳定、明确的考试大钢。这个大纲应对不同性质 层次和目的考试的内容、能力要求,考试方式和对象作出明确说明,以便 明确库题的内容、题型、权重和完成时量,避免构造无效库题。 (2)有一个命题和审题的专门队伍。命题的专门队伍由职业专家和兼 职人员(有关学科的教师和爱好者)组成,其任务是根据考纲拟造题目。而 审题班子,则是由各种测评专家和经验丰富的教师组成的,鉴定题目能否 入库的具有决定性的权威组织。 (3)有科学有效地测试拟入库题指标的方法。对于一个题目,必须判 明其适宜性、难度、区分度、及格要求度、信息函数值等才能决断该题能
第三节 题库 反映现代编制数学测验技术的题库理论和它的应用,主要涉及题库的 意义、题库建设、利用题库生成数学测验题这三个方面的内容。 一、题库的意义 20 世纪中叶,迅猛发展的世界经济迫使人们寻找编制测验的新技术, 以保证客观、准确、及时地选拔人才,题库正是顺应这一时代潮流需要的 产物。题库的建立使编制测验技术发生了根本性的变革。在已建立的不同 级别、不同类型题库的实践中,已显示了题库的优越性。 1.题库的概念 题库是带有必要参数的大量题目的有机组合。按建设题库的主管单位 划分,有国家级、省级、校级等题库;按其生成测验题的能力,则可分为 只能生成一种测试性质的单功能题库,以及能生成两种或两种以上测试性 质的多功能题库;按构成题库的学科可分为单分支学科题库和多分支学科 题库;按接受测试的对象来分,则有适宜于各级、各类在校学生与适用于 非在校人员的题库。容量小的题库往往只有单功能,而国家级和省级题库 一般具有多种功能。 题库除了能完成建库所规定的任务外,还应符合如下标准: (1)高效、经济、保密、易于管理; (2)库题的质量应是较高的,能预控,且等值可比; (3)题库应便于技术上的维修,并不断完善和增加新库题,具有根据 考试水平的变化及时修改库题的参数值的能力。 2.建立题库的基本条件 建立题库一般应具备如下基本条件: (1)有一个成熟、稳定、明确的考试大钢。这个大纲应对不同性质、 层次和目的考试的内容、能力要求,考试方式和对象作出明确说明,以便 明确库题的内容、题型、权重和完成时量,避免构造无效库题。 (2)有一个命题和审题的专门队伍。命题的专门队伍由职业专家和兼 职人员(有关学科的教师和爱好者)组成,其任务是根据考纲拟造题目。而 审题班子,则是由各种测评专家和经验丰富的教师组成的,鉴定题目能否 入库的具有决定性的权威组织。 (3)有科学有效地测试拟入库题指标的方法。对于一个题目,必须判 明其适宜性、难度、区分度、及格要求度、信息函数值等才能决断该题能
否入库。目前,用经典测验理论(CT)建立的难度、区分度等指标法,在 建设题库时仍在使用:由项目反应理论(IRT)建立的适宜性、难度、区分 度、及格要求度、信息函数值等指标法,在一定场合下对确定库题也非常 有效。但由于CTˆ对样本依赖性强,而IRT对多级评分模型又不能直接使 用,所以建设题库的权宜之计是CTT与IRT并用。 (4)有建立库题的分类系统。为便于管理,对库题必须进行分类。分 类标准可以是知识结构,也可以是题目的指标值。整个分类系统由基本情 况(名称和索引、编制和使用情况、来源和加工情况等)、内容分类、试测 数据(指标状况)、答案等组成 (5)有大量的题目。校级单功能题库,一般实际考题数与库题数之比 不低于1:10,而省级、国家级的题库,按照多功能性的要求,其库题数 应逾万。 (6)有合理完善的保存库题的方法。无论是用题卡还是用计算机保存 库题,都必须完整地记载分类细目,而且要利于检索和管理。 二、题库的建设 建设题库,首先必须把好题目的入库关。题目入库后,还必须建立相 应的管理、维护和扩充题库的措施。 1.选择库题的标准 根据所建题库用于编制测验题的性质,CTT与IRT各有确定库题的标 (1)利用CTT确定库题 φ一系数法是用于CTT建立题库时的简单易行的确定库题的方法。通 常规定 其中PH表示成绩好的答对率,PL表示成绩差的答对率,当被测总数 N>30时,计算PH、PL的人数均取27N%,而 1 2(P+P 具体操作为
否入库。目前,用经典测验理论(CTT)建立的难度、区分度等指标法,在 建设题库时仍在使用;由项目反应理论(IRT)建立的适宜性、难度、区分 度、及格要求度、信息函数值等指标法,在一定场合下对确定库题也非常 有效。但由于 CTT 对样本依赖性强,而 IRT 对多级评分模型又不能直接使 用,所以建设题库的权宜之计是 CTT 与 IRT 并用。 (4)有建立库题的分类系统。为便于管理,对库题必须进行分类。分 类标准可以是知识结构,也可以是题目的指标值。整个分类系统由基本情 况(名称和索引、编制和使用情况、来源和加工情况等)、内容分类、试测 数据(指标状况)、答案等组成。 (5)有大量的题目。校级单功能题库,一般实际考题数与库题数之比 不低于 1∶10,而省级、国家级的题库,按照多功能性的要求,其库题数 应逾万。 (6)有合理完善的保存库题的方法。无论是用题卡还是用计算机保存 库题,都必须完整地记载分类细目,而且要利于检索和管理。 二、题库的建设 建设题库,首先必须把好题目的入库关。题目入库后,还必须建立相 应的管理、维护和扩充题库的措施。 1.选择库题的标准 根据所建题库用于编制测验题的性质,CTT 与 IRT 各有确定库题的标 准。 (1)利用 CTT 确定库题 φ-系数法是用于 CTT 建立题库时的简单易行的确定库题的方法。通 常规定 其中 PH表示成绩好的答对率,PL 表示成绩差的答对率,当被测总数 N>30 时,计算 PH、PL的人数均取 27N%,而 具体操作为:
第一步,求出φ。根据抽取的被试样本的测试结果,利用φ一系数公 式求出φ值 第二步,检验。利用 VM 27% 在0的道水平下,x=381,40=N当际求出的值大于 φoos,就可保证肯定性判断错误的可能性不超过5%。一般地,当φ≥0.5 时有较好的区分度。如图3-6,其阴影部分中的点(中,P所对应的题可 入选为库题。 题目过易 区分度 较低 「题目过难 0.5 图3-6 φ一系数法的精确性很大程度上依赖于被抽取的测试样本,而且等值 问题未能得到有效解决,对于库题的参数也未能予以充分揭示。尽管如此, 在建立小型题库(如校级题库)时,它仍不失为一种可行的方法。 (2)利用IRT确定库题 IRT是一种关于能力测量的理论。它的理论基础是能力单维性(每题 只测验一种能力),局部独立性(考生对测验各题的反应在统计上是独立 的),题目特征曲线(ICC),完成时间充分性(考生完成测验题的时间是足 够的)四个假设。它包括复杂程度不同的多个模型,目前被广泛使用的是 下面的逻辑斯蒂( logistic)模型。 三参数模型(其中难度b,区分度a,猜测因素c) ( 1-Ci exp[Da (8-b P3()=c1+ 2) xp[Da; 0-bi)]
第一步,求出φ。根据抽取的被试样本的测试结果,利用φ-系数公 式求出φ值。 第二步,检验。利用 大于 φ0.05,就可保证肯定性判断错误的可能性不超过 5%。一般地,当φ≥0.5 时有较好的区分度。如图 3-6,其阴影部分中的点(φ,P)所对应的题可 入选为库题。 φ-系数法的精确性很大程度上依赖于被抽取的测试样本,而且等值 问题未能得到有效解决,对于库题的参数也未能予以充分揭示。尽管如此, 在建立小型题库(如校级题库)时,它仍不失为一种可行的方法。 (2)利用 IRT 确定库题 IRT 是一种关于能力测量的理论。它的理论基础是能力单维性(每题 只测验一种能力),局部独立性(考生对测验各题的反应在统计上是独立 的),题目特征曲线(ICC),完成时间充分性(考生完成测验题的时间是足 够的)四个假设。它包括复杂程度不同的多个模型,目前被广泛使用的是 下面的逻辑斯蒂(logistic)模型。 三参数模型(其中难度 b,区分度 a,猜测因素 c)
二参数模型(其中难度b,区分度a) P2(8) exp[Dai (8-b,] 1+ exp[Da;(0-bi) 单参数模型(其中难度b)又称拉什( Rasch)模型 P1(e) D(-b1 p[D(8-b1)] 以上三个模型中参数取值的正常范围分别为:0≤a≤2,-3≤b≤3, 0≤c≤1,D=1.7(D被称为调整因子,是常数)。更精确的D值可取为 1.704。这里,P(θ)表示能力水平为θ的考生按第j种模型计算答对第i 题的概率,显然有 =0 P3(6)+P2(6) 对于单参数模型表示的能力和水平,可通过公式 P1( (f2-b1) 联系起来,这里fr为具有r分数考生的能力估计值,b为第i题的难 度估计值 规定题i对测验信息函数的贡献 I1(6) F2()Q1() 为题i的信息函数,这里只P′(0)为P(0)关于0的一阶导数, Q(0)=1-P(0) 利用IRT建设题库具有难度与样本无关、能力与题目无关的优点,便 于对题目和考生作适宜性检验,及研究整卷的效度、难度。由此建立的题 库易于扩充,并能根据考生水平调整库题的难度值。IRT在题库建设中有 多方面的应用 第一,估计能力参数θ与题目参数a、b、c
二参数模型(其中难度 b,区分度 a) 单参数模型(其中难度 b)又称拉什(Rasch)模型 以上三个模型中参数取值的正常范围分别为:0≤ai≤2,-3≤bi≤3, 0≤ci≤1,D=1.7(D 被称为调整因子,是常数)。更精确的 D 值可取为 1.704。这里,Pij(θ)表示能力水平为θ的考生按第 j 种模型计算答对第 i 题的概率,显然有 对于单参数模型表示的能力和水平,可通过公式 联系起来,这里 fr为具有 r 分数考生的能力估计值,bi为第 i 题的难 度估计值。 规定题 i 对测验信息函数的贡献 为题 i 的信息函数,这里只 P′i(θ)为 Pi(θ)关于θ的一阶导数, Qi(θ)=1-Pi(θ)。 利用 IRT 建设题库具有难度与样本无关、能力与题目无关的优点,便 于对题目和考生作适宜性检验,及研究整卷的效度、难度。由此建立的题 库易于扩充,并能根据考生水平调整库题的难度值。IRT 在题库建设中有 多方面的应用。 第一,估计能力参数θ与题目参数 a、b、c
对参数估计的研究一直是IRT研究的一个重要问题,已有的估计能力 参数0和题目参数a、b、c的方法有多种。下面用极大似然估计和近似估 计方法对逻辑斯蒂三参数模型的参数进行估计,可见求参数的一般过程。 先看逻辑斯蒂三参数模型参数的极大似然估计。 设被试样本容量为N,其个体能力水平为0(i=1,2,…,N),0= (θ1,θ2,…,θn),选取M道题目测试,第j(j=1,2,…,M)道题的 反应为u,u=(u1,u2,…,um),样本对题作出的反应概率为P(ul0), 利用IRT的局部独立性假设,有 P (ul 8) 记为 P(u38)=L L(u|0)就是极大似然函数。 利用极大似然估计可得: 能力参数估计式 0(i1=1,2, PiQu 题目参数估计式 [u:-F2D(63-b)Pp-=0, PuDar R,(P,-cj) PiQ = PiQj 这里Q=1一Pp,D=1.7,P=P(u|0),a=(at,a2,…,an),b= 根据0、a、b、c的初值以及上述3M+N个方程,用迭代法反复在θ 和a、b、c之间进行迭代,能按预定的精确度求出θ和a、b、c的值。若 将求解的过程设计成程序,可以用计算机求解
对参数估计的研究一直是 IRT 研究的一个重要问题,已有的估计能力 参数θ和题目参数 a、b、c 的方法有多种。下面用极大似然估计和近似估 计方法对逻辑斯蒂三参数模型的参数进行估计,可见求参数的一般过程。 先看逻辑斯蒂三参数模型参数的极大似然估计。 设被试样本容量为 N,其个体能力水平为θi(i=1,2,…,N),θ= (θ1,θ2,…,θn),选取 M 道题目测试,第 j(j=1,2,…,M)道题的 反应为 uj,u=(u1,u2,…,um),样本对题作出的反应概率为 P(u|θ), 利用 IRT 的局部独立性假设,有 L(u|θ)就是极大似然函数。 利用极大似然估计可得: 能力参数估计式 题目参数估计式 这里 Qji=1-Pji,D=1.7,Pji=P(uj|θi),a=(a1,a2,…,an),b= (b1,b2,…,bn),c=(c1,c2,…,cn)。 根据θ、a、b、c 的初值以及上述 3M+N 个方程,用迭代法反复在θ 和 a、b、c 之间进行迭代,能按预定的精确度求出θ和 a、b、c 的值。若 将求解的过程设计成程序,可以用计算机求解