梧桐文学

第二 单维二级评分模型下的在线标定(第3页)

天才一秒记住【梧桐文学】地址:https://www.wtwx.net

第61名考生的能力值形成了图9-2-2中的横坐标,也构成了公式(9.2.11)中前一项中的第二部分。

很明显,对于这两道题,不论第61名考生的能力估计值在-3与3之间的什么水平,vanderLinden和Ren(2015)的贝叶斯D-optimal方法都将选择第一道题。

图9-2-2两道3PL题目的贝叶斯D-optimal指标值

在这种选题设计下,如果考试实施方在某一时间点统一终止所有试测,那么获取的试测题参数中可能会有一部分题因为取得很多样本而估计得非常精确,而另一部分题因为一直极少被选取而估计得非常不精确,甚至无法被标定。

另外,这种设计也可能导致试测题的难度与前后正式题目的难度存在唐突变化,而导致考生不必要的疑惑和焦虑,或者识别出试测题而影响作答动机。

3.Zheng(2014)的区间排序信息量优先权设计

针对上文所述的问题,Zheng(2014)提出了一个新的选题指标:区间排序信息量优先权指标(OrderedInfePriorityIndex,OIRPI)。

这一设计同样符合本章第一节第二部分中描述的在线标定基本流程:当某一考生在CAT考试过程中到达了预定的试测题嵌入位置时,计算机为试测题库中的每一道试测题计算出OIRPI指标的值,而后选取优先权最高的试测题呈现给考生。

这一指标衡量的是各试测题对当前考生的需求度,而该设计的核心思想在于对该需求度的定义:如果与其他考生可能提供的能力值相比,当前考生所拥有的能力值可以为某测试题的参数标定生成更大的信息量,那么说明这道试题对当前考生的需求量很高,因为如果这道试测错过了该考生的样本,那么之后出现的拥有其他能力值的考生只能提供相对较低的信息量。

OIRPI设计包含以下三大步骤。

第一步,将考生能力值合理范围划分为R个区间,取每个区间的中间值θr代表该区间。

一种划分方法是在能力值量尺上取等长区间;另一种划分方法是在相应百分位量尺上取等长区间,然后再转化成对应的能力值,这种转化可依照假设的能力值分布进行,也可依照之前考试的能力估计经验分布进行。

第二步,当某一考生在CAT考试中到达预定的试测题嵌入位置时,对试测题库中的每一道题j分别完成以下步骤,以获取各题的OIRPI指标值。

第二(1)步,为每个区间计算如下D-optimal指标值:

其中第一部分是之前所有取得的样本为题目j的参数向量估计提供的Fisher信息量矩阵总和,第二部分是由θr值提供的信息量矩阵。

第二(2)步,将该题所有能力区间上的Djr值内部标准化:

这里Sjr代表了该区间与其他区间相比,提供的信息量的相对大小。

第二(3)步,将当前考生能力估计值所在区间的Sjr值指定为该题的OIRPI指标值。

第三步,在所有的试测题OIRPI计算完成后,选取OIRPI值最高的题目,呈现给考生。

与vanderLindenandRen(2015)的贝叶斯D-optimal指标相比,贝叶斯D-optimal指标是将所有试测题产生的信息量相比较,可理解成“基于价值的指标”

;而OIRPI指标是将当前考生能力值与其他的能力值范围相比较,产生每一道试测题的需求度,可理解成“基于需求的指标”

与前者相同的是,OIRPI设计也同样存在试测题的难度与前后正式题目的难度有唐突变化的可能性。

4.Ali和g(2014)的适合度指标

Ali和g(2014)提出了另一种试测题选题法,命名为适合度指标(Suit-abilityIndex)。

他们的方法并没有用基于信息量的统计指标(如D-optimal指标),而是重点考虑控制每一道测试题在不同的考生能力值上的样本量。

他们的适合度指标定义如下:

其中

考生能力水平值范围被分为k个区间;对于测试题j,Tjk代表在区间k上的目标样本量,而tjk代表在区间k上的样本量,所以fjk代表了题目j在考生能力值区间k上的样本缺乏度。

而公式(9.2.14)取得k个区间上样本缺乏度的加权整合值(wk为权重),并与考生能力值与题目难度参数的接近度整合,形成了适合度指标。

这种设计理论上可以平衡在任一时间点上各试测题获取的样本量,是解决vanderLinden和Ren(2015)的贝叶斯D-optimal设计的潜在问题的方法之一。

另外,将考生能力值与题目难度参数的相配度列入考虑范围,理论上可能可以缓解嵌入试测题的难度与前后题目的难度存在唐突变化的问题,但实际上是否有效果值得验证。

而它的缺陷则在于适合度指标定义的主观性。

首先,Tjk和wk的选取完全由主观决定。

其次,对于样本的缺乏度以及考生能力值与题目难度参数的相配度的整合,适合度参数采用了简单相乘的方法。

这两种定义不同的量,取值的范围可能相差很大,但简单相乘的方法没有对不同的量级或两者间的重要性进行加权处理,可能过于简单化了。

这也会使人对指标中前半部分是否能够有效缓解嵌入试测题的难度与前后题目的难度唐突变化的问题产生疑问。

本章未完,请点击下一章继续阅读!若浏览器显示没有新章节了,请尝试点击右上角↗️或右下角↘️的菜单,退出阅读模式即可,谢谢!

如遇章节错误,请点击报错(无需登陆)

新书推荐

斯坦索姆神豪九零后天师一睁眼,我穿成两个熊孩子后娘桃桃乌龙满级大佬从斗罗开始重生后我成了全大陆最横的崽狂探我的重返2008我真不知道原来我家这么有钱斗破乾坤,龙王求亲请排队重生之惊羽夫人每天都被套路从水浒开始的好汉之旅星际第一女将极品赘婿八零之珠光宝气公子实在太正义了棋魂:随身阿尔法狗穿成反派的病美人妹妹[穿书]洪荒之太清问道袖藏天光破茧一剑倾国空间农女:团宠娇妻甜又飒权游:睡龙之怒