第二单维二级评分模型下的在线标定（第2页）

天才一秒记住【梧桐文学】地址：https://www.wtwx.net

也就是说，D-optimal指标值越高，题目参数估计的误差越小，题目标定的效率越高。

1.早期文献：作为一种取样设计的在线标定

部分早期的在线标定文献（g＆Lu，2010；Jones＆Jin，1994；Zhu，2006）将在线标定等同于取样设计来处理，即直接借用最优设计的理论架构：以优化试测题参数估计效率为目标，寻找最优考生能力值样本。

他们考虑的情境与上文第一节第二部分描述的在线标定流程不同。

他们的设计是假设有一个“考生库”

可供试测题取样任意选用。

对于每一道试测题，最优样本标准的计算、样本的取得、题目参数的更新这三步循环进行。

而常用的最优样本标准是如下的D-optimal标准：对于一道已经有k-1个样本的题目j，选取第k个样本时，选取合适的考生能力值（θk）使其最大化如下：

其中第一部分是之前所有取得的样本为题目j的参数向量估计提供的Fisher信息量矩阵总和，第二部分是由θk值提供的信息量矩阵。

这里Fisher信息量的可加性是基于不同考生相互独立的假设。

有学者由上述原理延伸出更简单易行的一些指标（Berger，1992；Buyske，1998；g＆Lu，2010；Zhu，20er（1992）将2PL模型中的D-optimal指标简化为了题目的Logistic曲线上的第17.6和第82.4两个百分位。

基于这个设计，g和Lu（2010）的在线标定由两大步组成：

第一步，完成正式的CAT考试，为每一位考生估计能力值。

第二步，对于每一道试测题，选取第一步中能力估计值最接近于该题目临时参数值形成的Logistic曲线上的第17.6和第82.4两个百分位的考生，即和。

随后更新题目参数值，再取两个新样本，直到参数向量估计的置信椭圆体的最长轴长度小于某域限值。

而Buyske（1998）提出了以最终考生能力估计精确度为优化目标的L-optimal设计。

对于2PL模型，这等同于题目的Logistic曲线上的第25和第75两个百分位。

对于3PL模型，Buyske（1998）也提出了“三点设计”

。

Zhu（2006）用计算机模拟的方式比较了基于D-optimal和L-optimal的“两点设计”

，结果发现两种方法效果相似。

然而，如前文所述，以上这些直接基于最优设计理论的方法，在现实中是不可行的。

这些方法假设所有的考生形成一个“考生库”

，而库中的考生可以随时被任意选取作为题目标定的样本。

然而在真实的CAT情境下，考生在不同的自选时间来参加考试，他们作答试测题的时间也可能各自不同，并且时间窗口非常有限，难以形成一个考生库。

2.vanderLinden和Ren（2015）的贝叶斯D-optimal设计

vanderLinden和Ren（2015）提出了另一种在线标定的设计，同样基于D-optimal的统计指标，但整个流程的设计考虑了现实可行性。

他们的设计基本符合本章第一节第二部分中描述的流程。

考生可以在不同的时间参加CAT考试，而当某一考生在考试过程中到达了预定的试测题嵌入位置时，计算机取得该考生的能力估计值，而后为试测题库中的每一道试测题j计算出如下贝叶斯D-optimal指标值：

其中前一项中第一部分和后一项是该测试题之前已获取的所有样本的Fisher信息量矩阵的总和，前一项中第二部分是用考生目前能力估计值算出的该考生可以对该测试题参数估计提供的信息量。

请注意，在同一时间，测试题库中不同的题目已积累的样本量可以不同，因此公式中的k带有下标j。

这个设计，不再是在一个不现实的“考生库”

中比较考生，而是在试测题库中的题目之间进行比较，因而变得可行。

而被选取的试测题，也总是在所有试测题之中，可以生成上述贝叶斯D-optimal指标最大值的题目。

然而这种设计有一个潜在的问题：不同的试测题自身的统计质量是有高低之分的，质量较高的题目更容易生成较高的贝叶斯D-optimal指标值，而总被选取；质量较低的题目总是生成较低的贝叶斯D-optimal指标值，而一直不被选取。

图9-2-2举例说明了这种偏向优势。

图中第1题的参数值为a=2，b=1，c=0.2，第2题的参数值为a=1，b=0，c=0.25。

图中的曲线是61名考生为两道题分别生成的贝叶斯D-optimal指标值。

前60名考生的能力值是从正态分布中随机抽取的值，组成了公式（9.2.11）中前一项中的第一部分和后一项。

本章未完，请点击下一章继续阅读！若浏览器显示没有新章节了，请尝试点击右上角↗️或右下角↘️的菜单，退出阅读模式即可，谢谢！

第二 单维二级评分模型下的在线标定（第2页）