第二计算机化多阶段自适应测验设计（第2页）

天才一秒记住【梧桐文学】地址：https://www.wtwx.net

模块长度较短但自适应点较多时，也可达到较高的测量精度。

开发测验时，可以根据实际需要适当增加阶段一的模块长度或自适应点数量，以提升测验的测量精度。

四、统计目标与定性规范约束

测验开发者可以在阶段水平或整个测验水平上对题目选择进行约束。

无论哪种情况，都要考虑内容和统计约束，以及这些目标特征之间的平衡。

统计目标的选择是关键性问题。

测验开发者要决定题目的难度和范围，若使用IRT模型，还要考虑目标信息量和目标特征曲线。

这时的目标是使测验信息量达到最大。

阶段一中模块的统计特征对整个测验精度都有很大影响（Kim＆Plake，1993）。

若阶段一中题目难度设置合理，将为最终的能力估计提供有力保障，使后续阶段的能力估计结果更加准确。

在题目设置上，测验开发者还要考虑内容平衡、题目间的独立性与依赖性等多种因素。

由于MST中题目的构建和组合可通过专家预先进行检查和调整，因此综合考虑以上这些因素即可排除测验中的诸多潜在问题。

五、计分方法（能力估计）

MST如何根据上一阶段的结果得到下一阶段的相应模块，这就涉及计分问题。

通常可以使用正确次数得分（，NC）或IRT潜在特质估计的方式计分。

若使用IRT理论，还要选择合适的模型进行参数估计。

通常使用的模型有逻辑斯蒂克模型、正态肩形曲线模型和等级反应模型（Birnbaum，1969；Bock，1972；Samejima，1968）。

对于共用题干的题目（如阅读理解），则可以使用多级IRT模型计分。

由于MST每个模块中的题目可作为题组来处理，因此也可使用题组反应模型计分。

由Wainer，Bradlow和Du（2000）开发的题组反应理论（TestletRespoheory）可进一步解决这个问题。

六、自适应策略与过程

自适应发生在测验的不同阶段之间。

根据前一阶段被试的作答结果，估算出临时的能力值，然后根据这个值为其选择下一阶段合适难度的模块，以此类推直到完成全部测验，并估计出最终的能力值。

测验过程中若是自适应点过少，则无法准确估计出被试能力。

若增加自适应点，将使MST面临和CAT一样的问题。

因此要配置适量的自适应点，使测验简洁又精确。

七、组卷

MST的题目需通过组卷后才可以应用。

组卷过程中应满足统计目标和定性规范，组卷完成后还需要由专家对其进行审定。

虽然对这些模块可采取手工组卷，但是由于组卷复杂性且试题量较大，大多数测验都选择自动化组卷技术（AutomatedTestAssembly，ATA）（Breithaupt＆Hare，2007）。

这种ATA进程可以通过一些算法过程或者商业软件来实现。

MST中ATA的设计存在一些潜在难题，如题库大小、算法满足目标函数的潜力等。

这些目标在测验开始前均已实现。

因此，这种系统化的组卷方式使测验更加标准化，也可更好地达到统计目标。

实现ATA的方法有标准化加权绝对离差算法（edAbsoluteDeviatioiWADH），0-1线性规划（LinearPr，LP）等（Linden＆Adema，1998；Luecht，1998；Luegester，1998）。

本章未完，请点击下一章继续阅读！若浏览器显示没有新章节了，请尝试点击右上角↗️或右下角↘️的菜单，退出阅读模式即可，谢谢！

第二 计算机化多阶段自适应测验设计（第2页）