天才一秒记住【梧桐文学】地址:https://www.wtwx.net
模块长度较短但自适应点较多时,也可达到较高的测量精度。
开发测验时,可以根据实际需要适当增加阶段一的模块长度或自适应点数量,以提升测验的测量精度。
四、统计目标与定性规范约束
测验开发者可以在阶段水平或整个测验水平上对题目选择进行约束。
无论哪种情况,都要考虑内容和统计约束,以及这些目标特征之间的平衡。
统计目标的选择是关键性问题。
测验开发者要决定题目的难度和范围,若使用IRT模型,还要考虑目标信息量和目标特征曲线。
这时的目标是使测验信息量达到最大。
阶段一中模块的统计特征对整个测验精度都有很大影响(Kim&Plake,1993)。
若阶段一中题目难度设置合理,将为最终的能力估计提供有力保障,使后续阶段的能力估计结果更加准确。
在题目设置上,测验开发者还要考虑内容平衡、题目间的独立性与依赖性等多种因素。
由于MST中题目的构建和组合可通过专家预先进行检查和调整,因此综合考虑以上这些因素即可排除测验中的诸多潜在问题。
五、计分方法(能力估计)
MST如何根据上一阶段的结果得到下一阶段的相应模块,这就涉及计分问题。
通常可以使用正确次数得分(,NC)或IRT潜在特质估计的方式计分。
若使用IRT理论,还要选择合适的模型进行参数估计。
通常使用的模型有逻辑斯蒂克模型、正态肩形曲线模型和等级反应模型(Birnbaum,1969;Bock,1972;Samejima,1968)。
对于共用题干的题目(如阅读理解),则可以使用多级IRT模型计分。
由于MST每个模块中的题目可作为题组来处理,因此也可使用题组反应模型计分。
由Wainer,Bradlow和Du(2000)开发的题组反应理论(TestletRespoheory)可进一步解决这个问题。
六、自适应策略与过程
自适应发生在测验的不同阶段之间。
根据前一阶段被试的作答结果,估算出临时的能力值,然后根据这个值为其选择下一阶段合适难度的模块,以此类推直到完成全部测验,并估计出最终的能力值。
测验过程中若是自适应点过少,则无法准确估计出被试能力。
若增加自适应点,将使MST面临和CAT一样的问题。
因此要配置适量的自适应点,使测验简洁又精确。
七、组卷
MST的题目需通过组卷后才可以应用。
组卷过程中应满足统计目标和定性规范,组卷完成后还需要由专家对其进行审定。
虽然对这些模块可采取手工组卷,但是由于组卷复杂性且试题量较大,大多数测验都选择自动化组卷技术(AutomatedTestAssembly,ATA)(Breithaupt&Hare,2007)。
这种ATA进程可以通过一些算法过程或者商业软件来实现。
MST中ATA的设计存在一些潜在难题,如题库大小、算法满足目标函数的潜力等。
这些目标在测验开始前均已实现。
因此,这种系统化的组卷方式使测验更加标准化,也可更好地达到统计目标。
实现ATA的方法有标准化加权绝对离差算法(edAbsoluteDeviatioiWADH),0-1线性规划(LinearPr,LP)等(Linden&Adema,1998;Luecht,1998;Luegester,1998)。
本章未完,请点击下一章继续阅读!若浏览器显示没有新章节了,请尝试点击右上角↗️或右下角↘️的菜单,退出阅读模式即可,谢谢!