梧桐文学

第二 计算机化多阶段自适应测验设计(第2页)

天才一秒记住【梧桐文学】地址:https://www.wtwx.net

模块长度较短但自适应点较多时,也可达到较高的测量精度。

开发测验时,可以根据实际需要适当增加阶段一的模块长度或自适应点数量,以提升测验的测量精度。

四、统计目标与定性规范约束

测验开发者可以在阶段水平或整个测验水平上对题目选择进行约束。

无论哪种情况,都要考虑内容和统计约束,以及这些目标特征之间的平衡。

统计目标的选择是关键性问题。

测验开发者要决定题目的难度和范围,若使用IRT模型,还要考虑目标信息量和目标特征曲线。

这时的目标是使测验信息量达到最大。

阶段一中模块的统计特征对整个测验精度都有很大影响(Kim&Plake,1993)。

若阶段一中题目难度设置合理,将为最终的能力估计提供有力保障,使后续阶段的能力估计结果更加准确。

在题目设置上,测验开发者还要考虑内容平衡、题目间的独立性与依赖性等多种因素。

由于MST中题目的构建和组合可通过专家预先进行检查和调整,因此综合考虑以上这些因素即可排除测验中的诸多潜在问题。

五、计分方法(能力估计)

MST如何根据上一阶段的结果得到下一阶段的相应模块,这就涉及计分问题。

通常可以使用正确次数得分(,NC)或IRT潜在特质估计的方式计分。

若使用IRT理论,还要选择合适的模型进行参数估计。

通常使用的模型有逻辑斯蒂克模型、正态肩形曲线模型和等级反应模型(Birnbaum,1969;Bock,1972;Samejima,1968)。

对于共用题干的题目(如阅读理解),则可以使用多级IRT模型计分。

由于MST每个模块中的题目可作为题组来处理,因此也可使用题组反应模型计分。

由Wainer,Bradlow和Du(2000)开发的题组反应理论(TestletRespoheory)可进一步解决这个问题。

六、自适应策略与过程

自适应发生在测验的不同阶段之间。

根据前一阶段被试的作答结果,估算出临时的能力值,然后根据这个值为其选择下一阶段合适难度的模块,以此类推直到完成全部测验,并估计出最终的能力值。

测验过程中若是自适应点过少,则无法准确估计出被试能力。

若增加自适应点,将使MST面临和CAT一样的问题。

因此要配置适量的自适应点,使测验简洁又精确。

七、组卷

MST的题目需通过组卷后才可以应用。

组卷过程中应满足统计目标和定性规范,组卷完成后还需要由专家对其进行审定。

虽然对这些模块可采取手工组卷,但是由于组卷复杂性且试题量较大,大多数测验都选择自动化组卷技术(AutomatedTestAssembly,ATA)(Breithaupt&Hare,2007)。

这种ATA进程可以通过一些算法过程或者商业软件来实现。

MST中ATA的设计存在一些潜在难题,如题库大小、算法满足目标函数的潜力等。

这些目标在测验开始前均已实现。

因此,这种系统化的组卷方式使测验更加标准化,也可更好地达到统计目标。

实现ATA的方法有标准化加权绝对离差算法(edAbsoluteDeviatioiWADH),0-1线性规划(LinearPr,LP)等(Linden&Adema,1998;Luecht,1998;Luegester,1998)。

本章未完,请点击下一章继续阅读!若浏览器显示没有新章节了,请尝试点击右上角↗️或右下角↘️的菜单,退出阅读模式即可,谢谢!

如遇章节错误,请点击报错(无需登陆)

新书推荐

电影空间黑粉五百万的影帝夫人又拽又凶柴刀流恋爱日常陵夭苍穹之上我真的没想当魔王啊侯门风华:拜见极品恶婆婆沈影帝的小甜妻七十年代掌中娇重生之学霸攻略被拉入群聊的创世神国民影后:老公,安分点!三国之上将邢道荣西游:大王不好,他又来抓食材了梦回大明春都市之大仙尊龙图案卷集·续重生之我是星二代镇国战神风水主播,一个关注全网官方慌了我在大明养生百年电影世界交换师仙酿师重生农女巧当家年代文中的小媳妇