第一概述（第1页）

天才一秒记住【梧桐文学】地址：https://www.wtwx.net

第一节概述

banner"

一、在线标定的概念

近二十年来，随着电子信息技术的突飞猛进，与新型电子科技结合的考试越来越多，很多传统的考试也都正向计算机化与自适应化方向发展。

随着考试设计越来越复杂、计算机自动化成分越来越多，考试的测量学模型也逐渐从传统的经典测量理论（CTT）转为了项目反应理论（IRT）。

与CTT相比，IRT可以为题目质量分析提供更多的具体信息。

更重要的是，IRT中估计考生能力水平的算法可以支持CAT中实时为每个考生选择不同考题的模式，而CTT无法支持这一模式。

这使IRT成了现代计算机化考试的必需。

当使用IRT创建和分析考试时，题目参数标定（ItemCalibration）是一个必不可少的环节。

题目参数标定指的是将某一选定的IRT模型与考生作答数据拟合，随后通过统计上的算法估计出题目参数的值。

现代考试很多都依赖大型题库，而题库中的每一道题，在使用和正式考试之前，都必须完成参数标定。

参数标定的准确性直接影响着被试能力估计（Sg）、等值（Equating）、项目功能差异分析的准确性，从而影响了考试的信度与效度。

对于长期施测的考试，随着时间的推移，题库中的一部分题目可能会出现过度曝光、内容过时陈旧或其他问题，而这部分题目需要被置换。

每隔一段时间，考试开发方会开发一部分新题，用于补充题库，而这些新题也需要完成参数标定。

那些大型的、高利害的考试对题库的质量要求相对较高，题库置换（ItemBa）的需求也相应较高。

对于这类考试，如何高效地、准确地完成参数标定，是一个重要的问题。

传统上，IRT参数估计需要通过专门的试测阶段完成。

考试开发方组织专门的试测，潜在考生自愿参与，获得的考分与正式成绩无关，收集的作答数据仅用于标定题目参数。

这种试测形式在开发一项新的考试时是必要的，然而在首轮考试正式启用后，后续的新题则可以嵌入正式考试中，用以收集数据。

美国的SAT考试一直使用这种嵌入式的试测模式。

每一次正式考试，都有一部分新题试测。

这些新题被分为若干等分，每一等分则被嵌入一部分考生的考卷中，这些新题的分数不计入考生的总分。

考生无法判断哪部分是试测题，因此收集的作答数据更接近于真实考试的数据。

然而，这也并不是最高效的参数标定模式。

当这种嵌入模式被运用到CAT中时，这种测试模式则被称为在线标定（Stog，1988）。

在线标定的原理与CAT的原理相似：在CAT中，计算机以优化考生能力参数估计效率为目标，为每一位考生选择一组“最佳试题”

；而在在线标定中，计算机以优化题目参数估计效率为目标，为每一道测试题选择一系列“最佳考生样本”

。

本章未完，请点击下一章继续阅读！若浏览器显示没有新章节了，请尝试点击右上角↗️或右下角↘️的菜单，退出阅读模式即可，谢谢！

第一 概述（第1页）