天才一秒记住【梧桐文学】地址:https://www.wtwx.net
从目前的计算机化测验研究与应用的现状来看,这个分类框架在发表的时候不仅仅是在计算机化测验大发展时期的一个“初步的总结”
,更像是一个对未来的发展预测。
此后,CAT中的几个重要研究问题陆续出现,特别是几个重大的实际应用项目(ASVAB、GRE等)展示了CAT的优势,也提出了更多更新的研究问题。
这些重要的研究问题包括选题法中的项目曝光问题(Leung,g&Hau,2002;,&Ying,2001;g&Ying,1999;Sympsoer,1985),内容平衡(g,Douglas&Guo,2009;g&Yi,2007;vanderLinden&g,2003),多维IRTg&g,2011;Wang&p&vanderLinden,2002;vanderLinden,1999)和CAT的数学原理(g,2014;g&Ying,2009)等。
这些研究大大加深了测量界对计算机化测验的理解,并且使计算机化测验成为心理测量领域的一个热门的分支,成为高利害测验的重要形式之一。
连续测量可以看作CD-CAT的一个初级版本。
它利用计算机化测验的施测优势,在学习过程中的几个关键点进行多次测评,但是它与CD-CAT有两个区别:第一,它更加强调监测(M)的功能,而不是提供教学意见;第二,它缺乏实现诊断功能的心理测量理论的支持。
Bunderson等人(1988)就指出当时的连续测评并没有完全实现,因为它没有实现多维的测量。
但是这个空白可以被认知诊断理论填补。
各类CDM已经成熟,目前已经出现基于CDM的大型题库,研究者也已经开始着手研究CD-CAT的选题法以及测量精度,非统计约束(项目曝光度、内容平衡),同时获得总分与诊断信息等问题。
详细综述参见(Zheng,2015)。
第四代计算机化测试是智慧学习的原型,其目标是实现诊断与学习的一体化,为个性化学习(包括补习计划与资优生学习计划)提供教学意见。
Bunderson等人(1988)中使用的例子是由计算机领域提出的专家辅导系统(ExpertTutorSystems),同时他们也指出由于计算机界与心理测量界的隔阂,这些系统缺乏心理测量理论的支撑,而心理测量学家也似乎不能为这些系统提供足够的支持。
Snow和Mandinach(1991)也注意到了这样的现象。
两者的结合才是智能测评的关键。
CD-CAT是解决这个问题的方法之一,它可以作为一个智能化学习的驱动引擎或者是导航员,利用智慧测评来制定个性化学习的流程。
(二)四代计算机化施测系统的特征总结
1.计算机控制过程
四代计算机化施测系统的计算机功能要求非常类似。
它们都要求计算机控制的测试过程,快速的评分与分数报告,都能够充分利用计算机优势呈现新型的项目,采用新的作答收集方法,都要求能够存储大量的信息用于测试,还有计算机的网络化功能。
第一代计算机化测验不要求具备一个可以进行快速计算的处理器,因为它不需要针对每一个项目计算有关的选题指标。
第三代计算机化测验系统增加了计算机化辅助教学中的呈现、收集作答与信息处理功能。
在第四代计算机化测验系统中,测验已经融入教学,成为教学自然的一部分,避免了对教学的干扰。
基于大数据方法的人工智能有可能实现更加复杂的评分、解读与学习建议任务。
2.测量理论
它们的测量理论基础也存在差异。
第一代测验系统主要以经典测量理论为主,或者没有使用任何的测量理论。
设计实施第一代测验系统的人往往都没有经过必要的心理测量训练,只是对计算机交互比较熟悉。
他们不关心甚至不知道信度、效度、计算机化测验与纸笔测验等价性的测量问题,往往只要测试具有较高的表面效度就足够了。
第二代已经高级的计算化具有坚实的测量学理论支撑。
第二代已经使用各种项目反应理论来计算客观的信息函数指标来选择项目,为每位考生进行“定制式”
的测评。
第三代利用各种认知诊断理论模型提供更加详尽的诊断信息。
第四代则需要利用考虑如何把大数据技术与各种测量理论模型的结合,甚至需要提出更加高级的模型把两者统合起来。
3.测量功能的总结
各代之间在考试施测过程上没有很大的差异,主要差异体现在计算机系统参与结果解读的程度。
本章未完,请点击下一章继续阅读!若浏览器显示没有新章节了,请尝试点击右上角↗️或右下角↘️的菜单,退出阅读模式即可,谢谢!