考试是一门科学,有自己的理论基础。在考试日益受到高度关注的社会背景下,加强考试科学知识的普及应该是一种责任。为此编制了考试的测量基础知识,包括经典测量理论、项目反应理论、认知诊断理论、概括理论、难度、区分度、信度、效度、等价性、校准等。
经典测量理论是出现最早、发展最久、对实际工作影响最广、人们最熟悉的心理测量学理论。1950年,美国学者Gulliksen 《心理测验的理论》的出版标志着CTT的成熟。
根据CTT理论,测量结果不可能是完全没有误差的真值,只能得到包含测量误差的观测分数。所以CTT假设观察分数和真实分数之间是线性关系,观察分数是真实分数和误差之和,这样就形成了CTT的模型:X=T E,比如小明在一张数学试卷上得了80分,80分就是观察分数。
因为公式中有两个未知变量,除非做一些简单的假设,否则这个公式是无法求解的。CTT的假设是测量误差是随机的,服从均值为零的正态分布;受试者的平均误差为零;平行测试的错误分数是不相关的。
经典的测量理论建立在真实分数假设的基础上,主要包括信度、效度、项目分析、常模、标准化等。在按照CTT的框架编制和测试心理测验时,最重要的任务是通过测验各方面的各种方法和技巧,使测验误差最小化,从而提高测验的信度,即信度。
经典测量理论因其模型简单、易于理解而被广泛应用于心理和教育测量领域,并做出了巨大贡献。其不足之处在于:统计学的样本依赖性,效度、信度、难度、区分度等参数的估计高度依赖样本,需要强调样本对总体的代表性。测量分数的考试依赖性,由于难以建立“平行试卷”,测量同一能力的两个不同考试上的分数可比性较差。信度估计的不准确性,CTT假设对于不同能力水平的被试,测量误差是相同的,但实际上,一个测验只有对能力水平和难度相近的被试施测,才容易获得较高的测量准确度。
项目反应理论的基本思想起源于20世纪30年代末40年代初。1952年,美国心理测量学家Lord首次提出了项目反应模型,即双参数正态椭圆模型,这标志着IRT的正式诞生。1957年和1958年,美国数学统计学家伯恩鲍姆(birnbaum)用数学上更容易处理的logistic曲线代替了洛德的正态椭圆曲线。丹麦数学家和统计学家拉什于1960年提出了著名的单参数模型——Rasch模型。之后,他的学生赖特应用并推广了拉希模型,使IRT在发展方向上走出了另一条路。20世纪七八十年代,项目反应理论迅速发展,IRT在试卷生成、项目功能差异、校准、等值、标准制定、考试评分和适应性考试中变得越来越不可或缺。
项目反应理论基于两个基本概念:1)考生在某个试题上的表现可以用一组因素来预测或解释,这些因素称为潜在特质或能力;2)考生的成绩与这组潜在特质之间的关系可以用一个连续递增的函数来解释,这个函数称为项目特征曲线,它在某个问题上正确回答的概率越大。
与CTT的弱假设不同,项目反应模型被称为强假设模型,因为它的前提假设非常严格。这些假设是:1)一维假设。即假设测试中的所有问题一起测量一个潜在特质,并且这个单一的潜在特质包含在所有的测试问题中。受试者在测试中的表现只能用一个潜在的特质来解释。2)局部独立性假设。即假设被测试者对试题的反应只受其自身的能力水平和试题的某些性质的影响,而不受他人或其对其他试题的反应的影响。也就是说,项目反应模型中包含的能力因素是影响被试对试题反应的唯一因素。3)单调性。即考生正确回答某个问题的概率随着其能力水平的提高而单调增加。一般来说,一维假设等价于局部独立性假设,局部独立性是一维假设的必然结果。
与经典的测量理论相比,项目反应理论至少具有以下优点:1)试题的参数是稳定的,不受考生样本的影响,对试题参数的估计更准确;2)为每个候选人提供单独的测量误差指标,以便准确计算候选人的能力估计值;3)解决了考试等值问题,不仅可以实现被试考试总成绩的等值,还可以实现考试参数的等值;4)信息函数(Information function)是一个综合的质量指标,用于评价一个题目或整个测试的准确性。
项目反应理论作为最重要的现代测量理论,在大规模题库建设、大规模量表开发、国际评估项目和计算机化考试等领域的应用越来越频繁。并在心理和教育测量领域发挥着越来越重要的作用。
经典测量理论在测量理论中一直占据主导地位,但存在误差分离过于一般化和实际情况下难以实现的“严格平行检验”等问题。针对经典测量理论存在的问题,20世纪70年代初,Kehlenbach等人提出了广义化理论。泛化理论拓展和延伸了经典测量理论的内容和应用范围。
在泛化理论中,测量上下文关系由测量对象和测量方组成。测量目标,即测试中要描述的特征,不仅是被测试者的潜在特质,而且
可以是测验题目或评分者的某种特性。测量侧面则是影响和制约测量目标的各种因素和条件,包括测量工具、测量环境、测量时间等。测量侧面又可分为随机侧面和固定侧面。在随机侧面中,侧面各水平是从所有可能的水平中随机选取;固定侧面的各水平则是固定不变的。在概化理论模型中,至少需要包含一个随机侧面才能进行推广或概化。概化理论将经典测量理论的信度转化为概化系数Eρ²或可靠性指标φ系数,概化系数关注的是测量的相对误差,可靠性指数则关注的是绝对误差。
概化理论研究过程由两部分组成,即G研究和D研究。G研究是指在观测全域上,根据测量设计对测量目标、所有侧面以及它们之间的交互作用的方差协方差分量进行估计。在这个研究中,需要研究者明确测量对象和测量目标、测量侧面和观测全域以及它们的关系,还包括对测量设计和测量模式的确定。D研究则是在G研究基础上,通过改变测量侧面结构、测验模型等来考察概化系数和可靠性指数的变化,从而为有效控制误差、提高测验精度提供参考。其中,需要根据测量目的确定概化全域,也就是确定测验结果推广的侧面,以及各侧面推广的范围。根据确定的概化全域,在各侧面条件样本水平上重新估计G研究中各因素的效应和交互作用的方差分量,获得特定概化全域上整个测验的概化系数和可靠性指数。通过多次反复,获得不同概化全域上的系数指标,比较这些系数的估计精度,从而确定最佳的测量设计方案,将G研究中的结果概化到新的全域上。
由于在实际的测量中,常会涉及一个测量目标同时具有多个全域分数的问题,比如一个测验包括多个分测验,这些分测验的分数就可理解为同一测量目标所具有的多个全域分数。于是在单变量概化理论的基础上发展出多元概化理论。多元概化理论在继承单变量概化理论的基础上,提供了测验目标、测量侧面等更为详细的方差协方差分量信息,具有更为广泛的使用范围。
认知诊断理论,按照Mislevy R.J的观点,心理与教育测量理论发展至今,大约经历了两个阶段:第一阶段为标准测验理论阶段,包括经典测量理论、项目反应理论和概化理论;第二阶段是以认知诊断为核心内容的新一代测验理论。
个体所得测验总分相同或者在传统测验上的行为表现一致,并不代表他们一定有相同的心理加工过程。事实上,他们可能有不同的知识结构和解决问题的策略。一个单一而笼统的总分往往会掩盖这些差别。新一代测验理论——认知诊断则克服了这一局限性,它很好地将认知心理学的理论成果与现代的统计方法结合起来。
认知心理学的分析不仅可以明确被试正确作答所需的技能、策略、知识基础与加工过程,还可以明确项目特征和刺激条件与作答反应的关系,从而有力地提高测验编制过程对难度等性能的预控性。而要最终实现对被试个体差异的分析和解释,还必须强调测验设计,即根据测量对象的实质性心理模型来选择、编制项目和测验,达到详细描述被试间差异的目的。认知诊断理论把认知过程与测量手段结合起来,不仅能对考生的整体水平作出评估,同时还可以将考生的认知结构模式化,利用合适的测量模型对不同的认知结构模式进行诊断,从而定量地考查考生的认知结构和个体差异,为个体下一步的矫正、培训提供方向和指导。
经典测量理论与项目反应理论的主要目的是得出被试潜在特质的位置,主要强调被试的行为反应,而不是学习过程。认知诊断理论是建立在认知心理学基础之上的测量,可以揭示项目反应背后的机制,也被称为是基于认知心理学的项目反应理论。
自考资料网:建议开通永久VIP超级会员更划算,除特殊资源外,全站所有资源永久免费下载
1. 本站所有网课课程资料来源于用户上传和网络收集,如有侵权请邮件联系站长!
2. 分享目的仅供大家学习和交流,助力考生上岸!
3. 如果你想分享自己的经验或案例,可在后台编辑,经审核后发布在“自考资料网”,有下载币奖励哦!
4. 本站提供的课程资源,可能含有水印,介意者请勿下载!
5. 如有链接无法下载、失效或广告,请联系管理员处理(在线客服)!
6. 本站资源售价只是赞助,收取费用仅维持本站的日常运营所需!
7. 星光不问赶路人,岁月不负有心人,不忘初心,方得始终!