区分度
出自 MBA智库百科(https://wiki.mbalib.com/)
区分度(discrimination)
目录 |
什么是区分度[1]
区分度,是指一个测验题目能够在多大程度上区分所要测量的心理品质,反映了测验题目对心理品质区分的有效性。一个具有良好区分度的题目,在区分被测者时应当是有效的。能通过该项目或是在该项目上得分高的被测者,其对应的品质也较突出;反之,区分度较差的项目就不能有效地鉴别水平高或低的被测者。因此,区分度也叫做项目的效度,并作为评价项目质量、筛选项目的主要依据。
区分度的计算以被测者对项目的反应与某种参照标准之间的关系为基础,其取值范围是-1.00~+1.00。一般情况下,区分度应为正值,称作积极区分,值越大则区分度越好;若区分度为负值,则为消极区分,说明这个题目有问题,应删除或重新修订;区分度为0,为无区分作用。
项目区分度(item discrimination)是指项目对不同水平的被试的区分程度。项目区分度分析可以分为两种类型:一种是“项目效度”的分析,根据外部校标选取题目,适用于人格测验;另一种是“内部一致性”分析,根据测验总分选取题目,适用于教育成就测验和能力倾向测验。
1)采用不同的计算方法,区分度的值也有所不同。因此,在分析一份测验题目的区分度时,对同一类型的题目须采用同一种计算题目区分度的方法,结果才好相互比较,进而筛选题目。
2)一个题目区分度的大小受被试团体异质程度的影响。被试团体越同质,同一题目的区分度值越小;若被试团体越异质,同一题目区分度则越大。因此,在说明题目区分度时总是针对某个具体的被试团体而言,离开具体的被试团体一般地、抽象地谈题目的区分度是没有任何意义的。
3)用相关法计算题目区分度的可靠性受样本大小的影响。一般而言,样本越大,区分度值越可靠。但样本太大,反而增加计算量,也毫无实际意义,应适可而止。
4)区分度指数D值受分组标准的影响。在编制标准化测验时,通常用370个被试作为预测样本的容量,以27%作为分组标准,这样高分组和低分组恰好各位100名被试,会给后面的计算带来方便。
由于区分度具有相对性,很难确定一个绝对水平作为取舍题目的标准。在根据题目区分度来筛选题目时,总要考虑到测验的目的和功能。于学科测验而言,一般要求相关系数达到显著性水准,或区分度指数D值在0.20以上,国际上优秀题目的区分度要求达到0.40以上。若是一个选拔人才的测验,题目的区分度要尽量高一些。美国教育与心理测量学家艾伯(L. Ebel)根据区分度指数提出一个评价题目优劣的标准。[2]
区分度指数(D) | 试题评价 |
0.40分以上 | 非常优良 |
0.30-0.39 | 良好 |
0.20-0.29 | 尚可,须修改 |
0.19以下 | 劣,必须淘汰 |
区分度的常用指标为D,取值在-1~1之间,值越大区分度越好。测量学家伊贝尔认为:试题的区分度在0.4以上表明此题的区分度很好,0.3~0.39表明此题的区分度较好,0.2~0.29表明此题的区分度不太好需修改,0.19以下表明此题的区分度不好应淘汰。
区分度的计算方法有两种:区分度指数和相关系数。
区分度指数(index of discrimination,D)的具体公式如下:
D = PH − PL
式中,D为区分度指数,PH为高分组的项目难度,PL为低分组的项目难度。
显而易见,高低分两组越是极端,区分度指数就越明显。但个案过少则会减少结果的信度。凯利(T. L. Kelley)指出,在正态分布中,兼顾两者的最佳百分数是27%。对于小样本,如一个常规教学班,可取25%-33%之间的任何数字,只要使用方便。
区分度指数D和项目难度P彼此并不独立,项目难度为中等水平时,区分度指数为最大值。[3]
项目难度和区分度指数最大值的关系
PT | PH | PL | D最大值 |
1.00 | 1.00 | 1.00 | 0.00 |
0.90 | 1.00 | 0.80 | 0.20 |
0.80 | 1.00 | 0.60 | 0.40 |
0.70 | 1.00 | 0.40 | 0.60 |
0.60 | 1.00 | 0.20 | 0.80 |
0.50 | 1.00 | 0.00 | 1.00 |
0.40 | 0.80 | 0.00 | 0.00 |
0.30 | 0.60 | 0.00 | 0.60 |
0.20 | 0.40 | 0.00 | 0.40 |
0.10 | 0.20 | 0.00 | 0.20 |
0.00 | 0.00 | 0.00 | 0.00 |
通过计算某一题目得分与测验总得分或效标分数的相关系数来判定。相关越大,区分度越高。
1)点二列相关
当测验总分为正态连续变量,题目分为二分变量(对、错或通过、未通过)时,可用点二列相关公式计算区分度。其计算公式是:
式中,rqb为二点列相关系数,即题目区分度; 为答对题目被试测验总分平均分, 为答错题目被试测验总分平均分,st为全体被试测验总分标准差,p为答对题目被试占总被试人数比率,q=1-p。
用点二列相关公式计算出来的相关系数需要进行显著性检验,才能确定它的意义。检验的方式是对点二列相关公式中 和 的差异进行t检验,若差异显著,表明rqb显著;若差异不显著,则rqb不显著。
2)二列相关法
测验总分与题目分两列变量都是正态连续变量,但其中一列变量由于某种原因被分为两个类别,可以用二列相关法计算题目区分度。其计算公式是:
式中,rb为二列相关系数,即题目区分度; 为答对题目被试测验总分平均分, 为答错题目被试测验总分平均分,st为全体被试测验总分标准差,p为答对题目被试占总被试人数比率,q=1-p,y为正态曲线中答对比例所在位置曲线高度。
二列相关系数rb的显著性用下列公式:
式中,rb为二列相关系数,p为答对题目被试占总被试人数比率,q=1-p,y为正态曲线中答对比例所在位置曲线高度。求出Z值后,查正态曲线表,若Z>1.96,则相关显著。
3)四分相关法
四分相关法适用于两列变量都是正态连续变量,但都要人为地一分为二的统计资料。计算这类相关采用皮尔逊余弦π公式,所得相关为四分相关系数,公式如下:
式中,A、B、C、D分别代表四个类别。A和D代表相同符号的次数(++或--),B和C代表相反符号的次数(+-或-+)。
四分相关系数是否显著,可通过下式检验:
式中,p1、q1、p2、q2为每个类别的累积百分比,y1和y2分别是累计百分比为p1、p2时正态曲线的高度,可以通过查正态分布表得到。
运用四分相关计算题目区分度时,样本容量应在200以上,计算出的结果才能比较好地说明问题。
4) 相关法
相关系数适用于两列变量都是二分变量,或者一列是二分变量,另一列虽是连续变量但也要人为地变为二分变量的情况,其公式如下:
检验的显著性水平应用下式:
求得X2值以后,查X2表,看X2值是否达到显著性水平。若X2值显著,则值也显著。
5)积差相关法
对于心理测验中的多值评分的题目和学科测验中的主观性试题,可以用积差相关法计算题目分和测验总分的相关系数,作为题目区分度值。
6)题目与总分相关重叠的校正
计算题目分与测验总分的相关,这是一种局部和总体的相关。在由题目分与总分计算出的相关系数中,必然有相关重叠的成分,使相关系数即题目的区分度偏高,以致各个题目所贡献的变异数比例都很小时,才能把题目与总分相关作为题目区分度的指标。假如不具备这些条件,需要用校正公式对计算出来的相关系数作校正,以去除相关重叠的成分。校正公式如下:
式中,cr为校正后的相关,r为实得的项目与总分相关,n为一份测验中的题目数,st为测验总分标准差,pi为某个题目的通过率,qi=1-pi
一般而言,当测验题目数量较少,且题目与总分相关不高时,需要用上式对计算出的题目区分度作校正;若一份测验有20个以上的题目时,则不需作校正。[2]
项目特征曲线[1]
即便是某个项目具有适当的难度和区分度,也不能保证对于各个水平的被测者来说都能很有效地发挥作用。对于一个好的测验项目,随着被测者测验总分的增加,其在该项目上的通过率也应该稳步增加。可以通过项目特征曲线来描述项目的这种特征。
一个好题目的曲线走向应该是通过率随着总分的升高而增加;反之,说明该题目出得不好或是定错了答案。曲线上通过率为50%的那个点能反映该题目的难度,该点对应的总分越高,说明这个题目的难度值越小,即难度越大;该点的斜率能反应该项目的区分度,越陡峭,区分度就越好。这里的难度和区分度都是通过曲线直接看出来的,具体数值的计算比较复杂,往往要借助于计算机。
难度和区分度都是相对的,是针对一定团体而言的(绝对的难度和区分度是不存在的)。一般说来,较难的项目对高水平的被试区分度高,较易的项目对水平低的被试区分度高,中等难度的项目对中等水平的被试区分度高。这与中等难度的项目区分度最高的说法并不矛盾,因为对被试总体是较难或较易的项目,对水平高或水平低的被试便成了中等难度。由于人的多数心理特征呈正态分布,所以当需要把人作最大程度区分时,项目难度的分布也以正态为好,即特别难与特别容易的题目较少,接近中等难度的题目较多,而所有题目的平均难度为0.50。[4]
什么情况下区分度高呢?或者说什么样的题目才能最大限度地区分不同水平的人群?这就引出了试题项目评价的第二个指标:难度。题目的难度过高,很少人能答对,大部分得分都很低;难度过低,很少人会答错,分数分布在高分端。因而过难或过易的题目都不能很好地区分不同水平的个体。因而当题目的难度为中等时,区分度最高。
一个好的测验中是不是要求所有题目都是中等难度?那高考、研究生入学考试这样的高水平测试为何还有难度很大或很小的题目?这是因为在一个测验中如果都是中等难度的题目,就又走向另一个极端,即对中等程度的人有最佳鉴别力,而对水平高和水平低的那部分人不能做很好的区分。简言之,不同难度的题目对于不同水平的人来说区分度是不同的。鉴于全体受测者的能力分布往往是呈正态的,测验中题目难度的分布也基本为正态分布,即难、中、易都有分布,中等难度题目最多。只有这样才能保证整个测验有较高的鉴别力。