网易教育讯 2015年1月27日《2014-2015新东方托福年度报告》正式发布。
郑马骏 ETS总部访问学者
今天的ETS培训中Fred Robin研究员提到了相当多的术语名词以及相关理论,笔者挑选其中的一些较有难度的进行解读和点评。
Fred Robin在ETS的职位叫做psychometrician,这个职位是相对于test developer而言的。准确地讲,他并不负责题目本身的开发,而是评估题目的准确性和有效度。Psychometrics这个概念在ETS的论文中常有涉及,其实用psycho-这个词根是为了和物理测量相区分,意指测量思维、情感、智商等维度上的指标。很多时候,test developer和psychometrician是一对矛盾体,前者编写的试题可能会受到来自后者的挑战,而这种挑战基于大量的统计数据和相关性分析。
Classical test theory和Item response theory体现了两种截然不同的测试宗旨。对于CTT而言,衡量题目的难度系数及其它指标主要是看它在一个特定的考生样本群体中的表现情况,比如在这个群体中的正确率。这种衡量方式不具有外部的普遍适用性,因为不同的群体存在水平和能力的差异性。对于IRT而言,题目的衡量不受到特定群体的限制,难度系数是绝对思维能力和知识掌握的函数(即不依赖于相对比较),这种模型具有普适性和可移植性。就笔者的理解而言,SAT和GRE考试的题目难度系数标定应该是两者的融合。CTT在样本数量巨大的情况下就会接近于IRT。一道阅读中的修辞手法题被标为4-5级,一方面是过往考生的正确率较低,另一方面当然也在于它所涉及到的思维和词汇远高于一般的细节定位复述题。
关于Biserial correlation(双串行相关性)的理解。所谓相关性其实很好理解,是两个变量的走向之间的关系。同涨同跌叫做正相关,此涨彼跌叫负相关,还有一种情况就是相关系数为0,也可以称为正交。这是描述性统计学的重要概念。在题目评估中,单个试题在不同考生群体中的正确率和考生群体本身水平之间的关系,被称为双串行相关性。这项数值越高,即说明本道试题的准确度越高,反之亦然。原因在于,测试学的基本假设是题量越大,准度越高。
左图在培训文档中经常出现,笔者在此给予简单解读。横坐标上的某一点代表的是总分(做了标准化处理)在某一水平的考生群体,纵坐标代表的是该群体在本道试题上的正确率。右手边的数据分别是:选择某一选项的考生总人数,该群人数的所占比例,该群人数总分平均数和标准差,以及该群人在总人群中高于其他人的比例。为什么说这是一道好题目,因为正确答案D选项的biserial correlation数值非常理想,达到0.62。其它三个错误选项地难度也错落有致,有一个最具干扰性地C选项,还有两个打酱油的选项A和B。如果C太靠近AB,那么这道题目就太简单,反之如果AB靠近C,那么题目太难。请注意,不管简单还是难,都不影响该题目的准确性。但如果是下图现实的一道题目,正确选项C的biserial correlation是负的,通俗地讲就是神经病题目,对于考生水平没有区分功能。但从曲线来看,这道题目本身是一道很容易求解的,对于一个严谨度差些的命题机构而言,糊弄一下问题不大。笔者在此需要强调的是,这些统计数据只是对表象的描述,懂这些只能成为psychometrician,但是无法成为test developer。一个优秀的test developer必须要知道这些数据背后的原因,即到底是什么样的题干和选项设置方法才能造成上述的统计区别。这才是ETS这个机构的核心知识产权和竞争力。再次强调,相关性系数衡量的是对考生总体水平的反映能力,并不是题目本身的难度控制。其实在GRE的老题目中也有一些败笔,就是题目很难但相关系数很弱。为什么中国国内的升学考试无法有更长的有效期,就是因为命题者可能根本不做相关性分析,只是单纯评估难度系数而已,那么横向来看,不同年份和场次的考试间差异巨大,毫无稳定性可言。