近日,英国考试监管机构Ofqual公布了一份关于评分一致性的衡量标准(marking consistency metrics)。这个研究试图通过使用“种子”问题的数据来评估GCSE、AS、A-level的评分一致性。
所以seed question到底是个啥?
“Seeding”是各大考试局采用的一种用来监控与保证阅卷老师评分质量的方法。
在大规模判分之前,考试局会从真实的学生考卷中选择一些答案。一般是一位或多位阅卷老师,制定出一份“权威”评分标准,也就是被视作最合适的分数,我们暂且成为“标准分”。
然后普通阅卷老师要接受评分“标准度”测评,也就是在电脑上会随机出现一些上面的问题来进行打分。如果阅卷老师给出的分数与“标准分”差距太大(一定的范围内是可以接受的),那么阅卷老师也要接受额外的指导,或者干脆被取消批卷资格。
Ofqual的研究就是看普通阅卷老师给出的分数跟“标准分”有什么不同,使用的数据是来自于2017考试季收集来的GCSE、AS与A-level考试。然后Ofqual就可以通过使用这些复杂数据来评估,考生获得“准确成绩”的概率有多大。
那Ofqual发现了什么呢?
根据Ofqual,“获得标准分的概率中位数随证书和科目的变化而变化”,概率计算的衡量标准1是100%,0.1是10%。
不出意外,一些科目的“标准分”概率特别高,数学平均概率可以达到0.96。但是其他一些写作类、答案比较长的问题无可避免主观性因素更多,获得“标准分”的概率就低一些,比如说英语语言与文学的概率只有0.52。
这听起来很让人担忧-可是这就意味着一半下发的英语成绩都是错的吗?
考试监管机构表示“标准分”应该被当做是研究的理论框架,而不是的“正确”分数,不一样的评分不应该自动归为“不正确”或是“错误”。
对于一些科目和一些问题来说,可能只有标准分才是正确的,比如说数学就是非对即错。但是其他一些科目和问题,只要是在一定的合理范围内,不一样的分数也是合情合理的,所以一道满分25分的社会学问题,标准分是18分,但阅卷老师给出的是19分或18分都是合理的。
Ofqual强调的点在于,他们的分析并没有区分不能接受的重大错误与合理范围内的不一致性。
所以老师们应该担心吗?
话虽这样说,但很多人还是对数据传达出的信息感到担忧。批评家们认为Ofqual自己提出这个质疑,然后当大众对这一结果感到不舒服的时候,又自圆其说。
校长会议表示人文科目的“极端”不可靠性带来了“严重”的影响。
好在Ofqual指出获得“标准分”差异1分以内成绩的概率要高得多,占Ofqual调查问题的0.95以上。但在英国这样“高风险”的考试体制下,这对升学取决于GCSE成绩是3还是4的学生来说,并没多大安慰。
我们需要记住,评分一致性是有双向作用的,一些应该拿到4分的学生却错过了4分,而一些本应该拿3分的学生却得到了4分。
Ofqual介绍2013-2017年间的评分一致性是稳定的,而且英格兰跟其他国家的评分一致性并没有相差甚远。
那为什么不直接采用原始卷面分呢?
取消等级分数线直接采用原始分数是解决这个问题的一种方式,但这样的分数不是很直观,也不好进行对比。
而且就算是等级分数线被废除的话,学院、大学和雇主最终可能还是会设置自己的分数线。
还有其他的办法吗?
Ofqual表示在改善评分一致性上,考试局还是有进步空间的。
然而,不论阅卷老师接受多少培训,或者评分标准写得多么全面,我们永远无法在每一个分数上达到完全一致。
最后,总结起来就是考试局的打分相对来说还是比较准确的,这40%的数字是与“标准分”对比的差异,但却属于合理范围内,所以大家也别操心了,努力提高自己的卷面分才是正经事啊!锦秋A-Level全海归老师授课,注重的不只是成绩,更重要的是通过日常的学习交流,把锦秋A-Level老师的海外留学经验打包给学员。
大学名称 | QS排名 |
---|