好研网
学科教研 > 高中 > 通用技术 > 等值问题在大规模考...

等值问题在大规模考试中的研究——以上海市信息科技学业考等值研究为例

发布时间:2019-05-15 09:56:03 作者:通用技术课程 浏览次数: 评论:1    分享

摘  要

 

为改变“一考定终身”的影响,实现多次考试的目标,等值技术可以为大规模考试项目提供科学、可行的数据处理技术支持。文章以上海市普通高中信息科技学业水平考试为切入点,在具体分析其等值环境的基础上,结合国内外主流等值技术,提出了符合等值设计原则的科目等值数据采集设计方案和后期的数据等值机制,以期实现科目考试等值目的。并将方案推广至不同等值环境的大规模统一高考外语科目以及其他高中学业水平考试。保证考试的可比性和公平性,实现改革科学地落地。

关键词: 大规模考试;测验等值;等值设计;等值机制

 

改革开放至今,我国不断改进完善的考试招生制度,这一改革总体上立足于国情,具有权威性、公平性,但也存在着一些社会上反映强烈的问题。其中,“一考定终身”制度使得学生课业负担过重。为此,《国务院关于深化考试招生制度改革的实施意见》特别提出,为参加统一高考外语科目的考生提供两次考试机会;创造条件为有需要的学生提供学业考同一科目两次考试的机会。[1]为实现多次考试一次使用的改革愿景,必须探索出科学、可行的考试等值方案。本文以上海市信息科技学业考等值方案为例,对等值的概念、等值方案设计和等值机制进行探讨,以供参考。

 

 

一、等值数据采集方案设计

 

近几年,上海市高中学业水平考试信息科技科目实行的是多模块、多场次的机考形式。出于安全性考虑,针对不同模块、不同批次应考的考生施行不同的试卷。这就意味着对同一考试项目有多份不同批次的试卷,同一批次试卷有不同模块内容试题组。尽管命题组在命题时尽量保持试卷难度的稳定性,但是多模块、多场次试卷的难度、信度、分数分布等无法完全得到控制。考生在不同时间参加不同模块的考试,得到的分数很可能会有比较大的差别。这些差异的存在使得真实的考试数据无法分析与报道。在心理与教育测量上,把具有相同测量规范测量的同一心理特质的不同形式的测验分数转换到同一个分数量尺上的一套专门技术称为测验等值。[2]为了进行上海市信息科技学业水平考试等值方案设计,只有在确定等值原则,实事求是分析客观环境后,才能找到适合上海市信息科技学业考的等值数据采集方案。

 

 

1. 等值设计原则

 

(1)目的性。上海市高中学业水平信息科技科目考试是一项长期的实际工作,要关注全体考生达到国家规定学习要求的程度,关注同一量尺下考试的一致性。

 

(2)科学性。现行多种等值方案都需要考虑方案设计的假设前提是否成立;关注考生样本能力分布与总体能力分布是否相似;确保任一考生赴考任一场次试卷所得等值分数一致;关注等值结果的精确度是否符合预期设想等。

 

(3)可行性。设计等值方案中需考虑:考试项目是

否有保密性要求;试卷是否能达到设计方案中的长度要求;施行同一考试项目的不同批次考试是否能达到设计方案中的间隔时间要求;考试项目的试卷长度是否可以达到等值设计的要求;抽取的被试样本是否满足涉及方案中的样本抽取要求等。[3]

 

 

2. 等值环境分析

 

上海市信息科技学业合格性考试由上海市教育部门组织统一命题、统一考试、统一阅卷,[4]社会信任度高、考试数据真实可靠,为等值数据采集提供了足够的样本容量,这是实现等值方案设计的先决条件。上海市信息科技学业合格性考试实行多批次考试形式,这是大规模考试实施等值方案的先行试验田。2018年信息科技学业水平合格性考试以《上海市高中信息科技学科教学基本要求(试验本)》为命题依据,[4]数据管理、设计创作两个单元为选学内容,不作为学业水平考试内容,[5]针对全市考生考查相同的知识内容,这是科学实现等值方案设计的前提。

 

 

3. 等值数据采集方案设计

 

现有的等值数据采集方案有随机组群设计(Random Groups Design)、单组设计 (Single Group Design)、平衡单组设计(Single Group Design with Counterbalancing)和共同题非等组设计[6](the Common-Item Nonequivalent Groups Design)等。

 

考虑到全部试题有可能在同一环境中被全部曝光的风险,排除了随机组群设计。[6]对同组学生施行两次考试也面临着不现实和两组试卷全部曝光的风险,排除单组设计。由于上述相同的两个原因,排除平衡单组设计。[6]共同题非等组设计使用连接题作为等值工具,[6]实现每个考生只做一次试卷的愿景,也是目前应用最广泛的设计。

 

现行的上海市信息科技学业考实行多场次考试,通常有两种锚链接方法:第一种方法是连环锚法。如图1所示,每两套试卷使用一份连接题,逐份依次等值。这种方法的优点是比较安全;缺点是命题组需要在规定时间内命制的试题比较多,试卷间的等值会使误差累计,从而误差会随试卷的套数增加而增加,连接题比例则会减少,影响等值效果。

 

如图3所示,折中锚法折中上述两种等值数据采集设计方案。这样可以在降低累积等值误差的同时增加考试项目的安全性,命题组亦可以在规定时间内较高质量地完成命题任务。

 

 

 

二、等值机制

 

为了最终揭示大规模考试不同批次的等值性,必须有科学的等值估计程序。本文在查阅研读相关等值文献后,对其中介绍的等值技术进行了理论梳理并尝试提出符合信息科技科目的等值机制。

 

 

1. 常用等值机制

 

(1)平均值等值。假设由平均值之差预测的试卷量表之差与试卷各个点的成绩分布之差是相同的,那么使用待等值的两份试卷平均值之差作为调整分,在待等值试卷的成绩上加减这个调整分可以把两份试卷的成绩放到同一量表上。假设试卷x的平均分为 a,试卷y的平均分为b,调整分δ=(b-a)。例如:试卷 x 的测量结果为 0、1、2、3、4、5、6、7、8;试卷y的测量结果为 2、3、4、5、6、7、8、9、10,可计算出δ=2。如图 4 所示,试卷x 与试卷y分数为线性关系,试卷x得6分等价于试卷y得8分。按此规则等值试卷分数,可得如表1所示数据。明显可见,试卷y在高分段超出分数的合理范围,不符合现实赋分方式。 为符合现实赋分方式,统一调整y试卷分数≥10 分的都赋值为10分。由此将产生等值误差,降低了高分段的区分度。

 

可标准化原始分数转到统一量表上。例如:试卷x的测量结果为0、2、4、6、8、10;试卷y的测量结果为2、3、4、5、6、7,可计算出a=5,SDx=3.31662479,b=4.5,SDy=1.658312395,如图5所示,试卷x与试卷y分数为线性关系,试卷x得5分等价于试卷y得4.5分。按此规则等值试卷分数,可得如表2所示数据。明显可见,试卷y将产生无法解释的非整数分数,例如2.5;试卷x将产生无法解释的超出考试有效分数范围的分数,例如-2。若为实现分数的合理解释,四舍五入调整分数,由此将同样产生等值误差。

 

 

(3)等百分位等值。假设参加不同场次的考生具有相同的能力分布,那么使用相同的等百分位等级的分数可以视为等值的。如表3数据所示,试卷x得7分等价于试卷y得8分。

 

 

 

2. 上海市信息科技学业考等值机制

 

为了使用连接题作为等值的载体,首先需要确保连接题的质量。[7]以上海市普通高中信息科技学业水平考试为例,连接题的设计必须包含信息科技基础、信息处理以及科技、社会与人三大内容,保证内容领域和认知技能具有代表性;必须包含正式试卷中所有的题型,特别是信息科技科目独有的算法设计题,保证考核能力目标具有代表性;必须包含难度(平均难度、难度范围等)、区分度和猜测度等,保证具有统计特征代表性;必须使用相同的评分原则,保证评分方式具有代表性。运用具有代表性的连接题作为连接载体实现考试分数之间的转换,结合上海市信息科技学业考一天内多批次考试的现实环境,提出了实际可操作的等值机制。

 

(1)平均值链等值。该过程分为以下两个步骤:①计算第X批次试卷x与第Y批次试卷y中连接题的平均值之差δ,即δ=(b-a);②使用试卷x与试卷y中连接题平均值之差δ作为调整分,在一份试卷的成绩上用平均值之差作相应的加减法。例如:试卷x中连接题的测量结果为 0、1、2、3、4、5、6、7、8; 试卷y中连接题的测量结果为2、3、4、5、6、7、8、9、10,可计算出δ=2。表4为试卷y经平均值链等值后的调整分。

 

 

上节分析可知,使用这种等值方法操作简单。但等值假设条件严格:要求由试卷 x 与试卷 y 连接题平均值之差 δ预测的试卷量表之差与试卷各个点的成绩分布之差是相同的。特别是这个假设在成绩分布的高分数段和低分数并不总是符合假设条件。

 

(2)链等百分位等值。该过程分为以下3个步骤:①在第X批次被试考生中应用等百分位等值将试卷x与连接题进行等值;②在第Y批次被试考生中应用等百分位等值将试卷y与连接题进行等值;③利用从x到连接题,连接题到y的连接,完成x与y的等值。由表5可知,通过连接题原始分=18分,链等得试卷y原始分的79分等价于试卷x原始分的85分。

 

 

研究表明,使用等百分位等值方法的假设条件是不同场次的考生具有相同的能力分布,而链等百分位等值则对考生具有能力分布的要求降低了,但数据分析过程更为复杂。两种方法各有优劣,可根据实际需要择其一或综合使用。

 

 

三、推广与思考

 

大规模统一高考外语科目以及其他高中学业水平考试科目不同于上海市普通高中信息科技学业考试,在考试时间间隔上一般跨越1个学年,被试者也可能从不同被试者转变为同一被试者,且较信息科技合格性考试的风险性更高。因此,如果需要进行试卷等值处理,就不适宜采用这门科目所使用的内锚方式,其安全性会在很大程度上受到威胁。在设计等值数据采集方案时建议采用跨地区、跨时间的外锚连接方式;在分数等值转换上,同样可以采取上述各种机制。

 

等值是处理考试数据的一种技术手段,要达成等值目标,需要在等值方案设计、实施考试、考试数据处理、计算等值估计系数、分数等值转换等步骤都尽可能地减少可能的误差。分辨试卷间原始分数的差异是由于取样的不同、试卷的不同、还是由两者共同产生的,通常是比较困难的。要克服此种困难,考试机构的命题组、考务部门和相关数据研究人员需要齐心协力,杜绝出现作弊行为,确保考试等值的科学落地。

 

总之,解决考试等值问题,可以实现改革的科学落地,保证考试的可比性和公平性,提高考试分数解释和使用的有效性,为各学科的教学提供确定的依据、为学生提供确切的目标,发挥考试积极反拨作用,这对学生的成长、教育质量提升和将来新的基于标准化的大规模考试的评价体系的重要影响不言而喻。在不久的未来,新的基于标准化的大规模考试的评价体系中,等值技术将对保障评价体系的公平性发挥越来越大的作用。

 

参考文献

[1] 国务院.国务院关于深化考试招生制度改革的实施意见(国发[2014]35 号)[EB/OL](. 2014-09-04).http://www.gov.cn/zhengce/content/2014-09/04/content_9065.htm.

[2] 宋吉祥. 等百分位等值方法的理论与考试应用研究[J].考试研究, 2017(3):27-37.

[3] 戴海崎.高考等值试验的几个重要问题研究[J]. 湖北招生考试, 2003(84):7-9.

[4] 上海市教育委员会《. 关于公布 2018 年上海市普通高中地理等 7 门学科学业水平合格性考试命题要求的通知》(沪教委基〔2018〕16 号)[Z]. 2018.

[5] 上海市教育委员会教学研究室.上海市高中信息科技学科教学基本要求[Z]. 上海: 中华地图学社,2017.

[6][美]约瑟夫·M·瑞安. 基于经典测量理论和项目反应理论的等值与连接——等值设计和经典测量理论等值程序[J].考试研究,2011(2):83-95,11.

[7] 谢小庆.对 15 种测验等值方法的比较研究[J]. 心理学报, 2000(32):217-223.

文章转自公众号丨上海教育评估研究(ID:shjee2012)

附件:

已到第一张图片了。

重新播放

已到最后一张图片了。

重新播放






评论 已有