考试是考察学生知识和能力的重要手段,考试结果蕴含着教学管理质量、教师教学质量和学生学习质量等多方面的信息,通过试卷分析,可以观察试卷测试效果、评价学生学习状况、推测教学目标是否达到,使反馈的信息更加准确、更加可信,有利于积累经验、提高教师编制试卷的水平,有利于修改试题、并为试题库遴选更合适的试题,有利于全面地讲评考试、更好地改进教学。
目前,较多采用的是传统的试卷分析方法,包括:划分分数段,统计各段人数,计算各段人数占总人数的百分比,计算平均分、及格率、优秀率等。这些分析方法所得结果全面性、客观性、准确性有限,还应做进一步分析,包括:难度分析、区分度分析、信度分析和效度分析。
这四个维度的分析如何运用于课程考试,由学校教务部门做出规定。一般要考虑课程运用的范围(全部课程,或者必修课,或者专业核心课程),课程考试的阶段(课程单元考试、课程结束考试),以及分析维度的选择(难度、区分度、信度和效度都进行分析,还是根据不同的课程及其考试阶段选择分析其中的指标)等因素。
一、难度分析(P)
难度是指试题或试卷的难易程度,是评估试卷质量的主要指标之一。
(一)计算方法
设Pi为试卷中第i题的难度系数,i为全体考生第i题的平均分,i为第i题的满分,则第i题的难度为:
同理,设P为试卷的难度系数, X为试卷的平均分,W为试卷的满分,则试卷的难度为:
(二)判断参考标准
难度系数越趋近于0,难度就越小;难度系数越接近于1,难度就越大。
当P≤0.2时,说明试卷难度过低;
当0.2<P≥0.4时,说明试卷难易适度;
当0.4<P<0.8时,说明试卷比较难;
当P≥0.8时,说明试卷难度过高。
二、区分度分析(D)
区分度是指试题或试卷对学生实际水平的区分程度或鉴别能力,区分度高的试题或试卷能对不同知识水平和能力的学生加以区分,使能力高的学生得高分,能力低的学生得低分;区分度低的试题或试卷则不能对学生的能力进行很好的鉴别,使水平高和水平低的学生得分相差不大或没有规律可循。
(一)计算方法
首先把学生第i题考分由高到低排序,取前27%的学生作为高分组,取后27%的学生作为低分组,分别计算第i题高分组学生的平均成绩ih和低分组学生的平均成绩il,设第i题的满分为i,则第i题的区分度为:
同理,设前27%的高分组学生试卷的平均分为h,后27%的低分组学生试卷的平均分l,试卷区分度为D, 试卷满分为W,则试卷的区分度为:
(二)判断参考标准
当D>0.4时,试题区分度为“优秀”;
当0.3≤D≤0.4时,试题区分度为“良好”;
当0.2≤D≤0.3时,试题区分度为“可以” ;
当D<0.2时,试题区分度为“较差”。
难度和区分度的关系:
难度和区分度是评估试卷质量的两个主要指标,两者之间存在着密切的联系。区分度的提高主要是通过控制试题难度实现的。如果试题太难,优生和差生都答不出来,就没有区分度可言;如果试题太容易,优生和差生都能答出来,同样没有区分度。只有适宜的难度才会有很好的区分度。实践证明,0.5难度的试题具有最好的区分度。但在实际编制试卷时,不能要求所有题目的难度均为0.5。因为一般说来,较难的试题对高水平的考生区分度高,较易的试题对低水平的考生区分度高,中等难度的试题对中等水平的考生区分度高。当我们要求考生的成绩呈正态分布时,试题难度的分布也以正态为好,即特别难与特别容易的试题均较少,接近中等难度的试题越多,所有试题的平均难度为0.5,这样的试卷才具有较高的区分度。
三、信度分析(B)
信度是衡量试题可靠性与稳定性的指标。信度高说明考生分数不易受偶然因素造成的误差的影响,考生分数可以比较真实地反映考生的实际水平。
(一)计算公式
……(1)
(1)式中B表示试卷的信度,n表示试题总数,Si表示第i题标准差,S2表示试卷方差。
……(2)
(2)式中,m表示考生人数,Xij表示第j个学生第i题的成绩,i表示全部考生第i题的平均分。
…… (3)
(3)式中,m表示考生人数,j表示第j个学生试卷的总分,表示全部考生试卷的平均分。
(二)判断参考标准
当B>0.5时,试题信度为“较差”;
当0.5≤B≤0.8时,试题信度为“良好”;
当B>0.8时,试题信度为“非常好”。
四、效度分析(R)
效度是衡量考试结果对考试目标实现程度的指标,效度反映了考试的准确性和有效性。提高考试的效度要注意两个方面的问题:一是考试的目标要明确,是要考核学生对基础知识的掌握,还是要考核学生应用知识进行推理判断的能力,或者是两者兼而有之;二是试题的设计要能有效地体现考试目标,客观性试题一般用来考核学生对基础知识的掌握,非客观性试题则用来考核学生应用知识进行推理判断的能力。
(一)计算公式
试卷的效度可以通过试卷的平均区分度来衡量,因此得到:
其中,R表示试卷的效度,Di表示第i题的区分度,n表示试题总数。
(二)判断参考标准
R≥0.4时,试卷的效度较好,即可以有效地实现考试的目标。
信度和效度的关系:
1.信度与效度都是测量测试的有效性,两者相同的是,都检查测试是否起到了应起的作用,达到了什么程度。不同的是,信度是指测试结果一致性的程度,与外部标准没有太大关系。效度是指测试的结果与测试前的既定目的和内部相一致的程度,即测试是否包含了应考的内容,测试是否与预期目的相吻合。
2.测试可靠并不一定有效。假如想知道桌子的长度,这是目的。我们就用软尺或米尺去测量它的长度,几次测量的结果都是一致的,即测量出的长度是可靠的,测出的长度与我们想知道的相吻合,这就有效。如果用称去称它的重量,几次结果也是一致的,但重量和长度是两码事,称重结果无效。我们的教育测试也是这样。假如我们要考查学生的语法知识,测试的内容就应该是有关语法知识的题目,如果用的是考词汇的题目,那就达不到考语法的目的,也就无效了。
3.不可靠的测试必然无效。只要测试的结果可靠,就能引出一定的结论,但如果结果不可靠,就不可能得出任何结论,因而失去了可靠性,有效性也就不复存在了。确定了可靠性之后,才谈得上测试是否有效。例如测试的内部一致性很差,很多题有毛病,如一题有两个答案,或没有答案等,信度就很低了,效度也因此而失去。
总之,试卷分析存在着多种量化指标,具体方法也不尽相同,在实际工作中应根据不同的考试科目、不同的考试目标而采取不同的指标、标准和方法。试卷分析的最终目的不在于试卷本身,而在于促进教学改革、提升教学质量。
*(附记录表在下页)
附:南华大学试卷分析记录表
课程名称 |
|
考核类型 |
考试□; 考查□ |
命题教师 |
|
考核方式 |
开卷□;闭卷□; 其它□ |
考核时间 |
年 月 日 |
年级专业班级 |
|
总人数 |
|
评卷教师 |
|
成绩登记与统计 |
最高分 |
|
最低分 |
|
平均分 |
|
标准差 |
|
成绩 |
优 (90~) |
良 (80~) |
中 (70~) |
及格 (60~) |
不及格 (~60) |
不得分 |
人数 |
|
|
|
|
|
|
百分比% |
|
|
|
|
|
|
成绩 分布 统计图 |
|
试卷分析结果 |
分析 项目 |
分析值 |
结论 (在圆圈中打钩) |
参考标准 |
试卷 难度 |
P= |
试卷难度过低○ 试卷难易适度○ 试卷难度偏高○ 试卷难度过高○ |
当P≤0.2时,说明试卷难度过低; 当0.2<P≥0.4时,说明试卷难易适度; 当0.4<P<0.8时,说明试卷偏高; 当P≥0.8时,说明试卷难度过高 |
区分 度 |
D= |
区分度优秀○ 区分度良好○ 区分度可以○ 区分度较差○ |
当D>0.4时,试题区分度为“优秀”; 当0.3≤D≤0.4时,区分度为“良好”; 当0.2≤D≤0.3时,区分度为“可以” ; 当D<0.2时,试题区分度为“较差”。 |
信度 |
B= |
试卷信度较差○ 试卷信度良好○ 试卷信度非常好○ |
当B>0.5时,试题信度为“较差”; 当0.5≤B≤0.8时,试题信度为“良好”; 当B>0.8时,试题信度为“非常好” |
效度 |
R= |
有效实现考试目标○ |
R≥0.4 |
分析结论概述: |
|
|
|
|
|
|
|
|
|
|
|
|
|
教学中 存在的 问题及 改进 意见 |
(任课教研室或教师填写): 签名: 年 月 日 |
所在 学院 意见 |
负责人(签字): 年 月 日 |
教务处 审核 意见 |
负责人(签字): 年 月 日 |
主管 校长 意见 |
签名: 年 月 日 |
备注:此表一式三份,教研室、授课学院、教务处各存一份。 |