一种贴近实际评价的选择评价问题类型--关于单一多项选择问题改革的研究_置信区间论文

一种接近真实评价的选择评价题型——单项选择题的改革研究,本文主要内容关键词为:评价论文,题型论文,单项论文,选择题论文,真实论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

一、研究缘起及问题的提出

单项选择题(以下简称单选题)是从若干个备选项中选择唯一正确的答案,因其作答简单、评价方便、相对客观等特点而被评价者频繁使用。但现实中我们发现,很多学生在解答把握不大的单选题时都习惯运用排除法,往往由于不能科学抉择而随意判断,致使影响成绩。对此,我们以石家庄市不同层次的学校(石家庄市1中、25中、41中)的193名学生为样本进行了问卷调查,其中有效问卷180份。内容如下:

(1)你做单选题时,已经排除了两个选项,但在其他两个选项之间犹豫不决时,往往选错。这种情况

A.没发生过 B.发生过 C.经常发生

(2)在平时测验中,由于(1)中的情况造成失分,这是否影响你的成绩?

A.不影响 B.影响 C.很影响

(3)你是否希望用一种新的评价手段改善(1)中所说的失分情况?

A.不希望 B.希望 C.十分希望

问卷统计结果如表1和图1。

表1 学生对单选题满意程度测评统计表

图1 学生对单选题满意程度测评统计图

表1和图1表明:在180份有效问卷中,100%出现过在做单选题时,已排除了两个选项,但在其他两个选项之间犹豫不决时,最终误选,造成失分;并且77.8%的人认为这种现象会影响自己的成绩。值得注意的是,有93.3%的人希望用一种新的评价手段来改善这种失分现象。也就是说,即便认为这种失分不会影响自己成绩的22.2%的学生中也有相当多的人(占总人数的15.5%,占这部分人数的69.8%)希望如此。

鉴于上述问题的普遍性,我们构建了一种新的选择评价题型,以期能改善单选题的弱势。

二、新选择评价题型的构建

构建思路:整合单选题和多项选择题(简称多选题)的评价优势。它是在不改变单选题难度的基础上,结合多选题的作答方式构建出一种得分档次更加细化、评价结果更加客观的新型选择评价题型(简称新选题)。就好比一把尺子,刻度越细密,测量越准确。

众所周知,单选题的优点是正确答案唯一,易评价,试题难度较小;缺点是分数档次粗糙,只有满分和零分两种。多选题的优点是得分档次细化,有满分、中间分和零分等多种档次;缺点是有多种答案(包括正确答案和不完全正确答案),试题难度较大。综合单选题和多选题的优势,我们构建了一种新选题——它有唯一正确答案,但可以不定项选择(可以选择一个答案,亦可选择评价者所认为的所有可能的正确答案);在评价方式上也有别于传统意义上的评价方式。对后者我们可以如下理解。

第一种理解:学生排除了不正确的,即不符合题意的选项,排除的选项越多,相应的得分就越高。以四个选项为例,如果排除一个答案得满分的,排除两个答案得满分的,排除三个答案得满分。

从另一个角度看,学生在排除几个选项的同时,也就选择了其他选项,认为其他选项都有可能正确。

第二种理解:学生根据自己的理解选择若干选项,如果选项中包括正确答案,则根据选项的多少评分。以四个选项为例,选一项(即正确答案)得满分,选两项得一半分,选三项得满分的,全选不得分。

三、新选题与单选题的对比研究

为了比较新选题和单选题测验结果的差异,我们设计了以下实验。

(1)研究对象

石家庄市41中高一年级1班的56名学生,他们的所有教育内容和方式完全相同。

(2)研究假设

假设一 新选题更接近学生的真实水平。

假设二 新选题、单选题均与学生的真实水平无显著差异。

学生实际水平由四部分构成:期中考试成绩、期末考试成绩、平时作业成绩及课堂表现成绩。四部分满分均为100分,再将四部分成绩分别赋予0.15、0.35、0.25、0.25的权重后综合得到学生的真实水平。

(3)研究思路与研究方法

将相同的测试内容同时以两种不同的评价题型(单选题、新选题)考查学生,如果新选题比单选题考查学生的结果更贴近学生的真实水平,则假设成立,反之则被否定。采用测试法、统计法。

(4)测试过程及结果

以高中一年级物理知识为测试内容,由物理课程组长、高一4名物理教师、1名学科教学论教师和2名物理学科教学论研究生反复商讨、合作编制测验试卷。于2007年1月19日上午第一节课实施测验,作答时间为45分钟,要求学生认真对待。测验前任课物理教师详细介绍新选题的选择要求及评价方式。试卷的题首给出了说明及作答样题(题首说明:以下小题的选项中,只有一个选项是正确的,请把正确的答案填在题后的“正确答案”[]中。需注意的是,如果题中你不能确定答案,可以把你认为的正确答案填写在“可能正确答案”[]中,并按肯定的顺序填(正确性大者在前,依次填之)。评分标准:“正确答案”正确得4分,不正确得0分;“可能正确答案”涵盖“正确答案”者,选两项得2分,选一项得1分;不包括正确答案及全部选择的不得分。样题略)。1名高一物理教师、1名学科教学论教师和2名物理学科教学论研究生构成阅卷组成员。2名研究生阅卷、2名教师复查,对存有异议者集体讨论。之后,研究生对51份试卷整理、分析并运用统计软件SPSS得到如图2所示的关于学生真实水平、单选题、新选题的对比盒须图。

盒须图与其他统计图(如饼形图、条形图、直方图等)相比,有负载信息量大的特点。它能同时显示中位数、四分位差、最大值、最小值以及异常值(文章中所作盒须图未出现异常值,不作解释)的信息,对于我们的研究来说它可以直观表现学生真实水平以及单选题、新选题测试学生结果的变量值分布。如图2所示封闭的矩形框即所谓的“盒”,构成“工”字形的三条线中间的那条竖线就是所谓的“须”。“盒”的上下边缘线分别表示第75和第25个百分点,中间横线表示中位数,“盒”的上下边缘线之差称为“盒长”(即变量的四分位差),整个“盒”包括了中间50%的观测量。“须”连接了最大值和最小值,它的长度称为“须长”。

图2 新选题、单选题、学生真实水平的盒须图

由图2可知,新选题和单选题在评价学尖生和学困生上基本没有差别(最低分均为25分,最高分均为85分),但在中等生的评价上出现了明显不同:新选题所给出的盒须图的“盒长”远大于单选题之“盒长”,这样中间学生就被分布于更大的分数空间(因为“盒”的下边缘线表示变量的第25个百分点,上边缘线表示变量的第75个百分点,即“盒长”为中等生的分数分布空间),从而增大了区分度(应用极端分组法可得新选题的区分度为0.41,高于单选题的0.38);另外综合考虑盒须图的盒长、须长、第25个百分点、第75个百分点、中位数、最大值、最小值七个方面,新选题的测试结果都更贴近学生的真实水平。这样就证明了假设一。

为了检验它们的差异性,我们将新选题测试结果与学生的真实水平以及单选题测试结果与学生的真实水平分别组成两对配对变量,检验两对配对变量差值的均值与零之间是否显著不同,运用SPSS统计软件得出表2和表3。

表2 新选题测试结果与学生的真实水平差异性测评表

表3 单选题测试结果与学生的真实水平差异性测评表

统计学中常用置信区间和置信度(置信度与显著性水平之和为1)来说明总体平均值可能的分布范围,文章中所涉及到的是推测新选题题型与学生的真实水平差值的平均值以及单选题题型与学生的真实水平差值的平均值的分布范围。置信区间指的是根据参数的点估计所获得的总体平均值可能位于的数值范围,需要说明的是我们所推测的是总体平均值可能的分布范围,推测总体平均值等于或是不等于某一个具体的数值是没有意义的。置信度指的是从总体中抽出的所有可能的样本平均值位于置信区间的百分数,通俗地讲置信度就是作区间估计时的把握程度。两个最常用的置信区间是95%的置信区间和99%的置信区间,文章中所用的是95%的置信区间。

表2表明差值的95%的置信区间是[-0.481,0.299],由于这一置信区间包括零,因此可以接受原假设二,即新选题的测试结果与学生的真实水平之间的差值平均来说为零是可以接受的;同时显著性水平为0.638,也就是说有36.2%的把握认为它们差值的均值为零即反映学生真实情况。表3表明差值的95%的置信区间是[-1.641,1702],这一置信区间同样包括零,也接受原假设二,即单选题的测试结果与学生的真实水平之间的差值平均来说为零亦可接受;同时显著性水平为0.971,也就是说有2.9%的把握认为它们差值的均值为零。从以上分析我们可以看出虽然新选题和单选题考查学生的结果同学生的真实水平均不存有显著差异,但是我们说新选题考查学生的结果与学生真实水平无显著差异的把握要更大一些(36.2%>2.9%),从而体现出新选题型在科学、真实地评价学生真实水平方面的优越性。

五、结论与反思

实验表明,相对于单选题,新选题具有较高的区分度,考查结果亦更接近学生的真实水平。

新选题的显著特点是错误答案也能得分,这是否违背评价的科学性和权威性?对此,我们是这样理解的:多元智能理论及我国的新课程理念均倡导评价的真实性和发展性,而新选题赋予了学生呈现自身真实知识及能力的空间。另外,学生对选项的遴选次序反映了学生的思维过程,这样就弥补了选择题难以考查学生的思维过程的缺憾,从而帮助教师科学有效地教学。事实上,学习的过程就是不断吐故纳新、扬谬求真的过程,学生对某些问题的模糊理解、片面认识正是他们学习过程的真实写照和必经之路,对此,我们不能置之不理,更不能全盘否定。肯定学习中的错误、彰显评价中的过程也是新课程的理念之一。

标签:;  

一种贴近实际评价的选择评价问题类型--关于单一多项选择问题改革的研究_置信区间论文
下载Doc文档

猜你喜欢