也谈试卷命制的内容规范及审核论文_张森

安徽省淮北市濉溪城关中心校　235100

摘　要：试卷命题是测量与评价的重要内容之一，命题的质量直接影响评价结果，因此，如何命出高质量的试卷非常关键。命题的内容规范及审核要从内容规范的内涵，借鉴国外的评价经验，内容规范的审查，一致性分析的案例谈试卷命题的内容规范及审核。

关键词：内容规范　多维评价　双向目标

众所周知，考试是甄别、选拔及评价的主要手段，而试卷命制是其得以顺利实施的重要保证。具有一定经验的命题者都熟谙一个道理，即科学、规范的试卷命制需要依据规定的内容及其特定的要求，不可以随意而为之。为此，我们需要借鉴测量与评价领域的重要概念——内容规范，并使用一致性分析理论来探讨此问题。

一、内容规范的内涵

内容规范（content specification），是试题规范的重要组成部分，它决定了什么内容可以或应该进入到考查的范围之内，它向考试相关利益人传递考核内容及标准的相关信息。内容规范包括考试的测量目标与行为目标，以及考试所涉及的内容领域。测量目标又包括理论目标和操作目标，前者是对考试结果的抽象期望和总体解释，通常是不可测的，后者是具体界定测量目标的行为目标和行为准则，通常是可测的。测量目标反映出考生经过一段时间学习之后所获得的最终结果或达到的目标。行为目标不需要包含具体的表现形式和课程内容，它是具体方式的概括。

在我国的课程标准中，就有关于测量目标和行为目标的陈述，均以行为动词开头，该动词反映出考生行为表现的类型或水平。在美国教育领域，内容规范由众多内容基准（benchmarks）组合而成，它们是考查内容的标尺和准则。内容基准描述了某段学习结束时学生应当知道的东西或会做的事。通常，内容基准按照年级，以简洁明了的方式列举出所要学习的概念、定理、原理、方法、问题，以及相应的认知水平、要求或技能，包括思维技能、操控技能、合作探究技能和人际交际技能。

内容规范所涉及的内容领域由确定的内容组成。内容领域具有结构性，即内容领域为不同类型的内容组成，不同类型的内容有一定的比例，内容领域每一类型的内容都具有测量的行为目标。因而，内容规范是考查内容的范围、结构和行为目标的综合体。

二、美国的内容规范

为了规范考试命题，我们需要基于科学的理论基础和广泛的实践经验的标准和规则来约束它。因此，内容规范不可或缺。美国更聪明平衡评价联盟（Smarter Balanced Assessment Consortium）开发的评估系统要求内容规范建立在现代测量学原理和心理学理论基础之上，特别强调基于证据的开发、评估三角、认知与迁移、学习进程框架、共用式学习设计、认知严格性，知识深度和形成性评估。2001年，帕拉格里诺（James W. Pellegrino）率先提出“评估三角”的概念，将认知、观察和解释融为一个系统，为评估论断和评价目标的形成提供了重要的理论基础和解释方法。

基于此，下一代光明州立标准（Next Generation Sunshine State Standards ）还将评估涉及到的科目、年级、知识体系、内容、标准等要素进行编码，用一个形如MA.6.A.1.1的代码表示，进而可以简洁地、清晰地表述相应的内容标准。

图. NGSSS评价代码示例

按照从左至右的顺序，MA表示数学学科，数字6表示6年级，字母A表示知识体系（或称为知识领域）是代数，A后的第一个1表示大概念，第二个1表示评价基准（benchmark），所有的基准集合构成了标准簇（cluster）。基准的代码构成了一个分类系统，它的形成需要考虑知识的体系、报告分类、标准、基准、试题类型、基准说明、内容限制、刺激属性、反应属性、样题和试题情境。

SBAC在《共同核心州立标准（数学）》（Common Core State Standards for Mathematics）里对内容规范进行了详细的说明，共涉及到六个数学知识领域，即数与量、代数、方程、建模、几何、统计与概率。每个知识领域又包含了若干的大概念（支持性概念），即二级知识体系，或称为数学知识模块。每一个大概念对应了若干基准（标准），所有的标准组合起来，则形成了标准簇。标准簇将数学的内容规范和实践规范连接起来，并用以判断学生是否达到了相应的学业水平，进而作出进一步的学业评价。并且，SBAC还将内容规范分解的更加细致，与评价论断、测验目标、试题类型、认知复杂度、知识深度等方面组合起来，形成一系列具体的内容规范，为大规模教育考试的命题者和教育研究者提供了可行的工具和研究平台。马里兰州对于数学内容的规范还有特别的要求，即聚焦性（要求在每个年级集中考核2-3个主题）、连贯性（概念在逻辑上连接一个年级到下一个年级，在年级内与其他主要主题有关联）、精确性（熟练算法，将知识应用到现实世界中，促进数学概念的深层理解）。

权威的内容规范及其统一的执行方式便有了内容标准，内容标准提供了学生学习的期望，基于标准的评价能够反映学生当前的学习状态与标准的期望之间的差距，通过评价获得的、作为问责的学业成就数据是学校教育的结果，只有依据这种数据的问责才能公平。教育系统内的问责（accountability）必须使用学生学习的多样证据，必须关注于帮助教师提高所有学生的学习成就，必须涉及那些与课堂有直接和密切关系的因素，政府的基本责任在于确保公平性和个人权力的前提下，向学校和教师提供支持。美国政府非常善于运用问责，在NCLB法案的推动下，“问责”成为联邦进行奖惩和干预教育的重要手段。不过，美国公众对于问责颇有微词，在对其进行一番贬斥之后，人们开始关注真正的问责（authentic accountability），其原则是提升、平等、民主和信息公开，执行的途径包括使用多种形式的证据、参数或指标、学生评价。

三、中国的内容规范

我国基础教育数学考试的内容规范主要是以课程标准和考试大纲为依据，在内容范围及其认知水平上作出了相关规定。内容规范是考试命题必须遵从的约束与规则，如果命题脱离了内容规范，其后果显而易见：评价内容无法覆盖或随意超出课程标准，学生的学业成就水平无法界定，评价很可能会迷失方向，日常的教学活动缺乏可支撑的抓手，从而陷入无所适从的局面。在我国，没有专门的内容规范，内容规范在课程标准中体现。一直以来，课标标准为课程的实施及考试命题提供了重要的依据。然而，经过十余年的新课程改革，我们确实有感于基础教育课程标准及其所规定的内容规范和表现标准很有修订的必要。2011年，《义务教育数学课程标准》修订完毕，2013年，《高中数学课程标准》修订工作开始启动。在修订过程中仍有许多问题不容忽视，如编制时间较短，研究基础不够深厚，在内容规范的具体化、清晰度上存在很多问题，内容标准和表现标准混杂，教学建议、评价建议笼统模糊，用以帮助理解的样例不够典型等。而且，课程标准的制定总是阶段性地落后于课程目标的发展，难以体现知识、技能、能力、观念、个性品质多维目标群体，更难以实现“社会本位”、“知识本位”与“学生本位”相结合的期望。

四、内容规范的审查

考试内容的选择与确定不是随意而为之，更不能盲目地沿用所谓的“传统做法”，它与社会发展需求、个人发展需要，以及课程与教学的发展实际密切相关。内容领域或主题是否符合要求还需要进行一致性分析，即判断内容领域或主题是否与课程的内容标准的内容领域或内容主题保持一致，方法如下：一是检查考试大纲或其他考试文件规定的考查内容领域或内容主题与课程内容标准的内容领域或内容主题是否一致；二是检查大纲或其他考试文件是否规定了每个内容领域或内容主题的试题分布，不同内容领域或主题的题量是否满足了课程内容标准规定的内容分布。另外，还需要检查考试所包含的技能及其层次与标准是否一致，以及检查试题的难度范围与表现标准是否一致。

为了分析内容规范与考核内容的一致性，首先要审核内容领域的结构，它是指考查的内容知识的分配比例，以及相关的行为目标，这一点可以采用逻辑分析法来判断内容规范与课程、教学、评估是否适恰，并与相应的内容标准进行比对。在美国，为了统一考核的内容规范，联邦政府将考试与课程标准的一致性提到了法案层面，凡是希望获得一号拨款（Title I Funding）的州，必须表明其大规模教育评估与本州或国家核心课程标准一致。在“力争上游”（Race to the Top）项目的推动下，“共同核心州立标准倡议”（Common Core State Standards Initiative，CCSSI）诞生了，并作为目前美国绝大多数州教育一致性评价的主要标准。在我国，为了保证大规模、高利害考试内容的科学性、严谨性，以及与课程标准的高度一致性，我们同样也需要对测评内容与课程标准的一致性进行分析。一致性分析是衡量课程标准执行程度的依据，是考试的科学性与规范性的保障、考试结果效度的追求，也是实现基于标准的评价的价值追求的手段。

当前，一致性分析的模型很多，Achieve一致性模型由斯莱特里（Jean Slattery）开发，包括4条标准：即内容一致性、表现一致性、挑战性、平衡性和范围。Webb一致性模型是目前比较成熟且有影响力的一致性分析模型，包括五条评价标准：类型一致性、知识深度一致性、知识范围对应性、知识内容平衡型、挑战的来源。类型一致性保证了测评内容主题范畴与标准一致，知识深度一致性保证学习内容的认知要求与标准一致，知识广度的一致性保证了测评的知识跨度与标准一致，知识样本平衡的一致性保证了测评内容在关注程度和数量上与标准一致，挑战的来源保证了题目难度与标准一致。

基于Webb一致性理论，考试内容与内容规范一致性可由以下方法来判断：在知识种类方面，要求击中领域目标的测试题目的平均数≥6；在知识深度方面，要求达到目标深度水平要求的测试题目数的百分比的平均数≥50%；在知识广度方面，要求击中水平之下目标数的平均数的百分比≥50%；在知识分布平衡性方面，要求知识分布平衡性指数的平均数≥0.7。此处，我们没有定义“挑战的来源”的可接受水平的指标，原因在于我国的课程标准对知识的“挑战的来源”很少明确提出，或者是界定不够清晰，因而将此项一致性分析暂且忽略。

五、一致性分析案例

为了给广大研究者提供真实的体验，下面将H省某次考试的双向细目表进行改造，将每一题所考查的知识点进行分解，并对应到相应的认知层次中，同时将分值比例、课时比例和知识深度与所考查的知识领域和主题进行对照，可以得到它们的匹配程度。知识深度（DOK)共设置了1、2、3、4四级，分别对应到回忆或呈现、基本技能和概念、策略性思考和推理、扩展性思考四个不同深度的认知复杂度。题型有选择反应题型、填空题、建构反应试题；难度取平均值；匹配程度是指分值比例与课时比例的匹配程度，以及认知层次、知识深度与实际难度的匹配程度的总体比较，匹配程度共分为低、中、高三档。知识种类的主题与具体目标分别来自于考试大纲的一级和二级目录，击中（Hits）数是指测量内容包含具体目标领域的题目数量，百分比是该项击中数占所有击中数的百分比例，接受度是根据百分比的值人为确定的可接受水平（＜50%为低，＞80%为高，其余为中）。

知识深度的认知要求来源与考试大纲对该知识点的相关规定，DOK是基于全体考生样本的平均水平所得到的实际知识深度，击中数是指二者吻合或相同的数量，百分比和接受度如上定义。此处，知识深度并没有按照回忆或呈现、基本技能和概念、策略性思考和推理、扩展性思考四个等级来区分，而是采用考试大纲所规定的了解、理解和掌握三个层次。

知识分布平衡性需要考查试题在各项具体目标之间分布的均匀程度。在此，将Webb的一致性模型进行了简化，用课程标准所规定的课时数来代表相应知识点的重要性，将其百分比与相应的分值百分比的比值定义为平衡性指数（用较小者与较大者作比）。知识广度一致性分析用以考查测量目标期望学生具有的知识范围与学生正确应答该题所必须的知识范围的匹配程度。

基于双向细目表、课程标准与试卷的微观对比和数据分析，此试卷的每一道试题都没有超纲，答题所需的知识也均在考试大纲的范围之内，因而广度指数均为1，可接受度最高。纵观整个试卷，知识种类击中领域目标的试题平均数为　（19+6+3+3）=7.75＞6；符合具体目标深度水平的试题数目百分比的平均数为　（0.917+0.667+0.571+0.333）=62.2%＞50%；知识分布平衡性指数的平均值为　（0.859+0.552+0.75+1）=79%＞70%；知识广度指数为1，远大于50%。因此，根据Webb一致性水平判断标准，该试卷在知识的种类、深度、广度及分布平衡性四个方面均达到了理想的一致性，完全符合内容规范的要求。

综上，内容规范及其审核是考试命题的重要途径及手段，是科学、规范、有效命题的主要依据。美国在内容规范领域的先进举措可为我国考试与评价提供重要的借鉴。

参考文献

[1]雷新勇大规模教育考试命题与评价[M].上海，华东师范大学出版社，2006，98-103。

[2][美]Norman E.Gronlund C.Ketth Waugh 著杨涛边玉芳译学业成就评测（第9版）[M].北京，教育科学出版社，2011，5。

[3]雷新勇基于标准的教育考试—命题、标准设置和学业评价[M].上海，上海科技出版社，2011，8。

[4]雷新勇大规模教育考试命题与评价[M].上海，华东师范大学出版社，2006，85。

[5]陈吉基于标准的大规模数学学业评价之命题研究—中美比较[D].上海，华东师范大学博士学位论文，2012，71。

[6]崔允漷王少非夏雪梅基于标准的学生学业成就评价[M].上海，华东师范大学出版社，2008，109。

[7]崔允漷王少非夏雪梅基于标准的学生学业成就评价[M].上海，华东师范大学出版社，2008，86。

[8]叶蓉李生国美国强化基于标准的学业成就评价及其启示——以美国中部区域教育实验室中心2008年某报告为例[J].现代教育论丛，2009，（2），29。

[9]吕世虎叶蓓蓓 1949-2011中国中学数学课程目标发展演变的特征分析[J].数学教育学报，2012，21，（5），5。

论文作者:张森

论文发表刊物:《中小学教育》2017年6月第282期

论文发表时间:2017/6/5

标签：内容论文; 标准论文; 知识论文; 目标论文; 评价论文; 领域论文; 命题论文; 《中小学教育》2017年6月第282期论文;

也谈试卷命制的内容规范及审核论文_张森

猜你喜欢