2.3 评价素养的定义、内涵与相关研究_中国中学英语教师评价素养研究（外国语言文学学术论丛）-QQ阅读中文青春网

上QQ阅读APP看书，第一时间看更新

2.3 评价素养的定义、内涵与相关研究

教师所需要的评价知识显然不同于测试专业人员的知识，而且基于上文教师知识的讨论，教师需要的评价方面的知识应该是一个动态的复杂的内容。因此，本节开篇拟分别讨论“评价”以及“素养”这两个词语的内涵。在教育学领域，从20世纪50年代开始，对教师应该拥有哪些测量方面的知识和职前的准备情况，研究者们已经开始探讨。1991年“评价素养”这个概念的提出，进一步推动了教师评价素养的研究。然而评价素养这个概念进入语言测试与评价领域却是二十年以后的事情，因此教育学领域在评价素养方面的研究方法和研究成果对本研究都有重要的借鉴意义。

2.3.1“评价”及“素养”探源

根据Mousavi（2009：360），评价的英文单词assess源自拉丁语assidere，意思为“坐在旁边”。关注过程并积极参与的长者“坐在”学习者“旁边”，将自己完全融入学生的生活和世界观中，来了解他们的水平、背景、教育目标和预期的结果。Carroll（1968，转引自Bachman，1990：20）给测试下的定义是：测试是一种为诱导出某种行为而设计的程序，通过这种程序人们可以推断出一个人在某个方面的特征。这里要特别注意的是，通过测试只能收集到行为的某些样本。

Clapham（2000）指出，“评价”这个词通常有两个含义。一个是作为上义词，涵盖测试与评价的所有方法。另一个是作为另类评价（alternative assessment）的代名词，与测试进行区别。有些应用语言学家把测试等同于标准化测试，如雅思、托福、大学英语四六级等大型考试的命题与施测。这些测试有固定的时间、固定的场所，按照固定的程序进行。这些应用语言学家把档案袋评价等比较不正式的另类评价归入到评价的名称之下。例如，Valette（1994）认为“测试”就是大规模的水平考试，而“评价”就是校内测试。Hill和Parry（1994）将他们主编的书命名为《从测试到评价》（From Testing to Assessment），提议从正式的考试和测试转向连续性的评估。Fulcher和Davidson（2007：24）对大规模语言测试和课堂评价进行了剖析，认为“两者之间最大的差别在于课堂环境。在课堂评价中，学习者是以正在学习的人来呈现的，教师以协助学生学习的地位处于学生的学习过程中”。Moss（2003：13）曾这样写道：“虽然时不时地，我会把‘评价’作为一种孤立的问题提出，但是要把在实际的学习环境中设计出来、然后将其付诸实践的某些活动独立出来，并将其称作是‘评价’是人为的做法。”

在Clapham（2000）看来，虽然“评价者”和“测试者”有相同的目标，但他们之间的对话是远远不够的，原因可能是两者把“测试”和“评估”看做是截然不同之物。如Hill和Parry（1994）觉得“测试者”就是要提供经过仔细验证的选择题等，而“评价者”就是要为学生提供与生活接近的任务，至于任务表现如何却不那么要紧。“评价者”似乎不太信任极端的“测试者”，因为前者认为后者过于注重数据分析，而对测试本身的内容关注不够。这些“评价者”往往担心这些“测试”不够有交际性，可能会导致不良的反拨效应（Brown & Hudson，1998）。例如，Huerta-Macias（2002）指出另类评价由于其本身特性——直接性——就保证了其效度。其一致性通过程序的可审查性、运用多种任务、对评分员的标准进行培训和通过多方验证来实现。他认为，另类评价避免了传统测试中建立常模、语言偏向和文化偏向等带来的内在问题。

反过来，许多“测试者”担忧的是，“评估者”的方法可能是新颖的，但是这些方法没有经过试测，能否像“评估者们”所想象的那样起作用就不得而知，同样整个施测和评分过程的可靠性也值得商榷。换句话说，“测试者”对“评价者”的诟病就在于测试工具的信度和效度问题上。例如Brown和Hudson（1998）就认为Huerta-Macias（1995/2002）的观点可能会导致不负责任的决策。把信度和效度直接考量于评估方法本身是不够的，必须通过测验来看这些方法是否是可靠和可信的。

实际上，教师编写的试题一直是教育家们关注的问题。Gronlund（1985：267）讨论了大规模测试与教师编写的试题之间的显著区别，指出只要试题设计良好，教师编写的试题效度更高，更贴近学生们的学习目标。同时他也认为大规模考试的试题由于出自专家之手，经过试测与磨题，质量更高。相反，教师编写的试题经常是粘贴、改编，一次性使用，试题质量相对较低，通常没有考虑信度问题。许多教育者认为对于教师来讲，编制出良好的试题是挑战性很高的任务（Davidson & Lynch，2002）。选择题虽然在大规模标准化测试中大量使用，并被认为对测试的信度有重要贡献，但是专家们认为好的选择题是极难编写的（Hughes，2003：77；Alderson et al.，1995）。

Harlen（2007：27）指出，英文单词literate的定义现在已经不仅仅局限于读写能力了。它的含义通常延伸为能够有效地参与现代生活的方方面面。因此有了下面这些新词，如“技术素养”“数学素养”“信息素养”“科学素养”，甚至还有“政治素养”和“社会素养”。在这些方面拥有素养，指的是每个普通人都必须拥有的知识和技能，而不是指这个领域的专家应该拥有的知识。因此，它的重点不在于掌握整个知识系统，而在于拥有并且能够运用对某个领域的重点内容的理解来做出明智的决策，并参与其中。“素养”不再指读写“技术”“政治”“科学”等内容的能力，而是指能够运用相关的知识和技能来参与关于技术、政治、科学等日常生活中的问题的讨论，并做出相应的决策。

2.3.2 普通教育学领域评价素养

长期以来，测量方面的学者发现在实践中，虽然教师花大量的时间进行测试或评价相关的事情，但是他们的评价素养却很低。研究者们从评价素养的定义、评价培训情况和方式等方面进行了研究。本部分将从评价素养的定义出发，转向评价素养构念的探索，进而转向关于评价素养的实证研究。

2.3.2.1 评价素养的定义

在界定什么是评价素养方面，Rick Stiggins做了重要的贡献，成为评价素养概念的鼻祖。所以这里从他的定义出发开始讨论。

1）Rick Stiggins的定义

最早提出评价素养（Assessment Literacy）概念的是Rick Stiggins。在1991年的文章中，他首先用否定式提出了该概念（Stiggins，1991a）。他指出，缺乏评估素养的人不了解怎样产生高质量的学生学习成果数据，从而不能够批判性地评价他们使用的数据。一句话，缺乏评价素养的人缺乏有效的工具来批判性地看待评价得出的数据。之后他构建了拥有评价素养的教师的特点：拥有评价素养的人基本上了解高质量的评价和低质量的评价的含义，能够运用这些知识来测量学生的成果。他们询问两个关键问题：这些评价揭示了我们所重视的学生成果的哪些方面？这些评估对学生有可能产生怎样的影响？他们追求并使用能够传达清晰的、准确的和丰富的评价方法来评价所关注的学生成果。他们知道什么才是高质量的评价，他们了解能够准确反映成果目标的评估方法的重要性。他们了解完整地对学生表现进行取样的重要性。他们了解外部的哪些因素可能会干扰测试结果，而且他们了解什么方式的成绩报告易于理解并被加以应用。当测试目标不清晰时，或者评价方法没有测到目标时，学生表现样本不足时，外界因素混入测试数据时，以及当测试结果对他们毫无异议时，他们内置的警钟就会敲响。

四年后，Stiggins（1995）再次勾画了拥有评价素养的教师的形象：拥有评价素养的人们能够区分什么是好的评价和不好的评价。他们不惧怕评价这个技术性很强的、令人捉摸不透的世界。他们知道怎样达到特定的质量标准。这些标准认为好的评价如下：（1）源自并服务于清晰的目的；（2）源自并反映清晰的恰当的成果目标；（3）依靠合适的评价方法；（4）对学生的成果合理取样；（5）控制所有偏颇与歪曲的相关源。换句话说，拥有评价素养的教育者在测试中知道该测什么、为什么这样测、怎样才能最好地测试关注的成果、怎样诱导出良好的表现样本、问题可能出在哪里以及怎样在测试前避免这些问题。

2）Paterno的定义

Paterno（2001，转引自Mertler，2004）将评价素养定义为：拥有关于良好的评价行为的基本原则的知识，包括对术语的理解、评价方法和技术的开发和运用以及对评价质量标准的理解……还有对传统的测量方法之外的另类评价的熟悉程度。

3）Boise州立大学学校进步和政策研究中心的定义

Boise州立大学的学校进步和政策研究中心也对评价素养进行了界定。他们认为拥有评价素养的研究者能够辨识出良好的评价、评估和结果传达行为；明白应该采用哪些评价方法去收集关于学生学习成果的可靠的信息；能够运用成绩汇报单、测试分数、档案袋或小组会议有效地传达评价结果；能够让学生积极地参与到评价、成绩记录和传达结果中来，运用评价来激发学生的学习动机，促进学习。

4）James Popham的定义

作为一名著名的教师教育者，加州大学洛杉矶分校的Popham教授在从事多年教师培训后，将忽视教师评价素养训练的教师培训称为一种“罪恶”的行为（2011）。他认为今天的教师要想把工作做好，无论如何也需要拥有评价素养。他把评价素养界定为：

评价素养包括教师对被认为可能对教育决策产生影响的评价基本概念和程序的理解。[原文强调]

对画线部分，Popham做了详细的阐述。首先，理解的意思是拥有评估素养的教师不需要实际计算难懂的测试信度系数等。而是要能够理解测试信度的涵义，以及不同的信度系数怎样以不同的方式表征测试的一致性。基本的理解就是评价素养的基本要素，并不是要掌握那些深奥的测量程序。评价基本概念和程序指的是那些最核心的评价内容。比如它应该要包括“效度”和“测试偏颇”等评价中最为基本的概念。可能对教育决策产生影响界定了教师需要了解的评价内容的范围，就是在日常教学中帮助做决定的评价方面的内容。

2.3.2.2 评价素养的构念探索

Ebel（1962）提出了十个在教育测量方面对教师来说非常有用的原则。他认为：（1）教育成就测量对有效教育极其重要。（2）教育测试仅仅是辅助或延伸或修改教师对学生的进步进行观察。（3）每种重要的教育成果都是可以测量的。（4）最重要的教育成果是对重要知识的掌握。（5）书面测试适合测量学生对重要的知识的掌握。（6）教师要编制用于测量教育成果的绝大多数测试。（7）为了有效地测量学习成果，教师要成为被测试内容方面的专家，也必须掌握测试中的实践艺术。（8）课堂测试的质量依赖于测试任务的相关性，教学内容的取样代表性和产出成绩的信度。（9）成绩分布愈广，差别越大，成绩的信度就越高。（10）测试的信度可以通过增加题目数量（或增加采分点）或者增加区分度来提高。

Stiggins（1993）在多年研究的基础上，提出了教师在课堂评价方面应该拥有的六项能力：（1）课堂评价所有的可能的用途；（2）教师们期望学生能够达到的成果目标以及这些目标怎样被转化成评价；（3）良好评价的质量问题；（4）所有可能被运用的评价手段；（5）课堂评价中的人际方面的内容；（6）评价结果该如何形成以及如何反馈。

1990年美国教师联合会（American Federation of Teachers）、国家教育测量理事会（National Council on Measurement in Education）和全国教育协会（National Education Association）联合颁布的《学生教育评价中的教师能力标准》（Standards for Teacher Competence in Educational Assessment of Students）（AFT，NCME，& NEA，1990）。该标准中列出了教师评价素养的7条标准。它们分别是：（1）教师应该能够熟练地选择恰当的评估方法用于教学决策。（2）教师应该能够熟练地编写恰当的评估方法用于教学决策。（3）教师应该能够熟练地就外来测试和自己编写的试题进行施考、评判和分数解释。（4）教师应该能够熟练地运用评估结果来对每个学生做判断、规划教学、发展课程和促进学校进步。（5）教师应该能够熟练地编写有效的评分标准用于学生评估。（6）教师应该能够熟练地为学生、家长、其他外行人士及老师传达评估结果。（7）教师应该能够熟练地辨别不合道德、不合法和不合适的评估方法以及对评估信息的滥用。

美国北加利福尼亚大学的SERVE网络上公布的教师评价素养包括：能够界定清楚的学习目标，成为编制或选择评价学生学习的基础；能够利用多种评价方法来收集学生学习的证据；能够分析学生学习成果数据（包括定性和定量的数据），并根据数据作出恰当的推断；能够为学生提供恰当的反馈；能够对教学进行恰当的调整以帮助学生进步；能够让学生参与评价过程（如自我评价和同伴评价）并有效地传达结果；能够创建有效的课堂评价环境，提高学生的学习动机（SERVE Center，University of North Carolina，2004）。

Sadler（1998）认为拥有评价素养的教师应该有如下特点：很好地掌握了教学内容，并有愿望帮助学生发展进步，做得更好；有选择和编写评价任务的技能；了解跟评价任务相对应的标准；在分析和使用评价信息时体现出评估技能和专业水平；善于给出恰当和准确的反馈。

McMillan（2000）提出了他认为能够带来有效的教育实践并提高学生学习的最重要和根本的评价知识和技能的11条原则。分别是：评价本质上是一种专业判断；评价基于独立又相关的测量证据和评估之上；评价中的决策受到多种关系的影响（如测试的不同目的）；评价会影响学生的学习动机和学习成果；评价会有误差；良好的评价促进教学；良好的评价效度要高，因此要充分理解效度问题；良好的评价是公平和合乎伦理的；良好的评价运用多种方法收集数据；良好的评价是高效而可行的；良好的评价恰当地运用了科技手段。

2003年，美国教育评估标准联合委员会（The Joint Committee on Standards for Educational Evaluation，JCSEE）出版了《学生评估标准》（The Student Evaluation Standards）一书。该书对教师在课堂评价中的知识和技能做了详细的说明。2015年，美国教育评估标准联合委员会对课堂评价标准进行了修订。根据修订稿第五稿，研究者发现新的课堂评价标准共分为三条主线，即六个基石标准、五个使用标准和六个质量标准。六个基石指的是课堂评价必须有清晰的目的并支持教学和学习；课堂评价行为要跟每个学生要学习的内容相匹配；课堂评价的类别和方法要允许学生展示他们的学习；学生必须要有意义地参与评价过程，运用评价结果来增进学习；在资源、时间和学习机会方面要给教师和学生充分的准备；课堂评价的目的和运用要传达给学生，必要时传达给家长。五个使用标准指的是：分析学生学习成果的方法要符合评价的目的和行为；课堂评价要给学生提供及时和有用的反馈来改进学生学习；对学生表现的分析要帮助教学规划来支持不断的学习；终结性课堂评价的分数和评语要反映学生的学习目标；学生评价汇报要基于充足的学习证据，能够为学生学习提供清晰、及时、准确和有用的总结。六个质量标准指的是：课堂评价行为要对学生所处环境的文化和语言做出反应和尊重；课堂评价行为要有差别地满足所有学生特定的教育需求；课堂评价行为和接下来的决定不能受到跟评价目的无关的因素的影响；课堂评价行为应该提供准确和恰当的信息来支持关于学生知识和技能的良好决定；课堂评价行为应该提供一致和可靠的信息来支持关于学生知识和技能的良好决定；课堂评价行为应该受到监控和修改以改进整体质量。最新版本请读者参阅Klinger及同事（2015）。

Stiggins（2010）认为，对于教师来说，课堂评价的能力核心是围绕着如何构建高质量的评价来获取准确反映学生学习成绩的信息和使用课堂评价程序和结果来不仅监控学习，而且要促进学习的能力。Stiggins及同事（2006）构建了高质量课堂评价的框架，包含五个要素。研究者在此将这五个要素用图2.7来表示。

图2.7 Stiggins高质量课堂评价框架（改编自Stiggins et al.，2006）

在图2.7中，Stiggins及同事将教师的课堂评价行为分成两大块。一块是准确的评价，另外一块是高效地运用。在准确的评价中，又包含了三个要素，即清晰的目的、清晰的目标和良好的设计。高效地运用包含了有效的传达和学生参与。做好这每一步，都要求教师在具体方面具备相应的能力。Stiggins（2010：244）针对高质量课堂评价的五个要素，列出了24个教师在高质量课堂评价中应该做到的行为指标观察点，如表2.1所示。

表2.1 Stiggins（2010）高质量课堂评价中的教师行为指标

Brookhart（2011）针对当前形成性评价的兴起和基于标准的评价改革和问责制，认为学生教育评价中的教师能力标准（AFT，NCME，& NEA，1990）应该得到升级。她结合当前的研究结果，列出了11项当前教师们需要拥有的评价素养。如表2.2所示。

表2.2 Brookhart（2011）教师教育评价知识和技能框架

Sadler（1989）的反馈模式也涉及教师应该有的知识。首先，教师要充分了解教学中的知识基础。其次，教师要带着自己的一系列态度和情感进入教学，比如对反馈的效度的关注。第三，教师要具备设计和编制测试、设计任务的技能，并用这些方式来从学生那里获取相应的信息。第四，教师对评估任务的标准有很深的了解。第五，教师拥有根据学生在以往任务中的表现来推断学生努力程度的能力。最后，教师具备为学生撰写反馈评语的能力。同时，由于教师和学习者对评估的了解和关注角度不同，教师传达评估重点的能力也非常重要。鉴于此，Sadler进一步提出，教师在职前和在职阶段应该有专业的培训来掌握形成性评价的具体要求。

2.3.2.3 国外评价素养的实证研究

关于评价素养的实证研究可以追溯到20世纪50年代。研究者通过对文献的查阅发现，国外研究者们对评价素养的研究大体上分为以下几个方面：1）对全国范围内教师教育项目是否提供评价与测量课程的调查，以及教师对评价与测量课程感知的调查。2）研究者们对教师评价素养的能力的测试。3）研究者们对目前教师缺乏评价素养，以及对测量与评价课程没有得到足够重视的一些思考。4）评价与测量课程与教师实际工作中的评价行为的衔接问题，以及如何考量评价与测量课程的质量的问题。

1）评价与测量课程开设调查与教师的感知

Noll（1955）在他的研究样本中发现，只有21%的教师教育项目要求教师修习测量学。因此他的结论是职前教师在测试和测量学方面的准备“绝对不足以让他们能够有效地在应对测试，而测试又是决定教师成败的最重要方面之一。这种情况应当引起所有教师培训相关人士的注意”。

但是，现实并没有响应Noll（1955）的呼吁。Schafer和Lissitz（1987）运用文献法和调查法探讨了学校从业人员在测量学方面接受的培训现实。他们的研究问题为：关于教育评价，教师们应该知道什么？教师已经知道什么？教师培训提供了什么？怎样才能提高培训的质量？他们向美国707个学院发放了问卷，438个学院做了回复，调查的学科涉及教育管理、学校咨询、社会学、数学、英语、科学、基础教育和特殊教育。他们发现，在这438个学院中，不到一半的学院要求学生在测量学方面上完一门课程。

教师们如何看待测量培训的缺乏和实际工作对测量知识的需求之间的矛盾呢？仅有的少数研究结论是教师认为他们已经有了足够的测量技能。Gullickson（1984）调查了391名教师关于测量相关的问题的态度。他的结论是：教师认为他们的测试和测量知识是足够的。大多数教师都认为他们是通过课堂经验来获取对测试和测量的了解的。Gullickson（1984）认为这样的结果表明“教师们可能过高地估计了他们对测试的了解”。相反，教师大量使用测试、预设的测试效力、对测试的评价功能的局限性的认识、教师可能对测试知识缺乏细致了解、教师“自诩”的其对测试知识的了解，这些因素都促使我们要充分考虑对教师进行能够满足他们实际需求的教育测量方面的正式培训。

在另外一项研究中，Gullickson（1986）比较了大学测量和评价学教授和初高中教师对职前教育评价课程的看法。通过邮件问卷，Gullickson采集到了美国中西部7个州24名教授和360名教师的数据。教授们被要求告知他们认为在职前教育评价课程中，哪些内容是他们所强调的。而一线教师被问及的是他们认为教育评价课程中的哪些内容是重要的。问卷各包含67个话题，可以被归结为八类。这些类别包括：为学生备考（13题）、为测试施测和评分（7题）、测试选择和使用中涉及的基本评价信息（11题）、运用另类的评估手段（8题）、统计和解释数据（7题）、运用测试结果来规划教学（7题）、运用测试结果为终结性的评估服务（8题）和测试与法律（6题）。运用多变量变异数分析教师和教授对8个类别内容的判断，发现两组人存在显著差异，而随后的单变量变异数分析显示8个类别中有5个存在显著差异。教师和教授持较为统一意见的是为学生备考、为测试施测和评分以及测试选择和使用中涉及的基本评价信息。尤其是在为学生备考方面两者都给了极大的重视。两组人对数据的重视程度存在显著差异。一线教师认为学习数据处理是不重要的，而他们重视运用另类的评估手段、运用测试结果为终结性的评估服务这两个方面，并期待在这些方面获得更多的指导。在讨论中，Gullickson特别指出关于数据处理的学习问题。他认为教师认为数据处理不重要的原因有二：其一，其他研究者对教师在测量学方面的能力进行评估，发现一线教师对数据的概念理解很差。这也就证明虽然职前评价测量课程中对数据分析给予了相对重要的重视，但是这并没有让职前教师准备好将来能够自如地运用数据分析来处理他们的评估需求。而对数据的难以把握促使他们不重视数据分析。其二，教师可能觉得数据分析耗时耗力，而效果却不那么显著，避免了数据分析也丝毫不会产生明显的后果。作者认为就这点来说，主要也是缺乏研究证明数据分析对教学带来的正面效应。关于研究中发现的一线教师和教授们对另类的评估手段的重视程度不同，Gullickson也列举了背后的原因：其一，教授们不了解教师在何种程度上运用的另类评估手段；其二，教授们可能会认为这些评价手段是教学法课程而不是测量课程所应该重视的；其三，教授们可能会认为这些评价手段没有测试手段的信度和效度高，因此不受重视。

Stiggins和Conklin（1988，1989）调查了西北太平洋地区教师教育中评价培训的现状。他们调查了教师获得资格证书的规定，看是否有要求教师接受评价方面的培训。同时，他们分析六个州的教师培训项目中的评估课程情况。在这些州里，有14所教师教育学院，共计27个本科和研究生教师教育项目，培养该地区75%的学生。他们关注的问题包括这些项目是否开设评价课程，是否为必修，课程包含哪些内容。结果显示，6个州中只有俄勒冈州明确要求教师获取资格证书要有评价方面的培训。许多教师候选人被要求达到美国教师资格考试的一定分数才有入选资格。但是两名研究者对美国资格考试的试题进行分析后发现339个题目中只有11个跟评价问题相关，而其中只有4个问题是跟课堂评价紧密相关的。在这27个教师教育项目中，只有13个项目提供了评价课程，只有6个项目中的评价课程是必修的。他们得出的结论是，该地区大多数教师职前未有任何形式的评价培训。而已有的评价培训内容分析结果显示，这些培训未能满足教师日常教学中使用的评价培训需求。

Wise和Lukin（1993）在美国中西部的内布拉斯加州调查了15个提供教师教育的大学和学院。他们通过电话访谈和课程调查等方式获取了关于测量课程的信息，包括课程名称、课程时长、学分数、教学时间比例和教授的内容。结果发现，这15个项目都在一定程度上讨论了与测量相关的话题。教学内容普遍包括数据、信度、效度、测试构建（包括题项类别和题项分析）、标准化测试的运用、标准化测试分数的解释、标准化测试常模和怎样在标准化测试中运用标准分。但是，这个地区73%的教师教育项目要求职前教师接受少于一门完整的测量课程。其中包括这个州中最大的两个教师教育项目，他们培养的学生占这个州培养的教师的49%。Wise和Lukin（1993）在同一个研究中还调查了教师对测量课程的看法和态度，问卷共13道题，包括询问教师的基本信息，在职前、在职和研究生阶段接受的测试和测量的培训，课程或培训对他们测量知识的作用，以及他们在测量方面对自己能力的自我评价。329名教师做了回复，其中小学教师占41%，初中教师占34%，高中教师占25%，与该地区的教师分布情况相当。回答者平均有15.35年的教学经验。他们当中，15%没有上过测量学课程，51%在其他课程中涉及测量学内容，25%上过完整的测量学课程，9%上过不只一门测量学相关课程。47%的教师认为他们的测量学培训是不够的。但是奇怪的是，上过至少一门测量学课程的教师中有18%的人认为他们在测量学方面的培训是不够的，但是基本上没有上过测量学课程的教师却有64%的人认为他们在测量学方面的培训是足够的。而在他们研究生阶段是否接受测量学课程培训的情况中，本科阶段上过一门测量学课程的学生在接受研究生测量学课程和在职培训时更加积极。因此可以说在本科阶段没有上过测量学课程的教师在研究生阶段和在职培训中接受测量培训的机会更少。在如何获取测量学知识方面，大部分教师采用的是自我尝试（trial and error）的方式。在被问及对“为了使教师被看作是专业人士，拥有例如测试和测量方面的技能是很重要的”的认同度时，约75%的教师表示认同上述论断。大多数教师认为他们的测量知识和技能好或者很好。作者指出，这里可能有多个原因：首先，教师可能不希望承认他们的不足。其次，传统上对测量学的不够重视，而教师相信他们的测试是可靠有效的，又没有人对它们的质量进行反馈。再次，测量学的培训可能会引起教师的焦虑，数据公式是其中之一，而教师作为学生时代的不良测试经历也会加剧这种情况。最后，目前的测量课程与教师的实际需求有距离。

Stiggins（1998）对美国全国教师教育项目进行了调查，旨在了解各个教师教育项目是否要求职前教师接受评价与测量课程，结果发现，美国50个州中，有15个州在教师资格认证标准中要求教师在评价方面具备能力，10个州明确地要求在职前培训中提供评价方面的课程，25个州没在评价方面没有任何要求。Stiggins指出这个变化是可喜的，因为1983年12个州对教师评价能力有要求，1988年10个州有要求，1991年15个州有要求（Wolmut，1988；O’Sullivan & Chalnick，1991，均转引自Stiggins，1998）。

2）对教师评价素养的测试研究

Plake及同事（1993）、Plake和Impara（1997）调查了美国教师的评价素养。他们运用了美国教师联合会（American Federation of Teachers）、国家教育测量理事会（National Council on Measurement in Education）和全国教育协会（National Education Association）研制的教师课堂评价能力标准中的7条标准为基础，编制了35个题目来测试教师。555名教师参与了此项测试，结果发现平均每位老师的答对率是23.2道题。在七条标准中，教师们在施测方面的能力最强，在传达评价结果方面的能力最弱。但是在传达评价结果方面，教师们的表现呈现出很大差异，也就是说整体上教师在此条标准上表现欠佳，但是部分教师在此条标准上表现良好。在测试之后，教师同时回答了他们在评价培训方面的经历，以及对评价的看法，特别是他们对教师自编试题和标准化测验对教学决策方面的有用性表达了看法，以及他们感觉是否有能力解释标准化考试的结果。他们还被问到是否对评价知识和技能感兴趣，以及评价课程该如何开展的问题。之后作者们对教师在七条标准上的得分与他们的培训经历和感知进行比较。研究发现，教师对教师自编试题和标准化测验对教学决策方面的有用性方面的感知与得分没有显著关系。但是在是否有能力解读标准化测验分数这点的感知与得分有显著差异，能够解释分数的教师在传达评价结果和认识不合伦理的评价两条标准上得分显著较高。参加过评价与测量课程的教师的总分明显高于没有参加过评价与测量课程的教师。认为应该在大学接受评价与测量课程的教师比觉得任何形式的评价与测量课程都无所谓的教师在为学生评分这条标准上显著较高。在不同的教学经验方面，教师们在编制评价方法这条标准上存在显著差异。19～24年教龄的教师得分最高，5年及以下的教龄的教师第二高，25年及以上教龄的教师得分最低。认为自己在教育测量方面水平高的教师跟不那么认为的教师在得分上没有显著差异。

Zhang和Burry-Stock（1997）运用评价实践调查表对测量培训和教师教学经历对教师评价能力自评的影响做了研究。他们对评价实践调查表的心理测量品质进行了研究，因子分析提取了7个因子。根据因子结构，研究者们进一步对教师从测量培训经历和教龄上分别进行了比较，发现了显著差异。参加过评价培训并拥有四年以上教学经历的教师相信他们在解释标准化测验成绩、计算测试数据和运用评价结果来做决定方面比拥有四年以上经历但是没有参加培训的教师在这些方面上强。同样拥有四年以上教学经历的教师觉得能够更加熟练地使用表现性评价和非正式的观察。因此，Zhang和Burry-Stock认为不管是大学课程形式的评价培训还是在职培训，都是非常有益的。

Mertler（2003）也运用评价素养试题对在职和职前的教师进行了测试，试图发现教龄对评价素养有何关系。在职的教师在施测、评分和解释分数上得分最高，而在研发效度高的评分程序上得分最低；职前教师在选择合适的评价方法上得分最高，在传达评价结果上得分最低。在五个方面，在职教师都显著地高于职前教师。

Volante和Fazio（2007）对职前教师教育项目中的中学教师进行了四年跟踪，每年调查这些职前教师评价素养的自我评价情况，发现这些教师的评价素养自我评价一直很低，大多数仍然坚持终结性评价思路。

3）评价素养缺失原因分析

Schafer（1991）认为，虽然不太确定，但是教师评价素养培训缺乏的原因可能有：（1）没有有效的手段来说明评价概念和方法对有效教学的重要性。（2）测量专业机构没有明确表达哪些内容应该被包含在评价培训中。

Stiggins（1993）分析了评价课程受忽视的五个原因。其一是，高等教育注重过程而非结果的倾向，使得学校急于关注学生的学分，而非效果。其二是，评价课程通常被认为比其他的教育课程具有更高的“学术挑战”，令人望而却步。其三是，学校管理人员认为系统性的评价结果“有风险”。如果目标结果很清晰，很有可能会招致人们对目标或者评价手段的不赞同。所有教育学家们就会尽量躲避系统性的评估课程，以免带来公众对自己工作的检阅和可能面临的变化。其四是，部分教育学家们认为，课堂中的评价能够因为课堂外部的评价而得到质量保证，毕竟市面上有那么多的配套材料，还有大规模高质量的考试来保证评价的质量。第五点，也是Stiggins在本文中认为最重要的一点是，一直以来评价培训脱离课堂实际。评价培训中的概念、策略以及评价中的质量监控等问题都与真实的课堂情况相差甚远。

4）评价课程与教师实际评价行为的衔接问题

Stiggins（1991）认为，对教师进行的评价培训跟教师实际进行的课堂评价行为相去甚远。通过多年的课堂任务分析，Stiggins和Conklin（1992）勾画出了“课堂评价环境”，发现了教师在评价方面应该拥有的六种能力：做决策、评价作为人际活动、提供清晰的目标、评价方法：成绩考试、评价方法：其他特征、其他话题，基于此，他们提出了新的评价课程内容框架。Stiggins（1991）设计了一个三小时的课程框架，如让教师明白高质量评价的含义，按照课程目标设计评价的重要性，如何设计和运用纸笔测验等。Schafer（1991）设计了八项评价课程的内容，分别是：评价的基本概念和术语；评价的运用；评价规划和研发；评价结果的解读；评价结果的描述；评价的评估和改进；反馈与评分；评价的伦理问题。

2.3.2.4 国外评价素养的培训探索

林敦来、高淼（2011）对评价素养相关的训练机构和项目进行了综述。研究者在此简要地归纳如下：Stiggins于1992年创立了美国评价培训学院，2006年—2010年隶属于美国教育考试服务中心（ETS），2011年起隶属培生教育集团。该学院旨在让教育者在课堂中开发和使用高质量的评价，将标准转换成课堂学习目标，将评价融入教学中以使学习效果最大化，高效地传达学生成绩，通过让学生在评价过程中承担责任来激发他们的兴趣。培训工具包括书籍、DVD、程序包和工作坊。

美国加州圣巴巴拉分校教育学院的Rebecca Zwick教授主持了名为“面向学校职员的教育测量与数据教学工具”，简称ITEMS项目，包含对测试分数和分数分布、个人分数与平均分数的误差、测试分数差异和趋势的解释。美国堪萨斯州的评估素养项目由W.James Popham主讲，内容包括年度进步目标、测试信度、效度和分数解释等。

Mertler（2009）检验了两周的课堂评价工作坊对在职教师评价素养发展的影响。基于评价素养问卷的前测与后测显示了培训的高效性。Koh（2011）比较了两组接受不同形式的评价素养培训教师的培训效果。其中一组参加了持续的专业发展来设计真实性的课堂评价和评分标准，另外一组只是参加了短暂的一次性的真实性评价训练。结果发现第一组教师评价素养在一年后远远超过第二组教师，他们对真实性评价有很好的理解。证实了在评价素养方面进行长期的专业发展的必要性。

在中国台湾，Wang及同事（2004）运用现代网络技术设计了“运用网络评价和试后分析系统（WATA）”来练习、反思和改进，从而提高评价素养的模式。该模式采用的3A模型，即组题、施考和评价。Wang及同事（2008）将该模式应用于生物学科职前教师评价素养的培养中，发现该模式对职前教师的评价基础知识和对评价的看法都有良好的效果。Fan及同事（2011）将该模式运用于57名在职的数学和科学教师，发现该模式同样提高了教师评价基础知识和对评价的看法。

2.3.2.5 国内对评价素养的关注

2008年11月，《基础教育课程》在评价考试栏目中专门探讨了教师评价素养问题。崔允漷（2008）认为当前的现实中，我们过多地关注了教师要学会“如何上课”的问题，而忽视了教师应该学会“如何评价”的问题。他呼吁道“教师应像关注上课一样关注评价，教师应先学会评价再学习上课！让评价引领自己的教学！”。由此可见评价素养在教师专业素养中的重要地位。崔允漷及其团队是国内较早关注教师评价素养的研究者。

王少非（2008）对我国中小学教师评价素养现状进行了描述并对现状进行了归因分析。在现状中，他指出目前教师评价理念存在严重偏差，为考而评、以评代教和为管而评的现象突出。教师的评价知识严重缺失，对教育评价领域基本概念，如信度和效度都不甚了解，对课程标准也了解甚少。教师评价技能水平相当低下。且不说新型的评价，就是传统的试卷编制，教师们也不在行。而在结果反馈方面，教师们也缺少正确解释考试结果的能力。在很多情况下，教师简单地将考试结果视为学生个体学习状况甚至智力水平的反映。

郑东辉（2009）的博士论文探讨了中国基础教育课程改革背景下的三个基本问题，即教师为什么需要评价素养、需要怎样的评价素养以及如何发展教师评价素养。他利用改编的教师评价素养问卷（Plake et al.，1993；Plake et al.，1997）在浙江省调查发现教师的评价素养得分低，教师的评价经历对评价素养得分影响不显著，教师的评价态度与评价素养得分呈正相关。基于这点认识，他构建了一种融评价态度、知识和技能为一体的素养结构。他认为，评价素养的培养要靠政府、学校和教师共同协作。

杨国海（2011）从理解评价、使用评价、管理评价和评价评价四个维度的12个表现视角厘清和建构教师评价素养的内涵和框架。理解评价层面包括评价信念、评价意识、评价知识；使用评价包括方法选择、发展评价、实施测评；管理评价包括成绩评定、结果运用和结果交流；评价评价包括评价道德、评价反思和评价改善。

孔凡哲（2011）对评价素养做了一个界定，他认为教师的评价素养具体表现为：试题命制（既指学科考试命题，又包括课堂练习题、课后复习题的编拟等）、试卷编制（包括中小学各种测试卷的方案拟订、试题选编、题量控制、试卷形式、试卷的试测与调试等）、教育教学评价的基本途径和方法（包括即时性评价、表现性评价、档案袋评价、日常测试、口试和表现性任务、期末试卷的编制、会考升学考试的试卷命制等）。孔凡哲（2011）认为，要将教师的评价素养纳入中小学教师专业标准的内容范围，并将其作为教师业绩考核的必要内容。

2.3.3 语言教育领域评价素养

早在1985年，Jones（1985，转引自Bailey & Brown，1996：237）就指出“在语言教学中有一个分支，它致力于语言水平测量的科学，其发展已经精密到语言测试专家和语言教学其他领域的人员之间出现了理解鸿沟”。而Bailey和Brown（1996：237）则认为这种鸿沟可以通过语言教师更多了解语言测试来缩小。

Brown和Hudson（1998）指出，语言测试实践和其他学科的评价实践有着根本上的差异。这不仅是因为所测试的内容本身——语言——是非常复杂的，而且在于语言教师能够用和正在用的测试类型不同。从20世纪50到60年代所推崇的分立式考试，如选择题和判断正误，到70年代和80年代早期的综合测试，如完形填空和听写，再到八九十年代运用的交际测试，如任务型测试，语言测试者们尝试、研究和讨论过多种类型的测试。哪种测试更加有效？哪种测试更加可靠？哪种测试最容易评分？哪种测试测试哪种能力？这些都是研究者们关注的问题。但归结起来，所有的这些测试都在特定的目的下，特定的场所和特定的时间中合适。也就是说，这些所有类型的测试都有其本身的优缺点，应该都值得语言教师们掌握和使用。

但是，语言评价素养这个概念的提出经历了近20年的时间。Rick Stiggins（1991a）提出评价素养的概念后，语言测试领域对这个概念没有非常及时的反应。体现在ALTE（1998），Davies及同事（1999），Mousavi（2009）等重要的语言测试词典均未收录评价素养这一词条。据研究者所了解到，语言测试文献中也极少提到这个术语。直到2009年，语言测试专家Lynda Taylor才首次使用评价素养这个词。此后，关于语言评价素养的研究如雨后春笋般涌现，如Fulcher （2012）、Coombe及同事（2012）、Inbar-Lourie（2013a，b）等。2011年“第33届语言测试研究学术研讨会（Language Testing Research Colloquium，简称LTRC）”专门以“评价素养”为题。2013年《语言测试》国际期刊发表专刊探讨语言评价素养。

但是，我们不能以此便推断语言评价素养是全新的概念。因为从Lado （1961）开始，语言测试专家们就不断致力于让人们，尤其是语言教师了解语言测试。例如Lado（1961：vii-viii）在前言中就指出本书的读者对象是外语教师、测试研发者、语言学家、语言专业的研究生等，以便使他们能够“用真知说话，而不是仅仅依靠想法和假设来说话”。1984年，语言测试专业性期刊《语言测试》创刊。在创刊号上，Arthur Hughes和Don Porter（1984）发表评论员文章。他们写道“这本新的杂志将聚焦于跟语言能力评价相关的话题，服务于参与、或者是仅仅对某种形式的语言评价感兴趣的人士（研究者添加强调）”，并承诺《语言测试》期刊将涉及语言测试广泛的话题。这在创刊号的内容就能体现出来，如语言测试的信度效度问题、关于被试者的研究、英语作为第二语言或者外语的测试等。而自Lado（1961）之后源源不断地出现了语言测试教材，它们也为提高评价素养做出了巨大贡献。如Heaton（1988）就是一本向广大语言教师系统介绍如何出题的书。Hughes（1989/2003）在前言中开篇就说明该书的目的是帮助语言教师编写更好的试题。

然而，使语言评价素养概念化，并针对此进行研究是近年来刚刚开始的。正如Fulcher（2012）指出的，关于语言评价素养的研究还处于萌芽阶段。Inbar-Lourie（2013b）认为目前对语言评价素养的探讨主要分为下面三个相互关联的话题。首先，在跟语言相关的测试和评价中是否存在达成共识的理论的、实践的和经验的知识库。其次，语言测试的专业人士是否要“看紧门”，只让拥有评价素养的人士参与决策，还是要根据不同的需求传授不同水平的评价素养给更大范围的应用语言学家、教师、家长、官员和政治家呢？紧接着的问题是，如果传授评价素养，那么是否有可能建立普遍认可的评价素养分级知识，把一些话题设定为基础而重要的。所有的利益相关者，不管他们的评价角色是什么，都必须掌握这些内容。

林敦来、武尊民（2014）在综述了国外语言评价素养最新进展研究中看到语言评价素养研究现状可以分为以下两个方面去讨论：首先是与语言工作紧密相关的人员的语言评价知识库及其传授的研究。这些人员包含语言测试专业人员、应用语言学家和在职/职前语言教师等。其次是关于语言评价素养是否需要分层次、有区别性地向更广大的利益相关者传播的研究。

根据本研究的目的，研究者将关于语言评价素养研究做如下综述：首先，研究者将综述语言评价素养的定义；此后，研究者将讨论研究者们对语言评价素养构念的讨论；最后，研究者将重点综述关于语言评价素养的实证研究，特别是关于语言教师评价素养的研究。

2.3.3.1 语言评价素养的定义

Boyles（2005）把语言评价素养定义为外语教师要培养的对测试与评价原则和实践的理解。她认为外语教师需要用工具来分析和反思测试数据，以便对教学做出明智的决策。培养出语言评价素养后，外语教师不仅能够为特定的目的找到合适的评价手段，而且能够分析测试数据来改进教学，而不至于让超出教师预期的测试结果产生负面影响。

Taylor（2009）对语言评价素养的界定为：评价素养应该兼顾评价技术手段、实际技能、理论知识和对原则的理解，并且良好地理解教学环境中评价的角色和功能。

Fulcher（2012）基于网络调查结果，把语言评价素养定义为：设计、命制、保持和评价大规模标准化考试和课堂测验的知识、技能和能力。对测试过程的熟悉度。对指导和支撑实践的原则和概念（包括伦理问题和行为准则）的意识。将知识、技能、过程、原则和概念放置在更广泛的历史、社会、政治和哲学框架中去理解实践产生的原因和评价测试在社会、机构和个人中起的作用和带来的影响的能力。整个定义框架如图2.8所示。

图2.8 扩展意义的语言评价素养定义框架（改编自Fulcher，2012）

Inbar-Lourie（2013a：2923）认为，语言评价素养不仅包含对评价学生语言能力的工具和程序熟悉，而且还有其他成分，特别是做出恰当的反馈来有效地让学习者设定并达到学习目标。此外，拥有评价素养的人还应该意识到评价过程中涉及的伦理问题，以及基于评价的决策对学生可能产生的影响。

2.3.3.2 语言评价素养的构念探索

Bachman和Palmer（1996：9）列出了语言教师在语言测试方面应该拥有的五项能力，包括：（1）不管是从零开始设计新的测试还是选用现有的测试，在任何语言测试进行之前，教师都应该对语言测试的基本概念有了解；（2）教师要了解恰当地运用语言测试可能涉及的基本问题和关注点；（3）教师要了解测量和评估中的基本问题、路径和方法；（4）教师要能够根据具体的目的、环境和考生特点，设计、研发、评价和使用语言测试；（5）教师应该能够批判性地阅读语言测试方面的研究和已经出版的测试试题，以此来做出客观的决定。

Brindley首次提出了语言评价与教师的职业发展问题。他圈定了教师在评价方面需要接受的五个方面的培训。第一，评价的社会环境；第二，界定和描述语言水平；第三，命制和评价语言测试试题；第四，语言课程中的评价；第五，将评价付诸实践。其中他认为第一点和第二点是核心单元（Brindley，2001：129-130）。

美国外语教育协会（ACTFL）编写的《中小学外语教师教育培训标准》（Program Standards for the Preparation of Foreign Language Teachers）（Foreign Language Teacher Standards Writing Team，2002）对外语教师教育提出了六条标准，其中第五条就是关于教师的评价能力。关于评价能力，标准从三个方面进行了描述：（5a）了解评价模型，并恰当运用。教师要相信评价是连续的，他们应该能够针对不同的年龄和语言水平的学生制定多种评价方法来达到目的性强的评价目标。（5b）对评价进行反思。教师要对学生的评价结果进行反思，并相应地调整教学，分析评价结果，并运用评价结果所反映出来的学生学习的优势和不足来决定未来的教学方向。（5c）汇报评价结果。教师应该能够向利益相关者解读和汇报学生的表现，并能够针对结果进行讨论。

剑桥大学考试委员会推出的教师知识考试（Teaching Knowledge Test）（参阅http://www.cambridgeenglish.org/exams-and-qualifications/tkt/）第一模块第三部分语言教学的背景就包括了对语言评价的了解，包括对评价目的的区分、评价的不同方法和一系列评价任务的设计和目的。

Boyles（2005）以美国外语教育为例，描述了语言教师要培养评价素养需要的一系列能力。这些能力包括：理解测试实践、运用评价手段、解释和分析评价结果、正确地解读评价结果及其意义、在教学中运用结果。Weigle（2007）认为教师应该了解一系列可能的方法来评价学生，要了解好的评价工具的重要特征，以及怎样在时间和资源都有限的情况下最大限度地提高评价质量。她从测试研发过程（确定可测量的目标、决定如何测量这些目标、课堂内外的写作如何结合、任务设置和评分）、档案袋评价和教师要了解的外部评价等角度论述了语言写作教师应该要了解的评价知识。

Davies（2008）对过去五十年的语言测试教程进行了分析。他发现，语言测试教材发展的重要趋势是从原来的“技能+知识”转变到了今天的“技能+知识+原则”。他对这几个方面的解释如下：技能指的是必要的方法，如编写题目、数据处理、测试施行、试题分析和报告。知识指的是测量学知识、语言知识和教学环境，包括语言学习模式、教学模式、交际语言测试、社会文化理论等。原则指的是语言测试的恰当运用、测试的公平性和影响，包括测试中的伦理问题和专业化问题。Davies在此文中也指出，目前我们对原则的关注度还是不高。

McNamara和Roever（2006：255）提醒人们警惕在语言测试培训中遵循狭义的培训内容，他们认为“在培训中，我们强调语言测试培训的全面性，也就是不仅仅关注应用心理测量学……而应该包括关于测试和社会影响的批评性视角”。这点与Davies（2008）和Spolsky（2008）的观点是一致的。他们都认为，如果仅从专业或技术角度去看语言测试，我们就很可能因为教育和社会赋予测试与评价的地位而带来风险。Inbar-Lourie（2008a）也对语言评价素养进行了广义的定义。她认为通过测试培训，主要获得的能力“要反映广泛意义上的评价的作用，尤其要反映语言评价的作用，也要反映当代学者对语言知识性质的观点，还得足够重视课堂和课堂外的评价实践”。Taylor（2009）认为，Inbar-Lourie的观点创新之处就在于她的观点源自测试文化和圈子之外，受到社会建构主义的影响，鼓励对语言评价全局的、整合的和动态的理解。

Scarino（2013）指出评价因其教育功能和评价功能在教师职业生涯中占据重要地位。而教师也被要求在进行课堂评价的同时接受外部问责制的考验。她认为我们要扩大对语言评价素养的理解，将语言评价素养知识库跟复杂的教师教育过程联系起来，使得教师改变他们的评价行为，理解评价现象和理解他们作为评价者的身份。基于作者的项目，他发现在培养在职教师评价素养过程中，首先要让他们了解自己已有的知识框架，反思自己的原有认识，这样才能发展自己作为评价者的自我意识，对自己的知识框架进行相应的调整。

2.3.3.3语言评价素养的实证研究

关于语言评价素养的实证研究，可以从语言评价培训需求调查、语言测试与评价课程和培训研究、语言评价培训手段和材料研究、语言评价培训缺失带来影响的研究以及不同程度的语言评价素养几个方面去讨论。国内也有少数学者进行了研究，研究者在本节最后对其进行综述。

1）语言评价培训需求调查

Hasselgreen，Carlsen和Helness（2004）以及Huhta，Hirvalä和Banerjee

（2005）通过调查的方式描述了欧洲语言教师在评价培训方面的需求。研究表明，下面这些需求最为明显：档案袋评价、课堂测试、自我评价和同伴互评、测试分数解释、连续性评价（continuous assessment）、作业反馈、效度、信度、数据、题目编写和题项分析、访谈以及评分。

Guerin（2010）在意大利对100名语言教师的评价素养和培训需求进行了调查，研究发现教师对语言评价素养确实存在需求。Tsagari（2011）对希腊353名教师进行了关于课堂评价相关问题的问卷调查。其中有专门对评价培训需求的调查。调查结果显示，教师们强烈需要评价方面的培训，特别是跟课堂评价紧密相关的话题，如档案袋的使用、自我评价/同伴互评、反馈等。

Fulcher（2012）运用调查的研究方法来获取语言教师在语言评估和测试方面的培训需求，以期根据获取的信息辅助语言教师培训项目材料的编写。调查问卷包含封闭式选择题和开放式问答题。278名语言教师回答了问卷。作者对封闭式选择题做了因子分析，最终提取了四个因子，即测试设计和开发、大规模考试、课堂测试与反拨效应以及信度和效度，并基于此框架对第二部分开放式问答题进行了质性分析，发现语言教师们认为目前的培训材料还不能完全满足教师的需求。

2）语言测试与评价课程与培训研究

Bailey和Brown（1996）通过问卷调查的方式来调查教师教育项目中基础语言测试课程中的课程结构、内容和学生对课程的态度。他们设计的调查问卷包含了语言测试课程教师背景、学生背景、学生在课前和课后对课程的态度。问卷主要采用5级李克特形式，也包含了开放性问题。84位语言测试课程教师作为受访者回答了问卷。研究表明课程教师有博士学位的占76.2%，教育背景差异大。课程内容中，测试评论（Test Critiquing）最受关注。大多数学生认为这门课程有趣。总结起来，作者认为语言测试课程在诸多方面都呈现出巨大的多样性。运用类似的研究工具，Brown和Bailey（2008）的研究显示，十年间语言测试教材内容几乎没有什么变化，而测试课程也相应地没有发生什么变化。教材和课程都把焦点放在以下这些话题上：分析和评判试题、如何测试四种技能、效度（按传统意义分类）、题项分析（如难度、区分度和内容分析）以及最基本的测试数据分析，如描述性数据和信度等。

Kleinsasser（2005）运用叙事法研究了研究生层面的语言评价课程。参与课程的学生共同协商评价课程内容和材料，学生们进行了评价实践，命制了相应的题目并通过共同讨论的方式对题目进行了反思。学习共同体的构建、在做中学和档案袋方法等的实施给这门课程带来了良好的效果。O’Loughlin（2006）以研究生语言评价课程的辅助教学手段——网络论坛为研究内容，通过对这些论坛内容分析发现，学生的接受程度与他们作为学习者和教师的经历以及课堂上接触的内容有极大的关系。

Jeong（2011，2013）研究了语言评价课程教师的不同背景对课程特征（内容和结构）产生的影响。研究发现，教师背景对课程内容的六个方面影响很大，包括测试大纲、测试理论、基本数据、课堂评价、评分量表研发和测试折衷办法（test accommodation）。非专业语言测试出身的教师更多地关注课堂评价，没有足够的信心讲授测试中的技术。作者认为要推广统一的语言评价素养标准，以保证语言评价课程的质量。

Coniam（2009）研究了香港地区的外语教师编制的题目是否能够达到可以接受的质量，以及培训在何种程度上会提高这些教师在教育评价方面的意识，从而提高他们命题的质量。Coniam选取的研究对象是31位在职攻读硕士学位的一线教师。他们参与了每周3个学时、时长14周的语言测试课程。课程中有6周时间所有教师都参与三人一组的试题命制整个过程，包括设计、施测、分析和修改试题。研究发现，即便经历了试题设计和分析的轮回，只有一半的测试能够达到好的信度值。从经典的测量理论的题目难易度和区分度角度看，绝大多数的题目都不能被看作是“好的”题目。但是从参与的老师们的体会来看，他们在测试原则和命题与分析的过程方面的意识得到了很大提高。

3）语言评价培训手段和材料研究

Boyles（2005）认为教师的评价素养发展应该是持续的，形式可以是面授的或基于网络的。Malone（2008）认为语言评价培训不仅可以通过文字渠道，如教材，来传播，而且可以通过其他渠道。她强调面对面的语言测试工作坊和自学都会有良好的效果，因为这样能运用到新技术，并且能获取更多最新的材料。

Malone（2013）运用“理解评价：外语教师指南”（www.cal.org/flad/tutorial）这项针对教师评价素养发展的网络资源构建为依托，探讨了语言教师和语言测试专家在对网络资源内容的看法上存在的相同点和差异性。研究发现语言测试专家专注于定义的准确性和对测试运用的适切性，而语言教师关注的是网站内容使用是否方便以及定义是否清晰。Stoynoff和Chapelle（2005）介绍了语言教师应该了解的测试“基本知识”，并对现有的英语测试进行了综述，针对每个测试进行评论，为读者提供了在选择测试时应注意的使用环境，是帮助语言教师选择和使用测试的非常实用的材料。

4）语言评价培训缺失带来影响的研究

López Mendoza和Bernal Arandia（2009）探讨了在哥伦比亚评价培训的缺失如何影响外语教师对他们学生的评价。他们的发现如下：首先，评价往往是终结性的，而不是形成性的，并且缺乏连续性。其次，他们发现评价经常没有被恰当运用，甚至经常被滥用。两位作者特别指出，测试分数的运用往往与测试的初衷相去甚远，并不能够“辅助学习”。作者将这些不好的做法归因于语言评价素养训练的缺失。作者将缺失的内容总结如下：缺乏对与测试不同的评价的理解，缺乏对形成性评价和对终结性评价的理解，缺乏对语言评价和每种评价方式能够提供的信息的了解，缺乏对怎样给学生更加有效的反馈的了解，缺乏让学生能够自己掌控学习方法的能力，缺乏对测试和评价使用中的伦理问题和结果运用的了解，缺乏对语言测试者角色的了解，缺乏对效度、信度和公平性的了解。Tsagari（2011）也发现，由于评价知识的缺失，教师在实际操作中多使用终结性评价。

5）不同程度的语言评价素养

Brindley（2001：128）认为，根据评价的性质和评价人员的参与程度，不同的群体应该掌握不同程度的评价知识。Taylor（2009）提出了评价素养的培养目标人群不仅仅限于测试的研发者，应该向更广泛的利益相关者传播。Taylor（2013）认为，很明显，不同的利益相关者由于对评价参与程度不同，应该拥有不同程度的语言评价素养。她提出了一个区分不同利益相关者对语言评价应有的熟悉程度的模式（如图2.9）。从核心到周边到外围，不同利益相关者对语言评价的了解可以呈现递减趋势。

图2.9 不同利益相关者对语言评价素养不同程度的需求（改编自Taylor，2013）

借鉴Bybee（1997）关于科学素养的讨论，Pill和Harding（2013）勾画出了语言评价素养连续体。如表2.3所示，将语言评价素养分为五个等级。

表2.3 语言评价素养连续体（改编自Pill & Harding，2013）

Taylor（2013）根据此连续体，并基于她主张的不同的利益相关者应该拥有不同程度的评价素养的想法，勾画出了四种不同利益相关者在具体某个维度上应该达到的熟悉程度。如图2.10所示。

图2.10 不同利益相关者对语言评价素养掌握程度的示意图（改编自Taylor，2013）

从图2.10我们可以看出，与其他职业的人员相比，教师的语言评价素养有其独特性，比如教师在语言评价素养中应该融入很高水平的教学法知识。此外，教师要对所处的教学环境有比较深刻的认识，对语言测试与评价的技术有较好的掌握。但是在分数与决策以及语言测试的原则和概念方面无需太深刻的认识。

6）国内学者对语言评价素养进行的研究

Jin（2010）从高校职前外语教师教育层面探讨了语言测试与评价课程的开设情况。调查内容包括课程教师背景、教学内容、教学方法、学生对该课程的感知以及教学材料。全国范围内86位该课程的教师回答了问卷。结果显示，课程涵盖了语言测试理论与实践的基本内容，但是教育与心理测量知识和学生在课程中的实际操练受到的关注很少。Xu和Liu（2009）运用叙事学方式研究了一名大学外语教师的评价知识和实践，发现教师在评价方面的先有经历会影响他们在教学中的评价实践和评价规划；工作环境中的权力关系会影响教师的评价决策；评价发生的特定环境会影响教师的安全感，进而影响评价的效用。