考试与测验 向职业人士学习

考试和测验都是老师的日常工作内容
考试和测验都是老师的日常工作内容 | © 歌德学院/凯-乌韦•奥维戈(Kai-Uwe Oesterhelweg)

学习进展监控、学习现状调查、单词测试、期终考试——这些形式测验和考试在教师的日常工作中扮演着重要角色。在第一天上课的时候,学生就会询问教材和学习内容与考试之间的关系,而语言生则需要专门的证书才能上大学或是参加工作。因此,考试对于日常的教学组织工作十分重要。但是,应当、可以以及必须如何进行测试呢?而老师又必须注意哪些方面呢?

       测试和测试也不一样,其中有很多区别。第一个区别是测试的功能不同。语言课主要采用 “低风险测试”:这是指老师和学生都感兴趣、也觉得重要、但却不会对社会、学校或职业产生任何后果的考试。比如由老师自己设计的单词测试和学习目标检测。

       相反,“高风险测试” 是指成绩结果会对应试者产生后果的考试:其中包括驾照考试(交通)、中学毕业考试(大学入学)或是 “歌德学院 A1证书”:初级德语证书1(配偶家庭团聚)。这些都是学习者需要而且由外部机构设计的考试。

学习进展、学习目标、学习成果

       除测试功能之外,测试的时间节点也很重要(请参见欧洲共同语言参考框架,第9章):是该在课程进行期间测试学习进展呢,还是在课程结束时测试学习成果呢?

       第一种情况是所谓的形成性评价,它可以对自身过程、即对未来的课程设计、需复习的材料或未来的进程进行反馈。它可用来检测学习进展,但无需规定目标。比如学习进展检测。

       而在日常教学中更为常见的是终结性评价。它相当于期终检测,即对规定及设想的学习现状与实际达到的学习现状之间进行比较,因此它和课程紧密相关。比如单词测试和期终考试,其中都预先设定了教材或课程应达到的目标。

老师需回答的问题

       在编写测试题时,老师应当注意以下问题:
  • 这个测试是为谁编写的?比如是否应当根据最后的教学单元来评测学习进展?
  • 测试是否应当为后续内容做好准备?如果是的话:应为哪些内容做好准备?是为办公室内的沟通交流,还是为解决简单/复杂的日常情境?
  • 对于这种准备,该测试具有多大的合理性/现实性?

考试质量保障

       然而,高中毕业考试或课程结业考试与国际认可的语言考试之间有什么区别呢?其中一个因素是评测,这是欧洲语言测试者协会(ALTE)规定的17个最低标准之一。考试题目(在测试理论中被称为 Item/题项)首先经过多轮内部评测,再由外部鉴定专家进行评测。然后由至少200人(其成分比例应基本符合未来应试者的人员构成)对所有题项进行评测。通过对评测结果的统计分析,发现存在缺陷、不明确甚至是错误的地方。然后再对单个题项进行重新编写,最终获得公平、无误、测量精准的测试。

水平与评价

       “欧洲语言共同参考框架”(GER)将外语学习者的知识水平分为不同级别,同样,考试任务的设置也必须符合目标水平。如果某项任务超出了学习者的语言水平,那么即使考生其实知道某些题项的答案,但也无法回答出来。如果一项任务虽然在语言上符合目标水平,但却过易或过难,那么考试同样也无法达到真正的意图:即考试失去了有效性和可靠性。

       和编写题目一样,在考试开发过程中,一般也需要根据不同水平来进行评价:各个水平的典型错误应被忽略,因为考试的重点是整体能力。

       举例说明任务设置:

举例说明任务设置:A2水平典型试题,选自:考官培训材料 举例说明任务设置:A2水平典型试题,选自:考官培训材料 | © 歌德学院

       在A2水平任务设置中,学生已学过所有的单词和语法,写作的题目都来自现实生活,比如打招呼、回应别人的邀请、打听追问等。

       举例说明学生的解题过程:

举例说明学生的解题过程:A2水平典型学生答案,选自:考官培训材料 举例说明学生的解题过程:A2水平典型学生答案,选自:考官培训材料 | © 歌德学院

       如果内容要点“祝贺和客人”全部答对,则打满分。该水平的学生还未掌握动词“祝贺”的介词搭配,所以可以忽略介词搭配的错误,因为这并不影响理解。但在内容要点“汽车”方面,语句错误由于影响了理解,因此导致扣分。由于缺少招呼敬语,也会扣掉一分,但文章类型清楚,结构通顺易懂。文章长度也适度。

       考试的分数设置是每个内容要点3分,文章总体结构通顺易懂1分,因而本篇文章的得分为:3分(问候)+ 3分(客人) + 1.5分(汽车)+ 0.5分(文章通顺易懂),总分为8分(满分10分)。

细节质量控制

       但是,当没有时间、财力和人力资源进行多轮的内部修订、外部鉴定或测评时,该如何保证考试质量呢?这时,老师可以依据测试设计方案,自行解答这些问题,首先仔细研究题目设定,然后将自己的答案与标准答案进行对比。这样便知道任务中所提的问题是否反映了设计内容,还是错误地测试了常识、逻辑或注意力能力。

       另一个办法是先请一位同事解答试题并给出反馈意见。哪些地方使用了含混不清的词句?能在给定时间内解出这些题项吗?各题项之间的界限是否足够明确?还是有重叠之处?如果一个答案错误,会不会导致其他答案也出错?其中最重要的是:测试是否适合目标群体的水平?然后尽量根据考生的水平进行相应的修改,修改重点是考生能做什么,而不是他们不能做什么。这时应依照 “欧洲语言共同参考框架”(GER)中关于“能做什么”的描述。

       这样,老师便可以独立地对细节质量进行控制,并保证测试了目标内容。

欧洲语言测试者协会(ALTE)和 Q-Mark 标志

       欧洲语言测试者协会(ALTE)是外语考试机构的协会组织。目前除歌德学院外,该组织还有另外33家正式成员单位。各成员针对某些标准达成共识,并相互监督对方的遵守情况。只有满足 ALTE十七项最低标准要求的考试,才允许颁发国际认可的 “Q-Mark” 质量认证标志。该认证标志针对具体考试颁发,而非针对每家机构的所有考试。歌德学院是德语国家和地区唯一一家在所有六个水平等级都可颁发 Q-Mark 认证标志的机构。

 

参考文献

欧洲语言测试者协会(ALTE):《ALTE 十七项考试质量保障最低标准》,2007。
 
欧洲理事会:《欧洲语言共同参考框架:学习、教学、评估》。朗根沙特出版社 ,2001。