Prüfen und Testen
Lernen von den Profis

Prüfungen und Tests gehören zum Alltag von Lehrenden
Prüfungen und Tests gehören zum Alltag von Lehrenden | © Goethe-Institut/Kai-Uwe Oesterhelweg

Lernfortschrittskontrolle, Lernstandserhebung, Vokabeltest, Abschlussprüfung – Diese Formen des Testens und Prüfens spielen im Alltag von Lehrenden eine wichtige Rolle. Lernende fragen bereits am ersten Kurstag nach der Prüfungsrelevanz des Lehr- und Lernstoffs, Sprachschüler benötigen ein spezielles Zertifikat, um studieren oder arbeiten zu können. Prüfungen sind also für die Organisation des Lehralltags relevant. Wie aber soll, kann und muss getestet werden? Und: Was müssen Lehrende beachten?

Test ist nicht gleich Test und es gibt mehrerer Unterscheidungen. Die erste Unterscheidung ist die Funktion eines Tests. Im Sprachunterricht spielen vor allem Low-Stakes Tests eine Rolle: So nennt man Prüfungen, die für Lehrende und Lernende interessant und relevant sind, die jedoch keine gesellschaftlichen, schulischen oder beruflichen Konsequenzen haben. Hierzu gehören unter anderem Vokabeltests und Lernzielkontrollen, die von der Lehrperson selbst konzipiert werden.

High-Stakes Tests hingegen sind Prüfungen, von deren Ergebnis für die Teilnehmenden etwas abhängt: Dazu gehören die Führerscheinprüfung (Mobilität), das Abitur (Hochschulzugang) oder auch das Goethe-Zertifikat A1: Start Deutsch 1 (Ehegattennachzug). Diese sind also Prüfungen, die von Lernenden benötigt und von externer Stelle entworfen werden.

Lernfortschritt, Lernziel, Lernerfolg

Neben der Funktion eines Tests ist auch der Zeitpunkt des Testens wichtig (vgl. Gemeinsamer europäischer Referenzrahmen, Kapitel 9): Soll der Lernfortschritt während oder der Lernerfolg am Ende eines Kurses gemessen werden?

In ersterem Fall wird von formativer Evaluation gesprochen, die eine Rückkopplung auf eigene Prozesse zulässt, also auf die zukünftige Unterrichtsgestaltung, den noch einmal zu wiederholenden Stoff oder die zukünftige Progression. Dies erlaubt das Messen eines Fortschritts, ohne dass ein Ziel normiert wäre. Ein Beispiel hierfür sind Lernfortschrittskontrollen.

Eine viel häufigere Rolle im Kursalltag spielt die summative Evaluation. Sie entspricht einer Endkontrolle, die zwischen dem formulierten bzw. gedachten und dem tatsächlich erreichten Lernstand vergleicht, also kursbezogen ist. Hierzu gehören Vokabeltests und Abschlussprüfungen, in denen das zu erreichende Ziel in Bezug zu Lehrbuch oder Curriculum vorgegeben ist.

fragen für Lehrende

Bei der Erstellung von Tests sollten Lehrende also folgende Fragestellungen beachten:
  • Wofür ist dieser Test gemacht? Soll zum Beispiel der Lernfortschritt bezogen auf die letzten Unterrichtseinheiten gemessen werden?
  • Soll der Test auf etwas vorbereiten? Und wenn ja: Worauf? Auf die Kommunikation im Büro oder die Bewältigung einfacher/komplexer Alltagssituationen beispielsweise?
  • Wie sinnvoll oder realitätsnah ist der Test in Bezug auf diese Vorbereitung?

Qualitätssicherung von Prüfungen

Was unterscheidet nun aber eine Abiturprüfung oder eine Kursabschlussprüfung von einer international anerkannten Sprachprüfung? – Ein Faktor ist die Erprobung, einer von 17 Mindeststandards der Association of Language Testers in Europe (ALTE). Die Prüfungsaufgaben, in der Testtheorie Items genannt, werden zunächst mehrfach intern und daraufhin durch externe Gutachter überprüft. Anschließend erprobt eine Gruppe von mindestens 200 Teilnehmenden, deren Zusammenstellung in etwa den zukünftigen Prüfungsteilnehmenden entspricht, alle Items. Die Ergebnisse der Erprobung werden statistisch ausgewertet, um Unzulänglichkeiten, Unschärfen oder gar Fehler aufzudecken. Nach dieser Auswertung werden die einzelnen Items erneut überarbeitet, um letztendlich zu einem fairen, fehlerfreien und exakt messenden Test zu gelangen.

Niveau und Bewertung

So wie der Gemeinsame Europäische Referenzrahmen (GER) die Kenntnisse von Fremdsprachenlernern in unterschiedliche Niveaustufen unterteilt, so müssen auch die Aufgabenstellungen dem gewünschten Niveau entsprechen. Bei einer Aufgabenstellung, die über dem sprachlichen Niveau der Lernenden liegt, können einige Items möglicherweise nicht gelöst werden, obwohl die Teilnehmenden die Lösung eigentlich kennen. Entspricht eine Aufgabenstellung zwar sprachlich dem gewünschten Niveau, ist aber zu leicht oder zu schwer, entspricht die Prüfung nicht mehr ihrer eigentlichen Intention: Sie ist nicht mehr valide und reliabel.

Wie bei der Itemerstellung ist es in der Prüfungsentwicklung üblich niveaubezogen zu bewerten: Niveautypische Fehler sollten vernachlässigt werden, denn die Gesamtkompetenz steht im Fokus. Zur Veranschaulichung eine exemplarische Aufgabenstellung:

Exemplarische Aufgabenstellung Niveau A2, aus: Trainingsmaterial für Prüfende Exemplarische Aufgabenstellung Niveau A2, aus: Trainingsmaterial für Prüfende | © Goethe-Institut Alle Wörter und die Grammatik des Niveaus A2 der Aufgabenstellung sind den Lernenden bekannt, die Themen des Schreibanlasses –  jemanden beglückwünschen, auf eine Einladung reagieren und Nachfragen stellen – sind realitätsnah.

Die exemplarische Schülerbearbeitung:

Exemplarische Schülerbearbeitung auf A2-Niveau, aus: Trainingsmaterial für Prüfende Exemplarische Schülerbearbeitung auf A2-Niveau, aus: Trainingsmaterial für Prüfende | © Goethe-Institut Die Inhaltspunkte Glückwunsch und Gäste sind voll erfüllt und sollten somit die volle Punktzahl erhalten. Die Präposition zu zum Verb gratulieren wird auf diesem Niveau noch nicht beherrscht. Deren Fehlen kann also vernachlässigt werden, auch da das Verständnis nicht beeinträchtigt wird. Der Satz zum Inhaltspunkt Auto enthält jedoch verständnisbeeinträchtigende Fehler, die zu Punkteabzug führen sollten. Da die Grußformeln fehlen, sollte es hierfür einen Punkteabzug geben, jedoch ist die Textsorte erkennbar und die kommunikative Gestaltung des Textes gegeben. Der Textumfang ist angemessen.
Bei einer Punkteverteilung von drei Punkten je Inhaltspunkt und einem Punkt für die kommunikative Gestaltung des Gesamttextes wäre die Punkteverteilung hier wie folgt: 3 (Glückwunsch) + 3 (Gäste) + 1,5 (Auto) + 0,5 (kommunikative Gestaltung) = 8 von 10 Punkten.

Qualitätskontrolle im Kleinen

Wie kann aber die Qualität von Prüfungen gesichert werden, wenn die zeitlichen, finanziellen und personellen Ressourcen für mehrfache interne Revision, externe Gutachter oder Erprobungen nicht gegeben sind? Nach der Konzeption des Tests können Lehrende diesen einmal selbst lösen, dabei genau auf die Aufgabenstellung eingehen und ihre Lösungen im Anschluss mit der Musterlösung abgleichen. Dadurch kann geklärt werden, ob die Aufgabe genau das abfragt, was abgefragt werden soll oder stattdessen versehentlich Weltwissen, Logik oder Konzentrationsfähigkeit getestet werden.

Auch ist es hilfreich, den Test im Vorfeld von einem Kollegen oder einer Kollegin lösen und sich Rückmeldung geben zu lassen: An welcher Stelle wurden unklare Formulierungen gewählt? Waren die Items in der vorgegebenen Zeit zu lösen? Sind die einzelnen Items scharf genug voneinander getrennt oder kommt es zu Überschneidungen? Zieht eine falsche Antwort weitere falsche Antworten nach sich? Und vor allem: Entspricht der Test dem Niveau der Zielgruppe? Angestrebt wird eine Korrektur, die niveauadäquat ist und in der das Augenmerk auf dem liegt, was die Prüfungsteilnehmenden können und nicht auf deren Unzulänglichkeiten. Hier sollten stets die Kann-Beschreibungen des GER im Auge behalten werden.

So können Lehrende selbständig Qualitätskontrollen im Kleinen durchführen und sicherstellen, dass der Test das testet, was er testen soll.
 

ALTE und Q-Mark

Die Association of Language Testers in Europe (ALTE) ist eine Organisation der Anbieter von Fremdsprachenprüfungen. Sie zählt im Moment neben dem Goethe-Institut 33 weitere Vollmitglieder, die sich auf gewisse Standards verständigen und sich gegenseitig auf diese hin kontrollieren. Nur diejenigen Prüfungen, die die 17 Mindeststandards der ALTE erfüllen, dürfen das international anerkannte Qualitätssiegel Q-Mark tragen. Dieses Siegel wird spezifisch pro Prüfung und nicht generell pro Institution vergeben, was das Goethe-Institut zum einzigen Anbieter im deutschsprachigen Raum mit Q-Mark auf allen sechs Niveaustufen macht.

 

Literatur

Association of Language Testers in Europe: 17 Mindeststandards zur Sicherstellung von Qualität in den Prüfungen der ALTE. ALTE 2007.
 
Europarat: Gemeinsamer europäischer Referenzrahmen für Sprachen: lernen, lehren, beurteilen. Langenscheidt 2001.