Goethe-Institut Inhalt zurück weiter

Gemeinsamer europäischer Referenzrahmen für Sprachen:
Lernen, lehren, beurteilen
Kapitel 9   Beurteilen und Bewerten

9.1 Einleitung

In diesem Kapitel wird der Begriff 'Beurteilung' (engl.: assessment) vor allem im Sinne von 'Beurteilung der Kompetenz eines Sprachverwenders' benutzt, d.h. also auch im Sinne von 'Leistungsmessung' . Alle Sprachtests stellen eine Form der Beurteilung dar, aber es gibt eine Reihe von Beurteilungsverfahren (z. B. Checklisten bei kontinuierlicher Beurteilung; informelle Beobachtung durch Lehrende), die man nicht als Test bezeichnen würde. 'Evaluation' wiederum ist ein Begriff, der weiter greift als 'Beurteilung'. Jede Beurteilung stellt eine Form von Evaluation dar, aber bei einem Sprachenprogramm werden neben der Sprachkompetenz der Lernenden viele weitere Dinge evaluiert - z. B. die Erfolge, die mit bestimmten Methoden oder Materialien erzielt werden, die Art und Qualität der Texte und Diskurse, die bei dem Programm tatsächlich produziert werden, die Zufriedenheit der Lernenden/Lehrenden, die Effizienz des Unterrichts usw. Dieses Kapitel befasst sich mit 'Beurteilen und Bewerten', aber nicht mit den weiter reichenden Fragen einer Programmevaluation.

Es gibt drei Schlüsselkonzepte, die traditionell als grundlegend für jede Diskussion über Beurteilungs- bzw. Bewertungsverfahren angesehen werden: Validität, Reliabilität und Durchführbarkeit. Für die Überlegungen in diesem Kapitel ist es nützlich, einen Überblick darüber zu geben, was diese Begriffe bedeuten, wie sie aufeinander bezogen sind und welche Bedeutung sie für den Gemeinsamen Referenzrahmen haben.

Validität ist das Konzept, mit dem sich der Referenzrahmen besonders befasst. Ein Test oder ein Beurteilungsverfahren kann in dem Maß 'valide' genannt werden, in dem man nachweisen kann, dass das tatsächlich gemessene Konstrukt auch das ist, das in dem betreffenden Kontext gemessen werden soll, und dass die gewonnene Information eine genaue Abbildung der Kompetenz des oder der betreffenden Kandidaten ist.

Reliabilität hingegen ist ein technischer Begriff. Er bedeutet im Prinzip das Maß, in dem bei zwei getrennten (echten oder simulierten) Durchläufen des gleichen Tests unter den Kandidaten die gleiche Rangfolge erzielt wird.

Was aber in der Praxis wichtiger ist als die Reliabilität, ist die Genauigkeit der Entscheidungen, die unter Bezug auf einen Standard getroffen werden. Wenn eine Beurteilung die Ergebnisse als 'Bestehen/ Nichtbestehen' erfasst oder als 'Niveaustufe A2+/B1/B1+', wie genau sind dann diese Entscheidungen? Die Genauigkeit einer Entscheidung hängt natürlich von der Validität des betreffenden Standards (z. B. Niveaustufe B1) im betreffenden Kontext ab. Sie hängt aber auch von der Validität der Kriterien ab, die man für diese Entscheidung benutzt, und auch von der Validität der Verfahren, mit deren Hilfe diese Kriterien entwickelt wurden.

Die Ergebnisse der Beurteilungen ein und der derselben Fertigkeit werden also bei zwei verschiedenen Organisationen oder in zwei Regionen korrelieren, (1) wenn diese ihre Entscheidungen bei der Beurteilung der gleichen Fertigkeit auf Kriterien stützen, die sich auf die gleichen Standards beziehen, (2) wenn diese Standards selbst valide und den beiden betreffenden Kontexten angemessen sind, und (3) wenn die Standards bei der Erstellung der Testaufgaben und der Interpretation der Leistungen konsistent interpretiert werden. Üblicherweise bezeichnet man die Korrelation zwischen zwei Tests, die das gleiche Konstrukt messen sollen, als Übereinstimmungsvalidität. Dieses Konzept hängt zunächst natürlich mit der Reliabilität zusammen, weil nicht-reliable Test nicht miteinander korrelieren können. Noch wichtiger jedoch ist der Grad an Übereinstimmung zwischen zwei Tests in Hinblick darauf, was gemessen wird, und wie die Leistung interpretiert wird. Vor allem um diese beiden Fragen geht es im Gemeinsamen europäischen Referenzrahmen. Der nächste Abschnitt umreißt die drei wichtigsten Möglichkeiten, den Referenzrahmen zu verwenden:

  1. Zur genauen Beschreibung des Inhalts von Tests und Prüfungen
    (was gemessen wird)
  2. Zur Festlegung der Kriterien, mit deren Hilfe man entscheiden kann, ob ein Lernziel erreicht wurde.
    (wie eine Leistung, interpretiert wird)
  3. Zur Beschreibung der Kompetenzniveaus bei bereits existierenden Tests und Prüfungen, wodurch deren Vergleich über verschiedene Qualifikationssysteme hinweg ermöglicht wird.
    (wie Vergleiche angestellt werden können)
Diese Punkte beziehen sich in unterschiedlicher Weise auf verschiedene Arten der Beurteilung. Es gibt nämlich viele unterschiedliche Arten und Traditionen der Beurteilung, und es wäre falsch anzunehmen, dass ein bestimmter Ansatz (etwa eine zentrale Prüfung) in ihrem didaktischen Wert notwendigerweise einem anderen Ansatz (etwa der Beurteilung durch Lehrende) überlegen ist. Der größte Wert eines Systems gemeinsamer Standards - wie den Gemeinsamen Referenzniveaus des Referenzrahmens - liegt in der Tat darin, dass sie es ermöglichen, verschiedene Formen der Beurteilung und der Bewertung zueinander in Bezug zu setzen.

Der dritte Abschnitt dieses Kapitels erläutert die Wahlmöglichkeiten zwischen verschiedenen Typen des Beurteilens und Bewertens in Form von Gegensatzpaaren. In allen Fällen werden die Begriffe definiert und die jeweiligen Vor- und Nachteile werden unter Bezug auf Beurteilungszwecke in verschiedenen didaktischen Kontexten diskutiert. Die Implikationen, die sich aus der Benutzung der einen oder der anderen Option ergeben, werden ebenfalls ausgeführt. Weiterhin wird die Bedeutung des Referenzrahmens für das jeweilige Beurteilungs- oder Bewertungsverfahren aufgezeigt.

Ein Beurteilungs- oder Bewertungsverfahren muss auch praktikabel sein, um durchführbar zu sein. Vor allem bei Performanztests ist die Durchführbarkeit ein wichtiger Aspekt. Prüfende und Korrektoren arbeiten unter Zeitdruck. Sie sehen nur einen begrenzten Ausschnitt aus der Performanz; zudem sind der Anzahl der Kategorien, die sie als Kriterien handhaben können, enge Grenzen gesetzt. Der Referenzrahmen versucht, Bezugspunkte zur Verfügung zu stellen, nicht aber praktische Beurteilungsinstrumente. Der Referenzrahmen muss nämlich umfassend sein, seine Benutzer hingegen müssen auswählen. Eine Auswahl kann sehr wohl mit sich bringen, dass man sich für eine einfachere Vorgehensweise entscheidet, bei der Kategorien zusammenfasst werden, die im Referenzrahmen getrennt sind. So sind z. B. die in den Beispielskalen der Kapitel 4 und 5 verwendeten Kategorien oft beträchtlich einfacher als die Kategorien und deren sprachliche Exponenten im Text selber. Der letzte Abschnitt dieses Kapitels erörtert diese Frage und gibt Beispiele.

 
Goethe-Institut Inhalt zurück weiter