Goethe-Institut Inhalt

Gemeinsamer europäischer Referenzrahmen für Sprachen:
Lernen, lehren, beurteilen
Anhang A   Die Entwicklung von Deskriptoren der Sprachkompetenz

Dieser Anhang behandelt technische Aspekte der Beschreibung von Sprachkompetenzniveaus. Behandelt werden Kriterien für die Formulierung von Deskriptoren. Sodann werden verschiedene Methoden der Entwicklung von Skalen aufgeführt; eine kommentierte Bibliographie schließt diesen Anhang ab.

Die Formulierung von Deskriptoren
Methoden zur Entwicklung von Skalen
Kommentierte Auswahlbibliographie: Skalen von Sprachkompetenz
 

DIE FORMULIERUNG VON DESKRIPTOREN

Erfahrungen mit Skalierung, die man bei Sprachtests gesammelt hat, die Skalierungstheorie im weiteren Feld der Angewandten Psychologie und die Präferenzen von Lehrenden, wenn sie an Konsultationsprozessen beteiligt sind (z.B. bei den gestuften Lernzielsystemen in Großbritannien oder im Schweizer Projekt), legen die folgenden Leitpunkte für die Entwicklung von Deskriptoren nahe:
  • Positive Formulierungen: Man kann bei beurteilungsorientierten Kompetenzskalen und bei Bewertungsskalen in Prüfungen immer wieder beobachten, dass bei Einträgen auf den unteren Niveaus negative Formulierungen benutzt werden. Es ist schwieriger, auf den niedrigeren Niveaus der Sprachkompetenz zu sagen, was der Lernende tun kann, als zu sagen, was er nicht tun kann. Positive Formulierungen sind aber vor allem dann wünschenswert, wenn Kompetenzniveaus auch als Lernziel dienen sollen und nicht nur als ein Instrument zur Überprüfung und Auslese von Kandidaten. Manchmal ist es möglich, den gleichen Sachverhalt positiv oder negativ zu formulieren, z.B. in Bezug auf das 'Spektrum sprachlicher Mittel':
    Tabelle A1: Positive und negative Formulierungen
    positiv negativ
    - Verfügt über eine Auswahl an elementaren sprachlichen Mitteln und Strategien, die es ihm/ ihr ermöglichen, mit voraussagbaren Alltagssituationen fertig zu werden.
    (Eurocentres Niveau 3: Zertifikat)

    - Elementares Repertoire an sprachlichen Mitteln und Strategien, das den meisten Anforderungen des Alltags genügt, erfordert allerdings in der Regel Kompromisse in Bezug auf die Realisierung der Sprechabsicht und macht die Suche nach Worten nötig.
    (Eurocentres Niveau 3: Beurteilungsraster)

    - Verfügt über ein enges Repertoire sprachlicher Mittel, das ständige Neuansätze bei Formulierungen und die Suche nach Wörtern erfordert.
    (ESU Niveau 3)

    - Begrenzte Sprachkompetenz verursacht in nicht-routinemäßigen Situationen häufige Abbrüche und Missverständnisse.
    (Finnische Niveaustufe 2)

    - Die Kommunikation bricht ab, weil sprachliche Begrenzungen die Übermittlung des Inhalts behindern.
    (ESU Niveau 3)

    - Der Wortschatz konzentriert sich auf Gebiete wie elementare Gegenstände, Orte und die häufigsten Verwandtschaftsbezeichnungen.
    (ACTFL Novice)
    - Verfügt nur über einen begrenzten Wortschatz
    (Niederländische Niveaustufe 1)

    - Ein begrenztes Spektrum an Wörtern und Redewendungen behindert die Übermittlung von Gedanken und Ideen.
    (Universität Göteborg)

    - Produziert und erkennt eine Reihe auswendig gelernter Wörtern und kurzer Redewendungen.
    (Trim 1978 Niveau 1)
    - Kann nur formelhafte Äußerungen, Listen und Aufzählungen produzieren.
    (ACTFL Novice)
    - Kann kurze alltagssprachliche Ausdrücke produzieren, um einfache Bedürfnisse konkreter Art zu befriedigen (im Bereich von Begrüßungen, Informationen usw.).
    (Elviri, Mailänder Niveau 1, 1986)
    - verfügt nur über ein elementares Sprachrepertoire; zeigt wenig oder keine Anzeichen für eine funktionale Sprachbeherrschung.
    (ESU Niveau 1)

    Das Vermeiden negativer Formulierungen wird zusätzlich außerdem noch dadurch kompliziert, dass es Eigenschaften kommunikativer Sprachkompetenz gibt, die nicht kumulativ sind. Dabei gilt: Je weniger, desto besser. Das offensichtlichste Beispiel ist, was manchmal "Unabhängigkeit" genannt wird, also das Ausmaß, in dem die Lernenden abhängig sind (a) von der sprachlichen Anpassung ihrer Gesprächspartner, (b) von Möglichkeiten, um Klärung zu bitten und (c) von Möglichkeiten, Hilfe zu erhalten bei der Formulierung dessen, was sie sagen wollen. Oftmals können diese Punkte berücksichtigt werden, indem man einem positiv formulierten Deskriptor Bedingungen hinzufügt, wie zum Beispiel:

    Kann im Allgemeinen verstehen, wenn mit ihm/ihr in Standardsprache über vertraute Dinge gesprochen wird, vorausgesetzt, er/sie kann ab und zu darum bitten, etwas zu wiederholen oder anders zu formulieren.

    Kann verstehen, was in einem einfachen Alltagsgespräch langsam, deutlich und direkt an sie/ihn gerichtet gesagt wird, vorausgesetzt die sprechende Person gibt sich Mühe, ihm/ihr verstehen zu helfen.

    oder:

    Kann sich relativ leicht in strukturierten Situationen und kurzen Gesprächen verständigen, sofern die Gesprächspartner, falls nötig, helfen.

  • Bestimmtheit/Eindeutigkeit: Deskriptoren sollten konkrete Aufgaben beschreiben und/oder konkrete Fertigkeitsgrade bei der Ausführung von Aufgaben. Hier sind zwei Dinge zu beachten. Erstens sollte der Deskriptor keine Vagheiten enthalten, wie zum Beispiel 'Kann ein Spektrum von angemessenen Strategien benutzen'. Was ist mit 'Strategie' gemeint? 'Angemessen' in Bezug auf was? Wie sollten wir 'Spektrum' verstehen? Das Problem von vagen Deskriptoren besteht darin, dass sie manchmal ganz gut aussehen, aber die Tatsache, dass man sie leicht akzeptiert, kann auch verdecken, dass jeder sie anders interpretiert. Zweitens ist es schon seit den vierziger Jahren ein Prinzip, dass die Unterscheidungen zwischen Stufen auf einer Skala nicht davon abhängen sollten, dass man Graduierungen wie "einige" oder "ein paar" auf der nächst höheren Stufe durch "viele" oder "die meisten" ersetzt, oder "ziemlich breit" durch "sehr breit" oder "mittelmäßig" durch "gut". Unterscheidungen sollten real sein und nicht nur verbal sein. Dies kann dazu führen, dass Lücken bleiben, wo aussagekräftige, konkrete Unterscheidungen nicht getroffen werden können.

  • Klarheit: Deskriptoren sollten transparent sein - nicht mit Jargon belastet. Abgesehen davon, dass dies ein Hindernis für die Verständlichkeit sein kann, stellt es sich manchmal heraus, dass sich ein scheinbar eindrucksvoller Deskriptor als wenig aussagekräftig entpuppt, wenn man den Jargon weglässt. Weiterhin sollten Deskriptoren in einfacher Syntax verfasst sein und eine klare logische Struktur haben.

  • Kürze: Hier gibt es zwei verschiedene Denkrichtungen. Die eine ist verbunden mit holistischen Skalen, besonders solchen, die in den Vereinigten Staaten und in Australien benutzt werden; hier versucht man, einen längeren Abschnitt zu formulieren, der in verständlicher Form diejenigen Merkmale abdeckt, die man für die wesentlichsten hält. Solche Skalen erreichen ihre "Bestimmtheit/Eindeutigkeit" durch eine umfangreiche Auflistung, die ein detailliertes Bild davon vermitteln soll, was Beurteilende als typischen Lernenden auf dem betreffenden Niveau wahrnehmen können; es sind folglich sehr reichhaltige Quellen der Beschreibung. Dieser Ansatz hat jedoch zwei Nachteile. Erstens ist kein Mensch wirklich 'typisch': Einzelne Merkmale treten in unterschiedlichen Kombinationen miteinander auf. Zweitens kann man sich während eines Beurteilungsprozesses realistischerweise nicht auf einen Deskriptor beziehen, der aus mehr als zwei Sätzen besteht oder länger ist als ein Satz mit zwei Teilsätzen. Lehrende scheinen durchweg kurze Deskriptoren zu bevorzugen. Im Projekt, in dem die Beispieldeskriptoren entwickelt wurden, hatten die Lehrenden die Tendenz, Deskriptoren zurückzuweisen oder aufzuspalten, die länger als 25 Wörter waren (ungefähr zwei Zeilen in normaler Schriftgröße).

  • Unabhängigkeit: Kurze Deskriptoren haben zwei weitere Vorteile. Erstens ist es wahrscheinlicher, dass sie ein Verhalten beschreiben, bei dem man sagen kann "Ja, diese Person kann das tun". Folglich können kurze, konkrete Deskriptoren in Checklisten oder Fragebögen für die fortlaufende Beurteilung durch Lehrende und/oder bei der Selbstbeurteilung als voneinander unabhängige Kriterien benutzt werden. Wenn ein Deskriptor dieses Merkmal hat, dass er für sich allein stehen kann, dann ist ist ein Signal, dass er auch als eigenständiges Lernziel dienen kann und dass seine Bedeutung nicht nur von der Formulierung anderer Deskriptoren auf der Skala abhängt. Dies eröffnet eine Reihe von Verwendungsmöglichkeiten bei verschiedenen Formen der Beurteilung (vgl. Kapitel 9).

Die Benutzer des Referenzrahmens sollten bedenken und, soweit sinnvoll, angeben,
  • welche der aufgeführten Kriterien am relevantesten sind, und welche anderen Kriterien ausdrücklich oder implizit in ihrem Kontext benutzt werden;
  • in welchem Maß es wünschenswert und durchführbar ist, dass die in ihrem System verwendeten Formulierungen Kriterien wie die aufgeführten erfüllen.

Liste  

METHODEN ZUR ENTWICKLUNG VON SKALEN

Wenn es eine Abfolge von Niveaus gibt, so setzt dies voraus, dass man bestimmte Dinge eher einer Niveaustufe zuordnen kann als einer anderen und dass die Beschreibung eines bestimmten Fertigkeitsniveaus eher zu einem als zu einem anderen Niveau gehört. Dies wiederum impliziert, dass man ein Skalierungsverfahren konsistent benutzt. Es gibt mehrere mögliche Verfahren, mit deren Hilfe man Sprachkompetenzbeschreibungen verschiedenen Niveaus zuordnen kann. Die verfügbaren Methoden kann man in drei Gruppen einteilen: intuitive Methoden, qualitative Methoden und quantitative Methoden. Die meisten der heute benutzten Sprachkompetenzskalen und andere Systeme von Niveaustufen sind mit Hilfe einer der drei intuitiven Methoden der ersten Gruppe entwickelt worden. Am besten werden alle drei Ansätze komplementär in einem kumulativen Prozess kombiniert. Qualitative Methoden erfordern die intuitive Aufbereitung und Auswahl des Materials und die intuitive Interpretation der Ergebnisse. Quantitative Methoden sollten qualitativ vorgetestetes Material quantifizieren und erfordern eine intuitive Interpretation der Ergebnisse. Bei der Entwicklung der Gemeinsamen Referenzniveaus wurde deshalb eine Kombination von intuitiven, qualitativen und quantitativen Ansätzen benutzt.

Wenn qualitative und quantitative Methoden benutzt werden, dann gibt es zwei mögliche Ausgangspunkte: Deskriptoren oder Stichproben von Leistungen.

Deskriptoren als Ausgangspunkt: Ein Ausgangspunkt besteht darin zu überlegen, was man beschreiben möchte, und dann Entwürfe für Deskriptoren für die betreffenden Kategorien zu schreiben oder zu sammeln und zu bearbeiten, die in der qualitativen Phase als Input dienen sollen. Die Methoden 4 und 9, also die erste und die letzte in der Gruppe der qualitativen Verfahren weiter unten, sind Beispiele für diesen Ansatz. Sie sind besonders geeignet für die Entwicklung von Deskriptoren für curriculumbezogene Kategorien wie z.B. Kommunikative Sprachaktivitäten, aber sie können auch benutzt werden, um Deskriptoren für Aspekte der Kompetenz zu entwickeln. Mit Kategorien und Deskriptoren zu beginnen hat den Vorteil, dass man einen theoretisch ausgeglichenen Geltungsbereich definieren kann.

Stichproben von Leistungen als Ausgangspunkt: Die Alternative hierzu, die aber nur benutzt werden kann, um Deskriptoren zur Bewertung von Leistungen zu entwickeln, besteht darin, mit repräsentativen Stichproben von Leistungen zu beginnen. Dabei kann man repräsentative Bewertende fragen, was sie sehen, wenn sie mit den Stichproben arbeiten (qualitativ). Die Methoden 5 bis 8 sind Varianten dieser Konzeption. Andererseits kann man auch Bewertende nur darum bitten, die Stichproben zu beurteilen, und dann ein angemessenes statistisches Verfahren benutzen, um herauszufinden, durch welche Schlüsselkonzepte die Entscheidungen der Bewerter gesteuert werden (quantitativ). Die Methoden 10 und 11 sind Beispiele für diesen Ansatz. Der Vorteil der Analyse von Stichproben von Leistungen liegt darin, dass man zu sehr konkreten und datenbasierten Beschreibungen gelangen kann.

Die letzte Methode, Nr. 12, ist die einzige, mit deren Hilfe Deskriptoren wirklich im mathematischen Sinn skaliert werden. Dies war die Methode, nach der die Gemeinsamen Referenzniveaus und die Beispieldeskriptoren im Anschluss an die Methoden 2 (intuitiv) und 8 und 9 (qualitativ) entwickelt wurden. Das gleiche statistische Verfahren kann jedoch auch benutzt werden, nachdem eine Skala entwickelt wurde, um die Verwendung dieser Skala in der Praxis zu validieren und um zu ermitteln, ob sie revidiert werden muss.

Intuitive Methoden:
Diese Methoden erfordern keine strukturierte Datensammlung, sondern nur die Interpretation von Erfahrungen nach bestimmten Grundsätzen.

Nr. 1 Experte: Jemand wird gebeten, eine Skala zu schreiben, was durchaus unter Bezug auf bereits existierende Skalen, curriculare Dokumente oder anderes relevantes Quellenmaterial geschehen kann, am besten, nachdem bei der betroffenen Zielgruppe eine Bedarfsanalyse durchgeführt wurde. Die Skala kann dann pilotiert und revidiert werden, am besten unter Einbezug von Informanten.
Nr. 2 Kommission: Wie 'Experte', aber ein kleines Entwicklungsteam ist daran beteiligt sowie eine größere Gruppe von Beratenden. Die Entwürfe werden von den Beratern kommentiert. Die Beratenden arbeiten intuitiv auf der Basis ihrer Erfahrung und/oder auf der Basis von Vergleichen zu Lernenden oder zu Stichproben von Leistungen. Gipps (1994) und Scarino (1996, 1997) diskutieren Schwächen von curricularen Skalen für das Lernen moderner Sprachen auf der Sekundarstufe, wie sie von Kommissionen dieser Art in Großbritannien und in Australien ausgearbeitet wurden.
Nr. 3 Auf Erfahrung beruhend: Wie 'Kommission', aber der Prozess findet in einer Institution oder in einem speziellen Beurteilungskontext statt und erstreckt sich über eine gewisse Zeit, dabei entwickelt sich ein 'interner Konsens'. Eine Kerngruppe entwickelt ein gemeinsames Verständnis der Niveaus und der Kriterien. Systematische Erprobung und Rückmeldungen können folgen, um die Formulierungen zu verfeinern. Gruppen von Bewertenden können Leistungen in Bezug auf die Definitionen diskutieren, aber umgekehrt auch die Definitionen in Bezug auf Stichproben von Leistungen. Dies ist das traditionelle Verfahren, nach dem Kompetenzskalen entwickelt wurden (Wilds 1975; Ingram 1985; Liskin-Gasparro 1984; Lowe 1985, 1986).

Qualitative Methoden:
Zu den folgenden Methoden gehören kleine Workshops mit Gruppen von Informanten sowie eine eher qualitative als eine statistische Interpretation der gewonnenen Informationen.

Nr. 4 Schlüsselkonzepte: Formulierung: Wenn erst einmal der Entwurf für eine Skala existiert, ist es ein einfaches Verfahren, sie zu zerschneiden und die Informanten, die typisch sein sollten für die zukünftigen Benutzer der Skala, zu bitten, (a) die Definitionen in eine Abfolge zu bringen, die sie für richtig halten, (b) ihre Entscheidungen zu erklären, und später, wenn die Unterschiede zwischen ihrer Abfolge und der beabsichtigten Abfolge aufgedeckt werden, (c) zu identifizieren, welche Schlüsselkonzepte ihnen geholfen - oder sie verwirrt haben. Das Verfahren kann verfeinert werden, indem man manchmal ein Niveau weglässt und als zusätzliche Aufgabe verlangt herauszufinden, wo eine Lücke zwischen zwei Niveaus darauf hindeutet, dass ein Niveau zwischen ihnen fehlt. Die Zertifizierungsskalen der Eurocentres wurden auf diese Weise entwickelt.
Nr. 5 Schlüsselkonzepte: Leistungen: Deskriptoren werden typischen Leistungen auf den Niveaustufen zugeordnet, um Kohärenz zwischen dem, was beschrieben wurde, und dem, was geschehen ist, zu gewährleisten. Manche Handreichungen für die Cambridge-Prüfungen führen Lehrende durch diesen Prozess, bei dem der Wortlaut in Skalen mit Bewertungen bestimmter Prüfungsarbeiten verglichen wird. Die Deskriptoren von IELTS (International Language Testing System) wurden entwickelt, indem man Gruppen von erfahrenen Bewertenden bat, ein Sample von "Schlüsselarbeiten" für jedes Niveau zu bestimmen und sich dann auf die "Schlüsselmerkmale" einer jeden Prüfungsarbeit einigen. Die für verschiedene Niveaus als charakteristisch angesehenen Merkmale werden dann im Gespräch identifiziert und in die Deskriptoren eingearbeitet (Alderson 1991; Shohamy et al. 1992).
Nr. 6 Hauptmerkmal (primäre Eigenschaft): Leistungen (gewöhnlich schriftliche) werden von einzelnen Informanten in eine Rangordnung gebracht. Sodann wird eine gemeinsame Rangordnung ausgehandelt. Das Prinzip, nach dem die Prüfungsarbeiten tatsächlich sortiert wurden, wird identifiziert und auf jedem Niveau beschrieben - wobei man sorgfältig darauf achtet, jene Merkmale hervorzuheben, die für ein bestimmtes Niveau besonders ins Auge springen. Was dabei beschrieben wird, ist die Eigenschaft (das Merkmal, das Konstrukt), das die Rangfolge determiniert (Mullis 1980). Eine dabei übliche Variante ist es, Performanzbeispiele nicht nach der Rangfolge, sondern in Stapeln zu sortieren. Es gibt zu diesem klassischen Ansatz auch eine interessante multi-dimensionale Variante. In dieser Variante legt man zunächst durch eine Identifikation der Schlüsselmerkmale (Nr. 5 oben) fest, welches die wichtigsten Merkmale sind. Dann sortiert man die Stichproben getrennt für jedes Merkmal. So gelangt man am Ende zu einer analytischen Skala zu mehreren Merkmalen (multi trait scale), statt zu einer holistischen Skala zu einem hauptmerkmal.
Nr. 7 Binäre Entscheidung: Eine andere Variante der 'Primäre Eigenschaft'-Methode ist es, zunächst repräsentative Stichproben nach Niveaus in Stapel zu sortieren. Dann identifiziert man (wie in Nr. 5 oben) im Gespräch, das sich auf die Grenzen zwischen den Niveaus konzentriert, die Schlüsselmerkmale. Das betreffende Merkmal wird dann jedoch als kurze Kriteriumsfrage formuliert, zu der es eine Ja/Nein-Antwort gibt. So wird ein Baumdiagramm mit binären Wahlmöglichkeiten entwickelt. Dies bietet Beurteilenden einen Algorithmus, dem sie bei ihren Entscheidungen folgen können (Upshur & Turner 1995).
Nr. 8 Vergleichende Urteile: Gruppen diskutieren über zwei Leistungen und halten fest, welche davon besser ist - und warum. Auf diese Art und Weise werden sowohl Kategorien in der Metasprache der Beurteilenden ebenso identifiziert als auch die ins Auge springenden zentralen Merkmale eines jeden Niveaus. Diese Merkmale kann man dann als Deskriptor formulieren (Pollitt & Murray 1996).
Nr. 9 Sortieraufgaben: Wenn Entwürfe für Deskriptoren existieren, kann man Informanten bitten, sie in Stapeln zu sortieren, je nach den Kategorien, die sie beschreiben sollten und/oder nach Niveaus. Die Informanten können auch gebeten werden, die Deskriptoren zu kommentieren, zu ergänzen und/oder zu verwerfen und diejenigen zu benennen, die besonders klar, nützlich, relevant usw. sind. Der Pool von Deskriptoren, auf dem das System der Beispielskalen basiert, wurde auf diese Weise entwickelt und bearbeitet (Smith & Kendall 1963; North 1996/2000).

Quantitative Methoden:
Diese Methoden erfordern einen beträchtlichen Aufwand an statistischer Analyse und eine sorgfältige Interpretation der Resultate.

Nr. 10 Diskriminanzanalyse: Zunächst wird eine Gruppe von Leistungsstichproben, die bereits bewertet sind (vorzugsweise durch ein Team) einer genauen Diskursanalyse unterzogen. Die qualitative Analyse identifiziert und zählt das Vorkommen verschiedener qualitativer Merkmale. Sodann wird eine Multiple Regressionsanalyse durchgeführt um zu bestimmen, welche der identifizierten Merkmale wahrscheinlich die Bewertung signifikant bestimmt haben, zu der die Beurteilenden gekommen sind. Diese Schlüsselmerkmale werden dann in die Formulierung von Deskriptoren für jedes Niveau mit einbezogen (Fulcher 1996).
Nr. 11 Multidimensionale Skalierung: Trotz der Bezeichnung ist dies ein Beschreibungsverfahren, um Schlüsselmerkmale und die Beziehungen zwischen ihnen zu identifizieren. Leistungen werden mit Hilfe einer analytischen Skala mit mehreren Kategorien bewertet. Die Ergebnisse dieses Analyseverfahrens zeigen, welche Kategorien tatsächlich entscheidend zur Bestimmung eines Niveaus beitragen haben, und sie ergeben ein Diagramm, das die Nähe oder Ferne der verschiedenen Kategorien zueinander abbildet. Es ist deshalb ein Forschungsverfahren, mit dessen Hilfe man die zentralen Kriterien identifizieren und validieren kann (Chaloub-Deville 1995).
Nr. 12 Item Response-Theorie (IRT) oder "Latent Trait"-Analyse: IRT stellt eine Gruppe von Mess- oder Skalierungsmodellen zu Verfügung. Das direkteste und stabilste ist das Rasch-Modell, benannt nach dem dänischen Mathematiker Georg Rasch. Die IRT ist eine Weiterentwicklung, basierend auf der Probabilitätstheorie, und wird vor allem dazu benutzt, um den Schwierigkeitsgrad einzelner Testaufgaben in einer Itembank zu bestimmten. Fortgeschrittene Lernende haben hohe Chancen, eine elementare Frage richtig zu beantworten, Anfänger haben sehr geringe Chancen, eine anspruchsvolle Aufgabe zu lösen. Diese einfache Tatsache ist beim Rasch-Modells zu einer Skalierungsmethode entwickelt worden, die man benutzen kann, um Items auf der gleichen Skala zu kalibrieren. Eine Weiterentwicklung dieses Ansatzes kann sowohl zur Skalierung von Deskriptoren der Kommunikationsfähigkeit als auch zur Skalierung von Testitems benutzt werden.

Bei einer Rasch-Analyse können verschiedenen Tests oder Fragebögen zu einer überlappenden Kette zusammengefügt werden, indem man "Ankeritems" benutzt, die den aneinandergrenzenden Elementen gemeinsam sind. Im folgenden Diagramm sind die Ankeritems grau schattiert. Auf diese Weise können die Test- oder Fragebögen auf bestimmte Gruppen abgestimmt werden, sie bleiben aber mit eine gemeinsamen Skala verknüpft. Allerdings muss man bei diesem Prozess sehr sorgfältig vorgehen, weil das Rasch-Modell die jeweils besten und niedrigsten Ergebnisse bei jedem Test verzerrt.

    Test C  
 
    Test B    
 
  Test A    

Der Vorteil einer Rasch-Analyse ist, dass sie ein stichproben- und skalenunabhängiges Maß liefern kann, d.h. eine Skalierung, die unabhängig ist von den Stichproben und den Tests/Fragebögen, die bei der Analyse benutzt wurden. Sie liefert Skalenwerte, die bei zukünftigen Gruppen konstant bleiben, vorausgesetzt die zukünftigen Probanden können als neue Gruppen innerhalb der gleichen statistischen Population gelten. Systematische Veränderungen in den Werten im Verlauf der Zeit (z.B. aufgrund curricularer Veränderungen oder von Prüfertraining) können quantifiziert und in Anpassungen berücksichtigt werden. Ebenso kann systematische Variation zwischen Lernertypen bzw. Typen von Beurteilenden quantifiziert und ausgeglichen werden (Wright & Masters 1982, Linacre 1989).

Man kann das Rasch-Modell auf verschiedene Weise bei der Skalierung von Deskriptoren einsetzen:

  1. Daten aus den qualitativen Verfahren Nr. 6, 7 oder 8 können mit Hilfe des Rasch-Modells auf eine arithmetische Skala übertragen werden.

  2. Man kann umsichtig Tests entwickeln, um die Kompetenzdeskriptoren in Testitems zu operationalisieren. Diese Testitems können dann mit Hilfe des Rasch-Verfahrens skaliert werden, und ihre Skalenwerte können dazu benutzt werden, die relative Schwierigkeit der Deskriptoren anzuzeigen (Brown et al. 1992; Carroll 1993; Masters 1994; Kirsch 1995; Kirsch und Mosenthal 1995).

  3. Deskriptoren können von Lehrenden bei der Beurteilung ihrer Lernenden als Fragebogen-Items benutzt werden ('Kann er/sie X tun?'). So können die Deskriptoren auf die gleiche Art direkt auf einer arithmetischen Skala kalibiriert werden, so wie auch Testitems in einer Itembank skaliert werden.

  4. Die Skalen mit Deskriptoren in den Kapiteln 3, 4 und 5 sind auf diese Weise entwickelt worden. Alle drei in den Anhängen B, C und D beschriebenen Projekte haben die Rasch-Methode benutzt, um die Deskriptoren zu skalieren und die gewonnenen Skalen aufeinander zu beziehen.

Zusätzlich zur Nützlichkeit bei der Entwicklung einer Skala, kann man das Rasch-Verfahren auch dazu benutzen, um zu analysieren, auf welche Art und Weise die Niveaus einer Beurteilungsskala in der Praxis verwendet werden. Dies kann dabei helfen, ungenaue Formulierungen bzw. die zu geringe oder zu starke Nutzung eines Niveaus deutlich zu machen und kann damit als Basis für eine Revision dienen (Davidson 1992; Milanovic et al. 1996; Stansfield & Kenyon 1996; Tyndall & Kenyon 1996).

Die Benutzer des Referenzrahmens sollten bedenken und, soweit sinnvoll, angeben,
  • in welchem Maß die Bewertungen in ihrem System verwendeten Bewertungen/Noten auf Grund gemeinsamer Definitionen eine gemeinsame Bedeutung erlangen;
  • welche der oben skizzierten Methoden oder welche anderen Methoden benutzt werden, um solche Definitionen zu entwickeln.

Liste  

KOMMENTIERTE AUSWAHLBIBLIOGRAPHIE:
SKALEN VON SPRACHKOMPETENZ

Alderson, J. C. 1991: Bands and scores. In: Alderson, J.C and North, B. (eds.): Language testing in the 1990s London: British Council / Macmillan, Developments in ELT, 71-86.

Erörtert Probleme, die entstehen, wenn man Zweck und Ausrichtung von Skalen nicht beachtet, weiterhin die Entwicklung der IELTS Skalen für das Sprechen.

Brindley, G. 1991: Defining language ability: the criteria for criteria. In Anivan, S. (ed.) Current developments in language testing, Singapore, Regional Language Centre.

Grundsätzliche Kritik am Anspruch von Kompetenzskalen, kriteriumsbezogene Beurteilung zu ermöglichen.

Brindley, G. 1998: Outcomes-based assessment and reporting in language learning programmes, a review of the issues. Language Testing 15 (1), 45-85.

Kritisiert die Fokussierung auf Ergebnisse in Hinblick darauf, was Lernende tun können, statt sich auf Aspekte einer sich herausbildenden Sprachkompetenz zu konzentrieren.

Brown, Annie, Elder, Cathie, Lumley, Tom, McNamara, Tim and McQueen, J. 1992: Map­ping abilities and skill levels using Rasch techniques. Paper presented at the 14th Language Testing Research Colloquium, Vancouver. Reprinted in Melbourne Papers in Applied Lin­guistics 1/1, 37-69.

Klassische Anwendung des Rasch-Verfahrens zur Skalierung von Testitems, um eine Kompetenzskala aus den Leseverstehensaufgaben zu bilden, die mit verschiedenen Testitems überprüft wurden.

Carroll, J.B. 1993: Test theory and behavioural scaling of test performance. In Frederiksen, N., Mislevy, R.J. and Bejar, I.I (eds.) Test theory for a new generation of tests. Hillsdale N.J. Lawrence Erlbaum Associates: 297-323.

Einflussreicher Artikel, der den Einsatz des Rasch-Verfahrens empfiehlt, um Testitems zu skalieren und um eine Kompetenzskala zu erstellen.

Chaloub-Deville M. 1995: Deriving oral assessment scales across different tests and rater groups. Language Testing 12 (1), 16-33.

Studie, die darstellt, auf welche Kriterien sich Muttersprachler des Arabischen beziehen, wenn sie Lernende beurteilen. Praktisch die einzige Anwendung eines multi-dimensionalen Skalierungsverfahrens auf Sprachtests.

Davidson, F. 1992: Statistical support for training in ESL composition rating. In Hamp-Lyons (ed.): Assessing second language writing in academic contexts. Norwood N.J. Ablex: 155-166.

Sehr klare Darstellung, wie man eine Bewertungsskala mit Hilfe der Rasch-Analyse in einem zyklischen Prozess validiert. Setzt sich für einen "semantischen" Ansatz bei der Skalierung ein, statt des "konkreten" Ansatzes, der z.B. bei den Beispieldeskriptoren gewählt wurde.

Fulcher 1996: Does thick description lead to smart tests? A data-based approach to rating scale construction. Language Testing 13 (2), 208-238.

Systematischer Ansatz der Deskriptoren- und Skalenentwicklung durch eine angemessene Analyse dessen, was tatsächlich in der Performanz geschieht. Sehr zeitaufwändige Methode.

Gipps, C. 1994: Beyond testing. London, Falmer Press

Setzt sich für "standard-orientierte Beurteilung" durch Lehrende unter Bezug auf gemeinsame Referenzpunkte ein, die in Netzwerken entwickelt werden. Erörterung der Probleme, die durch vage Deskriptoren im English National Curriculum verursacht werden. Curriculumübergreifend.

Kirsch, I.S. 1995: Literacy performance on three scales: definitions and results. In Literacy, economy and society: Results of the first international literacy survey. Paris, Organisation for Economic Cooperation and development (OECD): 27-53.

Einfacher und nicht technischer Bericht über einen anspruchsvollen Einsatz des Rasch-Verfahrens bei der Produktion einer Skala auf der Basis von Testdaten. Die Methode wurde entwickelt, um den Schwierigkeitsgrad neuer Testitems aus den Aufgaben und involvierten Kompetenzen - d.h. in Bezug auf ein Referenzsystem - vorherzusagen und zu erklären.

Kirsch, I.S. and Mosenthal, P.B. 1995: Interpreting the IEA reading literacy scales. In Binkley, M., Rust., K. and Wingleee, M. (eds.) Methodological issues in comparative educational studies: The case of the IEA reading literacy study. Washington D.C.: US Department of Education, National Center for Education Statistics: 135-192.

Detailliertere und technischere Version des obigen Beitrags, in der die Entwicklung der Methode im Verlauf dreier aufeinander bezogener Projekte verfolgt wird.

Linacre, J. M. 1989: Multi-faceted Measurement. Chicago: MESA Press.

Richtungsweisender Durchbruch in der Statistik, der es ermöglicht, die Strenge von Prüfenden zu berücksichtigen, wenn man das Ergebnis einer Beurteilung festhält. Benutzt i mProjekt zur Entwicklung der Beispieldeskriptoren, um die Beziehungen zwischen Niveaus und Lernjahren zu überprüfen.

Liskin-Gasparro, J. E. 1984: The ACTFL proficiency guidelines: Gateway to testing and curriculum. In: Foreign Language Annals 17/5, 475-489.

Abriss der Ziele und der Entwicklung der Amerikanischen ACTFL-Skala aus der zugrunde liegenden Skala des Foreign Service Institute (FSI).

Lowe, P. 1985: The ILR proficiency scale as a synthesising research principle: the view from the mountain. In: James, C.J. (ed.): Foreign Language Proficiency in the Classroom and Beyond. Lincolnwood (Ill.): National Textbook Company.

Detaillierte Beschreibung der Entwicklung der Skala des US Interagency Language Roundtable (ILR) aus der zugrunde liegenden FSI-Skala. Funktionen der Skala.

Lowe, P. 1986: Proficiency: panacea, framework, process? A Reply to Kramsch, Schulz, and particularly, to Bachman and Savignon. In: Modern Language Journal 70/4, 391-397.

Verteidigung eines - in einem spezifischen Kontext - gut funktionierenden Systems gegen theoretische Kritik, ausgelöst durch die Verbreitung der Skala und ihrer Interview-Methode auch im Erziehungswesen (mit ACTFL).

Masters, G. 1994: Profiles and assessment. Curriculum Perspectives 14,1: 48-52

Kurzer Bericht über die Art und Weise, in der Rasch-Verfahren benutzt wurden, u mTestergebnisse und Beurteilungen durch Lehrende zu skalieren, um in Australien ein System curricularer Profile zu schaffen.

Milanovic, M., Saville, N., Pollitt, A. and Cook, A. 1996: Developing rating scales for CASE: Theoretical concerns and analyses. In Cumming, A. and Berwick, R. Validation in language testing. Clevedon, Avon, Multimedia Matters: 15-38.

Klassische Darstellung der Benutzung des Rasch-Verfahrens, um eine Bewertungsskala, die bei einem Sprechtest benutzt wird, weiter zu entwickeln, indem die Niveaus auf der Skala auf eine Zahl reduziert werden, die Beurteilende effektiv handhaben können.

Mullis, I. V.S. 1981: Using the primary trait system for evaluating writing. Manuscript No. 10-W-51. Princeton N.J.: Educational Testing Service.

Klassische Darstellung der Methode 'Primäres Merkmal' für die Entwicklung einer Beurteilungsskala für das Schreiben in der Muttersprache.

North, B. 1993: The development of descriptors on scales of proficiency: perspectives, problems, and a possible methodology. NFLC Occasional Paper, National Foreign Language Center, Washington D.C., April 1993.

Kritische Abhandlung über Inhalte und Methoden bei der Entwicklung von traditionellen Kompetenzskalen. Vorschläge für ein Projekt, gemeinsam mit Lehrenden Beispieldeskriptoren zu entwickeln und mit Hilfe des Rasch-Verfahrens auf der Basis von Beurteilungen durch Lehrende zu skalieren.

North, B. 1994: Scales of language proficiency: a survey of some existing systems, Strasbourg, Council of Europe CC-LANG (94) 24.

Umfassender Überblick über curriculare Skalen und Bewertungsskalen, die später analysiert und als Ausgangspunkt für das Projekt zur Entwicklung der Beispieldeskriptoren benutzt wurden.

North, B. 1996/2000: The development of a common framework scale of language proficiency. PhD thesis, Thames Valley University. Reprinted 2000, New York, Peter Lang.

Diskussion von Kompetenzskalen: In welcher Beziehung stehen Skalen zu Modellen der Sprachkompetenz und des Sprachgebrauchs? Detaillierte Darstellung der Entwicklungsschritte beim Projekt, in dem die Beispieldeskriptoren entwickelt wurden - Probleme, die auftraten, Lösungen, die gefunden wurden.

North B. forthcoming: Scales for rating language performance in language tests: descriptive models, formulation styles and presentation formats. TOEFL Research Paper. Princeton NJ; Educational Testing Service.

Detaillierte Analyse von, und historischer Überblick über Typen von Bewertungsskalen, die man in Sprech- und Schreibtests benutzt: Vorteile, Nachteile, Fallen usw.

North, B. and Schneider, G. 1998: Scaling descriptors for language proficiency scales. Language Testing 15/2: 217-262.

Überblick über das Projekt, in dem die Beispieldeskriptoren konstruiert wurden. Erörtert Resultate und Stabilität der Skalen. Im Anhang Beispiele für Instrumente und Produkte.

Pollitt, A. and Murray, N. L. 1996: What raters really pay attention to. In Milanovic, M. and Saville, N. (eds.) 1996: Performance testing, cognition and assessment. Studies in Language Testing 3. Selected papers from the 15th Language Testing Research Colloquium, Cambridge and Arnhem, 2-4 August 1993. Cambridge: University of Cambridge Local Examinations Syndicate: 74-91.

Interessanter methodologischer Artikel, das Konstruktgitterverfahren (repertory grid analysis) mit einer einfachen Skalierungstechnik verbindet um zu identifizieren, worauf Beurteilende sich bei verschiedenen Kompetenzniveaus konzentrieren.

Scarino, A. 1996: Issues in planning, describing and monitoring long-term progress in language learning. In Proceedings of the AFMLTA 10th National Languages Conference: 67-75.

Kritisiert die vagen Formulierungen bei typischen britischen und australischen curricularen Profilbeschreibungen für die Beurteilung durch Lehrende sowie das Fehlen von Information darüber, wie gut die Leistungen von Lernenden sind.

Scarino, A. 1997: Analysing the language of frameworks of outcomes for foreign language learning. In Proceedings of the AFMLTA 11th National Languages Conference: 241-258.

Wie oben.

Schneider, G and North, B. 1999: "In anderen Sprachen kann ich" .Skalen zur Beschreibung, Beurteilung und Selbsteinschätzung der fremdsprachlichen Kommunikationsfähigkeit. Bern/ Aarau: NFP 33 / SKBF (Umsetzungsbericht),

Kurzer Bericht über das Projekt, in dem die Beispieldeskriptoren konstruiert wurden. Stellt auch die Schweizer Version des Sprachenportfolios vor (40 Seiten A5).

Schneider, G and North, B. 2000: "Dans d'autres langues, je suis capable de ." Echelles pour la description, l'évaluation et l'auto-évaluation des competences en langues étrangères. Berne/Aarau PNR33/CSRE (rapport de valorisation)

Wie oben.

Schneider, G and North, B. 2000: Fremdsprachen können - was heisst das? Skalen zur Beschreibung, Beurteilung und Selbsteinschätzung der fremdsprachlichen Kommunikationsfähigkeit. Chur/Zürich, Verlag Rüegger AG

Vollständiger Bericht über das Projekt, in dem die Beispielskalen entwickelt wurden. Unkompliziertes Kapitel über die Skalierung auf Englisch. Stellt auch die Schweizer Version des Sprachenportfolios vor.

Skehan, P. 1984: Issues in the testing of English for specific purposes. In: Language Testing 1/2, 202-220.

Kritisiert die Normorientierung und die relativen Formulierungen der ELTS-Skalen.

Shohamy, E., Gordon, C.M. and Kraemer, R. 1992: The effect of raters' background and training on the reliability of direct writing tests. Modern Language Journal 76: 27-33.

Einfache Darstellung der elementaren qualitativen Entwicklungsmethode für eine analytische Skala zum Schreiben. Führte zu einer erstaunlichen Interrater-Reliabilität (Übereinstimmung zwischen Beurteilenden) unter untrainierten Nicht-Spezialisten.

Smith, P. C. and Kendall, J.M. 1963: Retranslation of expectations: an approach to the construction of unambiguous anchors for rating scales. In: Journal of Applied Psychology, 47/2.

Der erste Ansatz, Deskriptoren zu skalieren, statt nur Skalen nur zu schreiben. Richtungsweisend. Sehr schwer zu lesen.

Stansfield C.W. and Kenyon D.M. 1996: Comparing the scaling of speaking tasks by language teachers and the ACTFL guidelines. In Cumming, A. and Berwick, R. Validation in language testing. Clevedon, Avon, Multimedia Matters: 124-153.

Verwednung der Rasch-Skalierung, um die Rangfolge der Aufgaben zu bestätigen, die in den ACTFL Richtlinien erscheinen. Interessante methodologische Studie, die Anregungen für den Ansatz gab, der im Projekt zur Entwicklung der Beispieldeskriptoren benutzt wurde.

Takala, S. and F. Kaftandjieva (forthcoming). Council of Europe scales of language proficiency: A validation study. In J.C. Alderson (Ed.) Case studies of the use of the Common European Framework. Council of Europe.

Bericht über die Verwendung einer Weiterentwicklung des Rasch-Modells zur Skalierung von Selbstbeurteilungen in Bezug auf Adaptationen der Beispieldeskriptoren. Kontext: DIALANG-Projekt: Erprobungen in Bezug auf Finnisch.

Tyndall, B. and Kenyon, D. 1996: Validation of a new holistic rating scale using Rasch multifaceted analysis. In Cumming, A. and Berwick, R. Validation in language testing. Clevedon, Avon, Multimedia Matters: 9-57.

Einfache Darstellung der Validierung einer Skala für Interviews zur Einstufung für Englisch als Zweitsprache bei Studienbeginn. Klassische Verwendung der mehrparametrischen Raschanalyse zur Identifizierung von Ausbildungsbedürfnissen.

Upshur, J. and Turner, C. 1995: Constructing rating scales for second language tests. English Language Teaching Journal 49 (1), 3-12.

Anspruchsvolle Weiterentwicklung der Methode 'Primäres Merkmal' zur Gewinnung von binären Entscheidungsdiagrammen. Sehr wichtig für den Schulbereich.

Wilds, C.P. 1975: The oral interview test. In: Spolsky, B. and Jones, R. (eds.): Testing lan­guage proficiency. Washington D.C.: Center for Applied Linguistics, 29-44.

Das Original der ursprünglichen Bewertungs-skala für Sprachkompetenz. Sollte aufmerksam gelesen werden, um Nuancen zu entdecken, die in den meisten späteren Interview-Ansätzen verloren gegangen sind.

Liste
 


 
Goethe-Institut Inhalt