Barbara Hinger / Wolfgang Stadler

unter Mitarbeit von Katrin Schmiderer

Testen und Bewerten fremdsprachlicher Kompetenzen

mit Beiträgen von Martin M. Bauer, Kathrin Eberharter, Carmen Konzett-Firth, Benjamin Kremmel, Matthias Zehentner

A. Francke Verlag Tübingen

Inhalt

Fußnoten

Einleitung

Hintergründe, theoretische Basierungen sowie empirische Einblicke zu IMoF gewähren Publikationen wie Hinger (2009a, 2016a), Hinger & Schmiderer (im Druck) oder Hirzinger-Unterrainer (2013, 2014a); s. auch https://tinyurl.com/y9s3z2ml (21.09.2017).

Nähere Informationen s. https://tinyurl.com/y7fkkvpp (21.09.2017).

2. Der GeR und die Orientierung am sprachlichen Output der Lernenden

A1 und A2 umfassen die elementare Verwendung von Sprache, B1 und B2 beziehen sich auf die selbstständige Sprachverwendung und C1 und C2 auf die kompetente Sprachverwendung (Europarat 2001, 35); für A2, B1 und B2 liegt jeweils eine weitere Untergliederung (A2+, B1+, B2+) vor (ebd., 41).

Diese sind im GeR auch explizit genannt (Europarat 2001, 217; vgl. u.a. Hulstijn 2011, 239f.; Papageorgiou 2016, 328f.).

Lehrpersonen bearbeiteten die Entwürfe in Workshops gemeinsam und wurden dabei videographiert.

North selbst beschreibt drei Phasen des Skalenkonstruktionsprozesses (North & Docherty 2016, 24): In einer ersten intuitiven Phase wurden vor allem bereits bestehende Deskriptoren gesichtet, neue anhand der genannten Kategorien der angewandten Sprachwissenschaft entwickelt, alle Skalen wurden klassifiziert, ediert etc. In einer darauffolgenden qualitativen Phase wurden Workshops mit Lehrpersonen durchgeführt, die die Deskriptoren wie beschrieben evaluierten. In der quantitativen Phase erfolgte schließlich die Kalibrierung der Deskriptoren, die sich als am adäquatesten erwiesen haben, durch eine entsprechende statistische Analyse, für die das Raschmodell gewählt wurde (vgl. Eckes 2015a; Kecker 2016).

Der handlungsorientierte Ansatz im Fremdsprachenunterricht entwickelte sich auf Basis der pragmatischen Wende in der Linguistik in den 1970er Jahren und sollte unter dem Schlagwort der kommunikativen Wende einen bis heute bestimmenden Paradigmenwechsel des Unterrichts einleiten. In Deutschland hat sich dafür insbesondere Piepho (1974) verdient gemacht.

Auch Lehrwerke haben seit der Publikation des GeR rasch Anbindungen an dessen Niveaustufen offeriert; inwiefern dies auf der Grundlage adäquater Validierungsprozesse erfolgte, kann hier nicht weiter erörtert werden.

Auf die Einführung sprachenübergreifender Lehrpläne, beispielsweise in Berlin und Brandenburg (vgl. https://tinyurl.com/ybwl57le [21.09.2017]), kann im Rahmen dieser Einführung in das Testen und Bewerten nur hingewiesen werden.

Papageorgiou (2016, 329) verweist z. B. darauf, dass die Frage der Verbindung von Sprachtests mit dem GeR die Fachliteratur zum Sprachentesten über ein Jahrzehnt lang dominiert hat. Harsch & Hartig (2015, 334) führen an, dass alle größeren high-stakes Testanbieter ihre Sprachentests auf den GeR beziehen.

Grundlegende Bereiche einer guten Testerstellung, die das Manual sehr ausführlich bietet, werden im vorliegenden Band in Kapitel 5 erläutert und auf schulische Rahmenbedingungen bezogen (s. auch Kecker 2016, 32f.).

Vgl. für Deutschland u.a. Porsch, Tesch & Köller (Hrsg.) (2010), Rossa (2016), Tesch (2013); für Österreich u.a. BIFIE (2011), Horak et al. (2010), Horak et al. (2012).

„Im Schulsektor in Deutschland wird für fehlende Qualitätsstandards häufig als Begründung angegeben, dass Testaufgaben für Schulabschlussprüfungen […] etwa vor dem Einsatz nicht erprobt werden können, um die Testsicherheit nicht zu gefährden“ (Kecker 2016, 23).

4.1 Objektivität, Reliabilität, Validität

„In vielen Ländern erfolgt die Beurteilung von Lernerfolgen durch die Vergabe von Noten, manchmal [so wie in Deutschland, Anm. des Autors] auf einer Skala von 1 bis 6, wobei die Note 4 das Bestehen, die Mindestnorm oder ein ‚Ausreichend‘ darstellt. Was die verschiedenen Noten bedeuten, wird von den Lehrenden in den jeweiligen Kontexten internalisiert, aber selten definiert“ (Europarat 2001, 3.9, 50).

4.1.1 Objektivität

Dabei wird ausgeklammert, dass a) dafür in der Schule wahrscheinlich nicht die Zeit zur Verfügung steht und b) beide Lehrpersonen bei der Korrektur und Auswertung dieselben Fehler gemacht haben könnten.

4.1.2 Reliabilität

„Reliability ensures quality of a test such that it produces consistent scores“ (Salkind 2006, 354).

Manchmal hilft bereits eine Excel-Tabelle, um sich z. B. der erreichten minimalen/maximalen Punktezahl oder des Durchschnittswerts einzelner SchülerInnen bei einer Testaufgabe bewusst zu werden.

4.1.3 Validität

Durch die Ausrichtung des Unterrichts an der Kompetenzorientierung und durch die Benotung anhand kriterienorientierter Bewertungsraster gelingt es Klassen-/Schularbeiten, die lange vorherrschende, rein binnendifferenzierte Bezugsgruppenorientierung bei der Bewertung zu durchbrechen und Schülerleistungen kriterienorientiert zu bewerten.

Chapelle (2016) bietet eine gute Übersicht über das Verständnis von Konstruktvalidität in den letzten fünfzig Jahren, beginnend bei Lado (1961). Eckes (2015b) ergänzt in seinem Beitrag rezente Validierungspositionen, z. B. jene von Kane (2012) und Cizek (2012).

5.4 Evaluierung, Prototypisierung und Pilotierung

Detaillierte Erklärungen und Beschreibungen statistischer Verfahren für Sprachentests finden sich bei Green (2013).

6.1.1 Lese- und Hörverstehensziele

DIALANG testet z. B. globales Leseverstehen (understanding the main idea), Inferieren bzw. Schlussfolgerungen ziehen (making inferences) und detailliertes Lesen (understanding specific details) (vgl. Harding, Alderson & Brunfaut 2015, 321f.).

Der GeR scheint der fortschreitenden Digitalisierung in der kürzlich abgeschlossenen Überarbeitung (s. Kapitel 2) Rechnung zu tragen.

6.3 Aufgabenformate für die Überprüfung rezeptiver Fertigkeiten

Hinger (2016b, 130133) beschreibt Aufgabenformate zur Überprüfung rezeptiver Fertigkeiten im schulischen Kontext und analysiert diese (ebd., 134138).

6.4 Integrierte Fertigkeiten überprüfen

Eine kurze kritische Beschreibung des Tests findet sich in Rupp, Vock, Harsch & Köller (2008, 48).

Genauere Auskunft gibt die Seite „Interpret Scores“ der ETS TOEFL-Homepage (https://tinyurl.com/y9yzk5xq [21.09.2017]), aus der ersichtlich ist, dass die Stufen 05 in eine 030 Punkte umfassende Skala umgewandelt werden. Stufe 3 entspricht 18 Punkten, die als unterster Wert in der Beurteilung „fair“ (1825 Punkte) aufscheinen. Stufe 3 kann also als positiv eingestuft werden.

7.1.2 Aufgabenformate für das Überprüfen von Schreiben

Bei Sprachtests mit sehr großen Populationen gibt es mittlerweile schon relativ hoch entwickelte automatische Bewertungssysteme, die auf Basis von tausenden Bewertungen und Performanzen selbstständig arbeiten.

Anschauliche Darstellungen zur Überprüfung der Fertigkeit Schreiben finden sich u.a. in Arras (2007) und Hinger (2016b, 138141), die im Kontext schulischer Prüfungen eingesetzte Schreibaufgaben auch einer Analyse zuführt (ebd., 142146; s. auch Hinger 2015, 218222).

8. Sprachliche Mittel überprüfen und bewerten

„Kompetenz“ verweist auf die von Chomsky geprägte Begriffsdichotomie „Kompetenz-Performanz“, innerhalb derer „Kompetenz“ als internes Sprachwissen verstanden wird und „Performanz“ für tatsächliche sprachliche Äußerungen, seien sie schriftlich, seien sie mündlich, steht (vgl. auch Kapitel 1, 2, 3).

8.1.1 Konstrukt von Grammatik

In der SRDP erfolgt dies in Aufgaben zur „Sprachverwendung im Kontext“.

8.1.3 Konstrukt von Wortschatz

Nation (2011, 531) weist darauf hin, dass diese Listen auch für graded reader schemes in Form vereinfachter Lektürehefte genutzt wurden.

Die Website www.lextutor.ca erstellt auf Basis von willkürlichen Texteingaben u.a. automatisch Cloze-Tests (vgl. dazu auch Abschnitt 8.1.2).

Mithilfe der Website http://lestcor.com (21.09.2017) besteht die Möglichkeit, den Schwierigkeitsgrad (text complexity) russischer Texte zu überprüfen.

8.2.1 Pragmalinguistisches und soziopragmatisches Konstrukt

S. die erweiterte Version dieser Skala im Companion Volume (Council of Europe 2017, 137).

Im Companion Volume finden sich weitere Skalen mit neuen Deskriptoren, die jene der Skala „Soziolinguistische Angemessenheit“ im GeR ergänzen: Understanding conversation between other speakers; Overall mediation; Meadiating a text; Mediating a conversation; Processing text in speech; Facilitating pluricultural space; Acting as intermediary in informal situations; Building on pluricultural repertoire.

S. die erweiterte Version dieser Skala im Companion Volume (Council of Europe 2017, 138).

Zur Problematik der in Skalen abgebildeten Konstrukte im GeR s. die Überlegungen in Abschnitt 8.1.1 oben.

8.2.3 Aufgabenformate zur Überprüfung pragmalinguistischer und soziopragmatischer Kompetenz

Das Aufgabenformat written completion task, das im konkreten Fall das Niederschreiben von mündlichen Äußerungen verlangt, erscheint als task wenig authentisch. Es könnte durch ein modifiziertes Format (WDCT with rejoinder) ersetzt werden (vgl. Tajeddin & Dabbagh 2015, 133), in dem ein Dialog bereits vorgegeben ist und nur eine Replik (z.B. mündlich) ergänzt werden muss – was positiven washback auslöst („the highly useful, communicatively effective nature of pragmatic competence“) – wie Tajeddin & Dabbagh (ebd., 152) in einer Untersuchung von pragmatischer Kompetenz in low stakes tests herausgefunden haben.

9.1 Konstrukt Übersetzen

Einen ersten Überblick über die vielen unterschiedlichen übersetzungstheoretischen Modelle gibt Stolze (2011).

In Anlehnung an Polanyis (1966) Konzept impliziten Wissens (im englischen Original „tacit knowing“).

Für Übersetzungen aus dem Lateinischen und Griechischen denke man etwa an historische Quellen. Mit morphosyntaktischer Äquivalenz bei gleichzeitiger Vernachlässigung der Semantik wird den RezipientInnen einer solchen Übersetzung nur mäßig gedient sein.

9.2 Umsetzung in der Praxis

So die standardisierte Anweisung der SRDP in Österreich. Darin wird auch deutlich gemacht, dass eine inhaltlich äquivalente Übersetzung gefordert ist.

Um die Vergleichbarkeit der Leistung zu erhöhen, ist stets anzustreben, dass in Testsituationen alle KandidatInnen dasselbe Wörterbuch verwenden.

Das lateinische Demonstrativpronomen ille („jener“) vertritt in lateinischen Texten regelmäßig das nicht existierende Personalpronomen der 3. Person (vgl. Burkard & Schauer 2005, 106 §70; Menge 1953, 156 §219 Anm. 1).

Diese Erkenntnis ist eigentlich nicht neu, blieb aber für die Weiterentwicklung der Korrekturpraxis dennoch lange Zeit ungenutzt: Die „verderbliche Ansicht“, dass „der Wert oder Unwert der gelieferten Arbeit […] lediglich von der Zahl der Fehler ab[hänge]“, kritisiert bereits Nägelsbach (1846, xviii–xix) in der Vorrede zur ersten Auflage seiner Lateinischen Stilistik, also vor mehr als 150 Jahren, damals noch in Hinblick auf das Deutsch-Latein-Übersetzen bzw. auf die lateinische Prosakomposition.

Im Gegensatz zum lateinischen Futur II dient das deutsche Futur II nicht zur Kennzeichnung der Vorzeitigkeit zu einer zukünftigen Haupthandlung (dafür tritt gewöhnlich, je nach Aspekt, Präsens oder Perfekt ein, vgl. Engel 1988, 270f.), sondern wird nahezu ausschließlich als „modales Futur“ in Vermutungen über die Vergangenheit verwendet (vgl. z. B. Engel 1988, 495; bereits Weber [1956, 38] hat in einem Korpus deutscher Originaltexte „kein einziges Beispiel der zeitlichen Verwendung gefunden“).

9.3 Konstrukt Interpretieren

So z. B. in den Diskussionen der Dresdner Fachtagung „Perspektiven für den Lateinunterricht II“ am 19. und 20. November 2015 (vgl. Kuhlmann 2017, 48).

Die Interpretation ist im Latein- und Griechischunterricht ja zusätzlich zur Übersetzungsaufgabe, die meist schon den größten Teil der verfügbaren Zeit benötigt, zu leisten.

10.1 Funktionen der Leistungsfeststellung und -beurteilung

Das österreichische Schulunterrichtsgesetz bzw. die Leistungsbeurteilungsverordnung (LBVO) sieht zwei Begriffe vor, nämlich Leistungsfeststellung und Leistungsbeurteilung. Ersterer meint den Vorgang des Messens, letzterer den Vorgang des Bewertens der gemessenen Leistung. Zugleich ist Leistungsbeurteilung der Oberbegriff, der für den gesamten Prozess des Prüfens und Beurteilens an der Schule verwendet wird (vgl. https://tinyurl.com/yb7jenyk [21.09.2017]).

10.2 Beurteilungs- und Bewertungstypen

An dieser Stelle sei angemerkt, dass die Forschung im Bereich assessment literacy noch „in den Kinderschuhen steckt“, wie sich Fulcher ausdrückt („Assessment literacy is in its infancy“ [Fulcher 2012, 117]), obwohl immer mehr Tests erstellt werden und die Verantwortung dafür – auch im Klassenzimmer – immer wichtiger wird.

Abschnitt 9.3 in Kapitel 9 des GeR (Europarat 2001) bietet eine Übersicht über verschiedene Typen der Beurteilung und Bewertung, die sich einerseits klar voneinander abgrenzen, andererseits in ihrer Bedeutung aber auch überlappen (e. g. subjektive/objektive, holistische/analytische, norm-/kriterienorientierte Beurteilung etc.). Der alternative Typ der dynamischen Beurteilung ist im GeR jedoch ausgespart.

11. Leistungsbewertung im schulischen Kontext

Wie z. B. an den diversen Abiturvorgaben, Standardsicherungen oder fachlichen Hinweisen einzelner Ministerien der Länder in Deutschland oder an der LBVO in Österreich.

Damit ist, den Autoren zufolge, „das immer wieder beklagte Unterrichten zur Testvorbereitung, das sog. teaching to the test nicht nur weniger problematisch als häufig angenommen; es ist vielmehr empfehlenswert und notwendig, um die Lerner auf die Bewältigung kommunikativer (Handlungs-)Anforderungen vorzubereiten (vgl. Porsch, Tesch & Köhler 2010)“ (Wagner & Werry 2015, 573).

Für Österreich wird 2012 gesetzlich festgelegt, dass als Vorbereitung auf die Reifeprüfung „standardisierte Testformate“ ( 7 Abs. 8a LBVO BGBl. Nr. 371/1974 idF BGBl. II Nr. 255/2012) eingesetzt werden. „Standardisiert“ bezieht sich dabei auf Formate, wie sie in der SRDP genutzt werden, und ist mit dem hier verwendeten Begriff „formell“ gleichzusetzen.

Für den englischsprachigen Raum sei hier exemplarisch auf einen Beitrag von Stiggins (2014) verwiesen, der Nachvollziehbarkeit und Transparenz von Bewertungen aus der Perspektive der Lernenden einfordert.

https://tinyurl.com/y7xleh2z (21.09.2017).

Ein Leitfaden zur Erstellung von Schularbeiten (BMUKK 2013) gibt hier konkrete Hinweise.

Vgl. dazu insbesondere Vergleichsarbeiten – VERA: https://tinyurl.com/zlvg3qx; s. auch DESI: https://tinyurl.com/ydbcrwzu; sowie: https://tinyurl.com/yc575gek (21.09.2017).

AHS

Allgemeinbildende Höhere Schulen, Österreich

ALTE

The Association of Language Testers in Europe

BHS

Berufsbildende Höhere Schulen, Österreich

BIFIE

Bundesinstitut für Bildungsforschung, Innovation und Entwicklung, Österreich

BMB

Bundesministerium für Bildung, Österreich

BMBF

Bundesministerium für Bildung und Frauen, Österreich

BMBWK

Bundesministerium für Bildung, Wissenschaft und Kunst, Österreich

BMUKK

Bundesministerium für Unterricht, Kunst und Kultur, Österreich

DTB

Dynamisches Testen und Bewerten

EALTA

European Association of Language Testing and Assessment

EPOSA

Europäisches Portfolio für Sprachlehrende in Ausbildung

ESP

Europäisches Sprachenportfolio

GeR

Gemeinsamer europäischer Referenzrahmen für Sprachen

IMoF

Innsbrucker Modell der Fremdsprachendidaktik

KMK

Kultusministerkonferenz

LAL

language assessment literacy

LBVO

Leistungsbeurteilungsverordnung

SRDP

Standardisierte kompetenzorientierte Reife- und Diplomprüfung, Österreich

ZNE

Zone der nächsten Entwicklung

Das vorliegende Studienbuch ist an Lehramtsstudierende in Ausbildung sowie an ReferendarInnen, Schul- und UnterrichtspraktikantInnen in Deutschland und Österreich, der Schweiz und Südtirol gerichtet, die an einer Universität und einer Hochschule Fremdsprachen oder die klassischen Sprachen Latein oder Griechisch studieren. Entstanden ist das Studienbuch an der Universität Innsbruck. Hier werden am sog. Innsbrucker Modell der Fremdsprachendidaktik (IMoF) künftige FremdsprachenlehrerInnen seit dem Studienjahr 2001/2002 sprachenübergreifend und sprachspezifisch ausgebildet. IMoF widmet sich schulischer Mehrsprachigkeit und multilingualen Herangehensweisen in schulischen Kontexten und wird über Innsbruck und Österreich hinaus als Meilenstein einer sprachenintegrierenden fachdidaktischen Ausbildung gewürdigt (Krumm & Reich 2013; s. auch BMUKK & BMWF 2008, 48f.), die den Rahmen monolingualer Studiengänge hinter sich lässt und sprachenverbindende sowie mehrsprachigkeitsdidaktische Ansätze in den Fokus rückt.

Das Modell hat seine Anfänge im Jahr 2000, als ein neuer Studienplan für die Ausbildung künftiger FremdsprachenlehrerInnen an der Universität Innsbruck zu konzipieren war. Es stellte sich für den fremdsprachlichen Unterricht die Frage, ob es Theorien, Grundlagen und Prinzipien gibt, die jeweils nur auf eine Zielsprache zutreffen, oder ob nicht vielmehr Theorien, Grundlagen und Prinzipien der sprachdidaktischen Vermittlung allen Zielsprachen gemein sind. Auf Initiative von Barbara Hinger kamen FremdsprachendidaktikerInnen der Institute für Anglistik, Romanistik und Slawistik bei Diskussionen am Runden Tisch schließlich überein, dass Synergien nicht von der Hand zu weisen sind: Gemeinsame sprachenübergreifende Theorien und Grundlagen des Unterrichtens moderner Sprachen sind deutlich auszumachen, diese wären aber auch auf einzelsprachliche Inhalte zu spezifizieren, um den Unterricht in einer konkreten Zielsprache adäquat umsetzen zu können. Diese zweifache Perspektive, gebündelt in der Kombination von sprachenübergreifender und sprachspezifischer Fremdsprachendidaktik, sollte sowohl das Erarbeiten theoretischer Ansätze und empirischer Forschungsergebnisse als auch deren reflektierte Übertragung in den schulischen Alltag gewährleisten.

Dieselbe Herangehensweise wurde auf Anregung von Wolfgang Stadler auf den Bereich des Prüfens und Bewertens von Fremdsprachen übertragen und in das Curriculum integriert: Bis dahin war dieses Gebiet in der Ausbildung kaum vorgesehen, obwohl Lehrpersonen ihr gesamtes Berufsleben hindurch die sprachlichen Leistungen von SchülerInnen zu bewerten haben (vgl. Arras 2009, 169, die von der Beurteilung fremdsprachlicher Leistungen als dem „täglichen Brot“ aller Lehrkräfte spricht), Klassen-/Schularbeiten, Tests und mündliche Prüfungen erstellen, deren Ergebnisse auswerten und auf der Basis dieser sowie formativ bewerteter Leistungen zu einer summativen Gesamtbeurteilung für jede/jeden SchülerIn am Ende eines Lernjahres gelangen müssen. Die dafür nötigen Kompetenzen (assessment literacy) sollten in entsprechenden Lehrveranstaltungen erworben werden. Diese Argumente führten dazu, auch den Bereich des Testens und Bewertens fremdsprachlicher Kompetenzen in das Konzept der neuen Lehramtsausbildung aufzunehmen und eine sprachenübergreifende, theoriebasierte Lehrveranstaltung „Testen und Bewerten“ zu konzipieren, die von sprachspezifischen und schulbezogenen Begleitkursen flankiert wird.

2015 wurde – im Zuge der Neukonzipierung der Curricula als Bachelorstudiengänge – die Präsenzzeit für die Lehrveranstaltung „Einführung in das Testen und Bewerten von Fremdsprachen“ erhöht. Diese Erweiterung basiert in nicht unwesentlichem Ausmaß auf dem Feedback von Studierenden, die die Bedeutung dieser Thematik für ihr späteres Berufsfeld erkannten und in Befragungen entsprechend hervorhoben. In der Dissertation von Hirzinger-Unterrainer (2013), die IMoF aus Sicht der Studierenden evaluierte, konnte für das Abschlussmodul „Testen und Bewerten“ Folgendes festgehalten werden:

Das ganze Abschlussmodul erachtet [eine Studierende] als sehr wichtig, sie habe sich […] nämlich nie die Frage gestellt, wie stelle ich einen Test zusammen“ … Die Lehrveranstaltung, aber vor allem das [begleitende] Korrekturpraktikum, habe sie zum Nachdenken über geeignetes Testen und Bewerten angeregt. Das Wissen aus diesem Modul erachte sie für ihren späteren Beruf als sehr bedeutend. (ebd., 293)

Dass adäquates Heranführen an Prinzipien des Testens und Bewertens fremdsprachlicher Leistungen grundsätzlich von Studierenden geschätzt wird und sie diesem Bereich in ihrer Ausbildung großen Wert beimessen, zeigt folgendes Zitat:

[Studierende geben] den Wunsch an, durch dieses Modul gegen Ende des Studiums Sicherheit in der Notengebung zu erlangen. […] Da die Studierenden eine große Unsicherheit im Bereich Testen und Bewerten spüren, sind sie für die vermittelten Hilfestellungen dankbar. (ebd., 356)

In den Augen der beteiligten FremdsprachendidaktikerInnen hat die Beschäftigung mit dem Testen und Bewerten fremdsprachlicher Kompetenzen auch ihre eigene Professionalisierung vorangetrieben und das Teambewusstsein gestärkt: So absolvierten die Verantwortlichen der sprachspezifischen Begleitworkshops gemeinsam eine Fortbildung im kommunikativen Sprachentesten an der Lancaster University in England. Damit entstand neben einer positiven Gruppendynamik im Erwerb und der Erweiterung ihrer Expertise auch eine Vertiefung ihrer Sprachbewertungskompetenz (language assessment literacy), die mittlerweile international in unterschiedlichsten Kontexten gefordert wird (vgl. u.a. Harsch 2015, Harding & Kremmel 2016). Einige Teammitglieder sowie junge IMoF-AbsolventInnen erwarben einen ebenfalls von der Lancaster University angebotenen Online-Master in Language Testing, andere haben

Das vorliegende Buch spiegelt zu einem großen Teil Inhalte des IMoF-Moduls „Testen und Bewerten“ wider, geht aber in einigen Kapiteln darüber hinaus. Ausbildungsinhalte beziehen sich auf unterschiedliche Funktionen sprachlicher Leistungsbeurteilung und ihre gesetzlichen Vorgaben im schulischen Kontext, auf die für das Überprüfen von Sprachen wesentlichen Testgütekriterien, auf Konstruktdefinitionen für sprachliche Fertigkeiten und sprachliche Mittel oder auf kontinuierliches Bewerten sprachlicher Leistungen. Die Lehrveranstaltung wird im sprachenübergreifenden Team geplant und teilweise gemeinsam, teilweise individuell umgesetzt. Konkret bedeutet dies, dass Studierende das Erstellen adäquater Aufgabenformate für die unterschiedlichen sprachlichen Fertigkeiten und sprachlichen Mittel, bezogen auf verschiedene Sprachniveaus, ebenso erlernen wie das Erstellen von Klassen- und Schularbeiten für bestimmte Lernjahre. Indem sie verschiedene Bewertungsarten und -raster kritisch reflektieren und gemeinsam diskutieren, wird der für das Verfassen von Prüfungsaufgaben wichtige kooperative Charakter betont und für Studierende bereits im Studium konkret erfahrbar. Die spätere Zusammenarbeit von Fremdsprachenlehrpersonen an der Schule soll so im Studium präjudiziert und erlernt werden. Ob dies durch die IMoF-Ausbildung in der späteren Unterrichtspraxis der AbsolventInnen auch gelingt, können nur entsprechende Langzeitstudien zeigen. Jenseits von IMoF bleibt die Ausbildung für schulische Mehrsprachigkeit sowie für Sprachentesten und -bewerten – auch international – weiterhin ein Desiderat (vgl. u.a. Harding & Kremmel 2016; Vogt & Tsagari 2014).

Aufgrund der mehrsprachigen Ausrichtung von IMoF finden sich in diesem Buch Beispiele aus allen Sprachen, die im Rahmen des IMoF unterrichtet werden: Englisch, Französisch, Italienisch, Russisch, Spanisch, Latein und Griechisch. Damit soll aber auch verdeutlicht werden, dass die Grundlagen und Prinzipien des Sprachentestens in gleichem Maße auf Fremdsprachen zutreffen. Die einzelnen Kapitel des Studienbuchs eignen sich zudem als theoretische Grundlage für Kurse in Fort- und Weiterbildungsveranstaltungen, die sich Themen der Leistungsmessung und -beurteilung widmen.

Wenn im Studienbuch der Einfachheit halber meist von ‚Tests‘/‚vom Testen‘ gesprochen wird, so sei an dieser Stelle angemerkt, dass damit unterschiedliche Formen der Leistungsüberprüfung gemeint sein können, wie etwa im schulischen Kontext Klassen-/Schularbei

Am Beginn eines jeden Kapitels im Buch finden sich Kann-Beschreibungen nach dem Muster des Europäischen Portfolios für Sprachlehrende in Ausbildung (EPOSA) (Newby et al. 2007), die einen Ausblick darüber geben, was den/die LeserIn im Kapitel erwartet, und die Ziele darlegen, wozu der/die LeserIn nach genauer Lektüre und Bearbeitung der am Ende eines jeden Kapitels angegebenen Arbeitsaufträge und Diskussionsfragen imstande sein soll. Die Tipps zu weiterführender Lektüre am Ende eines Kapitels dienen der Vertiefung der ausgeführten Inhalte und können genützt werden, um sich weiteres Wissen anzueignen. Die gesamte Literatur findet sich am Ende des Buches. Zudem sei an dieser Stelle auf den Language Testing Bytes Podcast verwiesen, in dem Glenn Fulcher begleitend zur Zeitschrift Language Testing aktuelle Fragen der Sprachtestforschung mit ExpertInnen diskutiert. Der Podcast erscheint halbjährlich und ist unter https://tinyurl.com/ycdpgjvr (21.09.2017) oder über iTunes verfügbar.

Marginalien am Textrand dienen der Strukturierung des Gelesenen; anhand dieser benutzerInnenorientierten Punkte kann sich der/die LeserIn – rekapitulierend in Form eines self-assessment – orientieren, ob er/sie die wichtigsten Inhalte eines Kapitels nachvollziehen und diese auch kurz erläutern kann.

Das Buch umfasst 11 Kapitel. Es wurde mit dem Ziel erstellt, auch im deutschsprachigen Raum ein Standardwerk zu „Testen und Bewerten fremdsprachlicher Kompetenzen“ zur Verfügung zu haben, das gleichermaßen von Lehrenden und Lernenden an Universitäten sowie an Schulen genutzt werden kann, um die immer deutlicher eingeforderte „Bewertungskompetenz“ einzelner stakeholder im Bereich fremdsprachlicher Leistungsmessung und -beurteilung zu stärken bzw. zu fördern.

In Kapitel 1 werden ein kurzer, historischer Überblick über die Entwicklung des Testens und Bewertens gegeben und drei Perioden des Sprachentestens vorgestellt, die als Beispiele für die Entwicklung von subjektiven, normorientierten Tests hin zu einer objektiven, validen und an Kriterien orientierten Bewertung dienen. In Kapitel 2 wird der GeR als kommunikativer, kompetenz- und handlungsorientierter Referenzrahmen des Europarates präsentiert, sein

In Kapitel 4 werden die Testgütekriterien in zwei Teilen vorgestellt: Im ersten Teil werden Arten der Objektivität, Reliabilität und Validität erklärt und beschrieben, wobei vor allem auf das zentrale Kriterium der Konstruktvalidität und den sich wandelnden Interpretationen der Validität bzw. des Prozesses der Validierung fokussiert wird. Im zweiten Teil wird auf die Prinzipien Authentizität, Washback und Praktikabilität eingegangen, der Bezug zwischen Testaufgaben und real-world tasks diskutiert, die Auswirkung von Tests auf Lehrende, Lernende, Unterricht und Bildungssystem illustriert sowie eine Kosten-Nutzen-Rechnung hinsichtlich Testressourcen aufgestellt. Der Testentwicklungszyklus wird in Kapitel 5 anhand von standardisierten Tests beschrieben; Begriffe wie Testzweck, Testarten, Testspezifikationen, text mapping, Prototypisierung, Pilotierung, Feldtestung, Benchmarking und Standard-Setting werden definiert und näher erklärt, um u.a. auf die hohe ethische Verantwortung im Bereich des Testens und Bewertens einzugehen.

Kapitel 6 widmet sich der Überprüfung rezeptiver Lese- und Hörverstehensleistungen. Anhand je eines konkreten Lese- (Nold & Willenberg) bzw. Hörverstehensmodells (Field) werden die einzelnen kognitiven Komponenten der nicht direkt beobachtbaren Leseverstehens- bzw. Hörverstehensprozesse aufgezeigt und vier prominente Lese- und Hörverstehensziele mit Bezug auf die GeR-Skalen erläutert. Es wird auf wesentliche Gemeinsamkeiten und Unterschiede bei der Überprüfung von Lese- und Hörverstehen hingewiesen, Testformate werden präsentiert, die sich zur Überprüfung eines Produktes, resultierend aus einer Lese- bzw. Hörverständnisaufgabe, eignen. Am Schluss steht ein Vorschlag, wie rezeptive Fertigkeiten als Basis für integrierte Testaufgaben genutzt werden können und welche Schwierigkeiten sich dadurch bei der Beurteilung ergeben.

In Kapitel 7 wird für die Beschreibung, wie produktive Fertigkeiten getestet werden können, ein ähnlicher Aufbau wie in Kapitel 6 gewählt. Das Konstrukt wird anhand je eines Modells (Shaw & Weir für Schreiben; Levelt für Sprechen) dargelegt, die GeR-Skalen für (monologische) Produktion und (dialogische) Interaktion werden in der Testanwendung konkretisiert. Außerdem werden Richtlinien vorgestellt für die Erstellung von lebensnahen, kontextualisierten und situationsgebundenen Testaufgaben mit unterschiedlichen Inputs (Texten, Bildern, Grafiken etc.) zur Überprüfung der Fertigkeit Schreiben (z.B. hinsichtlich des Einsatzes von Operatoren) bzw. für ein angemessenes InterlokutorInnen- respektive AssessorInnenverhalten bei der Überprüfung der Fertigkeit Sprechen. Dabei wird auf die Nutzung von holistischen und analytischen Bewertungsrastern im Sinne einer erhöhten Interrater-Reliabilität Bezug genommen; Vor- und Nachteile solcher Raster werden aufgezeigt.

Kapitel 8 widmet sich der Überprüfung sprachlicher Mittel in den linguistischen Kompetenzfeldern Lexik, Grammatik und Soziopragmatik. Grammatikalische Kompetenz wird als Teilkompetenz einer funktional-kommunikativen Kompetenz verstanden, für die angemessene

Kapitel 9 befasst sich für die klassischen Sprachen Latein und Griechisch mit der Überprüfung von Kompetenzen sowie deren sprachreflexiven Besonderheiten hinsichtlich der zentralen Fertigkeiten „Übersetzen“ und „Interpretieren“. Beides sind mehrstufige, komplexe Prozesse, die sowohl der Analyse als auch der Reflexion bedürfen. Bisherige Beurteilungs- und Korrekturpraktiken sorgten meist für negativen Washback, da „Sinn“ als wichtigste Beurteilungsdimension schwer zu fassen und die bisherige Negativkorrektur der Validität nicht zuträglich war, sodass man dazu überging, objektivierbare Teilkompetenzen zu messen.

Kapitel 10 zeigt den komplexen Begriff der Beurteilungs- bzw. Bewertungskompetenz (assessment literacy) auf, der anhand der Bereiche assessment of, assessment for und assessment as learning näher beschrieben wird. In diesem Kapitel werden verschiedene Funktionen der Leistungsbeurteilung erläutert sowie alternative Formen der Beurteilung (wie dynamic assessment) oder Methoden zur Datenevaluierung wie think alouds vorgestellt, die eine Brücke zwischen Lehren, Lernen und Testen ermöglichen.

Das abschließende Kapitel 11 ist der, vor allem punktuellen, Leistungsbewertung im Schulalltag gewidmet und beleuchtet (in)formelle Tests und teacher made tests. Dabei wird der Frage nachgegangen, welche Aspekte Prüfungsaufgaben im schulischen Kontext aufweisen sollen, um Anforderungen wie Transparenz und gute Nachvollziehbarkeit zu erfüllen.

Abschließend sei folgenden Personen und Mitwirkenden aufrichtig und herzlich gedankt, ohne deren Unterstützung dieses Buch nicht möglich gewesen wäre: den AutorInnen der einzelnen Kapitel, Katrin Schmiderer für die professionelle und unermüdliche Arbeit am Manuskript, Herrn Seger, Frau Lembke und Frau Gastring vom Narr Verlag für ihre Geduld und die gute Zusammenarbeit, Margareth Graf und Renate Stadler für das aufmerksame Korrekturlesen und, last but not least, allen Studierenden, die die Ausbildung am IMoF durchlaufen haben und durch ihre kritischen Fragen, Anmerkungen und wertvollen Diskussionsbeiträge auch ImpulsgeberInnen für das vorliegende Buch waren.

 

Barbara Hinger und Wolfgang Stadler

Ein historischer Einblick in das Testen und Bewerten von Fremdsprachen

Barbara Hinger

Kann-Beschreibungen

 

Ich kann

Die Forschungsliteratur zu Testen und Bewerten von Fremdsprachen kann bislang nur wenige Arbeiten nennen, die sich systematisch mit der geschichtlichen Entwicklung dieses Bereichs auseinandersetzen. Dabei verweisen die meisten AutorInnen zunächst auf die allgemeine Geschichte des Testens und Bewertens, die bereits in der Zeit der kaiserlichen Dynastien Chinas vor über 2000 Jahren, und damit sehr früh, einsetzte. Die damals etablierten Testverfahren dienten dem Zweck, die Bestqualifizierten – unabhängig von ihrer Zugehörigkeit zu einer bestimmten sozialen Klasse oder Familie – für den Staatsdienst auszuwählen (vgl. Spolsky 2008, 445; s. auch Fulcher 2010, 1ff.; Kunnan 2008, 135; O’Sullivan 2012). Dieses Chinesische PrinzipNormorientierte Bewertung bei der Auswahl der Besten nach dem Chinesischen Prinzip (Macaulay 1853; Spolsky 1995) machte in anderen asiatischen Ländern, wie Korea oder Japan, ebenfalls Furore. Nach Europa gebracht wurde das Prinzip der Auswahl der Besten von den Jesuiten, die es geschickt mit dem hier im Mittelalter vorherrschenden Treviso-Prinzip (Spolsky 2008, 444) verbanden. Diesem ging es nicht um das Feststellen der Bestqualifizierten, sondern um den Nachweis der Leistung von SchülerInnen am Ende eines Lernjahres: Je nach Erfolg der SchülerInnen bezahlte die Stadt das Gehalt der verantwortlichen Lehrperson. Damit standen der curriculare Inhalt und dessen Umsetzung im Mittelpunkt: Erfüllten die SchülerInnen die Vorgaben zu den Lehrinhalten, hatten sie bestanden. Aus heutiger Sicht kann vermutet werden, hier einen Vorläufer kriterienorientierterkriterienorientierte BewertungTreviso-Prinzip als Vorläufer kriterienorientierter Bewertung, inhaltsvalider Verfahren vorzufinden, bei dem die Testkriterien auf dem Curriculum basieren und die gelehrten Inhalte mit jenen der Prüfungen übereinstimmen sollten. Demgegenüber wäre die chinesische Art des Überprüfens wohl als normorientiertnormorientierte Bewertung zu charakterisieren: Die Leistung des Einzelnen wurde vermutlich zur Leistung der Gesamtheit der TestteilnehmerInnen in Beziehung gesetzt. War ein Jahrgang leistungsschwächer, konnte eine Person mittlerer Leistung eher zu den Besten zählen als in einem Jahrgang mit einer leistungsstarken Gruppe. Im weiteren Lauf der Geschichte bleiben beide Zugänge zum Testen und Bewerten erhalten. Sie finden sich auch in aktuellen Debatten und begleiten die Auseinander

Aufgaben zur Überprüfung bestimmter sprachlicher Fertigkeiten waren in den chinesischen Tests bereits inkludiert. So musste nachgewiesen werden, dass man in der Lage war, einen politischen Essay zu schreiben oder Gedichte anhand formaler Vorgaben wie Reimbildung zu verfassen (vgl. Kunnan 2008, 136).

In Europa trugen vor allem die Universitäten zur Verbreitung von Tests und Prüfungen beiVerbreitung von Tests und Prüfungen durch Universitäten und neu etablierte staatliche Bildungssysteme. Die Umgestaltung respektive Neuetablierung staatlicher Bildungssysteme, wie in Frankreich, Preußen und Österreich insbesondere im 18. Jahrhundert, und die damit einhergehende Ausweitung und Öffnung der Schulsysteme zogen ähnliche Effekte nach sich. Interessanterweise hinkte das britische System hier zeitlich gesehen hinterher, wie O’Sullivan ausführt:

Testing became a bigger issue in Britain in the 19th century when the establishment realized they needed to select people according to capability and end the practice of patronage (the French and Germans had already come to that conclusion almost half a century earlier). The introduction of competitive examinations to the civil service in the UK was preceded by the Oxford University Commission, which led to the introduction of examinations within the education system in 1850, […]. (O’Sullivan 2012, 10)

In Großbritannien wurden Anfang des 20. Jahrhunderts Tests für Englisch als Fremdsprache für Personen eingeführt, die aus den Kolonien stammten und eine Ausbildung im britischen Bildungssystem anstrebten (vgl. O’Sullivan 2012, 11). In den USA reichen erste Vorläufer von large-scale language testslarge-scale test respektive Sprachtests für eine hohe Anzahl an TestteilnehmerInnen in die zweite Hälfte des 19. Jahrhunderts zurück (vgl. Kunnan 2008, 136f.)Vorläufer von large-scale language tests ab der 2. Hälfte des 19. Jahrhunderts in den USA. Diese Sprachtests waren Kinder ihrer Zeit und nutzten Prüfformate, die die damals vorherrschende Fremdsprachenvermittlung, also die Grammatik-Übersetzungs-Methode, widerspiegelten. An dieser Art der Überprüfung von Sprache kam bereits früh Kritik auf, sodass neue Aufgabenformate wie ‚Richtig/Falsch‘-, ‚Einfach- oder Mehrfachwahl‘- und ‚Bemerke den Fehler‘-Aufgaben entwickelt wurden (vgl. Kunnan 2008, 137), von denen man sich eine objektivere Beurteilung der Fremdsprachenkenntnisse erhoffte. Über

In der Entwicklung des Testens und Bewertens von Sprache muss an dieser Stelle auf die erste Systematisierung der Geschichte von Sprachtests verwiesen werden, die von Spolsky (1976) vorgelegt wurde und uns gleichzeitig in die Gegenwart des Sprachentestens führt. Spolsky unterscheidet drei Perioden des SprachentestensDrei Perioden des Sprachentestens: