Testen und Bewerten fremdsprachlicher Kompetenzen. Barbara Hinger
Читать онлайн книгу.wird im sprachenübergreifenden Team geplant und teilweise gemeinsam, teilweise individuell umgesetzt. Konkret bedeutet dies, dass Studierende das Erstellen adäquater Aufgabenformate für die unterschiedlichen sprachlichen Fertigkeiten und sprachlichen Mittel, bezogen auf verschiedene Sprachniveaus, ebenso erlernen wie das Erstellen von Klassen- und Schularbeiten für bestimmte Lernjahre. Indem sie verschiedene Bewertungsarten und -raster kritisch reflektieren und gemeinsam diskutieren, wird der für das Verfassen von Prüfungsaufgaben wichtige kooperative Charakter betont und für Studierende bereits im Studium konkret erfahrbar. Die spätere Zusammenarbeit von Fremdsprachenlehrpersonen an der Schule soll so im Studium präjudiziert und erlernt werden. Ob dies durch die IMoF-Ausbildung in der späteren Unterrichtspraxis der AbsolventInnen auch gelingt, können nur entsprechende Langzeitstudien zeigen. Jenseits von IMoF bleibt die Ausbildung für schulische Mehrsprachigkeit sowie für Sprachentesten und -bewerten – auch international – weiterhin ein Desiderat (vgl. u.a. Harding & Kremmel 2016; Vogt & Tsagari 2014).
Aufgrund der mehrsprachigen Ausrichtung von IMoF finden sich in diesem Buch Beispiele aus allen Sprachen, die im Rahmen des IMoF unterrichtet werden: Englisch, Französisch, Italienisch, Russisch, Spanisch, Latein und Griechisch. Damit soll aber auch verdeutlicht werden, dass die Grundlagen und Prinzipien des Sprachentestens in gleichem Maße auf Fremdsprachen zutreffen. Die einzelnen Kapitel des Studienbuchs eignen sich zudem als theoretische Grundlage für Kurse in Fort- und Weiterbildungsveranstaltungen, die sich Themen der Leistungsmessung und -beurteilung widmen.
Wenn im Studienbuch der Einfachheit halber meist von ‚Tests‘/‚vom Testen‘ gesprochen wird, so sei an dieser Stelle angemerkt, dass damit unterschiedliche Formen der Leistungsüberprüfung gemeint sein können, wie etwa im schulischen Kontext Klassen-/Schularbeiten, Klausuren, mündliche Prüfungen etc. Genauso können diese Begriffe aber auch für standardisierte nationale und internationale Tests stehen bzw. Abitur- und Reifeprüfungen meinen. Angemerkt sei, dass der Gemeinsame europäische Referenzrahmen für Sprachen (GeR) in seinem Untertitel neben den Tätigkeiten ‚lernen‘ und ‚lehren‘ auch von ‚beurteilen‘ (im Original: learning, teaching, assessment) spricht und in Kapitel 9 „Beurteilen und Bewerten“ (im Englischen steht dafür der Begriff assessment) wesentliche Inhalte anführt, die „verschiedenen Funktionen des Prüfens und Beurteilens sowie entsprechenden Beurteilungs- und Bewertungsverfahren“ gewidmet sind (Europarat 2001, 12). Auch in Kapitel 9 des GeR ist die Terminologie nicht einheitlich: ‚prüfen‘, ‚beurteilen‘, ‚bewerten‘ werden nebeneinander verwendet, genauso wie die Begriffe ‚testen‘, ‚prüfen‘, ‚bewerten‘, ‚beurteilen‘, ‚evaluieren‘ alltagssprachlich oft synonymisch verwendet werden, wenn z. B. von der Messung sprachlicher Kompetenz die Rede ist. ‚Testen‘ (to test) ist zweifellos der engste Begriff (examining someone’s knowledge), ‚beurteilen‘ und ‚bewerten‘ (to assess) fassen die Tätigkeit der Leistungsüberprüfung weiter (the goal of assessment is to make improvements) und der Begriff ‚evaluieren‘ (to evaluate) hat die umfassendste Bedeutung (making (institutional) judgements based on criteria and evidence) (vgl. https://tinyurl.com/y82vcae2 [21.09.2017]).
Am Beginn eines jeden Kapitels im Buch finden sich Kann-Beschreibungen nach dem Muster des Europäischen Portfolios für Sprachlehrende in Ausbildung (EPOSA) (Newby et al. 2007), die einen Ausblick darüber geben, was den/die LeserIn im Kapitel erwartet, und die Ziele darlegen, wozu der/die LeserIn nach genauer Lektüre und Bearbeitung der am Ende eines jeden Kapitels angegebenen Arbeitsaufträge und Diskussionsfragen imstande sein soll. Die Tipps zu weiterführender Lektüre am Ende eines Kapitels dienen der Vertiefung der ausgeführten Inhalte und können genützt werden, um sich weiteres Wissen anzueignen. Die gesamte Literatur findet sich am Ende des Buches. Zudem sei an dieser Stelle auf den Language Testing Bytes Podcast verwiesen, in dem Glenn Fulcher begleitend zur Zeitschrift Language Testing aktuelle Fragen der Sprachtestforschung mit ExpertInnen diskutiert. Der Podcast erscheint halbjährlich und ist unter https://tinyurl.com/ycdpgjvr (21.09.2017) oder über iTunes verfügbar.
Marginalien am Textrand dienen der Strukturierung des Gelesenen; anhand dieser benutzerInnenorientierten Punkte kann sich der/die LeserIn – rekapitulierend in Form eines self-assessment – orientieren, ob er/sie die wichtigsten Inhalte eines Kapitels nachvollziehen und diese auch kurz erläutern kann.
Das Buch umfasst 11 Kapitel. Es wurde mit dem Ziel erstellt, auch im deutschsprachigen Raum ein Standardwerk zu „Testen und Bewerten fremdsprachlicher Kompetenzen“ zur Verfügung zu haben, das gleichermaßen von Lehrenden und Lernenden an Universitäten sowie an Schulen genutzt werden kann, um die immer deutlicher eingeforderte „Bewertungskompetenz“ einzelner stakeholder im Bereich fremdsprachlicher Leistungsmessung und -beurteilung zu stärken bzw. zu fördern.
In Kapitel 1 werden ein kurzer, historischer Überblick über die Entwicklung des Testens und Bewertens gegeben und drei Perioden des Sprachentestens vorgestellt, die als Beispiele für die Entwicklung von subjektiven, normorientierten Tests hin zu einer objektiven, validen und an Kriterien orientierten Bewertung dienen. In Kapitel 2 wird der GeR als kommunikativer, kompetenz- und handlungsorientierter Referenzrahmen des Europarates präsentiert, sein Entstehungskontext beleuchtet, die Niveaustufen A1 bis C2 beschrieben und deren Bedeutung für das Testen und Bewerten von fremdsprachlichen Leistungen kritisch betrachtet. Die Hinwendung des GeR zu Sprachverwendenden als kommunikative, sozial Agierende und einer damit verbundenen positiven Sichtweise des Fehlers als inhärentes Kennzeichen von Lernersprache macht es erforderlich, die Rolle des Fehlers im Fremdsprachenunterricht neu zu überdenken, was in Kapitel 3 erfolgt.
In Kapitel 4 werden die Testgütekriterien in zwei Teilen vorgestellt: Im ersten Teil werden Arten der Objektivität, Reliabilität und Validität erklärt und beschrieben, wobei vor allem auf das zentrale Kriterium der Konstruktvalidität und den sich wandelnden Interpretationen der Validität bzw. des Prozesses der Validierung fokussiert wird. Im zweiten Teil wird auf die Prinzipien Authentizität, Washback und Praktikabilität eingegangen, der Bezug zwischen Testaufgaben und real-world tasks diskutiert, die Auswirkung von Tests auf Lehrende, Lernende, Unterricht und Bildungssystem illustriert sowie eine Kosten-Nutzen-Rechnung hinsichtlich Testressourcen aufgestellt. Der Testentwicklungszyklus wird in Kapitel 5 anhand von standardisierten Tests beschrieben; Begriffe wie Testzweck, Testarten, Testspezifikationen, text mapping, Prototypisierung, Pilotierung, Feldtestung, Benchmarking und Standard-Setting werden definiert und näher erklärt, um u.a. auf die hohe ethische Verantwortung im Bereich des Testens und Bewertens einzugehen.
Kapitel 6 widmet sich der Überprüfung rezeptiver Lese- und Hörverstehensleistungen. Anhand je eines konkreten Lese- (Nold & Willenberg) bzw. Hörverstehensmodells (Field) werden die einzelnen kognitiven Komponenten der nicht direkt beobachtbaren Leseverstehens- bzw. Hörverstehensprozesse aufgezeigt und vier prominente Lese- und Hörverstehensziele mit Bezug auf die GeR-Skalen erläutert. Es wird auf wesentliche Gemeinsamkeiten und Unterschiede bei der Überprüfung von Lese- und Hörverstehen hingewiesen, Testformate werden präsentiert, die sich zur Überprüfung eines Produktes, resultierend aus einer Lese- bzw. Hörverständnisaufgabe, eignen. Am Schluss steht ein Vorschlag, wie rezeptive Fertigkeiten als Basis für integrierte Testaufgaben genutzt werden können und welche Schwierigkeiten sich dadurch bei der Beurteilung ergeben.
In Kapitel 7 wird für die Beschreibung, wie produktive Fertigkeiten getestet werden können, ein ähnlicher Aufbau wie in Kapitel 6 gewählt. Das Konstrukt wird anhand je eines Modells (Shaw & Weir für Schreiben; Levelt für Sprechen) dargelegt, die GeR-Skalen für (monologische) Produktion und (dialogische) Interaktion werden in der Testanwendung konkretisiert. Außerdem werden Richtlinien vorgestellt für die Erstellung von lebensnahen, kontextualisierten und situationsgebundenen Testaufgaben mit unterschiedlichen Inputs (Texten, Bildern, Grafiken etc.) zur Überprüfung der Fertigkeit Schreiben (z.B. hinsichtlich des Einsatzes von Operatoren) bzw. für ein angemessenes InterlokutorInnen- respektive AssessorInnenverhalten bei der Überprüfung der Fertigkeit Sprechen. Dabei wird auf die Nutzung von holistischen und analytischen Bewertungsrastern im Sinne einer erhöhten Interrater-Reliabilität Bezug genommen; Vor- und Nachteile solcher