Dissertationsprojekt Jacqueline Drese
Objektivität und Reliabilität von Leistungsbewertungen in schriftlichen Abituraufgaben im Fach Chemie
Theorie
Das Bundesverfassungsgericht bescheinigte 2017 dem Zentralabitur ein „Vergleichbarkeitsdefizit der Abiturnoten“ und wies außerdem auf „länderspezifisch unterschiedliche[] Bildungs- und insbesondere auch Bewertungssysteme[]“ (BVerfG, 2017) hin. Seit Einführung des Zentralabiturs wurden diverse Maßnahmen ergriffen, um dessen Vergleichbarkeit zu erhöhen, wie z. B. auf Ebene der Unterrichtsinhalte oder der Prüfungsaufgaben. Auf der Ebene der Bewertung spielen neben Urteilsverzerrungen, wie etwa dem Halo-Effekt (Cumming et al, 2002) und Referenzgruppeneffekten (Trautwein & Baeriswyl, 2007), verschiedene individuelle Faktoren aufseiten der Bewertenden eine Rolle. Grundlage für die Bewertung im Zentralabitur sind die zentralen Korrektur- und Bewertungsvorgaben, auch Erwartungshorizonte (EWH) genannt, welche eine einheitliche Bewertung der Leistungen gewährleisten sollen. Diese Vorgaben sind jedoch nicht empirisch untermauert, da von den Bildungswissenschaften und Fachdidaktiken bislang kaum Aussagen dazu bestehen, wie die „Bewertung der Bearbeitung von offenen, komplexen Aufgaben mithilfe des [Erwartungshorizonts] angeleitet werden kann“ (Kötter-Mathes, 2020). Kötter-Mathes (2020) stellte bei der Untersuchung der Nutzung verschiedener EWH im Fach Deutsch eine Streuung von bis zu 12 Notenpunkten bei der Bewertung derselben Leistung fest. Da EWH fachspezifisch ausgestaltet sind (Klein et al. 2009), stellt sich die Frage nach der Übertragbarkeit dieser Ergebnisse auf die naturwissenschaftlichen Fächer. Neben den Inhalten unterscheiden sich auch die Aufgabentypen und Bewertungsstrategien über die verschiedenen Fächer hinweg. Folglich bleibt offen, wie die Bewertungspraxis mit Erwartungshorizonten im Fach Chemie aussieht.
Anders als im Zentralabitur werden im IQB-Bildungstrend Bewertungsvorgaben im Sinne psychometrischer Kodierleitfäden eingesetzt, die zu einer hohen Übereinstimmung in der Bewertung führen (IQB, 2012). Allerdings ist festzustellen, dass sich die Aufgaben vor allem in puncto Komplexität und Offenheit stark von denen aus dem Zentralabitur unterscheiden. Ein weiterer Aspekt, der für die Bewertung schriftlicher Leistungen nicht außer Acht gelassen werden darf, ist die Nutzung der Bewertungsvorgaben durch die Lehrkräfte. Es ist davon auszugehen, dass ein erhöhter Umfang der Bewertungsvorgaben, wie etwa bei einem psychometrischen Kodierleitfaden, zu einer verminderten Nutzung dieser führen kann (vgl. Kötter-Mathes 2020; vgl. Grzesik & Fischer 1984). Auch die Wahrnehmung der Bewertungsvorgaben hinsichtlich ihrer Nützlichkeit und Qualität könnte das Nutzungsverhalten beeinflussen.
Forschungsfragen
Ob der Einsatz von Bewertungsvorgaben nach Art psychometrischer Kodierleitfäden auch im Zentralabitur zielführend ist, ist noch nicht geklärt. Die vorliegende Arbeit leistet einen Beitrag zur Erweiterung der aktuell lückenhafte Forschungslage zur Nutzungspraxis zentraler Bewertungsvorgaben im Fach Chemie. Zu diesem Zweck sollen drei zentrale Fragestellungen beantwortet werden:
- Wie objektiv und reliabel bewerten Lehrkräfte schriftliche Prüfungsleistungen im Abitur anhand zentraler Erwartungshorizonte im Fach Chemie?
- Welchen Einfluss hat die Gestaltung der Bewertungsvorgaben auf die Bewertung schriftlicher Prüfungsleistungen im Fach Chemie?
- Welchen Einfluss hat die Einschätzung der genutzten Bewertungsvorgaben durch die Lehrkräfte auf ihre Bewertung schriftlicher Prüfungsleistungen im Fach Chemie?
Die Erkenntnisse dieses Projekts bieten eine Grundlage für Untersuchungen zur Gestaltung und Nutzung von Bewertungsvorgaben. Diese Vorgaben müssen für alle Schulfächer empirisch untermauert werden, um eine valide Vergleichbarkeit des Zentralabiturs herstellen zu können.
Methodik
Zur Beantwortung der Forschungsfragen werden zwei Erhebungen durchgeführt.
In der ersten Erhebung wird die Nutzungspraxis der zentralen Bewertungsvorgaben im Fach Chemie untersucht. Die Stichprobe besteht aus 120 Schüler/-innenlösungen zu je einer von vier Aufgaben aus dem Zentralabitur Chemie 2025. Die Daten werden qualitativ untersucht. Hierbei werden die Lösungen zunächst kategorisiert, um eine Einordnung der einzelnen Elemente vorzunehmen. So wird ermittelt, welche Elemente korrekt sind, welche notwendig zur Lösung sind und welche durch die zentrale Bewertungsvorgabe antizipiert wurden. Auf Basis dieser Analyse erfolgt die Vergabe von Bewertungseinheiten (BE). Im Anschluss wird die Übereinstimmung mit der Vergabe der BE durch die Lehrkräfte ermittelt.
In der zweiten Erhebung, welche Forschungsfrage 2 und 3 adressiert, wird untersucht, inwiefern sowohl die Struktur der Gestaltung der Bewertungsvorgaben als auch die Wahrnehmung dieser Vorgaben durch die Lehrkräfte die resultierenden Bewertungen beeinflussen. Die Stichprobe bilden 50 Lehrkräfte aus Deutschland. In der Untersuchung bewertet jede Lehrkraft drei Lösungen aus Erhebung I. Für jede Aufgabe wird eine von drei Bewertungsvorgaben genutzt, welche sich insbesondere im gewährten Bewertungsspielraum unterscheiden. Die erste Bewertungsvorgabe besteht lediglich aus einer Musterlösung, die als Kontrollbedingung dient. Bei der zweiten Bewertungsvorgabe handelt es sich um den originalen zentralen Erwartungshorizont. Die dritte Bewertungsvorgabe ist eine detaillierte Vorgabe im Sinne eines psychometrischen Kodierleitfadens, mittels derer eine dezidierte Bewertung sämtlicher denkbarer Schülerantworten ermöglicht werden soll. Die Zuordnung der Bewertungsvorgaben zu den einzelnen Aufgaben und die Reihenfolge der Aufgaben erfolgen randomisiert. Zusätzlich füllen die Lehrkräfte nach der Bewertung jeder Aufgabe einen Fragebogen aus, mit dem die Einschätzung der jeweiligen Bewertungsvorgabe hinsichtlich Klarheit, Arbeitsaufwand und Akzeptanz erhoben wird. Mit einem weiteren Fragebogen werden darüber hinaus als Kontrollvariablen das Alter, das Geschlecht und die Berufserfahrung der Lehrkräfte erhoben, sowie die Schulform, an der sie unterrichten. Ausgewertet wird Erhebung II quantitativ. Dabei wird berechnet, wie stark die einzelnen Lehrkräftebewertungen bei Nutzung der gleichen Bewertungsvorgabe voneinander abweichen. Es wird zudem untersucht, ob Unterschiede bei Verwendung verschiedener Bewertungsvorgaben und in Abhängigkeit der Einschätzung der Bewertungsvorgabe vorliegen. Falls für die erhobenen Kontrollvariablen ein Einfluss gefunden werden kann, wird dieser jeweils ebenfalls in die Analyse miteinbezogen.
Literatur
Bundesverfassungsgericht. 2017. ECLI:DE:BVerfG:2017:ls20171219.1bvl000314. https://www.bundesverfassungsgericht.de/SharedDocs/Entscheidungen/DE/2017/12/ls20171219_1bvl000314.html
Cumming, A., Kantor, R. & Powers, D. E. (2002). Decision making while rating ESL/EFL writing tasks: A descriptive framework. The Modern Language Journal, 86(1), 67–96.
Grzesik, J. & Fischer, M. (1984). Was leisten Kriterien für die Aufsatzbeurteilung? Theoretische, empirische und praktische Aspekte des Gebrauchs von Kriterien und der Mehrfachbeurteilung nach globalem Ersteindruck. Westdeutscher Verlag.
Klein, E. D., Kühn, S. M., van Ackeren, I., & Block, R. (2009). Wie zentral sind zentrale Prüfungen? Abschlussprüfungen am Ende der Sekundarstufe II im nationalen und internationalen Vergleich. Zeitschrift für Pädagogik, 55(4), 596-621.
Kötter-Mathes, S. (2020). Leistungsbeurteilung in zentralen Prüfungen (Vol. 51). Springer Fachmedien Wiesbaden.
Stanat, P., Schipolowski, S., Mahler, N., Weirich, S., & Henschel, S. (Hrsg.). (2019). IQB-Bildungstrend 2018: Mathematische und naturwissenschaftliche Kompetenzen am Ende der Sekundarstufe I im zweiten Ländervergleich. Waxmann.
Trautwein, U., & Baeriswyl, F. (2007). Wenn leistungsstarke Klassenkameraden ein Nachteil sind. Zeitschrift für Pädagogische Psychologie, 21(2), 119–133.
