AI Assisted Grading
Cluster C: Prüfungsauswertungsinnovation
KI-Korrektur im Vergleich zur menschlichen Bewertung (AI Assisted Grading)
Die Integration von Künstlicher Intelligenz in die Korrekturprozesse des kaufmännischen Prüfungswesens (AI Assisted Grading) bietet signifikante Potenziale für die Erhöhung von Skalierbarkeit, Objektivität und Rückmeldegeschwindigkeit. Ein systematischer empirischer Abgleich zwischen erfahrenen Prüfer:innen und hochentwickelten KI-Systemen (wie Claude Opus 4.6) zeigt eine bemerkenswert hohe Übereinstimmung bei der Bewertung offener Antwortformate. Für die Prüfungsadministration und die Qualitätssicherung lassen sich aus den statistischen Analysen drei fundamentale Kernaspekte ableiten:
- Fehlerfreie formale Bestehenszuordnung: Trotz punktueller Abweichungen erzielt die KI eine exakte Notengleichheit von 77,8 %. Besonders kritisch für die Rechtssicherheit: In keinem einzigen Fall erzeugte die KI eine falsche Bestehens- oder Durchfallsentscheidung – alle 18 Prüflinge wurden absolut deckungsgleich zum Menschen korrekt zugeordnet (14 bestanden, 4 nicht bestanden).
- Exzellente statistische Validität: Die Kennzahlen belegen ein hochgradig lineares und konsistentes Bewertungsverhalten. Mit einem Korrelationskoeffizienten von r = 0,973 und einem Gesamt-ICC von 0,875 wird eine starke Übereinstimmung der absoluten Punktwerte nachgewiesen. Die mittlere absolute Abweichung (MAE = 0,40 Punkte) liegt sogar unterhalb eines halben Bewertungsschritts.
- Grenzen der Vollautomatisierung: KI-generierte Musterlösungen erreichen eine Korrektheit von 73,5 %, was für eine autonome Vollautomatisierung unzureichend ist. Während die KI starke Kompetenzen bei strukturierten Rechenaufgaben, rechtlichen Einordnungen und klaren Fachkonzepten aufweist, bleibt sie bei stark kontextabhängigen Aufgaben und tiefen Reflexions- oder Urteilsanforderungen anfällig für kontextbezogene Blindheit und Übergeneralisierung. Der optimale Einsatzpfad liegt daher in der Nutzung als assistive Prüfinstanz (z. B. zur Vorkorrektur oder Qualitätssicherung).
18 IHK-Klausuren aus 5 Kammerbezirken
Industriekaufleute · Geschäftsprozesse · Sommer 2025
Mensch-KI-Vergleich:
Erfahrene Prüfer:innen ↔ Claude Opus 4.6 (KI-Tool)
- 34 Teilaufgaben je Klausur
- 6 Aufgabenblöcke · max. 100 Punkte
- Bewertungsgrundlage: AkA-Musterlösung der Fachausschüsse
(14 bestanden + 4 nicht bestanden)
Ausgangspunkt
- KI-Potenzial zeigt sich besonders bei offenen Antwortformaten & Performance Tasks
- Verspricht Skalierbarkeit, Objektivität, Konsistenz und schnelle Rückmeldungen
- Fraglich bleibt die prüfungsrelevante Qualität
Prüffragen
- Erzeugt KI vergleichbare Punktzahlen?
- Bleiben Noten und Bestehensentscheidungen stabil?
- Bei welchen Aufgabenarten ist die Übereinstimmung hoch/niedrig?
Validierungslogik
- Parallelkorrektur von Mensch und KI
- Multilevel-Vergleich (Punkte, Noten, Bestehen)
- Analyse von Abweichungsmustern
- Szenarien-Ableitung (Vorkorrektur, Zweitkorrektur, QS)
Stärken:
Zeigen solides Verständnis betriebswirtschaftlicher Zusammenhänge; eignen sich gut für Rechenaufgaben, rechtliche Einordnungen und klare Fachkonzepte.Vorbehalte:
Anfällig bei kontextreichen Aufgaben, komplexen Prüfungsanlagen sowie Reflexions- oder Urteilsanforderungen (Gefahr von kontextbezogener Blindheit oder Übergeneralisierung).Pearson r = 0,973
Misst die lineare Stärke des Zusammenhangs der Gesamtpunktzahlen zwischen Mensch und KI.
→ Sehr guter linearer ZusammenhangGesamt-ICC = 0,875
Intraclass-Correlation; prüft, inwieweit exakt dieselben Punktwerte vergeben wurden.
→ Gute absolute ÜbereinstimmungMAE = 0,40 Punkte
Mittlere absolute Abweichung pro Teilaufgabe im Direktvergleich.
→ Weniger als ein Bewertungsschritt (0,5 P.)RMSE = 0,70 Punkte
Quadratischer Mittelwert der Abweichungen (gewichtet größere Fehler stärker).
→ Keine extremen Einzelabweichungen vorhanden→ Nicht ausreichend für eine vollständige Automatisierung.