Cluster C – Prüfungsauswertungsinnovation – AI Assisted Grading

Cluster C: Prüfungsauswertungsinnovation

KI-Korrektur im Vergleich zur menschlichen Bewertung (AI Assisted Grading)

Die Integration von Künstlicher Intelligenz in die Korrekturprozesse des kaufmännischen Prüfungswesens (AI Assisted Grading) bietet signifikante Potenziale für die Erhöhung von Skalierbarkeit, Objektivität und Rückmeldegeschwindigkeit. Ein systematischer empirischer Abgleich zwischen erfahrenen Prüfer:innen und hochentwickelten KI-Systemen (wie Claude Opus 4.6) zeigt eine bemerkenswert hohe Übereinstimmung bei der Bewertung offener Antwortformate. Für die Prüfungsadministration und die Qualitätssicherung lassen sich aus den statistischen Analysen drei fundamentale Kernaspekte ableiten:

  • Fehlerfreie formale Bestehenszuordnung: Trotz punktueller Abweichungen erzielt die KI eine exakte Notengleichheit von 77,8 %. Besonders kritisch für die Rechtssicherheit: In keinem einzigen Fall erzeugte die KI eine falsche Bestehens- oder Durchfallsentscheidung – alle 18 Prüflinge wurden absolut deckungsgleich zum Menschen korrekt zugeordnet (14 bestanden, 4 nicht bestanden).
  • Exzellente statistische Validität: Die Kennzahlen belegen ein hochgradig lineares und konsistentes Bewertungsverhalten. Mit einem Korrelationskoeffizienten von r = 0,973 und einem Gesamt-ICC von 0,875 wird eine starke Übereinstimmung der absoluten Punktwerte nachgewiesen. Die mittlere absolute Abweichung (MAE = 0,40 Punkte) liegt sogar unterhalb eines halben Bewertungsschritts.
  • Grenzen der Vollautomatisierung: KI-generierte Musterlösungen erreichen eine Korrektheit von 73,5 %, was für eine autonome Vollautomatisierung unzureichend ist. Während die KI starke Kompetenzen bei strukturierten Rechenaufgaben, rechtlichen Einordnungen und klaren Fachkonzepten aufweist, bleibt sie bei stark kontextabhängigen Aufgaben und tiefen Reflexions- oder Urteilsanforderungen anfällig für kontextbezogene Blindheit und Übergeneralisierung. Der optimale Einsatzpfad liegt daher in der Nutzung als assistive Prüfinstanz (z. B. zur Vorkorrektur oder Qualitätssicherung).
Datengrundlage

18 IHK-Klausuren aus 5 Kammerbezirken

Industriekaufleute · Geschäftsprozesse · Sommer 2025

Mensch-KI-Vergleich:

Erfahrene Prüfer:innen ↔ Claude Opus 4.6 (KI-Tool)

Vergleichsdesign
  • 34 Teilaufgaben je Klausur
  • 6 Aufgabenblöcke · max. 100 Punkte
  • Bewertungsgrundlage: AkA-Musterlösung der Fachausschüsse
Ergebnisse
Exakte Notengleichheit:
77,8 % (14/18)
Notenabweichung (max. 1 Stufe):
22,2 % (4/18)
Bestehensentscheidung korrekt zugeordnet:
18/18 (100 %)

(14 bestanden + 4 nicht bestanden)

Die KI hätte in keinem getesteten Fall eine andere Bestehens- oder Durchfallsentscheidung erzeugt.
Zentrales Validierungsmodell: KI als assistive Prüfinstanz

Ausgangspunkt

  • KI-Potenzial zeigt sich besonders bei offenen Antwortformaten & Performance Tasks
  • Verspricht Skalierbarkeit, Objektivität, Konsistenz und schnelle Rückmeldungen
  • Fraglich bleibt die prüfungsrelevante Qualität

Prüffragen

  1. Erzeugt KI vergleichbare Punktzahlen?
  2. Bleiben Noten und Bestehensentscheidungen stabil?
  3. Bei welchen Aufgabenarten ist die Übereinstimmung hoch/niedrig?

Validierungslogik

  1. Parallelkorrektur von Mensch und KI
  2. Multilevel-Vergleich (Punkte, Noten, Bestehen)
  3. Analyse von Abweichungsmustern
  4. Szenarien-Ableitung (Vorkorrektur, Zweitkorrektur, QS)
KI-erzeugte Musterlösungen

Stärken:

Zeigen solides Verständnis betriebswirtschaftlicher Zusammenhänge; eignen sich gut für Rechenaufgaben, rechtliche Einordnungen und klare Fachkonzepte.

Vorbehalte:

Anfällig bei kontextreichen Aufgaben, komplexen Prüfungsanlagen sowie Reflexions- oder Urteilsanforderungen (Gefahr von kontextbezogener Blindheit oder Übergeneralisierung).
Statistische Kennzahlen

Pearson r = 0,973

Misst die lineare Stärke des Zusammenhangs der Gesamtpunktzahlen zwischen Mensch und KI.

→ Sehr guter linearer Zusammenhang

Gesamt-ICC = 0,875

Intraclass-Correlation; prüft, inwieweit exakt dieselben Punktwerte vergeben wurden.

→ Gute absolute Übereinstimmung

MAE = 0,40 Punkte

Mittlere absolute Abweichung pro Teilaufgabe im Direktvergleich.

→ Weniger als ein Bewertungsschritt (0,5 P.)

RMSE = 0,70 Punkte

Quadratischer Mittelwert der Abweichungen (gewichtet größere Fehler stärker).

→ Keine extremen Einzelabweichungen vorhanden
KI-generierte Musterlösung: 73,5 % korrekt (25/34)
→ Nicht ausreichend für eine vollständige Automatisierung.