Cluster C – Prüfungsauswertungsinnovation – AI Assisted Grading

Cluster C: Prüfungsauswertungsinnovation

KI-Korrektur im Vergleich zur menschlichen Bewertung (AI Assisted Grading)

Die Integration von Künstlicher Intelligenz in die Korrekturprozesse des kaufmännischen Prüfungswesens (AI Assisted Grading) bietet signifikante Potenziale für die Erhöhung von Skalierbarkeit, Objektivität und Rückmeldegeschwindigkeit. Ein systematischer empirischer Abgleich zwischen erfahrenen Prüfer:innen und hochentwickelten KI-Systemen (wie Claude Opus 4.6) zeigt eine bemerkenswert hohe Übereinstimmung bei der Bewertung offener Antwortformate. Für die Prüfungsadministration und die Qualitätssicherung lassen sich aus den statistischen Analysen drei fundamentale Kernaspekte ableiten:

  • Fehlerfreie formale Bestehenszuordnung: Trotz punktueller Abweichungen erzielt die KI eine exakte Notengleichheit von 77,8 %. Besonders kritisch für die Rechtssicherheit: In keinem einzigen Fall erzeugte die KI eine falsche Bestehens- oder Durchfallsentscheidung – alle 18 Prüflinge wurden absolut deckungsgleich zum Menschen korrekt zugeordnet (14 bestanden, 4 nicht bestanden).
  • Exzellente statistische Validität: Die Kennzahlen belegen ein hochgradig lineares und konsistentes Bewertungsverhalten. Mit einem Korrelationskoeffizienten von r = 0,973 und einem Gesamt-ICC von 0,875 wird eine starke Übereinstimmung der absoluten Punktwerte nachgewiesen. Die mittlere absolute Abweichung (MAE = 0,40 Punkte) liegt sogar unterhalb eines halben Bewertungsschritts.
  • Grenzen der Vollautomatisierung: KI-generierte Musterlösungen erreichen eine Korrektheit von 73,5 %, was für eine autonome Vollautomatisierung unzureichend ist. Während die KI starke Kompetenzen bei strukturierten Rechenaufgaben, rechtlichen Einordnungen und klaren Fachkonzepten aufweist, bleibt sie bei stark kontextabhängigen Aufgaben und tiefen Reflexions- oder Urteilsanforderungen anfällig für kontextbezogene Blindheit und Übergeneralisierung. Der optimale Einsatzpfad liegt daher in der Nutzung als assistive Prüfinstanz (z. B. zur Vorkorrektur oder Qualitätssicherung).
Datengrundlage

18 IHK-Klausuren aus 5 Kammerbezirken

Industriekaufleute · Geschäftsprozesse · Sommer 2025

Mensch-KI-Vergleich:

Erfahrene Prüfer:innen ↔ Claude Opus 4.6 (KI-Tool)

Vergleichsdesign
  • 34 Teilaufgaben je Klausur
  • 6 Aufgabenblöcke · max. 100 Punkte
  • Bewertungsgrundlage: AkA-Musterlösung der Fachausschüsse
Ergebnisse
Exakte Notengleichheit:
77,8 % (14/18)
Notenabweichung (max. 1 Stufe):
22,2 % (4/18)
Bestehensentscheidung korrekt zugeordnet:
18/18 (100 %)

(14 bestanden + 4 nicht bestanden)

Die KI hätte in keinem getesteten Fall eine andere Bestehens- oder Durchfallsentscheidung erzeugt.
Zentrales Validierungsmodell: KI als assistive Prüfinstanz

Ausgangspunkt

  • KI-Potenzial zeigt sich besonders bei offenen Antwortformaten & Performance Tasks
  • Verspricht Skalierbarkeit, Objektivität, Konsistenz und schnelle Rückmeldungen
  • Fraglich bleibt die prüfungsrelevante Qualität

Prüffragen

  1. Erzeugt KI vergleichbare Punktzahlen?
  2. Bleiben Noten und Bestehensentscheidungen stabil?
  3. Bei welchen Aufgabenarten ist die Übereinstimmung hoch/niedrig?

Validierungslogik

  1. Parallelkorrektur von Mensch und KI
  2. Multilevel-Vergleich (Punkte, Noten, Bestehen)
  3. Analyse von Abweichungsmustern
  4. Szenarien-Ableitung (Vorkorrektur, Zweitkorrektur, QS)
KI-erzeugte Musterlösungen

Stärken:

Zeigen solides Verständnis betriebswirtschaftlicher Zusammenhänge; eignen sich gut für Rechenaufgaben, rechtliche Einordnungen und klare Fachkonzepte.

Vorbehalte:

Anfällig bei kontextreichen Aufgaben, komplexen Prüfungsanlagen sowie Reflexions- oder Urteilsanforderungen (Gefahr von kontextbezogener Blindheit oder Übergeneralisierung).
Statistische Kennzahlen

Pearson r = 0,973

Misst die lineare Stärke des Zusammenhangs der Gesamtpunktzahlen zwischen Mensch und KI.

→ Sehr guter linearer Zusammenhang

Gesamt-ICC = 0,875

Intraclass-Correlation; prüft, inwieweit exakt dieselben Punktwerte vergeben wurden.

→ Gute absolute Übereinstimmung

MAE = 0,40 Punkte

Mittlere absolute Abweichung pro Teilaufgabe im Direktvergleich.

→ Weniger als ein Bewertungsschritt (0,5 P.)

RMSE = 0,70 Punkte

Quadratischer Mittelwert der Abweichungen (gewichtet größere Fehler stärker).

→ Keine extremen Einzelabweichungen vorhanden
KI-generierte Musterlösung: 73,5 % korrekt (25/34)
→ Nicht ausreichend für eine vollständige Automatisierung.

Wenn KI-Agenten Prüfungen bestehen

Zur Validität digitaler Onlinetestes im Zeitalter autonomer KI-Systeme

Hintergrund

Klassische Onlinetests basieren meist auf asynchronen Multiple-Choice-Aufgaben in Lernplattformen und dienen als Gradmesser für Kompetenzen. Mit dem Aufkommen autonom agierender KI-Agentensysteme, die selbstständig Lernpfade beschreiten und Prüfungen für ihre Auftraggeber absolvieren, gerät dieses Modell ins Wanken. Die Autorinnen des Artikels heben hervor, dass diese Systeme nicht mehr nur auf Prompts reagieren wie Chatbots, sondern selbständig komplexe Prüfungsszenarien durchlaufen und dabei traditionelle Prüfungsformate massiv an Glaubwürdigkeit verlieren.

Agentische KI im Vergleich zu Chatbots

Während konventionelle Chatbots primär auf Eingaben reagieren, handeln agentische KI-Systeme eigenständig: Sie erhalten eine zielorientierte Aufgabe, navigieren selbst durch Lernplattformen, identifizieren benötigte Tools und erledigen Schritt für Schritt komplexe Prüfungsaufgaben. So können sie beispielsweise Online-Lernkurse durchsuchen, Texte scannen und sich automatisiert bei externen Systemen anmelden, um zusätzliche Daten zu nutzen. Selbst Sicherheitsmechanismen wie CAPTCHAs werden mithilfe aktueller Modelle überwunden.

Erfahrungen aus der Praxis

Schnellere Kursabschlüsse

In Feldversuchen des Zukunftslabors Generative KI schlossen autonome Agenten standardisierte Onlinekurse aus dem KI Act weit schneller ab als menschliche Teilnehmende. Während Menschen etwa vier Stunden benötigen, absolvieren spezialisierte Agenten Kurse in rund 90 Minuten – bei Bestnoten von über 90 Prozent. Diese Beispiele zeigen, dass der zeitaufwändige Prüfungsmodus obsolet werden könnte.

Übertragbarkeit

Weitere Tests belegten die Übertragbarkeit: Agenten meisterten Zertifizierungen im Projektmanagement (Scrum) ebenso wie komplexe theoretische Prüfungen aus dem Drohnenführerschein und ein englischer Sprachtest auf dem höchsten Niveau C2. Sogar komplexe Integralaufgaben in Moodle-Lernplattformen wurden souverän bearbeitet. Dies unterstreicht das disruptive Potenzial agentischer KI im Bildungsbereich.

Dead-Loop-Learning: Der Ablauf

Der Artikel beschreibt einen automatisierten Prozess, den die Autorinnen „Dead-Loop-Learning“ nennen. Das Vorgehen lässt sich in vier Phasen gliedern:

1. Erstellung KI generiert Kursinhalte und Lernpfade.
2. Bearbeitung Der Agent absolviert Aufgaben und Prüfungen selbständig.
3. Validierung Ein Testsystem kontrolliert die Lösungen und vergibt Punkte.
4. Ausstellung Ein Zertifikat wird ausgestellt – ohne dass ein Mensch eingreift.

Weil der Agent sowohl Lernmaterial erzeugt als auch Aufgaben löst und bewertet, entsteht eine in sich geschlossene Prüfungsschleife, bei der menschliche Kontrolle kaum noch vorgesehen ist. Dies gefährdet die Aussagekraft von Onlinetests als Nachweis individueller Kompetenz.

Implikationen für Lehre und Prüfungen

Neue Kompetenzschwerpunkte

Mit der „New-Skilling“-Idee treten reflexive Fähigkeiten, ethische Sensibilität und souveräne Interaktion mit KI in den Vordergrund. Lehrende müssen stärker auf argumentative Begründungen und Kontextverständnis setzen, anstatt rein auf Ergebnisabruf.

Notwendige Infrastruktur

Eine verbesserte digitale Infrastruktur (z. B. Learning Management Systems wie Moodle) und Eigenbetrieb (On-Premise) werden entscheidend, um Datenhoheit zu wahren und eine zuverlässige Prüfungsumgebung zu gewährleisten. Externe Proctoring-Services können damit ersetzt werden.

Empfehlungen

  • Prüfungsdesign überdenken: Statt standardisierter Multiple-Choice-Tests sollten Aufgaben reflexive Argumentationen, Transferleistungen und offene Lösungen verlangen, die Agenten nicht eigenständig generieren können.
  • Digitale Infrastruktur ausbauen: Investieren Sie in sichere, leistungsfähige Lernplattformen und lokale Hosting-Lösungen, um Daten und Prozesse kontrollierbar zu halten.
  • Digitale Kompetenzen fördern: Schulen Sie Lehrende und Lernende in kritischer KI-Nutzung sowie in ethischen und rechtlichen Fragen, um ein bewusstes Zusammenspiel von Mensch und Maschine zu ermöglichen.
  • Hybride Prüfungsformate: Kombinieren Sie digitale Tests mit Präsenzprüfungen, um persönliche Interaktion und Authentizität sicherzustellen.
Quelle: Doris Wessels & Miriam Maibaum (2026): „Mit einem Klick: Warum agentische KI-Systeme das Ende klassischer Onlinetests einleiten“, in Künstliche Intelligenz – Forschung & Lehre, Mai 2026.
Cluster-Zuordnung

Cluster C – Prüfungsauswertungsinnovation / AI Assisted Grading.

Der Beitrag passt zu Cluster C, weil er die Tragfähigkeit bestehender digitaler Bewertungs- und Prüfungsarrangements grundsätzlich problematisiert. Wenn agentische KI standardisierte Onlineprüfungen autonom absolvieren kann, wird die Frage zentral, unter welchen Bedingungen Bewertungsergebnisse noch valide, fair und aussagekräftig sind. Genau diese Problemstellung berührt den Kern von Cluster C: die Analyse KI-bezogener Bewertungsstrukturen, ihrer Grenzen sowie der Anforderungen an belastbare und qualitätssichernde Prüfungsverfahren.