Smart Tasks

Cluster A zum Download

Cluster A: Prüfungsaufgabeninnovation

für kaufmännische Prüfungsaufgaben

Das nachfolgende Dashboard präsentiert die empirischen Ergebnisse zur Beurteilung und Innovation von kaufmännischen Prüfungsaufgaben im Kontext künstlicher Intelligenz. Es veranschaulicht anhand zentraler Wirkmodelle und einer Ampelklassifikation, welche Aufgabentypen sich weiterhin für das Prüfungswesen eignen.

Datengrundlage & KI-Analyseprozess

Die Datengrundlage der Untersuchung bilden N=102 untersuchte Prüfungsaufgaben. Im Rahmen des KI-Analyseprozesses erfolgte der Test-Prompt Einsatz durch insgesamt 14 KI-Systeme. Dabei prüft ein einheitlicher Prompt die Aufgaben, wobei die KI didaktisch bewertet, statt diese lediglich zu lösen. Im Anschluss daran werden die generierten Ergebnisse gebündelt ausgewertet.

Prüfungseignung & Ampelklassifikation

Grün

Gelb

Rot

25,5 %

51,0 %

23,5 %

Zentrales Wirkmodell

Empirisch signifikante Effekte auf die Gesamtbewertung einer Prüfungsaufgabe:

1. Urteilskompetenz

Je mehr menschliches Urteil nötig ist, desto besser eignet sich die Aufgabe für eine Prüfung.

2. Offenheit

Je offener die Aufgabe ist, desto eher bleibt sie trotz KI prüfungsgeeignet.

3. KI-Fehleranfälligkeit

Je stärker die KI an Grenzen stößt, desto geeigneter ist die Aufgabe für eine Prüfung.

Nicht signifikante untersuchte Effekte

Merkmale ohne empirische Signifikanz im Modell:

Reflexionskompetenz Problemlösekompetenz Numeracy/Data Literacy Lesekompetenz Integrationskompetenz Kontextbezug Argumentationsbedarf Interpretationsbedarf

Bewertungslogik der Ampel

Grün: prüfungsgeeignet

hohe Offenheit - Kontextsbezug arugmentativ - hohe Urteils-/Reflexionskompetenz. KI liefert unnvollständige Lösungen und ist fehleranfällig.

Gelb: eingeschränkt prüfungsgeeignet

teilweise offen. KI liefert oberflächliche Antworten. hohe Lesekomptenz - KI-Lösung muss korrigiert/erweitert werden.

Rot: prüfungsungeeignet

geschlossen - Wissens- oder Rechenaufgaben - KI liefert konsistente Lösungen. geringe Numeracy/ Data Literacy. KI erzeugt vollständige Lösungen.

Statistische Validierung

Ordinales Regressionsmodell / PLUM: Prüft, welche Merkmale die Ampelbewertung vorhersagen; χ²(11)=38,356; p<0,001 (hochsignifikant)
Modellanpassung: Pearson-Test: p=0,452; Deviance-Test: p=0,831; (Beide Werte sprechen dafür, dass das Modell gut zu den Daten passt)
Erklärte Varianz: Nagelkerke R^x=0,359; Cox & Snell R²=0,313; McFadden R²=0.182 (Die Werte zeigen, dass das Modell einen relevanten Anteil der Unterschiede in der Ampelbewertung erklärt)

Quelle: Winther, E., Alwahb, S., Schlünkes, S. & Vogel, W. (2026): KI-induzierte Innovationen im beruflichen Prüfungswesen: Empirische Wege zum Next-Generation-Assessment durch den Aufbau eines kooperativen KI-Innovationslabors. Essen: UDE-VET/ AKA. DOI: https://doi.org/10.17185/duepublico/85395

Das Augmentation-Trap-Modell

Eine dynamische Analyse zu KI-Produktivität und zur Erosion von Expertise

Einführung

Der Einsatz von Künstlicher Intelligenz (KI) kann kurzfristig die Produktivität steigern, birgt aber die Gefahr, dass Arbeitskräfte ihr Fachwissen verlernen, wenn sie zentrale Denkprozesse auslagern. Caosun und Aral (2026) entwickelten ein dynamisches Modell, das diese Spannung zwischen Produktivitätsgewinn und Skill-Erosion untersucht. Zwei Parameter spielen eine zentrale Rolle: der skill-neutrale Ertrag α, der unabhängig vom Erfahrungsniveau des Nutzers ist, und der wissens-komplementäre Ertrag β, der mit der Expertise skaliert. Die Delegationsrate u beschreibt, wie viel Arbeit an die KI delegiert wird.

Produktionsformel

y(u, S) = (1 - u)S + (α + βS - γu)u

Die Produktionsfunktion kombiniert eine menschliche Leistungskomponente, die mit zunehmender KI-Delegation abnimmt, mit einem Produktivitätseffekt der KI, der von Nutzungsintensität und Skill-Niveau der Arbeitskraft abhängt. S steht für die aktuelle Fähigkeit der Arbeitskraft, u für den an die KI delegierten Anteil. Der erste Bestandteil (1 - u)S beschreibt den verbleibenden menschlichen Beitrag: Je mehr an die KI delegiert wird, desto geringer fällt dieser Beitrag aus. Der zweite Bestandteil (α + βS - γu)u erfasst den Produktivitätseffekt der KI-Nutzung. Dabei steht α für den skill-unabhängigen Produktivitätsgewinn durch Aufgaben, die die KI weitgehend eigenständig übernimmt. β beschreibt den skill-komplementären Produktivitätsgewinn, also Fälle, in denen die Qualität des KI-Outputs vom Urteilsvermögen der Arbeitskraft abhängt. γ sorgt für abnehmende Grenzerträge der KI-Nutzung, weil zunächst die am leichtesten delegierbaren Aufgaben an die KI übertragen werden.

Die Skill-Dynamik entsteht dadurch, dass hohe Delegation den Umfang eigenständiger Praxis reduziert. Die optimale Delegationsrate u*(S) hängt daher nicht nur von α, β und γ ab, sondern auch von der Lern- und Vergessensgeschwindigkeit κ sowie vom Bewertungshorizont der entscheidenden Person. Bei β > 1 dominiert Komplementarität, sodass Expert:innen mehr aus der KI-Nutzung gewinnen. Bei β < 1 ersetzt die KI menschliche Arbeit eher, wodurch erfahrene Personen weniger Anreiz zur Delegation haben.

Die zwei Kanäle der KI

Skill-neutraler Kanal α

Unabhängig von der Expertise liefert die KI einen Grundnutzen. Beispiele sind die automatische Erstellung von Standardtexten oder das Ausfüllen von Formularen. Dieser Kanal erhöht die Produktivität ohne zusätzlichen Lerngewinn.

Wissens-komplementärer Kanal β

Dieser Anteil skaliert mit dem Wissensstand der Nutzerinnen und Nutzer. Erfahrene Personen können die KI so instruieren, dass qualitativ höherwertige Ergebnisse entstehen. Beispiele sind komplexe Programmieraufgaben oder medizinische Diagnostik.

Lernrate κ

Beschreibt die Geschwindigkeit, mit der sich Fähigkeiten durch aktive Praxis entwickeln oder bei starker Delegation verfallen. Eine gezielte Integration von Übungsphasen kann den Kompetenzverlust bremsen.

Wichtige Ergebnisse des Modells

Steady-State-Loss

Selbst wenn die kurzfristige Produktivität steigt, kann die langfristige Leistung unter das Niveau ohne KI fallen, weil die Expertise verlernt wird.

Augmentation Trap

Übermäßig delegierte Arbeit bei kurzen Bewertungshorizonten oder fehlender interner Wertschätzung von Skills führt zu einer moralischen Falle, die langfristigen Kompetenzverlust erzeugt.

Komplementarität vs. Substitution

Bei β > 1 fördern Mensch und KI sich gegenseitig. Bei β = 1 bleibt der KI-Beitrag neutral. Bei β < 1 ersetzt die KI menschliche Arbeit, was zu gegensätzlichen Delegationsmustern führt.

Skill-Divergenz

Insbesondere bei β < 1 können sich zwei Gruppen entwickeln: Erfahrene bewahren ihre Kompetenz und profitieren von der KI, während Unerfahrene ihre Fähigkeiten vollständig verlieren.

Fünf Regime des KI-Einsatzes

Die Kombination der Parameter α und β sowie der Lernrate κ teilt den Parameterraum in fünf Szenarien ein, die jeweils unterschiedliche Folgen für den langfristigen Output haben:

Region I: Nicht-Adoption

α und β sind so gering, dass keine nennenswerte Produktivitätssteigerung gegenüber den Koordinationskosten erzielt wird. Die KI wird nicht genutzt.

Region II: Augmentation (schlechter)

Zwischen der Adoptionsgrenze C0 und der Break-Even-Grenze B liegt der Bereich, in dem die KI zwar eingesetzt wird, der langfristige Zustand aber schlechter als ohne KI ist.

Region III: Automation (schlechter)

Die KI ist stark genug für vollständige Automatisierung (u = 1), aber ihr Output α bleibt unter dem Potenzial menschlicher Arbeit. Die Expertise schrumpft und die Gesamtleistung sinkt.

Region IV: Augmentation (besser)

Bei hohen β-Werten ergänzt die KI die Erfahrung der Mitarbeitenden, so dass die langfristige Produktivität über dem no-AI-Niveau liegt.

Region V: Automation (besser)

Der skill-neutrale Beitrag α übersteigt das menschliche Potenzial, so dass vollständige Automatisierung rational und vorteilhaft ist.

Gestaltungsempfehlungen

Um die Vorteile der KI langfristig zu sichern und die Augmentation Trap zu vermeiden, schlagen die Autoren folgende Maßnahmen vor:

Regelmäßige Übungsphasen: Integrieren Sie unassistierte Arbeitspausen und Mentoring, um den Erhalt der Fähigkeiten zu fördern.

Längere Evaluationszyklen: Bewerten Sie die Leistung über längere Zeiträume, um kurzfristige Gewinne nicht auf Kosten langfristiger Expertise zu bevorzugen.

Erklärbarkeit forcieren: Ermuntern Sie Mitarbeitende, ihre Entscheidungswege zu dokumentieren (z. B. Chain-of-Thought-Prompts), um das eigene Denken zu stärken.

Graduierte Autonomie: Passen Sie den KI-Einsatz an das Erfahrungsniveau an; Scaffolding für Anfänger:innen, kritische Überprüfung für Profis.

Adaptive Schwierigkeitsgrade: Lassen Sie die KI die Komplexität der Aufgaben dynamisch erhöhen, damit Lernanreize bestehen bleiben.

Quelle: Caosun, Michael & Aral, Sinan (2026): The Augmentation Trap: AI Productivity and the Cost of Cognitive Offloading, arXiv (Cornell University). DOI: 10.48550/arxiv.2604.03501

Cluster-Zuordnung

Passend zu Cluster A - Prüfungsaufgabeninnovation / Smart Tasks. Das Augmentation-Trap-Modell liefert eine theoretische Begründung dafür, warum Prüfungsaufgaben im KI-Kontext nicht mehr allein auf die Erstellung eines fertigen kaufmännischen Arbeitsprodukts ausgerichtet sein sollten. Cluster A fragt nach authentischen, KI-sicheren Performance Tasks, bei denen menschliche Lösungen qualitativ überlegen bleiben, weil sie Offenheit, Kontextbezug, Urteilskompetenz, Reflexion und die kritische Prüfung von KI-Outputs verlangen. Genau hier schließt das Modell an: Aufgaben mit hohem skill-neutralem Anteil α sind leicht automatisierbar und didaktisch gefährdet; Aufgaben mit hohem wissens-komplementärem Anteil β machen dagegen Expertise sichtbar, weil die Qualität der Lösung von fachlicher Einordnung, Plausibilitätsprüfung und begründeter Entscheidung abhängt.

Berufliche Aus- und Weiterbildung

Institut für Berufs- und Weiterbildung