Smart Tasks
Cluster A: Prüfungsaufgabeninnovation
für kaufmännische Prüfungsaufgaben
Das nachfolgende Dashboard präsentiert die empirischen Ergebnisse zur Beurteilung und Innovation von kaufmännischen Prüfungsaufgaben im Kontext künstlicher Intelligenz. Es veranschaulicht anhand zentraler Wirkmodelle und einer Ampelklassifikation, welche Aufgabentypen sich weiterhin für das Prüfungswesen eignen.
Die Datengrundlage der Untersuchung bilden N=102 untersuchte Prüfungsaufgaben. Im Rahmen des KI-Analyseprozesses erfolgte der Test-Prompt Einsatz durch insgesamt 14 KI-Systeme. Dabei prüft ein einheitlicher Prompt die Aufgaben, wobei die KI didaktisch bewertet, statt diese lediglich zu lösen. Im Anschluss daran werden die generierten Ergebnisse gebündelt ausgewertet.
Empirisch signifikante Effekte auf die Gesamtbewertung einer Prüfungsaufgabe:
1. Urteilskompetenz
Je mehr menschliches Urteil nötig ist, desto besser eignet sich die Aufgabe für eine Prüfung.
2. Offenheit
Je offener die Aufgabe ist, desto eher bleibt sie trotz KI prüfungsgeeignet.
3. KI-Fehleranfälligkeit
Je stärker die KI an Grenzen stößt, desto geeigneter ist die Aufgabe für eine Prüfung.
Merkmale ohne empirische Signifikanz im Modell:
Grün: prüfungsgeeignet
hohe Offenheit - Kontextsbezug arugmentativ - hohe Urteils-/Reflexionskompetenz. KI liefert unnvollständige Lösungen und ist fehleranfällig.
Gelb: eingeschränkt prüfungsgeeignet
teilweise offen. KI liefert oberflächliche Antworten. hohe Lesekomptenz - KI-Lösung muss korrigiert/erweitert werden.
Rot: prüfungsungeeignet
geschlossen - Wissens- oder Rechenaufgaben - KI liefert konsistente Lösungen. geringe Numeracy/ Data Literacy. KI erzeugt vollständige Lösungen.
Das Augmentation-Trap-Modell
Eine dynamische Analyse zu KI-Produktivität und zur Erosion von Expertise
Einführung
Der Einsatz von Künstlicher Intelligenz (KI) kann kurzfristig die Produktivität steigern, birgt aber die Gefahr, dass Arbeitskräfte ihr Fachwissen verlernen, wenn sie zentrale Denkprozesse auslagern. Caosun und Aral (2026) entwickelten ein dynamisches Modell, das diese Spannung zwischen Produktivitätsgewinn und Skill-Erosion untersucht. Zwei Parameter spielen eine zentrale Rolle: der skill-neutrale Ertrag α, der unabhängig vom Erfahrungsniveau des Nutzers ist, und der wissens-komplementäre Ertrag β, der mit der Expertise skaliert. Die Delegationsrate u beschreibt, wie viel Arbeit an die KI delegiert wird.
Produktionsformel
Die Produktionsfunktion kombiniert eine menschliche Leistungskomponente, die mit zunehmender KI-Delegation abnimmt, mit einem Produktivitätseffekt der KI, der von Nutzungsintensität und Skill-Niveau der Arbeitskraft abhängt. S steht für die aktuelle Fähigkeit der Arbeitskraft, u für den an die KI delegierten Anteil. Der erste Bestandteil (1 - u)S beschreibt den verbleibenden menschlichen Beitrag: Je mehr an die KI delegiert wird, desto geringer fällt dieser Beitrag aus. Der zweite Bestandteil (α + βS - γu)u erfasst den Produktivitätseffekt der KI-Nutzung. Dabei steht α für den skill-unabhängigen Produktivitätsgewinn durch Aufgaben, die die KI weitgehend eigenständig übernimmt. β beschreibt den skill-komplementären Produktivitätsgewinn, also Fälle, in denen die Qualität des KI-Outputs vom Urteilsvermögen der Arbeitskraft abhängt. γ sorgt für abnehmende Grenzerträge der KI-Nutzung, weil zunächst die am leichtesten delegierbaren Aufgaben an die KI übertragen werden.
Die Skill-Dynamik entsteht dadurch, dass hohe Delegation den Umfang eigenständiger Praxis reduziert. Die optimale Delegationsrate u*(S) hängt daher nicht nur von α, β und γ ab, sondern auch von der Lern- und Vergessensgeschwindigkeit κ sowie vom Bewertungshorizont der entscheidenden Person. Bei β > 1 dominiert Komplementarität, sodass Expert:innen mehr aus der KI-Nutzung gewinnen. Bei β < 1 ersetzt die KI menschliche Arbeit eher, wodurch erfahrene Personen weniger Anreiz zur Delegation haben.
Die zwei Kanäle der KI
Skill-neutraler Kanal α
Unabhängig von der Expertise liefert die KI einen Grundnutzen. Beispiele sind die automatische Erstellung von Standardtexten oder das Ausfüllen von Formularen. Dieser Kanal erhöht die Produktivität ohne zusätzlichen Lerngewinn.
Wissens-komplementärer Kanal β
Dieser Anteil skaliert mit dem Wissensstand der Nutzerinnen und Nutzer. Erfahrene Personen können die KI so instruieren, dass qualitativ höherwertige Ergebnisse entstehen. Beispiele sind komplexe Programmieraufgaben oder medizinische Diagnostik.
Lernrate κ
Beschreibt die Geschwindigkeit, mit der sich Fähigkeiten durch aktive Praxis entwickeln oder bei starker Delegation verfallen. Eine gezielte Integration von Übungsphasen kann den Kompetenzverlust bremsen.
Wichtige Ergebnisse des Modells
Steady-State-Loss
Selbst wenn die kurzfristige Produktivität steigt, kann die langfristige Leistung unter das Niveau ohne KI fallen, weil die Expertise verlernt wird.
Augmentation Trap
Übermäßig delegierte Arbeit bei kurzen Bewertungshorizonten oder fehlender interner Wertschätzung von Skills führt zu einer moralischen Falle, die langfristigen Kompetenzverlust erzeugt.
Komplementarität vs. Substitution
Bei β > 1 fördern Mensch und KI sich gegenseitig. Bei β = 1 bleibt der KI-Beitrag neutral. Bei β < 1 ersetzt die KI menschliche Arbeit, was zu gegensätzlichen Delegationsmustern führt.
Skill-Divergenz
Insbesondere bei β < 1 können sich zwei Gruppen entwickeln: Erfahrene bewahren ihre Kompetenz und profitieren von der KI, während Unerfahrene ihre Fähigkeiten vollständig verlieren.
Fünf Regime des KI-Einsatzes
Die Kombination der Parameter α und β sowie der Lernrate κ teilt den Parameterraum in fünf Szenarien ein, die jeweils unterschiedliche Folgen für den langfristigen Output haben:
Region I: Nicht-Adoption
α und β sind so gering, dass keine nennenswerte Produktivitätssteigerung gegenüber den Koordinationskosten erzielt wird. Die KI wird nicht genutzt.
Region II: Augmentation (schlechter)
Zwischen der Adoptionsgrenze C0 und der Break-Even-Grenze B liegt der Bereich, in dem die KI zwar eingesetzt wird, der langfristige Zustand aber schlechter als ohne KI ist.
Region III: Automation (schlechter)
Die KI ist stark genug für vollständige Automatisierung (u = 1), aber ihr Output α bleibt unter dem Potenzial menschlicher Arbeit. Die Expertise schrumpft und die Gesamtleistung sinkt.
Region IV: Augmentation (besser)
Bei hohen β-Werten ergänzt die KI die Erfahrung der Mitarbeitenden, so dass die langfristige Produktivität über dem no-AI-Niveau liegt.
Region V: Automation (besser)
Der skill-neutrale Beitrag α übersteigt das menschliche Potenzial, so dass vollständige Automatisierung rational und vorteilhaft ist.
Gestaltungsempfehlungen
Um die Vorteile der KI langfristig zu sichern und die Augmentation Trap zu vermeiden, schlagen die Autoren folgende Maßnahmen vor:
Quelle: Caosun, Michael & Aral, Sinan (2026): The Augmentation Trap: AI Productivity and the Cost of Cognitive Offloading, arXiv (Cornell University). DOI: 10.48550/arxiv.2604.03501