Welche Prüfungen sind im Zeitalter der KI noch sinnvoll?

Gestern habe ich eine Prüfung abgelegt. Und nächste Woche werde ich eine Prüfung als Prüfer abhalten.

Zwei komplett verschiedene Erfahrungen. Beide haben mich dazu gebracht über die Frage nachzudenken, welche Art von Prüfungen in der heutigen Lebenswelt noch Sinn machen.

Als Prüfer

Warum ich KI bei der Prüfung erlaube

Ich unterrichte KI-Ethik an einer Hochschule. Bachelor-Studiengang KI-Management. Die Studierenden werden irgendwann als KI-Manager in Unternehmen sitzen und Empfehlungen an den Vorstand machen — auch zu ethischen Fragestellungen.

Für die Prüfung habe ich ihnen gesagt: Ihr dürft KI verwenden.

Warum? Weil es keinen Sinn mehr macht, dass jemand auswendig weiß, wann der erste KI-Winter war. Das kann jeder in 3 Sekunden nachschlagen.

Was ich stattdessen will: Dass sie die Themen kennen. Dass sie eine Meinung haben. Und dass sie diese Meinung begründen können.

Das ist der Unterschied zwischen Wissen und Kompetenz.

Außerdem ist die Prüfungsvorbereitung ein echter Grund, um sich nochmal intensiv alle Unterlagen anzuschauen. Und davon werden die Studierenden sicher profitieren.

Als Prüfling

Multiple Choice als Schikane

Parallel dazu habe ich gerade meine Trainerausbildung abgeschlossen. Inklusive Prüfung.

Ein Teil davon: Multiple Choice. Faktenabfrage. Begriffe auswendig lernen. Und eine mündliche Prüfung, in der Fragen kamen wie: „Welche Methoden kennen Sie zur Kreativitätsförderung?“

Der Teilnehmer, der sich am intensivsten vorbereitet hat — seit Monaten — konnte das nicht auf Anhieb beantworten.

Und ich dachte mir: Hier steht jemand, der extrem motiviert ist, dem dieses Zertifikat wichtig ist, der das Wissen hat und anwenden kann. Und er wird durch eine Prüfungsform ausgebremst, die eigentlich nur misst, ob er gestern Abend die richtigen Karteikarten durchgegangen ist.

Das ist nicht nur veraltet. Das ist demotivierend.

Die unbequeme Wahrheit

KI besteht jede Faktenprüfung — was misst du dann noch?

Die Zahlen von 2023 — GPT-4 besteht die Ärzteprüfung mit 91%, die Anwaltsprüfung im 69. Perzentil — waren schon beunruhigend. Aber die aktuellen Modelle machen das Bild noch deutlicher:

94,2%

Ärzteprüfung USMLE
GPT-4o, 2024[1]

>P95

LSAT Juraprüfung
o1, 2024[2]

87,7%

PhD-Level Science
o3, GPQA Diamond[3]

96,7%

Mathe-Olympiade
AIME, o3-Familie[3]

4/4

CPA Buchhaltung
alle Sektionen bestanden[4]

1410

SAT (von 1600)
GPT-4, 94. Perzentil[5]

Menschliche PhD-Experten in ihrem Fachgebiet erreichen 65% auf dem GPQA-Diamond-Benchmark. Das aktuelle KI-Modell: 87,7%. Die Maschine übertrifft die besten Fachleute bei wissensbasierten Prüfungen um über 20 Prozentpunkte.

Jede Prüfung, die eine KI bestehen kann, misst keine menschliche Kompetenz mehr.

Und KI-Erkennungstools? Nach zweimaligem Umschreiben erkennen sie 0% der KI-generierten Texte.[6] Das heißt: Wir können nicht mal mehr kontrollieren, ob jemand die Prüfung selbst geschrieben hat.

Die UNESCO hat das 2024 auf den Punkt gebracht: Traditionelle Prüfungsformate müssen im KI-Zeitalter grundlegend hinterfragt werden. Statt High-Stakes-Tests brauchen wir portfoliobasierte Bewertungen.[7]

Was funktioniert

Ein echtes Projekt statt Karteikarten

Es gab einen Teil meiner Trainerprüfung, der wirklich Sinn gemacht hat: die Projektarbeit.

Ich habe während der Ausbildung einen KI-Agenten entwickelt — den „Workshop Designer“. Ein Tool, das Trainern hilft, Workshops nach didaktischen Frameworks zu designen. Nach dem Lena-Modell, nach dem Workshop Survival Guide, nach den S.P.A.S.S Kriterien.

Das war kein theoretisches Konstrukt. Das war ein echtes Produkt, das ich präsentiert habe und das einen echten Nutzen hat.

Ich habe das Gelernte nicht nur verstanden — ich habe es angewendet. Und dabei etwas geschaffen, das über die Prüfung hinaus Wert hat.

+25%

Berufsrelevante
Kompetenzen

+30%

Engagement
der Lernenden

+35%

Zufriedenheit
mit der Ausbildung

Projektbasiertes Lernen vs. traditionelle Methoden. Quelle: Scientific Reports, 2025[8]

Die Ausbildung der Zukunft

Wenn ich heute eine Trainerausbildung designen würde, sähe sie komplett anders aus

Erstens

Individualisierung statt Gleichschaltung

Jeder Trainer hat andere Stärken. Ein bestimmtes Fachgebiet. Einen eigenen Stil. Trotzdem werden in den meisten Ausbildungen alle gleich geschult.

Personalisiertes Lernen verbessert die Ergebnisse um bis zu 30%.[9] Eine Harvard-Studie zeigt: KI-gestütztes Tutoring übertrifft klassischen Gruppenunterricht mit einer Effektstärke von 0,73–1,3 Standardabweichungen — das ist in der Bildungsforschung ein außergewöhnlich starker Effekt.[10]

Wir müssen viel mehr eins zu eins auf die Stärken und Schwächen des Einzelnen eingehen. Die Technologie dafür ist da. Wir nutzen sie nur nicht.

Zweitens

Ergebnisse statt Theorie

Stell dir vor, du machst eine Trainerausbildung und am Ende hast du nicht nur ein Zertifikat, sondern:

Dein Portfolio nach der Ausbildung

Drei Workshops, die du tatsächlich gehalten hast
Saubere Dokumentation jedes einzelnen
Feedback und Testimonials von echten Teilnehmern
Ein überarbeiteter Workshop-Plan, der durch mehrere Iterationen gegangen ist

Wenn du damit zu einem Unternehmen gehst, kannst du beweisen, was du kannst. Nicht weil ein Stück Papier es behauptet — sondern weil du es gezeigt hast.

Die Realität

Zertifikate sind das neue Fax

Was Zertifikate sagen

Du hast eine Prüfung bestanden
Du warst an einem bestimmten Tag vorbereitet
Du erfüllst formale Anforderungen
Du kannst Fakten wiedergeben

Was Arbeitgeber wollen

Nachweisbare Ergebnisse
Angewandte Fähigkeiten
Problemlösungskompetenz
Portfolios und Referenzen

75%

der Recruiter priorisieren
Skills-basiertes Hiring[11]

5,8%

Arbeitslosenquote
Absolventen 22–27 J.[12]

59%

der Belegschaft brauchen
Umschulung bis 2030[13]

Google stellt „Unmengen“ von Mitarbeitern ohne Hochschulabschluss ein.[14] Apple, IBM, Accenture — alle haben strikte Abschlussanforderungen abgeschafft.

Ein Abschluss ist keine Jobgarantie mehr. Und ein Zertifikat erst recht nicht.

Skills verfallen

Die Welt dreht sich zu schnell für „erst lernen, dann arbeiten“

5 J.

Halbwertszeit
Workplace-Skills[15]

2,5 J.

Halbwertszeit
technische Skills

39%

der Kernkompetenzen ändern
sich bis 2030[16]

59% der globalen Belegschaft müssen bis 2030 umgeschult werden.[16] Vor 40 Jahren lag die Halbwertszeit bei über 10 Jahren.

Das bedeutet: Wenn du deine Ausbildung abschließt, hat sich die Welt schon wieder so verändert, dass du eigentlich von vorne anfangen müsstest.

Die einzige Ausbildung, die noch Sinn macht, ist eine, die voll gekoppelt ist mit der Anwendung. Lernen und Umsetzen gleichzeitig. Nicht nacheinander.

Für dich

Was das für dich bedeutet

Wenn du eine Ausbildung machst oder planst

Such dir eine, die dich nicht für auswendig gelernte Fakten bewertet — sondern für das, was du damit machst. Eine, die dir hilft, während der Ausbildung echte Projekte umzusetzen. Eine, nach der du nicht nur ein Zertifikat hast, sondern ein Portfolio.

Wenn du Ausbildungen designst oder Prüfungen abnimmst

Frag dich: Kann GPT-4 diese Prüfung bestehen? Wenn ja, dann misst sie nicht mehr das, was du messen willst.

Und überleg dir: Was wäre die Prüfung, die eine KI nicht bestehen kann?

Die Antwort ist fast immer: Etwas Echtes umsetzen. Und zeigen, dass es funktioniert.

Chen, Y. et al. (2024). Performance of ChatGPT and Bard on medical licensing examinations. BMC Medical Education
OpenAI (2024). Learning to Reason with LLMs. openai.com
OpenAI (2024). o3 Benchmark Results — GPQA Diamond & AIME. datacamp.com; Rein, D. et al. (2023). GPQA: A Graduate-Level Benchmark. arXiv
Accounting Today (2024). ChatGPT-4 passes the CPA Exam. accountingtoday.com
OpenAI (2023). GPT-4 Technical Report — SAT Performance. Guinness World Records
EdTech Digest (2024). Beyond AI Detection. edtechdigest.com
UNESCO (2024). What's Worth Measuring? The Future of Assessment in the AI Age. unesco.org
Scientific Reports (2025). Industry-integrated Project-Based Learning framework. nature.com
Engageli (2024). AI in Education Statistics. engageli.com
Kestin, G. et al. (2025). AI Tutoring Outperforms Active Learning. Scientific Reports / Harvard
LinkedIn (2024). Skills-Based Hiring is a Priority for 75% of Recruiters. computerworld.com
Burning Glass Institute / Harvard (2025). No Country for Young Grads. burningglassinstitute.org
World Economic Forum (2025). Future of Jobs Report 2025. weforum.org
Fortune (2026). Sergey Brin on hiring without degrees. fortune.com
IBM (2021). Skills Transformation for the 2021 Workplace. ibm.com
World Economic Forum (2025). Future of Jobs Report — 59% need reskilling by 2030. weforum.org

Leser fragen

Antworten auf die häufigsten Fragen

Ich arbeite hauptsächlich mit Claude Code und Claude Cowork. Das sind momentan die leistungsfähigsten Tools, um KI-Agents zu entwickeln, die bestimmte Aufgaben selbstständig erledigen — zum Beispiel Texte analysieren, E-Mails schreiben oder Workshop-Designs erstellen.

Der Workflow sieht so aus: Zuerst entwickle und teste ich den Agent innerhalb von Claude Cowork. Dort kann ich die Anweisungen, den Kontext und die Ergebnisse schnell iterieren, weil das Interface sehr flexibel ist. Wenn der Workflow funktioniert, gebe ich Claude Code die Anweisung, daraus eine eigenständige Web-App zu bauen — mit eigenem Interface, Login und allem was dazugehört.

So ist zum Beispiel der Workshop-Designer entstanden: Erst als Agent in Claude Cowork getestet, dann als Web-App für andere zugänglich gemacht.

Meine Empfehlung für den Einstieg: Starte mit Claude Cowork. Du brauchst keine Programmierkenntnisse. Das Interface ist flexibel genug, um komplexe Workflows zu bauen und zu testen. Die Web-App kommt später — wenn du weißt, dass der Agent funktioniert.

KI in deiner Ausbildung oder deinem Unternehmen?

Ich helfe Trainern, Ausbildnern und Unternehmen, KI sinnvoll in ihre Lern- und Prüfungsformate zu integrieren. In einem kurzen Gespräch zeige ich dir, was möglich ist.

Erstgespräch vereinbaren

Kostenlos. Unverbindlich. 15 Minuten.