Gestern habe ich eine Prüfung abgelegt. Und nächste Woche werde ich eine Prüfung als Prüfer abhalten.
Zwei komplett verschiedene Erfahrungen. Beide haben mich dazu gebracht über die Frage nachzudenken, welche Art von Prüfungen in der heutigen Lebenswelt noch Sinn machen.
Warum ich KI bei der Prüfung erlaube
Ich unterrichte KI-Ethik an einer Hochschule. Bachelor-Studiengang KI-Management. Die Studierenden werden irgendwann als KI-Manager in Unternehmen sitzen und Empfehlungen an den Vorstand machen — auch zu ethischen Fragestellungen.
Für die Prüfung habe ich ihnen gesagt: Ihr dürft KI verwenden.
Warum? Weil es keinen Sinn mehr macht, dass jemand auswendig weiß, wann der erste KI-Winter war. Das kann jeder in 3 Sekunden nachschlagen.
Was ich stattdessen will: Dass sie die Themen kennen. Dass sie eine Meinung haben. Und dass sie diese Meinung begründen können.
Das ist der Unterschied zwischen Wissen und Kompetenz.
Außerdem ist die Prüfungsvorbereitung ein echter Grund, um sich nochmal intensiv alle Unterlagen anzuschauen. Und davon werden die Studierenden sicher profitieren.
Multiple Choice als Schikane
Parallel dazu habe ich gerade meine Trainerausbildung abgeschlossen. Inklusive Prüfung.
Ein Teil davon: Multiple Choice. Faktenabfrage. Begriffe auswendig lernen. Und eine mündliche Prüfung, in der Fragen kamen wie: „Welche Methoden kennen Sie zur Kreativitätsförderung?“
Der Teilnehmer, der sich am intensivsten vorbereitet hat — seit Monaten — konnte das nicht auf Anhieb beantworten.
Und ich dachte mir: Hier steht jemand, der extrem motiviert ist, dem dieses Zertifikat wichtig ist, der das Wissen hat und anwenden kann. Und er wird durch eine Prüfungsform ausgebremst, die eigentlich nur misst, ob er gestern Abend die richtigen Karteikarten durchgegangen ist.
Das ist nicht nur veraltet. Das ist demotivierend.
KI besteht jede Faktenprüfung — was misst du dann noch?
Die Zahlen von 2023 — GPT-4 besteht die Ärzteprüfung mit 91%, die Anwaltsprüfung im 69. Perzentil — waren schon beunruhigend. Aber die aktuellen Modelle machen das Bild noch deutlicher:
GPT-4o, 2024[1]
o1, 2024[2]
o3, GPQA Diamond[3]
AIME, o3-Familie[3]
alle Sektionen bestanden[4]
GPT-4, 94. Perzentil[5]
Menschliche PhD-Experten in ihrem Fachgebiet erreichen 65% auf dem GPQA-Diamond-Benchmark. Das aktuelle KI-Modell: 87,7%. Die Maschine übertrifft die besten Fachleute bei wissensbasierten Prüfungen um über 20 Prozentpunkte.
Jede Prüfung, die eine KI bestehen kann, misst keine menschliche Kompetenz mehr.
Und KI-Erkennungstools? Nach zweimaligem Umschreiben erkennen sie 0% der KI-generierten Texte.[6] Das heißt: Wir können nicht mal mehr kontrollieren, ob jemand die Prüfung selbst geschrieben hat.
Die UNESCO hat das 2024 auf den Punkt gebracht: Traditionelle Prüfungsformate müssen im KI-Zeitalter grundlegend hinterfragt werden. Statt High-Stakes-Tests brauchen wir portfoliobasierte Bewertungen.[7]
Ein echtes Projekt statt Karteikarten
Es gab einen Teil meiner Trainerprüfung, der wirklich Sinn gemacht hat: die Projektarbeit.
Ich habe während der Ausbildung einen KI-Agenten entwickelt — den „Workshop Designer“. Ein Tool, das Trainern hilft, Workshops nach didaktischen Frameworks zu designen. Nach dem Lena-Modell, nach dem Workshop Survival Guide, nach den S.P.A.S.S Kriterien.
Das war kein theoretisches Konstrukt. Das war ein echtes Produkt, das ich präsentiert habe und das einen echten Nutzen hat.
Ich habe das Gelernte nicht nur verstanden — ich habe es angewendet. Und dabei etwas geschaffen, das über die Prüfung hinaus Wert hat.
Kompetenzen
der Lernenden
mit der Ausbildung
Projektbasiertes Lernen vs. traditionelle Methoden. Quelle: Scientific Reports, 2025[8]
Wenn ich heute eine Trainerausbildung designen würde, sähe sie komplett anders aus
Individualisierung statt Gleichschaltung
Jeder Trainer hat andere Stärken. Ein bestimmtes Fachgebiet. Einen eigenen Stil. Trotzdem werden in den meisten Ausbildungen alle gleich geschult.
Personalisiertes Lernen verbessert die Ergebnisse um bis zu 30%.[9] Eine Harvard-Studie zeigt: KI-gestütztes Tutoring übertrifft klassischen Gruppenunterricht mit einer Effektstärke von 0,73–1,3 Standardabweichungen — das ist in der Bildungsforschung ein außergewöhnlich starker Effekt.[10]
Wir müssen viel mehr eins zu eins auf die Stärken und Schwächen des Einzelnen eingehen. Die Technologie dafür ist da. Wir nutzen sie nur nicht.
Ergebnisse statt Theorie
Stell dir vor, du machst eine Trainerausbildung und am Ende hast du nicht nur ein Zertifikat, sondern:
- Drei Workshops, die du tatsächlich gehalten hast
- Saubere Dokumentation jedes einzelnen
- Feedback und Testimonials von echten Teilnehmern
- Ein überarbeiteter Workshop-Plan, der durch mehrere Iterationen gegangen ist
Wenn du damit zu einem Unternehmen gehst, kannst du beweisen, was du kannst. Nicht weil ein Stück Papier es behauptet — sondern weil du es gezeigt hast.
Zertifikate sind das neue Fax
- Du hast eine Prüfung bestanden
- Du warst an einem bestimmten Tag vorbereitet
- Du erfüllst formale Anforderungen
- Du kannst Fakten wiedergeben
- Nachweisbare Ergebnisse
- Angewandte Fähigkeiten
- Problemlösungskompetenz
- Portfolios und Referenzen
Skills-basiertes Hiring[11]
Absolventen 22–27 J.[12]
Umschulung bis 2030[13]
Google stellt „Unmengen“ von Mitarbeitern ohne Hochschulabschluss ein.[14] Apple, IBM, Accenture — alle haben strikte Abschlussanforderungen abgeschafft.
Ein Abschluss ist keine Jobgarantie mehr. Und ein Zertifikat erst recht nicht.
Die Welt dreht sich zu schnell für „erst lernen, dann arbeiten“
Workplace-Skills[15]
technische Skills
sich bis 2030[16]
59% der globalen Belegschaft müssen bis 2030 umgeschult werden.[16] Vor 40 Jahren lag die Halbwertszeit bei über 10 Jahren.
Das bedeutet: Wenn du deine Ausbildung abschließt, hat sich die Welt schon wieder so verändert, dass du eigentlich von vorne anfangen müsstest.
Die einzige Ausbildung, die noch Sinn macht, ist eine, die voll gekoppelt ist mit der Anwendung. Lernen und Umsetzen gleichzeitig. Nicht nacheinander.
Was das für dich bedeutet
Wenn du eine Ausbildung machst oder planst
Such dir eine, die dich nicht für auswendig gelernte Fakten bewertet — sondern für das, was du damit machst. Eine, die dir hilft, während der Ausbildung echte Projekte umzusetzen. Eine, nach der du nicht nur ein Zertifikat hast, sondern ein Portfolio.
Wenn du Ausbildungen designst oder Prüfungen abnimmst
Frag dich: Kann GPT-4 diese Prüfung bestehen? Wenn ja, dann misst sie nicht mehr das, was du messen willst.
Und überleg dir: Was wäre die Prüfung, die eine KI nicht bestehen kann?
Die Antwort ist fast immer: Etwas Echtes umsetzen. Und zeigen, dass es funktioniert.
- Chen, Y. et al. (2024). Performance of ChatGPT and Bard on medical licensing examinations. BMC Medical Education
- OpenAI (2024). Learning to Reason with LLMs. openai.com
- OpenAI (2024). o3 Benchmark Results — GPQA Diamond & AIME. datacamp.com; Rein, D. et al. (2023). GPQA: A Graduate-Level Benchmark. arXiv
- Accounting Today (2024). ChatGPT-4 passes the CPA Exam. accountingtoday.com
- OpenAI (2023). GPT-4 Technical Report — SAT Performance. Guinness World Records
- EdTech Digest (2024). Beyond AI Detection. edtechdigest.com
- UNESCO (2024). What's Worth Measuring? The Future of Assessment in the AI Age. unesco.org
- Scientific Reports (2025). Industry-integrated Project-Based Learning framework. nature.com
- Engageli (2024). AI in Education Statistics. engageli.com
- Kestin, G. et al. (2025). AI Tutoring Outperforms Active Learning. Scientific Reports / Harvard
- LinkedIn (2024). Skills-Based Hiring is a Priority for 75% of Recruiters. computerworld.com
- Burning Glass Institute / Harvard (2025). No Country for Young Grads. burningglassinstitute.org
- World Economic Forum (2025). Future of Jobs Report 2025. weforum.org
- Fortune (2026). Sergey Brin on hiring without degrees. fortune.com
- IBM (2021). Skills Transformation for the 2021 Workplace. ibm.com
- World Economic Forum (2025). Future of Jobs Report — 59% need reskilling by 2030. weforum.org
Antworten auf die häufigsten Fragen
Ich arbeite hauptsächlich mit Claude Code und Claude Cowork. Das sind momentan die leistungsfähigsten Tools, um KI-Agents zu entwickeln, die bestimmte Aufgaben selbstständig erledigen — zum Beispiel Texte analysieren, E-Mails schreiben oder Workshop-Designs erstellen.
Der Workflow sieht so aus: Zuerst entwickle und teste ich den Agent innerhalb von Claude Cowork. Dort kann ich die Anweisungen, den Kontext und die Ergebnisse schnell iterieren, weil das Interface sehr flexibel ist. Wenn der Workflow funktioniert, gebe ich Claude Code die Anweisung, daraus eine eigenständige Web-App zu bauen — mit eigenem Interface, Login und allem was dazugehört.
So ist zum Beispiel der Workshop-Designer entstanden: Erst als Agent in Claude Cowork getestet, dann als Web-App für andere zugänglich gemacht.
Meine Empfehlung für den Einstieg: Starte mit Claude Cowork. Du brauchst keine Programmierkenntnisse. Das Interface ist flexibel genug, um komplexe Workflows zu bauen und zu testen. Die Web-App kommt später — wenn du weißt, dass der Agent funktioniert.
KI in deiner Ausbildung oder deinem Unternehmen?
Ich helfe Trainern, Ausbildnern und Unternehmen, KI sinnvoll in ihre Lern- und Prüfungsformate zu integrieren. In einem kurzen Gespräch zeige ich dir, was möglich ist.
Erstgespräch vereinbarenKostenlos. Unverbindlich. 15 Minuten.