KI schreibt Code den ich nicht verstehe

In meinem letzten Projekt konnte ich Claude verwenden. Ein Kollege hatte mich auf dieses Tool aufmerksam gemacht, nachdem er sich viel mit KI beschäftigt hatte. Ich habe es ebenfalls ausprobiert.

Zunächst habe ich – wie bei allen anderen KI-Tools auch – nur den Chat verwendet. Aber Claude bietet auch „Cowork" und „Code". Meine Experimente begannen mit Cowork: Ordner aufräumen, Dateien umbenennen und basierend auf Notizen und Schätzungen einen Projektplan erstellen. Dinge, die nur Zeit kosten und über die ich nicht viel nachdenken muss.

Danach habe ich Claude Code ausprobiert. In einer mir vertrauten Codebasis gab es Bugs, die gefixt werden mussten – eine perfekte Gelegenheit, um zu sehen, was autonome Agents können. Die Maschine ratterte und verbrannte mein Tokenkontingent. Ich ging in die Mittagspause. Als ich zurückkam, sah ich an, was Claude getan hatte: Die Fehleranalyse war zutreffend und der geschriebene Code klar und verständlich. Commit, Push, weiter mit wichtigeren Dingen.

Das war der Moment, in dem ich dachte: Wow! Das funktioniert.

Doch dann kam das Greenfield-Projekt. Mein Kollege, mein Mentor in Fragen der KI, sagte mir, dass KI in Greenfield-Projekten glänzt. Ich war ohnehin überzeugt und nahm mir vor, die KI von Anfang an einzubinden. Nach kurzer Recherche stieß ich auf Spec-Driven Development. Eine professionelle Art, Projekte mit KI umzusetzen. Hierbei schreibt man eine umfangreiche Claude.md und für jedes Feature eine Spec.md. Basierend auf der jeweiligen Spec.md habe ich von der KI eine Plan.md schreiben lassen, die ich dann reviewed habe. In diesem Schritt fiel es mir auf: Viele der Vorschläge zum Tech Stack sagten mir nichts. Doch die Ergebnisse erfüllten die Anforderungen – in kurzer Zeit hatte ich eine Software, die wir dem Kunden präsentieren konnten.

Mit dem Ansatz des Spec-Driven Development konnte ich circa 80 % der Anwendung problemlos fertigstellen. Dann ging es ans Polishing. Hier versagte die KI. Zugegeben, ich nutzte nur Sonnet 4.6 mit Opus 4.8 als Advisor; dennoch war es mir nicht möglich, manche Änderungen so umzusetzen, wie ich sie haben wollte.

Dabei beziehe ich mich vor allem auf UI/UX-Aspekte der Anwendung, da hier meine Expertise liegt. Die benötigten Funktionen waren da, aber die Informationsarchitektur war chaotisch. Menüs und Einstellungen waren nicht konsistent. Manche Dinge wurden in einem Dialog editiert, andere hatten eine eigene Seite. Es war eine Qual, hier Struktur reinzubringen. Zum Glück kenne ich mich mit React aus. Dementsprechend fand ich mich in diesem Teil der Codebasis einigermaßen zurecht. Allerdings wurden Konzepte und Libraries genutzt, mit denen ich nicht vertraut war, und mir fehlte die Zeit, mich in jede Entscheidung der KI einzulesen.

Das Backend verstand ich nicht. Hier fehlte mir schlicht das Wissen, um die Entscheidungen von Claude nachzuvollziehen. Doch die Anwendung funktionierte und war performant. Deshalb gab ich der KI einen Vertrauensvorschuss. Dass etwas nicht stimmte, fiel mir erst auf, als Claude mich fragte, wie es die Datenbank ändern soll, um das neueste Feature abzubilden. Es bot mir zwei Optionen. Eine davon verletzte die dritte Normalform, was mir seltsam vorkam. Ich entschied mich für die andere Option und arbeitete weiter. Jedoch konnte ich das ungute Gefühl nicht ignorieren. Ich ging der Sache nach.

Als ich mir die Datenbank in meiner IDE als ER-Modell anzeigen ließ, fiel mir auf, dass keine der Tabellen per Fremdschlüssel miteinander verknüpft war, obwohl zwischen diesen Entitätstypen eine Beziehung bestand. Das machte mich stutzig, gerade weil alle SQL-Abfragen, die Claude geschrieben hatte, die richtigen Ergebnisse lieferten. Bei genauerem Hinsehen kamen sie mir allerdings fragil vor.

Ich hatte gerade genug Ahnung, dass sich das ungute Gefühl verstärkte. Wenn ich jedoch die KI fragte, was das Problem sei, scheiterte ich an meiner Unwissenheit. Ich konnte nicht einschätzen, ob die Lösung, welche die KI jetzt vorschlug, korrekt war. Mein mangelndes Wissen hatte mich in eine Sackgasse manövriert.

Letztendlich musste ich einen Kollegen um Hilfe bitten, der den Code für mich prüfte und anschließend korrigierte.

Das Ziel von Spec-Driven Development war es, dass ich die KI steuere. Das funktionierte, solange ich die Entscheidungen beurteilen konnte. Im Frontend und in anderen Themen, in denen ich tieferes Wissen aufgebaut habe, konnte ich korrigierend eingreifen. Im Backend endete das Review bei einem Bauchgefühl.

Ich ziehe aus dieser Erfahrung Konsequenzen. Ich habe Abstand zu Claude Code und Cowork genommen und mich entschieden, die Arbeit langsamer anzugehen. Ich nutze noch den Chat, um Ideen zu entwickeln, zu recherchieren und Lösungsvorschläge zu bekommen. Das ist immer noch schneller als die Suche auf StackOverflow, aber langsam genug, dass ich meine eigene Codebasis lerne und Entscheidungen verteidigen kann.

Eine Frage stelle ich mir allerdings: Wie geht unsere Branche damit um, dass KI offensichtlich ein Expertise-Multiplikator ist? Atharva Raykar hat das 2025 so formuliert: „Je mehr Fachwissen du hast, desto mehr ziehst du aus der KI." Seniors sehen einen 3- bis 5-fachen Produktivitätsboost, Juniors nur 1- bis 2-fach (oder sogar einen negativen), weil sie die Qualität des Outputs nicht beurteilen können (Simon Willison, Juni 2025). Diese Aussage passt auf meine Erfahrung.

Es braucht also Experten mehr denn je. Jedoch kann man momentan beobachten, wie der Einstieg in die IT verschwindet. 2024 glaubten 70 % der Hiring Manager, dass eine KI die Aufgaben eines Praktikanten übernehmen kann, und 37 % der Arbeitgeber sagten, sie würden lieber eine KI „einstellen" als einen Absolventen (Stack Overflow Blog, Dezember 2025). Hierbei handelt es sich um Zahlen aus dem amerikanischen Markt.

Momentan sieht es für mich so aus, als bräuchte KI Experten mehr denn je. Diese Experten automatisieren gerade die Arbeit von Berufseinsteigern. Wo kommen dann die Experten von morgen her?

Im Moment habe ich darauf keine Antwort. Aber ich weiß, dass jeder, der KI nutzt, seinen Fachbereich so weit verstanden haben muss, dass er den KI-Output versteht und in der Lage ist, die getroffenen Entscheidungen zu verteidigen. Deshalb werde ich noch eine Weile „nur" beim Chatfenster bleiben, da es mir erlaubt, den Output zu überprüfen und eine hohe Qualität sicherzustellen.

KI schreibt Code den ich nicht verstehe - und jetzt?

Phillip Kollmann