Crazy 800

Slop ist nicht Masse, sondern Masse ohne Selektionsdruck. Ein Tag aus der Praxis — vormittags fünfhundert generierte Thumbnails, nachmittags vierhundert prüfende Constraint-Personas — zeigt, warum Masse zum Qualitätsmechanismus wird, sobald man sie so geduldig prüft, wie man sie erzeugt: die Doppelmünze aus Generation und Verifikation.

18. Juni 2026 18 Min.

KI-Agenten

Praxis

KI & Gesellschaft

Michael Überschär

Architekt von Basiswissen KI

Beschäftigt sich seit über zwei Jahrzehnten mit Mensch-Maschine-Schnittstellen und damit, wie sich Gestaltungsarbeit verändert, wenn nicht mehr ein Mensch zeichnet, sondern ein Schwarm entwirft und ein zweiter Schwarm prüft.

Die Branche hat sich auf ein Schimpfwort geeinigt: Slop — das alte Wort für Schweinefutter, neu vergeben an massenhaft generierten Ausschuss. Der Begriff sitzt, und er trifft etwas Wahres. Aber dieselben Designer, die Slop verachten, verfeinern weiterhin drei Entwürfe pro Woche von Hand und nennen das Sorgfalt. Dahinter steht eine Gewissheit, die kaum jemand ausspricht, weil sie so selbstverständlich wirkt: dass Masse das Gegenteil von Qualität sei.

Diese Gewissheit ist falsch. Masse ist der neue Qualitätsmechanismus — unter einer Bedingung, an der sich alles entscheidet. Wer nur massenhaft erzeugt, produziert tatsächlich Slop. Wer massenhaft erzeugt und massenhaft prüft, erreicht eine Qualität, die Handarbeit nie erreichen konnte.

Slop ist keine Eigenschaft der Masse — Slop ist Masse ohne Selektionsdruck.

Aquarell eines viktorianischen Naturforschers, der vor einer großen Glasvitrine voller aufgereihter, beschrifteter Karten steht und mit Stift und Probentablett einzelne Exemplare prüft; daneben ein leerer Vogelkäfig, im Hintergrund Bücherregale und ein Garten. — Der Züchter vor der Vitrine: hunderte Exemplare, eine Hand, die prüft — Masse wird erst zur Qualität, wenn jemand sie kuratiert.

Die Thumbnail-Stunde

Fünfhundert Entwürfe vor dem Mittagessen

Wie das aussieht, zeigt ein Vormittag aus meiner eigenen Praxis. Mein Lernportal hatte die Marke von hundert veröffentlichten Seiten überschritten, und jede brauchte ein Thumbnail: eine visuelle Eingangstür, die den Inhalt als Miniatur verdichtet. Der Auftrag an den Schwarm passte in einen Satz — lies jede Seite, entwickle fünf bis sechs Gestaltungsideen, baue daraus klickbare Miniaturen. Hinter jeder Kachel steckte ein Subagent, der den Inhalt wirklich gelesen hatte, den Text, die Diagramme, den Ton, und seine Gestaltungsidee daraus ableitete, statt ein generisches Icon zu würfeln.

Dann geschah eine Stunde lang etwas, das in keinem Lehrbuch meines Berufs vorkommt. Eine Demo-Auswahlseite füllte sich, hundert Seiten mal fünf Varianten. Ich klickte Favoriten an; das Auswahl-Array wanderte ins Clipboard und zurück an die Agenten (die feierlichste Form, die ein Geschmacksurteil heute noch annimmt). Für alles, was mich nicht überzeugte, lautete die Anweisung: noch mal fünf, noch mal zehn. Nach rund einer Stunde hatten sich fünfhundert bis achthundert Miniaturen aufgespannt, und aus ihnen kondensierte ich den Bestand, der heute online steht.

Was mir von diesem Vormittag bleibt, ist weniger die Menge als die Stille. Früher klang Produktivität nach etwas — Stiftkratzen im Workshop, Tastaturgewitter, das Stimmengewirr eines Reviews. Diese Stunde hatte keinen eigenen Ton. Die produktivste Designstunde meiner Woche klingt nach nichts — nur der Lüfter.

Warum ich dieser Stille trotzdem nicht blind vertraue, hat einen Grund. Er trägt bengalische Schriftzeichen und kommt später in diesem Text zu Wort.

Acht Skizzen in acht Minuten

Eine Würdigung der müden Hand

Bevor dieser Vormittag selbstverständlich wirkt, lohnt ein Blick in den Raum, in dem ich mein Handwerk gelernt habe. Sie kennen ihn: Workshop-Atmosphäre, ein Timer, der tickt, Filzstifte, ein Blatt Papier, dreimal gefaltet, acht Felder. Crazy 8 — acht Skizzen in acht Minuten. Die Methode wurde erfunden, damit Designer ihre erste Idee nicht heiraten. Sie zwingt die Hand weiterzuzeichnen, wenn der Kopf längst zufrieden ist (die wertvollste Skizze war selten die erste — meistens war es die sechste, kurz nach dem Punkt, an dem alle stöhnten).

Diese Disziplin verdient Würdigung, denn unter ihren Bedingungen war sie die klügste Antwort, die es gab. Dreißig Jahre lang war gutes Design Konvergenz-Handwerk: eine Variante zur Zeit, ein Reviewer-Paar zur Zeit, und jede zusätzliche Runde kostete jemandes Nachmittag. Die Methoden meiner Zunft — Papier-Prototypen, Hallway-Tests, das Review vor dem Release — waren bei Licht besehen allesamt Sparprogramme für teure Varianten. Als Faustregel aus meiner eigenen Praxis: Ein einziges Thumbnail kostete klassisch etwa eine Stunde Handarbeit — Artikel lesen, Ideen sammeln, gestalten, umsetzen. Bei hundert Seiten sind das hundert Stunden, zweieinhalb Arbeitswochen für Eingangstüren. Also haben wir uns auf acht Skizzen geeinigt und es Kreativitätstechnik genannt. Das klang besser.

Acht war nie die Zahl der Kreativität — acht war die Zahl der Erschöpfung.

Der doppelte Preissturz

Zwei Preisschilder fallen gleichzeitig

Diese Erschöpfung hatte eine ökonomische Grundlage, und genau die ist zerfallen. Die halbe Geschichte erzählt inzwischen jeder: Erzeugen ist fast kostenlos geworden, zehn Entwürfe kosten kaum mehr als einer, fünfzig kaum mehr als zehn. Wer nur diese Hälfte sieht, landet zielsicher beim Slop. Die zweite Hälfte wird seltener erzählt, und sie ist die folgenreichere: Das Prüfen ist im selben Zug beinahe gratis geworden. Dieselben Agenten, die entwerfen, können begutachten — durchklicken, vergleichen, gegen Regeln halten und ihre Urteile begründen (ein Prüfer, der nicht müde wird und nicht beleidigt ist, wenn man seinen Entwurf verwirft). Zwei Preisschilder sind gleichzeitig gefallen: das für die Variante und das für den prüfenden Blick darauf.

Damit kippt die Geschäftsgrundlage des Konvergenz-Handwerks. Es war weniger eine Methode aus Überzeugung als eine aus Knappheit. Die Knappheit, auf die das ganze Handwerk geeicht war, ist über Nacht verschwunden — auf beiden Seiten des Schreibtischs. Bleibt die Frage, die den Rest dieses Tages regiert: Wenn Erzeugen und Prüfen beide gegen null fallen — wer oder was hält dann die Qualität?

Die Voliere

Darwin am Schreibtisch, erster Teil: Variation

Was an die Stelle der Knappheit tritt, hat ein historisches Vorbild, und es gurrt. Charles Darwin hielt Tauben¹, kreuzte sie, verglich die Würfe — der Taubenschlag war sein Labor, die Zuchtwahl seine Erkenntnismethode.² Genau diese Methode ist in mein Berufsleben eingezogen, mit einem Unterschied, den ich einmal klar setzen will: Gezüchtet wird hier nichts, was atmet. Gezüchtet werden Layouts, Formulare, Eingangstüren zu Lernseiten.

Das Zuchtziel zuerst. Nichts davon beginnt mit einem Schwarm; es beginnt mit einem Dokument. Anforderungen, Stilregeln, Zielgruppen, Tabus — was ein Entwurf erfüllen muss, lege ich fest, bevor irgendein Agent startet; das Zuchtziel lebt in Intent und Tests statt in Pixeln. Dann erst kommt die Staffelung: zehn Entwürfe, zwanzig, dreißig, fünfzig — Crazy 8, um zwei Nullen erweitert. Der Schwarm kennt dabei drei Tonarten. Stumm: „Mach zehn Varianten.“ Diskursiv: „Mach zehn und diskutiere pro Variante Für und Wider.“ Geprimt: „Gib mir vorher eine Empfehlung.“ Die dritte Tonart ist die bequemste und bei kritischen Entscheidungen die gefährlichste, denn eine Empfehlung vorab verengt die Exploration, bevor sie begonnen hat. Der Schwarm muss nicht raten, was ich will: Er bekommt es diktiert, bevor er die erste Feder bewegt.

Mutation und Rekombination. Aus der ersten Staffel überleben drei — sagen wir: Variante 2, 7 und 13. Was dann folgt, ist der eigentliche Prozess, und er besteht aus zwei parallelen Aufträgen: Subvarianten der Überlebenden, also Tiefenbohrung in eine Richtung, und Rekombinationen zwischen ihnen, etwa das Raster von 7 mit der Farblogik von 13. Danach wieder auswählen, wieder aufspannen. Die Schleife atmet: Der Lösungsraum dehnt sich, zieht sich zusammen, dehnt sich entlang der Überlebenden neu aus, zieht sich wieder zusammen. Damit die Dichte gegen Qualität konvergiert statt gegen Barock, laufen am Ende zwei Richterpässe mit gegenläufigen Zielfunktionen über die Favoriten: Der erste prüft, ob alles wasserdicht ist; der zweite streicht alles, was over-engineered ist — beide Pole stehen im selben Manifest.³ Ein Wort noch zur Modalität: Zwanzig Layouts scannt das Auge in Sekunden nebeneinander, zwanzig Code-Varianten liest es nacheinander — deshalb entfaltet die Zucht ihre volle Wirkung im Visuellen. Mit jedem Atemzug wird der Lösungsraum dichter um das Gute und dünner um das Beliebige.

Die Futterkosten. Bevor die nächste Staffel startet, gilt mein Blick einer unscheinbaren Zahl: dem Token-Budget des Vormittags. Eine Voliere dieser Größe frisst, und sie frisst Geld. Deshalb kombinieren die Varianten gegen eine Bibliothek wiederverwendbarer Komponenten, statt jede Subroutine neu zu bauen — die Varianz liegt im Arrangement, der Unterbau bleibt bezahlt und getestet. Diese Haushaltsführung ist Überlebensbedingung: Ohne sie stirbt die Methode im Roll-out an der Tokenrechnung. Sie hat einen Namen: Generation Economy. Wer die Voliere nicht füttern kann, züchtet keine Linien: Er sammelt Anfänge.

Variation ist nur die halbe Zucht — ohne eine Umwelt, die aussiebt, ist die Voliere bloß voll.

Vierhundert Augen

Darwin am Schreibtisch, zweiter Teil: die Umwelt siebt

Am Nachmittag dreht der Schwarm die Richtung um. Vormittags hat er entworfen; jetzt prüft er. Auf dem Bildschirm stehen statt Miniaturen jetzt Protokolle, und dieselbe Ökonomie, die fünfzig Entwürfe auf einmal erlaubt, erlaubt vierhundert Prüfer auf einmal — aus dem deutschen Vier-Augen-Prinzip wird ein Vierhundert-Augen-Prinzip.

Umwelten statt Gutachter. Der erste Reflex wäre, vierhundert Mal denselben Reviewer zu starten. Das findet vierhundert Mal dasselbe. Die Varianz entsteht durch Constraint-Sets (Regelwerke, die je eine Nutzungsbedingung festschreiben): Du darfst nur die Tastatur verwenden; du bedienst alles per Sprache; du sitzt am Smartphone, im Dark Mode, mit diesen Persönlichkeitsmerkmalen und dieser Geduld. Jedes Set ist weniger ein Gutachter als eine Umwelt, in der ein Entwurf überleben muss — ein künstliches Habitat, das genau eine Überlebensbedingung scharf stellt. Die Achsen, die dabei tragen, sind funktional: Sprache, kognitive Last, Technik-Vertrautheit, Alter — sie werden dem Modell als explizite Vorgaben diktiert und überschreiben, was es von sich aus annehmen würde. So gehen hundert, zweihundert, vierhundert Agenten als Schrotschuss über die Software, bewusst breit gestreut, weil die kollektive Abdeckung zählt; ein Konsolidierungs-Agent verdichtet die Funde danach zu Mustern. Und damit keine Karikaturen klicken, sind Rolle und Begründung getrennte Schichten: Unter jeder Persona-Rolle läuft ein interner Monolog, der jede Aktion gegen Regelwerk und Rollen-Plausibilität argumentiert, bevor die Persona sie ausführt. Ohne diese Schicht spielt der Agent Theater; mit ihr simuliert er. Aus dem Workshop-Plakat ist eine Umwelt mit Protokollpflicht geworden.

Das Protokoll als Artefakt. Das eigentliche Test-Artefakt dieser Schwärme ist die Begründungskette des Monologs, die Reasoning-Spur — der Klickpfad ist nur ihr Schatten. Aus Begründungsketten lassen sich Reibungsmuster bündeln: wo eine Persona zögert, warum sie abbricht, welche Formulierung sie doppelt liest. An diese Stelle gehört der Beleg im Originalton — ein Ausschnitt aus einem echten Lauf, anonymisiert, mit Datum:

Persona-Lauf · 11. März 2026 · Constraint-Set: ausschließlich Tastatur, keine Maus
Aufgabe: im Glossar den Begriff „Adversarial Examples“ öffnen.
„Tab — sofort ‚Zum Inhalt springen’, gut. Aber will ich zum Inhalt oder direkt suchen? Die Liste über A–Z durchzutabben kostet 26 Stopps, das mache ich nicht. Also das Suchfeld, ein Tab weiter. Nur trägt das Feld kein Label — bloß die Anweisung ‚Geben Sie Text ein, um Seiten zu finden. Verwenden Sie Pfeiltasten zur Navigation.’ Erst durchs Lesen verstehe ich, dass ich nach der Eingabe mit den Pfeiltasten in die Treffer wechsle. Ich tippe ‚Adversarial’, Pfeil runter, Enter. Ziel erreicht — aber den Weg musste ich mir selbst zusammenreimen.“
Friction: Das Suchfeld hat kein eigenes Label; wie man von der Eingabe in die Trefferliste kommt, steht nur in der Platzhalter-Instruktion — wer sie überliest, sitzt fest.

Was Sie dort lesen, ist der Unterschied zwischen einem Messwert und einem Zeugen: Der Lauf dokumentiert sein eigenes Zögern, begründet seine Entscheidung und benennt die Stelle, an der ihn das Interface verloren hat. Dass Prüfen strukturell billiger ist als Erzeugen, behaupte ich dabei über meinen eigenen Schreibtisch hinaus: Die KI-Sicherheitsforschung baut ganze Aufsichts-Verfahren auf diese Asymmetrie. Eines davon, das Debattier-Verfahren, habe ich in meinem Buch beschrieben: Zwei KI-Systeme treten gegeneinander an, jedes will einen menschlichen Richter überzeugen — die Kernannahme, dass es einfacher ist, eine Lüge zu erkennen, als die Wahrheit selbst zu finden.⁴

Der Klick sagt, was passiert ist — die Begründungskette sagt, warum es wieder passieren wird.

Der Stapel Streitfälle. Vierhundert Prüfberichte liest kein Mensch, und es muss auch niemand. Die Konsolidierung sortiert die Befunde in zwei Klassen: Dinge, über die sich die Brigade einig ist — sie wandern gebündelt in die Pipeline —, und Dinge, über die sie streitet. Meine Lesezeit gehört dem Streit. Wo vierhundert Umwelten zu demselben Befund kommen, genügt mein Abnicken; wo sie auseinanderliegen, liegt Information. Nur klingt das nach weniger Arbeit, als es ist: Wer entscheidet, welcher von zwei gut begründeten Widersprüchen das Produkt verändern darf, braucht mehr Urteilskraft als früher, und er braucht sie öfter. Der Engpass ist nicht verschwunden — er ist zur Urteilskraft über Dissense gewandert.

Bleibt der Einwand, der in jeder Diskussion über simulierte Nutzer als erster fällt: Personas aus einem Sprachmodell seien doch von dessen Verzerrungen geprägt und darum unrepräsentativ. Die Repräsentations-Debatte stellt eine echte gesellschaftliche Frage — sie beantwortet nur eine, die das UX-Testing gar nicht gestellt hat.⁵ Getestet wird, ob ein Formular unter der Bedingung „kleiner Bildschirm, geringe Technik-Vertrautheit, Leichte Sprache“ überlebt; die Bedingung wird diktiert, dem Modell als Constraint gesetzt statt aus ihm herausgelesen. Die härteste Demonstration dieser Logik wartet allerdings woanders: in Sprachen, von denen ich keine drei Wörter entziffern kann. Der Schwarm prüft sogar dort, wo ich nicht einmal lesen kann, was er prüft.

Bengali, lateinisch

Die Geschichte einer Lücke

Mein Portal — basiswissen-ki.de, ein frei zugängliches KI-Lernangebot — erscheint in 28 Sprachen — Stand bei Erscheinen dieses Artikels, denn sie wächst weiter, sooft im Backlog Leerlauf und ein paar Tokens übrig sind. Jede Seite existiert doppelt: Standardsprache und Leichte Sprache, auch dort, wo die Zielsprache keine eigene Leichte-Sprache-Tradition hat. Der Gesamtumfang liegt heute bei rund 35 Millionen Wörtern — etwa 275-mal so viel, wie in dem Buch steht (350 Seiten, ohne die knapp 650 Quellen), an dem ich in denselben Jahren nebenher saß, von Hand, Nacht für Nacht. Stabil rund fünf Prozent der Besucher haben die einfache Sprache aktiviert, sagt die Telemetrie des eigenen Portals. Aufgesetzt war das Ganze als Roadmap: jede Sprache priorisiert nach Reichweite, Komplexität, Schreibrichtung und der Trainingsdaten-Qualität der Übersetzungsmodelle; das Portal stand zur Jahreswende 2025/26, als die Übersetzungswelle lief, bei gut 250 Buchseiten pro Sprache. Möglich ist das nur, weil hier dieselbe Zucht-Logik arbeitet wie bei den Thumbnails: Agenten erzeugen, Brigaden sieben — KIs prüfen KIs, gegen Guidelines, die ich pro Sprache in Doppelvariante angelegt habe, mit Idiom-Regeln, Glossar, konsistenter Benennung der Bedienelemente.

Und genau dort sitzt die Geschichte, die ich Ihnen seit dem Vormittag schulde. In den Guidelines fehlte ein einziger Absatz: „Verwende für diese Sprache diesen Zeichensatz.“ Niemand hatte ihn geschrieben, also hat ihn niemand geprüft. Bengali und Russisch kippten stellenweise ins lateinische Alphabet — Transliteration statt Schrift, mitten im Fließtext. Weder der Schwarm hat es gefangen noch ich, und es wäre visuell leicht zu fangen gewesen; genau das macht die Sache so lehrreich-peinlich. Entdeckt habe ich sie erst, als alles fertig schien.⁶ Die Folge war ein Groß-Refactor im April 2026: sämtliche Sprachguidelines überarbeitet, neuere Modelle noch einmal über alle 28 Ausgaben geschickt, diesmal mit Zeichensatz-Klausel. Dieser zweite Durchlauf hatte einen Preis, den keine Designdiskussion je nennt. Er fällt sehr unterschiedlich aus: Eine germanische Sprache — Niederländisch, Schwedisch — läuft am billigsten, das Modell beherrscht sie im Schlaf; romanische und slawische liegen darüber; eine indische wie Bengali kostet das Dreieinhalbfache, weil das Modell dort um jede Silbe ringt. In Zahlen: rund 42 Millionen Token für die billigste, gut 150 Millionen für die teuerste; über alle achtundzwanzig summiert sich ein Durchgang auf knapp zwei Milliarden Token, zu Listenpreisen etwa 2.700 Dollar.⁷ Und die teuersten Sprachen sind ausgerechnet die, die ich nicht lese: Die fehlende Zeile über den Zeichensatz war, in Tokens gerechnet, der teuerste Absatz, den ich nie geschrieben hatte.

Die Lehre lasse ich ungeschönt stehen: Der Schwarm prüft die Umwelten, die man ihm gebaut hat — eine Umwelt, die fehlt, siebt nicht. Skalierung skaliert auch Fehler; sie tut es bloß leiser. Ein Schwarm aus vierhundert Augen ist so weitsichtig wie die Umwelten, die man ihm baut — und so blind wie die, die man vergisst.

Die Prägung

Was an diesem Tag eigentlich Arbeit war

Am frühen Abend liegt der Tag ausgebreitet da wie ein Kontoauszug: vormittags fünfhundert erzeugte Miniaturen, nachmittags vierhundert prüfende Umwelten, dazwischen die Erinnerung an zwei Alphabete, die niemand bestellt hatte. Erst in dieser Summe zeigt sich, was die beiden Bewegungen verbindet.

Mehr Ausmalung braucht das Wort kaum, den Anschauungsunterricht hat der Tag geliefert. Offen bleibt, was mich beim Herunterfahren des Rechners beschäftigt: Ich habe heute Qualität verantwortet wie selten zuvor — aber gezeichnet, geschoben, gestaltet habe ich nichts. Was war meine Arbeit an diesem Tag, wenn kein einziger Entwurf von meiner Hand stammt?

Vom Zeichner zum Züchter

Die Methode bekommt ihren Namen

Die Antwort steht in keinem Stellenprofil, aber sie hat einen Namen, und es ist Zeit, ihn zu setzen: Generative Design Exploration — kein neues Verfahren, sondern der Name für das, was dieser Tag von vorn bis hinten war. Meine Arbeit bestand aus vier Dingen: dem Intent, der vor jeder Staffel stand; den Constraints, die aus Prüfagenten Umwelten machten; der Lücke in diesen Umwelten, für die ich hafte; und dem Urteil über die Streitfälle, die der Schwarm mir zur Entscheidung vorlegte. Darwin hätte dafür ein nüchternes Wort gehabt: Zuchtwahl — die Auslese findet im Taubenschlag statt, das Zuchtziel entsteht am Schreibtisch des Züchters. Der UXler züchtet: Er entwirft Anforderungsräume, Überlebensbedingungen, Prüfklimata, und überlässt das Zeichnen dem Schwarm.

Falls das nach Verlust klingt, nach einer Arbeit, die zur Verwaltung geronnen ist: Das Gegenteil trifft zu. Über einen Künstler, der für ein einziges Bild durch 900 Prompt-Versuche ging, habe ich in meinem Buch geschrieben: Wer so lange um Nuancen ringt, spielt kein Lotto — er erschafft. Die Schöpfungshöhe lag dabei in der Unnachgiebigkeit der Vision.⁸

Die Unnachgiebigkeit ist geblieben. Umgezogen ist nur ihr Gegenstand — vom einzelnen Strich in die Bedingungen, die über Tausende Striche urteilen.

Der Zeichner entwarf Lösungen — der Züchter entwirft die Bedingungen, unter denen Lösungen überleben.

Die Grenzkontrolle

Derselbe Schwarm, andere Front

Eine Frage bleibt, und sie führt aus dem Atelier hinaus. Oberflächen werden zunehmend im Moment ihrer Nutzung gerendert, zugeschnitten auf den einzelnen Menschen. In einer solchen Welt ist eine manipulierte Variante kein A/B-Artefakt mehr, das sich in Aggregaten finden ließe: Sie existiert nur für ihr Opfer, einen einzigen Moment lang, und löscht sich mit dem Seitenwechsel selbst. Adversarial Hyperpersonalization (Personalisierung, die gegen die Interessen des Nutzers arbeitet) hinterlässt Wirkung, aber keine Beweisstücke.

„Der auswärtige Dienst“, der Auftakt dieser Serie, hat genau hier eine Frage offen gelassen: Woran erkennt man Systeme, die gegen ihre Nutzer arbeiten, wenn jede Manipulation nur einen einzigen Zeugen hat? Die operative Antwort steht seit diesem Nachmittag auf meinem Bildschirm. Eine Brigade aus hunderten Constraint-Personas sieht jeweils ihr eigenes, frisch gerendertes Interface; die Konsolidierung legt die Renderings übereinander und macht Drift sichtbar — systematische Abweichungen, die sich dort häufen, wo ein Anbieter müde Nutzer anders behandelt als wache. Kein einzelner Mensch kann diesen Beweis führen. Ein Schwarm kann es — als einziger Akteur mit genug Augen an genug Orten.

Damit hängt diese Methodik an einer Frage, die größer ist als jedes Designteam. Dass Schwärme prüfen, wird in wenigen Jahren so selbstverständlich sein wie heute der Spam-Filter. Wer sie dirigiert, wem Zuchtziel und Urteil gehören — das ist die eigentliche Verteilungsfrage, und an ihr entscheidet sich auch ein Markt: Wer Selektionsdruck definieren kann, besitzt das Qualitätsmonopol, das gestern noch in Agenturen und Design-Abteilungen lag. Dieselbe Brigade, die heute Layouts aussiebt, ist morgen die einzige Instanz, die eine Manipulation überhaupt noch zu Gesicht bekommt.

Feierabend

Wer heute fehlte

Der Abend ist da, der Lüfter dreht herunter, und für ein paar Minuten klingt das Zimmer wieder so, wie Feierabend immer geklungen hat. Auf dem zweiten Monitor stehen noch die Miniaturen vom Vormittag, fünfhundert Anläufe, ein kuratierter Bestand. Es war ein guter Tag: schnell, gründlich, in einer Qualität, die ich allein auch in einem Monat nicht erreicht hätte. Der Beruf hat dabei die Seite gewechselt — gezüchtet statt gezeichnet, und das Urteil war meine einzige Handarbeit.

Erst beim Aufstehen fällt mir auf, wer in dieser Szene den ganzen Tag gefehlt hat. In jedem „Atelier“⁹, in dem ich gelernt habe, saß irgendwo ein Zweiter: der Praktikant, der Werkstudent, der Neue — jemand, der die Skizzen aufhängte, die Reviews protokollierte und nebenbei, durch bloßes Dabeisein, die Landkarte des Berufs in den Kopf bekam. Heute war da niemand. Der Schwarm braucht keinen Handlanger, und genau deshalb stand auch keiner neben mir, der durch Zuschauen hätte lernen können.

Niemand hat an diesem Tag etwas gelernt — und das ist die einzige Protokollzeile, die mich beunruhigt.

Wer das für eine Randnotiz hält, unterschätzt sie. Was aus einem Berufsstand wird, der seine Anfänger nirgendwo mehr ausbildet, und welche Software-Firma eine Welt ohne diesen Unterbau überlebt — dem wird „Das Stundenbuch“ nachgehen. Bis dahin gilt, was dieser Tag gezeigt hat: Masse ist zur Qualität geworden an dem Tag, an dem wir anfingen, sie so zu prüfen, wie wir sie erzeugen — massenhaft, geduldig und mit einem Zuchtziel, das ein Mensch geschrieben hat.

Ein Gutachter seines Verlegers riet Darwin 1859, statt über die Entstehung der Arten lieber ein Buch nur über Tauben zu schreiben — „jeder interessiert sich für Tauben“, und es käme so „auf jeden Tisch im Königreich“. Darwin ließ es bleiben.
Die Mechanik ist deutlich älter als ihr aktueller Auftritt: John Holland hat Variation, Selektion und Rekombination 1975 in Adaptation in Natural and Artificial Systems als formales Suchverfahren beschrieben — die genetischen Algorithmen. Neu ist also nicht der Algorithmus. Neu ist der Phänotyp: fertige Software.
Diese Fußnote hatte ursprünglich vier Sätze, einen Exkurs über Mutation Testing und ein zweites Beispiel. Dann habe ich sie behandelt wie meine Layouts. Das hier hat überlebt.
Basiswissen Künstliche Intelligenz, Kapitel 10: Alignment und Safety.
Der Einwand ehrt die Disziplin mit einem Maßstab, den sie selbst nie angelegt hat. „Repräsentativ“ hieß in der klassischen Usability-Praxis oft genug: die acht Probanden, die am Donnerstagnachmittag Zeit hatten und für einen Gutschein ins Foyer kamen. Wir haben das ernst genommen, und es hat funktioniert. Ernsthaft verlangt wird Repräsentativität erst von der Simulation — ein Kompliment, das als Einwand verkleidet ist.
Es schien.
Diese Dollar-Beträge sind Listenpreise — was ein solcher Lauf über die API gekostet hätte. Bezahlt habe ich sie nie: Ich fahre die Pipeline über ein Pauschal-Abo (Claude Max, 20×), in dem dieselben Tokens in einer Flatrate verschwinden. Der Aufwand ist real, meine Rechnung war es nicht.
Basiswissen Künstliche Intelligenz, Kapitel 7: Kreative Maschinen.
„Atelier“ ist geschönt — gelernt habe ich in Software-Schmieden. Der zweite Stuhl stand trotzdem da.

Schlüsselbegriffe

Generative Design ExplorationDer Name für die Methode dieses Tages: ein Mensch setzt Zuchtziel und Constraints, ein Schwarm erzeugt Varianten, ein zweiter Schwarm siebt sie aus. Der Gestalter zeichnet nicht mehr, er züchtet.
DoppelmünzeErzeugen und Prüfen als zwei Seiten eines einzigen ökonomischen Vorgangs. Masse ohne Prüfung ist Slop; Masse mit massenhafter Prüfung wird Qualität.
Vierhundert-Augen-PrinzipDie Steigerung des Vier-Augen-Prinzips: hunderte Prüf-Agenten, jeder in einem eigenen Constraint-Set, gehen breit gestreut über eine Oberfläche; ein Konsolidierungs-Agent verdichtet die Funde zu Mustern.
Constraint-SetEin Regelwerk, das je eine Nutzungsbedingung scharf stellt (nur Tastatur, nur Sprache, kleiner Bildschirm, geringe Technik-Vertrautheit). Jedes Set ist eine Umwelt, in der ein Entwurf überleben muss.
Generation EconomyDie Haushaltsführung der Methode: Varianten gegen eine Bibliothek bezahlter, getesteter Komponenten kombinieren, statt jede neu zu bauen. Ohne sie stirbt die Zucht an der Tokenrechnung.
SlopUrsprünglich das Wort für Schweinefutter, heute für massenhaft generierten Ausschuss. Keine Eigenschaft der Masse, sondern Folge fehlenden Selektionsdrucks.
Adversarial HyperpersonalizationPersonalisierung, die gegen die Interessen des Nutzers arbeitet: pro Person zugeschnitten, flüchtig, im Aggregat unsichtbar. Erst ein Schwarm aus Constraint-Personas macht die Drift überhaupt sichtbar.

Im Portal weiterlesen

Wo dieser Text im Portal verwurzelt ist und wohin die Serie noch führt: