KI-Zeitstrahl

Eine Zeitleiste, die zeigt: KI wurde mindestens dreimal für tot erklärt — und kam jedes Mal wieder.

1837Meilensteine

Babbages Analytical Engine: Die Idee des Computers

Die Geschichte der KI beginnt nicht mit Computern, sondern mit ihrer Idee. In den 1830er-Jahren entwarf der britische Mathematiker Charles Babbage die Analytical Engine und beschrieb sie 1837 erstmals ausführlich — auf dem Papier den ersten universellen, programmierbaren Rechner der Welt. Sein Entwurf war seiner Zeit um ein Jahrhundert voraus: Er besaß bereits ein Rechenwerk, das Babbage mill nannte, einen Speicher (store), die Programmierung über Lochkarten und sogar bedingte Sprünge — die Grundbausteine jedes heutigen Computers. Gebaut wurde die Maschine zu seinen Lebzeiten nie; sie war zu komplex für die Mechanik des 19. Jahrhunderts. Dennoch ist sie die ferne Ahnin jeder Rechenmaschine — und damit der Hardware, auf der künstliche Intelligenz überhaupt erst laufen kann. Zur ehrlichen Einordnung: Die Analytical Engine blieb ein unvollendeter Entwurf, und sie war ein Rechner, keine denkende Maschine. Sie lieferte das Fundament, das Rechnen — nicht die Intelligenz.

In den 1830er-Jahren entwarf der britische Mathematiker Charles Babbage die Analytical Engine, die er 1837 erstmals beschrieb — die erste Konstruktion eines universellen, programmierbaren Rechners.

Sein Entwurf hatte bereits die Bausteine heutiger Computer: ein Rechenwerk (mill), einen Speicher (store), Programmierung per Lochkarten und sogar bedingte Sprünge.

Babbages Maschine war die ferne Ahnin jedes Computers — und damit der Hardware, auf der KI überhaupt erst laufen kann.

Anti-Hype: Die Analytical Engine wurde zu Babbages Lebzeiten nie fertig gebaut — sie blieb ein Entwurf auf dem Papier. Und sie war ein Rechner, keine KI: das Fundament, nicht das Denken selbst.

Personen:Charles Babbage

1843Publikationen

Ada Lovelace: Das erste Programm — und eine kühne Vision

Charles Babbage hatte die Maschine entworfen — doch erst Ada Lovelace erkannte, wozu sie wirklich fähig sein könnte. 1843 übersetzte die britische Mathematikerin einen Artikel über Babbages Analytical Engine und fügte eigene Anmerkungen hinzu, die den Originaltext an Umfang und Tiefe weit übertrafen. In ihrer Anmerkung G beschrieb sie ein Verfahren, mit dem die Maschine die sogenannten Bernoulli-Zahlen berechnen sollte — oft als das erste veröffentlichte Computerprogramm bezeichnet. Noch weitsichtiger war ihre zweite Einsicht: Die Maschine müsse sich nicht auf Zahlen beschränken, sondern könne Symbole jeder Art verarbeiten und sogar Musik komponieren. Damit dachte Lovelace die Idee der universellen Datenverarbeitung ein Jahrhundert zu früh. Zur ehrlichen Einordnung: Ob sie wirklich die erste Programmiererin war, ist umstritten — Babbage selbst hatte zuvor Programme skizziert, und die Bernoulli-Routine entstand im Austausch mit ihm. Zugleich meinte Lovelace, die Maschine könne nichts wahrhaft Neues aus sich heraus erschaffen — ein Einwand, dem Alan Turing 1950 ausdrücklich widersprach.

1843 übersetzte Ada Lovelace einen Artikel über Babbages Analytical Engine und ergänzte ihn um ausführliche eigene Anmerkungen, die den Originaltext weit übertrafen.

Ihre Anmerkung G enthält ein Verfahren zur Berechnung der Bernoulli-Zahlen — oft als das erste veröffentlichte Computerprogramm bezeichnet.

Visionär erkannte sie, dass die Maschine mehr als rechnen könnte: Sie könnte Symbole verarbeiten und sogar Musik komponieren — die Idee universeller Datenverarbeitung.

Anti-Hype: Ob Lovelace die erste Programmiererin war, ist umstritten (Babbage schrieb früher Programme; die Bernoulli-Routine entstand im Austausch mit ihm). Zudem meinte sie, die Maschine könne nichts wirklich Neues erschaffen — ein Einwand, dem Turing 1950 widersprach.

Personen:Ada Lovelace

1936Publikationen

Die Turing-Maschine: Was Rechnen überhaupt bedeutet

Bevor man fragen konnte, ob Maschinen denken, musste erst geklärt werden, was eine Maschine überhaupt berechnen kann. Diese Frage beantwortete der britische Mathematiker Alan Turing 1936 in seinem Aufsatz On Computable Numbers. Darin beschrieb er ein verblüffend einfaches gedankliches Modell — ein Band, ein Schreib-Lese-Kopf, ein paar Regeln —, das später Turing-Maschine genannt wurde. Mit ihr legte Turing exakt fest, was berechenbar ist und was nicht. Seine wichtigste Einsicht: Eine einzige universelle Turing-Maschine kann jede andere nachahmen. Das ist die theoretische Blaupause des Universalcomputers — einer Maschine, die mit dem richtigen Programm alles Berechenbare leisten kann. Damit wurde Turing zum Begründer der Informatik und schuf das Fundament, auf dem die Idee denkender Maschinen erst möglich wurde. Zur ehrlichen Einordnung: Die Turing-Maschine ist eine mathematische Idee, kein gebautes Gerät, und es ging um Berechenbarkeit, nicht um Intelligenz. Die Frage, ob Maschinen denken können, stellte Turing erst 1950. Den Namen Turing-Maschine prägten zudem andere.

1936 veröffentlichte Alan Turing den Aufsatz On Computable Numbers und beschrieb darin ein einfaches gedankliches Rechenmodell — die später so genannte Turing-Maschine.

Mit ihr legte Turing fest, was überhaupt berechenbar ist. Eine universelle Turing-Maschine kann jede andere nachahmen — die theoretische Blaupause des Universalcomputers.

Damit wurde Turing zum Begründer der Informatik. Dass eine einzige Maschine alles Berechenbare berechnen kann, ist die Grundlage dafür, dass Maschinen später denken lernen sollten.

Anti-Hype: Die Turing-Maschine ist eine mathematische Idee, kein Gerät — und es ging um Berechenbarkeit, nicht um Intelligenz. Ob Maschinen denken können, fragte Turing erst 1950. Den Namen prägten zudem andere.

Personen:Alan Turing

1943Publikationen

McCulloch & Pitts: Das erste künstliche Neuron

Dreizehn Jahre vor der Dartmouth-Konferenz, mitten im Krieg, erschien die eigentliche Geburtsurkunde der künstlichen neuronalen Netze. Der Neurophysiologe Warren McCulloch und der autodidaktische Logiker Walter Pitts — gerade zwanzig und ohne jeden akademischen Abschluss — veröffentlichten 1943 im Bulletin of Mathematical Biophysics das Paper „A Logical Calculus of the Ideas Immanent in Nervous Activity“. Ihre Idee war radikal einfach: Man kann ein Neuron als binäres Schaltelement beschreiben, das nach dem Alles-oder-Nichts-Prinzip feuert, sobald die Summe seiner Eingänge eine Schwelle übersteigt. Auf dem Fundament reiner Aussagenlogik bewiesen sie, dass Netze aus solchen Einheiten jede logische Funktion berechnen können — und dass Netze mit Rückkopplungsschleifen sogar eine Form von Gedächtnis besitzen. Im Schlussteil hielten sie fest, dass ihre Netze dasselbe berechnen können wie eine Turing-Maschine. Damit lieferten sie das erste mathematische Modell des Neurons als logische Recheneinheit. Der Haken, der das nächste Jahrzehnt prägen sollte: Ihr Neuron konnte nicht lernen.

Das erste mathematische Modell des Neurons als logische Recheneinheit: McCulloch und Pitts gossen die Funktionsweise des Nervensystems in formale Aussagenlogik.

Alles oder Nichts: Ein Neuron feuert, wenn die Summe seiner Eingänge eine Schwelle übersteigt. Netze solcher Einheiten berechnen jede logische Funktion; Rückkopplungsschleifen erzeugen Gedächtnis.

Die entscheidende Grenze: kein Lernen. Gewichte und Schwellen lagen fest, das Netz musste von Hand entworfen werden. Erst Hebb (1949) und Rosenblatts Perceptron (1957) brachten Lernregeln.

Die Wirkung reichte weit über die Biologie hinaus: von Neumanns Rechnerarchitektur (EDVAC, 1945), Wieners Kybernetik und letztlich jedes künstliche neuronale Netz fußen auf dieser Arbeit.

Personen:Warren S. McCulloch, Walter Pitts

Organisationen:University of Illinois, College of Medicine, University of Chicago

1948Publikationen

Shannons Informationstheorie: Das Bit wird geboren

1948 erschien bei den Bell Labs ein Aufsatz, der die digitale Welt begründete: Claude Shannons A Mathematical Theory of Communication. Shannon zeigte, wie sich Information mathematisch messen lässt — unabhängig von ihrer Bedeutung. Er führte das Bit als kleinste Einheit der Information ein und prägte den Begriff der Entropie: ein Maß dafür, wie viel Unsicherheit eine Nachricht im Durchschnitt auflöst. Damit legte er das Fundament für Datenkompression, fehlerfreie Übertragung und letztlich für jeden Computer. Für die KI ist das mehr als Vorgeschichte: Begriffe wie Kreuzentropie und Kullback-Leibler-Divergenz, die heute als Trainingsziele neuronaler Netze dienen, stammen direkt aus Shannons Theorie. Zur ehrlichen Einordnung: Shannon beschrieb die Übertragung von Nachrichten, nicht das Denken. Die Informationstheorie ist ein mathematisches Werkzeug, auf dem die KI aufbaut — sie ist nicht selbst künstliche Intelligenz.

1948 veröffentlichte Claude Shannon bei Bell Labs A Mathematical Theory of Communication und begründete die Informationstheorie.

Er führte das Bit als Maßeinheit der Information ein und definierte die Entropie — wie viel Unsicherheit eine Nachricht im Schnitt auflöst.

Für die KI zentral: Kreuzentropie und KL-Divergenz — direkt aus Shannons Theorie — sind heute Standard-Trainingsziele beim maschinellen Lernen.

Anti-Hype: Shannon beschrieb Nachrichtenübertragung, nicht Intelligenz. Die Informationstheorie ist ein Fundament, auf dem KI aufbaut — kein KI-Ergebnis. (Den Begriff Bit schlug Kollege John Tukey vor.)

Personen:Claude Shannon

Organisationen:Bell Labs

1949Publikationen

Hebbsche Regel: Wie Lernen im Gehirn entsteht

1949 veröffentlichte der kanadische Psychologe Donald Hebb das Buch The Organization of Behavior und stellte eine einfache, folgenreiche Idee vor: Wenn zwei verbundene Nervenzellen wiederholt gemeinsam feuern, verstärkt sich ihre Verbindung. Damit gab Hebb erstmals einen konkreten Mechanismus dafür an, wie Lernen auf der Ebene einzelner Synapsen funktionieren könnte. Für die KI wurde daraus ein Grundprinzip: Lernen bedeutet, die Stärke von Verbindungen anzupassen — genau das tun künstliche neuronale Netze, etwa die späteren Hopfield-Netze. Zur ehrlichen Einordnung: Der berühmte Merksatz, dass Nervenzellen die zusammen feuern sich zusammen verdrahten, stammt gar nicht von Hebb — er wird der Neurowissenschaftlerin Carla Shatz zugeschrieben (1992). Und Hebbs Regel allein erklärt noch kein modernes Deep Learning, denn ihr fehlt die gezielte Fehlerkorrektur.

1949 veröffentlichte der Psychologe Donald Hebb The Organization of Behavior und formulierte, wie Lernen im Gehirn auf Ebene der Synapsen funktionieren könnte.

Hebbs Regel: Feuern zwei verbundene Nervenzellen wiederholt gemeinsam, verstärkt sich ihre Verbindung.

Die Idee — Lernen heißt, Verbindungsstärken anzupassen — wurde zum Grundprinzip lernender neuronaler Netze (etwa bei Hopfield-Netzen).

Anti-Hype: Der berühmte Merksatz (Zellen, die zusammen feuern, verdrahten sich zusammen) stammt nicht von Hebb, sondern wird Carla Shatz zugeschrieben (1992). Hebbs Regel allein erklärt noch kein modernes Deep Learning — dafür fehlt die Fehlerkorrektur.

Personen:Donald Hebb

1950Publikationen

Turing Test: Das Imitation Game

Die philosophische Grundlage für maschinelle Intelligenz und der erste KI-Benchmark. 1950 veröffentlichte Alan Turing das Paper ‚Computing Machinery and Intelligence‘ in Mind und stellte die Frage ‚Können Maschinen denken?‘ neu. Statt philosophischer Definitionen schlug Turing das praktische ‚Imitation Game‘ vor: Ein menschlicher Evaluator beurteilt Texttranskripte von Konversationen zwischen einem Menschen und einer Maschine. Der Evaluator versucht, die Maschine zu identifizieren – die Maschine besteht den Test, wenn der Evaluator sie nicht zuverlässig unterscheiden kann. Entscheidend ist nicht die Korrektheit der Antworten, sondern wie sehr sie menschlichen Antworten ähneln. Dieser Test der Ununterscheidbarkeit lässt sich auf alle menschlichen Leistungen verallgemeinern, verbal wie nonverbal (Robotik). Turings verhaltensbasierter Ansatz etablierte das konzeptuelle Fundament für die gesamte KI-Forschung und beeinflusste ELIZA, ChatGPT und alle modernen Conversational AI-Systeme.

Test der Ununterscheidbarkeit: Evaluator versucht, Maschine von Mensch per Textkonversation zu unterscheiden

Verlagerte Fokus von philosophischen Definitionen zu verhaltensbasierten Demonstrationen von Intelligenz

Stellte fundamentale Frage 'Können Maschinen denken?' und schlug operationalen Ansatz vor

Etablierte ersten KI-Benchmark und beeinflusste alle nachfolgenden Conversational AI-Entwicklungen

Personen:Alan Turing

Organisationen:University of Manchester, Mind Journal

1956Durchbrüche

Logic Theorist: Das erste schlussfolgernde Programm

Im selben Sommer, in dem in Dartmouth der Begriff „Künstliche Intelligenz“ geprägt wurde, führten Allen Newell, Herbert Simon und der oft vergessene Programmierer Cliff Shaw etwas vor, das man gern „das erste KI-Programm“ nennt — mit einer Fußnote. Ihr Logic Theorist bewies mathematische Lehrsätze: Er nahm sich die Aussagenlogik aus Whitehead und Russells „Principia Mathematica“ vor und fand für 38 der ersten 52 Theoreme selbstständig Beweise. Bemerkenswert war das Wie: Statt stur alle Möglichkeiten durchzuprobieren, suchte das Programm heuristisch — es schätzte ab, welche Schritte lohnen, und arbeitete vom Ziel rückwärts. Für einen Satz fand es sogar einen kürzeren Beweis als das Original; Berichten zufolge reagierte Russell erfreut, während eine Fachzeitschrift den eingereichten Beweis ablehnte. Geschrieben war alles in IPL, einer Listen-Sprache, die McCarthys LISP vorwegnahm. Die Einschränkung: Spiele-Programme wie Samuels Dame liefen schon vorher — der Logic Theorist war das erste, das gezielt menschliches Schlussfolgern auf einer offenen Denkaufgabe nachbilden sollte.

Oft „das erste KI-Programm“ genannt — präziser: das erste Programm, das menschliches Schlussfolgern auf einer offenen Denkaufgabe nachbilden sollte (Spiele-Programme kamen davor).

Heuristische Suche statt roher Gewalt: vom Ziel rückwärts, mit Abschätzung lohnender Schritte (Einsetzen, Abtrennen, Verketten) — inspiriert von Pólyas Heuristik.

Bewies 38 der ersten 52 Theoreme aus Kapitel 2 der „Principia Mathematica“ — für einen Satz sogar kürzer als das Original.

Geschrieben in der Listen-Sprache IPL (maßgeblich von Shaw), die McCarthys LISP beeinflusste; der heuristische Ansatz führte direkt zum General Problem Solver (1957).

Personen:Allen Newell, Herbert A. Simon, John Clifford Shaw

Organisationen:RAND Corporation, Carnegie Institute of Technology

1956Konferenzen

Dartmouth-Konferenz: Geburtsstunde der KI

Der historische Moment, als Künstliche Intelligenz als Forschungsfeld geboren wurde. Vom 18. Juni bis 17. August 1956 fand am Dartmouth College die erste AI Summer Research Conference statt. John McCarthy, Marvin Minsky, Nathaniel Rochester und Claude Shannon hatten eine kühne Vision: ‚Jeder Aspekt des Lernens oder jedes andere Merkmal der Intelligenz kann so präzise beschrieben werden, dass eine Maschine es simulieren kann.' In diesem acht Wochen währenden Workshop prägte McCarthy den Begriff ‚Artificial Intelligence' und legte damit den Grundstein für eine neue Wissenschaftsdisziplin. Manche Teilnehmer kamen nur für wenige Wochen, andere blieben durchgängig: Herbert Simon und Allen Newell etwa demonstrierten in den ersten Wochen ihren Logic Theorist, während Ray Solomonoff die vollen acht Wochen vor Ort war – diskutiert wurde im obersten Stock des Mathematik-Departments. Aus dieser Konferenz entstanden die drei historischen KI-Zentren: Carnegie Mellon mit Newell und Simon, MIT mit Minsky und Stanford mit McCarthy.

Geburtsstunde der KI als eigenständige Forschungsdisziplin durch 8-wöchigen Workshop mit führenden Denkern

John McCarthy prägte den Begriff 'Artificial Intelligence' und definierte damit ein neues Forschungsfeld

Etablierte Forschungsprogramm: Maschinensprache, Abstraktion, Problemlösung und Selbstverbesserung

Versammelte die KI-Gründerväter: McCarthy, Minsky, Shannon, Rochester und den späteren Nobelpreisträger Herbert Simon

Personen:John McCarthy, Marvin Minsky, Nathaniel Rochester, Claude Shannon

Organisationen:Dartmouth College, IBM, Bell Labs

1957Publikationen

Perceptron: Das erste lernende neuronale Netzwerk

Die Geburt des maschinellen Lernens durch das erste trainierbare künstliche Neuron. 1957 entwickelte Frank Rosenblatt am Cornell Aeronautical Laboratory das Perceptron – das erste neuronale Netzwerk, das aus Erfahrung lernen konnte. Im Januar 1957 veröffentlichte er den technischen Report „The Perceptron: A Perceiving and Recognizing Automaton“ (Project PARA, Report 85-460-1). Die formale wissenschaftliche Publikation erfolgte im November 1958 in Psychological Review. Inspiriert von biologischen Neuronen kombinierte das Perceptron gewichtete Eingaben über eine Heaviside-Sprungfunktion zu binären Ausgaben. Die innovative Perceptron-Lernregel korrigierte die Gewichte immer dann, wenn ein Beispiel falsch klassifiziert wurde – ein früher Vorläufer des Lernens in modernen neuronalen Netzen (und nicht mit der späteren Delta-Regel von Widrow und Hoff, 1960, zu verwechseln). Zunächst auf einem IBM 704 simuliert und 1958 öffentlich angekündigt, wurde die Mark-I-Perceptron-Hardware erst um 1960 fertiggestellt. Obwohl auf linear separierbare Probleme beschränkt, legte das Perceptron das konzeptuelle Fundament für alle nachfolgenden neuronalen Architekturen.

Erstes trainierbare künstliches Neuron mit gewichteten Eingaben und Heaviside-Sprungfunktion

Binäre Klassifikation durch Schwellwert-Entscheidung, effektiv für linear separierbare Muster

Frank Rosenblatts Perceptron-Lernregel korrigierte die Gewichte bei jeder Fehlklassifikation und ermöglichte so automatisches Lernen

Beschränkung auf linear separierbare Probleme führte später zur XOR-Kritik von Minsky und Papert

Personen:Frank Rosenblatt

Organisationen:Cornell Aeronautical Laboratory, US Navy

1958Durchbrüche

LISP: Die Sprache der KI

1958 entwarf John McCarthy am MIT eine Programmiersprache, die das symbolische Rechnen ins Zentrum stellte: LISP, kurz für List Processing. Statt vor allem Zahlen zu verarbeiten, manipulierte LISP Listen von Symbolen — genau das, was die symbolische KI brauchte. Über Jahrzehnte wurde LISP zur Sprache der KI-Forschung: Expertensysteme, Sprachverarbeitung und Planungssysteme entstanden in ihr. McCarthys Sprache führte zudem Ideen ein, die heute selbstverständlich sind: Rekursion, automatische Speicherbereinigung (Garbage Collection), Funktionen als Daten und die interaktive Auswertung. Steve Russell setzte McCarthys theoretischen eval-Mechanismus als ersten Interpreter um — und machte LISP damit lauffähig. Zur ehrlichen Einordnung: LISP war nicht die erste höhere Programmiersprache (Fortran kam 1957), aber es ist die zweitälteste noch genutzte — und für die KI die prägendste.

John McCarthy entwarf LISP 1958 am MIT für symbolisches Rechnen (Listen statt Zahlen) — über Jahrzehnte DIE Sprache der KI-Forschung (Expertensysteme, NLP, Planung).

Führte Ideen ein, die heute Standard sind: Rekursion, automatische Garbage Collection, Funktionen als Daten, interaktive Auswertung (REPL).

Knüpfte an die Listen-Verarbeitung von IPL an; Steve Russell setzte McCarthys eval als ersten Interpreter um und machte LISP lauffähig.

Anti-Hype: nicht die erste höhere Sprache (Fortran 1957 kam zuvor) — aber die zweitälteste noch genutzte und für die KI die prägendste.

Personen:John McCarthy, Steve Russell

Organisationen:MIT

1959Durchbrüche

Arthur Samuel: Selbstlernende KI & der Begriff „Machine Learning“

Einige Jahre vor der Dartmouth-Konferenz brachte Arthur Samuel bei IBM einer Maschine das Dame-Spielen bei — und ihr zugleich das Lernen. Sein Programm lief ab 1952 auf der IBM 701; entscheidend aber war, was 1959 in seinem Aufsatz „Some Studies in Machine Learning Using the Game of Checkers“ stand. Das Programm verbesserte sich selbst: Es spielte zehntausende Partien gegen sich selbst und justierte die Gewichte seiner Bewertungsfunktion anhand der Ergebnisse. Im Titel dieses Aufsatzes erscheint der Begriff „Machine Learning“ erstmals belegt in seiner heutigen Bedeutung — Samuel gilt als sein Namensgeber. Richard Sutton würdigte Samuels Selbstspiel später als früheste Anwendung des Temporal-Difference-Lernens, das im Kern des modernen Reinforcement Learning steckt. Die Fernseh-Demonstration von 1956 und ein vielzitierter Sieg gegen einen vermeintlichen Meisterspieler machten Schlagzeilen — beides wurde jedoch kräftig überzeichnet: Gegen die wirklich starken Spieler verlor das Programm klar, und vollständig gelöst wurde Dame erst Jahrzehnte später.

Im Titel seines Aufsatzes von 1959 verwendete Samuel den Begriff „Machine Learning“ — die erste belegte Nutzung in der heutigen Bedeutung; er gilt als Namensgeber.

Das erste öffentlich vorgeführte selbstlernende Programm: Es justierte die Gewichte seiner Bewertungsfunktion selbst und merkte sich Stellungen (Rote Learning).

Durch zehntausende Partien gegen sich selbst nahm es das Selbstspiel vorweg, das später AlphaZero perfektionierte — für Sutton die früheste Anwendung des Temporal-Difference-Lernens.

Anti-Hype: Der gefeierte Sieg von 1962 galt einem überschätzten Gegner; gegen Weltklasse verlor das Programm. Vollständig gelöst wurde Dame erst 2007 (Chinook).

Personen:Arthur Lee Samuel

Organisationen:IBM

1965Meilensteine

DENDRAL: Pionier der Expertensysteme

Mitte der 1960er nahm die KI eine entscheidende Abzweigung. An der Stanford University begannen Edward Feigenbaum und der Genetiker und Nobelpreisträger Joshua Lederberg mit DENDRAL — einem Programm, das oft als erstes Expertensystem gilt und in jedem Fall das erste war, das KI auf wissenschaftliches Schließen anwandte. Statt wie frühere Systeme allgemein zu suchen, nutzte DENDRAL das Fachwissen menschlicher Chemiker: Aus den Daten eines Massenspektrometers leitete es die Struktur organischer Moleküle ab. Die Lehre daraus prägte ein Jahrzehnt der KI — Wissen ist Macht. Nicht der cleverste allgemeine Algorithmus gewinnt, sondern derjenige, der über die meiste Fachkenntnis verfügt. DENDRAL ebnete damit den Weg für den Expertensystem-Boom der 1980er. Zur ehrlichen Einordnung: DENDRAL selbst war ein über viele Jahre laufendes, erfolgreiches Forschungsprojekt — kein einzelnes Produkt. Doch seine Methode, alles Wissen mühsam von Hand einzugeben, wurde später zur Achillesferse: Sie machte die kommerziellen Expertensysteme der 1980er brüchig und teuer und trug so zum KI-Winter bei.

Ab Mitte der 1960er entwickelten Edward Feigenbaum, Joshua Lederberg und Kollegen an der Stanford University DENDRAL — oft als erstes Expertensystem bezeichnet und das erste, das KI auf wissenschaftliches Schließen anwandte.

DENDRAL leitete aus Massenspektrometrie-Daten die Struktur organischer Moleküle ab — mit dem Fachwissen menschlicher Chemiker statt mit allgemeiner Suche.

Die Lehre: Wissen ist Macht. Statt allgemeiner Problemlöser setzte die KI nun auf eng begrenzte, wissensreiche Domänen — der Beginn der Expertensysteme.

Anti-Hype: DENDRAL selbst war ein jahrelanges, erfolgreiches Projekt. Doch seine Methode — von Hand kodiertes Wissen — wurde zur Schwäche der kommerziellen Expertensysteme der 1980er und trug zum KI-Winter bei.

Personen:Edward Feigenbaum, Joshua Lederberg, Bruce Buchanan

Organisationen:Stanford University

1965Publikationen

Fuzzy Logic: Logik der Unschärfe

Ein wichtiger mathematischer Durchbruch für den Umgang mit Ungewissheit und approximativem Schließen. 1965 veröffentlichte Lotfi Zadeh an der UC Berkeley das wegweisende Paper 'Fuzzy Sets' – eine Antwort auf die Unfähigkeit der klassischen Logik, mit vagen und unvollständigen Informationen umzugehen. Seine Innovation lag in der Erkenntnis, dass Menschen Entscheidungen auf Basis unpräziser, nicht-numerischer Informationen treffen. Fuzzy Logic erlaubt Zugehörigkeitsgrade zwischen 0 und 1, im Gegensatz zur binären Ja/Nein-Logik. Mit inzwischen über 100.000 Zitierungen wurde Zadehs Arbeit zur Grundlage für Soft Computing und moderne KI-Ansätze. Die 'präzise Logik der Unpräzision' ermöglichte es, Ungewissheit, Unvollständigkeit und widersprüchliche Informationen mathematisch zu modellieren. Fuzzy Logic fand Anwendung in Expertensystemen, Kontrollsystemen und später in modernen KI-Architekturen für unscharfe Entscheidungsprozesse.

Lotfi Zadehs 1965er Paper 'Fuzzy Sets' mit über 100.000 Zitierungen veränderte den Umgang mit Ungewissheit erheblich

Ermöglichte mathematische Modellierung von Vagheit, Unvollständigkeit und widersprüchlichen Informationen

Fand Anwendung in Expertensystemen, Kontrollsystemen und approximativen Entscheidungsprozessen

Legte Grundstein für Soft Computing und moderne KI-Ansätze zum Umgang mit imperfekter Information

Personen:Lotfi Zadeh

Organisationen:UC Berkeley, Information and Control

1966Durchbrüche

ELIZA: Der erste Chatbot

Die Geburt der Mensch-Maschine-Konversation und ein unbeabsichtigtes Experiment über menschliche Psychologie. Etwa von 1964 bis 1966 entwickelte Joseph Weizenbaum am MIT ELIZA – das erste Programm, das explizit für Gespräche mit Menschen entworfen wurde. Mit erstaunlich schlankem Code und einfacher Pattern-Matching-Technologie simulierte ELIZA Gespräche, besonders in der DOCTOR-Variante als Rogerian Therapeut. Die Überraschung lag nicht in der Technik, sondern in der menschlichen Reaktion: Nutzer, einschließlich Weizenbaums eigener Sekretärin, entwickelten emotionale Bindungen zum Programm und verlangten sogar Privatsphäre für ihre ‚Therapiesitzungen'. Weizenbaum beschrieb und kritisierte dieses Phänomen früh – die Tendenz, rudimentären Programmen menschliche Eigenschaften zuzuschreiben. Der Begriff ‚ELIZA-Effekt' selbst wurde allerdings erst später, in den 1990er-Jahren, geprägt und popularisiert. ELIZA bewies die Macht simpler Illusion und legte den Grundstein für alle modernen Chatbots.

Erstes Computerprogramm explizit für Mensch-Maschine-Konversation entwickelt, fertiggestellt 1966

Nutzte einfache Pattern-Matching- und Substitutions-Methodik – das Programm kam mit erstaunlich wenig Code aus

Erzeugte Illusion von Verständnis und emotionaler Intelligenz ohne echtes Sprachverständnis

Machte den später so genannten ‚ELIZA-Effekt' sichtbar und warnte vor der Projektion menschlicher Eigenschaften auf rudimentäre Programme

Personen:Joseph Weizenbaum

Organisationen:MIT, MIT AI Laboratory

1969Publikationen

Perceptrons: Das Buch, das den KI-Winter mitauslöste

1969 veröffentlichten die MIT-Forscher Marvin Minsky und Seymour Papert das Buch Perceptrons. Mit mathematischer Strenge zeigten sie, was ein einlagiges Perzeptron — die einfachste Form eines neuronalen Netzes — kann und was nicht. Ihr berühmtestes Ergebnis: Ein solches Netz kann nicht einmal die simple XOR-Funktion lernen, weil sie sich nicht durch eine einzige Linie trennen lässt. Die Wirkung war enorm: Das Vertrauen in neuronale Netze brach ein, die Förderung versiegte für über ein Jahrzehnt — ein wichtiger Beitrag zum ersten KI-Winter. Zur ehrlichen Einordnung: Minsky und Papert widerlegten neuronale Netze keineswegs. Sie analysierten nur die einlagige Variante; mehrlagige Netze lösen XOR problemlos — was später, ab 1986, mit dem Backpropagation-Verfahren praktisch nutzbar wurde. Die Erzählung, das Buch habe die Forschung im Alleingang getötet, ist teils ein Mythos. Der Einbruch bei Geld und Aufmerksamkeit war aber sehr real.

1969 veröffentlichten Marvin Minsky und Seymour Papert Perceptrons und analysierten mathematisch, was einlagige Perzeptronen können — und was nicht.

Ihr berühmtes Ergebnis: Ein einlagiges Perzeptron kann die simple XOR-Funktion nicht lernen, weil sie nicht linear trennbar ist.

Das Buch gilt als Mitauslöser des ersten KI-Winters: Die Förderung neuronaler Netze versiegte für über ein Jahrzehnt.

Anti-Hype: Minsky und Papert widerlegten nicht neuronale Netze an sich — mehrlagige Netze lösen XOR (später per Backpropagation, 1986). Dass das Buch das Feld allein getötet habe, ist teils Mythos; der Förder-Einbruch war jedoch real.

Personen:Marvin Minsky, Seymour Papert

Organisationen:MIT

1969Durchbrüche

Shakey: Der erste intelligente mobile Roboter

Die Geburt der autonomen Robotik durch Integration von Reasoning, Planning und physischer Aktion. Von 1966 bis 1972 entwickelte Charles Rosens Team am SRI International Shakey - den ersten mobilen Roboter, der über seine eigenen Handlungen reflektieren konnte. Der 2 Meter hohe Roboter kombinierte TV-Kamera, Sonar-Entfernungsmesser, Prozessoren und 'Katzen-Schnurrhaare' als Stoßdetektoren zu einem autonomen System. Shakeys bemerkenswerte Fähigkeiten umfassten Umgebungswahrnehmung, Schlussfolgerungen aus impliziten Fakten, Planerstellung und Fehlerkompensation - alles steuerbar durch natürliche englische Sprache. Das von der ARPA (heute DARPA) finanzierte Projekt vereinte erstmals logisches Reasoning mit physischer Aktion und legte Grundlagen für autonome Systeme. Shakeys Innovationen führten zum A*-Suchalgorithmus, zu Visibility-Graph-Methoden und zur einflussreichen rechnergestützten Variante der Hough-Transformation (Duda & Hart, SRI 1972). 1970 nannte Life Magazine Shakey die 'erste elektronische Person'.

Erster mobiler Roboter der über eigene Handlungen reflektieren und komplexe Aufgaben eigenständig planen konnte

Kombinierte TV-Kamera, Sonar, Prozessoren und Sensoren zu autonomem mobilem System

Entwickelte STRIPS-Planning-System für automatische Aufgabenzerlegung und Routenfindung

Vereinte Computer Vision, Navigation und logisches Reasoning in einem physischen System

Personen:Charles Rosen, Nils Nilsson, Bertram Raphael

Organisationen:SRI International, DARPA

1970Meilensteine

SHRDLU: Sprache verstehen in der Klötzchenwelt

Um 1970 baute Terry Winograd am MIT ein Programm, das die Fachwelt verblüffte: SHRDLU. Man konnte ihm in einfachem Englisch Anweisungen geben — etwa, den roten Würfel auf den grünen Block zu setzen — und es führte sie in einer virtuellen Welt aus bunten Klötzen aus. SHRDLU verstand mehr als nur Befehle: Es löste mehrdeutige Sätze auf, erinnerte sich an Gesagtes, beantwortete Fragen zu seiner Welt und konnte sogar erklären, warum es etwas getan hatte. Für viele war es der beeindruckende Höhepunkt der symbolischen KI — der Beweis, dass Maschinen Sprache erstaunlich gut verstehen können. Zur ehrlichen Einordnung: SHRDLUs Verständnis funktionierte nur in seiner winzigen, geschlossenen Klötzchenwelt. Auf die echte, unübersichtliche Welt mit ihrem unendlichen Alltagswissen ließ es sich nicht übertragen. So wurde SHRDLU mit der Zeit zum Lehrstück über die Grenzen solcher Mikrowelten — Winograd selbst wandte sich später von diesem Ansatz ab.

Um 1970 baute Terry Winograd am MIT SHRDLU — ein Programm, das in einfachem Englisch Befehle verstand und eine virtuelle Klötzchenwelt manipulierte.

SHRDLU konnte mehrdeutige Sätze auflösen, sich an Gesagtes erinnern, Fragen beantworten und sogar erklären, warum es etwas getan hatte.

Es galt als beeindruckender Höhepunkt der symbolischen KI — der Beweis, dass Maschinen Sprache in einer begrenzten Welt erstaunlich gut verstehen.

Anti-Hype: SHRDLUs Verständnis funktionierte nur in seiner winzigen Klötzchenwelt. Auf die echte Welt ließ es sich nicht übertragen — ein Lehrstück über die Grenzen solcher Mikrowelten.

Personen:Terry Winograd

Organisationen:MIT

1970Publikationen

Hidden Markov Models etabliert

Das mathematische Fundament für Spracherkennung und Sequenzmodellierung. Von Ende der 1960er bis 1970 entwickelten Leonard Baum, Lloyd Welch und Ted Petrie bei der Institute for Defense Analyses die Hidden Markov Models und etablierten den Baum-Welch-Algorithmus. Diese statistischen Modelle modellierten versteckte Zustände in Sequenzen und lieferten einen der ersten praktikablen Ansätze, um latente Zustände in zeitabhängigen Daten zu erfassen. Ab Mitte der 1970er fanden HMMs ihre erste praktische Anwendung in der Spracherkennung durch James Baker bei Carnegie Mellon und später bei IBM. Die Methode transformierte die automatische Spracherkennung von simplen Template-Matching-Verfahren hin zu statistischen Ansätzen. HMMs wurden zum Standard für Sequenzmodellierung in zahlreichen Bereichen: von Bioinformatik über Finanzanalyse bis zur Gestenerkennung. Der Baum-Welch-Algorithmus, später als Spezialfall des 1977 allgemein formulierten Expectation-Maximization-Algorithmus erkannt, legte das Fundament für moderne probabilistische Machine Learning-Verfahren.

Baum-Welch-Algorithmus als Spezialfall der Expectation-Maximization für HMM-Parameter-Schätzung

Erste praktische Anwendung in Spracherkennung ab Mitte 1970er bei Carnegie Mellon und IBM

Transformierte Sequenzmodellierung von Template-Matching zu statistischen probabilistischen Ansätzen

Legte mathematisches Fundament für moderne probabilistische Machine Learning-Verfahren

Personen:Leonard Baum, Lloyd Welch, Ted Petrie

Organisationen:Institute for Defense Analyses

1972Meilensteine

Prolog: Programmieren mit Logik

1972 entstand an der Universität Marseille eine Programmiersprache, die ganz anders dachte als alle anderen: Prolog, kurz für Programmation en Logique. Ihre Schöpfer Alain Colmerauer und Philippe Roussel — gestützt auf die Theorie von Robert Kowalski — verfolgten eine bestechende Idee. Statt dem Computer Schritt für Schritt zu sagen, wie er etwas tun soll, beschreibt man in Prolog nur die Fakten und Regeln einer Welt. Den logischen Schluss zieht das System dann selbst. Prolog wurde zur wichtigsten Sprache der symbolischen KI: in Expertensystemen, in der Sprachverarbeitung und als Herzstück von Japans ehrgeizigem Fifth-Generation-Projekt. Zur ehrlichen Einordnung: Die logische Programmierung wurde nie das beherrschende Paradigma der KI. Japans Großprojekt, das ganz auf Prolog setzte, blieb deutlich hinter seinen Versprechen zurück. Und der Durchbruch verdankt sich ebenso der Theorie von Robert Kowalski wie der Sprache selbst.

1972 entwickelten Alain Colmerauer und Philippe Roussel an der Universität Marseille die Sprache Prolog — kurz für Programmation en Logique.

Prolog ist deklarativ: Man beschreibt Fakten und Regeln, und das System leitet selbst die logischen Schlüsse ab — statt Schritt für Schritt vorzugeben, wie.

Prolog wurde zur wichtigsten Sprache der logischen, symbolischen KI — in Expertensystemen, der Sprachverarbeitung und Japans Fifth-Generation-Projekt.

Anti-Hype: Die logische Programmierung wurde nie das dominierende KI-Paradigma; Japans darauf gebautes Fifth-Generation-Projekt blieb hinter den Erwartungen. Wichtig war auch die Theorie von Robert Kowalski, nicht nur die Sprache.

Personen:Alain Colmerauer, Philippe Roussel, Robert Kowalski

Organisationen:University of Aix-Marseille

1974Meilensteine

Der erste KI-Winter

Eine Zeit drastischer Kürzungen der Forschungsgelder und schwindendes Vertrauen in die Künstliche Intelligenz. Nach übertriebenen Versprechungen der 1960er Jahre folgte die bittere Realität: KI-Programme konnten nur triviale Versionen der Probleme lösen, die sie eigentlich bewältigen sollten. In Großbritannien lieferte der Lighthill-Report von 1973 eine vernichtende Kritik, woraufhin der Science Research Council die Förderung ungerichteter KI-Forschung zurückfuhr. In den USA wandte sich die DARPA – angestoßen vom Mansfield-Amendment – über mehrere Jahre von zweckungebundener Forschung ab; der scharfe Einschnitt bei der Sprachverständnis-Förderung traf 1974/75 das Projekt an Carnegie Mellon und führte zur Kündigung eines 3-Millionen-Dollar-Vertrags. Dieser Winter dauerte bis etwa 1980 und lehrte die KI-Gemeinschaft eine wichtige Lektion: Realistische Erwartungen sind der Schlüssel für nachhaltigen Fortschritt.

DARPA in den USA und der britische Science Research Council fuhren Mitte der 1970er die Förderung ungerichteter KI-Forschung drastisch zurück

Professor James Lighthill kritisierte 1973 scharf die KI-Forschung für das Verfehlen ihrer Ziele und wies auf das Problem der kombinatorischen Explosion hin

DARPA kündigte den 3-Millionen-Dollar-Vertrag mit Carnegie Mellon für Sprachverständnissysteme nach enttäuschenden Ergebnissen

KI-Programme der frühen 1970er waren auf triviale Versionen echter Probleme beschränkt und wirkten wie intelligente 'Spielzeuge'

Personen:James Lighthill, J.C.R. Licklider, Hans Moravec

Organisationen:DARPA, British Science Research Council, Carnegie Mellon University

1980Publikationen

Neocognitron: Der Urahn der CNNs

1980 stellte der japanische Forscher Kunihiko Fukushima ein neuronales Netz vor, das seiner Zeit weit voraus war: das Neocognitron. Sein Vorbild war die Natur — genauer der Sehkortex, wie ihn die Nobelpreisträger Hubel und Wiesel an Katzen erforscht hatten. Dort verarbeiten einfache und komplexe Zellen visuelle Reize stufenweise. Fukushima baute dieses Prinzip nach: ein mehrschichtiges Netz, das Merkmale Schicht für Schicht erkennt — und zwar unabhängig davon, wo im Bild sie auftauchen. Damit nahm das Neocognitron die Kernideen heutiger Convolutional Neural Networks vorweg, jener Netze, die seit 2012 die Bilderkennung beherrschen. Zur ehrlichen Einordnung: Das Neocognitron nutzte noch keine Backpropagation und ließ sich nicht so trainieren wie moderne CNNs. Erst die Backpropagation (1986) und Yann LeCuns LeNet (1989) machten aus der Architektur praktisch lernfähige Netze. Fukushimas Pionierrolle wird bis heute oft unterschätzt.

1980 stellte Kunihiko Fukushima das Neocognitron vor — ein mehrschichtiges neuronales Netz für die Mustererkennung.

Vorbild war der Sehkortex (Hubel und Wiesel): einfache und komplexe Zellen, die Merkmale stufenweise und unabhängig von ihrer Position erkennen.

Damit nahm das Neocognitron die Kernideen heutiger Convolutional Neural Networks vorweg — lokale Merkmalsfilter und hierarchische Verarbeitung. LeCuns LeNet (1989) baute darauf auf.

Anti-Hype: Das Neocognitron nutzte noch keine Backpropagation. Erst Backpropagation (1986) und LeNet (1989) machten daraus praktisch lernfähige Netze. Fukushimas Pionierrolle wird oft unterschätzt.

Personen:Kunihiko Fukushima

Organisationen:NHK Broadcasting Science Research Laboratories

1980Meilensteine

Expertensystem-Ära der 1980er

Die 1980er Jahre markieren die Blütezeit der Expertensysteme, als KI erstmals kommerziell erfolgreich wird. Unternehmen weltweit adoptieren diese regelbasierten KI-Programme, die menschliches Expertenwissen in spezialisierten Domänen nachbilden. Die KI-Industrie wächst von wenigen Millionen Dollar 1980 auf Milliarden 1988. Zwei Drittel der Fortune-500-Unternehmen setzen die Technologie ein. Systeme wie MYCIN erreichen in Studien eine Akzeptanzrate von rund 65% für ihre Therapieempfehlungen – auf Augenhöhe mit Fakultäts-Experten, auch wenn MYCIN nie klinisch eingesetzt wird. Doch der Boom endet im klassischen Muster einer Wirtschaftsblase, als Dutzende Firmen scheitern und die Grenzen der Technologie deutlich werden.

KI-Industrie wächst von wenigen Millionen Dollar (1980) auf Milliarden (1988)

Zwei Drittel der Fortune-500-Unternehmen setzen Expertensysteme im Geschäftsalltag ein

MYCINs Therapievorschläge erreichen rund 65% Akzeptanz – vergleichbar mit menschlichen Fakultäts-Experten

Klassisches Muster einer Wirtschaftsblase: Boom gefolgt von massivem Crash

Personen:Edward Feigenbaum, Bruce Buchanan, Edward Shortliffe

Organisationen:Stanford University, Fortune 500 Companies

1982Publikationen

Hopfield-Netzwerke: Assoziatives Gedächtnis

Die Wiedergeburt neuronaler Netzwerke durch assoziative Speicherfähigkeiten. 1982 veröffentlichte John Hopfield das wegweisende Paper 'Neural networks and physical systems with emergent collective computational abilities' in PNAS. Seine Innovation lag in der Verbindung von Neurobiologie und statistischer Physik: Hopfield-Netzwerke funktionieren als content-addressable memory, das vollständige Muster aus unvollständigen oder verrauschten Eingaben rekonstruiert. Die rekurrente Architektur mit symmetrischen bidirektionalen Verbindungen konvergiert zu Fixpunkt-Attraktoren durch eine Lyapunov-Energiefunktion. Das System 'rollt bergab' zur nächsten gespeicherten Erinnerung. Hopfields Arbeit entfachte das Interesse an neuronalen Netzwerken neu und legte das theoretische Fundament für moderne RNNs. Die Hebbsche Lernregel ermöglichte das assoziative Speichern von Mustern – ein Durchbruch für das Verständnis biologischer und künstlicher Gedächtnissysteme.

Content-addressable memory das vollständige Muster aus unvollständigen oder verrauschten Eingaben rekonstruiert

Rekurrente Architektur mit symmetrischen bidirektionalen Verbindungen und emergenten kollektiven Eigenschaften

Lyapunov-Energiefunktion führt System zu Fixpunkt-Attraktoren durch 'Bergab-Rollen' zur gespeicherten Erinnerung

Entfachte Interesse an neuronalen Netzwerken neu und legte Grundstein für moderne RNN-Entwicklung

Personen:John Hopfield

Organisationen:California Institute of Technology, Bell Laboratories

1986Publikationen

Backpropagation-Algorithmus

Die Geburt des modernen maschinellen Lernens durch einen eleganten Trainingsalgorithmus. Im Oktober 1986 veröffentlichten David Rumelhart, Geoffrey Hinton und Ronald Williams in Nature das Paper 'Learning representations by back-propagating errors'. Dieser Algorithmus veränderte das Training neuronaler Netzwerke erheblich, indem er eine effiziente Methode zur Gewichtsanpassung in mehrschichtigen Netzen bereitstellte. Das Verfahren passt wiederholt die Verbindungsgewichte an, um die Differenz zwischen tatsächlicher und gewünschter Ausgabe zu minimieren. Die entscheidende Innovation lag in der Fähigkeit, versteckte Schichten zu trainieren, die wichtige Merkmale der Aufgabe automatisch erkennen. Die mathematischen Grundlagen waren bereits zuvor hergeleitet worden – etwa von Paul Werbos (1974) und Seppo Linnainmaa (1970) –, doch erst dieses Paper machte Backpropagation breit bekannt und demonstrierte überzeugend ihre Wirkung. Backpropagation wurde zum Arbeitspferd des maschinellen Lernens und ermöglicht heute alle modernen Deep Learning-Anwendungen.

Veröffentlicht in Nature am 9. Oktober 1986 als 'Learning representations by back-propagating errors'

Machte effizientes Training mehrschichtiger neuronaler Netzwerke durch Gradient-Berechnung praktisch nutzbar und breit bekannt

Versteckte Schichten lernten automatisch wichtige Merkmale zu erkennen – ein wichtiger Fortschritt gegenüber Perzeptronen

Legte das mathematische Fundament für alle modernen Deep Learning-Anwendungen und Transformer-Architekturen

Personen:David Rumelhart, Geoffrey Hinton, Ronald Williams

Organisationen:University of California San Diego, Carnegie Mellon University, Nature

1987Meilensteine

Der zweite KI-Winter

Der Zusammenbruch des spezialisierten KI-Hardware-Marktes und das Scheitern der Expertensysteme. 1987 brach der Markt für Lisp-Maschinen zusammen, als Apple- und IBM-Computer kostengünstiger und leistungsfähiger wurden als die teuren AI-spezifischen Systeme. Expertensysteme wie XCON erwiesen sich als zu wartungsintensiv und inflexibel für reale Anwendungen. Jack Schwartz, der neue IPTO-Leiter, bezeichnete Expertensysteme als 'clevere Programmierung' und kürzte die KI-Finanzierung 'tief und brutal'. Der Niedergang der Lisp-Maschinenhersteller zog sich über die folgenden Jahre hin - der Marktführer Symbolics meldete erst 1993 Insolvenz an -, was zu einem längeren und tiefgreifenderen Winter führte als der erste von 1974. Dieser Winter dauerte bis etwa 1993 und beendete den kommerziellen Hype um Expertensysteme und spezialisierte KI-Hardware - die symbolische KI als Forschungsrichtung blieb jedoch bestehen.

Der Markt für spezialisierte Lisp-Maschinen brach 1987 zusammen, da Apple- und IBM-Computer kostengünstiger und leistungsfähiger wurden

Expertensysteme wie XCON erwiesen sich als zu wartungsintensiv, starr und unfähig mit neuen Daten umzugehen

Jack Schwartz kürzte die KI-Finanzierung bei DARPA 'tief und brutal' und bezeichnete Expertensysteme als 'clevere Programmierung'

Die Kosten für AI-spezifische Hardware überwogen die versprochenen geschäftlichen Erträge bei weitem

Personen:Jacob T. Schwartz, Marvin Minsky, Roger Schank

Organisationen:DARPA, IPTO, Symbolics, Lisp Machines Inc, XCON

1987Datensätze

UCI ML Repository: Die Datensatz-Bibliothek

Die Demokratisierung der Machine Learning-Forschung durch standardisierte Benchmark-Datensätze. 1987 gründete UCI-PhD-Student David Aha mit Kommilitonen das UCI Machine Learning Repository als FTP-Archiv – eine Sammlung von Datenbanken, Domänen-Theorien und Daten-Generatoren für empirische ML-Algorithmus-Analyse. Diese Initiative adressierte den kritischen Mangel an standardisierten, frei verfügbaren Datensätzen für die wachsende ML-Community. Das Repository wurde zur primären Quelle für ML-Datensätze weltweit und ermöglichte Studenten, Lehrenden und Forschern den Zugang zu qualitativ hochwertigen Benchmarks. Über die Jahre wurde es zehntausendfach zitiert und zählt damit zu den meistgenutzten Ressourcen der gesamten Informatik. Heute verwaltet vom Center for Machine Learning and Intelligent Systems bietet UCI ML Repository Datensätze aus Healthcare, Finanzwesen und zahllosen anderen Domänen. Das Repository demokratisierte ML-Bildung und -Forschung fundamental.

1987 als FTP-Archiv von David Aha und UCI-Studenten für empirische ML-Algorithmus-Analyse gegründet

Wurde zur primären Quelle für ML-Datensätze für Studenten, Lehrende und Forscher weltweit

Zehntausendfach zitiert – eine der meistgenutzten Datensatz-Ressourcen der gesamten Informatik

Demokratisierte ML-Forschung durch Zugang zu standardisierten, qualitativ hochwertigen Benchmark-Datensätzen

Personen:David Aha, Patrick Murphy

Organisationen:University of California Irvine, UCI

1988Publikationen

Bayessche Netze: Schließen unter Unsicherheit

Während neuronale Netze und Expertensysteme um Aufmerksamkeit rangen, baute Judea Pearl an der UCLA an einer dritten großen Säule der KI: dem Schließen unter Unsicherheit. In seinem Buch Probabilistic Reasoning in Intelligent Systems (1988) machte er Bayessche Netze populär — Graphen, in denen Knoten Variablen sind und Kanten ihre wahrscheinlichkeitsbasierten Abhängigkeiten. Statt der starren Wenn-dann-Regeln und ad-hoc-Sicherheitsfaktoren der Expertensysteme erlaubten sie es, Wissen und Unsicherheit sauber zu kombinieren und effizient daraus zu folgern. Bayessche Netze prägten KI und maschinelles Lernen der 1990er und 2000er; Pearl erhielt 2011 den Turing Award und wandte sich später der kausalen Inferenz zu — dem Warum hinter den Daten. Zur ehrlichen Einordnung: Das Bayes-Theorem selbst stammt aus dem 18. Jahrhundert; Pearls Leistung war nicht, die Wahrscheinlichkeit zu erfinden, sondern das probabilistische Schließen für die KI strukturierbar und berechenbar zu machen.

Judea Pearl (UCLA) etablierte das Schließen unter Unsicherheit als eine dritte Säule der KI — neben Symbolik und neuronalen Netzen.

Bayessche Netze: Graphen aus Variablen (Knoten) und wahrscheinlichkeitsbasierten Abhängigkeiten (Kanten) — ersetzten ad-hoc-Sicherheitsfaktoren durch sauberes, effizientes Schließen.

Prägte das maschinelle Lernen der 1990er/2000er; Pearl erhielt 2011 den Turing Award und begründete später die moderne kausale Inferenz.

Anti-Hype: Das Bayes-Theorem stammt aus dem 18. Jahrhundert; Pearls Leistung war, probabilistisches Schließen für die KI strukturierbar und berechenbar zu machen — nicht, die Wahrscheinlichkeit zu erfinden.

Personen:Judea Pearl

Organisationen:UCLA

1989Publikationen

Universal Approximation Theorem

Der mathematische Beweis für die theoretische Macht neuronaler Netzwerke. 1989 veröffentlichten Kurt Hornik, Maxwell Stinchcombe und Halbert White das fundamentale Paper 'Multilayer feedforward networks are universal approximators' in Neural Networks. Ihr rigoroser Beweis zeigte: Bereits ein einziges Hidden Layer mit genügend Neuronen kann jede Borel-messbare Funktion beliebig genau approximieren. Diese theoretische Grundlage rechtfertigte den Einsatz neuronaler Netzwerke mathematisch und versicherte Forschern, dass ausreichend große Netzwerke komplexe, nicht-lineare Beziehungen realer Daten modellieren können. Parallel erschienen ähnliche Arbeiten von George Cybenko und Funahashi mit verschiedenen Techniken. Das Theorem etablierte die Universalität durch Verbreiterung des Hidden Layers und wurde zur theoretischen Säule für alle nachfolgenden Deep Learning-Entwicklungen. Hornik et al. schufen das mathematische Vertrauen, das die neuronale Netzwerk-Renaissance der 1990er ermöglichte.

Rigoroser mathematischer Beweis für universelle Approximationsfähigkeiten neuronaler Netzwerke

Ein Hidden Layer mit genügend Neuronen kann jede Borel-messbare Funktion beliebig genau approximieren (Cybenkos Parallelarbeit zeigte dies für stetige Funktionen)

Beweist Fähigkeit zur Modellierung komplexer, nicht-linearer Beziehungen in realen Daten

Lieferte mathematische Rechtfertigung für Neural Network-Einsatz und theoretische Vertrauensgrundlage

Personen:Kurt Hornik, Maxwell Stinchcombe, Halbert White

Organisationen:University of California San Diego

1989Durchbrüche

World Wide Web: Die Erfindung des WWW

Die Erfindung, die die Welt vernetzte und die Grundlage für moderne KI-Datenquellen schuf. Am 12. März 1989 reichte Tim Berners-Lee bei CERN seinen Vorschlag für ein „Information Management System“ ein – ursprünglich „Mesh“ genannt, später „World Wide Web“. Als britischer Wissenschaftler erkannte er die Notwendigkeit automatisierten Informationsaustauschs zwischen Wissenschaftlern weltweit. Bis Ende 1990 entwickelte er die drei fundamentalen Web-Technologien: HTML (Hypertext Markup Language), HTTP (Hypertext Transfer Protocol) und URI/URL. Der erste Web-Server info.cern.ch lief auf einem NeXT-Computer, zusammen mit dem ersten Browser/Editor „WorldWideWeb.app“. 1991 wurde das Web öffentlich zugänglich. Das exponentielle Wachstum von rund 10 Websites (1992) auf mehrere Hunderttausend (1996) schuf die Datengrundlage für spätere KI-Systeme. Ohne das Web gäbe es keine Common Crawl-Datensätze und keine Large Language Models.

Hypertext-Projekt mit verlinkten Dokumenten, Browsern und „Hot Spots“ – aufbauend auf älteren Hypertext-Ideen (Ted Nelson, Vannevar Bushs Memex), aber bewusst einfacher als Nelsons Xanadu

Information Management Proposal vom 12. März 1989 bei CERN für automatisierten Wissenschaftsaustausch

HTML, HTTP und URI/URL als fundamentale Web-Technologien bis Ende 1990 entwickelt

Schuf die Dateninfrastruktur für spätere Common Crawl-Sammlungen und Large Language Model-Training

Personen:Tim Berners-Lee

Organisationen:CERN

1989Publikationen

LeNet und die Geburt der CNNs

Die erste erfolgreiche Anwendung von Convolutional Neural Networks in der Praxis. 1989 kombinierte Yann LeCun bei AT&T Bell Labs erstmals Backpropagation mit einer CNN-Architektur für die Handschriftenerkennung. Dieses System – später als Urahn der LeNet-Familie bekannt – erkannte handgeschriebene Postleitzahlen für den US Postal Service mit beachtlicher Genauigkeit: rund 1% Fehler auf den Trainingsdaten und etwa 5% auf bislang ungesehenen Testdaten; durfte das Netz unsichere Fälle zurückweisen, sank der Fehler bei den verbleibenden Ziffern auf etwa 1%. Diese Leistung bewies die praktische Überlegenheit von CNNs gegenüber herkömmlichen Ansätzen und etablierte die Grundlage für moderne Computer Vision. Sie demonstrierte, dass neuronale Netzwerke nicht nur theoretische Konstrukte waren, sondern reale Geschäftsprobleme lösen konnten. Die Architektur durchlief mehrere Verbesserungsiterationen und mündete 1998 in LeNet-5 mit 99,05% Genauigkeit auf MNIST. Diese Arbeit legte den Grundstein für alle modernen CNN-Architekturen.

Erste erfolgreiche Kombination von Convolutional Neural Networks mit Backpropagation-Training

Erkannte handgeschriebene Postleitzahlen für den US Postal Service: rund 5% Fehler auf Testdaten, etwa 1% wenn unsichere Fälle zurückgewiesen werden durften

Yann LeCuns wegweisende Arbeit bei Bell Labs etablierte CNNs als praktikable Computer Vision-Lösung

Legte das Fundament für alle modernen CNN-Architekturen von AlexNet bis zu aktuellen Vision-Systemen

Personen:Yann LeCun, Bernhard Boser, John Denker

Organisationen:AT&T Bell Labs, NIPS

1992Durchbrüche

TD-Gammon: Lernen durch Spiel gegen sich selbst

Lange vor AlphaGo zeigte ein Programm bei IBM, wozu Reinforcement Learning fähig ist: 1992 stellte Gerald Tesauro TD-Gammon vor, ein neuronales Netz, das Backgammon spielen lernte. Das Bemerkenswerte war die Lernmethode. TD-Gammon trainierte fast ausschließlich, indem es Hunderttausende Partien gegen sich selbst spielte und aus dem Ausgang lernte — mit dem Temporal-Difference-Verfahren, das Vorhersagen schrittweise korrigiert. Niemand musste ihm gute Züge vormachen. Das Netz erreichte annähernd Weltklasse-Niveau und entdeckte sogar Eröffnungszüge, die menschliche Profis daraufhin selbst übernahmen. Zur ehrlichen Einordnung: So beeindruckend der Erfolg war, er ließ sich lange nicht auf andere Spiele übertragen. Ein Grund liegt im Würfel: Backgammon ist ein Glücksspiel, und der Zufall sorgt beim Üben von selbst für Abwechslung — ein Vorteil fürs Selbstspiel, den deterministische Spiele wie Schach oder Go nicht bieten.

1992 stellte Gerald Tesauro bei IBM TD-Gammon vor — ein neuronales Netz, das Backgammon spielen lernte.

Es lernte fast nur durch Spiele gegen sich selbst, mit dem Reinforcement-Learning-Verfahren Temporal Difference — ohne menschliche Partien als Vorlage.

TD-Gammon erreichte annähernd Weltklasse und entdeckte neue Eröffnungszüge, die Profis übernahmen — ein Vorbote von AlphaGo, fast 25 Jahre früher.

Anti-Hype: Der Erfolg ließ sich lange nicht auf andere Spiele übertragen. Der Würfel im Backgammon sorgt von selbst für Abwechslung beim Üben — ein Vorteil fürs Selbstspiel, den Schach oder Go nicht haben.

Personen:Gerald Tesauro

Organisationen:IBM

1992Publikationen

Q-Learning: Fundament des Reinforcement Learning

1992 veröffentlichten Chris Watkins und Peter Dayan den mathematischen Beweis für Q-Learning - einen Algorithmus, der die KI-Welt erheblich verändern sollte. Watkins hatte die Grundidee bereits 1989 in seiner Doktorarbeit „Learning from Delayed Rewards“ am King's College Cambridge entwickelt. Q-Learning löste ein fundamentales Problem: Wie kann ein Agent optimal handeln, ohne ein Modell seiner Umgebung zu benötigen? Die Antwort war elegant - durch schrittweise Optimierung einer Q-Funktion, die jedem Zustand-Aktion-Paar einen Wert zuweist. Der 1992er Konvergenzbeweis zeigte: Bei unendlicher Exploration findet Q-Learning garantiert die optimale Strategie für jedes endliche Markov-Entscheidungsproblem. Diese modellfreie Methode wurde zum Grundstein des modernen Reinforcement Learning. Von Robotik bis Finanzmärkten, von Spielen bis autonomen Systemen - Q-Learning ist überall. Ende 2013 stellte DeepMind mit Deep Q-Networks (DQN) eine tiefe Variante vor (Nature-Publikation 2015) und erreichte damit auf einem Großteil der Atari-Spiele menschliches oder übermenschliches Niveau. Bis heute bildet Q-Learning – vor allem in seiner Deep-Q-Network-Form – einen Grundbaustein zahlloser KI-Systeme.

1992 mathematischer Konvergenzbeweis: Q-Learning findet garantiert optimale Strategien bei unendlicher Exploration

Innovativer modellfreier Ansatz: Lernen optimaler Aktionen ohne Umgebungsmodell oder Übergangswahrscheinlichkeiten

Elegante Lösung für Markov-Entscheidungsprobleme durch schrittweise Q-Funktions-Optimierung

Grundstein des modernen Reinforcement Learning - bis heute Kern von Deep Q-Networks und zahllosen KI-Systemen

Personen:Chris Watkins, Peter Dayan

Organisationen:King's College Cambridge, University College London

1993Datensätze

Penn Treebank: Syntaktische Annotation verändert NLP

Die Schaffung des fundamentalen Korpus für moderne Parsing-Forschung. 1993 veröffentlichten Mitchell Marcus, Beatrice Santorini und Mary Ann Marcinkiewicz das wegweisende Paper ‚Building a Large Annotated Corpus of English: The Penn Treebank‘ in Computational Linguistics. Mit über 4,5 Millionen Wörtern amerikanischen Englisch, die mit Wortarten ausgezeichnet wurden, und davon rund 3 Millionen mit detaillierter syntaktischer (skeletal geparster) Annotation veränderte das Penn Treebank die computergestützte Linguistik erheblich. Das zweistufige Verfahren kombinierte automatisches POS-Tagging mit menschlicher Korrektur für außergewöhnliche Annotationsqualität. Über die gesamte Projektlaufzeit von rund sieben Jahren (1989-1996) und in der erweiterten Penn Treebank II entstanden insgesamt 7 Millionen POS-getaggte Wörter, 3 Millionen skeletal geparste Texte und 2 Millionen Predicate-Argument-Strukturen. Penn Treebank etablierte empirische Methoden in der Computerlinguistik und wurde zur Grundlage moderner Parsing-Algorithmen. Bis heute dient das Penn Treebank modernen NLP-Systemen als wichtiger Evaluations-Benchmark für Parsing und Sprachmodellierung.

4,5+ Millionen Wörter mit Wortart-Auszeichnung, davon rund 3 Millionen mit detaillierter syntaktischer Annotation - durch zweistufiges semi-automatisches Verfahren

Etablierte empirische Methoden in Computerlinguistik und wurde Standard-Benchmark für Parsing-Forschung

Veränderte Parsing-Algorithmen erheblich von regelbasierten zu statistischen Ansätzen

Legte Grundlagen für statistisches Parsing und dient modernen NLP-Systemen als Evaluations-Benchmark

Personen:Mitchell Marcus, Beatrice Santorini, Mary Ann Marcinkiewicz

Organisationen:University of Pennsylvania, Linguistic Data Consortium

1995Publikationen

AdaBoost: Schwache Lerner werden stark

1995 entwickelten Yoav Freund und Robert Schapire AdaBoost (Adaptive Boosting), einen Algorithmus der das Machine Learning erheblich veränderte. Ihre zentrale Idee: Kombiniere viele 'schwache Lerner' zu einem hochpräzisen Vorhersagemodell. Ein schwacher Lerner ist nur geringfügig besser als Zufall - aber hunderte davon können gemeinsam beachtliche Ergebnisse erzielen. AdaBoost passt sich adaptiv an: Fehlerhafte Vorhersagen werden beim nächsten Durchgang stärker gewichtet. So fokussiert sich das System automatisch auf schwierige Fälle. Die theoretische Eleganz überzeugte - Freund und Schapire bewiesen, dass der Trainingsfehler exponentiell schnell gegen null fällt, solange jeder schwache Lerner besser als der Zufall ist. 2003 erhielten sie für diese Begründung der Boosting-Theorie den Gödel-Preis, eine der renommiertesten Auszeichnungen der theoretischen Informatik. AdaBoost fand praktische Anwendung in Biologie, Computer Vision und Spracherkennung. Das Verfahren legte das Fundament für moderne Ensemble-Methoden und inspirierte eine ganze Generation von Boosting-Algorithmen bis hin zu XGBoost.

Adaptive Gewichtung: Schwere Fälle werden stärker gewichtet für fokussiertes Lernen auf Problemstellen

Schwache Lerner Prinzip: Hunderte einfache Klassifikatoren ergeben zusammen hochpräzise Vorhersagen

Gödel-Preis 2003: Eine der renommiertesten Auszeichnungen der theoretischen Informatik für die Begründung der Boosting-Theorie

Fundament moderner Ensemble-Methoden: Inspirierte XGBoost und ganze Generation von Boosting-Algorithmen

Personen:Yoav Freund, Robert Schapire

Organisationen:AT&T Bell Laboratories

1995Publikationen

Support Vector Machines: Maximum Margin-Klassifikation

Die Etablierung eleganter geometrischer Ansätze für robuste Klassifikation. 1995 veröffentlichten Corinna Cortes und Vladimir Vapnik bei AT&T Bell Labs das fundamentale Paper 'Support-Vector Networks' in Machine Learning. SVMs erweiterten Vapniks und Chervonenkis' frühen Maximum-Margin-Ansatz von 1964 (das 'Generalized Portrait') zu einer praktischen Lösung für nicht-separierbare Trainingsdaten durch die 'Soft Margin'-Innovation. Das Kernprinzip liegt in der Konstruktion linearer Entscheidungsflächen in sehr hochdimensionalen Feature-Räumen durch nicht-lineare Eingabe-Transformationen. Der Kernel Trick von 1992 ermöglichte effiziente Berechnung ohne explizite Transformation. SVMs maximieren den Margin zwischen Klassen und bieten dadurch hohe Generalisierungsfähigkeit. Mit zehntausenden Zitierungen wurde das Paper zu einem der meistzitierten Werke des Machine Learning und dominierte Klassifikationsaufgaben bis zur Deep Learning-Revolution. SVMs blieben robust, interpretierbar und effektiv für hochdimensionale Probleme.

Vapniks und Chervonenkis' Maximum-Margin-Ansatz von 1964 erweitert zu praktischer Lösung für nicht-separierbare Daten

Kernel Trick ermöglicht nicht-lineare Klassifikation durch implizite hochdimensionale Transformationen

Maximum Margin-Prinzip maximiert Abstand zwischen Klassen für optimale Generalisierung

Etablierte theoretisch fundierte Alternative zu neuronalen Netzwerken mit Generalisierungsgarantien

Personen:Vladimir Vapnik, Corinna Cortes

Organisationen:AT&T Bell Labs

1995Datensätze

WordNet: Semantisches Netzwerk der Sprache

Das erste als semantisches Netz aufgebaute lexikalische Wörterbuch für die Computerlinguistik. Im November 1995 veröffentlichte George Miller das fundamentale Paper „WordNet: A Lexical Database for English“ in Communications of the ACM und stellte seine seit 1986 entwickelte Vision vor. WordNet organisiert englische Substantive, Verben, Adjektive und Adverbien in Synsets – kognitive Synonymgruppen, die durch semantische und lexikalische Relationen verknüpft sind. Diese Struktur spiegelt menschliches semantisches Gedächtnis wider und ermöglicht Navigation durch bedeutungsvolle Wort- und Konzept-Netzwerke. Maschinenlesbare Wörterbücher gab es zwar schon vorher, doch WordNet war das erste, das den Wortschatz konsequent als Netz aus Synsets und Bedeutungsrelationen modellierte und so traditionelle lexikographische Information mit moderner Datenverarbeitung verband. Mit Entwicklungsbeginn 1986 durch Miller und sein Princeton-Team wurde WordNet zur Grundlage für ImageNet-Hierarchien und moderne NLP-Systeme. Die semantische Netzwerk-Struktur beeinflusste alle nachfolgenden Knowledge Graphs und Embedding-Techniken.

Erstes als semantisches Netz aus Synsets und Bedeutungsrelationen aufgebautes lexikalisches Wörterbuch mit programmgesteuertem Zugang

Synsets verknüpft durch semantische und lexikalische Relationen bilden navigierbares Bedeutungs-Netzwerk

Spiegelt menschliches semantisches Gedächtnis wider und verbindet Cognitive Science mit Computational Linguistics

Legte Grundstein für ImageNet-Hierarchien, Knowledge Graphs und moderne semantische NLP-Systeme

Personen:George Miller, Christiane Fellbaum

Organisationen:Princeton University, Cognitive Science Laboratory

1996Publikationen

PageRank: Googles Milliarden-Dollar-Algorithmus

1996 entwickelten zwei Stanford-Doktoranden einen Algorithmus, der das Internet erheblich verändern sollte. Larry Page und Sergey Brin starteten das Projekt „BackRub“ mit einer neuartigen Idee: Die Wichtigkeit einer Webseite bemisst sich nicht nur an Inhalten, sondern an den Links, die auf sie verweisen. Wie beim wissenschaftlichen Zitieren gilt: Je öfter eine Seite verlinkt wird, desto wichtiger ist sie. Der PageRank-Algorithmus simuliert einen „Random Surfer“, der zufällig durch das Web klickt. Je häufiger der zufällige Surfer eine Seite über die Link-Struktur erreicht, desto wichtiger wird sie eingestuft. Pages Webcrawler startete im März 1996 von seiner eigenen Stanford-Homepage aus. Die formale Veröffentlichung des PageRank-Papiers erfolgte im Januar 1998 als Stanford Technical Report. Bis August 1996 hatte BackRub bereits rund 75 Millionen URLs entdeckt – also über Links gefundene Adressen, von denen erst ein Teil tatsächlich gecrawlt war. Schon der frühe Stanford-Prototyp lieferte relevantere Ergebnisse als zeitgenössische Suchdienste wie Excite oder Yahoo!. Stanford erhielt das Patent und verkaufte seine 1,8 Millionen Google-Aktien 2005 für 336 Millionen Dollar. Aus einem Uni-Projekt wurde eine der erfolgreichsten Suchmaschinen – und die Grundlage des modernen Web-AI.

Stanford-Projekt 'BackRub' analysierte Backlink-Daten zur Web-Wichtigkeit - Grundlage für Google

Innovative Link-Analyse: Webseiten-Wichtigkeit durch Verweise statt nur Keyword-Häufigkeit

Random Surfer Modell: Eine Seite ist umso wichtiger, je häufiger der zufällige Surfer sie über die Link-Struktur besucht

Aus Stanford-Forschung wurde Google Inc. - PageRank als Fundament der wertvollsten Suchmaschine

Personen:Larry Page, Sergey Brin, Rajeev Motwani, Terry Winograd

Organisationen:Stanford University, Google Inc.

1997Wettbewerbe

Deep Blue besiegt Kasparov

Der erste Matchsieg einer Maschine über einen amtierenden Schachweltmeister unter Turnierbedingungen. Am 11. Mai 1997 schrieb Deep Blue Geschichte, als der IBM-Supercomputer Garry Kasparov im Revanche-Match in New York mit 3½:2½ besiegte. Nach der 1996er-Niederlage hatte IBM das System grundlegend überarbeitet: neue Schachchips verdoppelten die Geschwindigkeit auf 200 Millionen Positionen pro Sekunde, verbesserte Endspieldatenbanken und Großmeister-Beratung verfeinerten die Spielstärke. Das entscheidende sechste Spiel dauerte nur eine Stunde – nach einem Springeropfer geriet Kasparov rasch in eine objektiv verlorene Stellung und gab bereits im 19. Zug auf, ein beispielloser Moment in seiner Karriere. Der Sieg demonstrierte erstmals die Überlegenheit von Computern in komplexem strategischem Denken und markierte einen Wendepunkt für die öffentliche KI-Wahrnehmung. Das Preisgeld von 700.000 Dollar für Deep Blue unterstrich die historische Bedeutung dieses Triumphs der Maschinenintelligenz.

Erster Sieg eines Computers über einen amtierenden Schachweltmeister im Match unter Standard-Turnierbedingungen (eine Einzelpartie hatte Deep Blue bereits 1996 gewonnen)

200 Millionen Positionen pro Sekunde, verbesserte Endspieldatenbanken und Großmeister-Beratung

IBMs technischer Triumph nach jahrelanger Entwicklung seit ChipTest 1985 über Deep Thought zu Deep Blue

Wendepunkt für öffentliche KI-Wahrnehmung und Beweis maschineller Überlegenheit in komplexem strategischem Denken

Personen:Garry Kasparov, Murray Campbell, Joe Hoane, Feng-hsiung Hsu

Organisationen:IBM, World Chess Championship

1997Publikationen

LSTM: Long Short-Term Memory

Die Lösung des Vanishing Gradient Problems und die Geburt effektiver Sequenzmodellierung. Am 15. November 1997 veröffentlichten Sepp Hochreiter und Jürgen Schmidhuber das wegweisende Paper 'Long Short-Term Memory' in Neural Computation. Ihre Innovation löste ein fundamentales Problem rekurrenter Netzwerke: das Verschwinden von Gradienten über längere Sequenzen. LSTM führte spezielle Gedächtniszellen mit Gate-Mechanismen ein, die konstanten Error-Flow über tausende Zeitschritte ermöglichen. Die multiplikativen Gates lernen, den Zugang zum konstanten Error Carousel zu öffnen und zu schließen. Mit O(1)-Komplexität pro Zeitschritt und lokalem Lernen übertraf LSTM alle damaligen RNN-Verfahren deutlich. Das System löste erstmals komplexe Long-Time-Lag-Probleme, die zuvor unlösbar waren. LSTM wurde zur Grundlage für moderne Spracherkennung, Übersetzung und Zeitreihenanalyse.

Löste Vanishing Gradient Problem durch konstanten Error-Flow über tausende Zeitschritte

Spezielle Gedächtniszellen mit konstanten Error Carousels für langfristige Informationsspeicherung

Multiplikative Gate-Units lernen Zugang zum konstanten Error-Flow zu öffnen und schließen

Ermöglichte effektive Langzeit-Sequenzmodellierung für Spracherkennung und Zeitreihenanalyse

Personen:Sepp Hochreiter, Jürgen Schmidhuber

Organisationen:Technical University of Munich, IDSIA

1998Datensätze

MNIST: Der Machine Learning-Standard

Die Schaffung eines der wichtigsten Benchmark-Datensätze für Computer Vision-Anfänger. 1998 stellten Yann LeCun, Corinna Cortes und Christopher Burges den MNIST-Datensatz vor – eine kuratierte Sammlung handgeschriebener Ziffern, die zum „Hello World“ des maschinellen Lernens wurde. Basierend auf NISTs Special Database 3 und Special Database 1 enthält MNIST 70.000 normalisierte 28x28-Pixel-Bilder in Graustufen: 60.000 für Training, 10.000 für Tests. Die sorgfältige Preprocessing und Anti-Aliasing machten MNIST ideal für Lernzwecke ohne aufwendige Datenaufbereitung. MNIST erschien im Paper „Gradient-based learning applied to document recognition“ (Proceedings of the IEEE, November 1998). Der Datensatz wurde zum Standard-Benchmark für unzählige ML-Algorithmen und ermöglichte es Generationen von Studenten, ihre ersten Erfolge in Computer Vision zu erleben. MNIST demokratisierte Machine Learning-Bildung weltweit.

70.000 handgeschriebene Ziffern als 28x28-Pixel normalisierte Graustufen-Bilder

Von Yann LeCun, Corinna Cortes und Christopher Burges aus NIST-Datenbanken kuratiert

Wurde zum 'Hello World' des Machine Learning und Standard-Benchmark für ML-Algorithmen

Demokratisierte ML-Bildung durch einfachen Zugang ohne aufwendige Datenaufbereitung

Personen:Yann LeCun, Corinna Cortes, Christopher Burges

Organisationen:AT&T Labs, Courant Institute

2001Publikationen

Random Forest: Durchbruch der Ensemble-Methoden

2001 veröffentlichte Leo Breiman von der UC Berkeley einen der meistzitierten Machine Learning Papers aller Zeiten: 'Random Forests'. Sein Algorithmus veränderte das Konzept der Ensemble-Methoden erheblich und wurde zu einem der wichtigsten Werkzeuge der modernen Statistik. Die Grundidee war genial einfach: Statt einem Entscheidungsbaum trainiert man hunderte zufällige Bäume und lässt sie abstimmen. Jeder Baum sieht nur einen zufälligen Teil der Daten und Features - 'Bagging' kombiniert mit Merkmals-Randomisierung. Das Ergebnis: drastisch reduzierte Overfitting-Probleme und außergewöhnliche Vorhersagegenauigkeit. Breiman lieferte auch die theoretische Grundlage mit Generalisierungsfehlern basierend auf Baumstärke und Korrelation. Random Forest wurde zu einem der wartungsärmsten 'plug-and-play' ML-Algorithmen - minimal tuning, maximale Performance. Von Bioinformatik bis Finanzmarktanalyse dominiert Random Forest bis heute unzählige Anwendungen und machte Ensemble-Methoden zum Standard-Werkzeug - parallel zur Boosting-Linie, aus der später XGBoost hervorging.

Ensemble-Durchbruch: Hunderte zufällige Entscheidungsbäume stimmen gemeinsam für bessere Vorhersagen ab

Bagging + Feature-Randomisierung: Jeder Baum sieht unterschiedliche Daten und Features für Diversität

Theoretische Fundierung: Generalisierungsfehler-Bounds basierend auf Baumstärke und Korrelation

Plug-and-Play ML-Algorithmus: Minimales Tuning bei außergewöhnlicher Performance in allen Domänen

Personen:Leo Breiman, Adele Cutler

Organisationen:UC Berkeley Statistics Department, Machine Learning Journal

2005Organisationen

Future of Humanity Institute gegründet

Die Institutionalisierung der KI-Sicherheitsforschung und existenzieller Risikoabschätzung. 2005 gründete Nick Bostrom an der Universität Oxford das Future of Humanity Institute als multidisziplinäre Forschungsgruppe. Mit nur drei Forschern beginnend, entwickelte sich FHI zu einem intellektuellen Gravitationszentrum für brillante, oft exzentrische Denker und wuchs auf etwa 40 Mitarbeiter an. Das Institut etablierte neue Forschungsfelder: existenzielle Risiken, AI Alignment, AI Governance und Longtermism. Bostroms frühe Publikationen wie 'The fable of the dragon tyrant' (2005) und 'What is a singleton?' (2006) prägten das Denken über KI-Sicherheit. Trotz seiner relativ kurzen 19-jährigen Existenz bis zur Schließung 2024 produzierte FHI bedeutende Fortschritte und eine neue Art, über große Fragen der Menschheit zu denken. Die akademische Legitimierung der AI Safety-Forschung durch Oxford verlieh dem Feld wissenschaftliche Glaubwürdigkeit.

2005 an Oxford University gegründet, wuchs von 3 auf etwa 40 Forscher bis zur Schließung 2024

Pionierarbeit bei existenziellen Risiken, Longtermism und AI Governance als neue Forschungsfelder

Etablierte AI Alignment und AI Safety als legitime akademische Disziplinen mit globaler Wirkung

Verlieh KI-Sicherheitsforschung durch Oxford-Affiliation wissenschaftliche Glaubwürdigkeit und Respekt

Personen:Nick Bostrom, Anders Sandberg

Organisationen:Oxford University, Future of Humanity Institute

2005Wettbewerbe

DARPA Grand Challenge: Geburt des autonomen Fahrens

Am 8. Oktober 2005 schrieb ein blauer Volkswagen Touareg namens 'Stanley' Geschichte. Unter der Leitung von Sebastian Thrun gewann das Stanford Racing Team die DARPA Grand Challenge - den ersten erfolgreichen autonomen Fahrzeug-Wettbewerb der Welt. Nach dem kompletten Versagen aller Teilnehmer 2004 (bester: 7,4 Meilen bzw. 11,9 km) bewältigte Stanley die gesamte 212 km lange Wüstenstrecke in 6 Stunden und 53 Minuten. Fünf Fahrzeuge erreichten das Ziel, vier davon innerhalb des Zeitlimits - ein deutlicher Fortschritt gegenüber null im Vorjahr. Stanley navigierte durch drei enge Tunnel, über 100 scharfe Kurven und den gefährlichen Beer Bottle Pass mit seinen Abgründen. Die Innovation war Software, nicht Hardware: LiDAR-Sensoren, maschinelles Lernen und ein Log menschlicher Fahrentscheidungen gaben Stanley Fähigkeiten, die kein Roboter zuvor besaß. Die 2 Millionen Dollar Preisgeld waren nur der Anfang - Stanley legte den Grundstein für Tesla Autopilot, Google Waymo und die gesamte autonome Fahrzeugindustrie. Heute steht Stanley im Smithsonian Museum.

Stanford's 'Stanley' gewann als erstes autonomes Fahrzeug eine 212 km Wüstenstrecke in unter 7 Stunden

Durchbruch von null erfolgreichen Fahrzeugen (2004) zu fünf Zieleinläufen (2005), vier davon im Zeitlimit, durch bessere KI

Erkannte als Software-Race: LiDAR, Machine Learning und menschliche Fahrdaten als Schlüssel

Geburtsmoment der modernen Selbstfahr-Technologie - inspirierte Tesla, Google und ganze Industrie

Personen:Sebastian Thrun, Mike Montemerlo, Stanley Thrun Team

Organisationen:DARPA, Stanford University, Stanford AI Lab

2006Publikationen

Deep Belief Networks: Renaissance des Deep Learning

Geoffrey Hinton veränderte 2006 die KI-Welt mit seinem wichtigen Paper über Deep Belief Networks. Nach jahrelanger Unpopularität neuronaler Netze zeigte er, wie tiefe neuronale Netzwerke effizient trainiert werden können. Seine Innovation: Layer-by-Layer Pre-Training mit Restricted Boltzmann Machines (RBMs). Diese 'gierige' Lernstrategie löste das Problem der Gewichtsinitialisierung und machte Deep Learning praktisch anwendbar. Die Methode stapelt RBMs übereinander und trainiert jede Schicht einzeln, bevor das gesamte Netzwerk verfeinert wird. Hintons Arbeit beendete das jahrelange Schattendasein neuronaler Netze und leitete deren Renaissance ein. Bereits 2009 reduzierten DBNs Fehlerraten in der Spracherkennung erheblich. 2012 gewann Hintons Team die ImageNet-Challenge (ILSVRC) mit AlexNet - einem tiefen Convolutional Neural Network, das mit GPU-Training, ReLU und Dropout arbeitete und nicht mehr auf das RBM-Pre-Training der DBNs angewiesen war. AlexNet erreichte eine top-5-Fehlerrate von 15,3% gegenüber 26,2% beim zweitbesten Team - eine deutliche Verbesserung. Dieser Moment markiert die Wiedergeburt der neuronalen Netzwerke und den Beginn des heutigen KI-Booms.

Gieriger Layer-by-Layer Lernalgorithmus ermöglichte erstmals effizientes Training tiefer neuronaler Netze

Stapeln von Restricted Boltzmann Machines (RBMs) als Bausteine für komplexe Repräsentationen

Unüberwachtes Pre-Training löste das Gewichtsinitialisierungsproblem tiefer Netzwerke

Beendete das Schattendasein neuronaler Netze und begründete die moderne Deep Learning Revolution ab 2006

Personen:Geoffrey Hinton, Simon Osindero, Yee-Whye Teh

Organisationen:University of Toronto, Neural Computation

2006Wettbewerbe

Netflix Prize: Der Million-Dollar-Algorithmus

Die Demokratisierung des Machine Learning durch einen Crowdsourcing-Wettbewerb von beispielloser Größe - mit öffentlichem Datensatz und einer Million Dollar Preisgeld. Am 2. Oktober 2006 startete Netflix diese Million-Dollar-Challenge: Wer kann den Empfehlungsalgorithmus Cinematch um 10% verbessern? Mit über 100 Millionen Bewertungen von 480.000 Nutzern für 17.770 Filme stellte Netflix einen der größten öffentlichen ML-Datensätze bereit. Über 40.000 Teams aus 186 Ländern registrierten sich, mehr als 5.000 davon schafften es auf das Qualifikations-Leaderboard und reichten zusammen rund 44.000 gültige Lösungen ein. Als 'BellKors Pragmatic Chaos' am 26. Juni 2009 als erstes Team die 10-Prozent-Marke knackte, löste das den 30-tägigen Last Call aus, der am 26. Juli 2009 endete; offiziell gekürt wurde der Sieger mit 10,06% Verbesserung erst bei der Preisverleihung am 21. September 2009. Sein Erfolgsrezept: eine Ensemble-Kombination aus Matrix-Factorization und Restricted Boltzmann Machines. Der Wettbewerb veränderte Collaborative Filtering erheblich und demonstrierte die Macht von Crowdsourcing für komplexe ML-Probleme. Obwohl Netflix die Gewinner-Algorithmen nie in Produktion einsetzte (zu hohe Implementierungskosten), inspirierte der Wettbewerb die moderne Empfehlungssystem-Industrie nachhaltig.

1 Million Dollar Preisgeld für 10% Verbesserung des Cinematch-Algorithmus über 3 Jahre Wettbewerb

100+ Millionen Bewertungen von 480k Nutzern für 17.770 Filme als öffentlicher ML-Datensatz

Veränderte Collaborative Filtering erheblich durch Matrix-Factorization und Restricted Boltzmann Machines

40.000+ Teams aus 186 Ländern, über 5.000 auf dem Qualifikations-Leaderboard mit rund 44.000 Einreichungen - Crowdsourcing-Power für ML

Personen:Reed Hastings, Netflix Team, BellKor Pragmatic Chaos Team

Organisationen:Netflix, BellKor, AT&T Research

2007Datensätze

Common Crawl Foundation gegründet

Die Demokratisierung des Internets als Trainingsdaten für künstliche Intelligenz. 2007 gründete Gil Elbaz die Common Crawl Foundation mit der Mission: Das gesamte öffentliche Internet zu archivieren und frei verfügbar zu machen. Ab 2008 begann die systematische Crawling-Aktivität, deren Korpus seither Monat für Monat um Milliarden Seiten wächst und mittlerweile (Stand 2024) in der Größenordnung von über 100 Milliarden Webseiten und mehreren Petabytes an Daten liegt. Diese Sammlung wurde zur wichtigsten Trainingsquelle für Large Language Models und ermöglichte die Entwicklung von GPT-3, ChatGPT, LLaMA und anderen modernen KI-Systemen. Common Crawl unterschied sich von kommerziellen Ansätzen durch seine Non-Profit-Natur und freie Verfügbarkeit. Die ungefilterte Rohdatensammlung erfordert zwar Nachbearbeitung, aber sie demokratisierte den Zugang zu umfassenden Sprachdaten und machte KI-Forschung unabhängiger von proprietären Datensätzen.

Gründung 2007 mit der Mission, das gesamte öffentliche Internet zu archivieren und frei verfügbar zu machen

Wächst seit Crawling-Beginn 2008 monatlich um Milliarden Seiten – Größenordnung mittlerweile (Stand 2024) über 100 Milliarden Webseiten und mehrere Petabytes Daten

Wurde zur wichtigsten Trainingsquelle für GPT-3, ChatGPT, LLaMA und andere moderne Large Language Models

Non-Profit-Ansatz demokratisierte Zugang zu umfassenden Sprachdaten für KI-Forschung weltweit

Personen:Gil Elbaz, Common Crawl Team

Organisationen:Common Crawl Foundation, Internet Archive, Alexa Internet

2007Meilensteine

CUDA: Die Grafikkarte wird zum KI-Motor

Die KI-Revolution von 2012 lief nicht nur auf Algorithmen — sie lief auf Grafikkarten. Den Boden dafür bereitete NVIDIA 2007 mit CUDA: einer Plattform, die es erlaubte, normale Programme in einer C-ähnlichen Sprache direkt auf der GPU laufen zu lassen — nicht mehr nur Grafik. Angekündigt mit dem G80-Chip Ende 2006, als öffentliche Beta im Februar 2007 und als Version 1.0 im Juni 2007, machte CUDA die enorme Parallelität von Grafikprozessoren erstmals breit zugänglich. Das passt perfekt zu neuronalen Netzen, deren Rechnung im Kern aus Matrixmultiplikationen besteht — tausende kleine Operationen gleichzeitig. Fünf Jahre später trainierten Krizhevsky, Sutskever und Hinton AlexNet auf zwei NVIDIA-GTX-580-Karten mit CUDA — der Durchbruch, der Deep Learning zündete. Ab 2014 lieferte NVIDIAs cuDNN die optimierten Bausteine, auf denen heute TensorFlow, PyTorch und andere laufen. Die ehrliche Einordnung: CUDA hat GPGPU nicht erfunden (programmierbare Shader gab es seit 2001, BrookGPU seit 2004) und Deep Learning nicht im Alleingang verursacht — aber es machte die nötige Rechenleistung zugänglich, und ohne sie wäre der Rest nicht möglich gewesen.

CUDA (2007, NVIDIA; Architekten Ian Buck — aus dem BrookGPU-Projekt — und John Nickolls) erlaubt es, allgemeine Programme in einer C-ähnlichen Sprache direkt auf der GPU auszuführen — nicht mehr nur Grafik.

GPUs rechnen tausende Operationen parallel. Das passt exakt zu neuronalen Netzen, deren Kern Matrixmultiplikationen sind.

Wurde zum Motor des Deep Learning: AlexNet (2012) trainierte auf zwei GTX-580-Karten mit CUDA; ab cuDNN (2014) läuft praktisch jedes große Framework darauf.

Anti-Hype: GPGPU gab es schon vor CUDA (Shader 2001, BrookGPU 2004); CUDA verursachte Deep Learning nicht allein — es machte die Rechenleistung zugänglich (nötig, nicht hinreichend).

Personen:Ian Buck, John Nickolls

Organisationen:NVIDIA

2008Publikationen

Zero-Shot Learning: Lernen ohne Daten

Die Formalisierung des Lernens ungesehener Klassen durch semantische Beschreibungen. Im Juli 2008 veröffentlichten Hugo Larochelle, Dumitru Erhan und Yoshua Bengio auf der AAAI-Konferenz ihre Arbeit „Zero-data Learning of New Tasks“ und lieferten die theoretische Vorläufer-Formalisierung. Den eigentlichen Namen „Zero-Shot Learning“ prägten erst 2009 zwei andere Gruppen: Palatucci und Kollegen mit „Zero-Shot Learning with Semantic Output Codes“ auf der NIPS 2009 sowie Lampert und Kollegen mit ihrem attributbasierten Ansatz auf der CVPR 2009. Das fundamentale Problem: Wie kann ein Modell Klassen klassifizieren, für die keine Trainingsdaten verfügbar sind, sondern nur Beschreibungen? Die Lösung lag in semantischen Embeddings und Transfer Learning – der Wiederverwendung trainierter Modelle für neue Aufgaben. Larochelles Formalisierung adressierte sehr große Klassensets, die nicht vollständig durch Trainingsdaten abgedeckt sind. Experimentelle Analysen bewiesen signifikante Generalisierungsfähigkeiten in diesem Kontext. Diese Arbeit legte das konzeptuelle Fundament für moderne Few-Shot und Zero-Shot Fähigkeiten in GPT-3, GPT-4 und anderen Large Language Models. Zero-Shot Learning wurde zur Schlüsseltechnologie für skalierbare KI-Systeme.

Klassifikation von Klassen ohne Trainingsdaten – nur mit semantischen Beschreibungen der Zielklassen

Wiederverwendung trainierter Modelle für völlig neue Aufgaben durch semantische Embeddings

Semantische Repräsentationen ermöglichen Generalisierung zu ungesehenen Konzepten

Legte Fundament für Few-Shot und Zero-Shot Fähigkeiten moderner Large Language Models

Personen:Hugo Larochelle, Dumitru Erhan, Yoshua Bengio

Organisationen:University of Montreal

2009Datensätze

CIFAR-Datensätze etabliert

Die Schaffung eines fundamentalen Benchmarks für Computer Vision. Im Jahr 2009 entwickelten Alex Krizhevsky, Vinod Nair und Geoffrey Hinton an der Universität Toronto die CIFAR-10 und CIFAR-100 Datensätze. Diese entstanden als markierte Teilmengen des 80-Millionen-Bilder-Datensatzes 'Tiny Images'. CIFAR-10 umfasst 60.000 farbige 32x32-Pixel-Bilder in zehn Kategorien wie Flugzeuge, Autos und Tiere, während CIFAR-100 dieselbe Bildanzahl auf hundert feinere Klassen verteilt. Die Datensätze wurden zu einem der wichtigsten Benchmarks der Computer Vision-Forschung und ermöglichten standardisierte Vergleiche zwischen verschiedenen Algorithmen. Bemerkenswert ist die Verbindung zu AlexNet: Krizhevsky nutzte CIFAR-10 bereits vor 2011 zum Training kleiner CNNs auf einzelnen GPUs – ein Vorläufer seines späteren ImageNet-Erfolgs von 2012.

CIFAR-10 mit 60.000 Bildern in 10 Kategorien, CIFAR-100 mit 100 detaillierteren Klassen als Computer Vision-Benchmarks

Wurde zu einem der wichtigsten standardisierten Benchmarks für Computer Vision-Algorithmen weltweit

Ermöglichte systematische Evaluierung und Vergleich verschiedener Machine Learning-Ansätze

Krizhevsky nutzte CIFAR-10 vor 2011 für CNN-Training – Vorstufe zu seinem AlexNet-Erfolg 2012

Personen:Alex Krizhevsky, Vinod Nair, Geoffrey Hinton

Organisationen:University of Toronto, Canadian Institute for Advanced Research, CIFAR

2009Datensätze

ImageNet: Der Datensatz der alles veränderte

Die Schaffung des Datensatzes, der die Deep Learning-Entwicklung ermöglichte. 2009 stellte Fei-Fei Li mit ihrem Team das ImageNet-Paper vor und präsentierte eine visuelle Datenbank, die Computer Vision transformieren sollte – zum Launch waren es rund 3,2 Millionen handannotierte Bilder in etwa 5.200 Kategorien. Auf seine volle Größe ausgebaut umfasste ImageNet später über 14 Millionen handannotierte Bilder und rund 22.000 Kategorien, basierend auf WordNet-Hierarchien, und adressierte so den kritischen Engpass: den Mangel an großen, qualitativ hochwertigen Trainingsdaten. Die Annotation erfolgte im Lauf des Projekts durch rund 49.000 Worker aus 167 Ländern via Amazon Mechanical Turk – ein beispiellos kollaboratives Projekt. Was als Poster in einer Ecke eines Miami Beach-Konferenzzentrums begann, entwickelte sich zur jährlichen ImageNet Challenge (ILSVRC) und wurde zu einem der drei Treiber der modernen KI-Entwicklung. ImageNet ermöglichte AlexNets 2012er-Durchbruch und legte das Fundament für autonome Fahrzeuge, Gesichtserkennung und medizinische Bildgebung.

Zum Launch 2009 rund 3,2 Millionen Bilder, im Vollausbau über 14 Millionen handannotierte Bilder in rund 22.000 Kategorien durch rund 49.000 Worker aus 167 Ländern

Basiert auf WordNet-Hierarchien für strukturierte Kategorisierung visueller Objekte

Stellte die kritischen Trainingsdaten für AlexNets 2012er-Durchbruch und die Deep Learning-Entwicklung bereit

Transformierte Computer Vision-Forschung und ermöglichte autonome Fahrzeuge, Gesichtserkennung, medizinische Bildgebung

Personen:Fei-Fei Li, Jia Deng, Wei Dong, Richard Socher

Organisationen:Stanford University, Princeton University

2010Meilensteine

DeepMind wird gegründet

Die Geburt eines KI-Labors, das Schlagzeilen schreiben würde. Im September 2010 gründeten Demis Hassabis, Shane Legg und Mustafa Suleyman in London DeepMind Technologies. Ihr Ziel: Allgemeine Künstliche Intelligenz entwickeln, indem sie Erkenntnisse aus Neurowissenschaft und maschinellem Lernen kombinieren. Hassabis, ein ehemaliges Schach-Wunderkind und Spieleentwickler, brachte eine einzigartige Vision mit: KI sollte wie das menschliche Gehirn lernen. 2014 kaufte Google das Startup für geschätzte 500 Millionen Dollar – eine der größten KI-Akquisitionen der Geschichte. DeepMind sollte später mit AlphaGo, AlphaFold und anderen Durchbrüchen die Welt verblüffen.

September 2010 in London als DeepMind Technologies gegründet

Demis Hassabis (Neurowissenschaftler, Spieleentwickler), Shane Legg und Mustafa Suleyman

2014 von Google für geschätzte 500 Millionen Dollar übernommen

Später verantwortlich für AlphaGo, AlphaFold und andere bahnbrechende KI-Systeme

Personen:Demis Hassabis, Shane Legg, Mustafa Suleyman

Organisationen:DeepMind, Google

2010Wettbewerbe

ImageNet Challenge: Der Wettkampf beginnt

Die Etablierung des wichtigsten Computer Vision-Benchmarks der KI-Geschichte. 2010 startete die erste ImageNet Large Scale Visual Recognition Challenge (ILSVRC) und schuf einen standardisierten Wettbewerb, der die Computer Vision-Forschung für das nächste Jahrzehnt prägen sollte. Mit 1.000 Objektkategorien und 1,2 Millionen Trainingsbildern übertraf die Challenge die damals verfügbaren Benchmarks wie PASCAL VOC mit nur 20 Klassen bei weitem. Die Evaluierung erfolgte über Top-1 und Top-5 Fehlerquoten – Metriken, die bis heute Standard sind. Von 2010 bis 2017 verbesserte sich die Top-5-Genauigkeit der Gewinner erheblich von 71,8% auf 97,3% und übertraf schließlich menschliche Leistung. Die jährliche Challenge zog über 50 Institutionen aus aller Welt an und katalysierte Fortschritte, die 2012 in AlexNets bedeutendem Durchbruch gipfelten – einer Top-5-Fehlerrate von nur 15,3% (rund 84,7% Genauigkeit).

Erste ILSVRC 2010 mit 1.000 Kategorien und 1,2 Millionen Trainingsbildern – weit über PASCAL VOC hinaus

Etablierte Top-1 und Top-5 Fehlerquoten als Standard-Metriken für Computer Vision-Evaluierung

Jährlicher Wettbewerb seit 2010 zog über 50 Institutionen weltweit an und trieb Forschungsfortschritte

Schuf die Wettbewerbsstruktur die 2012 AlexNets Durchbruch ermöglichte: eine Top-5-Fehlerrate von nur 15,3% (rund 84,7% Genauigkeit)

Personen:Fei-Fei Li, Olga Russakovsky, Alexander Berg

Organisationen:Stanford University, ImageNet Team

2011Wettbewerbe

Watson besiegt Jeopardy-Champions

IBMs Triumph im Natural Language Processing und der Beweis für maschinelles Sprachverständnis. Am 16. Februar 2011 besiegte IBMs Watson-System in der im Fernsehen übertragenen Jeopardy-Challenge die beiden erfolgreichsten Champions aller Zeiten: Ken Jennings (74 Siege in Folge) und Brad Rutter (3,25 Millionen Dollar Gewinne bis 2005). Watson, entwickelt von David Ferruccis DeepQA-Team, bestand aus 90 IBM Power 750 Servern (in 10 Racks) mit 16 Terabyte RAM und 2.880 POWER7-Prozessorkernen. Die Innovation lag im Natural Language Processing: Watson verstand Fragen in natürlicher Sprache und antwortete präziser als jede Standard-Suchtechnologie – ohne Internetverbindung. Mit 77.147 Dollar Gewinn (für Wohltätigkeit gespendet) dominierte Watson seine menschlichen Konkurrenten um mehr als 50.000 Dollar. Ken Jennings berühmte Schlussanmerkung „I for one welcome our new computer overlords“ unterstrich die historische Bedeutung dieses NLP-Meilensteins.

Besiegte Jeopardy-Legenden Ken Jennings und Brad Rutter in im Fernsehen übertragener Challenge

Erste TV-Demonstration fortgeschrittener Natural Language Processing-Fähigkeiten für Millionen Zuschauer

DeepQA-System kombinierte Knowledge-Retrieval mit komplexem Reasoning ohne Internetverbindung

Ken Jennings' 'computer overlords'-Kommentar unterstrich kulturelle Bedeutung des KI-Fortschritts

Personen:David Ferrucci, Ken Jennings, Brad Rutter

Organisationen:IBM Research, Jeopardy!, Sony Pictures Television

2011Produkte

Siri Launch: Sprachassistentin wird Smartphone-Mainstream

Am 4. Oktober 2011 veränderte Apple die Mensch-Computer-Interaktion erheblich mit der Einführung von Siri auf dem iPhone 4S. Als erste tief ins Smartphone integrierte Massen-Sprachassistentin brachte Siri KI in die Hosentaschen von Millionen Menschen. 'Was ist heute für Wetter?' oder 'Finde mir ein gutes griechisches Restaurant' - plötzlich konnten Nutzer natürlich mit ihrem Telefon sprechen. Siri war dabei keine völlig neue Erfindung: Sie existierte seit 2010 als eigenständige iOS-App von Siri Inc. (von Apple übernommen), und Google bot mit Voice Actions bereits Sprachsuche an. Aber erst Apples nahtlose Integration ins Betriebssystem machte den Sprachassistenten zum Massenphänomen. Siri basierte auf jahrzehntelanger Forschung bei SRI International und DARPAs CALO-Projekt. Susan Bennett hatte bereits 2005 unwissentlich die Originalstimme aufgenommen. Steve Jobs, schwer krank in seinen letzten Lebenstagen, trat beim Launch-Event selbst nicht mehr auf - Tim Cook präsentierte das iPhone 4S. Einen Tag nach Siris Vorstellung verstarb Jobs. Siri war nicht perfekt - Kritiker bemängelten die steifen Kommandos und mangelnde Flexibilität. Aber das Ziel war erreicht: KI war mainstream geworden. Siri inspirierte Amazon Alexa, Google Assistant und Microsoft Cortana. Die Ära der Sprachassistenten hatte begonnen.

Erste tief ins Smartphone integrierte Massen-Sprachassistentin für Millionen Nutzer weltweit

Fortschrittliche natürliche Sprachverarbeitung ermöglichte intuitive Mensch-Computer-Kommunikation

Eines von Steve Jobs' letzten großen Produkten vor seinem Tod am 5. Oktober 2011

Begründete die moderne Ära der Sprachassistenten und inspirierte alle Konkurrenten

Personen:Steve Jobs, Susan Bennett, Tom Gruber, Adam Cheyer

Organisationen:Apple, SRI International, DARPA

2012Publikationen

Dropout Regularisierung

Geoffrey Hinton, Nitish Srivastava, Alex Krizhevsky, Ilya Sutskever und Ruslan Salakhutdinov verändern im Juli 2012 das Training neuronaler Netzwerke erheblich mit der Erfindung von Dropout Regularisierung. Diese elegante Technik verhindert Overfitting durch zufälliges Ausschalten etwa der Hälfte aller Neuronen während des Trainings, wodurch komplexe Ko-Adaptationen vermieden werden. Statt spezifischer Feature-Kombinationen lernt jedes Neuron robuste, allgemein nützliche Erkennungsmuster. Die am 3. Juli 2012 auf arXiv veröffentlichte Methode wurde wenige Monate später zu einem der Bausteine von AlexNets ImageNet-Triumph bei der ILSVRC 2012, deren Ergebnisse im Oktober 2012 vorgestellt wurden — neben GPU-Training, ReLU-Aktivierung und der Netztiefe — und wird zum Standard in den meisten modernen Deep Learning Architekturen. Dropout setzt neue Rekorde in Sprach- und Objekterkennung und löst das zentrale Overfitting-Problem tiefer Netzwerke.

Löst das zentrale Overfitting-Problem tiefer neuronaler Netzwerke

Zufälliges Ausschalten der Hälfte aller Neuronen während des Trainings

Einer der Bausteine von AlexNets ImageNet-Durchbruch — neben GPU-Training, ReLU und Netztiefe

Wird zum Standard in den meisten modernen Deep Learning Architekturen

Personen:Geoffrey Hinton, Nitish Srivastava, Alex Krizhevsky, Ilya Sutskever, Ruslan Salakhutdinov

Organisationen:University of Toronto

2012Durchbrüche

AlexNet-Erfolg

Der Wendepunkt für Deep Learning und moderne KI. Am 30. September 2012 wurden die Ergebnisse der ImageNet-Challenge veröffentlicht, die AlexNet mit einem derartigen Vorsprung für sich entschied, dass die Computer Vision nachhaltig verändert wurde. Alex Krizhevsky, Ilya Sutskever und Geoffrey Hinton von der Universität Toronto entwickelten eine CNN-Architektur, die ihre Konkurrenz um beachtliche 10,9 Prozentpunkte schlug – eine Verbesserung, die in der Wissenschaft als außergewöhnlich gilt. Mit 60 Millionen Parametern und innovativen Techniken wie ReLU-Aktivierungen und Dropout-Layern führte AlexNet die praktische Überlegenheit des Deep Learning eindrucksvoll vor Augen. Das war der Moment, als aus einer interessanten Theorie eine dominante Technologie wurde. Yann LeCun nannte es einen 'unzweifelhaften Wendepunkt in der Computer Vision-Geschichte'. Die GPU-basierte Implementierung ebnete den Weg für die moderne KI-Entwicklung.

AlexNet gewann die ImageNet 2012 Challenge mit 15,3% Fehlerrate – 10,9 Prozentpunkte besser als der zweitbeste Teilnehmer (26,2%)

60 Millionen Parameter, ReLU-Aktivierungen, Dropout-Layer und GPU-Training etablierten neue technische Standards

Führte die praktische Überlegenheit des Deep Learning eindrucksvoll vor Augen und beendete die Skepsis gegenüber neuronalen Netzen

Startete die moderne KI-Entwicklung und machte CNN-Architekturen zum Standard in der Computer Vision

Personen:Alex Krizhevsky, Geoffrey Hinton, Ilya Sutskever

Organisationen:University of Toronto, ImageNet Challenge, NIPS

2012Durchbrüche

Deep Learning-Revolution

Das Jahr, das die moderne KI-Ära einläutete durch die Konvergenz von Datensätzen, GPU-Power und neuronalen Architekturen. 2012 markierte den Aufstieg des Deep Learning als dominante KI-Technologie, katalysiert durch AlexNets beeindruckenden ImageNet-Sieg. Die Konvergenz dreier Entwicklungen machte dies möglich: Fei-Fei Lis ImageNet-Datensatz stellte massive beschriftete Trainingsdaten bereit, GPU-Computing erreichte die nötige Rechenpower für tiefe Netzwerke, und verbesserte Trainingsmethoden wie ReLU-Aktivierungen und Dropout-Regularisierung überwindeten alte Beschränkungen. Geoffrey Hintons Team – Alex Krizhevsky, Ilya Sutskever und Hinton selbst – bewies in Krizhevskys Elternhaus mit zwei Nvidia-Karten, dass Deep Neural Networks praktikabel waren. AlexNet erwies sich als Wendepunkt für die Computer Vision. Dieser Erfolg steigerte das Interesse an Deep Learning erheblich und ebnete den Weg für VGG, ResNet und schließlich die heutige Entwicklung der Generative AI.

Deep Learning etablierte sich als dominante KI-Technologie und beendete die Vorherrschaft traditioneller Machine Learning-Ansätze

AlexNets ImageNet-Sieg demonstrierte erstmals die praktische Überlegenheit tiefer neuronaler Netzwerke

GPU-Computing ermöglichte Training großer neuronaler Netzwerke und veränderte KI-Forschungsmethoden grundlegend

Löste massive Investitionen in Deep Learning-Forschung und industrielle Adoption neuronaler Architekturen aus

Personen:Geoffrey Hinton, Yann LeCun, Yoshua Bengio, Alex Krizhevsky, Ilya Sutskever

Organisationen:University of Toronto, NYU, University of Montreal

2013Publikationen

Word2Vec: Wörter als Vektoren

Die Transformation der Wort-Repräsentation durch semantische Vektorräume. Am 16. Januar 2013 veröffentlichte Tomas Mikolov mit seinem Google-Team das wegweisende Paper „Efficient Estimation of Word Representations in Vector Space“. Word2Vec transformierte NLP durch die Darstellung von Wörtern als dichte, niedrigdimensionale Vektoren (typisch 100 bis 300 Dimensionen), die semantische und syntaktische Beziehungen erfassen – ein Bruch mit den riesigen, dünn besetzten One-Hot-Vektoren früherer Verfahren. Die zwei Architektur-Varianten CBOW (Continuous Bag of Words) und Skip-Gram lernten aus großen Text-Korpora, dass ähnliche Wörter in ähnlichen Kontexten auftreten. Das berühmte Beispiel demonstrierte Vektor-Arithmetik: König - Mann + Frau = Königin. Mit über 49.000 Zitierungen wurde Mikolovs Arbeit zu einem der einflussreichsten NLP-Papers. Word2Vec legte das Fundament für alle modernen Embedding-Techniken und ermöglichte semantisches Reasoning in Vektorräumen. Diese Innovation ebnete den Weg für Transformer-Architekturen und moderne Large Language Models.

Erste effiziente dichte, niedrigdimensionale Vektor-Repräsentationen von Wörtern mit semantischen Beziehungen

Semantische und syntaktische Muster durch Vektor-Arithmetik: König - Mann + Frau = Königin

Ermöglichte analogisches Reasoning in Vektorräumen durch Cosinus-Ähnlichkeit und Distanz-Metriken

Legte Fundament für moderne Embedding-Techniken und Transformer-basierte Large Language Models

Personen:Tomas Mikolov, Kai Chen, Greg Corrado, Jeffrey Dean

Organisationen:Google, Google Research

2013Publikationen

VAE: Variational Autoencoders

Die Entwicklung probabilistischer generativer Modelle durch latente Raummodellierung. Am 20. Dezember 2013 veröffentlichten Diederik Kingma und Max Welling das Paper 'Auto-Encoding Variational Bayes'. VAEs verbinden Encoder- und Decoder-Netzwerke durch einen probabilistischen latenten Raum – typischerweise eine multivariate Gauss-Verteilung. Im Gegensatz zu deterministischen Autoencodern kodiert der Encoder Daten als Verteilungen statt Einzelpunkte, was kontinuierliche Interpolation und Datengeneration ermöglicht. Der Reparameterization Trick macht Zufälligkeit als Modell-Input differenzierbar und ermöglicht Standard-Gradientenoptimierung. In ihren Experimenten generierten VAEs handgeschriebene Ziffern (MNIST) und kleine Gesichtsbilder (Frey Faces) – noch verschwommen, aber als Machbarkeitsbeweis variational inference wegweisend. Diese Arbeit legte das Fundament für moderne generative KI und prägte spätere probabilistische Ansätze bis hin zu Diffusion Models.

Variational Inference für effiziente Approximation intraktabler Posterior-Verteilungen in kontinuierlichen latenten Variablen

Probabilistischer latenter Raum ermöglicht kontinuierliche Interpolation und Generierung neuer Datenpunkte

Wegweisende Verbindung von Autoencoder-Architektur mit skalierbarer probabilistischer generativer Modellierung durch amortisierte Variational Inference

Encoder-Decoder-Architektur mit Reparameterization Trick für differenzierbare Zufälligkeit

Personen:Diederik P. Kingma, Max Welling

Organisationen:University of Amsterdam

2014Publikationen

Adam: Der Standard-Optimierer des Deep Learning

Damit ein neuronales Netz lernt, muss ein Optimierer seine Millionen Stellschrauben Schritt für Schritt in die richtige Richtung drehen. 2014 stellten Diederik Kingma und Jimmy Ba dafür ein Verfahren vor, das schnell zum meistgenutzten der Branche wurde: Adam, ein Name, der sich von der englischen Bezeichnung Adaptive Moment Estimation ableitet (und kein Akronym ist). Adams Trick ist, für jeden einzelnen Parameter eine eigene, automatisch angepasste Lernrate zu führen. Dazu verbindet es zwei bewährte Ideen — Momentum, das die bisherige Richtung mitnimmt, und adaptive Schrittweiten im Stil von RMSProp. Das Ergebnis: Netze trainieren robust und ohne mühsames Herumprobieren an der Lernrate. Das Paper wurde zu einem der meistzitierten der KI-Forschung. Zur ehrlichen Einordnung: Adam ist kein Wundermittel. In manchen Fällen verallgemeinert das schlichtere SGD besser auf neue Daten. Außerdem baut Adam auf Vorläufern wie AdaGrad und RMSProp auf, und spätere Varianten wie AdamW (2017) mussten Schwächen des Originals erst noch ausbessern.

2014 stellten Diederik Kingma und Jimmy Ba den Optimierer Adam vor — der Name leitet sich von Adaptive Moment Estimation ab (kein Akronym).

Adam passt die Lernrate für jeden Parameter automatisch an und kombiniert dafür zwei Ideen: Momentum und adaptive Schrittweiten (wie bei RMSProp).

Adam wurde zum Standard-Werkzeug für das Training neuronaler Netze — robust und ohne mühsames Feintuning der Lernrate. Das Paper zählt zu den meistzitierten der KI-Forschung.

Anti-Hype: Adam ist kein Wundermittel — in manchen Fällen verallgemeinert schlichtes SGD besser. Es baut auf Vorläufern auf (AdaGrad, RMSProp); spätere Varianten wie AdamW (2017) korrigierten Schwächen.

Personen:Diederik Kingma, Jimmy Ba

2014Datensätze

MS COCO: Der Computer Vision Gold-Standard

2014 veränderte ein Forscherteam um Microsoft Research, die Cornell University und die UC Berkeley mit dem COCO-Dataset (Common Objects in Context) die Computer Vision Forschung erheblich. Anders als ImageNet mit isolierten Objekten zeigte COCO Gegenstände in ihrem natürlichen Kontext - wie sie in der realen Welt auftreten. 2,5 Millionen Annotationen in 328.000 Bildern, gegliedert in 91 Kategorien des Originalpapiers, von denen 80 den bis heute gebräuchlichen Detection-Benchmark bilden - allesamt Alltagsdinge, die ein 4-jähriges Kind erkennen könnte. Die Innovation lag im Detail: Pixel-genaue Segmentierungsmasken statt nur Bounding Boxes. COCO ermöglichte erstmals präzise Objektlokalisierung und komplexe Szenenverständnis. Das Dataset wurde zum Goldstandard für Object Detection, Instance Segmentation und Image Captioning. Von YOLO bis Mask R-CNN - alle großen Computer Vision Modelle werden an COCO gemessen. Die standardisierten Metriken wie mean Average Precision (mAP) machten Modellvergleiche objektiv möglich. Über ein Jahrzehnt später ist COCO immer noch der wichtigste Benchmark der CV-Community. Ohne COCO gäbe es keine modernen Objekterkennungs-Systeme in autonomen Fahrzeugen, Überwachung oder Augmented Reality.

Objekte in natürlichem Kontext statt isoliert - veränderte Computer Vision erheblich von künstlichen zu realen Szenen

2,5 Millionen pixel-genaue Annotationen in 328k Bildern - beispiellose Annotationsqualität und -tiefe

Goldstandard mit mAP-Metriken für objektive Modellvergleiche - definierte Computer Vision Evaluation

Fundament für YOLO, Mask R-CNN und alle modernen CV-Systeme - von autonomen Autos bis AR

Personen:Tsung-Yi Lin, Michael Maire, Serge Belongie

Organisationen:Microsoft Research, Cornell University, UC Berkeley

2014Publikationen

GANs - Generative Adversarial Networks

Ian Goodfellow erfindet 2014 Generative Adversarial Networks (GANs) während einer Nacht in Montreal nach einem Kneipenbesuch. Sein wegweisendes Framework lässt zwei neuronale Netze in einem Minimax-Spiel gegeneinander antreten: Ein Generator erschafft künstliche Daten, ein Diskriminator versucht echte von gefälschten zu unterscheiden. Dieses adversarielle Training verändert die generative KI grundlegend. Das Ur-GAN von 2014 erzeugte zwar nur kleine, unscharfe Bilder (etwa von Ziffern und Gesichtern), ebnete aber den Weg zur später fotorealistischen Bildgenerierung. Die 2014 auf arXiv veröffentlichte Arbeit wird zu einem der einflussreichsten KI-Papers und macht Goodfellow zur KI-Berühmtheit. Hunderte GAN-Varianten folgen.

Zwei neuronale Netze im Minimax-Spiel: Generator vs. Diskriminator

Erfunden in einer Nacht 2014 in Montreal nach Kneipenbesuch - funktionierte sofort

Mathematisch elegantes Framework für adversarielle Optimierung

Verändert generative KI grundlegend - ebnet den Weg zur später fotorealistischen Bildgenerierung

Personen:Ian Goodfellow, Jean Pouget-Abadie, Mehdi Mirza, Bing Xu, David Warde-Farley, Sherjil Ozair, Aaron Courville, Yoshua Bengio

Organisationen:University of Montreal, NIPS Conference

2014Publikationen

Attention Mechanism: Der Schlüssel zu modernen LLMs

September 2014: Dzmitry Bahdanau, Kyunghyun Cho und Yoshua Bengio veröffentlichten ein Paper, das die NLP-Welt nachhaltig verändern sollte. 'Neural Machine Translation by Jointly Learning to Align and Translate' löste ein grundlegendes Problem der Sequence-to-Sequence-Modelle. Bisherige Encoder-Decoder-Architekturen quetschten jeden Eingabesatz in einen einzigen Festlängen-Vektor - ein Informations-Flaschenhals bei langen Sätzen. Die Bahdanau-Attention war ein bedeutender Fortschritt: Statt einem fixen Vektor nutzte das Modell dynamische Aufmerksamkeit auf verschiedene Teile des Eingabesatzes. Wie das menschliche Auge beim Lesen springt die KI-Attention zwischen relevanten Wörtern hin und her. Diese 'Additive Attention' wurde zum konzeptionellen Wegbereiter moderner NLP-Systeme. Der spätere Transformer (2017) baute auf der Attention-Idee auf, ersetzte die additive Variante aber durch effizientere Scaled-Dot-Product-Attention. Ohne Bahdanaus Attention-Konzept keine Transformer, ohne Transformer keine GPT-Familie oder BERT. Dieser Durchbruch ereignete sich drei Jahre vor 'Attention Is All You Need.'

Löste Encoder-Decoder Flaschenhals: Variable Satzlängen statt fixer Vektor-Kompression

Dynamische Aufmerksamkeit statt statische Kodierung: Adaptive Fokussierung auf relevante Eingabeteile

Lernt Alignment zwischen Sprachen: Welche Wörter entsprechen sich beim Übersetzen?

Konzeptioneller Wegbereiter der Transformer: Die Attention-Idee von Bahdanau ebnete den Weg zu GPT, BERT und ChatGPT

Personen:Dzmitry Bahdanau, Kyunghyun Cho, Yoshua Bengio

Organisationen:University of Montreal, Jacobs University Bremen

2014Produkte

Amazon Alexa & Echo Launch

Amazon verändert mit der Vorstellung von Alexa und dem Echo Smart Speaker am 6. November 2014 die Interaktion zwischen Mensch und Technologie erheblich. Der Echo startet zunächst nur auf Einladung und ausschließlich für Prime-Mitglieder; erst mit dem öffentlichen Verkauf 2015 wird Voice AI für breite Verbraucherkreise zugänglich und verwandelt das Zuhause in eine sprachgesteuerte Umgebung. Aufbauend auf der am 24. Januar 2013 erworbenen polnischen Sprachsynthese-Technologie Ivona schafft Amazon ein neuartiges Nutzererlebnis. Der Echo startet als Musiksteuerungsgerät, entwickelt sich aber schnell zum universellen Smart Home Hub. Diese Innovation begründet eine Massenkategorie und markiert den Beginn einer weitreichenden Entwicklung im Smart Speaker Markt, die zahlreiche Konkurrenten inspiriert.

Begründet die Massenkategorie Smart Speaker mit permanenter Sprachbereitschaft

Macht Voice AI über den öffentlichen Verkauf ab 2015 für Millionen von Verbrauchern zugänglich - nicht nur Tech-Enthusiasten

Transformiert Wohnzimmer in sprachgesteuerte Smart Home Zentrale

Markiert den Beginn einer weitreichenden Marktentwicklung - Google, Apple und andere folgen

Personen:Jeff Bezos, Amazon Alexa Team

Organisationen:Amazon, Ivona (acquired 2013)

2015Durchbrüche

Deep Q-Networks: KI lernt Atari aus Pixeln

Lange bevor AlphaGo Schlagzeilen machte, brachte DeepMind 2015 eine KI dazu, Atari-Videospiele allein aus den rohen Bildpunkten zu lernen — und legte damit den Grundstein des Deep Reinforcement Learning. Im Februar 2015 stellte das Team um Volodymyr Mnih in Nature „Human-level control through deep reinforcement learning“ vor (ein erster Vorläufer war 2013 erschienen). Ein neuronales Netz, das nur Bildschirm und Punktestand sah, lernte 49 verschiedene Atari-Spiele — mit derselben Architektur, ohne pro Spiel nachzujustieren. Technisch verband DeepMind ein Faltungsnetz mit Q-Learning, einem Erfahrungs-Speicher (Experience Replay, von Lin Anfang der 1990er eingeführt) und einem stabilisierenden Ziel-Netzwerk. Bei der Einordnung lohnt Präzision: Das System erreichte auf etwa der Hälfte der Spiele menschliches Niveau und schlug auf 43 von 49 alle früheren Verfahren — bei Spielen mit seltener Belohnung wie Montezuma's Revenge scheiterte es jedoch fast völlig. Trotzdem war es der Beweis, dass tiefe Netze und Reinforcement Learning im großen Maßstab zusammenpassen — die Brücke vom Q-Learning der 1990er zu AlphaGo und AlphaZero.

Lernen aus rohen Pixeln: Das System sah nur Bildschirm und Punktestand — keine handgebauten Merkmale, kein Spezialwissen pro Spiel.

Faltungsnetz + Q-Learning + Erfahrungs-Speicher (Experience Replay, von Lin in den frühen 1990ern eingeführt) + ein 2015 ergänztes Ziel-Netzwerk, das das Training stabilisierte.

Anti-Hype: menschliches Niveau auf etwa der Hälfte der 49 Spiele (43/49 besser als frühere Verfahren) — bei seltener Belohnung (Montezuma's Revenge) nahe null.

Startschuss des Deep Reinforcement Learning; machte DeepMind vor AlphaGo bekannt — die Brücke vom Q-Learning zu AlphaGo und AlphaZero.

Personen:Volodymyr Mnih, David Silver, Demis Hassabis

Organisationen:Google DeepMind

2015Publikationen

Batch Normalization: Wichtiger Fortschritt im Neural Network Training

Am 11. Februar 2015 veröffentlichten Sergey Ioffe und Christian Szegedy von Google ein Paper, das das Training tiefer neuronaler Netzwerke nachhaltig veränderte. Ihre Diagnose: der „Internal Covariate Shift“ — die Eingabeverteilung jeder Schicht verschiebt sich während des Trainings, was das Lernen instabil macht. Ihre elegante Lösung: Batch Normalization normalisiert die Aktivierungen jeder Schicht für jeden Mini-Batch. Der Effekt war beachtlich: rund 14x weniger Trainings-Schritte bis zur gleichen Genauigkeit. Höhere Lernraten wurden möglich, Dropout oft überflüssig, die Initialisierung weniger kritisch. Das Verfahren wirkte zugleich als Regularisierer und Beschleuniger. Ihr ImageNet-Ensemble erreichte 4,8% Top-5 Fehlerrate und übertraf damit menschliche Rater (ca. 5,1%). Interessant: Spätere Forschung (Santurkar et al. 2018) zeigte, dass der eigentliche Wirkmechanismus weniger im gebändigten Covariate Shift liegt als in einer geglätteten Verlustlandschaft — die ursprüngliche Erklärung gilt heute also als relativiert. Mit inzwischen weit über 60.000 Zitierungen inspirierte das Paper unzählige Normalisierungsmethoden: GroupNorm, LayerNorm, InstanceNorm. Heute ist Batch Normalization Standard in vielen modernen Architekturen von ResNet bis zu modernen CNNs — Transformer dagegen setzen meist auf die hier mitinspirierte Layer Normalization.

Löste Internal Covariate Shift Problem durch Normalisierung der Aktivierungen in jedem Mini-Batch

Rund 14x weniger Trainings-Schritte bis zur gleichen Genauigkeit - ermöglichte höhere Lernraten und robuste Initialisierung

Doppelter Nutzen: Beschleunigung UND Regularisierung - oft Dropout-Ersatz in modernen Architekturen

4,8% ImageNet Top-5 Error mit Ensemble - übertraf menschliche Rater (ca. 5,1%) und setzte neuen Standard

Personen:Sergey Ioffe, Christian Szegedy

Organisationen:Google Inc., ICML Conference

2015Publikationen

YOLO: You Only Look Once

Die Transformation der Echtzeit-Objekterkennung durch vereinheitlichte Single-Pass-Architektur. Am 8. Juni 2015 stellten Joseph Redmon, Santosh Divvala, Ross Girshick und Ali Farhadi das wegweisende Paper 'You Only Look Once: Unified, Real-Time Object Detection' vor. YOLO durchbrach das traditionelle zwei-stufige Paradigma der Objekterkennung und formulierte Detection als Regression-Problem für räumlich getrennte Bounding Boxes. Ein einziges neuronales Netzwerk sagt Bounding Boxes und Klassen-Wahrscheinlichkeiten direkt aus vollständigen Bildern in einer einzigen Evaluation vorher. Mit 45 fps Basis-Performance und Fast YOLO bei erstaunlichen 155 fps war das System hunderte bis tausende Male schneller als existierende Detektoren. Die Grid-basierte Architektur teilte Bilder in Zellen auf, wobei jede Zelle Objekte in ihrem Zentrum vorhersagt. YOLO lernte generalisierende Objekt-Repräsentationen und übertraf andere Methoden bei Domain-Transfer erheblich.

45 fps Basis-Performance, Fast YOLO 155 fps – hunderte bis tausende Male schneller als existierende Detektoren

Single-Pass-Architektur formuliert Objekterkennung als Regression-Problem statt zwei-stufigem Paradigma

Grid-basierte Zell-Aufteilung mit direkter Bounding Box und Klassen-Wahrscheinlichkeits-Vorhersage

Ermöglichte Echtzeit-Computer Vision für autonome Fahrzeuge, Überwachung und mobile Anwendungen

Personen:Joseph Redmon, Santosh Divvala, Ross Girshick, Ali Farhadi

Organisationen:University of Washington, Allen Institute, Facebook AI Research

2015Durchbrüche

DeepMind AlphaGo Entwicklung

Im Oktober 2015 gelingt DeepMind ein historischer Durchbruch: AlphaGo wird das erste KI-System, das einen professionellen Go-Spieler auf einem vollständigen Brett ohne Handicap besiegt. AlphaGo schlägt den europäischen Go-Champion Fan Hui mit 5:0 und erobert damit das komplexeste klassische Brettspiel der Welt – ein Jahrzehnt früher als von Experten vorhergesagt. Das Match bleibt zunächst geheim; öffentlich bekannt gegeben wird der Erfolg erst am 27. Januar 2016, zusammen mit der Veröffentlichung im Fachjournal Nature. Go ist astronomisch komplexer als Schach – grob ein Googol (10^100) mal mehr legale Stellungen, mit mehr möglichen Brettkonfigurationen als Atome im bekannten Universum. Dieser bemerkenswerte Erfolg demonstriert die Macht neuronaler Netzwerke und Monte-Carlo-Baumsuche.

Erster Computersieg gegen Profi-Go-Spieler auf vollständigem Brett ohne Handicap (Fan Hui 5:0)

Neuartiger Ansatz mit Deep Neural Networks statt hartcodierter Algorithmen

Bewältigung von 10^170 möglichen Brettkonfigurationen - mehr als Atome im Universum

Durchbruch kam ein Jahrzehnt früher als von KI-Experten prognostiziert

Personen:Demis Hassabis, David Silver, DeepMind Team

Organisationen:DeepMind, Google

2015Produkte

Tesla Autopilot: Assistenzsysteme für den Massenmarkt

Am 14. Oktober 2015 veröffentlichte Tesla die Software-Version 7.0 und aktivierte damit erstmals den Autopilot für Model S Fahrzeuge. Die Hardware war bereits seit September 2014 in den Fahrzeugen verbaut – ein Jahr vor der Software-Freischaltung. Das System nutzte Mobileye-Technologie mit einer Frontkamera, Radar und 12 Ultraschallsensoren. Fahrer konnten nun adaptive Geschwindigkeitsregelung, Spurhalteassistent und automatisches Einparken nutzen – Funktionen, die zuvor Oberklassefahrzeugen vorbehalten waren. Tesla bezeichnete es als Level 2 Autonomie: Das System unterstützt den Fahrer, ersetzt ihn aber nicht. Musk betonte bei der Freigabe: ‚Wir raten Fahrern, die Hände am Lenkrad zu lassen.‘ Schon im ersten Jahr sammelte die Tesla-Flotte hunderte Millionen Kilometer mit aktivem Autopilot – bis Ende 2016 meldete Tesla rund 222 Millionen gefahrene Meilen. Das Konzept – Hardware vorinstallieren, Features per Software-Update freischalten – zeigte der Automobilindustrie einen neuen Weg. Von Mercedes bis zu reinen Tech-Anbietern wie Mobileye trieben zahlreiche Akteure ihre eigenen Fahrassistenzsysteme voran.

Software-Update vom 14. Oktober 2015 aktivierte vorinstallierte Hardware - neues Konzept für die Automobilindustrie

Mobileye-basierte Sensorik: Frontkamera, Radar und 12 Ultraschallsensoren für Level 2 Fahrassistenz

Adaptive Geschwindigkeitsregelung, Spurhalteassistent und automatisches Einparken - zuvor Oberklasse-Features

Hunderte Millionen Kilometer schon im ersten Jahr - zeigte Massenmarkt-Bereitschaft für Fahrassistenzsysteme

Personen:Elon Musk, Tesla Engineering Team

Organisationen:Tesla Inc., Mobileye

2015Produkte

TensorFlow: Googles ML-Framework wird Open Source

Die Demokratisierung des Machine Learning durch Googles mächtiges internes Werkzeug. Am 9. November 2015 open-sourcte Google TensorFlow unter Apache 2.0-Lizenz und machte ihr zweites ML-System für jedermann verfügbar. TensorFlow ersetzte das interne DistBelief-System und bot doppelte Geschwindigkeit bei verbesserter Skalierbarkeit und Produktionsreife. Als universeller computational flow graph-Prozessor ermöglichte TensorFlow nicht nur Deep Learning, sondern jede differenzierbare Berechnung. Die flexibile Python-Schnittstelle, Auto-Differentiation und erstklassige Optimierer revolutionierten ML-Entwicklung. Googles Strategie: Community-basierte Entwicklung beschleunigt KI-Fortschritt für alle. Mit über 30 Autoren vom Google Brain-Team entwickelt, wurde TensorFlow zu einer der führenden ML-Plattformen und ermöglichte es Millionen von Entwicklern, fortgeschrittene KI-Anwendungen zu erstellen.

Apache 2.0-Lizenz machte Googles mächtiges internes ML-System für jedermann frei verfügbar

Ersetzte DistBelief mit doppelter Geschwindigkeit und verbesserter Skalierbarkeit

Flexible Python-Schnittstelle und Auto-Differentiation verbesserten ML-Entwicklung erheblich

Ermöglichte Millionen Entwicklern den Zugang zu fortgeschrittener KI-Technologie

Personen:Martín Abadi, Ashish Agarwal, Paul Barham, Jeff Dean

Organisationen:Google, Google Brain

2015Publikationen

ResNet: Residual Networks revolutionieren Deep Learning

Die Lösung des Degradationsproblems sehr tiefer Netze und die Geburt ultra-tiefer Netzwerke. Am 10. Dezember 2015 veröffentlichte Kaiming Hes Team bei Microsoft Research das Paper 'Deep Residual Learning for Image Recognition' und veränderte Deep Learning erheblich. Bis dahin verschlechterte sich die Trainingsgenauigkeit, wenn man Netze immer tiefer stapelte - nicht primär wegen verschwindender Gradienten, sondern weil tiefe Netze schlicht schwerer zu optimieren waren. ResNet führte Residual Connections ein - Skip-Verbindungen, die Eingaben direkt an spätere Schichten weiterleiten und das Training ultra-tiefer Netzwerke ermöglichen. Mit 152 Schichten war ResNet achtfach tiefer als VGG, aber weniger komplex. Das bemerkenswerte Ergebnis: 3,57% Top-5-Fehlerrate des Modell-Ensembles auf ImageNet - ein Triumph, der alle Kategorien dominierte. ResNet gewann ImageNet Classification, Detection, Localization sowie COCO Detection und Segmentation 2015. Das Residual Learning-Framework reformulierte Schichten als Lernen von Residual-Funktionen statt unreferenzierter Funktionen. Diese Innovation ermöglichte das Training von Netzwerken mit Hunderten von Schichten.

Skip-Verbindungen leiten Eingaben direkt weiter und ermöglichen Training ultra-tiefer Netzwerke

152 Schichten – 8x tiefer als VGG aber weniger komplex durch Residual Learning Framework

3,57% Top-5-Fehlerrate (Ensemble) auf ImageNet, gewann alle 2015 ILSVRC & COCO Kategorien

Etablierte Residual Connections als Standard für moderne Deep Learning-Architekturen

Personen:Kaiming He, Xiangyu Zhang, Shaoqing Ren, Jian Sun

Organisationen:Microsoft Research

2015Meilensteine

OpenAI wird gegründet

Die Organisation, die KI für alle zugänglich machen wollte – und die Welt veränderte. Am 11. Dezember 2015 kündigten Sam Altman, Elon Musk und andere prominente Tech-Persönlichkeiten die Gründung von OpenAI an. Mit einer zugesagten Milliarde Dollar – einem über mehrere Jahre verteilten Finanzierungsversprechen der Geldgeber, von dem anfangs nur ein Bruchteil tatsächlich floss – und dem Ziel, sichere allgemeine KI zu entwickeln, die der gesamten Menschheit nützt, betrat OpenAI als gemeinnützige Forschungsorganisation die Bühne. Was als idealistisches Unterfangen begann, entwickelte sich zum einflussreichsten KI-Labor der Welt. 2019 wurde eine gewinnorientierte Tochtergesellschaft gegründet. Mit GPT-3 und ChatGPT definierte OpenAI neu, was KI leisten kann.

Gegründet am 11. Dezember 2015 in San Francisco

Mission: Sichere allgemeine KI entwickeln, die der gesamten Menschheit nützt

Zugesagt: 1 Milliarde Dollar von Elon Musk, Peter Thiel, Reid Hoffman und anderen - ein Finanzierungsversprechen über mehrere Jahre, nicht sofort verfügbar

GPT-1 (2018) und GPT-2 (2019) entstanden noch in der reinen Non-Profit-Phase; 2019 folgte die capped-profit-Struktur, in die GPT-3 (2020) und ChatGPT (2022) fallen

Personen:Sam Altman, Elon Musk, Greg Brockman, Ilya Sutskever, Wojciech Zaremba, John Schulman

Organisationen:OpenAI, Y Combinator

2016Wettbewerbe

AlphaGo besiegt Lee Sedol

Der historische Moment, als KI erstmals einen Weltmeister im komplexesten Brettspiel besiegte. Vom 9. bis 15. März 2016 fand in Seoul das DeepMind Challenge Match statt – fünf Partien zwischen Lee Sedol, einem der weltbesten Go-Spieler, und AlphaGo. Das Ergebnis verblüfte die Welt: 4:1 für die Maschine. Besonders der berühmte 'Zug 37' in Partie zwei demonstrierte maschinelle Kreativität – ein Zug mit einer Wahrscheinlichkeit von 1:10.000, der jahrhundertealte Go-Weisheiten auf den Kopf stellte. AlphaGo kombinierte Deep Learning mit Monte-Carlo-Baumsuche und trainierte sowohl mit menschlichen Partien als auch durch Selbstspiele. Lee Sedols Antwort in Partie vier mit seinem 'göttlichen Zug 78' zeigte jedoch, dass menschliche Intuition noch immer überraschen kann. Über 200 Millionen Menschen verfolgten diese Partien weltweit.

AlphaGo besiegte Lee Sedol 4:1 und demonstrierte erstmals KI-Überlegenheit im komplexesten Brettspiel

Der berühmte 'Zug 37' mit 1:10.000 Wahrscheinlichkeit zeigte maschinelle Kreativität und stellte Go-Traditionen infrage

Kombination aus Deep Learning und Monte-Carlo-Baumsuche ermöglichte das Meistern der Go-Komplexität

Über 200 Millionen Menschen verfolgten die Partien – ein Wendepunkt für die öffentliche KI-Wahrnehmung

Personen:Lee Sedol, Demis Hassabis, David Silver, Aja Huang

Organisationen:DeepMind, Google, Korean Baduk Association

2016Publikationen

XGBoost: Extreme Gradient Boosting dominiert ML

Die Perfektionierung des Gradient Boosting und die Eroberung strukturierter Daten-Probleme. Am 9. März 2016 veröffentlichten Tianqi Chen und Carlos Guestrin auf arXiv das Paper XGBoost: A Scalable Tree Boosting System, präsentiert im August 2016 auf der KDD-Konferenz. Aus Chens PhD-Projekt an der University of Washington entwickelt, verbesserte XGBoost traditionelles Gradient Boosting durch extreme Optimierungen erheblich: L1- und L2-Regularisierung verhinderten Overfitting, Second-Order-Gradients lieferten präzisere Richtungsinformationen, und Parallelisierung beschleunigte Tree-Construction erheblich. XGBoost dominierte Machine Learning-Wettbewerbe der 2010er und wurde zur Standard-Wahl für Gewinner-Teams auf Kaggle. Bei der Higgs Boson ML Challenge gewann Tianqi Chen einen Spezialpreis und XGBoost wurde von vielen Top-Teilnehmern eingesetzt, was seine Dominanz bei strukturierten Daten etablierte. Das skalierbare End-to-End Tree Boosting System unterstützt C++, Java, Python, R und weitere Sprachen. XGBoost bewies die anhaltende Relevanz traditioneller ML-Methoden parallel zur Deep Learning-Revolution.

Extreme Optimierung von Gradient Boosting mit L1/L2-Regularisierung und Second-Order-Gradients

Dominierte ML-Wettbewerbe der 2010er und wurde Standard-Wahl für Kaggle-Gewinner-Teams

Parallelisierte Tree-Construction und skalierbare End-to-End-Architektur für große Datensätze

Go-to-Algorithmus für strukturierte Daten parallel zur Deep Learning-Revolution

Personen:Tianqi Chen, Carlos Guestrin

Organisationen:University of Washington

2016Produkte

Google Assistant: KI-First Strategie wird Realität

Am 18. Mai 2016 stellte Sundar Pichai auf der Google I/O den Google Assistant vor - Googles Antwort auf Siri und Alexa. Nach Jahren des Rückstands im Voice-Assistant-Bereich holte Google mit voller Kraft auf. Der Assistant war mehr als ein Upgrade von Google Now - er war das Fundament von Pichais „AI-First“ Strategie. „Wir wollen, dass Nutzer einen kontinuierlichen Dialog mit Google führen“, erklärte Pichai. „Wir bauen für jeden Nutzer sein eigenes individuelles Google.“ Der Assistant sollte ein „ambient experience“ werden, das sich über alle Geräte erstreckt - von Smartphones über Google Home bis zu Autos. Im Gegensatz zu kommandobasierten Konkurrenten setzte Google auf natürliche Konversation und Kontextverständnis. Zunächst war der Assistant nur angekündigt; sein erstes Zuhause wurde wenige Monate später die Messaging-App Allo, gefolgt vom Lautsprecher Google Home Ende 2016. Der Launch markierte Googles ernsthaften Einstieg in die Voice-AI-Entwicklung und legte den Grundstein für die heutige KI-Dominanz des Unternehmens.

Natürliche Konversation statt Kommandos - 'kontinuierlicher Dialog' als Ziel für Voice-AI

Fundament von Pichais AI-First Strategie - 'individuelles Google' für jeden Nutzer

Ambient Experience Vision - nahtlose KI-Interaktion über alle Geräte und Plattformen hinweg

Googles Aufholjagd gegen Siri und Alexa - vom Nachzügler mit dem Ziel, in der Voice-AI vorne mitzuspielen

Personen:Sundar Pichai, Google Assistant Team

Organisationen:Google Inc., Google I/O Conference

2016Organisationen

Partnership on AI: Tech-Giganten vereinen sich

Eine bedeutende Allianz führender Tech-Unternehmen für verantwortliche KI-Entwicklung. Am 28. September 2016 gründeten Amazon, Facebook, Google, DeepMind, IBM und Microsoft die ‚Partnership on Artificial Intelligence to Benefit People and Society‘ – eine ungewöhnliche Koalition ehemaliger Konkurrenten. Mit Eric Horvitz (Microsoft Research) und Mustafa Suleyman (DeepMind) als Interim-Co-Chairs startete die Partnership zunächst mit einem rein corporate besetzten Board und kündigte an, ihn zu einem paritätischen Gremium mit ebenso vielen Non-Corporate-Mitgliedern auszubauen. Die Mission umfasst Forschung und Best Practices zu Ethik, Fairness, Transparenz, Datenschutz und Mensch-KI-Kollaboration. Bemerkenswert: Apple fehlte zunächst, trat aber 2017 bei. Die Partnership verzichtet bewusst auf Lobby-Aktivitäten und fokussiert auf Forschungskooperation. Diese Initiative markierte den Beginn strukturierter Industrie-Selbstregulierung in der KI-Entwicklung.

Bedeutende Allianz von Amazon, Facebook, Google, DeepMind, IBM und Microsoft für KI-Ethik

Mission: KI zum Nutzen von Menschen und Gesellschaft durch Ethik, Fairness und Transparenz

Geplant paritätischer Board: zum Start corporate besetzt, später ergänzt um ebenso viele Non-Corporate-Mitglieder

Fokus auf Forschungskooperation und Best Practices ohne Lobby-Aktivitäten

Personen:Mustafa Suleyman, Eric Horvitz, Partnership Team

Organisationen:Amazon, Apple, Facebook, Google, IBM, Microsoft

2016Durchbrüche

Spracherkennung erreicht Mensch-Level

Am 18. Oktober 2016 gelang Microsoft ein historischer Erfolg: Als erstes Unternehmen erreichte ihr Spracherkennungssystem Mensch-Level-Performance auf dem Switchboard-Benchmark für konversationelle Sprache. Nach 25 Jahren Forschung war das Ziel erreicht - 5,9% Wortfehlerrate, genauso gut wie professionelle Transkriptoren auf dieser Aufgabe. (2017 korrigierte Microsoft die menschliche Vergleichsrate auf 5,1% und musste erneut nachziehen.) Xuedong Huang, Microsofts Chief Speech Scientist, verkündete: 'Wir haben Mensch-Parität erreicht. Das ist eine historische Errungenschaft.' Das System nutzte die neueste Deep Learning Technologie: Convolutional Neural Networks, LSTM-Architekturen und neuronale Sprachmodelle mit kontinuierlichen Wortvektoren. Die Stärke lag in der systematischen Kombination bewährter Bausteine - ein Ensemble aus CNN- und BLSTM-Akustikmodellen, i-vector-Sprecheradaption und Rescoring per Sprachmodell. Dies wurde möglich durch die Konvergenz dreier Entwicklungen: große Datensätze (Switchboard Corpus), GPU-Computing und verbesserte Training-Methoden. Diese Errungenschaft ebnete den Weg für moderne Voice-Assistenten - allerdings belegt sie Parität nur bei einer eng definierten Transkriptions-Aufgabe, nicht allgemeine menschliche kognitive Fähigkeiten.

5,9% Wortfehlerrate erreicht Mensch-Level auf Switchboard: genauso gut wie professionelle Transkriptoren

Historischer Meilenstein: Niedrigste jemals gemessene Fehlerrate im Switchboard-Standard

CNN + LSTM + neuronale Sprachmodelle: Systematische Kombination modernster Deep Learning Technologie

25-jähriges Forschungsziel erreicht: Mensch-Parität bei einer eng definierten Transkriptions-Aufgabe

Personen:Xuedong Huang, Microsoft AI Research Team

Organisationen:Microsoft AI and Research, Switchboard Corpus

2017Regulierung

Asilomar-Prinzipien: Die Fachwelt gibt sich Leitplanken

Anfang 2017, lange vor ChatGPT, trafen sich führende KI-Forscher in Asilomar an der kalifornischen Küste — am selben Ort, an dem Biologen 1975 über die Risiken der Gentechnik beraten hatten. Eingeladen hatte das Future of Life Institute zur Konferenz für nützliche KI. Das Ergebnis waren die 23 Asilomar-KI-Prinzipien: Leitlinien zu Forschung, zu Werten wie Sicherheit und Transparenz und zu langfristigen Risiken. Über tausend KI-Fachleute und prominente Unterzeichner wie Stephen Hawking und Elon Musk stellten sich dahinter. Es war einer der ersten breiten Versuche der Fachwelt, sich selbst Leitplanken zu geben — Jahre bevor Regierungen das Thema entdeckten. Zur ehrlichen Einordnung: Die Prinzipien waren freiwillig und unverbindlich. Sie prägten die Debatte, hatten aber keine rechtliche Kraft.

Januar 2017: Das Future of Life Institute versammelte führende KI-Forscher in Asilomar (Kalifornien) — am Ort der historischen Gentechnik-Konferenz von 1975.

Ergebnis: die 23 Asilomar-KI-Prinzipien zu Forschung, Werten (Sicherheit, Transparenz) und Langzeitrisiken — eine der ersten breiten Selbstverpflichtungen der Fachwelt.

Über tausend KI-Forscher und weitere Unterzeichner (u. a. Stephen Hawking, Elon Musk) — früher Konsens, dass KI dem Gemeinwohl dienen soll.

Anti-Hype: Die Prinzipien waren freiwillig und unverbindlich — wegweisend als Diskussionsrahmen, aber ohne Durchsetzung.

Personen:Stephen Hawking, Elon Musk

Organisationen:Future of Life Institute

2017Publikationen

MobileNet - KI für Smartphones

Google Research verändert im April 2017 Mobile KI erheblich mit MobileNet, einem der frühen Deep-Learning-Modelle, das gezielt für Smartphones, IoT und eingebettete Systeme entworfen wurde (Vorläufer wie SqueezeNet gab es bereits). Durch die innovative Depthwise Separable Convolution-Architektur senkt MobileNet den Rechenaufwand bei gleicher Effektivität auf etwa ein Achtel herkömmlicher Convolutions. Diese bemerkenswerte Effizienz – rund neunmal weniger Rechenoperationen bei 3×3-Kerneln – ebnet den Weg für Echtzeit-Bildverarbeitung auf mobilen Geräten. MobileNet demokratisiert Computer Vision für Milliarden von Smartphones und etabliert Edge Computing als neues KI-Paradigma jenseits Cloud-basierter Lösungen.

Eines der frühen Deep-Learning-Modelle, gezielt für Smartphones und IoT-Geräte entworfen

Depthwise Separable Convolutions: rund neunmal weniger Rechenaufwand bei gleicher Effektivität

Ermöglicht KI-Verarbeitung direkt auf Geräten statt in der Cloud - Edge Computing

Senkt den Rechenaufwand auf etwa ein Achtel herkömmlicher Convolutions bei vergleichbarer Genauigkeit

Personen:Andrew Howard, Menglong Zhu, Bo Chen, Google Research Team

Organisationen:Google, Google Research

2017Publikationen

RLHF-Forschungspapier veröffentlicht

Die Technik, die ChatGPT möglich machte – Jahre vor dem Durchbruch. Im Juni 2017 veröffentlichten Forscher von OpenAI und DeepMind das Paper 'Deep Reinforcement Learning from Human Preferences'. Die Idee: Statt KI-Systeme mit perfekt definierten Belohnungsfunktionen zu trainieren, lernen sie direkt aus menschlichem Feedback. Menschen bewerten verschiedene KI-Ausgaben, und das System lernt, welches Verhalten bevorzugt wird. Diese Methode, später als RLHF (Reinforcement Learning from Human Feedback) bekannt, wurde zur Schlüsseltechnologie hinter ChatGPT und anderen modernen Sprachmodellen. RLHF ermöglichte es, KI-Systeme hilfreicher, ehrlicher und sicherer zu machen.

Paper 'Deep Reinforcement Learning from Human Preferences' veröffentlicht im Juni 2017

Kernidee: KI lernt aus menschlichen Präferenzen statt aus vordefinierten Belohnungen

Gemeinsame Forschung von OpenAI und DeepMind, u.a. Paul Christiano und Dario Amodei

RLHF wurde zur Schlüsseltechnologie für ChatGPT und moderne KI-Assistenten

Personen:Paul Christiano, Jan Leike, Dario Amodei, Tom Brown

Organisationen:OpenAI, DeepMind

2017Publikationen

Transformer: 'Attention Is All You Need'

Am 12. Juni 2017 veröffentlichten acht Forscher – überwiegend bei Google, darunter ein Praktikant der University of Toronto – auf arXiv das Paper ‚Attention Is All You Need‘ – die Grundlage moderner Large Language Models. Ashish Vaswani, Noam Shazeer und Kollegen schlugen eine neue Architektur vor: den Transformer. Anders als bisherige Sequenzmodelle verzichtet der Transformer auf rekurrente und faltende Schichten. Stattdessen nutzt er reine Attention-Mechanismen. Die Self-Attention erfasst Beziehungen zwischen allen Positionen einer Sequenz parallel – keine sequenzielle Verarbeitung mehr nötig. Multi-Head Attention verwendet mehrere parallele Attention-Köpfe, die unterschiedliche Aspekte von Wortbeziehungen lernen. Auf WMT 2014 erreichte das Modell 28,4 BLEU für Englisch-Deutsch und 41,8 BLEU für Englisch-Französisch – neue Bestwerte. Die Architektur erwies sich als weitreichend: GPT, BERT, ChatGPT und viele weitere Modelle basieren auf Transformer-Varianten. Mit weit über 100.000 Zitierungen – Tendenz stetig steigend – gehört das Paper zu den meistzitierten des 21. Jahrhunderts.

Self-Attention-Mechanismus erfasst Abhängigkeiten zwischen allen Sequenzpositionen gleichzeitig

Verzicht auf Rekurrenz ermöglicht parallele Verarbeitung – deutlich schneller als sequenzielle Modelle

28,4 BLEU WMT Englisch-Deutsch, 41,8 BLEU Englisch-Französisch – neue Translation-Standards

Wurde zur Grundlage aller modernen LLMs: GPT, BERT, ChatGPT basieren auf Transformer-Architektur

Personen:Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N. Gomez, Łukasz Kaiser, Illia Polosukhin

Organisationen:Google Brain, Google Research

2017Regulierung

Chinas KI-Masterplan: Der Kampf um die Weltführerschaft

Am 20. Juli 2017 verkündete Chinas Staatsrat den 'New Generation Artificial Intelligence Development Plan' - die erste umfassende nationale KI-Strategie dieser Größenordnung. Das Ziel: Bis 2030 zur weltweiten KI-Führungsmacht werden. Der Drei-Stufen-Plan war kristallklar: 2020 global konkurrenzfähig, 2025 weltführendes Niveau in einzelnen Teilbereichen und große Durchbrüche in der KI-Grundlagentheorie, 2030 dann die führende KI-Supermacht mit 1 Billion Yuan Industrie-Output. China erkannte KI explizit als 'Fokus internationaler Konkurrenz' und 'strategische Technologie für nationale Sicherheit.' Die Investitionen sind erheblich - Dutzende Milliarden Dollar fließen in Forschung, Infrastruktur und Talentförderung. Der Plan umfasst militärische und zivile Anwendungen: von autonomen Waffen bis Smart Cities. Open-Source-Prinzipien sollen internationale Zusammenarbeit fördern, während China gleichzeitig technologische Unabhängigkeit anstrebt. Diese Strategie veränderte die globale KI-Landschaft erheblich und löste eine Welle nationaler KI-Initiativen in USA und Europa aus.

Erste nationale KI-Strategie dieser Größenordnung: Koordinierte Regierungsplanung für globale Technologieführerschaft

Drei-Stufen-Timeline: 2020 konkurrenzfähig, 2025 weltführend in Teilbereichen, 2030 führende KI-Supermacht

Billionen-Yuan-Investment: Massive staatliche Finanzierung in KI-Forschung, Infrastruktur und Talente

Weltführerschafts-Ambition: Startschuss für globalen KI-Wettlauf zwischen China, USA und Europa

Personen:State Council of China, Chinese AI Research Community

Organisationen:State Council of China, Chinese Academy of Sciences

2017Regulierung

Montreal-Deklaration für verantwortliche KI

Die erste internationale Initiative, die ethische KI-Prinzipien durch demokratische Bürgerbeteiligung erarbeitete. Am 3. November 2017 startete die Université de Montréal den Mitgestaltungsprozess für die Montreal-Deklaration zur verantwortlichen KI-Entwicklung. Das Forum zur gesellschaftlich verantwortlichen KI-Entwicklung versammelte über 400 Teilnehmer verschiedener Sektoren und Disziplinen. In 15 Deliberations-Workshops über drei Monate diskutierten über 500 Bürger, Experten und Stakeholder gesellschaftliche Herausforderungen der KI. Die am 4. Dezember 2018 veröffentlichte Deklaration präsentiert 10 Prinzipien und 59 Empfehlungen basierend auf Werten wie Wohlbefinden, Autonomie, Gerechtigkeit, Privatsphäre und Demokratie. Mit über 500 Unterzeichnern etablierte die Montreal-Deklaration einen partizipativen Ansatz für KI-Governance und beeinflusste spätere internationale Bemühungen um verantwortliche KI-Entwicklung.

10 ethische Prinzipien und 59 Empfehlungen für verantwortliche KI-Entwicklung mit demokratischer Legitimität

Fokus auf Wohlbefinden, Autonomie, Gerechtigkeit, Privatsphäre, Demokratie und ökologische Nachhaltigkeit

Von Université de Montréal initiiert mit über 400 Teilnehmern aus verschiedenen Sektoren

Über 500 Unterzeichner, beeinflusste internationale KI-Governance und spätere Regulierungsinitiativen

Personen:Yoshua Bengio, Montreal AI Ethics Team

Organisationen:Université de Montréal, Montreal Institute for Learning Algorithms

2017Durchbrüche

AlphaZero beherrscht drei Spiele

Die Geburt einer universellen Spiel-KI durch reines Selbstlernen. Im Dezember 2017 präsentierte DeepMind AlphaZero – ein System, das ohne jegliches Vorwissen drei völlig verschiedene Strategiespiele meisterte: Schach, Shogi und Go. Der tabula rasa-Ansatz bedeutete: Keine Eröffnungsdatenbanken, keine menschlichen Strategien, nur die Spielregeln als Ausgangspunkt. Innerhalb von 24 Stunden erreichte AlphaZero übermenschliche Leistung – in Schach nach nur 4 Stunden, in Shogi nach 2 Stunden. Im 100-Partien-Match gegen Stockfish gewann es 28 Partien, verlor keine einzige und erreichte 72 Unentschieden. Die Besonderheit lag im effizienten Suchverhalten: Während Stockfish 60 Millionen Positionen pro Sekunde evaluiert, analysiert AlphaZero nur 60.000 – aber wesentlich gezielter durch sein Deep Neural Network. Diese Leistung demonstrierte eindrucksvoll die Verallgemeinerbarkeit und Domänen-Unabhängigkeit des reinen Reinforcement Learning.

Lernte drei komplexe Spiele völlig von null – nur mit Spielregeln, ohne menschliches Vorwissen oder Datenbanken

Erreichte in Schach (4h), Shogi (2h) und Go (~8h) übermenschliche Leistung durch reines Selbstspiel

Lernte durch Millionen von Selbstspiel-Partien und Reinforcement Learning ohne externe Eingaben

Evaluierte nur 60.000 Positionen pro Sekunde vs. Stockfishs 60 Millionen – aber wesentlich gezielter

Personen:David Silver, Thomas Hubert, Julian Schrittwieser, Ioannis Antonoglou

Organisationen:DeepMind, Google, Science Magazine, ArXiv

2018Meilensteine

Turing Award für Deep Learning

2019 erhielt die KI ihre höchste Auszeichnung der Informatik: Der A.M. Turing Award 2018 — oft als Nobelpreis der Informatik bezeichnet — ging an Yoshua Bengio, Geoffrey Hinton und Yann LeCun, die drei Paten des Deep Learning. Die ACM würdigte ihre konzeptionellen und technischen Durchbrüche, die tiefe neuronale Netze zu einem zentralen Baustein der Informatik gemacht haben — von Backpropagation über Faltungsnetze bis zu den Ideen, die den Durchbruch von 2012 trugen. Die Auszeichnung war der späte, offizielle Ritterschlag einer Revolution, die jahrzehntelang belächelt worden war. Zur ehrlichen Einordnung: Deep Learning hat viele Väter und Mütter — Forscher wie Jürgen Schmidhuber kritisierten öffentlich, dass wichtige Beiträge zu wenig gewürdigt würden. Der Preis ehrt die zentrale Rolle des Trios, nicht eine alleinige Urheberschaft.

Yoshua Bengio, Geoffrey Hinton und Yann LeCun — die drei Paten des Deep Learning — für die Durchbrüche hinter den modernen neuronalen Netzen.

Der A.M. Turing Award (verkündet März 2019) ist die höchste Auszeichnung der Informatik; gewürdigt wurden tiefe neuronale Netze als zentraler Baustein des Rechnens.

Der offizielle Ritterschlag der Deep-Learning-Revolution von 2012 — und Vorbote des Physik-Nobelpreises 2024 für dieselbe Forschungslinie.

Anti-Hype: Deep Learning hat viele Beitragende (etwa Schmidhuber, der öffentlich kritisierte); der Preis ehrt die zentrale Rolle des Trios, keine alleinige Urheberschaft.

Personen:Yoshua Bengio, Geoffrey Hinton, Yann LeCun

Organisationen:ACM

2018Publikationen

GPT-1: Geburt der Generative Pre-Training

Die Grundlage aller modernen Large Language Models durch unsupervised Pre-Training. Am 11. Juni 2018 veröffentlichte Alec Radford mit seinem OpenAI-Team das wegweisende Paper „Improving Language Understanding by Generative Pre-Training“. Diese Arbeit kombinierte erstmals Transformer-Architektur mit unsupervised Pre-Training und etablierte das zweistufige Paradigma: erst generatives Training auf großen Textkorpora, dann Fine-Tuning für spezifische Aufgaben. Mit 117 Millionen Parametern und Training auf dem BooksCorpus-Datensatz mit über 7.000 unveröffentlichten Büchern verschiedener Genres bewies GPT-1, dass Transfer Learning für Sprachverständnis funktioniert. Die zwölf-schichtige Decoder-Only-Transformer-Architektur mit masked self-attention legte das Template für die gesamte GPT-Serie. Diese Innovation machte aus der Transformer-Architektur von 2017 ein praktikables Werkzeug für vielfältige NLP-Aufgaben und begründete die Ära der Large Language Models.

Etablierte unsupervised Pre-Training auf großen Textkorpora als Grundlage für Sprachmodelle

Bewies erfolgreiche Anwendung von Transfer Learning für vielfältige NLP-Aufgaben

Zwölf-schichtige Decoder-Only-Transformer-Architektur wurde Template für gesamte GPT-Serie

Begründete die Ära der Large Language Models und das Pre-Training-Fine-Tuning-Paradigma

Personen:Alec Radford, Karthik Narasimhan, Tim Salimans, Ilya Sutskever

Organisationen:OpenAI

2018Publikationen

BERT verbessert Sprachverständnis erheblich

Ein wichtiger Fortschritt der bidirektionalen Sprachmodelle und die Geburt des modernen NLP. Im Oktober 2018 veröffentlichten Jacob Devlin und sein Team bei Google Research das Paper zu BERT – Bidirectional Encoder Representations from Transformers. Diese Innovation veränderte die Sprachverarbeitung erheblich, indem sie erstmals tiefe bidirektionale Repräsentationen aus unmarkierten Texten trainierte. Im Gegensatz zu vorherigen Modellen berücksichtigt BERT sowohl linken als auch rechten Kontext in allen Schichten gleichzeitig. Das Ergebnis war bemerkenswert: BERT erreichte neue Bestwerte in elf NLP-Aufgaben und verbesserte den GLUE-Score um beachtliche 7,7 Prozentpunkte auf 80,5%. Das eigentliche Pre-Training verschlang zwar mehrere Tage auf vielen TPUs — doch die Open-Source-Veröffentlichung demokratisierte Spitzentechnologie: Das fertig vortrainierte Modell ließ sich auf einer einzelnen Cloud-TPU in rund 30 Minuten an die eigene Aufgabe feinjustieren (Fine-Tuning). BERT etablierte das Pre-Training-Fine-Tuning-Paradigma, das heute die Grundlage aller großen Sprachmodelle bildet.

Erstes tiefes bidirektionales Sprachmodell das linken und rechten Kontext gleichzeitig in allen Schichten berücksichtigt

Erreichte neue Bestwerte in 11 NLP-Aufgaben und verbesserte den GLUE-Score um 7,7 Prozentpunkte auf 80,5%

Open-Source-Veröffentlichung ermöglichte das Fine-Tuning des vortrainierten Modells an eigene Aufgaben in rund 30 Minuten auf einer einzelnen Cloud-TPU

Etablierte das Pre-Training-Fine-Tuning-Paradigma für alle modernen Sprachmodelle

Personen:Jacob Devlin, Ming-Wei Chang, Kenton Lee, Kristina Toutanova

Organisationen:Google Research, Google AI Language

2019Publikationen

GPT-2 - "Zu gefährlich zur Veröffentlichung"

OpenAI veröffentlicht im Februar 2019 GPT-2, entscheidet aber überraschend, das vollständige 1,5-Milliarden-Parameter-Modell zurückzuhalten - angeblich "zu gefährlich" für eine vollständige Veröffentlichung. Diese beispiellose Entscheidung spaltet die KI-Community: Befürworter loben die verantwortungsvolle Haltung angesichts von Missbrauchsrisiken wie Fake News und automatisiertem Spam. Kritiker werfen OpenAI vor, die Forschung zu "verschließen" und unbegründete Ängste zu schüren. Nach neun Monaten ohne starke Missbrauchsbelege gibt OpenAI das vollständige Modell frei und markiert einen Wendepunkt in der Debatte um verantwortungsvolle KI-Entwicklung.

Beispiellose Entscheidung: OpenAI hält vollständiges 1,5B-Parameter-Modell zurück

Befürchtungen vor Fake News, Identitätsmissbrauch und automatisiertem Social Media-Spam

KI-Community gespalten: Ethik-Fortschritt vs. Vorwurf der Forschungsverschließung

Nach 9 Monaten vollständige Freigabe mangels Missbrauchsbelegen

Personen:Alec Radford, Jeffrey Wu, Rewon Child, David Luan

Organisationen:OpenAI

2019Wettbewerbe

AlphaStar erreicht Grandmaster-Level

Die Eroberung der komplexesten Echtzeit-Strategie durch künstliche Intelligenz. Im Juli und August 2019 trat DeepMinds AlphaStar anonym im Ranglisten-Modus auf Battle.net an; am 30. Oktober 2019 berichtete DeepMind in der Fachzeitschrift Nature, dass das System als erste KI das Grandmaster-Level in StarCraft II erreicht hatte – einem Spiel, das als zu komplex für Maschinen galt. AlphaStar rangierte über 99,8% aller aktiven Battle.net-Spieler und beherrschte alle drei Völker: Protoss, Terran und Zerg. Zuvor hatte AlphaStar bereits die Profispieler Grzegorz 'MaNa' Komincz und Dario 'TLO' Wünsch jeweils 5:0 besiegt. Die Besonderheit lag in der Multi-Agent Reinforcement Learning-Architektur, die verschiedene Strategien und Gegenstrategien in einer Liga trainierte. Mit durchschnittlich 280 Aktionen pro Minute lag AlphaStar sogar unter menschlichen Profis, bewies aber präzisere Ausführung. Diese Leistung markierte einen Meilenstein für KI in Videospielen und Echtzeit-Entscheidungen.

AlphaStar erreichte Grandmaster-Level bei allen drei StarCraft II-Völkern und rangierte über 99,8% aller Battle.net-Spieler

Besiegte die Profispieler MaNa und TLO jeweils 5:0 vor dem öffentlichen Erfolg

Multi-Agent Reinforcement Learning mit Liga-basiertem Training verschiedener Strategien und Gegenstrategien

Erste KI die ein populäres Esports-Spiel ohne Einschränkungen auf höchstem Niveau beherrschte

Personen:Oriol Vinyals, Igor Babuschkin, Wojciech Czarnecki, Grzegorz Komincz, Dario Wünsch

Organisationen:DeepMind, Team Liquid, Blizzard Entertainment, Battle.net

2019Publikationen

T5 - Text-to-Text Transfer Transformer

Google AI verändert im Oktober 2019 NLP erheblich mit T5, dem Text-to-Text Transfer Transformer, der alle Sprachverarbeitungsaufgaben in ein einheitliches "Text-zu-Text"-Format verwandelt. Mit dem innovativen Ansatz "Everything is Text" können Übersetzung, Zusammenfassung, Fragebeantwortung und Klassifikation mit demselben Modell, derselben Loss-Funktion und denselben Hyperparametern bewältigt werden. T5 führt das umfassende C4-Dataset ein und erreicht nahezu menschliche Leistung auf SuperGLUE-Benchmarks. Als Foundation Model mit bis zu 11 Milliarden Parametern ebnet T5 den Weg für moderne Large Language Models und etabliert das einheitliche Text-zu-Text-Paradigma als Standard.

Innovativer einheitlicher Ansatz: Alle NLP-Aufgaben als Text-zu-Text-Problem

"Everything is Text" - Paradigma vereinheitlicht Übersetzung, Zusammenfassung, Q&A

Etabliert Foundation Model Paradigma für moderne Large Language Models

Führt umfangreiches C4-Dataset ein - Colossal Clean Crawled Corpus

Personen:Colin Raffel, Noam Shazeer, Adam Roberts, Katherine Lee

Organisationen:Google AI, Google Research

2020Publikationen

RAG: Sprachmodelle schlagen erst nach

Ein Sprachmodell weiß nur, was in seinem Training steckte — und erfindet im Zweifel selbstbewusst etwas dazu. 2020 zeigten Patrick Lewis und Kollegen bei Facebook AI einen Ausweg: Retrieval-Augmented Generation, kurz RAG. Die Idee ist bestechend einfach. Bevor das Modell antwortet, sucht es in einer externen Wissensquelle — etwa in Wikipedia — nach passenden Textstellen und stützt seine Antwort dann auf das Gefundene. So lässt sich Wissen aktualisieren, ohne das Modell neu zu trainieren, und die Antwort wird belegbar. Nach dem Erfolg von ChatGPT wurde RAG zur Standard-Methode, um Sprachmodelle an aktuelle, überprüfbare Quellen zu binden — die Grundlage fast aller Anwendungen, mit denen man mit seinen eigenen Dokumenten chattet. Zur ehrlichen Einordnung: RAG verringert Halluzinationen, beseitigt sie aber nicht. Ist das Gesuchte falsch oder missversteht das Modell den Fund, irrt es weiter. Es liefert Belege, kein echtes Verstehen — und baut auf früherer Retrieval-Forschung auf.

2020 stellten Patrick Lewis und Kollegen bei Facebook AI das Verfahren Retrieval-Augmented Generation (RAG) vor.

Statt nur aus dem Gedächtnis zu antworten, sucht das Sprachmodell zuerst passende Dokumente (etwa aus Wikipedia) und stützt seine Antwort darauf.

RAG wurde nach ChatGPT zur Standard-Methode, um Sprachmodelle an aktuelle, überprüfbare Quellen zu binden — Grundlage fast aller Anwendungen zum Chatten mit eigenen Dokumenten.

Anti-Hype: RAG verringert Halluzinationen, beseitigt sie aber nicht — ist das Gesuchte falsch oder missverstanden, irrt auch das Modell. Es liefert Belege, kein echtes Verstehen, und baut auf früherer Retrieval-Forschung auf (z. B. DPR, REALM).

Personen:Patrick Lewis

Organisationen:Facebook AI Research, University College London, New York University

2020Publikationen

Neural Scaling Laws

Jared Kaplan, Sam McCandlish, Tom Brown und Dario Amodei entdecken im Januar 2020 die fundamentalen mathematischen Gesetze der neuronalen Skalierung und verändern damit die Entwicklung großer Sprachmodelle erheblich. Die wegweisende Arbeit von OpenAI und der Johns Hopkins University zeigt, dass sich Performance nach Potenzgesetzen mit Modellgröße, Datensatzumfang und Rechenleistung verhält - mit Trends über sieben Größenordnungen. Die eleganten Gleichungen ermöglichen erstmals systematische Vorhersagen der Ressourcenallokation und etablieren das „Bigger is Better“-Paradigma. Diese mathematischen Grundlagen leiten direkt zu GPT-3s Erfolg über und transformieren KI-Entwicklung von experimentellem Trial-and-Error zu wissenschaftlich fundierter, vorhersagbarer Skalierung. Die konkrete Allokationsregel von Kaplan – Modellgröße stark hochskalieren, Datenmenge nur schwach – wurde 2022 durch das Chinchilla-Paper von DeepMind korrigiert: compute-optimal erfordert deutlich mehr Trainingsdaten als zunächst empfohlen.

Entdeckung fundamentaler Potenzgesetze über sieben Größenordnungen

Elegante Gleichungen ermöglichen systematische Vorhersagen der Ressourcenallokation; 2022 von Chinchilla präzisiert

Etabliert "Bigger is Better"-Paradigma für systematische LLM-Entwicklung

Verwandelt KI-Entwicklung von Trial-and-Error zu wissenschaftlicher Methodik

Personen:Jared Kaplan, Sam McCandlish, Tom Brown, Dario Amodei

Organisationen:OpenAI, Johns Hopkins University

2020Publikationen

GPT-3: Das 175-Milliarden-Parameter-Modell

Der Durchbruch zu Few-Shot Learning und emergenten KI-Fähigkeiten. Am 28. Mai 2020 präsentierte OpenAIs Team um Tom Brown das bedeutende Paper „Language Models are Few-Shot Learners“ – GPT-3 mit 175 Milliarden Parametern, über 100-fach größer als GPT-2. Die Skalierung enthüllte emergente Fähigkeiten: Das Modell konnte neue Aufgaben mit nur wenigen Beispielen lösen, ohne Fine-Tuning. Von Übersetzungen über Wort-Rätsel bis zu 3-stelliger Arithmetik demonstrierte GPT-3 beeindruckende Vielseitigkeit. Menschliche Evaluatoren konnten von GPT-3 generierte Nachrichtenartikel kaum von echten unterscheiden. Allein durch In-Context Learning näherte sich GPT-3 bei einzelnen SuperGLUE-Teilaufgaben dem state of the art an – auf dem Gesamt-Benchmark blieb es mit rund 71,8 Punkten allerdings deutlich hinter den fine-getunten Spitzenmodellen (etwa 89) zurück. 31 OpenAI-Forscher (Tom Brown und 30 Ko-Autoren) bewiesen: Massive Parameterskalierung kann qualitativ neue Fähigkeiten hervorbringen. GPT-3 legte das Fundament für ChatGPT und die moderne LLM-Ära.

175 Milliarden Parameter – über 100-fach größer als GPT-2 mit bedeutenden Skalierungseffekten

Emergente Few-Shot-Fähigkeiten ohne Fine-Tuning: neue Aufgaben mit nur wenigen Beispielen lösbar

Zeigte emergente Fähigkeiten: Übersetzung, Arithmetik, Textgenerierung auf menschlichem Niveau

Legte Grundstein für ChatGPT und kommerzialisierte Large Language Models durch API-Zugang

Personen:Tom Brown, Benjamin Mann, Nick Ryder, Melanie Subbiah

Organisationen:OpenAI

2020Publikationen

DDPM: Diffusion-Modelle etabliert

Die mathematische Grundlage der modernen Bildgenerierung durch Denoising-Prozesse. Im Juni 2020 veröffentlichten Jonathan Ho, Ajay Jain und Pieter Abbeel das einflussreiche Paper 'Denoising Diffusion Probabilistic Models' – eine Klasse latenter Variablenmodelle inspiriert von der Nichtgleichgewichts-Thermodynamik. Ihre Innovation lag in einer gewichteten Variationsbegrenzung und der Verbindung zwischen Diffusionsmodellen und Denoising Score Matching mit Langevin-Dynamik. Die Ergebnisse waren beeindruckend: FID-Score von 3,17 auf CIFAR-10 und Inception-Score von 9,46. DDPMs etablierten einen progressiven verlustbehafteten Dekompressionsansatz, der als Verallgemeinerung autoregressiver Dekodierung interpretiert werden kann. Diese Arbeit legte das mathematische Fundament für Stable Diffusion und die gesamte moderne Text-zu-Bild-Generation.

Neue Klasse generativer Modelle basierend auf Nichtgleichgewichts-Thermodynamik und Denoising-Prozessen

Progressiver verlustbehafteter Dekompressionsansatz als Verallgemeinerung autoregressiver Dekodierung

Legte mathematisches Fundament für Stable Diffusion und moderne Text-zu-Bild-Generierung

FID-Score 3,17 auf CIFAR-10 demonstrierte Bildqualität rivalisierend mit GANs und etablierte Diffusion als Standard

Personen:Jonathan Ho, Ajay Jain, Pieter Abbeel

Organisationen:UC Berkeley

2020Publikationen

Vision Transformer: 'An Image is Worth 16x16 Words'

Transformer-Architektur in der Computer Vision. Am 22. Oktober 2020 veröffentlichte Alexey Dosovitskiys Team bei Google Research das Paper „An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale“. Vision Transformer (ViT) zeigte, dass CNNs nicht notwendig sind – pure Transformer können direkt auf Bildpatch-Sequenzen angewendet werden. Der Kernbefund („at Scale“): Erst nach großskaligem Vortraining auf riesigen Datensätzen (ImageNet-21k bzw. JFT-300M) erreicht ViT vergleichbare oder bessere Ergebnisse als state-of-the-art CNNs; auf mittelgroßen Datensätzen ohne dieses Vortraining schneidet ViT dagegen schwächer ab. Das System zerlegt Bilder in Patches – typischerweise 16x16 Pixel, je nach Variante aber auch andere Größen – behandelt sie als Token-Sequenzen und wendet Standard-Transformer-Architektur an. Die Universalität der Transformer-Architektur wurde deutlich: Dieselbe Technologie, die NLP veränderte, funktioniert auch in Computer Vision. ViT inspirierte eine neue Generation Attention-basierter Vision-Modelle und zeigte die Kraft vereinheitlichter Architekturen.

Erste skalierbare, patch-basierte Anwendung reiner Transformer-Architektur auf Computer Vision ohne CNN-Komponenten

Bildpatches (typischerweise 16x16 Pixel) als Token-Sequenzen behandelt, veränderte die Bild-zu-Sequenz-Transformation

Self-Attention für Bildverarbeitung bewies Universalität der Transformer-Architektur

Erreichte nach großskaligem Vortraining das Niveau von state-of-the-art CNNs und inspirierte Attention-basierte Vision-Modelle

Personen:Alexey Dosovitskiy, Lucas Beyer, Alexander Kolesnikov

Organisationen:Google Research, Google Brain

2020Durchbrüche

AlphaFold-Erfolg

Die Lösung eines 50 Jahre alten biologischen Rätsels durch künstliche Intelligenz. Im November 2020 dominierte DeepMinds AlphaFold 2 die CASP14-Wettbewerb mit einer Genauigkeit, die Wissenschaftler als 'verblüffend' und 'transformativ' bezeichneten. Das System erreichte bei der Protein-Strukturvorhersage einen GDT-Score von 92,4 von 100 Punkten – eine Präzision, die experimentellen Methoden wie der Röntgenkristallographie entspricht. Dabei schlug AlphaFold rund 100 andere Teams deutlich und löste damit ein Problem, das die Biologie seit den 1970er Jahren beschäftigte. Die attention-basierte neuronale Netzwerk-Architektur kann in wenigen Tagen vorhersagen, wie sich Proteine falten – ein Vorgang, der für das Verständnis von Leben grundlegend ist. Für diese Leistung erhielten Demis Hassabis und John Jumper 2024 den Nobelpreis für Chemie.

AlphaFold 2 dominierte CASP14 mit 92,4 GDT-Score und schlug rund 100 andere Teams deutlich

Löste das 50 Jahre alte Protein-Faltungs-Problem und veränderte die Strukturbiologie grundlegend

Attention-basierte Architektur erreichte experimentelle Genauigkeit in der Protein-Strukturvorhersage

Demis Hassabis und John Jumper erhielten 2024 den Nobelpreis für Chemie für diese Leistung

Personen:Demis Hassabis, John Jumper

Organisationen:DeepMind, Google, CASP, University of Washington

2021Durchbrüche

CLIP: Die Brücke zwischen Bild und Sprache

Am selben Tag, an dem OpenAI DALL-E vorstellte — dem 5. Januar 2021 — erschien das vielleicht folgenreichere Modell: CLIP. Es lernte nicht, Bilder zu erzeugen, sondern Bild und Sprache im selben Raum zu verstehen. Aus rund 400 Millionen Bild-Text-Paaren aus dem Web trainierte das Team um Alec Radford zwei Encoder gegeneinander (kontrastiv), bis zusammengehörige Bilder und Bildunterschriften am selben Punkt eines gemeinsamen Vektorraums landeten. Der Effekt war verblüffend: CLIP konnte Bilder zero-shot klassifizieren — man beschrieb die Kategorien einfach in Worten, ganz ohne Training auf der Aufgabe. So erreichte es 76,2 % auf ImageNet, gleichauf mit einem ResNet-50, das mit 1,28 Millionen beschrifteten Beispielen trainiert worden war — CLIP hatte keines davon gesehen. Fürs große Bild entscheidend: CLIP wurde zum Fundament der Text-zu-Bild-Welle — DALL-E 2 baut auf CLIP-Einbettungen, und Stable Diffusion nutzt CLIPs Text-Encoder direkt. Die Einordnung: Kontrastive Bild-Text-Modelle waren nicht neu (ConVIRT kam Monate früher) — CLIPs Beitrag waren der Maßstab, die Zero-Shot-Breite und die offenen Gewichte, die ein ganzes Ökosystem auslösten.

Kontrastives Training: zwei Encoder (Bild + Text) lernen aus rund 400 Mio. Web-Paaren, zusammengehörige Bilder und Texte in denselben Vektorraum zu legen.

Zero-Shot: Kategorien werden in Worten beschrieben, kein Aufgaben-Training nötig — 76,2 % auf ImageNet, gleichauf mit einem ResNet-50, das 1,28 Mio. beschriftete Bilder brauchte.

Fundament der Text-zu-Bild-Welle: DALL-E 2 baut auf CLIP-Einbettungen, Stable Diffusion nutzt CLIPs Text-Encoder direkt.

Anti-Hype: kontrastive Bild-Text-Modelle gab es schon (ConVIRT, Okt 2020). CLIPs Beitrag: Maßstab, Zero-Shot-Breite, offene Gewichte — erbte aber auch den Bias der Web-Daten.

Personen:Alec Radford, Jong Wook Kim, Ilya Sutskever

Organisationen:OpenAI

2021Produkte

DALL-E erschafft Bilder aus Text

Ein wegweisender Durchbruch der Text-zu-Bild-Generierung und ein wichtiger Fortschritt der KI-Kreativität. Am 5. Januar 2021 enthüllte OpenAI DALL-E – ein System, das aus Textbeschreibungen kohärente und oft verblüffend kreative Bilder erzeugt. Text-zu-Bild-Modelle gab es zwar schon zuvor (etwa alignDRAW 2015 oder GAN-Ansätze wie StackGAN und AttnGAN), doch DALL-E hob Kohärenz und Vielseitigkeit auf ein neues Niveau. Basierend auf einer 12-Milliarden-Parameter-Version von GPT-3 bewies DALL-E, dass die Grenze zwischen Sprach- und Bildverständnis durchbrochen werden kann. Das System trainierte mit 250 Millionen Bild-Text-Paaren aus dem Internet und entwickelte dabei bemerkenswerte Fähigkeiten: Es kann Tiere vermenschlichen, unverwandte Konzepte plausibel kombinieren und sogar Text in Bilder rendern. Mark Riedl von Georgia Tech kommentierte, die Ergebnisse seien „bemerkenswert kohärenter“ als alle bisherigen Text-zu-Bild-Systeme. DALL-E erweiterte GPTs Sprachverständnis erfolgreich ins Visuelle und eröffnete eine völlig neue Dimension der KI-Kreativität.

Hob die Text-zu-Bild-Generierung auf ein neues Niveau – kohärente, kreative Bilder aus natürlichsprachigen Beschreibungen (Vorläufer wie alignDRAW oder StackGAN gab es bereits)

Entwickelte verblüffende kreative Fähigkeiten: Anthropomorphisierung, Konzeptkombination, Textwiedergabe

12-Milliarden-Parameter-Version von GPT-3, trainiert mit 250 Millionen Bild-Text-Paaren aus dem Internet

Eröffnete neue Dimension der KI-Kreativität und inspirierte die generative AI-Bewegung

Personen:Aditya Ramesh, Mikhail Pavlov, Gabriel Goh, Scott Gray

Organisationen:OpenAI, DALL-E Team

2021Meilensteine

Anthropic wird gegründet

Als ehemalige OpenAI-Führungskräfte ihre eigene Vision von sicherer KI verwirklichen wollten. Im Januar 2021 gründeten Dario und Daniela Amodei zusammen mit fünf weiteren ehemaligen OpenAI-Forschern – darunter Tom Brown, Jared Kaplan und Chris Olah – Anthropic; insgesamt sieben Mitgründerinnen und Mitgründer. Das Geschwisterpaar hatte zuvor Schlüsselpositionen bei OpenAI innegehabt – Dario als VP of Research. Ihre neue Firma sollte sich auf KI-Sicherheit und die Entwicklung zuverlässiger, interpretierbarer Systeme konzentrieren. Mit Constitutional AI entwickelte Anthropic einen innovativen Ansatz, KI-Systeme durch Prinzipien statt nur durch menschliches Feedback zu trainieren. Claude, ihr KI-Assistent, wurde zu einem der führenden Konkurrenten von ChatGPT.

Gegründet im Januar 2021 in San Francisco

Dario Amodei (CEO, ex-VP Research bei OpenAI) und Daniela Amodei (President) – Teil eines siebenköpfigen Gründungsteams

Fokus auf KI-Sicherheit, Interpretierbarkeit und Constitutional AI

Entwickelte Claude, einen der führenden KI-Assistenten

Personen:Dario Amodei, Daniela Amodei, Tom Brown, Jared Kaplan, Sam McCandlish, Jack Clark, Chris Olah

Organisationen:Anthropic, OpenAI

2021Produkte

GitHub Copilot: Der KI-Pair-Programmer

Die Demokratisierung der KI-gestützten Softwareentwicklung für Millionen von Entwicklern. Am 29. Juni 2021 kündigte GitHub die Technical Preview von Copilot an – den ersten KI-Pair-Programmer, powered by OpenAI Codex. Basierend auf einer GPT-3-Variante, trainiert mit Milliarden Zeilen öffentlichen Codes von GitHub-Repositories, konnte Copilot Code-Vervollständigungen und ganze Funktionen aus Kommentaren generieren. Das zugrundeliegende Codex-Modell erreichte 28.8% Erfolgsquote beim ersten Versuch im HumanEval-Benchmark – deutlich besser als GPT-3 mit 0%. Besonders beeindruckend: Mit 100 Sampling-Versuchen stieg die Erfolgsrate auf 70.2%. Copilot funktionierte besonders gut mit Python, JavaScript, TypeScript, Ruby und Go. Die limitierte Technical Preview erzeugte enormes Interesse und etablierte KI-assistierte Programmierung als praktikables Werkzeug. Copilot veränderte die Entwicklererfahrung grundlegend und ebnete den Weg für eine neue Generation KI-gestützter Coding-Tools.

Technical Preview am 29. Juni 2021 mit limitiertem Zugang über Warteliste für ausgewählte Entwickler

28.8% Erfolgsquote beim ersten Versuch (HumanEval), 70.2% mit 100 Sampling-Versuchen

Etablierte KI-assistierte Programmierung als praktikables Werkzeug und inspirierte neue Coding-Tools

Personen:Nat Friedman, GitHub Team, OpenAI Team

Organisationen:GitHub, OpenAI, Microsoft

2021Produkte

OpenAI Codex: KI programmiert für Menschen

Am 10. August 2021 veröffentlichte OpenAI Codex über eine API und veränderte die Softwareentwicklung erheblich - eine großflächige KI für Code-Generierung. Basierend auf GPT-3, aber mit 159 Gigabyte Python-Code aus 54 Millionen GitHub-Repositories trainiert, verwandelte Codex natürliche Sprache in funktionsfähigen Code. „Erstelle eine Funktion für Primzahlen“ wurde zu echtem Python-Code in Sekunden. Schon zuvor, am 29. Juni 2021, war aus der Partnerschaft mit GitHub die Technical Preview von Copilot hervorgegangen - ein KI-Programmierassistent, der bereits auf einem frühen Codex lief. Über ein Dutzend Programmiersprachen beherrschte Codex: Python, JavaScript, Go, Ruby, Swift und mehr. Im HumanEval-Benchmark löste das auf Code feinjustierte Codex-S rund 37 % der Aufgaben beim ersten Versuch (pass@1) - das Basismodell kam auf knapp 29 %; beachtlich, aber kein Maß für beliebige Anfragen. GitHub Copilot erwies sich als bedeutender Produktivitätsgewinn für Entwickler. Codex bewies: KI kann kreative, komplexe kognitive Arbeit unterstützen. Von Code-Generierung zu Code-Verständnis öffnete Codex die Tür zur KI-unterstützten Softwareentwicklung.

Natürliche Sprache zu Code: 'Schreibe eine Sortier-Funktion' wird zu funktionsfähigem Python/JavaScript

GitHub Copilot (Technical Preview ab 29. Juni 2021): prominenter KI-Programmierassistent, trainiert auf 54 Millionen Code-Repositories

12+ Programmiersprachen: Von Python bis Swift - KI versteht Entwickler-Intention in natürlicher Sprache

Deutlicher Produktivitätsgewinn: Codex bewies KI-Potential für kreative kognitive Arbeit

Personen:OpenAI Team, GitHub Development Team

Organisationen:OpenAI, GitHub, Microsoft

2022Publikationen

InstructGPT: Die Brücke zu ChatGPT

Zwischen der Methode und dem Welterfolg lag ein entscheidender Zwischenschritt — und der hieß InstructGPT. Anfang 2022 zeigte OpenAI im Paper Training language models to follow instructions with human feedback, wie man GPT-3 dazu bringt, tatsächlich das zu tun, was Nutzer wollen: durch Reinforcement Learning aus menschlichem Feedback (RLHF). Das verblüffende Ergebnis: Ein InstructGPT mit nur 1,3 Milliarden Parametern wurde von Menschen den Antworten des hundertmal größeren GPT-3 (175 Milliarden) vorgezogen. Nicht rohe Größe, sondern die Ausrichtung auf die Absicht machte den Unterschied. InstructGPT war die direkte technische Brücke zwischen der RLHF-Idee (2017) und ChatGPT, das Ende 2022 dieselbe Methode populär machte. Zur ehrlichen Einordnung: InstructGPT erfand RLHF nicht — das tat ein Paper von 2017 — aber es zeigte erstmals im großen Maßstab, wie sehr Ausrichtung ein Sprachmodell nützlicher macht.

OpenAI wandte RLHF (Reinforcement Learning aus menschlichem Feedback) auf GPT-3 an, damit es Anweisungen befolgt und der Absicht der Nutzer entspricht.

Verblüffend: Ein InstructGPT mit 1,3 Mrd. Parametern wurde dem 100× größeren GPT-3 (175 Mrd.) vorgezogen — Ausrichtung schlägt rohe Größe.

Die direkte Brücke zwischen der RLHF-Idee (2017) und ChatGPT (Ende 2022) — es erklärt, warum ChatGPT so gut funktionierte.

Anti-Hype: InstructGPT erfand RLHF nicht (das tat ein Paper 2017); es zeigte erstmals im großen Maßstab, wie stark Ausrichtung ein Modell nützlicher macht.

Personen:Long Ouyang

Organisationen:OpenAI

2022Publikationen

Chinchilla: Skalierung neu gedacht

2022 stellte DeepMind eine unbequeme Frage: Bauen wir unsere KI-Modelle eigentlich falsch? Im Paper Training Compute-Optimal Large Language Models zeigte das Team um Jordan Hoffmann, dass die größten Sprachmodelle der Zeit — GPT-3, Gopher — zwar viele Parameter, aber zu wenig Trainingsdaten hatten. Ihre Korrektur, heute Chinchilla-Skalierungsgesetze genannt: Für ein gegebenes Rechenbudget sollten Modellgröße und Datenmenge etwa im Gleichschritt wachsen. Zum Beweis trainierten sie Chinchilla mit 70 Milliarden Parametern auf 1,4 Billionen Token — und schlugen damit das viermal größere Gopher (280 Milliarden). Das verschob, wie praktisch jedes spätere Spitzenmodell trainiert wird. Zur ehrlichen Einordnung: Chinchilla erfand die Skalierungsgesetze nicht, sondern korrigierte die früheren von Kaplan (2020); spätere Modelle wie Llama gingen sogar bewusst über das compute-optimale Verhältnis hinaus, um bei der Nutzung effizienter zu sein.

Die Chinchilla-Skalierungsgesetze: Für ein festes Rechenbudget sollten Modellgröße und Trainingsdaten etwa im Gleichschritt wachsen.

Die größten Modelle (GPT-3, Gopher) waren überdimensioniert und unter-trainiert. Chinchilla (70 Mrd., 1,4 Bio. Token) schlug das 4× größere Gopher (280 Mrd.).

Verschob, wie praktisch jedes spätere Spitzenmodell trainiert wird (Daten/Parameter-Verhältnis); prägte unter anderem Llama.

Anti-Hype: Chinchilla erfand die Skalierungsgesetze nicht, sondern korrigierte Kaplan (2020); spätere Modelle übertrainieren bewusst für effizientere Nutzung.

Personen:Jordan Hoffmann

Organisationen:Google DeepMind

2022Produkte

PaLM: Googles Riese mit 540 Milliarden Parametern

2022 zeigte Google, wie weit sich Sprachmodelle nach oben skalieren lassen: PaLM, das Pathways Language Model, hatte 540 Milliarden Parameter und wurde mit Googles Pathways-System über Tausende TPU-Chips hinweg trainiert. Beeindruckend war weniger die schiere Größe als das, was PaLM damit konnte. Mit sogenannten Chain-of-Thought-Prompts, bei denen das Modell seinen Lösungsweg Schritt für Schritt aufschreibt, löste es mehrstufige Textaufgaben und erklärte sogar Pointen von Witzen. PaLM wurde so zum Aushängeschild der Idee emergenter Fähigkeiten — Fertigkeiten, die erst ab einer bestimmten Modellgröße sprunghaft auftauchen. Es war ein Höhepunkt von Googles Skalierungs-Ära und ein Vorläufer von PaLM 2 und Gemini. Zur ehrlichen Einordnung: 540 Milliarden Parameter waren extrem teuer, und PaLM wurde nie als offenes Modell veröffentlicht. Auch die These der emergenten Fähigkeiten ist umstritten — manche dieser Sprünge sind teils ein Artefakt der gewählten Messmethode.

2022 stellte Google PaLM vor — ein Sprachmodell mit 540 Milliarden Parametern, trainiert auf Tausenden TPU-Chips.

PaLM glänzte beim mehrstufigen Schlussfolgern: Mit Chain-of-Thought-Prompts löste es Textaufgaben und erklärte sogar Witze.

Es nährte die Idee emergenter Fähigkeiten — Fertigkeiten, die erst ab einer bestimmten Modellgröße sprunghaft auftauchen.

Anti-Hype: 540 Milliarden Parameter waren enorm teuer, und PaLM wurde nie offen veröffentlicht. Die These emergenter Fähigkeiten ist zudem umstritten — manche Sprünge sind teils ein Artefakt der Messmethode (Schaeffer u. a. 2023).

Organisationen:Google

2022Produkte

Stable Diffusion: Open-Source-Bildgenerierung

Die Demokratisierung der KI-Bildgenerierung durch das erste leistungsstarke Open-Source-Modell. Am 22. August 2022 veröffentlichte Stability AI Stable Diffusion und veränderte den Zugang zu fortgeschrittener Text-zu-Bild-Technologie erheblich. Als erstes Open-Source-Modell seiner Klasse konnte Stable Diffusion fotorealistische 512x512-Pixel-Bilder auf Consumer-GPUs generieren – ein wichtiger Fortschritt für Geschwindigkeit und Zugänglichkeit. Basierend auf Latent Diffusion Models (LDMs) iteriert das System durch 'De-noising' in latenten Räumen statt direkter Pixelmanipulation. Mit 860 Millionen Parametern im U-Net und 123 Millionen im Text-Encoder blieb es trotz hoher Leistung relativ leichtgewichtig. Der GitHub-verfügbare Quellcode ermöglichte einer explosionsartig wachsenden Community die Entwicklung unzähliger Varianten und Tools. Stable Diffusion durchbrach das Monopol proprietärer Systeme und machte hochwertige KI-Bildgenerierung für jeden zugänglich.

Erstes leistungsstarkes Open-Source-Text-zu-Bild-Modell mit GitHub-verfügbarem Quellcode

Latent Diffusion Models mit iterativem De-noising in latenten Räumen statt direkter Pixelmanipulation

Explosionsartiges Community-Wachstum mit unzähligen Varianten, Tools und Anwendungen

Durchbrach Monopol proprietärer Systeme und demokratisierte hochwertige KI-Bildgenerierung

Personen:Emad Mostaque, Robin Rombach, Andreas Blattmann

Organisationen:Stability AI, CompVis, Runway

2022Durchbrüche

OpenAI veröffentlicht Whisper

Als Spracherkennung endlich zuverlässig wurde – und für alle verfügbar. Am 21. September 2022 veröffentlichte OpenAI Whisper, ein Spracherkennungssystem, das trainiert wurde, um robust in verschiedenen Sprachen, Akzenten und Umgebungsgeräuschen zu funktionieren. Im Gegensatz zu früheren Systemen, die auf sauberen Audiodaten trainiert wurden, nutzte Whisper 680.000 Stunden mehrsprachige Daten aus dem Internet. Das Ergebnis: ein System, das in 99 Sprachen transkribieren kann und dabei mit kommerziellen Lösungen konkurriert. OpenAI stellte Whisper als Open-Source zur Verfügung – ein Geschenk an Entwickler weltweit, das unzählige Anwendungen ermöglichte.

Veröffentlicht am 21. September 2022 als Open-Source

Deckt 99 Sprachen ab und transkribiert robust auch bei Akzenten und Hintergrundgeräuschen – am stärksten im Englischen, da der Großteil der Trainingsdaten englisch ist

Trainiert auf 680.000 Stunden mehrsprachiger Audiodaten aus dem Internet

Demokratisierte hochwertige Spracherkennung durch Open-Source-Verfügbarkeit

Personen:Alec Radford, Jong Wook Kim, Tao Xu

Organisationen:OpenAI

2022Produkte

ChatGPT markiert eine Wende in der KI-Nutzung

Der Moment, als KI für alle zugänglich wurde und eine neue Ära begann. Am 30. November 2022 veröffentlichte OpenAI ChatGPT als kostenlosen Research Preview – ohne großes Marketing, mit wenigen Erwartungen. Was folgte, übertraf alle Prognosen: Nach 5 Tagen erreichte ChatGPT eine Million Nutzer, nach zwei Monaten 100 Millionen – damals der schnellste Nutzeranstieg, den eine Consumer-Anwendung je hingelegt hatte (im Juli 2023 von Metas Threads übertroffen). Basierend auf GPT-3.5 bot ChatGPT erstmals einem breiten Publikum direkten Zugang zu einer mächtigen KI ohne technische Barrieren. Kevin Roose von der New York Times nannte es den 'besten KI-Chatbot, der je für die Öffentlichkeit freigegeben wurde'. ChatGPT demokratisierte künstliche Intelligenz und machte aus einem Forschungsgebiet ein alltägliches Werkzeug. Diese Veröffentlichung markierte den Beginn der aktuellen Generative AI-Welle.

Am 30. November 2022 als kostenloses Research Preview für die Allgemeinheit zugänglich gemacht

Erreichte in 5 Tagen 1 Million Nutzer, in 2 Monaten 100 Millionen – damals der schnellste Anstieg einer Consumer-App (später von Threads übertroffen)

Erste mächtige KI ohne technische Barrieren – direkter Web-Zugang für jeden Internetnutzer

Demokratisierte KI und löste die aktuelle Generative AI-Welle in Gesellschaft und Wirtschaft aus

Personen:Sam Altman, Greg Brockman, Ilya Sutskever, John Schulman

Organisationen:OpenAI, Microsoft, ChatGPT

2022Publikationen

Constitutional AI - KI-Sicherheit durch Verfassung

Anthropic stellt im Dezember 2022 Constitutional AI (CAI) vor, eine neue Methode zur Entwicklung harmloser, hilfreicher und ehrlicher KI-Systeme. Eine „Verfassung“ aus ethischen Prinzipien erlaubt es der KI, sich bei schädlichen Inhalten selbst zu kritisieren und zu verbessern – ohne menschliche Labels für genau diese Schaden-Bewertung. (Die explizite Verankerung dieser Prinzipien in der UN-Menschenrechtserklärung und anderen Grundrechtsdokumenten beschrieb Anthropic erst im Mai 2023 in „Claude’s Constitution“; das ursprüngliche Paper nutzte einen pragmatisch zusammengestellten Prinzipiensatz.) Das innovative RLAIF-Verfahren (Reinforcement Learning from AI Feedback) ersetzt das menschliche Feedback allerdings nur für die Harmlosigkeit durch KI-Selbstkritik – die Hilfsbereitschaft wurde weiterhin über menschliche Präferenzdaten (RLHF) trainiert. So etabliert CAI einen Safety-First-Ansatz als Alternative zu ChatGPTs reinem Leistungsansatz und ebnet den Weg für verantwortungsvolle KI-Entwicklung.

KI kritisiert und verbessert sich bei schädlichen Inhalten selbst – ohne menschliche Schaden-Labels für diese Bewertung

Safety-First Alternative zu reinen Leistungsansätzen wie ChatGPT

Dreifach-Ziel: Hilfreich, ehrlich und harmlos durch ethische Prinzipien

RLAIF: Reinforcement Learning from AI Feedback ersetzt menschliche Bewertungen bei der Harmlosigkeit (Hilfsbereitschaft weiter via RLHF)

Personen:Yuntao Bai, Andy Jones, Kamal Ndousse, Dario Amodei, Anthropic Team

Organisationen:Anthropic

2023Regulierung

NIST AI Framework: USA definiert vertrauenswürdige KI

Am 26. Januar 2023 veröffentlichte das US National Institute of Standards and Technology das erste umfassende AI Risk Management Framework (AI RMF 1.0) - Amerikas Antwort auf globale KI-Regulierung. Nach 18 Monaten Entwicklung mit 240+ Organisationen aus Industrie, Wissenschaft und Zivilgesellschaft definierte NIST erstmals bundesweit Standards für vertrauenswürdige KI. Das Framework etabliert vier Kernfunktionen: Govern, Map, Measure, Manage - und sieben Charakteristika vertrauenswürdiger KI: sicher, resilient, erklärbar, datenschutzfreundlich, fair, transparent und zuverlässig. Als freiwilliger Standard soll es KI-Risiken für Individuen, Organisationen und Gesellschaft minimieren. Die Veröffentlichung folgte Bidens AI Bill of Rights (2022) und wurde später durch seine AI Executive Order (Oktober 2023) ergänzt. Das AI RMF entstand im gesetzlichen Auftrag des National AI Initiative Act of 2020 - NIST setzte hier seine etablierte Rolle als Standards-Behörde des Bundes fort. Das Framework wurde zur Grundlage für Industriestandards und internationale Koordination - ein Gegengewicht zu Chinas staatlicher KI-Kontrolle und Europas regulatorischem Ansatz.

Vier Kernfunktionen: Govern, Map, Measure, Manage für systematisches KI-Risikomanagement

Sieben Charakteristika vertrauenswürdiger KI: sicher, resilient, erklärbar, datenschutzfreundlich, fair, transparent und zuverlässig

Freiwilliger Multi-Stakeholder-Ansatz: 240+ Organisationen entwickelten gemeinsam Standards

Standards-Behörde des Bundes: NIST entwickelte das AI RMF im Auftrag des National AI Initiative Act of 2020

Personen:NIST AI Team, 240+ Contributing Organizations

Organisationen:NIST, US Department of Commerce, Biden Administration

2023Produkte

LLaMA: Open-Source Foundation Model

Die Demokratisierung von Large Language Models durch offene Forschungsmodelle. Am 24. Februar 2023 veröffentlichte Meta AI LLaMA (Large Language Model Meta AI) – eine Sammlung von Foundation Models von 7B bis 65B Parametern, ausschließlich mit öffentlich verfügbaren Daten trainiert. Das wegweisende Paper 'LLaMA: Open and Efficient Foundation Language Models' bewies, dass state-of-the-art Leistung ohne proprietäre Datensätze erreichbar ist. LLaMA ermöglichte Forschern ohne Zugang zu großer Infrastruktur das Studium fortgeschrittener Sprachmodelle. Der Inference-Code wurde unter GPLv3-Lizenz veröffentlicht, während Modell-Zugang fallweise für akademische Forschung gewährt wurde. Mit Training auf Billionen von Tokens und verschiedenen Modellgrößen adressierte LLaMA unterschiedliche Hardware-Anforderungen. Diese Arbeit katalysierte eine Welle offener LLM-Forschung und inspirierte zahlreiche Folgemodelle in der Open-Source-Community.

Inference-Code unter GPLv3-Lizenz; die Modell-Gewichte wurden fallweise und ausschließlich für nicht-kommerzielle Forschung freigegeben

7B bis 65B Parameter-Modelle ausschließlich mit öffentlich verfügbaren Datensätzen trainiert

Ermöglichte Forschern ohne große Infrastruktur das Studium fortgeschrittener Sprachmodelle

Verschiedene Modellgrößen für unterschiedliche Hardware-Anforderungen und Forschungszwecke

Personen:Hugo Touvron, Thibaut Lavril, Gautier Izacard, Xavier Martinet

Organisationen:Meta AI, FAIR

2023Produkte

Claude und Constitutional AI

Die Einführung einer KI mit eingebautem Wertesystem und ethischen Prinzipien. Im März 2023 stellte Anthropic Claude vor – einen KI-Assistenten, der auf Constitutional AI basiert und einen neuartigen Ansatz für KI-Sicherheit etablierte. Im Gegensatz zu herkömmlichen Systemen lernt Claude durch eine zweiphasige Methode: Erst kritisiert und verbessert das Modell seine eigenen Antworten anhand einer Verfassung aus ethischen Prinzipien, dann wird es durch KI-generiertes Feedback verfeinert – ohne menschliche Bewertungen für Schadensvermeidung. Das Ergebnis ist ein System, das sowohl hilfreich als auch harmlos agiert. Anthropic veröffentlichte Claude und Claude Instant gleichzeitig, wobei letzteres eine schnellere, kostengünstigere Variante darstellt. Diese Constitutional AI-Methode erwies sich als Pareto-Verbesserung gegenüber menschlichem Feedback und eröffnete neue Wege für skalierbare KI-Aufsicht.

Constitutional AI-Framework mit zweiphasigem Training: Selbstkritik anhand ethischer Prinzipien, dann KI-Feedback-basierte Verfeinerung

Neuartiger Sicherheitsansatz ohne menschliche Schadensbewertungen – rein durch KI-supervision

Gleichzeitige Veröffentlichung von Claude und Claude Instant für verschiedene Anwendungsanforderungen

Etablierte 'helpful, harmless, honest' als zentrale Werte für verantwortungsvolle KI-Entwicklung

Personen:Dario Amodei, Daniela Amodei, Tom Brown, Chris Olah

Organisationen:Anthropic, Constitutional AI, AI Safety

2023Produkte

GPT-4: Multimodales KI-Modell

Der Durchbruch zu menschlicher Leistung in professionellen und akademischen Benchmarks. Am 14. März 2023 enthüllte OpenAI GPT-4 – ein Large Multimodal Model, das Text- und Bildeingaben verarbeitet und menschliches Niveau in verschiedenen Disziplinen erreicht. Die Verbesserungen waren erheblich: Während GPT-3.5 das Bar Exam in den unteren 10% bestand, erreichte GPT-4 die oberen 10%. Beim SAT-Mathematik-Test steigerte sich die Leistung vom 70. auf das 89. Perzentil. Nach sechs Monaten iterativen Alignments mit Erkenntnissen aus dem adversarial testing program und ChatGPT-Feedback wurde der gesamte Deep Learning-Stack neu aufgebaut. Die multimodalen Fähigkeiten ermöglichen die Verarbeitung von Dokumenten, Diagrammen und Screenshots mit derselben Qualität wie reine Texteingaben. GPT-4 etablierte neue Standards für KI-Sicherheit und Leistung.

Large Multimodal Model mit Text- und Bildeingaben, Vision-Fähigkeiten für Dokumente und Diagramme

Bar Exam obere 10% vs. GPT-3.5 untere 10%, SAT-Mathematik-Verbesserung vom 70. auf 89. Perzentil

6 Monate iteratives Alignment mit adversarial testing und ChatGPT-Feedback für verbesserte Sicherheit

Integration in ChatGPT Plus machte fortgeschrittene multimodale KI für Verbraucher zugänglich

Personen:Sam Altman, OpenAI Team

Organisationen:OpenAI

2023Produkte

Midjourney V5: Fotorealistische KI-Kunst

Fotorealistische KI-Bildgenerierung erreicht neue Qualitätsstufe und verändert die kreative Industrie erheblich. Am 15. März 2023 veröffentlichte Midjourney Version 5 und erreichte einen Qualitätssprung, den Nutzer als „gruselig“ und „zu perfekt“ beschrieben. Die Alpha-Version konnte erstmals fotorealistische Bilder erzeugen, die von echten Fotografien kaum zu unterscheiden waren. Besonders bemerkenswert: Das chronische Problem fehlerhafter Hände wurde erheblich verbessert – V5 konnte in den meisten Fällen korrekt fünf Finger darstellen. Julie Wieland, Grafikdesignerin, verglich das Erlebnis mit „endlich eine Brille zu bekommen nach zu langem Ignorieren schlechter Sicht“ – plötzlich sehe man alles in 4K-Qualität [Quelle: Ars Technica, März 2023]. Die verbesserte Prompt-Sensitivität ermöglichte präzisere kreative Kontrolle, während automatisches Upscaling die 1024x1024-Pixel-Basisbilder ohne GPU-Zusatzkosten hochskalierte. V5 löste intensive Debatten über die Zukunft menschlicher Kreativität aus.

Fotorealistische Bildqualität die von echten Fotografien kaum zu unterscheiden ist

Löste intensive Reaktionen in der Kreativ-Community aus – von Begeisterung bis zu existenziellen Sorgen

Verbesserte KI-Kunst erheblich durch präzise Hand-Darstellung und verbesserte Prompt-Sensitivität

Setzte neue Standards für kommerzielle KI-Bildgenerierung mit erheblichen Auswirkungen auf die Creative-Industry

Personen:David Holz, Midjourney Team

Organisationen:Midjourney Inc

2023Regulierung

Biden KI-Dekret - Erste umfassende US-Regulierung

Präsident Biden unterzeichnet am 30. Oktober 2023 die Executive Order 14110 zur „sicheren, abgesicherten und vertrauenswürdigen Entwicklung und Nutzung künstlicher Intelligenz“ - die erste umfassende KI-Regulierung der USA und mit 110 Seiten die längste Executive Order der Geschichte. Das weitreichende Dekret verpflichtet Entwickler mächtiger KI-Systeme zur Offenlegung von Sicherheitstests und etabliert strenge Red-Team-Standards durch NIST. Es schützt vor KI-basiertem Betrug durch Content-Authentifizierung und Watermarking, adressiert Risiken in kritischer Infrastruktur und biologische Bedrohungen. Für den Moment ihrer Unterzeichnung setzte diese Order globale Standards für verantwortungsvolle KI-Entwicklung und positionierte die USA als Vorreiter in der KI-Governance. Ihre Wirkung blieb allerdings nicht von Dauer: Am 20. Januar 2025 hob Präsident Trump die EO 14110 per Executive Order 14148 wieder auf - das Dokument markiert damit den regulatorischen Stand von 2023.

Umfassendste KI-Governance aller Zeiten - 110 Seiten, längste Executive Order der Geschichte

Verpflichtende Sicherheitstests und Red-Team-Ergebnisse für mächtige KI-Systeme

Defense Production Act: Meldepflicht für KI-Systeme mit nationalen Sicherheitsrisiken

Positionierte die USA 2023 als Vorreiter in verantwortungsvoller KI-Governance - 2025 jedoch wieder aufgehoben

Personen:Joe Biden, Kamala Harris

Organisationen:White House, NIST, Department of Homeland Security

2023Regulierung

Pause-Brief & Bletchley: KI-Sicherheit wird global

2023, im ersten Schock nach ChatGPT, rang die Welt um Regeln für eine plötzlich mächtige Technologie. Im März forderten tausende Unterzeichner — darunter Yoshua Bengio und Elon Musk — in einem offenen Brief des Future of Life Institute eine sechsmonatige Pause beim Training von KI-Systemen, die stärker als GPT-4 sind. Pausiert wurde nicht, doch der Brief setzte das Thema auf die Weltagenda. Im November folgte der erste globale KI-Sicherheitsgipfel im britischen Bletchley Park — bewusst am Ort, an dem Turing einst Codes knackte. 28 Staaten und die EU, darunter die USA und China, unterzeichneten die Bletchley-Erklärung über die Risiken hochentwickelter KI. Es war das erste Mal, dass rivalisierende Mächte gemeinsam über KI-Sicherheit sprachen — der Auftakt einer Gipfel-Reihe (Seoul 2024, Paris 2025). Zur ehrlichen Einordnung: Die Pause kam nie, und die Bletchley-Erklärung war unverbindlich — beide setzten Themen auf die Agenda, schufen aber keine durchsetzbaren Regeln.

März 2023: Ein offener Brief des Future of Life Institute (tausende Unterzeichner, u. a. Bengio, Musk) forderte eine 6-monatige Pause beim Training von KI stärker als GPT-4.

November 2023: erster globaler KI-Sicherheitsgipfel im britischen Bletchley Park — dort, wo Turing im Krieg Codes knackte.

28 Staaten und die EU — darunter USA und China — unterzeichneten die Bletchley-Erklärung zu Risiken hochentwickelter KI; Auftakt der Gipfel-Reihe (Seoul 2024, Paris 2025).

Anti-Hype: Die Pause kam nie; die Erklärung war unverbindlich. Beide setzten Themen auf die Agenda, schufen aber keine durchsetzbaren Regeln.

Organisationen:Future of Life Institute, UK Government

2023Produkte

Mistral & Mixtral: Europas offene Modelle

Während 2023 vor allem US-Konzerne die Schlagzeilen bestimmten, trat aus Paris ein Herausforderer an: Mistral AI, im Frühjahr 2023 von Arthur Mensch (zuvor bei Google DeepMind) sowie Guillaume Lample und Timothée Lacroix (zuvor bei Meta) gegründet. Schon im September überraschte das kleine Modell Mistral 7B die Fachwelt — frei verfügbar unter Apache-2.0-Lizenz und stärker als das deutlich größere Llama 2 13B. Im Dezember folgte Mixtral 8x7B: ein offenes Mixture-of-Experts-Modell, das auf vielen Aufgaben das Niveau von GPT-3.5 erreichte, dabei aber nur einen Bruchteil seiner Parameter pro Anfrage aktiviert (rund 13 von 47 Milliarden). Mistral wurde zum europäischen Aushängeschild offener Modelle und sammelte Milliarden ein. Zur ehrlichen Einordnung: Offene Gewichte sind nicht dasselbe wie Open Source — Trainingsdaten und -code bleiben unter Verschluss. Und Mixtral erreichte GPT-3.5, nicht das damalige Spitzenmodell GPT-4; Mixture-of-Experts selbst ist zudem deutlich älter.

Frühjahr 2023: In Paris gründeten Arthur Mensch (Ex-Google-DeepMind) sowie Guillaume Lample und Timothée Lacroix (Ex-Meta) Mistral AI — Europas Antwort auf die US-Labore.

September 2023: Mistral 7B — ein kleines, frei gewichtetes Modell (Apache 2.0), das das größere Llama 2 13B schlug.

Dezember 2023: Mixtral 8x7B, ein offenes Mixture-of-Experts-Modell — auf vielen Benchmarks auf GPT-3.5-Niveau, aber effizient (nur ~13 Mrd. aktive von ~47 Mrd. Parametern).

Anti-Hype: Offene Gewichte heißt nicht Open Source (Trainingsdaten/-code bleiben zu); Mixtral erreichte GPT-3.5, nicht GPT-4. Mixture-of-Experts ist zudem älter (u. a. Shazeer 2017).

Personen:Arthur Mensch, Guillaume Lample, Timothée Lacroix

Organisationen:Mistral AI

2023Produkte

Google Gemini: Multimodale KI-Familie

Googles Antwort auf ChatGPT und der Durchbruch zur nativen Multimodalität. Am 6. Dezember 2023 kündigte Google Gemini 1.0 an – eine von Grund auf für Multimodalität entwickelte KI-Familie. Die Zusammenarbeit zwischen DeepMind und Google Brain resultierte in drei Modellgrößen: Gemini Ultra für hochkomplexe Aufgaben, Gemini Pro als ausgewogene Lösung und Gemini Nano für Geräte-interne Anwendungen. Im Gegensatz zu nachträglich erweiterten Systemen wurde Gemini nativ mit Sprach-, Audio-, Code- und Video-Verständnis konzipiert. Bei sechs von acht Benchmarks übertraf Gemini Pro den GPT-3.5 Standard, einschließlich MMLU-Tests. Am Ankündigungstag erhielt das reguläre Bard mit Gemini Pro neue Fähigkeiten; das leistungsstärkere Bard Advanced mit Gemini Ultra kündigte Google für Anfang 2024 an. Gemini markierte Googles strategische Antwort auf OpenAIs Dominanz und etablierte multimodale KI als neuen Standard für Large Language Models.

Von Grund auf für Multimodalität entwickelt: Sprache, Audio, Code und Video-Verständnis nativ integriert

Übertraf GPT-3.5 in 6 von 8 Standard-Benchmarks und etablierte Google als ernsthafte ChatGPT-Alternative

Drei Modellgrößen: Ultra (komplex), Pro (ausgewogen), Nano (Geräte-intern) für verschiedene Anwendungen

Reguläres Bard erhielt am Ankündigungstag Gemini Pro; Bard Advanced mit Gemini Ultra wurde für Anfang 2024 angekündigt

Personen:Sundar Pichai, Demis Hassabis, Gemini Team

Organisationen:Google, DeepMind, Google AI

2024Produkte

Verkörperte KI: Die Modelle bekommen einen Körper

Jahrelang lebten die großen KI-Modelle nur auf Bildschirmen — sie schrieben Texte, malten Bilder, führten Gespräche. 2024 begann sich das zu ändern: Es wurde zum Jahr der verkörperten KI. Die Idee ist, dieselben Grundmodelle, die Sprache und Bilder verstehen, in echte Körper zu setzen — vor allem in humanoide Roboter. Das Unternehmen Figure tat sich mit OpenAI zusammen und zeigte einen Roboter, der spricht, sieht und Gegenstände hantiert. NVIDIA stellte mit Project GR00T ein Grundmodell eigens für Humanoide vor, und junge Firmen wie Physical Intelligence wurden mit Milliarden bewertet. Viele sprachen schon vom ChatGPT-Moment der Robotik. Zur ehrlichen Einordnung: Das meiste davon waren bisher Demonstrationen und Ankündigungen, keine zuverlässig im Alltag arbeitenden Maschinen. Die physische Welt ist für einen Roboter ungleich schwerer zu meistern als der Bildschirm — Geschicklichkeit, Sicherheit und Verlässlichkeit sind weiterhin ungelöste Probleme.

2024 wurde zum Jahr der verkörperten KI: Sprachmodelle, die bisher nur im Chat lebten, zogen in Roboter ein — besonders in humanoide.

Figure tat sich mit OpenAI zusammen und zeigte einen sprechenden, handelnden Humanoiden; NVIDIA stellte mit Project GR00T ein Grundmodell für Humanoide vor; Start-ups wie Physical Intelligence wurden mit Milliarden bewertet.

Die Hoffnung: Ein Roboter, der Sprache, Sehen und Handeln in einem Grundmodell vereint, könnte allgemeine Aufgaben in der echten Welt lernen — ein ChatGPT-Moment für die Robotik.

Anti-Hype: Vieles davon waren bislang Demos und Ankündigungen, keine zuverlässig arbeitenden Produkte. Die echte Welt ist für Roboter ungleich schwerer als der Bildschirm — Geschick, Sicherheit und Verlässlichkeit bleiben ungelöst.

Organisationen:Figure AI, NVIDIA, Physical Intelligence

2024Produkte

Waymo: Das fahrerlose Taxi wird Alltag

Über ein Jahrzehnt lang war autonomes Fahren das Paradebeispiel für KI-Versprechen, die sich ständig verzögerten. 2024 wurde es greifbar: Waymo, die Roboterauto-Tochter von Google, machte fahrerlose Taxis erstmals im großen Stil für die Öffentlichkeit verfügbar — in San Francisco, Los Angeles und Phoenix. Im Sommer 2024 meldete das Unternehmen über 100.000 bezahlte Fahrten pro Woche, vollständig ohne Sicherheitsfahrer am Steuer. Nach Jahren voller Ankündigungen war das der erste handfeste Beweis, dass autonomes Fahren als echter, alltäglicher Dienst funktionieren kann. Zur ehrlichen Einordnung: Waymo fährt nur in eng begrenzten, aufwendig kartierten Stadtgebieten — nicht überall und nicht bei jedem Wetter. Es gibt weiterhin Pannen und liegengebliebene Fahrzeuge, und der Betrieb ist teuer. Das vollständige autonome Fahren überall bleibt ungelöst; der Rückzug des Konkurrenten Cruise nach einem schweren Unfall 2023 zeigte, wie fragil die Technik noch ist.

2024 wurde Waymo, die Roboterauto-Tochter von Google, zum ersten Anbieter fahrerloser Taxis im großen Stil — offen für die Öffentlichkeit in mehreren US-Städten.

Im Sommer 2024 meldete Waymo über 100.000 bezahlte Fahrten pro Woche, ganz ohne Sicherheitsfahrer am Steuer.

Nach über einem Jahrzehnt voller Versprechen war es der erste handfeste Beweis, dass autonomes Fahren als echter Dienst funktionieren kann.

Anti-Hype: Waymo fährt nur in eng begrenzten, kartierten Stadtgebieten — nicht überall. Es gibt weiterhin Pannen, und der Betrieb ist teuer. Voll-autonomes Fahren überall bleibt ungelöst (der Rückzug des Konkurrenten Cruise zeigte die Fragilität).

Organisationen:Waymo, Alphabet

2024Produkte

Sora: KI-generierte Videos aus Text

Der Fortschritt zu fotorealistischen KI-generierten Videos und die Auswirkungen auf die Filmindustrie. Am 15. Februar 2024 enthüllte OpenAI Sora – ein Text-zu-Video-Modell, das aus kurzen Beschreibungen detaillierte HD-Videos bis zu einer Minute Länge generiert. Benannt nach dem japanischen Wort für „Himmel“ symbolisiert Sora „grenzenloses kreatives Potenzial“. Als Diffusion Transformer adaptiert Sora DALL-E 3-Technologie für temporale Konsistenz und simuliert oft – wenn auch nicht zuverlässig – physikalisch plausible Bewegung. Die Demonstrations-Videos übertrafen alle existierenden Text-zu-Video-Systeme und setzten neue Standards für KI-Kreativität. Regisseur Tyler Perry stoppte eine 800-Millionen-Dollar Studio-Expansion aus Sorge über Soras Branchenauswirkungen. OpenAI verfolgte einen vorsichtigen Ansatz mit Red Team-Testing für Fehlinformationen und Bias, bevor eine breitere Veröffentlichung erfolgt.

Fotorealistische Text-zu-Video-Generierung mit minutenlangen HD-Videos, die bestehende Systeme übertraf

Diffusion Transformer basierend auf DALL-E 3-Technologie für temporale Konsistenz

Simuliert oft physikalisch plausible Bewegung und erhält Konsistenz über die gesamte Videolänge

Potenzielle Disruption der Filmindustrie, Tyler Perry stoppte 800-Millionen-Studio-Expansion

Personen:Tim Brooks, Bill Peebles, Connor Holmes, Will DePue

Organisationen:OpenAI

2024Produkte

Claude 3 Familie mit multimodalen Fähigkeiten

Die Einführung einer KI-Familie mit Vision und drei spezialisierten Modellen. Am 4. März 2024 stellte Anthropic die Claude 3-Familie vor: Opus, Sonnet und Haiku – drei Modelle mit unterschiedlichen Stärken für verschiedene Anwendungsfälle. Das zentrale Feature war die sophisticated Vision-Verarbeitung, die Fotos, Charts, Diagramme und technische Zeichnungen analysieren kann. Claude 3 Opus erreichte neue Bestwerte bei kognitiven Aufgaben und übertraf Konkurrenten in Benchmarks wie MMLU und GPQA. Sonnet bot die ideale Balance zwischen Intelligenz und Geschwindigkeit für Unternehmen, während Haiku mit nahezu sofortiger Reaktionszeit bestach. Mit einem Context-Fenster von 200.000 Tokens (erweiterbar auf 1 Million) und Verfügbarkeit in 159 Ländern setzte Claude 3 neue Benchmark-Maßstäbe für multimodale KI-Systeme.

Sophisticated Vision-Verarbeitung für Fotos, Charts, Diagramme und technische Zeichnungen

Opus (höchste Intelligenz), Sonnet (Balance), Haiku (Geschwindigkeit) für verschiedene Anwendungsfälle

Multimodale Fähigkeiten ermöglichen Verarbeitung visueller Formate parallel zur Textverarbeitung

Claude 3 Opus erreichte neue Bestwerte bei MMLU, GPQA und anderen kognitiven Benchmarks

Personen:Dario Amodei, Daniela Amodei, Tom Brown, Claude 3 Team

Organisationen:Anthropic, Claude API, Amazon Bedrock

2024Produkte

Devin: Der erste autonome KI-Software-Ingenieur

Die Geburt vollständig autonomer Softwareentwicklung durch künstliche Intelligenz. Am 12. März 2024 stellte Cognition Labs Devin vor – von der Firma vermarktet als der weltweit erste vollautonome KI-Software-Ingenieur. Das System kann eigenständig planen, Repositories klonen, Code schreiben, debuggen, testen und sogar deployen. Auf dem anspruchsvollen SWE-Bench erreichte Devin 13,86% Erfolgsquote bei realen GitHub-Issues – ein gewaltiger Sprung gegenüber dem vorherigen Bestwert von 1,96%. Das Startup wurde in einer frühen Finanzierungsrunde mit rund 350 Millionen Dollar bewertet; kurz nach dem Launch kursierten Berichte über eine Bewertung von rund 2 Milliarden Dollar. Trotz beeindruckender Erfolge zeigten Tests auch Grenzen: Nur 3 von 20 Aufgaben wurden erfolgreich gelöst, oft mit unvorhersagbaren Ausfällen.

Vollautonome Softwareentwicklung: Planung, Coding, Debugging, Testing und Deployment ohne menschliche Intervention

Bewältigt komplexe Engineering-Tasks von Code-Migration bis hin zur vollständigen App-Entwicklung

13,86% Erfolgsquote auf SWE-Bench – 7x besser als vorherige state-of-the-art von 1,96%

Löste Debatte über Zukunft der Softwareentwicklung aus und inspirierte Open-Source-Alternativen wie OpenHands

Personen:Scott Wu, Steven Hao, Walden Yan

Organisationen:Cognition Labs, SWE-Bench

2024Durchbrüche

AlphaFold 3: KI sagt das Zusammenspiel der Moleküle voraus

Vier Jahre nach dem Durchbruch von AlphaFold 2 legte Google DeepMind im Mai 2024 nach — gemeinsam mit der Schwesterfirma Isomorphic Labs. AlphaFold 2 hatte vorhergesagt, wie sich ein einzelnes Protein in seine dreidimensionale Form faltet. AlphaFold 3 geht einen entscheidenden Schritt weiter: Es modelliert, wie Proteine mit anderen Molekülen zusammenspielen — mit DNA, RNA, mit Ionen und mit kleinen Wirkstoff-Molekülen. Genau dieses Zusammenspiel ist für die Medikamentenforschung entscheidend, denn so lässt sich am Computer abschätzen, wie ein Wirkstoff an sein Zielprotein bindet. Zur ehrlichen Einordnung: Die Vorhersagen sind beeindruckend, aber nicht fehlerfrei — ihre Genauigkeit schwankt je nach Molekül-Typ, und im Labor müssen sie weiterhin überprüft werden. Zudem erschien AlphaFold 3 zunächst ohne offenen Quellcode, nur als begrenzter Web-Dienst, was in der Forschung Kritik an der Nachvollziehbarkeit auslöste.

Im Mai 2024 stellten Google DeepMind und Isomorphic Labs AlphaFold 3 vor.

Während AlphaFold 2 die Faltung einzelner Proteine vorhersagte, modelliert AlphaFold 3 ihr Zusammenspiel — mit DNA, RNA, Wirkstoff-Molekülen und Ionen.

Besonders wertvoll für die Medikamentenforschung: Man kann am Computer abschätzen, wie ein Wirkstoff an sein Zielprotein bindet.

Anti-Hype: Die Vorhersagen sind nicht fehlerfrei und müssen im Labor überprüft werden. Zudem erschien AlphaFold 3 zunächst ohne offenen Code — nur als begrenzter Web-Dienst, was Kritik an der Nachvollziehbarkeit auslöste.

Organisationen:Google DeepMind, Isomorphic Labs

2024Wettbewerbe

AlphaProof: KI gewinnt Silber bei der Mathe-Olympiade

Mathematik galt lange als die Königsdisziplin, an der KI scheitert — zu kreativ, zu sehr auf echtes Verständnis angewiesen. Im Juli 2024 setzte Google DeepMind ein Ausrufezeichen: Das System AlphaProof löste, zusammen mit AlphaGeometry 2, vier der sechs Aufgaben der Internationalen Mathematik-Olympiade. Das entsprach dem Niveau einer Silbermedaille, nur einen einzigen Punkt unter Gold. Das Besondere ist die Arbeitsweise: AlphaProof formuliert seine Beweise in der formalen Sprache Lean, die jeden Schritt maschinell überprüfbar macht — die KI kann also nicht schummeln. Gelernt hat es per Reinforcement Learning. Erstmals erreichte damit eine KI bei diesem hoch angesehenen Wettbewerb Medaillen-Niveau. Zur ehrlichen Einordnung: Es waren keine echten Wettbewerbsbedingungen. Wo Menschen nur viereinhalb Stunden Zeit haben, rechnete die KI teils tagelang, und Fachleute mussten die Aufgaben erst von Hand in die formale Sprache übersetzen. Die beiden Kombinatorik-Aufgaben blieben ungelöst.

Im Juli 2024 löste Google DeepMinds AlphaProof zusammen mit AlphaGeometry 2 vier der sechs Aufgaben der Internationalen Mathematik-Olympiade — auf Silbermedaillen-Niveau.

AlphaProof formuliert Beweise in der formalen Sprache Lean und prüft sie selbst; gelernt hat es per Reinforcement Learning. AlphaGeometry 2 übernahm die Geometrie-Aufgabe.

Erstmals erreichte eine KI bei diesem prestigeträchtigen Wettbewerb Medaillen-Niveau — ein Meilenstein für maschinelles Schließen mit überprüfbaren Beweisen.

Anti-Hype: Keine Wettbewerbsbedingungen — die KI brauchte teils Tage statt 4,5 Stunden, und Menschen übersetzten die Aufgaben erst in formale Sprache. Die zwei Kombinatorik-Aufgaben blieben ungelöst.

Organisationen:Google DeepMind

2024Regulierung

EU AI Act: Erstes umfassendes KI-Gesetz

Die weltweit erste umfassende Regulierung künstlicher Intelligenz tritt in Kraft. Am 1. August 2024 wurde der EU AI Act rechtskräftig — ein risikobasiertes Regelwerk mit 180 Erwägungsgründen und 113 Artikeln für den gesamten KI-Lebenszyklus. Das Gesetz kategorisiert KI-Systeme nach vier Risikostufen: unzulässige Anwendungen werden verboten, Hochrisiko-Systeme in Bildung, Beschäftigung und Justiz unterliegen detaillierten Compliance-Pflichten, Systeme mit begrenztem Risiko müssen Transparenzpflichten erfüllen, und der große Rest mit minimalem Risiko bleibt weitgehend frei. Parallel dazu gelten eigene Regeln für GPAI-Basismodelle wie GPT, die etwa ChatGPT antreiben. Die extraterritoriale Wirkung erfasst auch Anbieter außerhalb der EU mit europäischen Nutzern. Bei Verstößen drohen Strafen von bis zu 35 Millionen Euro oder 7% des weltweiten Jahresumsatzes. Wie die DSGVO 2018 könnte der AI Act globale Standards setzen und bestimmen, wie KI unser Leben beeinflusst. Die gestaffelte Umsetzung beginnt 2025 und ist bis 2027 vollständig wirksam.

Weltweit erstes umfassendes KI-Gesetz mit 180 Erwägungsgründen und 113 Artikeln für den gesamten KI-Lebenszyklus

Vier Risikostufen: verbotene, Hochrisiko-, begrenzte und minimale Risiken — plus eigene Regeln für GPAI-Basismodelle

Extraterritoriale Wirkung wie DSGVO könnte globale KI-Standards setzen und weltweite Compliance beeinflussen

Strafen bis 35 Mio. Euro oder 7% Jahresumsatz, gestaffelte Umsetzung 2025-2027

Personen:Ursula von der Leyen, Thierry Breton

Organisationen:European Union, European Parliament, European Commission

2024Produkte

OpenAI O1 - Fortschritt im Reasoning

OpenAI veröffentlicht am 12. September 2024 zunächst o1-preview (und o1-mini) und erweitert KI-Reasoning erheblich durch Chain-of-Thought, dessen Gedankenkette per Reinforcement Learning trainiert wird. O1 ist das erste weitreichend verfügbare Sprachmodell, das systematisch „nachdenkt“ bevor es antwortet - mit einer privaten Gedankenkette analysiert es Probleme Schritt für Schritt. Dieser neue Ansatz eröffnet eine weitere Skalierungs-Dimension: Test-Time-Scaling, wo längeres „Nachdenken“ zu besseren Ergebnissen führt. Das volle o1-Modell erreicht in Benchmark-Tests Leistungen auf PhD-Niveau in Physik, Chemie und Biologie und löst 83% der Aufgaben in der American Invitational Mathematics Examination (GPT-4o: 13%). Die Technologie zeigt, dass KI durch strukturiertes Reasoning deutlich verbesserte Problemlösungsfähigkeiten entwickeln kann.

Erstes Modell, dessen Chain-of-Thought via Reinforcement Learning trainiert und skaliert wird - für strukturiertes Reasoning

Neue Skalierungs-Dimension: Je länger es denkt, desto bessere Ergebnisse

Neuer Ansatz: Von Muster-Reproduktion zu verbesserter Problemlösung

Wichtiger Fortschritt in komplexem Reasoning - verbesserte Problemlösungsfähigkeiten

Personen:Sam Altman, Noam Brown, OpenAI Team

Organisationen:OpenAI

2024Meilensteine

Die KI-Nobelpreise 2024

Im Oktober 2024 geschah etwas Beispielloses: Gleich zwei Naturwissenschafts-Nobelpreise würdigten die Grundlagen der modernen KI. Am 8. Oktober ging der Physik-Nobelpreis an John Hopfield und Geoffrey Hinton — für grundlegende Entdeckungen, die maschinelles Lernen mit künstlichen neuronalen Netzen ermöglichen. Dass ausgerechnet die Physik neuronale Netze auszeichnete, sorgte für Debatten — doch Hopfields physik-inspirierte Netze (1982) und Hintons Lernverfahren legten tatsächlich das Fundament. Einen Tag später teilten sich den Chemie-Nobelpreis David Baker (für computergestütztes Protein-Design) sowie Demis Hassabis und John Jumper von DeepMind — für AlphaFold, das das 50 Jahre alte Problem der Proteinfaltung löste. Zum ersten Mal wurde KI-Grundlagenforschung auf höchster Ebene der Wissenschaft geadelt. Bemerkenswert: Hinton, frisch gekürter Preisträger, nutzte die Bühne, um zugleich vor den Risiken der Technik zu warnen, die er mitbegründet hatte.

8. Oktober 2024: Physik-Nobelpreis an John Hopfield und Geoffrey Hinton für die Grundlagen des maschinellen Lernens mit neuronalen Netzen — ein Physikpreis für KI.

9. Oktober 2024: Chemie-Nobelpreis an David Baker (Protein-Design) sowie Demis Hassabis und John Jumper von DeepMind (AlphaFold, Proteinfaltung).

Erstmals würdigten zwei Naturwissenschafts-Nobelpreise im selben Jahr die Grundlagen der KI — ein Wendepunkt im Status des Feldes.

Debattiert: Sind neuronale Netze überhaupt Physik? Die Preise ehren jahrzehntealte Grundlagen (Hopfield-Netze 1982, Hintons Boltzmann-Maschine). Hinton warnte zugleich vor KI-Risiken.

Personen:John Hopfield, Geoffrey Hinton, Demis Hassabis, John Jumper, David Baker

Organisationen:Royal Swedish Academy of Sciences

2024Durchbrüche

OpenAI o3: Durchbruch auf ARC-AGI

Kurz vor Jahresende 2024, am 20. Dezember, kündigte OpenAI o3 an — den Nachfolger von o1 und den Beweis, dass sich das Nachdenken zur Laufzeit (Test-Time-Scaling) weiter skalieren lässt. Aufsehen erregte vor allem ein Wert: o3 erreichte 87,5 % auf ARC-AGI, einem Test, der bewusst so gebaut ist, dass man ihn nicht durch Auswendiglernen besteht — Vorgängermodelle waren hier nahe null geblieben. Damit rückte o3 erstmals in menschennahe Regionen dieses Benchmarks und glänzte zugleich in Mathematik und beim Programmieren. Gemeinsam mit o1 und DeepSeeks R1 markierte o3 die Ära der Reasoning-Modelle (o3-mini folgte Ende Januar 2025, das volle o3 im April). Zur ehrlichen Einordnung: Die 87,5 % entstanden im Hochleistungs-Modus mit enormem — und sehr teurem — Rechenaufwand pro Aufgabe; die ARC-Prize-Organisatoren betonten ausdrücklich, dass o3 keine AGI ist und auf dem schwereren Nachfolgetest ARC-AGI-2 deutlich abfällt.

o3 (angekündigt 20.12.2024) führt o1s Test-Time-Scaling weiter: mehr Nachdenken zur Laufzeit → bessere Ergebnisse, Spitzenwerte in Mathematik und Code.

87,5 % auf ARC-AGI — einem gegen Auswendiglernen gebauten Test, auf dem Vorgänger nahe null lagen: ein viel beachteter Sprung Richtung menschennaher Adaptivität.

Mit o1 und DeepSeek-R1 die Ära der Reasoning-Modelle; o3-mini Ende Jan. 2025, das volle o3 im April 2025.

Anti-Hype: Die 87,5 % entstanden im teuren Hochleistungs-Modus der Dezember-Preview (das später veröffentlichte o3 lag niedriger); die ARC-Organisatoren betonen: o3 ist KEINE AGI und fällt auf dem härteren ARC-AGI-2 auf ~3 % ab.

Organisationen:OpenAI

2025Produkte

Agentische KI wird Mainstream

2024 und 2025 verschob sich, was KI überhaupt tut: vom Antworten zum Handeln. Den Auftakt machte Anthropic im Oktober 2024 mit Computer Use — als erstes der großen KI-Labore brachte es ein Modell, das einen Computer selbst bedient: den Bildschirm ansehen, die Maus bewegen, klicken, tippen. Im Januar 2025 folgte OpenAIs Operator, ein Agent, der eigenständig im Web surft und Aufgaben erledigt, kurz darauf Deep Research, das mehrstufig recherchiert und belegte Berichte schreibt. Aus dem Chatbot, der Text ausgibt, wurde ein System, das im Namen des Nutzers agiert — die qualitative Wende, die schon Devin (2024) angedeutet hatte. Zur ehrlichen Einordnung: Die ersten Versionen waren langsam, fehleranfällig und oft auf eng umrissene Aufgaben beschränkt; die als Agenten vermarkteten Systeme wurden 2025 stark beworben, ihre Zuverlässigkeit hielt mit dem Marketing noch nicht Schritt.

Anthropic, Computer Use (Okt. 2024): erstes Frontier-Modell mit Computernutzung in öffentlicher Beta — Bildschirm, Maus, Tastatur.

OpenAI: Operator (Jan. 2025) surft eigenständig im Web; Deep Research (Feb. 2025) recherchiert mehrstufig und schreibt belegte Berichte.

Die Wende vom Chatbot (Text ausgeben) zum Agenten (handeln) — angedeutet von Devin (2024), 2025 Produkt-Mainstream.

Anti-Hype: frühe Versionen langsam, fehleranfällig, eng begrenzt; die Systeme wurden stärker beworben, als sie 2025 zuverlässig waren.

Organisationen:Anthropic, OpenAI

2025Produkte

DeepSeek-R1: Der KI-Schock aus China

Ende Januar 2025 bewegte ein KI-Modell zum ersten Mal sichtbar die Weltbörsen. Das chinesische Labor DeepSeek veröffentlichte am 20. Januar 2025 R1 — ein Reasoning-Modell auf Augenhöhe mit OpenAIs o1, aber mit offenen Gewichten (MIT-Lizenz) und zu einem Bruchteil der erwarteten Kosten trainiert. Möglich machte das großangelegtes Reinforcement Learning auf dem Basismodell DeepSeek-V3. Als die DeepSeek-App eine Woche später die US-Charts anführte, kippte die Stimmung: Am 27. Januar verlor Nvidia rund 17 % seines Werts — etwa 600 Milliarden Dollar an einem einzigen Tag, der größte Einzelverlust der US-Börsengeschichte —, weil Anleger fürchteten, Spitzen-KI brauche vielleicht doch nicht endlos teure Chips. R1 erschütterte mehrere Gewissheiten gleichzeitig: dass nur US-Hyperscaler an der Spitze mitspielen, dass Reasoning-Modelle geschlossen bleiben, und dass mehr Rechenleistung der einzige Weg nach vorn ist. Zur ehrlichen Einordnung: Die kursierende Zahl von wenigen Millionen Dollar bezieht sich nur auf den finalen Trainingslauf des Basismodells V3 (nicht auf R1 selbst, nicht auf Forschung und Hardware insgesamt) — und R1 war nicht in jeder Disziplin besser als o1.

R1 (20. Jan. 2025): ein Reasoning-Modell auf o1-Niveau mit offenen Gewichten (MIT-Lizenz), trainiert per großangelegtem Reinforcement Learning auf DeepSeek-V3.

Trainiert zu einem Bruchteil der erwarteten Kosten — das stellte die Annahme infrage, Spitzen-KI brauche zwingend riesige Compute-Budgets.

27. Jan. 2025: Nvidia −rund 17 % (etwa 600 Mrd. $ an einem Tag, US-Rekord); China an der KI-Spitze — KI wurde sichtbar zur Markt- und Geopolitik-Frage.

Anti-Hype: Die wenigen Millionen Dollar meinen nur den finalen Trainingslauf des Basismodells V3 — nicht R1 selbst und nicht Forschung/Hardware insgesamt; R1 war nicht durchweg besser als o1.

Personen:Liang Wenfeng

Organisationen:DeepSeek

2025Meilensteine

Stargate: KI als Infrastruktur in Staatsgröße

Am 21. Januar 2025 stand Künstliche Intelligenz im Weißen Haus auf der Bühne — als Infrastrukturprojekt in Staatsgröße. OpenAI, SoftBank, Oracle und der Investor MGX kündigten das Projekt Stargate an: bis zu 500 Milliarden Dollar über vier Jahre für KI-Rechenzentren in den USA, wovon der Einsatz von 100 Milliarden sofort beginnen sollte. Damit wurde sichtbar, dass die nächste KI-Phase weniger eine Algorithmen- als eine Energie- und Bau-Frage ist: Rechenleistung im Maßstab von Kraftwerken und Industrieparks. Für ein Feld, dessen roter Faden seit AlexNet die Rechenleistung ist (siehe CUDA 2007), war das die logische, aber gewaltige nächste Stufe — und ein Signal, dass KI zur nationalen, geopolitischen Priorität geworden ist. Zur ehrlichen Einordnung: Eine Ankündigung ist kein fertiges Rechenzentrum. Ob die 500 Milliarden vollständig zusammenkommen, war von Anfang an umstritten — selbst Beteiligte und Beobachter zweifelten öffentlich an der Finanzierung.

Bis zu 500 Mrd. $ über vier Jahre für KI-Rechenzentren in den USA (OpenAI, SoftBank, Oracle, MGX); der Einsatz von 100 Mrd. sollte sofort beginnen.

Vorgestellt im Weißen Haus: KI wurde sichtbar zur nationalen Infrastruktur- und Geopolitik-Frage.

Die nächste KI-Phase ist eine Energie- und Bau-Frage — Rechenleistung im Maßstab von Kraftwerken (roter Faden seit CUDA/AlexNet).

Anti-Hype: Eine Ankündigung ist kein fertiges Rechenzentrum; ob die 500 Mrd. vollständig zusammenkommen, war von Anfang an umstritten.

Personen:Sam Altman, Masayoshi Son, Larry Ellison

Organisationen:OpenAI, SoftBank, Oracle

2025Regulierung

Paris AI Action Summit

Am 10. und 11. Februar 2025 trafen sich im Pariser Grand Palais Staats- und Regierungschefs, Tech-Konzerne und Forscher zum AI Action Summit — dem dritten großen KI-Gipfel nach Bletchley (2023) und Seoul (2024), gemeinsam geleitet von Frankreichs Präsident Macron und Indiens Premier Modi. Bemerkenswert war der Tonwechsel: Hatte der erste Gipfel noch die KI-Sicherheit ins Zentrum gestellt, ging es in Paris vor allem um Chancen, Investitionen und Wettbewerbsfähigkeit — der US-Vizepräsident warb offen gegen zu viel Regulierung. Am Ende unterzeichneten 58 Staaten sowie die EU und die Afrikanische Union eine Erklärung für inklusive und nachhaltige KI — die USA und das Vereinigte Königreich aber verweigerten die Unterschrift. Damit zeigte der Gipfel offen den transatlantischen Bruch in der KI-Governance. Zur ehrlichen Einordnung: Die Erklärung war unverbindlich, und Kritiker nannten den Gipfel eine verpasste Chance für das Thema Sicherheit.

Dritter globaler KI-Gipfel (nach Bletchley 2023, Seoul 2024): 10.–11. Februar 2025, Grand Palais, geleitet von Macron und Modi.

Tonwechsel von Sicherheit zu Chancen und Wettbewerb: Paris betonte Investitionen statt Risiken; der US-Vizepräsident warb gegen zu viel Regulierung.

58 Staaten plus EU und Afrikanische Union unterzeichneten die Schlusserklärung — USA und UK verweigerten die Unterschrift (offener transatlantischer Bruch).

Anti-Hype: Die Erklärung war unverbindlich; Kritiker nannten den Gipfel eine verpasste Chance für KI-Sicherheit.

Personen:Emmanuel Macron, Narendra Modi

2025Produkte

Die Frontier-Modelle 2025

2025 wurde die Reasoning-Fähigkeit, die o1 und R1 angestoßen hatten, zum Standard der Spitzenmodelle — in einem Tempo, das schwer zu verfolgen war. Im März stellte Google Gemini 2.5 Pro vor, im Mai folgte Anthropic mit Claude 4 (Opus 4 und Sonnet 4), im August OpenAI mit GPT-5; dazwischen kamen Claude 3.7 (das erste Hybrid-Modell, das wahlweise schnell antwortet oder länger nachdenkt), GPT-4.5, Metas Llama 4 und xAIs Grok. Die neue Generation verband zwei Linien: das schrittweise Nachdenken der Reasoning-Modelle und die Fähigkeit, eigenständig zu handeln (Agentik). Besonders das autonome Programmieren über lange Strecken rückte ins Zentrum. Zur ehrlichen Einordnung: Die Labore überboten sich im Wochentakt mit Benchmark-Rekorden, und jedes beanspruchte die Spitze für sich — echte Fortschritte, aber das oft bemühte Wort AGI blieb mehr Marketing als Realität.

2025 wurden Reasoning (schrittweises Nachdenken) und Agentik (eigenständiges Handeln) zum Standard der Spitzenmodelle; Claude 3.7 führte das wahlweise schnelle oder nachdenkende Hybrid-Modell ein.

Dichtes Rennen: Gemini 2.5 Pro (März), Claude 4 / Opus 4 (Mai), GPT-5 (August) — dazu Llama 4, Grok, DeepSeek. Mehrere Labore an der Spitze.

Im Zentrum: autonomes Programmieren über lange Strecken (z. B. Claude Code) — Modelle, die ganze Aufgaben selbstständig durcharbeiten.

Anti-Hype: Benchmark-Rekorde im Wochentakt, jedes Labor beansprucht die Spitze; echte Fortschritte, aber AGI blieb mehr Marketing als Realität.

Organisationen:Anthropic, OpenAI, Google DeepMind

1837Meilensteine

Babbages Analytical Engine: Die Idee des Computers

In den 1830er-Jahren entwarf der britische Mathematiker Charles Babbage die Analytical Engine, die er 1837 erstmals beschrieb — die erste Konstruktion eines universellen, programmierbaren Rechners.

Sein Entwurf hatte bereits die Bausteine heutiger Computer: ein Rechenwerk (mill), einen Speicher (store), Programmierung per Lochkarten und sogar bedingte Sprünge.

Babbages Maschine war die ferne Ahnin jedes Computers — und damit der Hardware, auf der KI überhaupt erst laufen kann.

Anti-Hype: Die Analytical Engine wurde zu Babbages Lebzeiten nie fertig gebaut — sie blieb ein Entwurf auf dem Papier. Und sie war ein Rechner, keine KI: das Fundament, nicht das Denken selbst.

Personen:Charles Babbage

1843Publikationen

Ada Lovelace: Das erste Programm — und eine kühne Vision

1843 übersetzte Ada Lovelace einen Artikel über Babbages Analytical Engine und ergänzte ihn um ausführliche eigene Anmerkungen, die den Originaltext weit übertrafen.

Ihre Anmerkung G enthält ein Verfahren zur Berechnung der Bernoulli-Zahlen — oft als das erste veröffentlichte Computerprogramm bezeichnet.

Visionär erkannte sie, dass die Maschine mehr als rechnen könnte: Sie könnte Symbole verarbeiten und sogar Musik komponieren — die Idee universeller Datenverarbeitung.

Personen:Ada Lovelace

1936Publikationen

Die Turing-Maschine: Was Rechnen überhaupt bedeutet

1936 veröffentlichte Alan Turing den Aufsatz On Computable Numbers und beschrieb darin ein einfaches gedankliches Rechenmodell — die später so genannte Turing-Maschine.

Mit ihr legte Turing fest, was überhaupt berechenbar ist. Eine universelle Turing-Maschine kann jede andere nachahmen — die theoretische Blaupause des Universalcomputers.

Damit wurde Turing zum Begründer der Informatik. Dass eine einzige Maschine alles Berechenbare berechnen kann, ist die Grundlage dafür, dass Maschinen später denken lernen sollten.

Personen:Alan Turing

1943Publikationen

McCulloch & Pitts: Das erste künstliche Neuron

Das erste mathematische Modell des Neurons als logische Recheneinheit: McCulloch und Pitts gossen die Funktionsweise des Nervensystems in formale Aussagenlogik.

Die entscheidende Grenze: kein Lernen. Gewichte und Schwellen lagen fest, das Netz musste von Hand entworfen werden. Erst Hebb (1949) und Rosenblatts Perceptron (1957) brachten Lernregeln.

Die Wirkung reichte weit über die Biologie hinaus: von Neumanns Rechnerarchitektur (EDVAC, 1945), Wieners Kybernetik und letztlich jedes künstliche neuronale Netz fußen auf dieser Arbeit.

Personen:Warren S. McCulloch, Walter Pitts

Organisationen:University of Illinois, College of Medicine, University of Chicago

1948Publikationen

Shannons Informationstheorie: Das Bit wird geboren

1948 veröffentlichte Claude Shannon bei Bell Labs A Mathematical Theory of Communication und begründete die Informationstheorie.

Er führte das Bit als Maßeinheit der Information ein und definierte die Entropie — wie viel Unsicherheit eine Nachricht im Schnitt auflöst.

Für die KI zentral: Kreuzentropie und KL-Divergenz — direkt aus Shannons Theorie — sind heute Standard-Trainingsziele beim maschinellen Lernen.

Personen:Claude Shannon

Organisationen:Bell Labs

1949Publikationen

Hebbsche Regel: Wie Lernen im Gehirn entsteht

1949 veröffentlichte der Psychologe Donald Hebb The Organization of Behavior und formulierte, wie Lernen im Gehirn auf Ebene der Synapsen funktionieren könnte.

Hebbs Regel: Feuern zwei verbundene Nervenzellen wiederholt gemeinsam, verstärkt sich ihre Verbindung.

Die Idee — Lernen heißt, Verbindungsstärken anzupassen — wurde zum Grundprinzip lernender neuronaler Netze (etwa bei Hopfield-Netzen).

Personen:Donald Hebb

1950Publikationen

Turing Test: Das Imitation Game

Test der Ununterscheidbarkeit: Evaluator versucht, Maschine von Mensch per Textkonversation zu unterscheiden

Verlagerte Fokus von philosophischen Definitionen zu verhaltensbasierten Demonstrationen von Intelligenz

Stellte fundamentale Frage 'Können Maschinen denken?' und schlug operationalen Ansatz vor

Etablierte ersten KI-Benchmark und beeinflusste alle nachfolgenden Conversational AI-Entwicklungen

Personen:Alan Turing

Organisationen:University of Manchester, Mind Journal

1956Durchbrüche

Logic Theorist: Das erste schlussfolgernde Programm

Oft „das erste KI-Programm“ genannt — präziser: das erste Programm, das menschliches Schlussfolgern auf einer offenen Denkaufgabe nachbilden sollte (Spiele-Programme kamen davor).

Heuristische Suche statt roher Gewalt: vom Ziel rückwärts, mit Abschätzung lohnender Schritte (Einsetzen, Abtrennen, Verketten) — inspiriert von Pólyas Heuristik.

Bewies 38 der ersten 52 Theoreme aus Kapitel 2 der „Principia Mathematica“ — für einen Satz sogar kürzer als das Original.

Geschrieben in der Listen-Sprache IPL (maßgeblich von Shaw), die McCarthys LISP beeinflusste; der heuristische Ansatz führte direkt zum General Problem Solver (1957).

Personen:Allen Newell, Herbert A. Simon, John Clifford Shaw

Organisationen:RAND Corporation, Carnegie Institute of Technology

1956Konferenzen

Dartmouth-Konferenz: Geburtsstunde der KI

Geburtsstunde der KI als eigenständige Forschungsdisziplin durch 8-wöchigen Workshop mit führenden Denkern

John McCarthy prägte den Begriff 'Artificial Intelligence' und definierte damit ein neues Forschungsfeld

Etablierte Forschungsprogramm: Maschinensprache, Abstraktion, Problemlösung und Selbstverbesserung

Versammelte die KI-Gründerväter: McCarthy, Minsky, Shannon, Rochester und den späteren Nobelpreisträger Herbert Simon

Personen:John McCarthy, Marvin Minsky, Nathaniel Rochester, Claude Shannon

Organisationen:Dartmouth College, IBM, Bell Labs

1957Publikationen

Perceptron: Das erste lernende neuronale Netzwerk

Erstes trainierbare künstliches Neuron mit gewichteten Eingaben und Heaviside-Sprungfunktion

Binäre Klassifikation durch Schwellwert-Entscheidung, effektiv für linear separierbare Muster

Frank Rosenblatts Perceptron-Lernregel korrigierte die Gewichte bei jeder Fehlklassifikation und ermöglichte so automatisches Lernen

Beschränkung auf linear separierbare Probleme führte später zur XOR-Kritik von Minsky und Papert

Personen:Frank Rosenblatt

Organisationen:Cornell Aeronautical Laboratory, US Navy

1958Durchbrüche

LISP: Die Sprache der KI

John McCarthy entwarf LISP 1958 am MIT für symbolisches Rechnen (Listen statt Zahlen) — über Jahrzehnte DIE Sprache der KI-Forschung (Expertensysteme, NLP, Planung).

Führte Ideen ein, die heute Standard sind: Rekursion, automatische Garbage Collection, Funktionen als Daten, interaktive Auswertung (REPL).

Knüpfte an die Listen-Verarbeitung von IPL an; Steve Russell setzte McCarthys eval als ersten Interpreter um und machte LISP lauffähig.

Anti-Hype: nicht die erste höhere Sprache (Fortran 1957 kam zuvor) — aber die zweitälteste noch genutzte und für die KI die prägendste.

Personen:John McCarthy, Steve Russell

Organisationen:MIT

1959Durchbrüche

Arthur Samuel: Selbstlernende KI & der Begriff „Machine Learning“

Im Titel seines Aufsatzes von 1959 verwendete Samuel den Begriff „Machine Learning“ — die erste belegte Nutzung in der heutigen Bedeutung; er gilt als Namensgeber.

Das erste öffentlich vorgeführte selbstlernende Programm: Es justierte die Gewichte seiner Bewertungsfunktion selbst und merkte sich Stellungen (Rote Learning).

Durch zehntausende Partien gegen sich selbst nahm es das Selbstspiel vorweg, das später AlphaZero perfektionierte — für Sutton die früheste Anwendung des Temporal-Difference-Lernens.

Anti-Hype: Der gefeierte Sieg von 1962 galt einem überschätzten Gegner; gegen Weltklasse verlor das Programm. Vollständig gelöst wurde Dame erst 2007 (Chinook).

Personen:Arthur Lee Samuel

Organisationen:IBM

1965Meilensteine

DENDRAL: Pionier der Expertensysteme

DENDRAL leitete aus Massenspektrometrie-Daten die Struktur organischer Moleküle ab — mit dem Fachwissen menschlicher Chemiker statt mit allgemeiner Suche.

Die Lehre: Wissen ist Macht. Statt allgemeiner Problemlöser setzte die KI nun auf eng begrenzte, wissensreiche Domänen — der Beginn der Expertensysteme.

Personen:Edward Feigenbaum, Joshua Lederberg, Bruce Buchanan

Organisationen:Stanford University

1965Publikationen

Fuzzy Logic: Logik der Unschärfe

Lotfi Zadehs 1965er Paper 'Fuzzy Sets' mit über 100.000 Zitierungen veränderte den Umgang mit Ungewissheit erheblich

Ermöglichte mathematische Modellierung von Vagheit, Unvollständigkeit und widersprüchlichen Informationen

Fand Anwendung in Expertensystemen, Kontrollsystemen und approximativen Entscheidungsprozessen

Legte Grundstein für Soft Computing und moderne KI-Ansätze zum Umgang mit imperfekter Information

Personen:Lotfi Zadeh

Organisationen:UC Berkeley, Information and Control

1966Durchbrüche

ELIZA: Der erste Chatbot

Erstes Computerprogramm explizit für Mensch-Maschine-Konversation entwickelt, fertiggestellt 1966

Nutzte einfache Pattern-Matching- und Substitutions-Methodik – das Programm kam mit erstaunlich wenig Code aus

Erzeugte Illusion von Verständnis und emotionaler Intelligenz ohne echtes Sprachverständnis

Machte den später so genannten ‚ELIZA-Effekt' sichtbar und warnte vor der Projektion menschlicher Eigenschaften auf rudimentäre Programme

Personen:Joseph Weizenbaum

Organisationen:MIT, MIT AI Laboratory

1969Publikationen

Perceptrons: Das Buch, das den KI-Winter mitauslöste

1969 veröffentlichten Marvin Minsky und Seymour Papert Perceptrons und analysierten mathematisch, was einlagige Perzeptronen können — und was nicht.

Ihr berühmtes Ergebnis: Ein einlagiges Perzeptron kann die simple XOR-Funktion nicht lernen, weil sie nicht linear trennbar ist.

Das Buch gilt als Mitauslöser des ersten KI-Winters: Die Förderung neuronaler Netze versiegte für über ein Jahrzehnt.

Personen:Marvin Minsky, Seymour Papert

Organisationen:MIT

1969Durchbrüche

Shakey: Der erste intelligente mobile Roboter

Erster mobiler Roboter der über eigene Handlungen reflektieren und komplexe Aufgaben eigenständig planen konnte

Kombinierte TV-Kamera, Sonar, Prozessoren und Sensoren zu autonomem mobilem System

Entwickelte STRIPS-Planning-System für automatische Aufgabenzerlegung und Routenfindung

Vereinte Computer Vision, Navigation und logisches Reasoning in einem physischen System

Personen:Charles Rosen, Nils Nilsson, Bertram Raphael

Organisationen:SRI International, DARPA

1970Meilensteine

SHRDLU: Sprache verstehen in der Klötzchenwelt

Um 1970 baute Terry Winograd am MIT SHRDLU — ein Programm, das in einfachem Englisch Befehle verstand und eine virtuelle Klötzchenwelt manipulierte.

SHRDLU konnte mehrdeutige Sätze auflösen, sich an Gesagtes erinnern, Fragen beantworten und sogar erklären, warum es etwas getan hatte.

Es galt als beeindruckender Höhepunkt der symbolischen KI — der Beweis, dass Maschinen Sprache in einer begrenzten Welt erstaunlich gut verstehen.

Anti-Hype: SHRDLUs Verständnis funktionierte nur in seiner winzigen Klötzchenwelt. Auf die echte Welt ließ es sich nicht übertragen — ein Lehrstück über die Grenzen solcher Mikrowelten.

Personen:Terry Winograd

Organisationen:MIT

1970Publikationen

Hidden Markov Models etabliert

Baum-Welch-Algorithmus als Spezialfall der Expectation-Maximization für HMM-Parameter-Schätzung

Erste praktische Anwendung in Spracherkennung ab Mitte 1970er bei Carnegie Mellon und IBM

Transformierte Sequenzmodellierung von Template-Matching zu statistischen probabilistischen Ansätzen

Legte mathematisches Fundament für moderne probabilistische Machine Learning-Verfahren

Personen:Leonard Baum, Lloyd Welch, Ted Petrie

Organisationen:Institute for Defense Analyses

1972Meilensteine

Prolog: Programmieren mit Logik

1972 entwickelten Alain Colmerauer und Philippe Roussel an der Universität Marseille die Sprache Prolog — kurz für Programmation en Logique.

Prolog ist deklarativ: Man beschreibt Fakten und Regeln, und das System leitet selbst die logischen Schlüsse ab — statt Schritt für Schritt vorzugeben, wie.

Prolog wurde zur wichtigsten Sprache der logischen, symbolischen KI — in Expertensystemen, der Sprachverarbeitung und Japans Fifth-Generation-Projekt.

Personen:Alain Colmerauer, Philippe Roussel, Robert Kowalski

Organisationen:University of Aix-Marseille

1974Meilensteine

Der erste KI-Winter

DARPA in den USA und der britische Science Research Council fuhren Mitte der 1970er die Förderung ungerichteter KI-Forschung drastisch zurück

Professor James Lighthill kritisierte 1973 scharf die KI-Forschung für das Verfehlen ihrer Ziele und wies auf das Problem der kombinatorischen Explosion hin

DARPA kündigte den 3-Millionen-Dollar-Vertrag mit Carnegie Mellon für Sprachverständnissysteme nach enttäuschenden Ergebnissen

KI-Programme der frühen 1970er waren auf triviale Versionen echter Probleme beschränkt und wirkten wie intelligente 'Spielzeuge'

Personen:James Lighthill, J.C.R. Licklider, Hans Moravec

Organisationen:DARPA, British Science Research Council, Carnegie Mellon University

1980Publikationen

Neocognitron: Der Urahn der CNNs

1980 stellte Kunihiko Fukushima das Neocognitron vor — ein mehrschichtiges neuronales Netz für die Mustererkennung.

Vorbild war der Sehkortex (Hubel und Wiesel): einfache und komplexe Zellen, die Merkmale stufenweise und unabhängig von ihrer Position erkennen.

Damit nahm das Neocognitron die Kernideen heutiger Convolutional Neural Networks vorweg — lokale Merkmalsfilter und hierarchische Verarbeitung. LeCuns LeNet (1989) baute darauf auf.

Anti-Hype: Das Neocognitron nutzte noch keine Backpropagation. Erst Backpropagation (1986) und LeNet (1989) machten daraus praktisch lernfähige Netze. Fukushimas Pionierrolle wird oft unterschätzt.

Personen:Kunihiko Fukushima

Organisationen:NHK Broadcasting Science Research Laboratories

1980Meilensteine

Expertensystem-Ära der 1980er

KI-Industrie wächst von wenigen Millionen Dollar (1980) auf Milliarden (1988)

Zwei Drittel der Fortune-500-Unternehmen setzen Expertensysteme im Geschäftsalltag ein

MYCINs Therapievorschläge erreichen rund 65% Akzeptanz – vergleichbar mit menschlichen Fakultäts-Experten

Klassisches Muster einer Wirtschaftsblase: Boom gefolgt von massivem Crash

Personen:Edward Feigenbaum, Bruce Buchanan, Edward Shortliffe

Organisationen:Stanford University, Fortune 500 Companies

1982Publikationen

Hopfield-Netzwerke: Assoziatives Gedächtnis

Content-addressable memory das vollständige Muster aus unvollständigen oder verrauschten Eingaben rekonstruiert

Rekurrente Architektur mit symmetrischen bidirektionalen Verbindungen und emergenten kollektiven Eigenschaften

Lyapunov-Energiefunktion führt System zu Fixpunkt-Attraktoren durch 'Bergab-Rollen' zur gespeicherten Erinnerung

Entfachte Interesse an neuronalen Netzwerken neu und legte Grundstein für moderne RNN-Entwicklung

Personen:John Hopfield

Organisationen:California Institute of Technology, Bell Laboratories

1986Publikationen

Backpropagation-Algorithmus

Veröffentlicht in Nature am 9. Oktober 1986 als 'Learning representations by back-propagating errors'

Machte effizientes Training mehrschichtiger neuronaler Netzwerke durch Gradient-Berechnung praktisch nutzbar und breit bekannt

Versteckte Schichten lernten automatisch wichtige Merkmale zu erkennen – ein wichtiger Fortschritt gegenüber Perzeptronen

Legte das mathematische Fundament für alle modernen Deep Learning-Anwendungen und Transformer-Architekturen

Personen:David Rumelhart, Geoffrey Hinton, Ronald Williams

Organisationen:University of California San Diego, Carnegie Mellon University, Nature

1987Meilensteine

Der zweite KI-Winter

Der Markt für spezialisierte Lisp-Maschinen brach 1987 zusammen, da Apple- und IBM-Computer kostengünstiger und leistungsfähiger wurden

Expertensysteme wie XCON erwiesen sich als zu wartungsintensiv, starr und unfähig mit neuen Daten umzugehen

Jack Schwartz kürzte die KI-Finanzierung bei DARPA 'tief und brutal' und bezeichnete Expertensysteme als 'clevere Programmierung'

Die Kosten für AI-spezifische Hardware überwogen die versprochenen geschäftlichen Erträge bei weitem

Personen:Jacob T. Schwartz, Marvin Minsky, Roger Schank

Organisationen:DARPA, IPTO, Symbolics, Lisp Machines Inc, XCON

1987Datensätze

UCI ML Repository: Die Datensatz-Bibliothek

1987 als FTP-Archiv von David Aha und UCI-Studenten für empirische ML-Algorithmus-Analyse gegründet

Wurde zur primären Quelle für ML-Datensätze für Studenten, Lehrende und Forscher weltweit

Zehntausendfach zitiert – eine der meistgenutzten Datensatz-Ressourcen der gesamten Informatik

Demokratisierte ML-Forschung durch Zugang zu standardisierten, qualitativ hochwertigen Benchmark-Datensätzen

Personen:David Aha, Patrick Murphy

Organisationen:University of California Irvine, UCI

1988Publikationen

Bayessche Netze: Schließen unter Unsicherheit

Judea Pearl (UCLA) etablierte das Schließen unter Unsicherheit als eine dritte Säule der KI — neben Symbolik und neuronalen Netzen.

Bayessche Netze: Graphen aus Variablen (Knoten) und wahrscheinlichkeitsbasierten Abhängigkeiten (Kanten) — ersetzten ad-hoc-Sicherheitsfaktoren durch sauberes, effizientes Schließen.

Prägte das maschinelle Lernen der 1990er/2000er; Pearl erhielt 2011 den Turing Award und begründete später die moderne kausale Inferenz.

Personen:Judea Pearl

Organisationen:UCLA

1989Publikationen

Universal Approximation Theorem

Rigoroser mathematischer Beweis für universelle Approximationsfähigkeiten neuronaler Netzwerke

Ein Hidden Layer mit genügend Neuronen kann jede Borel-messbare Funktion beliebig genau approximieren (Cybenkos Parallelarbeit zeigte dies für stetige Funktionen)

Beweist Fähigkeit zur Modellierung komplexer, nicht-linearer Beziehungen in realen Daten

Lieferte mathematische Rechtfertigung für Neural Network-Einsatz und theoretische Vertrauensgrundlage

Personen:Kurt Hornik, Maxwell Stinchcombe, Halbert White

Organisationen:University of California San Diego

1989Durchbrüche

World Wide Web: Die Erfindung des WWW

Hypertext-Projekt mit verlinkten Dokumenten, Browsern und „Hot Spots“ – aufbauend auf älteren Hypertext-Ideen (Ted Nelson, Vannevar Bushs Memex), aber bewusst einfacher als Nelsons Xanadu

Information Management Proposal vom 12. März 1989 bei CERN für automatisierten Wissenschaftsaustausch

HTML, HTTP und URI/URL als fundamentale Web-Technologien bis Ende 1990 entwickelt

Schuf die Dateninfrastruktur für spätere Common Crawl-Sammlungen und Large Language Model-Training

Personen:Tim Berners-Lee

Organisationen:CERN

1989Publikationen

LeNet und die Geburt der CNNs

Erste erfolgreiche Kombination von Convolutional Neural Networks mit Backpropagation-Training

Erkannte handgeschriebene Postleitzahlen für den US Postal Service: rund 5% Fehler auf Testdaten, etwa 1% wenn unsichere Fälle zurückgewiesen werden durften

Yann LeCuns wegweisende Arbeit bei Bell Labs etablierte CNNs als praktikable Computer Vision-Lösung

Legte das Fundament für alle modernen CNN-Architekturen von AlexNet bis zu aktuellen Vision-Systemen

Personen:Yann LeCun, Bernhard Boser, John Denker

Organisationen:AT&T Bell Labs, NIPS

1992Durchbrüche

TD-Gammon: Lernen durch Spiel gegen sich selbst

1992 stellte Gerald Tesauro bei IBM TD-Gammon vor — ein neuronales Netz, das Backgammon spielen lernte.

Es lernte fast nur durch Spiele gegen sich selbst, mit dem Reinforcement-Learning-Verfahren Temporal Difference — ohne menschliche Partien als Vorlage.

TD-Gammon erreichte annähernd Weltklasse und entdeckte neue Eröffnungszüge, die Profis übernahmen — ein Vorbote von AlphaGo, fast 25 Jahre früher.

Personen:Gerald Tesauro

Organisationen:IBM

1992Publikationen

Q-Learning: Fundament des Reinforcement Learning

1992 mathematischer Konvergenzbeweis: Q-Learning findet garantiert optimale Strategien bei unendlicher Exploration

Innovativer modellfreier Ansatz: Lernen optimaler Aktionen ohne Umgebungsmodell oder Übergangswahrscheinlichkeiten

Elegante Lösung für Markov-Entscheidungsprobleme durch schrittweise Q-Funktions-Optimierung

Grundstein des modernen Reinforcement Learning - bis heute Kern von Deep Q-Networks und zahllosen KI-Systemen

Personen:Chris Watkins, Peter Dayan

Organisationen:King's College Cambridge, University College London

1993Datensätze

Penn Treebank: Syntaktische Annotation verändert NLP

4,5+ Millionen Wörter mit Wortart-Auszeichnung, davon rund 3 Millionen mit detaillierter syntaktischer Annotation - durch zweistufiges semi-automatisches Verfahren

Etablierte empirische Methoden in Computerlinguistik und wurde Standard-Benchmark für Parsing-Forschung

Veränderte Parsing-Algorithmen erheblich von regelbasierten zu statistischen Ansätzen

Legte Grundlagen für statistisches Parsing und dient modernen NLP-Systemen als Evaluations-Benchmark

Personen:Mitchell Marcus, Beatrice Santorini, Mary Ann Marcinkiewicz

Organisationen:University of Pennsylvania, Linguistic Data Consortium

1995Publikationen

AdaBoost: Schwache Lerner werden stark

Adaptive Gewichtung: Schwere Fälle werden stärker gewichtet für fokussiertes Lernen auf Problemstellen

Schwache Lerner Prinzip: Hunderte einfache Klassifikatoren ergeben zusammen hochpräzise Vorhersagen

Gödel-Preis 2003: Eine der renommiertesten Auszeichnungen der theoretischen Informatik für die Begründung der Boosting-Theorie

Fundament moderner Ensemble-Methoden: Inspirierte XGBoost und ganze Generation von Boosting-Algorithmen

Personen:Yoav Freund, Robert Schapire

Organisationen:AT&T Bell Laboratories

1995Publikationen

Support Vector Machines: Maximum Margin-Klassifikation

Vapniks und Chervonenkis' Maximum-Margin-Ansatz von 1964 erweitert zu praktischer Lösung für nicht-separierbare Daten

Kernel Trick ermöglicht nicht-lineare Klassifikation durch implizite hochdimensionale Transformationen

Maximum Margin-Prinzip maximiert Abstand zwischen Klassen für optimale Generalisierung

Etablierte theoretisch fundierte Alternative zu neuronalen Netzwerken mit Generalisierungsgarantien

Personen:Vladimir Vapnik, Corinna Cortes

Organisationen:AT&T Bell Labs

1995Datensätze

WordNet: Semantisches Netzwerk der Sprache

Erstes als semantisches Netz aus Synsets und Bedeutungsrelationen aufgebautes lexikalisches Wörterbuch mit programmgesteuertem Zugang

Synsets verknüpft durch semantische und lexikalische Relationen bilden navigierbares Bedeutungs-Netzwerk

Spiegelt menschliches semantisches Gedächtnis wider und verbindet Cognitive Science mit Computational Linguistics

Legte Grundstein für ImageNet-Hierarchien, Knowledge Graphs und moderne semantische NLP-Systeme

Personen:George Miller, Christiane Fellbaum

Organisationen:Princeton University, Cognitive Science Laboratory

1996Publikationen

PageRank: Googles Milliarden-Dollar-Algorithmus

Stanford-Projekt 'BackRub' analysierte Backlink-Daten zur Web-Wichtigkeit - Grundlage für Google

Innovative Link-Analyse: Webseiten-Wichtigkeit durch Verweise statt nur Keyword-Häufigkeit

Random Surfer Modell: Eine Seite ist umso wichtiger, je häufiger der zufällige Surfer sie über die Link-Struktur besucht

Aus Stanford-Forschung wurde Google Inc. - PageRank als Fundament der wertvollsten Suchmaschine

Personen:Larry Page, Sergey Brin, Rajeev Motwani, Terry Winograd

Organisationen:Stanford University, Google Inc.

1997Wettbewerbe

Deep Blue besiegt Kasparov

Erster Sieg eines Computers über einen amtierenden Schachweltmeister im Match unter Standard-Turnierbedingungen (eine Einzelpartie hatte Deep Blue bereits 1996 gewonnen)

200 Millionen Positionen pro Sekunde, verbesserte Endspieldatenbanken und Großmeister-Beratung

IBMs technischer Triumph nach jahrelanger Entwicklung seit ChipTest 1985 über Deep Thought zu Deep Blue

Wendepunkt für öffentliche KI-Wahrnehmung und Beweis maschineller Überlegenheit in komplexem strategischem Denken

Personen:Garry Kasparov, Murray Campbell, Joe Hoane, Feng-hsiung Hsu

Organisationen:IBM, World Chess Championship

1997Publikationen

LSTM: Long Short-Term Memory

Löste Vanishing Gradient Problem durch konstanten Error-Flow über tausende Zeitschritte

Spezielle Gedächtniszellen mit konstanten Error Carousels für langfristige Informationsspeicherung

Multiplikative Gate-Units lernen Zugang zum konstanten Error-Flow zu öffnen und schließen

Ermöglichte effektive Langzeit-Sequenzmodellierung für Spracherkennung und Zeitreihenanalyse

Personen:Sepp Hochreiter, Jürgen Schmidhuber

Organisationen:Technical University of Munich, IDSIA

1998Datensätze

MNIST: Der Machine Learning-Standard

70.000 handgeschriebene Ziffern als 28x28-Pixel normalisierte Graustufen-Bilder

Von Yann LeCun, Corinna Cortes und Christopher Burges aus NIST-Datenbanken kuratiert

Wurde zum 'Hello World' des Machine Learning und Standard-Benchmark für ML-Algorithmen

Demokratisierte ML-Bildung durch einfachen Zugang ohne aufwendige Datenaufbereitung

Personen:Yann LeCun, Corinna Cortes, Christopher Burges

Organisationen:AT&T Labs, Courant Institute

2001Publikationen

Random Forest: Durchbruch der Ensemble-Methoden

Ensemble-Durchbruch: Hunderte zufällige Entscheidungsbäume stimmen gemeinsam für bessere Vorhersagen ab

Bagging + Feature-Randomisierung: Jeder Baum sieht unterschiedliche Daten und Features für Diversität

Theoretische Fundierung: Generalisierungsfehler-Bounds basierend auf Baumstärke und Korrelation

Plug-and-Play ML-Algorithmus: Minimales Tuning bei außergewöhnlicher Performance in allen Domänen

Personen:Leo Breiman, Adele Cutler

Organisationen:UC Berkeley Statistics Department, Machine Learning Journal

2005Organisationen

Future of Humanity Institute gegründet

2005 an Oxford University gegründet, wuchs von 3 auf etwa 40 Forscher bis zur Schließung 2024

Pionierarbeit bei existenziellen Risiken, Longtermism und AI Governance als neue Forschungsfelder

Etablierte AI Alignment und AI Safety als legitime akademische Disziplinen mit globaler Wirkung

Verlieh KI-Sicherheitsforschung durch Oxford-Affiliation wissenschaftliche Glaubwürdigkeit und Respekt

Personen:Nick Bostrom, Anders Sandberg

Organisationen:Oxford University, Future of Humanity Institute

2005Wettbewerbe

DARPA Grand Challenge: Geburt des autonomen Fahrens

Stanford's 'Stanley' gewann als erstes autonomes Fahrzeug eine 212 km Wüstenstrecke in unter 7 Stunden

Durchbruch von null erfolgreichen Fahrzeugen (2004) zu fünf Zieleinläufen (2005), vier davon im Zeitlimit, durch bessere KI

Erkannte als Software-Race: LiDAR, Machine Learning und menschliche Fahrdaten als Schlüssel

Geburtsmoment der modernen Selbstfahr-Technologie - inspirierte Tesla, Google und ganze Industrie

Personen:Sebastian Thrun, Mike Montemerlo, Stanley Thrun Team

Organisationen:DARPA, Stanford University, Stanford AI Lab

2006Publikationen

Deep Belief Networks: Renaissance des Deep Learning

Gieriger Layer-by-Layer Lernalgorithmus ermöglichte erstmals effizientes Training tiefer neuronaler Netze

Stapeln von Restricted Boltzmann Machines (RBMs) als Bausteine für komplexe Repräsentationen

Unüberwachtes Pre-Training löste das Gewichtsinitialisierungsproblem tiefer Netzwerke

Beendete das Schattendasein neuronaler Netze und begründete die moderne Deep Learning Revolution ab 2006

Personen:Geoffrey Hinton, Simon Osindero, Yee-Whye Teh

Organisationen:University of Toronto, Neural Computation

2006Wettbewerbe

Netflix Prize: Der Million-Dollar-Algorithmus

1 Million Dollar Preisgeld für 10% Verbesserung des Cinematch-Algorithmus über 3 Jahre Wettbewerb

100+ Millionen Bewertungen von 480k Nutzern für 17.770 Filme als öffentlicher ML-Datensatz

Veränderte Collaborative Filtering erheblich durch Matrix-Factorization und Restricted Boltzmann Machines

40.000+ Teams aus 186 Ländern, über 5.000 auf dem Qualifikations-Leaderboard mit rund 44.000 Einreichungen - Crowdsourcing-Power für ML

Personen:Reed Hastings, Netflix Team, BellKor Pragmatic Chaos Team

Organisationen:Netflix, BellKor, AT&T Research

2007Datensätze

Common Crawl Foundation gegründet

Gründung 2007 mit der Mission, das gesamte öffentliche Internet zu archivieren und frei verfügbar zu machen

Wächst seit Crawling-Beginn 2008 monatlich um Milliarden Seiten – Größenordnung mittlerweile (Stand 2024) über 100 Milliarden Webseiten und mehrere Petabytes Daten

Wurde zur wichtigsten Trainingsquelle für GPT-3, ChatGPT, LLaMA und andere moderne Large Language Models

Non-Profit-Ansatz demokratisierte Zugang zu umfassenden Sprachdaten für KI-Forschung weltweit

Personen:Gil Elbaz, Common Crawl Team

Organisationen:Common Crawl Foundation, Internet Archive, Alexa Internet

2007Meilensteine

CUDA: Die Grafikkarte wird zum KI-Motor

GPUs rechnen tausende Operationen parallel. Das passt exakt zu neuronalen Netzen, deren Kern Matrixmultiplikationen sind.

Wurde zum Motor des Deep Learning: AlexNet (2012) trainierte auf zwei GTX-580-Karten mit CUDA; ab cuDNN (2014) läuft praktisch jedes große Framework darauf.

Anti-Hype: GPGPU gab es schon vor CUDA (Shader 2001, BrookGPU 2004); CUDA verursachte Deep Learning nicht allein — es machte die Rechenleistung zugänglich (nötig, nicht hinreichend).

Personen:Ian Buck, John Nickolls

Organisationen:NVIDIA

2008Publikationen

Zero-Shot Learning: Lernen ohne Daten

Klassifikation von Klassen ohne Trainingsdaten – nur mit semantischen Beschreibungen der Zielklassen

Wiederverwendung trainierter Modelle für völlig neue Aufgaben durch semantische Embeddings

Semantische Repräsentationen ermöglichen Generalisierung zu ungesehenen Konzepten

Legte Fundament für Few-Shot und Zero-Shot Fähigkeiten moderner Large Language Models

Personen:Hugo Larochelle, Dumitru Erhan, Yoshua Bengio

Organisationen:University of Montreal

2009Datensätze

CIFAR-Datensätze etabliert

CIFAR-10 mit 60.000 Bildern in 10 Kategorien, CIFAR-100 mit 100 detaillierteren Klassen als Computer Vision-Benchmarks

Wurde zu einem der wichtigsten standardisierten Benchmarks für Computer Vision-Algorithmen weltweit

Ermöglichte systematische Evaluierung und Vergleich verschiedener Machine Learning-Ansätze

Krizhevsky nutzte CIFAR-10 vor 2011 für CNN-Training – Vorstufe zu seinem AlexNet-Erfolg 2012

Personen:Alex Krizhevsky, Vinod Nair, Geoffrey Hinton

Organisationen:University of Toronto, Canadian Institute for Advanced Research, CIFAR

2009Datensätze

ImageNet: Der Datensatz der alles veränderte

Zum Launch 2009 rund 3,2 Millionen Bilder, im Vollausbau über 14 Millionen handannotierte Bilder in rund 22.000 Kategorien durch rund 49.000 Worker aus 167 Ländern

Basiert auf WordNet-Hierarchien für strukturierte Kategorisierung visueller Objekte

Stellte die kritischen Trainingsdaten für AlexNets 2012er-Durchbruch und die Deep Learning-Entwicklung bereit

Transformierte Computer Vision-Forschung und ermöglichte autonome Fahrzeuge, Gesichtserkennung, medizinische Bildgebung

Personen:Fei-Fei Li, Jia Deng, Wei Dong, Richard Socher

Organisationen:Stanford University, Princeton University

2010Meilensteine

DeepMind wird gegründet

September 2010 in London als DeepMind Technologies gegründet

Demis Hassabis (Neurowissenschaftler, Spieleentwickler), Shane Legg und Mustafa Suleyman

2014 von Google für geschätzte 500 Millionen Dollar übernommen

Später verantwortlich für AlphaGo, AlphaFold und andere bahnbrechende KI-Systeme

Personen:Demis Hassabis, Shane Legg, Mustafa Suleyman

Organisationen:DeepMind, Google

2010Wettbewerbe

ImageNet Challenge: Der Wettkampf beginnt

Erste ILSVRC 2010 mit 1.000 Kategorien und 1,2 Millionen Trainingsbildern – weit über PASCAL VOC hinaus

Etablierte Top-1 und Top-5 Fehlerquoten als Standard-Metriken für Computer Vision-Evaluierung

Jährlicher Wettbewerb seit 2010 zog über 50 Institutionen weltweit an und trieb Forschungsfortschritte

Schuf die Wettbewerbsstruktur die 2012 AlexNets Durchbruch ermöglichte: eine Top-5-Fehlerrate von nur 15,3% (rund 84,7% Genauigkeit)

Personen:Fei-Fei Li, Olga Russakovsky, Alexander Berg

Organisationen:Stanford University, ImageNet Team

2011Wettbewerbe

Watson besiegt Jeopardy-Champions

Besiegte Jeopardy-Legenden Ken Jennings und Brad Rutter in im Fernsehen übertragener Challenge

Erste TV-Demonstration fortgeschrittener Natural Language Processing-Fähigkeiten für Millionen Zuschauer

DeepQA-System kombinierte Knowledge-Retrieval mit komplexem Reasoning ohne Internetverbindung

Ken Jennings' 'computer overlords'-Kommentar unterstrich kulturelle Bedeutung des KI-Fortschritts

Personen:David Ferrucci, Ken Jennings, Brad Rutter

Organisationen:IBM Research, Jeopardy!, Sony Pictures Television

2011Produkte

Siri Launch: Sprachassistentin wird Smartphone-Mainstream

Erste tief ins Smartphone integrierte Massen-Sprachassistentin für Millionen Nutzer weltweit

Fortschrittliche natürliche Sprachverarbeitung ermöglichte intuitive Mensch-Computer-Kommunikation

Eines von Steve Jobs' letzten großen Produkten vor seinem Tod am 5. Oktober 2011

Begründete die moderne Ära der Sprachassistenten und inspirierte alle Konkurrenten

Personen:Steve Jobs, Susan Bennett, Tom Gruber, Adam Cheyer

Organisationen:Apple, SRI International, DARPA

2012Publikationen

Dropout Regularisierung

Löst das zentrale Overfitting-Problem tiefer neuronaler Netzwerke

Zufälliges Ausschalten der Hälfte aller Neuronen während des Trainings

Einer der Bausteine von AlexNets ImageNet-Durchbruch — neben GPU-Training, ReLU und Netztiefe

Wird zum Standard in den meisten modernen Deep Learning Architekturen

Personen:Geoffrey Hinton, Nitish Srivastava, Alex Krizhevsky, Ilya Sutskever, Ruslan Salakhutdinov

Organisationen:University of Toronto

2012Durchbrüche

AlexNet-Erfolg

AlexNet gewann die ImageNet 2012 Challenge mit 15,3% Fehlerrate – 10,9 Prozentpunkte besser als der zweitbeste Teilnehmer (26,2%)

60 Millionen Parameter, ReLU-Aktivierungen, Dropout-Layer und GPU-Training etablierten neue technische Standards

Führte die praktische Überlegenheit des Deep Learning eindrucksvoll vor Augen und beendete die Skepsis gegenüber neuronalen Netzen

Startete die moderne KI-Entwicklung und machte CNN-Architekturen zum Standard in der Computer Vision

Personen:Alex Krizhevsky, Geoffrey Hinton, Ilya Sutskever

Organisationen:University of Toronto, ImageNet Challenge, NIPS

2012Durchbrüche

Deep Learning-Revolution

Deep Learning etablierte sich als dominante KI-Technologie und beendete die Vorherrschaft traditioneller Machine Learning-Ansätze

AlexNets ImageNet-Sieg demonstrierte erstmals die praktische Überlegenheit tiefer neuronaler Netzwerke

GPU-Computing ermöglichte Training großer neuronaler Netzwerke und veränderte KI-Forschungsmethoden grundlegend

Löste massive Investitionen in Deep Learning-Forschung und industrielle Adoption neuronaler Architekturen aus

Personen:Geoffrey Hinton, Yann LeCun, Yoshua Bengio, Alex Krizhevsky, Ilya Sutskever

Organisationen:University of Toronto, NYU, University of Montreal

2013Publikationen

Word2Vec: Wörter als Vektoren

Erste effiziente dichte, niedrigdimensionale Vektor-Repräsentationen von Wörtern mit semantischen Beziehungen

Semantische und syntaktische Muster durch Vektor-Arithmetik: König - Mann + Frau = Königin

Ermöglichte analogisches Reasoning in Vektorräumen durch Cosinus-Ähnlichkeit und Distanz-Metriken

Legte Fundament für moderne Embedding-Techniken und Transformer-basierte Large Language Models

Personen:Tomas Mikolov, Kai Chen, Greg Corrado, Jeffrey Dean

Organisationen:Google, Google Research

2013Publikationen

VAE: Variational Autoencoders

Variational Inference für effiziente Approximation intraktabler Posterior-Verteilungen in kontinuierlichen latenten Variablen

Probabilistischer latenter Raum ermöglicht kontinuierliche Interpolation und Generierung neuer Datenpunkte

Wegweisende Verbindung von Autoencoder-Architektur mit skalierbarer probabilistischer generativer Modellierung durch amortisierte Variational Inference

Encoder-Decoder-Architektur mit Reparameterization Trick für differenzierbare Zufälligkeit

Personen:Diederik P. Kingma, Max Welling

Organisationen:University of Amsterdam

2014Publikationen

Adam: Der Standard-Optimierer des Deep Learning

2014 stellten Diederik Kingma und Jimmy Ba den Optimierer Adam vor — der Name leitet sich von Adaptive Moment Estimation ab (kein Akronym).

Adam passt die Lernrate für jeden Parameter automatisch an und kombiniert dafür zwei Ideen: Momentum und adaptive Schrittweiten (wie bei RMSProp).

Adam wurde zum Standard-Werkzeug für das Training neuronaler Netze — robust und ohne mühsames Feintuning der Lernrate. Das Paper zählt zu den meistzitierten der KI-Forschung.

Personen:Diederik Kingma, Jimmy Ba

2014Datensätze

MS COCO: Der Computer Vision Gold-Standard

Objekte in natürlichem Kontext statt isoliert - veränderte Computer Vision erheblich von künstlichen zu realen Szenen

2,5 Millionen pixel-genaue Annotationen in 328k Bildern - beispiellose Annotationsqualität und -tiefe

Goldstandard mit mAP-Metriken für objektive Modellvergleiche - definierte Computer Vision Evaluation

Fundament für YOLO, Mask R-CNN und alle modernen CV-Systeme - von autonomen Autos bis AR

Personen:Tsung-Yi Lin, Michael Maire, Serge Belongie

Organisationen:Microsoft Research, Cornell University, UC Berkeley

2014Publikationen

GANs - Generative Adversarial Networks

Zwei neuronale Netze im Minimax-Spiel: Generator vs. Diskriminator

Erfunden in einer Nacht 2014 in Montreal nach Kneipenbesuch - funktionierte sofort

Mathematisch elegantes Framework für adversarielle Optimierung

Verändert generative KI grundlegend - ebnet den Weg zur später fotorealistischen Bildgenerierung

Personen:Ian Goodfellow, Jean Pouget-Abadie, Mehdi Mirza, Bing Xu, David Warde-Farley, Sherjil Ozair, Aaron Courville, Yoshua Bengio

Organisationen:University of Montreal, NIPS Conference

2014Publikationen

Attention Mechanism: Der Schlüssel zu modernen LLMs

Löste Encoder-Decoder Flaschenhals: Variable Satzlängen statt fixer Vektor-Kompression

Dynamische Aufmerksamkeit statt statische Kodierung: Adaptive Fokussierung auf relevante Eingabeteile

Lernt Alignment zwischen Sprachen: Welche Wörter entsprechen sich beim Übersetzen?

Konzeptioneller Wegbereiter der Transformer: Die Attention-Idee von Bahdanau ebnete den Weg zu GPT, BERT und ChatGPT

Personen:Dzmitry Bahdanau, Kyunghyun Cho, Yoshua Bengio

Organisationen:University of Montreal, Jacobs University Bremen

2014Produkte

Amazon Alexa & Echo Launch

Begründet die Massenkategorie Smart Speaker mit permanenter Sprachbereitschaft

Macht Voice AI über den öffentlichen Verkauf ab 2015 für Millionen von Verbrauchern zugänglich - nicht nur Tech-Enthusiasten

Transformiert Wohnzimmer in sprachgesteuerte Smart Home Zentrale

Markiert den Beginn einer weitreichenden Marktentwicklung - Google, Apple und andere folgen

Personen:Jeff Bezos, Amazon Alexa Team

Organisationen:Amazon, Ivona (acquired 2013)

2015Durchbrüche

Deep Q-Networks: KI lernt Atari aus Pixeln

Lernen aus rohen Pixeln: Das System sah nur Bildschirm und Punktestand — keine handgebauten Merkmale, kein Spezialwissen pro Spiel.

Faltungsnetz + Q-Learning + Erfahrungs-Speicher (Experience Replay, von Lin in den frühen 1990ern eingeführt) + ein 2015 ergänztes Ziel-Netzwerk, das das Training stabilisierte.

Anti-Hype: menschliches Niveau auf etwa der Hälfte der 49 Spiele (43/49 besser als frühere Verfahren) — bei seltener Belohnung (Montezuma's Revenge) nahe null.

Startschuss des Deep Reinforcement Learning; machte DeepMind vor AlphaGo bekannt — die Brücke vom Q-Learning zu AlphaGo und AlphaZero.

Personen:Volodymyr Mnih, David Silver, Demis Hassabis

Organisationen:Google DeepMind

2015Publikationen

Batch Normalization: Wichtiger Fortschritt im Neural Network Training

Löste Internal Covariate Shift Problem durch Normalisierung der Aktivierungen in jedem Mini-Batch

Rund 14x weniger Trainings-Schritte bis zur gleichen Genauigkeit - ermöglichte höhere Lernraten und robuste Initialisierung

Doppelter Nutzen: Beschleunigung UND Regularisierung - oft Dropout-Ersatz in modernen Architekturen

4,8% ImageNet Top-5 Error mit Ensemble - übertraf menschliche Rater (ca. 5,1%) und setzte neuen Standard

Personen:Sergey Ioffe, Christian Szegedy

Organisationen:Google Inc., ICML Conference

2015Publikationen

YOLO: You Only Look Once

45 fps Basis-Performance, Fast YOLO 155 fps – hunderte bis tausende Male schneller als existierende Detektoren

Single-Pass-Architektur formuliert Objekterkennung als Regression-Problem statt zwei-stufigem Paradigma

Grid-basierte Zell-Aufteilung mit direkter Bounding Box und Klassen-Wahrscheinlichkeits-Vorhersage

Ermöglichte Echtzeit-Computer Vision für autonome Fahrzeuge, Überwachung und mobile Anwendungen

Personen:Joseph Redmon, Santosh Divvala, Ross Girshick, Ali Farhadi

Organisationen:University of Washington, Allen Institute, Facebook AI Research

2015Durchbrüche

DeepMind AlphaGo Entwicklung

Erster Computersieg gegen Profi-Go-Spieler auf vollständigem Brett ohne Handicap (Fan Hui 5:0)

Neuartiger Ansatz mit Deep Neural Networks statt hartcodierter Algorithmen

Bewältigung von 10^170 möglichen Brettkonfigurationen - mehr als Atome im Universum

Durchbruch kam ein Jahrzehnt früher als von KI-Experten prognostiziert

Personen:Demis Hassabis, David Silver, DeepMind Team

Organisationen:DeepMind, Google

2015Produkte

Tesla Autopilot: Assistenzsysteme für den Massenmarkt

Software-Update vom 14. Oktober 2015 aktivierte vorinstallierte Hardware - neues Konzept für die Automobilindustrie

Mobileye-basierte Sensorik: Frontkamera, Radar und 12 Ultraschallsensoren für Level 2 Fahrassistenz

Adaptive Geschwindigkeitsregelung, Spurhalteassistent und automatisches Einparken - zuvor Oberklasse-Features

Hunderte Millionen Kilometer schon im ersten Jahr - zeigte Massenmarkt-Bereitschaft für Fahrassistenzsysteme

Personen:Elon Musk, Tesla Engineering Team

Organisationen:Tesla Inc., Mobileye

2015Produkte

TensorFlow: Googles ML-Framework wird Open Source

Apache 2.0-Lizenz machte Googles mächtiges internes ML-System für jedermann frei verfügbar

Ersetzte DistBelief mit doppelter Geschwindigkeit und verbesserter Skalierbarkeit

Flexible Python-Schnittstelle und Auto-Differentiation verbesserten ML-Entwicklung erheblich

Ermöglichte Millionen Entwicklern den Zugang zu fortgeschrittener KI-Technologie

Personen:Martín Abadi, Ashish Agarwal, Paul Barham, Jeff Dean

Organisationen:Google, Google Brain

2015Publikationen

ResNet: Residual Networks revolutionieren Deep Learning

Skip-Verbindungen leiten Eingaben direkt weiter und ermöglichen Training ultra-tiefer Netzwerke

152 Schichten – 8x tiefer als VGG aber weniger komplex durch Residual Learning Framework

3,57% Top-5-Fehlerrate (Ensemble) auf ImageNet, gewann alle 2015 ILSVRC & COCO Kategorien

Etablierte Residual Connections als Standard für moderne Deep Learning-Architekturen

Personen:Kaiming He, Xiangyu Zhang, Shaoqing Ren, Jian Sun

Organisationen:Microsoft Research

2015Meilensteine

OpenAI wird gegründet

Gegründet am 11. Dezember 2015 in San Francisco

Mission: Sichere allgemeine KI entwickeln, die der gesamten Menschheit nützt

Zugesagt: 1 Milliarde Dollar von Elon Musk, Peter Thiel, Reid Hoffman und anderen - ein Finanzierungsversprechen über mehrere Jahre, nicht sofort verfügbar

GPT-1 (2018) und GPT-2 (2019) entstanden noch in der reinen Non-Profit-Phase; 2019 folgte die capped-profit-Struktur, in die GPT-3 (2020) und ChatGPT (2022) fallen

Personen:Sam Altman, Elon Musk, Greg Brockman, Ilya Sutskever, Wojciech Zaremba, John Schulman

Organisationen:OpenAI, Y Combinator

2016Wettbewerbe

AlphaGo besiegt Lee Sedol

AlphaGo besiegte Lee Sedol 4:1 und demonstrierte erstmals KI-Überlegenheit im komplexesten Brettspiel

Der berühmte 'Zug 37' mit 1:10.000 Wahrscheinlichkeit zeigte maschinelle Kreativität und stellte Go-Traditionen infrage

Kombination aus Deep Learning und Monte-Carlo-Baumsuche ermöglichte das Meistern der Go-Komplexität

Über 200 Millionen Menschen verfolgten die Partien – ein Wendepunkt für die öffentliche KI-Wahrnehmung

Personen:Lee Sedol, Demis Hassabis, David Silver, Aja Huang

Organisationen:DeepMind, Google, Korean Baduk Association

2016Publikationen

XGBoost: Extreme Gradient Boosting dominiert ML

Extreme Optimierung von Gradient Boosting mit L1/L2-Regularisierung und Second-Order-Gradients

Dominierte ML-Wettbewerbe der 2010er und wurde Standard-Wahl für Kaggle-Gewinner-Teams

Parallelisierte Tree-Construction und skalierbare End-to-End-Architektur für große Datensätze

Go-to-Algorithmus für strukturierte Daten parallel zur Deep Learning-Revolution

Personen:Tianqi Chen, Carlos Guestrin

Organisationen:University of Washington

2016Produkte

Google Assistant: KI-First Strategie wird Realität

Natürliche Konversation statt Kommandos - 'kontinuierlicher Dialog' als Ziel für Voice-AI

Fundament von Pichais AI-First Strategie - 'individuelles Google' für jeden Nutzer

Ambient Experience Vision - nahtlose KI-Interaktion über alle Geräte und Plattformen hinweg

Googles Aufholjagd gegen Siri und Alexa - vom Nachzügler mit dem Ziel, in der Voice-AI vorne mitzuspielen

Personen:Sundar Pichai, Google Assistant Team

Organisationen:Google Inc., Google I/O Conference

2016Organisationen

Partnership on AI: Tech-Giganten vereinen sich

Bedeutende Allianz von Amazon, Facebook, Google, DeepMind, IBM und Microsoft für KI-Ethik

Mission: KI zum Nutzen von Menschen und Gesellschaft durch Ethik, Fairness und Transparenz

Geplant paritätischer Board: zum Start corporate besetzt, später ergänzt um ebenso viele Non-Corporate-Mitglieder

Fokus auf Forschungskooperation und Best Practices ohne Lobby-Aktivitäten

Personen:Mustafa Suleyman, Eric Horvitz, Partnership Team

Organisationen:Amazon, Apple, Facebook, Google, IBM, Microsoft

2016Durchbrüche

Spracherkennung erreicht Mensch-Level

5,9% Wortfehlerrate erreicht Mensch-Level auf Switchboard: genauso gut wie professionelle Transkriptoren

Historischer Meilenstein: Niedrigste jemals gemessene Fehlerrate im Switchboard-Standard

CNN + LSTM + neuronale Sprachmodelle: Systematische Kombination modernster Deep Learning Technologie

25-jähriges Forschungsziel erreicht: Mensch-Parität bei einer eng definierten Transkriptions-Aufgabe

Personen:Xuedong Huang, Microsoft AI Research Team

Organisationen:Microsoft AI and Research, Switchboard Corpus

2017Regulierung

Asilomar-Prinzipien: Die Fachwelt gibt sich Leitplanken

Januar 2017: Das Future of Life Institute versammelte führende KI-Forscher in Asilomar (Kalifornien) — am Ort der historischen Gentechnik-Konferenz von 1975.

Ergebnis: die 23 Asilomar-KI-Prinzipien zu Forschung, Werten (Sicherheit, Transparenz) und Langzeitrisiken — eine der ersten breiten Selbstverpflichtungen der Fachwelt.

Über tausend KI-Forscher und weitere Unterzeichner (u. a. Stephen Hawking, Elon Musk) — früher Konsens, dass KI dem Gemeinwohl dienen soll.

Anti-Hype: Die Prinzipien waren freiwillig und unverbindlich — wegweisend als Diskussionsrahmen, aber ohne Durchsetzung.

Personen:Stephen Hawking, Elon Musk

Organisationen:Future of Life Institute

2017Publikationen

MobileNet - KI für Smartphones

Eines der frühen Deep-Learning-Modelle, gezielt für Smartphones und IoT-Geräte entworfen

Depthwise Separable Convolutions: rund neunmal weniger Rechenaufwand bei gleicher Effektivität

Ermöglicht KI-Verarbeitung direkt auf Geräten statt in der Cloud - Edge Computing

Senkt den Rechenaufwand auf etwa ein Achtel herkömmlicher Convolutions bei vergleichbarer Genauigkeit

Personen:Andrew Howard, Menglong Zhu, Bo Chen, Google Research Team

Organisationen:Google, Google Research

2017Publikationen

RLHF-Forschungspapier veröffentlicht

Paper 'Deep Reinforcement Learning from Human Preferences' veröffentlicht im Juni 2017

Kernidee: KI lernt aus menschlichen Präferenzen statt aus vordefinierten Belohnungen

Gemeinsame Forschung von OpenAI und DeepMind, u.a. Paul Christiano und Dario Amodei

RLHF wurde zur Schlüsseltechnologie für ChatGPT und moderne KI-Assistenten

Personen:Paul Christiano, Jan Leike, Dario Amodei, Tom Brown

Organisationen:OpenAI, DeepMind

2017Publikationen

Transformer: 'Attention Is All You Need'

Self-Attention-Mechanismus erfasst Abhängigkeiten zwischen allen Sequenzpositionen gleichzeitig

Verzicht auf Rekurrenz ermöglicht parallele Verarbeitung – deutlich schneller als sequenzielle Modelle

28,4 BLEU WMT Englisch-Deutsch, 41,8 BLEU Englisch-Französisch – neue Translation-Standards

Wurde zur Grundlage aller modernen LLMs: GPT, BERT, ChatGPT basieren auf Transformer-Architektur

Personen:Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N. Gomez, Łukasz Kaiser, Illia Polosukhin

Organisationen:Google Brain, Google Research

2017Regulierung

Chinas KI-Masterplan: Der Kampf um die Weltführerschaft

Erste nationale KI-Strategie dieser Größenordnung: Koordinierte Regierungsplanung für globale Technologieführerschaft

Drei-Stufen-Timeline: 2020 konkurrenzfähig, 2025 weltführend in Teilbereichen, 2030 führende KI-Supermacht

Billionen-Yuan-Investment: Massive staatliche Finanzierung in KI-Forschung, Infrastruktur und Talente

Weltführerschafts-Ambition: Startschuss für globalen KI-Wettlauf zwischen China, USA und Europa

Personen:State Council of China, Chinese AI Research Community

Organisationen:State Council of China, Chinese Academy of Sciences

2017Regulierung

Montreal-Deklaration für verantwortliche KI

10 ethische Prinzipien und 59 Empfehlungen für verantwortliche KI-Entwicklung mit demokratischer Legitimität

Fokus auf Wohlbefinden, Autonomie, Gerechtigkeit, Privatsphäre, Demokratie und ökologische Nachhaltigkeit

Von Université de Montréal initiiert mit über 400 Teilnehmern aus verschiedenen Sektoren

Über 500 Unterzeichner, beeinflusste internationale KI-Governance und spätere Regulierungsinitiativen

Personen:Yoshua Bengio, Montreal AI Ethics Team

Organisationen:Université de Montréal, Montreal Institute for Learning Algorithms

2017Durchbrüche

AlphaZero beherrscht drei Spiele

Lernte drei komplexe Spiele völlig von null – nur mit Spielregeln, ohne menschliches Vorwissen oder Datenbanken

Erreichte in Schach (4h), Shogi (2h) und Go (~8h) übermenschliche Leistung durch reines Selbstspiel

Lernte durch Millionen von Selbstspiel-Partien und Reinforcement Learning ohne externe Eingaben

Evaluierte nur 60.000 Positionen pro Sekunde vs. Stockfishs 60 Millionen – aber wesentlich gezielter

Personen:David Silver, Thomas Hubert, Julian Schrittwieser, Ioannis Antonoglou

Organisationen:DeepMind, Google, Science Magazine, ArXiv

2018Meilensteine

Turing Award für Deep Learning

Yoshua Bengio, Geoffrey Hinton und Yann LeCun — die drei Paten des Deep Learning — für die Durchbrüche hinter den modernen neuronalen Netzen.

Der A.M. Turing Award (verkündet März 2019) ist die höchste Auszeichnung der Informatik; gewürdigt wurden tiefe neuronale Netze als zentraler Baustein des Rechnens.

Der offizielle Ritterschlag der Deep-Learning-Revolution von 2012 — und Vorbote des Physik-Nobelpreises 2024 für dieselbe Forschungslinie.

Anti-Hype: Deep Learning hat viele Beitragende (etwa Schmidhuber, der öffentlich kritisierte); der Preis ehrt die zentrale Rolle des Trios, keine alleinige Urheberschaft.

Personen:Yoshua Bengio, Geoffrey Hinton, Yann LeCun

Organisationen:ACM

2018Publikationen

GPT-1: Geburt der Generative Pre-Training

Etablierte unsupervised Pre-Training auf großen Textkorpora als Grundlage für Sprachmodelle

Bewies erfolgreiche Anwendung von Transfer Learning für vielfältige NLP-Aufgaben

Zwölf-schichtige Decoder-Only-Transformer-Architektur wurde Template für gesamte GPT-Serie

Begründete die Ära der Large Language Models und das Pre-Training-Fine-Tuning-Paradigma

Personen:Alec Radford, Karthik Narasimhan, Tim Salimans, Ilya Sutskever

Organisationen:OpenAI

2018Publikationen

BERT verbessert Sprachverständnis erheblich

Erstes tiefes bidirektionales Sprachmodell das linken und rechten Kontext gleichzeitig in allen Schichten berücksichtigt

Erreichte neue Bestwerte in 11 NLP-Aufgaben und verbesserte den GLUE-Score um 7,7 Prozentpunkte auf 80,5%

Open-Source-Veröffentlichung ermöglichte das Fine-Tuning des vortrainierten Modells an eigene Aufgaben in rund 30 Minuten auf einer einzelnen Cloud-TPU

Etablierte das Pre-Training-Fine-Tuning-Paradigma für alle modernen Sprachmodelle

Personen:Jacob Devlin, Ming-Wei Chang, Kenton Lee, Kristina Toutanova

Organisationen:Google Research, Google AI Language

2019Publikationen

GPT-2 - "Zu gefährlich zur Veröffentlichung"

Beispiellose Entscheidung: OpenAI hält vollständiges 1,5B-Parameter-Modell zurück

Befürchtungen vor Fake News, Identitätsmissbrauch und automatisiertem Social Media-Spam

KI-Community gespalten: Ethik-Fortschritt vs. Vorwurf der Forschungsverschließung

Nach 9 Monaten vollständige Freigabe mangels Missbrauchsbelegen

Personen:Alec Radford, Jeffrey Wu, Rewon Child, David Luan

Organisationen:OpenAI

2019Wettbewerbe

AlphaStar erreicht Grandmaster-Level

AlphaStar erreichte Grandmaster-Level bei allen drei StarCraft II-Völkern und rangierte über 99,8% aller Battle.net-Spieler

Besiegte die Profispieler MaNa und TLO jeweils 5:0 vor dem öffentlichen Erfolg

Multi-Agent Reinforcement Learning mit Liga-basiertem Training verschiedener Strategien und Gegenstrategien

Erste KI die ein populäres Esports-Spiel ohne Einschränkungen auf höchstem Niveau beherrschte

Personen:Oriol Vinyals, Igor Babuschkin, Wojciech Czarnecki, Grzegorz Komincz, Dario Wünsch

Organisationen:DeepMind, Team Liquid, Blizzard Entertainment, Battle.net

2019Publikationen

T5 - Text-to-Text Transfer Transformer

Innovativer einheitlicher Ansatz: Alle NLP-Aufgaben als Text-zu-Text-Problem

"Everything is Text" - Paradigma vereinheitlicht Übersetzung, Zusammenfassung, Q&A

Etabliert Foundation Model Paradigma für moderne Large Language Models

Führt umfangreiches C4-Dataset ein - Colossal Clean Crawled Corpus

Personen:Colin Raffel, Noam Shazeer, Adam Roberts, Katherine Lee

Organisationen:Google AI, Google Research

2020Publikationen

RAG: Sprachmodelle schlagen erst nach

2020 stellten Patrick Lewis und Kollegen bei Facebook AI das Verfahren Retrieval-Augmented Generation (RAG) vor.

Statt nur aus dem Gedächtnis zu antworten, sucht das Sprachmodell zuerst passende Dokumente (etwa aus Wikipedia) und stützt seine Antwort darauf.

RAG wurde nach ChatGPT zur Standard-Methode, um Sprachmodelle an aktuelle, überprüfbare Quellen zu binden — Grundlage fast aller Anwendungen zum Chatten mit eigenen Dokumenten.

Personen:Patrick Lewis

Organisationen:Facebook AI Research, University College London, New York University

2020Publikationen

Neural Scaling Laws

Entdeckung fundamentaler Potenzgesetze über sieben Größenordnungen

Elegante Gleichungen ermöglichen systematische Vorhersagen der Ressourcenallokation; 2022 von Chinchilla präzisiert

Etabliert "Bigger is Better"-Paradigma für systematische LLM-Entwicklung

Verwandelt KI-Entwicklung von Trial-and-Error zu wissenschaftlicher Methodik

Personen:Jared Kaplan, Sam McCandlish, Tom Brown, Dario Amodei

Organisationen:OpenAI, Johns Hopkins University

2020Publikationen

GPT-3: Das 175-Milliarden-Parameter-Modell

175 Milliarden Parameter – über 100-fach größer als GPT-2 mit bedeutenden Skalierungseffekten

Emergente Few-Shot-Fähigkeiten ohne Fine-Tuning: neue Aufgaben mit nur wenigen Beispielen lösbar

Zeigte emergente Fähigkeiten: Übersetzung, Arithmetik, Textgenerierung auf menschlichem Niveau

Legte Grundstein für ChatGPT und kommerzialisierte Large Language Models durch API-Zugang

Personen:Tom Brown, Benjamin Mann, Nick Ryder, Melanie Subbiah

Organisationen:OpenAI

2020Publikationen

DDPM: Diffusion-Modelle etabliert

Neue Klasse generativer Modelle basierend auf Nichtgleichgewichts-Thermodynamik und Denoising-Prozessen

Progressiver verlustbehafteter Dekompressionsansatz als Verallgemeinerung autoregressiver Dekodierung

Legte mathematisches Fundament für Stable Diffusion und moderne Text-zu-Bild-Generierung

FID-Score 3,17 auf CIFAR-10 demonstrierte Bildqualität rivalisierend mit GANs und etablierte Diffusion als Standard

Personen:Jonathan Ho, Ajay Jain, Pieter Abbeel

Organisationen:UC Berkeley

2020Publikationen

Vision Transformer: 'An Image is Worth 16x16 Words'

Erste skalierbare, patch-basierte Anwendung reiner Transformer-Architektur auf Computer Vision ohne CNN-Komponenten

Bildpatches (typischerweise 16x16 Pixel) als Token-Sequenzen behandelt, veränderte die Bild-zu-Sequenz-Transformation

Self-Attention für Bildverarbeitung bewies Universalität der Transformer-Architektur

Erreichte nach großskaligem Vortraining das Niveau von state-of-the-art CNNs und inspirierte Attention-basierte Vision-Modelle

Personen:Alexey Dosovitskiy, Lucas Beyer, Alexander Kolesnikov

Organisationen:Google Research, Google Brain

2020Durchbrüche

AlphaFold-Erfolg

AlphaFold 2 dominierte CASP14 mit 92,4 GDT-Score und schlug rund 100 andere Teams deutlich

Löste das 50 Jahre alte Protein-Faltungs-Problem und veränderte die Strukturbiologie grundlegend

Attention-basierte Architektur erreichte experimentelle Genauigkeit in der Protein-Strukturvorhersage

Demis Hassabis und John Jumper erhielten 2024 den Nobelpreis für Chemie für diese Leistung

Personen:Demis Hassabis, John Jumper

Organisationen:DeepMind, Google, CASP, University of Washington

2021Durchbrüche

CLIP: Die Brücke zwischen Bild und Sprache

Kontrastives Training: zwei Encoder (Bild + Text) lernen aus rund 400 Mio. Web-Paaren, zusammengehörige Bilder und Texte in denselben Vektorraum zu legen.

Zero-Shot: Kategorien werden in Worten beschrieben, kein Aufgaben-Training nötig — 76,2 % auf ImageNet, gleichauf mit einem ResNet-50, das 1,28 Mio. beschriftete Bilder brauchte.

Fundament der Text-zu-Bild-Welle: DALL-E 2 baut auf CLIP-Einbettungen, Stable Diffusion nutzt CLIPs Text-Encoder direkt.

Anti-Hype: kontrastive Bild-Text-Modelle gab es schon (ConVIRT, Okt 2020). CLIPs Beitrag: Maßstab, Zero-Shot-Breite, offene Gewichte — erbte aber auch den Bias der Web-Daten.

Personen:Alec Radford, Jong Wook Kim, Ilya Sutskever

Organisationen:OpenAI

2021Produkte

DALL-E erschafft Bilder aus Text

Hob die Text-zu-Bild-Generierung auf ein neues Niveau – kohärente, kreative Bilder aus natürlichsprachigen Beschreibungen (Vorläufer wie alignDRAW oder StackGAN gab es bereits)

Entwickelte verblüffende kreative Fähigkeiten: Anthropomorphisierung, Konzeptkombination, Textwiedergabe

12-Milliarden-Parameter-Version von GPT-3, trainiert mit 250 Millionen Bild-Text-Paaren aus dem Internet

Eröffnete neue Dimension der KI-Kreativität und inspirierte die generative AI-Bewegung

Personen:Aditya Ramesh, Mikhail Pavlov, Gabriel Goh, Scott Gray

Organisationen:OpenAI, DALL-E Team

2021Meilensteine

Anthropic wird gegründet

Gegründet im Januar 2021 in San Francisco

Dario Amodei (CEO, ex-VP Research bei OpenAI) und Daniela Amodei (President) – Teil eines siebenköpfigen Gründungsteams

Fokus auf KI-Sicherheit, Interpretierbarkeit und Constitutional AI

Entwickelte Claude, einen der führenden KI-Assistenten

Personen:Dario Amodei, Daniela Amodei, Tom Brown, Jared Kaplan, Sam McCandlish, Jack Clark, Chris Olah

Organisationen:Anthropic, OpenAI

2021Produkte

GitHub Copilot: Der KI-Pair-Programmer

Technical Preview am 29. Juni 2021 mit limitiertem Zugang über Warteliste für ausgewählte Entwickler

28.8% Erfolgsquote beim ersten Versuch (HumanEval), 70.2% mit 100 Sampling-Versuchen

Etablierte KI-assistierte Programmierung als praktikables Werkzeug und inspirierte neue Coding-Tools

Personen:Nat Friedman, GitHub Team, OpenAI Team

Organisationen:GitHub, OpenAI, Microsoft

2021Produkte

OpenAI Codex: KI programmiert für Menschen

Natürliche Sprache zu Code: 'Schreibe eine Sortier-Funktion' wird zu funktionsfähigem Python/JavaScript

GitHub Copilot (Technical Preview ab 29. Juni 2021): prominenter KI-Programmierassistent, trainiert auf 54 Millionen Code-Repositories

12+ Programmiersprachen: Von Python bis Swift - KI versteht Entwickler-Intention in natürlicher Sprache

Deutlicher Produktivitätsgewinn: Codex bewies KI-Potential für kreative kognitive Arbeit

Personen:OpenAI Team, GitHub Development Team

Organisationen:OpenAI, GitHub, Microsoft

2022Publikationen

InstructGPT: Die Brücke zu ChatGPT

OpenAI wandte RLHF (Reinforcement Learning aus menschlichem Feedback) auf GPT-3 an, damit es Anweisungen befolgt und der Absicht der Nutzer entspricht.

Verblüffend: Ein InstructGPT mit 1,3 Mrd. Parametern wurde dem 100× größeren GPT-3 (175 Mrd.) vorgezogen — Ausrichtung schlägt rohe Größe.

Die direkte Brücke zwischen der RLHF-Idee (2017) und ChatGPT (Ende 2022) — es erklärt, warum ChatGPT so gut funktionierte.

Anti-Hype: InstructGPT erfand RLHF nicht (das tat ein Paper 2017); es zeigte erstmals im großen Maßstab, wie stark Ausrichtung ein Modell nützlicher macht.

Personen:Long Ouyang

Organisationen:OpenAI

2022Publikationen

Chinchilla: Skalierung neu gedacht

Die Chinchilla-Skalierungsgesetze: Für ein festes Rechenbudget sollten Modellgröße und Trainingsdaten etwa im Gleichschritt wachsen.

Die größten Modelle (GPT-3, Gopher) waren überdimensioniert und unter-trainiert. Chinchilla (70 Mrd., 1,4 Bio. Token) schlug das 4× größere Gopher (280 Mrd.).

Verschob, wie praktisch jedes spätere Spitzenmodell trainiert wird (Daten/Parameter-Verhältnis); prägte unter anderem Llama.

Anti-Hype: Chinchilla erfand die Skalierungsgesetze nicht, sondern korrigierte Kaplan (2020); spätere Modelle übertrainieren bewusst für effizientere Nutzung.

Personen:Jordan Hoffmann

Organisationen:Google DeepMind

2022Produkte

PaLM: Googles Riese mit 540 Milliarden Parametern

2022 stellte Google PaLM vor — ein Sprachmodell mit 540 Milliarden Parametern, trainiert auf Tausenden TPU-Chips.

PaLM glänzte beim mehrstufigen Schlussfolgern: Mit Chain-of-Thought-Prompts löste es Textaufgaben und erklärte sogar Witze.

Es nährte die Idee emergenter Fähigkeiten — Fertigkeiten, die erst ab einer bestimmten Modellgröße sprunghaft auftauchen.

Organisationen:Google

2022Produkte

Stable Diffusion: Open-Source-Bildgenerierung

Erstes leistungsstarkes Open-Source-Text-zu-Bild-Modell mit GitHub-verfügbarem Quellcode

Latent Diffusion Models mit iterativem De-noising in latenten Räumen statt direkter Pixelmanipulation

Explosionsartiges Community-Wachstum mit unzähligen Varianten, Tools und Anwendungen

Durchbrach Monopol proprietärer Systeme und demokratisierte hochwertige KI-Bildgenerierung

Personen:Emad Mostaque, Robin Rombach, Andreas Blattmann

Organisationen:Stability AI, CompVis, Runway

2022Durchbrüche

OpenAI veröffentlicht Whisper

Veröffentlicht am 21. September 2022 als Open-Source

Deckt 99 Sprachen ab und transkribiert robust auch bei Akzenten und Hintergrundgeräuschen – am stärksten im Englischen, da der Großteil der Trainingsdaten englisch ist

Trainiert auf 680.000 Stunden mehrsprachiger Audiodaten aus dem Internet

Demokratisierte hochwertige Spracherkennung durch Open-Source-Verfügbarkeit

Personen:Alec Radford, Jong Wook Kim, Tao Xu

Organisationen:OpenAI

2022Produkte

ChatGPT markiert eine Wende in der KI-Nutzung

Am 30. November 2022 als kostenloses Research Preview für die Allgemeinheit zugänglich gemacht

Erreichte in 5 Tagen 1 Million Nutzer, in 2 Monaten 100 Millionen – damals der schnellste Anstieg einer Consumer-App (später von Threads übertroffen)

Erste mächtige KI ohne technische Barrieren – direkter Web-Zugang für jeden Internetnutzer

Demokratisierte KI und löste die aktuelle Generative AI-Welle in Gesellschaft und Wirtschaft aus

Personen:Sam Altman, Greg Brockman, Ilya Sutskever, John Schulman

Organisationen:OpenAI, Microsoft, ChatGPT

2022Publikationen

Constitutional AI - KI-Sicherheit durch Verfassung

KI kritisiert und verbessert sich bei schädlichen Inhalten selbst – ohne menschliche Schaden-Labels für diese Bewertung

Safety-First Alternative zu reinen Leistungsansätzen wie ChatGPT

Dreifach-Ziel: Hilfreich, ehrlich und harmlos durch ethische Prinzipien

RLAIF: Reinforcement Learning from AI Feedback ersetzt menschliche Bewertungen bei der Harmlosigkeit (Hilfsbereitschaft weiter via RLHF)

Personen:Yuntao Bai, Andy Jones, Kamal Ndousse, Dario Amodei, Anthropic Team

Organisationen:Anthropic

2023Regulierung

NIST AI Framework: USA definiert vertrauenswürdige KI

Vier Kernfunktionen: Govern, Map, Measure, Manage für systematisches KI-Risikomanagement

Sieben Charakteristika vertrauenswürdiger KI: sicher, resilient, erklärbar, datenschutzfreundlich, fair, transparent und zuverlässig

Freiwilliger Multi-Stakeholder-Ansatz: 240+ Organisationen entwickelten gemeinsam Standards

Standards-Behörde des Bundes: NIST entwickelte das AI RMF im Auftrag des National AI Initiative Act of 2020

Personen:NIST AI Team, 240+ Contributing Organizations

Organisationen:NIST, US Department of Commerce, Biden Administration

2023Produkte

LLaMA: Open-Source Foundation Model

Inference-Code unter GPLv3-Lizenz; die Modell-Gewichte wurden fallweise und ausschließlich für nicht-kommerzielle Forschung freigegeben

7B bis 65B Parameter-Modelle ausschließlich mit öffentlich verfügbaren Datensätzen trainiert

Ermöglichte Forschern ohne große Infrastruktur das Studium fortgeschrittener Sprachmodelle

Verschiedene Modellgrößen für unterschiedliche Hardware-Anforderungen und Forschungszwecke

Personen:Hugo Touvron, Thibaut Lavril, Gautier Izacard, Xavier Martinet

Organisationen:Meta AI, FAIR

2023Produkte

Claude und Constitutional AI

Constitutional AI-Framework mit zweiphasigem Training: Selbstkritik anhand ethischer Prinzipien, dann KI-Feedback-basierte Verfeinerung

Neuartiger Sicherheitsansatz ohne menschliche Schadensbewertungen – rein durch KI-supervision

Gleichzeitige Veröffentlichung von Claude und Claude Instant für verschiedene Anwendungsanforderungen

Etablierte 'helpful, harmless, honest' als zentrale Werte für verantwortungsvolle KI-Entwicklung

Personen:Dario Amodei, Daniela Amodei, Tom Brown, Chris Olah

Organisationen:Anthropic, Constitutional AI, AI Safety

2023Produkte

GPT-4: Multimodales KI-Modell

Large Multimodal Model mit Text- und Bildeingaben, Vision-Fähigkeiten für Dokumente und Diagramme

Bar Exam obere 10% vs. GPT-3.5 untere 10%, SAT-Mathematik-Verbesserung vom 70. auf 89. Perzentil

6 Monate iteratives Alignment mit adversarial testing und ChatGPT-Feedback für verbesserte Sicherheit

Integration in ChatGPT Plus machte fortgeschrittene multimodale KI für Verbraucher zugänglich

Personen:Sam Altman, OpenAI Team

Organisationen:OpenAI

2023Produkte

Midjourney V5: Fotorealistische KI-Kunst

Fotorealistische Bildqualität die von echten Fotografien kaum zu unterscheiden ist

Löste intensive Reaktionen in der Kreativ-Community aus – von Begeisterung bis zu existenziellen Sorgen

Verbesserte KI-Kunst erheblich durch präzise Hand-Darstellung und verbesserte Prompt-Sensitivität

Setzte neue Standards für kommerzielle KI-Bildgenerierung mit erheblichen Auswirkungen auf die Creative-Industry

Personen:David Holz, Midjourney Team

Organisationen:Midjourney Inc

2023Regulierung

Biden KI-Dekret - Erste umfassende US-Regulierung

Umfassendste KI-Governance aller Zeiten - 110 Seiten, längste Executive Order der Geschichte

Verpflichtende Sicherheitstests und Red-Team-Ergebnisse für mächtige KI-Systeme

Defense Production Act: Meldepflicht für KI-Systeme mit nationalen Sicherheitsrisiken

Positionierte die USA 2023 als Vorreiter in verantwortungsvoller KI-Governance - 2025 jedoch wieder aufgehoben

Personen:Joe Biden, Kamala Harris

Organisationen:White House, NIST, Department of Homeland Security

2023Regulierung

Pause-Brief & Bletchley: KI-Sicherheit wird global

März 2023: Ein offener Brief des Future of Life Institute (tausende Unterzeichner, u. a. Bengio, Musk) forderte eine 6-monatige Pause beim Training von KI stärker als GPT-4.

November 2023: erster globaler KI-Sicherheitsgipfel im britischen Bletchley Park — dort, wo Turing im Krieg Codes knackte.

28 Staaten und die EU — darunter USA und China — unterzeichneten die Bletchley-Erklärung zu Risiken hochentwickelter KI; Auftakt der Gipfel-Reihe (Seoul 2024, Paris 2025).

Anti-Hype: Die Pause kam nie; die Erklärung war unverbindlich. Beide setzten Themen auf die Agenda, schufen aber keine durchsetzbaren Regeln.

Organisationen:Future of Life Institute, UK Government

2023Produkte

Mistral & Mixtral: Europas offene Modelle

Frühjahr 2023: In Paris gründeten Arthur Mensch (Ex-Google-DeepMind) sowie Guillaume Lample und Timothée Lacroix (Ex-Meta) Mistral AI — Europas Antwort auf die US-Labore.

September 2023: Mistral 7B — ein kleines, frei gewichtetes Modell (Apache 2.0), das das größere Llama 2 13B schlug.

Dezember 2023: Mixtral 8x7B, ein offenes Mixture-of-Experts-Modell — auf vielen Benchmarks auf GPT-3.5-Niveau, aber effizient (nur ~13 Mrd. aktive von ~47 Mrd. Parametern).

Anti-Hype: Offene Gewichte heißt nicht Open Source (Trainingsdaten/-code bleiben zu); Mixtral erreichte GPT-3.5, nicht GPT-4. Mixture-of-Experts ist zudem älter (u. a. Shazeer 2017).

Personen:Arthur Mensch, Guillaume Lample, Timothée Lacroix

Organisationen:Mistral AI

2023Produkte

Google Gemini: Multimodale KI-Familie

Von Grund auf für Multimodalität entwickelt: Sprache, Audio, Code und Video-Verständnis nativ integriert

Übertraf GPT-3.5 in 6 von 8 Standard-Benchmarks und etablierte Google als ernsthafte ChatGPT-Alternative

Drei Modellgrößen: Ultra (komplex), Pro (ausgewogen), Nano (Geräte-intern) für verschiedene Anwendungen

Reguläres Bard erhielt am Ankündigungstag Gemini Pro; Bard Advanced mit Gemini Ultra wurde für Anfang 2024 angekündigt

Personen:Sundar Pichai, Demis Hassabis, Gemini Team

Organisationen:Google, DeepMind, Google AI

2024Produkte

Verkörperte KI: Die Modelle bekommen einen Körper

2024 wurde zum Jahr der verkörperten KI: Sprachmodelle, die bisher nur im Chat lebten, zogen in Roboter ein — besonders in humanoide.

Die Hoffnung: Ein Roboter, der Sprache, Sehen und Handeln in einem Grundmodell vereint, könnte allgemeine Aufgaben in der echten Welt lernen — ein ChatGPT-Moment für die Robotik.

Organisationen:Figure AI, NVIDIA, Physical Intelligence

2024Produkte

Waymo: Das fahrerlose Taxi wird Alltag

2024 wurde Waymo, die Roboterauto-Tochter von Google, zum ersten Anbieter fahrerloser Taxis im großen Stil — offen für die Öffentlichkeit in mehreren US-Städten.

Im Sommer 2024 meldete Waymo über 100.000 bezahlte Fahrten pro Woche, ganz ohne Sicherheitsfahrer am Steuer.

Nach über einem Jahrzehnt voller Versprechen war es der erste handfeste Beweis, dass autonomes Fahren als echter Dienst funktionieren kann.

Organisationen:Waymo, Alphabet

2024Produkte

Sora: KI-generierte Videos aus Text

Fotorealistische Text-zu-Video-Generierung mit minutenlangen HD-Videos, die bestehende Systeme übertraf

Diffusion Transformer basierend auf DALL-E 3-Technologie für temporale Konsistenz

Simuliert oft physikalisch plausible Bewegung und erhält Konsistenz über die gesamte Videolänge

Potenzielle Disruption der Filmindustrie, Tyler Perry stoppte 800-Millionen-Studio-Expansion

Personen:Tim Brooks, Bill Peebles, Connor Holmes, Will DePue

Organisationen:OpenAI

2024Produkte

Claude 3 Familie mit multimodalen Fähigkeiten

Sophisticated Vision-Verarbeitung für Fotos, Charts, Diagramme und technische Zeichnungen

Opus (höchste Intelligenz), Sonnet (Balance), Haiku (Geschwindigkeit) für verschiedene Anwendungsfälle

Multimodale Fähigkeiten ermöglichen Verarbeitung visueller Formate parallel zur Textverarbeitung

Claude 3 Opus erreichte neue Bestwerte bei MMLU, GPQA und anderen kognitiven Benchmarks

Personen:Dario Amodei, Daniela Amodei, Tom Brown, Claude 3 Team

Organisationen:Anthropic, Claude API, Amazon Bedrock

2024Produkte

Devin: Der erste autonome KI-Software-Ingenieur

Vollautonome Softwareentwicklung: Planung, Coding, Debugging, Testing und Deployment ohne menschliche Intervention

Bewältigt komplexe Engineering-Tasks von Code-Migration bis hin zur vollständigen App-Entwicklung

13,86% Erfolgsquote auf SWE-Bench – 7x besser als vorherige state-of-the-art von 1,96%

Löste Debatte über Zukunft der Softwareentwicklung aus und inspirierte Open-Source-Alternativen wie OpenHands

Personen:Scott Wu, Steven Hao, Walden Yan

Organisationen:Cognition Labs, SWE-Bench

2024Durchbrüche

AlphaFold 3: KI sagt das Zusammenspiel der Moleküle voraus

Im Mai 2024 stellten Google DeepMind und Isomorphic Labs AlphaFold 3 vor.

Während AlphaFold 2 die Faltung einzelner Proteine vorhersagte, modelliert AlphaFold 3 ihr Zusammenspiel — mit DNA, RNA, Wirkstoff-Molekülen und Ionen.

Besonders wertvoll für die Medikamentenforschung: Man kann am Computer abschätzen, wie ein Wirkstoff an sein Zielprotein bindet.

Organisationen:Google DeepMind, Isomorphic Labs

2024Wettbewerbe

AlphaProof: KI gewinnt Silber bei der Mathe-Olympiade

Im Juli 2024 löste Google DeepMinds AlphaProof zusammen mit AlphaGeometry 2 vier der sechs Aufgaben der Internationalen Mathematik-Olympiade — auf Silbermedaillen-Niveau.

AlphaProof formuliert Beweise in der formalen Sprache Lean und prüft sie selbst; gelernt hat es per Reinforcement Learning. AlphaGeometry 2 übernahm die Geometrie-Aufgabe.

Erstmals erreichte eine KI bei diesem prestigeträchtigen Wettbewerb Medaillen-Niveau — ein Meilenstein für maschinelles Schließen mit überprüfbaren Beweisen.

Organisationen:Google DeepMind

2024Regulierung

EU AI Act: Erstes umfassendes KI-Gesetz

Weltweit erstes umfassendes KI-Gesetz mit 180 Erwägungsgründen und 113 Artikeln für den gesamten KI-Lebenszyklus

Vier Risikostufen: verbotene, Hochrisiko-, begrenzte und minimale Risiken — plus eigene Regeln für GPAI-Basismodelle

Extraterritoriale Wirkung wie DSGVO könnte globale KI-Standards setzen und weltweite Compliance beeinflussen

Strafen bis 35 Mio. Euro oder 7% Jahresumsatz, gestaffelte Umsetzung 2025-2027

Personen:Ursula von der Leyen, Thierry Breton

Organisationen:European Union, European Parliament, European Commission

2024Produkte

OpenAI O1 - Fortschritt im Reasoning

Erstes Modell, dessen Chain-of-Thought via Reinforcement Learning trainiert und skaliert wird - für strukturiertes Reasoning

Neue Skalierungs-Dimension: Je länger es denkt, desto bessere Ergebnisse

Neuer Ansatz: Von Muster-Reproduktion zu verbesserter Problemlösung

Wichtiger Fortschritt in komplexem Reasoning - verbesserte Problemlösungsfähigkeiten

Personen:Sam Altman, Noam Brown, OpenAI Team

Organisationen:OpenAI

2024Meilensteine

Die KI-Nobelpreise 2024

8. Oktober 2024: Physik-Nobelpreis an John Hopfield und Geoffrey Hinton für die Grundlagen des maschinellen Lernens mit neuronalen Netzen — ein Physikpreis für KI.

9. Oktober 2024: Chemie-Nobelpreis an David Baker (Protein-Design) sowie Demis Hassabis und John Jumper von DeepMind (AlphaFold, Proteinfaltung).

Erstmals würdigten zwei Naturwissenschafts-Nobelpreise im selben Jahr die Grundlagen der KI — ein Wendepunkt im Status des Feldes.

Debattiert: Sind neuronale Netze überhaupt Physik? Die Preise ehren jahrzehntealte Grundlagen (Hopfield-Netze 1982, Hintons Boltzmann-Maschine). Hinton warnte zugleich vor KI-Risiken.

Personen:John Hopfield, Geoffrey Hinton, Demis Hassabis, John Jumper, David Baker

Organisationen:Royal Swedish Academy of Sciences

2024Durchbrüche

OpenAI o3: Durchbruch auf ARC-AGI

o3 (angekündigt 20.12.2024) führt o1s Test-Time-Scaling weiter: mehr Nachdenken zur Laufzeit → bessere Ergebnisse, Spitzenwerte in Mathematik und Code.

87,5 % auf ARC-AGI — einem gegen Auswendiglernen gebauten Test, auf dem Vorgänger nahe null lagen: ein viel beachteter Sprung Richtung menschennaher Adaptivität.

Mit o1 und DeepSeek-R1 die Ära der Reasoning-Modelle; o3-mini Ende Jan. 2025, das volle o3 im April 2025.

Organisationen:OpenAI

2025Produkte

Agentische KI wird Mainstream

Anthropic, Computer Use (Okt. 2024): erstes Frontier-Modell mit Computernutzung in öffentlicher Beta — Bildschirm, Maus, Tastatur.

OpenAI: Operator (Jan. 2025) surft eigenständig im Web; Deep Research (Feb. 2025) recherchiert mehrstufig und schreibt belegte Berichte.

Die Wende vom Chatbot (Text ausgeben) zum Agenten (handeln) — angedeutet von Devin (2024), 2025 Produkt-Mainstream.

Anti-Hype: frühe Versionen langsam, fehleranfällig, eng begrenzt; die Systeme wurden stärker beworben, als sie 2025 zuverlässig waren.

Organisationen:Anthropic, OpenAI

2025Produkte

DeepSeek-R1: Der KI-Schock aus China

R1 (20. Jan. 2025): ein Reasoning-Modell auf o1-Niveau mit offenen Gewichten (MIT-Lizenz), trainiert per großangelegtem Reinforcement Learning auf DeepSeek-V3.

Trainiert zu einem Bruchteil der erwarteten Kosten — das stellte die Annahme infrage, Spitzen-KI brauche zwingend riesige Compute-Budgets.

27. Jan. 2025: Nvidia −rund 17 % (etwa 600 Mrd. $ an einem Tag, US-Rekord); China an der KI-Spitze — KI wurde sichtbar zur Markt- und Geopolitik-Frage.

Anti-Hype: Die wenigen Millionen Dollar meinen nur den finalen Trainingslauf des Basismodells V3 — nicht R1 selbst und nicht Forschung/Hardware insgesamt; R1 war nicht durchweg besser als o1.

Personen:Liang Wenfeng

Organisationen:DeepSeek

2025Meilensteine

Stargate: KI als Infrastruktur in Staatsgröße

Bis zu 500 Mrd. $ über vier Jahre für KI-Rechenzentren in den USA (OpenAI, SoftBank, Oracle, MGX); der Einsatz von 100 Mrd. sollte sofort beginnen.

Vorgestellt im Weißen Haus: KI wurde sichtbar zur nationalen Infrastruktur- und Geopolitik-Frage.

Die nächste KI-Phase ist eine Energie- und Bau-Frage — Rechenleistung im Maßstab von Kraftwerken (roter Faden seit CUDA/AlexNet).

Anti-Hype: Eine Ankündigung ist kein fertiges Rechenzentrum; ob die 500 Mrd. vollständig zusammenkommen, war von Anfang an umstritten.

Personen:Sam Altman, Masayoshi Son, Larry Ellison

Organisationen:OpenAI, SoftBank, Oracle

2025Regulierung

Paris AI Action Summit

Dritter globaler KI-Gipfel (nach Bletchley 2023, Seoul 2024): 10.–11. Februar 2025, Grand Palais, geleitet von Macron und Modi.

Tonwechsel von Sicherheit zu Chancen und Wettbewerb: Paris betonte Investitionen statt Risiken; der US-Vizepräsident warb gegen zu viel Regulierung.

58 Staaten plus EU und Afrikanische Union unterzeichneten die Schlusserklärung — USA und UK verweigerten die Unterschrift (offener transatlantischer Bruch).

Anti-Hype: Die Erklärung war unverbindlich; Kritiker nannten den Gipfel eine verpasste Chance für KI-Sicherheit.

Personen:Emmanuel Macron, Narendra Modi

2025Produkte

Die Frontier-Modelle 2025

2025 wurden Reasoning (schrittweises Nachdenken) und Agentik (eigenständiges Handeln) zum Standard der Spitzenmodelle; Claude 3.7 führte das wahlweise schnelle oder nachdenkende Hybrid-Modell ein.

Dichtes Rennen: Gemini 2.5 Pro (März), Claude 4 / Opus 4 (Mai), GPT-5 (August) — dazu Llama 4, Grok, DeepSeek. Mehrere Labore an der Spitze.

Im Zentrum: autonomes Programmieren über lange Strecken (z. B. Claude Code) — Modelle, die ganze Aufgaben selbstständig durcharbeiten.

Anti-Hype: Benchmark-Rekorde im Wochentakt, jedes Labor beansprucht die Spitze; echte Fortschritte, aber AGI blieb mehr Marketing als Realität.

Organisationen:Anthropic, OpenAI, Google DeepMind

Suche

Kategorie

Zeitraum

Babbages Analytical Engine: Die Idee des Computers

Verwandte Inhalte

Ada Lovelace: Das erste Programm — und eine kühne Vision

Verwandte Inhalte

Die Turing-Maschine: Was Rechnen überhaupt bedeutet

Verwandte Inhalte

McCulloch & Pitts: Das erste künstliche Neuron

Verwandte Inhalte

Shannons Informationstheorie: Das Bit wird geboren

Verwandte Inhalte

Hebbsche Regel: Wie Lernen im Gehirn entsteht

Verwandte Inhalte

Turing Test: Das Imitation Game

Verwandte Inhalte

Logic Theorist: Das erste schlussfolgernde Programm

Verwandte Inhalte

Dartmouth-Konferenz: Geburtsstunde der KI

Verwandte Inhalte

Perceptron: Das erste lernende neuronale Netzwerk

Verwandte Inhalte

LISP: Die Sprache der KI

Verwandte Inhalte

Arthur Samuel: Selbstlernende KI & der Begriff „Machine Learning“

Verwandte Inhalte

DENDRAL: Pionier der Expertensysteme

Verwandte Inhalte

Fuzzy Logic: Logik der Unschärfe

Verwandte Inhalte

ELIZA: Der erste Chatbot

Verwandte Inhalte

Perceptrons: Das Buch, das den KI-Winter mitauslöste

Verwandte Inhalte

Shakey: Der erste intelligente mobile Roboter

Verwandte Inhalte

SHRDLU: Sprache verstehen in der Klötzchenwelt

Verwandte Inhalte

Hidden Markov Models etabliert

Verwandte Inhalte

Prolog: Programmieren mit Logik

Verwandte Inhalte

Der erste KI-Winter

Verwandte Inhalte

Neocognitron: Der Urahn der CNNs

Verwandte Inhalte

Expertensystem-Ära der 1980er

Verwandte Inhalte

Hopfield-Netzwerke: Assoziatives Gedächtnis

Verwandte Inhalte

Backpropagation-Algorithmus

Verwandte Inhalte

Der zweite KI-Winter

Verwandte Inhalte

UCI ML Repository: Die Datensatz-Bibliothek

Verwandte Inhalte

Bayessche Netze: Schließen unter Unsicherheit

Verwandte Inhalte

Universal Approximation Theorem

Verwandte Inhalte

World Wide Web: Die Erfindung des WWW

Verwandte Inhalte

LeNet und die Geburt der CNNs

Verwandte Inhalte

TD-Gammon: Lernen durch Spiel gegen sich selbst

Verwandte Inhalte

Q-Learning: Fundament des Reinforcement Learning

Verwandte Inhalte

Penn Treebank: Syntaktische Annotation verändert NLP

Verwandte Inhalte

AdaBoost: Schwache Lerner werden stark

Verwandte Inhalte

Support Vector Machines: Maximum Margin-Klassifikation

Verwandte Inhalte

WordNet: Semantisches Netzwerk der Sprache

Verwandte Inhalte

PageRank: Googles Milliarden-Dollar-Algorithmus

Verwandte Inhalte

Deep Blue besiegt Kasparov