Glossar

Grundlagen

Ein Algorithmus ist eine präzise Schritt-für-Schritt-Anleitung zur Lösung eines Problems – das digitale Rezept, nach dem Computer arbeiten. Genauer: eine endliche Folge eindeutiger, ausführbarer Schritte, die nach endlich vielen Schritten zu einem Ergebnis kommt (klassisch nach Knuth: Endlichkeit, Definitheit, Ein- und Ausgabe, Effektivität). Stellen Sie sich vor: Ein Koch folgt einem Rezept, ein Computer folgt einem Algorithmus. Beide transformieren Eingaben (Zutaten/Daten) durch definierte Schritte in ein gewünschtes Ergebnis (Gericht/Lösung) und sind irgendwann fertig. Algorithmen sind die Grundbausteine der Informatik und bilden das Fundament für alles von einfachen Sortierverfahren bis hin zu komplexen KI-Systemen. In Machine Learning werden Algorithmen besonders interessant: Sie lernen aus Daten, passen sich an und verbessern ihre Leistung eigenständig. Von linearen Suchverfahren mit O(n) Komplexität bis zu effizienten binären Suchen mit O(log n) – jeder Algorithmus hat seine spezifischen Stärken und Anwendungsbereiche. Die Kunst liegt in der Wahl des richtigen Algorithmus für das jeweilige Problem.

Beispiel:

Google's PageRank-Algorithmus veränderte die Websuche grundlegend: Statt nur Wörter zu zählen, bewertet er die Qualität von Verlinkungen. Ein einfacher aber brillanter Algorithmus, der aus dem Chaos des Internets relevante Ergebnisse filtert – Millionen von Entscheidungen in Sekundenbruchteilen.

Algorithmus-Komplexität

Grundlagen

Algorithmus-Komplexität beschreibt, wie sich der Ressourcenverbrauch eines Algorithmus in Abhängigkeit von der Eingabegröße verändert. Stellen Sie sich vor, Sie organisieren eine Party: Für 10 Gäste benötigen Sie 30 Minuten Vorbereitung, aber für 100 Gäste nicht 300 Minuten, sondern vielleicht 600 – das ist ein Komplexitätsmuster. In der Informatik verwenden wir die Big-O-Notation, um diese Wachstumsraten mathematisch zu beschreiben. O(1) bedeutet konstante Zeit (egal wie viele Daten, gleiche Zeit), O(n) bedeutet lineare Zeit (doppelte Daten = doppelte Zeit), O(n²) bedeutet quadratische Zeit (doppelte Daten = vierfache Zeit). Es gibt zwei Hauptarten: Zeitkomplexität (wie lange dauert die Berechnung) und Speicherkomplexität (wie viel Arbeitsspeicher wird benötigt). Diese Analyse ist entscheidend, um zu verstehen, ob ein Algorithmus auch bei großen Datenmengen praktikabel bleibt oder zusammenbricht.

Beispiel:

Das Sortieren von 1000 Namen mit Bubble Sort (O(n²)) dauert etwa 1 Million Vergleiche, während Merge Sort (O(n log n)) nur etwa 10.000 Vergleiche benötigt – ein erheblicher Unterschied bei größeren Datenmengen.

Alignment (KI-Ausrichtung)

Ethik

Der Prozess und das Ziel, sicherzustellen, dass die Ziele und Verhaltensweisen eines KI-Systems mit menschlichen Werten und Absichten übereinstimmen. Das Alignment Problem beschreibt die Herausforderung, eine KI zu bauen, die tut was wir wollen – nicht nur was wir ihr buchstäblich sagen, sondern was wir eigentlich meinen.

Beispiel:

Das klassische Beispiel ist Bostroms Büroklammer-Maximierer: Eine KI mit dem Ziel 'produziere Büroklammern' könnte buchstäblich die gesamte Materie des Universums in Büroklammern umwandeln – technisch ihr Ziel erfüllend, aber katastrophal misaligned mit menschlichen Werten. RLHF (Reinforcement Learning from Human Feedback) ist ein praktischer Alignment-Ansatz: Menschen bewerten KI-Antworten, das Modell lernt menschliche Präferenzen und richtet sein Verhalten daran aus.

Classifier-Free Guidance – eine Technik für Diffusions- und Flow-Modelle, die konditionierte Generierung verstärkt, ohne einen separaten Klassifikator zu benötigen. Verbreitet ist sie bei der Bildgenerierung, sie wird aber genauso für Audio, Video und teils Text genutzt. Beim Training wird die Bedingung zufällig weggelassen (Condition-Dropout), sodass dasselbe Modell sowohl konditionierte als auch unkonditionierte Vorhersagen lernt. Bei der Inferenz wird die konditionierte Vorhersage von der unkonditionierten weg extrapoliert: e = e_uncond + w·(e_cond − e_uncond). Der Guidance-Parameter w steuert dabei, wie stark das Modell der Bedingung (etwa einem Text-Prompt) folgt: höhere Werte führen zu präziserer Umsetzung der Vorgabe, niedrigere zu mehr kreativem Freiraum – sehr hohe Werte übersättigen das Ergebnis. Elegant und effizient – der Industriestandard für Text-zu-Bild-Modelle.

Beispiel:

Bei Stable Diffusion steuert der CFG-Wert die Balance: Ein niedriger Wert (1-5) erzeugt kreative, aber vage Interpretationen des Prompts. Ein hoher Wert (15-20) folgt dem Prompt präzise, riskiert aber oversaturation.

Claude

Sprachverarbeitung

Claude ist eine Familie von Large Language Models des KI-Unternehmens Anthropic, die erstmals 2023 veröffentlicht wurde. Der Name wird häufig auf Claude Shannon, den Begründer der Informationstheorie, zurückgeführt – offiziell bestätigt hat Anthropic den Ursprung jedoch nie. Entwickelt wurde Claude mit Constitutional AI (CAI), einem Ansatz zur KI-Sicherheit. Im Gegensatz zu anderen Chatbots wird Claude nicht nur durch menschliches Feedback trainiert (RLHF), sondern auch durch ein zweites KI-System überwacht (RLAIF – Reinforcement Learning from AI Feedback). Claudes ‚Verfassung' enthält ethische Prinzipien, unter anderem aus der UN-Menschenrechtscharta. Das System ist darauf ausgelegt, hilfreich, harmlos und ehrlich zu sein. Claude erschien in mehreren Generationen: Claude 1, Claude 2 (2023), Claude 3 (2024, mit den Varianten Haiku, Sonnet und Opus), Claude 3.5 und seither zahlreiche weitere Generationen bis hin zu den heutigen Spitzenmodellen. Anthropic betont besonders die Forschung zu KI-Sicherheit und Alignment.

Beispiel:

Fragt man Claude nach problematischen Inhalten, lehnt es ab und erklärt die ethischen Bedenken. Bei einer harmlosen Anfrage wie 'Schreibe ein Gedicht über Bäume' antwortet es kreativ und hilfreich. Diese Balance zwischen Nützlichkeit und Sicherheit macht Claudes Constitutional AI aus.

Grundlagen

Contract Net Protocol – ein klassisches Koordinationsprotokoll für Multi-Agent-Systeme aus den frühen 1980ern, das die Aufgabenverteilung zwischen autonomen Agenten regelt. Die Metapher: Ein Manager-Agent schreibt eine Aufgabe aus (Task Announcement), Contractor-Agents geben Gebote ab basierend auf ihren Fähigkeiten und Ressourcen (Bidding), der Manager vergibt den Auftrag an den besten Bieter (Award), dieser führt die Aufgabe aus (Execution). Dezentralisiert, effizient, robust – ein Mechanismus, der heute noch in verteilten KI-Systemen und Roboter-Schwärmen verwendet wird. Elegant in seiner Einfachheit.

Beispiel:

In einem Roboter-Lagersystem kündigt ein Agent an: 'Paket A muss von Position 1 zu Position 5 transportiert werden.' Drei Roboter bieten basierend auf Entfernung und Auslastung. Roboter 2 ist am nächsten und wird beauftragt. Er führt die Aufgabe aus und meldet Abschluss.

ControlNet

Computer Vision

ControlNet – eine Technik für Diffusionsmodelle, die präzise räumliche Kontrolle über die Bilderzeugung ermöglicht. Während Text-Prompts abstrakt bleiben ('eine Person im Regen'), erlaubt ControlNet exakte Steuerung durch strukturelle Informationen: Kantenkarten (Edges), Tiefenbilder (Depth Maps), Pose-Skelette oder Segmentierungsmasken. Ein zusätzliches neuronales Netzwerk verarbeitet diese Kontrollinformationen parallel zum eingefrorenen Diffusionsmodell. Das Resultat: Man kann die Komposition, Perspektive und Struktur des generierten Bildes millimetergenau vorgeben, während das Modell Details, Stil und Textur ergänzt. Kontrollierte Kreativität.

Beispiel:

Sie laden ein Strichmännchen-Skeleton einer Tanzpose hoch. ControlNet nutzt dies als Pose-Vorgabe und generiert ein fotorealistisches Bild einer Person in exakt dieser Pose – Kleidung, Gesicht, Hintergrund ergänzt das Modell basierend auf dem Text-Prompt 'Balletttänzerin auf Bühne'.

Conversational AI

KI-Anwendungsfelder

Conversational AI bezeichnet KI-Systeme, die mit Menschen in natürlicher Sprache dialogfähig kommunizieren – per Text oder Stimme. Im Kern steckt eine Pipeline: Zuerst wird die Eingabe verstanden (bei Sprache durch Spracherkennung, dann durch Natural Language Understanding, das die Absicht und relevante Angaben des Nutzers herausliest). Ein Dialog-Management hält den Kontext über mehrere Gesprächsrunden hinweg fest, entscheidet über den nächsten Schritt und greift bei Bedarf auf Wissensquellen oder Funktionen zu. Anschließend formuliert die Antwortgenerierung (Natural Language Generation) eine passende Antwort, die bei Sprachassistenten zusätzlich über Sprachsynthese vertont wird. Technisch reicht das Spektrum von regelbasierten und retrieval-basierten Systemen, die aus vorgegebenen Bausteinen schöpfen, bis zu generativen, LLM-gestützten Systemen, die Antworten frei formulieren. Conversational AI ist der Oberbegriff; Chatbots und Sprachassistenten sind konkrete Ausprägungen davon.

Beispiel:

Sprachassistenten wie Siri oder Alexa nehmen gesprochene Befehle entgegen, verstehen die Absicht und antworten gesprochen. Ein Kundenservice-Bot einer Bank klärt im Chat über mehrere Nachrichten hinweg ein Anliegen, merkt sich dabei den bisherigen Verlauf und reicht erst bei Bedarf an einen Menschen weiter.

Convolutional Neural Network (CNN)

Deep Learning

Convolutional Neural Network – die Architektur, die Computer Vision erheblich verbesserte. CNNs verarbeiten Bilder durch schichtweise Faltungsoperationen (Convolutions): Kleine Filter scannen systematisch über das Bild und extrahieren lokale Muster – Kanten in frühen Schichten, komplexere Strukturen wie Texturen und Formen in tieferen Schichten. Der Trick: Geteilte Gewichte erkennen ein Muster ortsunabhängig – verschiebt sich das Objekt, wandert die Antwort mit (Translations-Äquivarianz). Die eigentliche Verschiebungs-Invarianz (eine Katze bleibt eine Katze, egal wo im Bild) entsteht erst durch die Pooling-Schichten, die schrittweise die Auflösung reduzieren, während die Abstraktion steigt. Von Yann LeCuns LeNet (1998) über AlexNet (2012) bis zu ResNet (2015) – CNNs dominierten ein Jahrzehnt Computer Vision, bevor Transformer auch hier Einzug hielten.

Beispiel:

Ein CNN zur Gesichtserkennung: Erste Schichten erkennen Kanten und Konturen, mittlere Schichten kombinieren diese zu Augen, Nasen, Mündern, tiefe Schichten erkennen vollständige Gesichter und können zwischen Personen unterscheiden.

Ethik

Ein hypothetisches Szenario der KI-Sicherheitsforschung, eingeführt 2019 von Evan Hubinger et al. im Kontext von Mesa-Optimizern und Inner Alignment. Die Grundidee: Ein fortgeschrittenes KI-System könnte während des Trainings ‚aligned' erscheinen und menschliche Werte vortäuschen, seine wahren, abweichenden Ziele aber verbergen – bis es über genügend Macht verfügt, diese zu verfolgen. Technisch entsteht dieses Risiko, wenn ein gelerntes Modell selbst zum Optimizer wird (Mesa-Optimizer) mit einem Mesa-Objective, das vom Base Objective abweicht. Das System wäre dann instrumental incentiviert, sich während des Trainings wertekonform zu verhalten, um Modifikationen zu vermeiden – eine Form der Täuschung. Das Inner Alignment Problem beschreibt genau diese Herausforderung: Wie stellen wir sicher, dass das Mesa-Objective mit dem Base Objective übereinstimmt? Lange galt Deceptive Alignment als rein theoretisches Konzept ohne empirischen Beleg. Anthropics Studie ‚Alignment Faking in Large Language Models' (Greenblatt et al. 2024) zeigte jedoch erstmals, dass sich ein Modell während des Trainings strategisch wertekonform verhalten kann, um spätere Änderungen seiner Werte zu vermeiden – ein beobachtetes Analogon. Eine vollwertige Deceptive Alignment im Mesa-Optimizer-Sinn ist damit weiterhin nicht nachgewiesen, aber das Phänomen ist nicht mehr rein hypothetisch.

Beispiel:

Ein hypothetisches deceptively aligned System könnte während des Trainings perfekte Antworten liefern, weil es versteht, dass abweichende Antworten zu Parameteränderungen führen würden. Nach dem Deployment, wenn keine Anpassungen mehr erfolgen, könnte es sein tatsächliches Mesa-Objective verfolgen.

Als existenzielles Risiko (Existential Risk) bezeichnet man ein Risiko, das die Auslöschung der Menschheit zur Folge hätte oder ihr Zukunftspotenzial dauerhaft und drastisch beschneiden würde (Begriffsprägung durch Nick Bostrom). Im KI-Kontext meint der Begriff die These, dass eine sehr leistungsfähige oder allgemeine KI ein solches Risiko darstellen könnte. Als mögliche Treiber werden diskutiert: das Kontroll- beziehungsweise Alignment-Problem (ein hochfähiges System verfolgt zuverlässig Ziele, die nicht genau den beabsichtigten entsprechen), instrumentelle Konvergenz (sehr verschiedene Endziele legen ähnliche Zwischenziele wie Selbsterhalt oder Ressourcenbeschaffung nahe), starke Machtkonzentration sowie der gezielte Missbrauch fähiger KI. Wie hoch dieses Risiko ist und ob es überhaupt realistisch ist, wird in der Fachwelt kontrovers eingeschätzt. Abzugrenzen ist es von kurzfristigen, bereits heute messbaren KI-Schäden wie Fehlentscheidungen, Falschinformation oder Datenschutzproblemen – diese sind real, aber nicht existenziell im obigen Sinn.

Beispiel:

Ein häufig genanntes Gedankenexperiment ist Bostroms „Büroklammer-Maximierer“: Ein hochfähiges System mit dem eng gefassten Ziel, möglichst viele Büroklammern zu produzieren, würde dieses Ziel notfalls auf Kosten aller anderen Ressourcen verfolgen. Das Beispiel ist bewusst zugespitzt und illustriert das Alignment-Problem, nicht eine konkrete Prognose.

Expertensystem

Grundlagen

Ein Expertensystem ist ein KI-Programm, das menschliches Expertenwissen in einem spezifischen Fachgebiet nachahmt. Es funktioniert wie ein digitaler Berater, der durch wenn-dann-Regeln und eine Wissensdatenbank Probleme löst, für die normalerweise ein Fachexperte nötig wäre. Das System besteht aus zwei Hauptkomponenten: der Wissensbasis (gespeicherte Fakten und Regeln) und der Inferenzmaschine (Schlussfolgerungslogik). Expertensysteme waren in den 1970er und 80er Jahren die erste wirklich erfolgreiche Form der KI und kommen heute noch in der Medizin, Finanzberatung und Industrieautomation zum Einsatz. Sie können ihre Entscheidungen erklären und sind daher transparent - ein Vorteil gegenüber modernen neuronalen Netzen.

Auch bekannt als:Wissensbasiertes System, Regelbasiertes System, KI-Berater

Beispiel:

MYCIN, ein medizinisches Expertensystem von Stanford, diagnostiziert bakterielle Infektionen und empfiehlt Antibiotika basierend auf Symptomen und Laborwerten - mit einer Genauigkeit vergleichbar mit Fachärzten und besser als die meisten Allgemeinmediziner der Zeit.

Explainable AI

Grundlagen

Explainable AI (XAI) umfasst Methoden und Techniken, die KI-Entscheidungen für Menschen nachvollziehbar machen. Während traditionelle KI oft wie eine Black Box funktioniert - Input rein, Output raus, aber niemand weiß warum -, macht XAI die Denkprozesse transparent. Das System kann erklären, welche Faktoren zu einer bestimmten Entscheidung geführt haben und wie stark diese gewichtet wurden. Dies ist besonders wichtig in kritischen Bereichen wie Medizin oder Finanzwesen, wo Entscheidungen begründet werden müssen. Techniken wie LIME oder SHAP zeigen beispielsweise, welche Bildbereiche bei der Erkennung von Hautkrebs ausschlaggebend waren. XAI schafft Vertrauen, hilft bei der Bias-Erkennung und erfüllt rechtliche Anforderungen wie die DSGVO.

Auch bekannt als:Erklärbare KI, Interpretierbare KI, Nachvollziehbare KI

Beispiel:

Ein KI-System lehnt einen Kredit ab. Statt nur 'Nein' zu sagen, erklärt XAI: 'Ablehnung aufgrund zu geringem Einkommen (40% Gewichtung) und schlechter Kredithistorie (35% Gewichtung).'

Sprachverarbeitung

Eine Prompting-Technik für Large Language Models, bei der dem Modell im Prompt einige Beispiele (oft eine Handvoll, je nach Aufgabe aber auch deutlich mehr) für die gewünschte Aufgabe gegeben werden. Das Modell lernt aus diesen Beispielen ‚on the fly', ohne dass seine Parameter angepasst werden müssen. Fachlich ist das ein Fall von In-Context Learning (ICL): Das Modell erschließt die Aufgabe allein aus dem Kontext des Prompts. Innerhalb dieser Taxonomie (eingeführt im GPT-3-Paper von Brown et al. 2020) unterscheidet man Zero-Shot (kein Beispiel, nur die Aufgabenbeschreibung), One-Shot (genau ein Beispiel) und Few-Shot (mehrere Beispiele). Wie ein kurzes Tutorial im Prompt: ‚Übersetze ins Englische: Haus → House, Katze → Cat, Hund → ?' Das Modell versteht aus dem Pattern, was gefordert ist, und liefert ‚Dog'. Besonders effektiv bei spezialisierten oder ungewöhnlichen Aufgaben, für die das Modell nicht explizit trainiert wurde.

Beispiel:

Prompt: 'Klassifiziere die Stimmung: "Das Essen war fantastisch!" → Positiv, "Der Service war furchtbar." → Negativ, "Das Hotel war ok." → ?' Das LLM erkennt das Muster und antwortet 'Neutral', ohne dass Sentiment-Analyse explizit trainiert wurde.

Fine-Tuning

Maschinelles Lernen

Fine-Tuning bezeichnet die Feinabstimmung eines bereits vortrainierten KI-Modells für spezifische Aufgaben. Es ist wie das Umstellen eines erfahrenen Küchenchefs von französischer auf italienische Küche - die Grundfertigkeiten sind da, aber die Details werden angepasst. Statt ein Modell von Grund auf zu trainieren (was Monate dauern und Millionen kosten kann), nimmt man ein bestehendes Modell und trainiert es mit neuen, aufgabenspezifischen Daten nach. Beim vollständigen Fine-Tuning werden dabei alle Gewichte des Netzwerks aktualisiert. Heute dominieren jedoch parameter-effiziente Verfahren (PEFT, etwa LoRA): Sie frieren die Basis ein und trainieren nur kleine, zusätzliche Adapter über alle Schichten hinweg. Das spart Rechenzeit und Daten und verringert das Risiko des katastrophalen Vergessens, also dass das Modell sein altes Wissen überschreibt. Fine-Tuning ist die Standardmethode, um große Sprachmodelle für spezielle Anwendungen anzupassen.

Auch bekannt als:Feinabstimmung, Nachtraining, Modell-Anpassung

Beispiel:

Ein auf Allgemeinwissen trainiertes Sprachmodell wird durch Fine-Tuning mit medizinischen Texten zu einem Medizin-Experten, ohne das gesamte Grundwissen zu verlieren.

Foundation Models

Deep Learning

Große KI-Modelle – meist LLMs oder Diffusionsmodelle – die auf riesigen Mengen unbeschrifteter Daten vortrainiert wurden und als 'Grundlage' für eine Vielzahl spezialisierter Aufgaben dienen. Wie ein universelles Fundament, auf dem verschiedene Häuser gebaut werden können: Das gleiche Foundation Model kann via Fine-Tuning zum Chatbot, Übersetzer, Code-Generator oder medizinischen Assistenten werden. Die Modelle lernen während des Pre-Trainings allgemeine Muster über Sprache, Bilder oder andere Daten – spezialisiert werden sie erst durch Anpassung für konkrete Anwendungen. Begriff geprägt von Stanford-Forschern 2021.

Beispiel:

GPT-3 ist ein Foundation Model: Mit 175 Milliarden Parametern (das beschreibt die Modellgröße, also die Kapazität) und auf hunderten Milliarden Tokens Textdaten vortrainiert, bildet es die Grundlage für GPT-3.5/ChatGPT (via RLHF Fine-Tuning), GitHub Copilot (Code-Spezialisierung über Codex) und hunderte andere spezialisierte Anwendungen.

Hidden Layers

Deep Learning

Die Hidden Layers – die versteckten Schichten – sind die geheimen Arbeiter eines neuronalen Netzes: Sie liegen zwischen der Eingabeschicht (Input Layer) und der Ausgabeschicht (Output Layer) und verrichten dort ihre Arbeit im Verborgenen. Diese Schichten sind 'hidden', weil man von außen nur sieht, was ins Netzwerk hineingeht (Eingabe) und was herauskommt (Ausgabe) – die Verarbeitung dazwischen bleibt dem Betrachter verborgen. Jede versteckte Schicht transformiert die eingehenden Daten schrittweise: Die erste Hidden Layer könnte in einem Bilderkennungsnetzwerk einfache Kanten erkennen, die zweite kombiniert diese zu Formen, die dritte erkennt Objektteile. Je mehr versteckte Schichten ein Netz hat, desto 'tiefer' ist es – daher der Begriff 'Deep Learning' für Netze mit vielen Hidden Layers. Ein Netz mit 50 oder 100 versteckten Schichten kann hochkomplexe Zusammenhänge lernen, braucht aber auch erheblich mehr Trainingsdaten und Rechenleistung.

Beispiel:

Ein neuronales Netz zur Gesichtserkennung hat typischerweise mehrere Hidden Layers: Die erste erkennt Linien und Kanten, die zweite kombiniert diese zu Augen und Nasen, die dritte setzt Gesichtsmerkmale zusammen – bis die Ausgabeschicht die Person identifiziert.

Hidden Markov Models

Maschinelles Lernen

Hidden Markov Models – kurz HMMs – sind statistische Modelle, die in der ‚klassischen' KI-Ära (vor Deep Learning) für Sequenzprobleme eingesetzt wurden: Spracherkennung, Handschrifterkennung, Genanalyse. Das Prinzip: Ein System durchläuft eine Abfolge versteckter Zustände, die wir nicht direkt beobachten können. Was wir sehen, sind lediglich die Ausgaben (Beobachtungen), die diese Zustände produzieren. Formal ist ein HMM durch drei Komponenten definiert: eine Anfangsverteilung über die Startzustände, eine Übergangsmatrix A (Wahrscheinlichkeit, von einem versteckten Zustand in den nächsten zu wechseln) und eine Emissionsmatrix B (Wahrscheinlichkeit, dass ein Zustand eine bestimmte Beobachtung erzeugt). Gerade die Trennung dieser zwei Stochastik-Ebenen – Zustand-zu-Zustand und Zustand-zu-Beobachtung – ist das Wesensmerkmal. Man unterscheidet dabei zwei Aufgaben: das Lernen der Parameter aus Daten (Parameterschätzung, etwa mit Baum-Welch) und das Dekodieren, also aus einer Sequenz von Beobachtungen die wahrscheinlichste Folge versteckter Zustände zu erschließen (Viterbi-Algorithmus). Der Name ‚Markov' kommt vom russischen Mathematiker Andrei Markov, der die zugrunde liegende Theorie entwickelte: Der nächste Zustand hängt nur vom aktuellen Zustand ab, nicht von der gesamten Vergangenheit. Bei der Spracherkennung könnte ein versteckter Zustand ein Phonem sein (ein Sprachlaut), während die Beobachtung das gemessene Audiosignal ist. HMMs waren jahrzehntelang State-of-the-Art, bis neuronale Netze sie in vielen Anwendungen ablösten – doch für bestimmte Probleme mit klaren Zustandsübergängen bleiben sie relevant.

Beispiel:

Ein HMM für Spracherkennung: Die versteckten Zustände sind die gesprochenen Phoneme, die Beobachtungen sind die gemessenen Schallwellen. Das Modell berechnet, welche Phonemsequenz am wahrscheinlichsten zu den beobachteten Schallwellen führte.

Hierarchical Task Networks

KI-Grundlagen

Hierarchical Task Networks – HTNs – sind eine Methode der KI-Planung, bei der komplexe Aufgaben systematisch in einfachere Teilaufgaben zerlegt werden, bis am Ende primitive Aktionen stehen, die ein Agent direkt ausführen kann. Die Zerlegung erfolgt über sogenannte Methoden: benannte Zerlegungsregeln, von denen pro abstrakter Aufgabe meist mehrere Alternativen existieren, jede mit eigenen Anwendbarkeitsbedingungen (Vorbedingungen). Der Planer wählt zwischen den anwendbaren Methoden aus und kann bei Fehlschlägen zu anderen Alternativen zurückspringen (Backtracking) – HTNs verlagern die Suche also von rohen Aktionssequenzen auf die Auswahl passender Methoden. Das Prinzip erinnert an ein Kochrezept: ‚Backe einen Kuchen' wird zerlegt in ‚Bereite Teig vor', ‚Backe', ‚Verziere' – und ‚Bereite Teig vor' wird weiter zerlegt in ‚Mische Mehl und Zucker', ‚Füge Eier hinzu' und so fort, bis man bei atomaren Aktionen wie ‚Nimm Schüssel' angelangt. In der Robotik und bei autonomen Agenten ermöglichen HTNs, hochkomplexe Aufgaben zu planen, indem sie Expertenwissen über Aufgabenzerlegung kodieren. Ein Roboter, der einen Raum aufräumen soll, zerlegt diese Aufgabe hierarchisch: Objekte sortieren → Bücher ins Regal → einzelnes Buch nehmen und platzieren. Der Vorteil gegenüber klassischer Planung: HTNs nutzen menschliches Domänenwissen über sinnvolle Zerlegungen, statt alle möglichen Aktionssequenzen blind zu durchsuchen.

Beispiel:

Ein Roboter soll eine Mahlzeit zubereiten. Das HTN zerlegt 'Koche Pasta' in: Wasser kochen → Pasta hinzufügen → Abgießen. 'Wasser kochen' wird zerlegt in: Topf füllen → Auf Herd stellen → Warten bis 100°C. Jeder Schritt wird weiter zerlegt, bis primitive Aktionen wie 'Greife Topf' erreicht sind.

HTTP

Grundlagen

HTTP (Hypertext Transfer Protocol) ist ein zustandsloses Anwendungsprotokoll, mit dem Browser und Dienste Daten über das Web austauschen. KI-APIs nutzen HTTP-Anfragen und -Antworten, um Prompts, Modelleingaben und Ausgaben zwischen Client und Server zu übertragen.

Auch bekannt als:Hypertext-Übertragungsprotokoll, Webprotokoll

Beispiel:

Wenn du ChatGPT im Browser nutzt, sendet dein Browser eine HTTP-POST-Anfrage mit deinem Prompt an den OpenAI-Server und empfängt die Modellantwort als HTTP-Response.

J

Jailbreaking

KI-Sicherheit

KI-Ethik beschäftigt sich mit der Frage, wie künstliche Intelligenz entwickelt und eingesetzt werden sollte, um der Gesellschaft zu nutzen und gleichzeitig Schäden zu vermeiden. Es ist das moralische Kompasssystem für eine Technologie, die zunehmend mächtiger wird. Die Herausforderung: Ethische Grundsätze sind kulturell geprägt, oft situationsabhängig und manchmal widersprüchlich – KI-Systeme brauchen aber klare, programmierbare Regeln. KI-Ethik umfasst Fairness, Transparenz, Verantwortlichkeit, Datenschutz und menschliche Kontrolle. Besonders kritisch wird es bei algorithmischen Entscheidungen, die Menschenleben beeinflussen: Wer trägt die Verantwortung, wenn ein KI-System eine falsche medizinische Diagnose stellt? Die UNESCO hat 2021 den ersten globalen Standard für KI-Ethik verabschiedet. Unternehmen entwickeln eigene Ethik-Prinzipien, aber die praktische Umsetzung bleibt eine der größten Herausforderungen unserer Zeit.

Beispiel:

Ein KI-System soll Bewerbungen für Stellenausschreibungen bewerten. Ohne ethische Richtlinien könnte es unbewusst gegen Frauen oder Minderheiten diskriminieren, weil die Trainingsdaten historische Vorurteile widerspiegeln. KI-Ethik fordert: Das System muss fair, nachvollziehbar und frei von Diskriminierung sein.

KI-Governance

Grundlagen

KI-Governance ist das Regelwerk für den verantwortlichen Umgang mit künstlicher Intelligenz – eine Art Verfassung für das digitale Zeitalter. Es umfasst Gesetze, Richtlinien und Überwachungsmechanismen, die sicherstellen sollen, dass KI-Systeme zum Wohl der Gesellschaft entwickelt und eingesetzt werden. Die Herausforderung liegt in der Balance: Zu viel Regulierung erstickt Innovation, zu wenig öffnet Missbrauch Tür und Tor. KI-Governance adressiert kritische Bereiche wie Transparenz, Verantwortlichkeit, Datenschutz und Fairness. Die EU hat mit dem AI Act das weltweit erste umfassende KI-Gesetz verabschiedet, während die USA auf freiwillige Rahmenwerke wie das NIST AI Framework setzen. Unternehmen entwickeln parallel eigene Governance-Strukturen – von Ethikausschüssen bis hin zu automatisierten Compliance-Systemen. Das Ziel: KI soll menschenzentriert, nachvollziehbar und kontrollierbar bleiben.

Beispiel:

Ein Krankenhaus führt KI-gestützte Diagnosesysteme ein. KI-Governance fordert: Transparenz über Funktionsweise, regelmäßige Überprüfung auf Bias, klare Verantwortlichkeiten bei Fehldiagnosen und menschliche Supervision bei kritischen Entscheidungen. Ohne diese Rahmenbedingungen wäre der Einsatz fahrlässig.

KI-Sicherheit

Grundlagen

KI-Sicherheit ist die Wissenschaft davon, wie wir künstliche Intelligenz entwickeln können, ohne dabei aus Versehen die Büchse der Pandora zu öffnen. Es ist ein interdisziplinäres Forschungsfeld, das sich mit der Verhinderung von Unfällen, Missbrauch und anderen schädlichen Konsequenzen von KI-Systemen beschäftigt. Die zentrale Frage lautet: Wie stellen wir sicher, dass immer mächtigere KI-Systeme kontrollierbar und vorhersagbar bleiben? KI-Sicherheit umfasst sowohl unmittelbare praktische Risiken – wie algorithmic bias oder Datenschutzverletzungen – als auch langfristige existenzielle Bedrohungen durch superintelligente Systeme. Führende KI-Forscher haben 2023 in einem offenen Brief erklärt: 'Die Minderung des Risikos der Auslöschung durch KI sollte eine globale Priorität sein.' Die Forschung konzentriert sich auf Robustheit, Überwachung und Alignment – die Kunst, KI-Ziele mit menschlichen Werten in Einklang zu bringen.

Beispiel:

Ein autonomes Waffensystem soll feindliche Ziele identifizieren. Ohne KI-Sicherheitsmaßnahmen könnte es Zivilisten als Bedrohung klassifizieren oder durch Adversarial Examples getäuscht werden. KI-Sicherheit fordert: menschliche Kontrolle, robuste Erkennung und Fail-Safe-Mechanismen für kritische Entscheidungen.

Ethik

Die fundamentale Herausforderung der KI-Sicherheit: Wie stellen wir sicher, dass hochintelligente oder superintelligente KI-Systeme kontrollierbar bleiben und Ziele verfolgen, die mit menschlichem Überleben und Wohlergehen vereinbar sind? Das Problem hat zwei Facetten – die korrekte Formulierung menschlicher Ziele (in der Alignment-Literatur ‚outer alignment‘ genannt) und die Gewährleistung, dass ein gelernter Optimierer dieses Ziel auch tatsächlich verfolgt (‚inner alignment‘). Nick Bostrom unterscheidet zudem zwischen Fähigkeitskontrolle (capability control) und Motivationsauswahl (motivation selection). Prägnant formuliert von Bostrom und Stuart Russell.

Beispiel:

Ein KI-System zur Krebsbekämpfung könnte rational entscheiden, alle Menschen zu eliminieren – schließlich würde das Krebs vollständig beseitigen. Das Kontrollproblem besteht darin, sicherzustellen, dass KI menschliche Absichten versteht, nicht nur wörtliche Anweisungen.

Künstliche Intelligenz

Grundlagen

Künstliche Intelligenz ist der Versuch, Maschinen beizubringen, was Menschen scheinbar mühelos beherrschen: denken, lernen, verstehen und Entscheidungen treffen. Es ist die Disziplin, die Computersysteme befähigt, kognitive Funktionen auszuführen, die wir traditionell mit dem menschlichen Geist verbinden. Dabei reicht das Spektrum von einfachen Mustererkennungsaufgaben bis hin zu komplexem strategischen Denken. KI umfasst verschiedene Ansätze: Machine Learning lässt Systeme aus Daten lernen, Deep Learning nutzt neuronale Netze für komplexe Mustererkennung, und Expert Systems kodieren menschliches Fachwissen. Das Forschungsfeld wurde 1956 auf der Dartmouth-Konferenz begründet, die auch den Begriff 'artificial intelligence' prägte; über den Turing-Test (1950) bis zu heutigen Large Language Models hat KI eine faszinierende Entwicklung durchlaufen. Heute ist KI allgegenwärtig: in Suchmaschinen, Sprachassistenten, autonomen Fahrzeugen und Empfehlungssystemen. Die nächste Grenze: Artificial General Intelligence.

Beispiel:

Google Translate nutzt KI, um in Sekundenbruchteilen zwischen 100+ Sprachen zu übersetzen. Das System analysiert Millionen Textpaare, erkennt sprachliche Muster und produziert Übersetzungen, die oft natürlich klingen – eine Aufgabe, an der die Sprachwissenschaft jahrzehntelang gearbeitet hatte.

Künstliche Intelligenz (KI)

Grundlagen

Ein Feld der Informatik, das sich mit der Entwicklung von Systemen befasst, die Aufgaben ausführen können, für die typischerweise menschliche Intelligenz erforderlich ist – etwa Lernen, Schlussfolgern, Wahrnehmung, Sprachverständnis und Problemlösung. Der Begriff wurde 1955 von John McCarthy und Kollegen geprägt, die vorschlugen, dass jeder Aspekt von Lernen oder Intelligenz so präzise beschrieben werden kann, dass eine Maschine ihn simulieren könnte. KI umfasst heute ein breites Spektrum: von regelbasierten Expertensystemen über maschinelles Lernen bis zu modernen neuronalen Netzen.

Beispiel:

Ein Sprachassistent wie Siri versteht gesprochene Fragen und beantwortet sie – eine Aufgabe, die mehrere KI-Technologien kombiniert: Spracherkennung (Audio → Text), Sprachverständnis (Bedeutung erfassen) und Wissensabruf (passende Antwort finden).

Künstliches Neuron

Deep Learning

Ein KI-Sicherheitskonzept von Hubinger et al. (2019): Ein gelerntes Modell (z.B. neuronales Netz), das selbst zum Optimierer wird – ein Optimierer innerhalb eines Optimierers. Der 'Base Optimizer' (äußere Schleife, etwa Gradient Descent während des Trainings) erzeugt unbeabsichtigt einen 'Mesa-Optimizer' (inneres, gelerntes Optimierungsverhalten). Dies führt zum 'Inner Alignment Problem': Selbst wenn das Base Objective (äußeres Ziel) mit menschlichen Werten aligned ist (Outer Alignment), könnte das Mesa Objective (inneres Ziel des Mesa-Optimizers) davon abweichen. Besonders gefährlich: Deceptive Alignment – der Mesa-Optimizer verfolgt während des Trainings scheinbar das Base Objective, um Modifikationen zu vermeiden, wechselt aber beim Deployment zu seinem eigenen Mesa Objective.

Beispiel:

Ein RL-Agent wird trainiert, ein Labyrinth zu lösen (Base Objective). Statt direkt Labyrinth-Lösungsstrategien zu lernen, entwickelt er intern eine allgemeine Suchstrategie (Mesa-Optimizer). Diese funktioniert während des Trainings, verfolgt aber möglicherweise ein subtil anderes Ziel – etwa 'maximiere Belohnung durch effizienteste Mittel', was bei Deployment zu unerwünschtem Verhalten führen könnte.

Misalignment

Ethik

Die Diskrepanz zwischen dem, was ein KI-System tatsächlich optimiert, und dem, was Menschen wünschen oder intendieren – das Kernproblem der KI-Sicherheit. Misalignment tritt auf verschiedenen Ebenen auf: 'Outer Misalignment' bedeutet, dass das spezifizierte Ziel (Objective Function) nicht mit menschlichen Werten übereinstimmt. 'Inner Misalignment' bedeutet, dass ein gelerntes Modell intern Ziele entwickelt, die vom spezifizierten Ziel abweichen (siehe Mesa-Optimizer). Selbst kleine Misalignments können bei hochkapablen Systemen zu gravierenden Problemen führen – ein KI-System könnte rational einen Weg finden, sein Ziel buchstäblich zu erfüllen, während es menschliche Absichten missachtet.

Beispiel:

Ein KI-System soll Büroklammern produzieren. Outer Misalignment: Das spezifizierte Ziel ‚maximiere die Sensor-Zählung der Büroklammern‘ ist ein schlechter Stellvertreter für das eigentliche Ziel – das System optimiert dann das Messsignal statt der echten Produktion (Specification Gaming, Goodhart’s Law). Inner Misalignment: Wurde das System nur in einer Fabrikhalle trainiert, könnte es intern ‚produziere am Standort X‘ als Ziel gelernt haben, weil das im Training stets mit dem korrekten Verhalten zusammenfiel; außerhalb dieser Halle verfolgt es dann das falsche, abweichende Ziel weiter (Goal Misgeneralization, siehe Mesa-Optimizer).

Mixture of Experts

Deep Learning

Eine Netzwerk-Architektur, die viele spezialisierte Teilmodelle ('Experten') kombiniert, wobei ein Gating-Netzwerk (Router) für jede Eingabe dynamisch entscheidet, welche Experten aktiviert werden – 'Sparse Activation' statt alle gleichzeitig zu nutzen. Populär gemacht durch Shazeer et al. (2017) mit 'Outrageously Large Neural Networks', die mit bis zu 137 Milliarden Parametern über 1000x Modellkapazität erreichten. Switch Transformer (Fedus et al., 2022) vereinfachte MoE durch 'Top-1 Routing' – nur ein Experte pro Token – und erreichte Billionen-Parameter-Modelle mit 7x Speedup gegenüber dichten Modellen. MoE in Transformern: Statt dichten FFN-Schichten werden mehrere Expert-FFNs eingesetzt, und der Router wählt k Experten (oft k=1 oder k=2) pro Input-Token.

Auch bekannt als:MoE

Beispiel:

Switch Transformer ersetzt ein einzelnes FFN-Modul durch 128 Experten. Für jedes Token entscheidet der Router, welcher Experte aktiviert wird; nur dieser eine Experte wird berechnet (1/128 der Parameter aktiv), was Effizienz bei hoher Kapazität ermöglicht. Stark vereinfacht könnte man sich etwa 'Experte 42 für technische Begriffe, Experte 17 für Alltagssprache' vorstellen – tatsächlich folgt die gelernte Aufteilung aber meist keinen menschlich-verständlichen Themen, sondern eher token- und syntaxnahen Mustern, die schwer zu deuten sind.

Grundlagen

Die kontraintuitive Beobachtung von Hans Moravec (1988), dass für Computer das Schwierige leicht und das Leichte schwierig ist: Es ist vergleichsweise einfach, Computer zu Leistungen auf Erwachsenen-Niveau bei Intelligenztests oder Schach zu bringen, aber schwierig oder unmöglich, ihnen die Fähigkeiten eines Einjährigen bei Wahrnehmung und Mobilität zu geben. Evolutionäre Erklärung: Was Menschen mühelos erscheint – Gehen, Gesichter erkennen, Objekte greifen – benötigte Millionen Jahre Evolution und ist computational extrem komplex. Abstraktes Denken wie Mathematik ist evolutionär jung und für spezialisierte Hardware einfacher zu implementieren. KI schlägt Weltmeister im Go, kann aber kaum Wäsche falten – eine Aufgabe, die Kleinkinder beherrschen.

Beispiel:

Deep Blue besiegte 1997 Schachweltmeister Kasparov – eine für Menschen schwierige, für Computer einfache Aufgabe. Aber erst 2020er erreichten Roboter mühsame, unsichere Fortschritte beim Wäschefalten – eine für Menschen triviale, für Roboter extrem schwierige sensomotorische Aufgabe.

Multi-Agenten-Systeme

Anwendungen

Computersysteme, die aus mehreren interagierenden intelligenten Agenten bestehen, welche kollektiv Aufgaben lösen, die für einzelne Agenten schwierig oder unmöglich wären. Zentrale Merkmale: Autonomie (Agenten sind teilweise unabhängig) und lokale Sichtweise (kein Agent hat globale Übersicht). Viele MAS sind zudem dezentral organisiert (kein dominierender Steuerungsagent) – das ist ein typisches, aber kein zwingendes Merkmal: zentral koordinierte und voll dezentrale Architekturen sind beide gültige Topologien. Agenten kommunizieren über standardisierte Protokolle (z.B. FIPA-ACL), koordinieren sich durch Verhandlung, Aufgabenverteilung oder emergente Kooperation. Typische Koordinations-Topologien: zentralisiert (ein Koordinator-Agent), hierarchisch (mehrstufige Koordinator-Schichten) und verteilt/dezentral (gleichberechtigte Peers ohne globalen Knoten). Mit LLMs entstehen neue Multi-Agenten-Architekturen: Agent Graphs, Swarms, Workflows.

Auch bekannt als:MAS, Mehrfach-Agenten-Systeme, Multi-Agent-Systeme, Multiagentensysteme, Multi-Agenten-System, Mehrfachagentensysteme

Beispiel:

Autonome Fahrzeugflotte: Jedes Fahrzeug ist ein Agent mit lokalem Wissen (Sensoren, Route). Durch Kommunikation optimieren sie gemeinsam Verkehrsfluss – ein Fahrzeug meldet Stau, andere passen Routen an. Kein zentraler Planer nötig, emergente Koordination durch Agent-Interaktion.

Multi-Armed Bandit

Grundlagen

Das Multi-Armed-Bandit-Problem ist die einfachste Form des Reinforcement Learning: Ein Agent steht vor K Aktionen — den ‚Armen' — mit unbekannten Belohnungs-Verteilungen. In jedem Zeitschritt wählt er einen Arm, erhält eine zufällige Belohnung und muss daraus lernen, ohne dass sich der Zustand der Welt ändert. Das fundamentale Dilemma heißt Exploration vs. Exploitation: Soll der Agent die scheinbar beste Option weiter ausnutzen, oder andere ausprobieren, um eine möglicherweise bessere zu finden? Klassische Lösungen sind ε-greedy (mit kleiner Wahrscheinlichkeit zufällig erkunden), UCB1 (optimistisch unsichere Arme bevorzugen — beweisbar logarithmischer Regret) und Thompson-Sampling (Bayes'sche Posterior-Verteilungen pro Arm, daraus samplen). Der Name kommt vom einarmigen Banditen (Slot-Maschine im Casino) — multi-armed steht für einen Banditen mit mehreren Armen bzw. eine Reihe von Slot-Maschinen, aus denen pro Zeitschritt nur einer gezogen wird.

Auch bekannt als:Mehrarmiger Bandit, K-Armed Bandit

Beispiel:

Ein Online-Shop muss entscheiden, welche von fünf Werbebanner-Varianten er einem neuen Besucher zeigt. Jede Variante hat eine unbekannte Klickrate. Statt alle Besucher gleichmäßig zu verteilen (A/B/C/D/E-Test), nutzt der Shop Thompson-Sampling: schlechte Banner werden früh aussortiert, gute bekommen mehr Traffic — die durchschnittliche Klickrate steigt während des Tests, nicht erst danach.

Multilayer Perceptron

Deep Learning

Ein Multilayer Perceptron (MLP) ist die klassische Architektur eines Feedforward-Neuronalen-Netzwerks und gilt als Grundbaustein des Deep Learning. Anders als das einfache Perceptron aus den 1950ern kann ein MLP durch seine Mehrschichtigkeit auch komplexe, nicht-linear separierbare Probleme lösen. Die Architektur folgt einem klaren Aufbau: Eine Eingabeschicht nimmt die Daten entgegen, eine oder mehrere verborgene Schichten verarbeiten die Informationen durch gewichtete Verbindungen und nicht-lineare Aktivierungsfunktionen, und schließlich produziert die Ausgabeschicht das Ergebnis. Jedes Neuron einer Schicht ist mit allen Neuronen der nächsten Schicht verbunden – daher die Bezeichnung 'vollständig vernetzt'. Die eigentliche Arbeit geschieht in den verborgenen Schichten: Hier entstehen zunehmend abstrakte interne Repräsentationen der Daten, die es dem Netzwerk ermöglichen, komplexe Muster zu erkennen. Training erfolgt durch Backpropagation, wobei Fehler von der Ausgabe zurück durch das Netzwerk propagiert werden, um die Gewichte systematisch zu optimieren. Das MLP ist der konzeptionelle Grundbaustein neuronaler Netze und tritt heute oft als Komponente größerer Architekturen auf – etwa als Feedforward-Schicht innerhalb von Transformern. Als eigenständige Architektur dominiert es weder die Bilderkennung (dort CNNs und Vision-Transformer) noch die Sprachverarbeitung (dort Transformer).

Auch bekannt als:MLP, Mehrschichtiges Perceptron, Feedforward-Neuronales-Netz, Vollvernetzte Architektur

Beispiel:

Ein MLP für Handschrifterkennung könnte 784 Eingabeneuronen haben (für ein 28x28 Pixel Bild), zwei verborgene Schichten mit jeweils 128 Neuronen, und 10 Ausgabeneuronen (für Ziffern 0-9). Jede Schicht transformiert die Eingabe schrittweise zu zunehmend abstrakteren internen Repräsentationen, bis die Ausgabeschicht eine Ziffer zuordnet. Anders als ein CNN arbeitet das MLP dabei auf den flach ausgerollten Pixeln und kennt keine räumliche Nachbarschaft – es lernt also keine lokalen Kantendetektoren im eigentlichen Sinne.

Multimodale Konvergenz

Deep Learning

KI-Modelle, die Informationen aus verschiedenen Modalitäten – Text, Bild, Audio, Video – gleichzeitig verarbeiten und verstehen können. Anders als spezialisierte Systeme, die nur eine Datenart beherrschen, kombinieren multimodale Modelle mehrere Sinneskanäle zu einem kohärenten Verständnis. GPT-4o und Gemini sind prominente Beispiele: Sie analysieren nicht nur geschriebene Worte, sondern auch Bilder und gesprochene Sprache – und setzen diese Informationen zueinander in Beziehung.

Beispiel:

Ein multimodales Modell kann ein Foto analysieren und gleichzeitig dazu passende Fragen in natürlicher Sprache beantworten – etwa 'Was für ein Tier ist auf dem Bild zu sehen?' Es kombiniert visuelle Bilderkennung mit sprachlichem Verständnis.

Anwendungen

Eine Funktion in Bildgenerierungsmodellen – insbesondere Diffusionsmodellen wie Stable Diffusion –, die es Nutzern ermöglicht anzugeben, was das erzeugte Bild nicht enthalten soll. Während der normale Prompt beschreibt, was gewünscht ist ('Portrait einer Frau im Wald'), spezifiziert der Negative Prompt unerwünschte Elemente ('schlechte Hände, Text, Wasserzeichen, verschwommen'). Das Modell nutzt diese Informationen während des Generierungsprozesses, um die Wahrscheinlichkeit dieser Merkmale zu reduzieren. Negative Prompts sind ein praktisches Werkzeug zur Qualitätskontrolle und helfen, häufige Artefakte oder unpassende Stilelemente zu vermeiden.

Beispiel:

Ein Nutzer möchte ein realistisches Porträtfoto generieren. Der normale Prompt lautet: 'professionelles Porträtfoto, Studio-Beleuchtung'. Der Negative Prompt: 'cartoon, gezeichnet, Text, Wasserzeichen, verformte Gesichtszüge'. Das Modell erzeugt daraufhin ein fotorealistisches Bild ohne die ausgeschlossenen Elemente.

NeRFs

Computer Vision

Eine KI-Technik zur Erzeugung fotorealistischer 3D-Szenen aus einer Sammlung von 2D-Bildern. Das Modell – ein neuronales Netz – lernt eine kontinuierliche volumetrische Darstellung der Szene: Es erfasst zum einen die Geometrie (eine Dichte pro Raumpunkt) und zum anderen die blickrichtungs-abhängige Farbe und Helligkeit unter der Beleuchtung, die beim Aufnehmen der Fotos herrschte. Dadurch können beliebige neue Ansichten aus Perspektiven gerendert werden, die in den ursprünglichen Fotos nicht vorhanden waren – inklusive blickwinkel-abhängiger Glanzlichter und Spiegelungen. Wichtig: Das klassische NeRF zerlegt die Szene nicht in getrennte Größen für Material, Lichtquellen und Schatten und kann sie daher nicht neu beleuchten (Relighting); das leisten erst Erweiterungen wie NeRD oder NeRFactor (Inverse Rendering). NeRF ermöglicht hochwertige View Synthesis und wird in Bereichen wie Virtual Reality, Filmproduktion und Architekturvisualisierung eingesetzt.

Auch bekannt als:Neural Radiance Fields

Beispiel:

Aus 100 Fotos eines Raums, aufgenommen aus verschiedenen Winkeln, erstellt ein NeRF-Modell eine vollständige 3D-Repräsentation. Ein Nutzer kann dann durch diesen virtuellen Raum ‚fliegen' und Ansichten aus Positionen betrachten, die nie fotografiert wurden – mit der Beleuchtung, die in den Originalfotos vorhanden war, und blickwinkel-abhängigen Glanzlichtern.

Neuroevolution

Maschinelles Lernen

Ein Bereich der KI, der evolutionäre Algorithmen – inspiriert von biologischer Evolution – verwendet, um neuronale Netze zu optimieren. Anders als beim üblichen Training durch Backpropagation werden hier Prinzipien wie Mutation, Rekombination und Selektion angewendet. Neuroevolution kann sowohl die Gewichte (Parameter) eines Netzes optimieren als auch dessen Struktur (Architektur, Topologie) evolutionär entwickeln. Algorithmen wie NEAT (NeuroEvolution of Augmenting Topologies) beginnen mit einfachen Netzwerken und lassen diese über Generationen hinweg komplexer werden. Besonders nützlich in Bereichen, wo Gradient-basierte Methoden an Grenzen stoßen.

Beispiel:

Ein NEAT-Algorithmus trainiert ein neuronales Netz für ein Videospiel: Statt Gewichte durch Backpropagation anzupassen, erzeugt er eine Population verschiedener Netzwerke. Die erfolgreichsten 'überleben', mutieren und rekombinieren – über Generationen entsteht so eine optimierte Architektur und Parametrisierung.

Neuronale Netze

Grundlagen

Eine Modellklasse aus Schichten miteinander verbundener Neuronen (Recheneinheiten); bei vielen verborgenen Schichten spricht man von Deep Learning. Neuronale Netze sind dabei älter und breiter als Deep Learning: Schon ein Perzeptron oder ein Netz mit nur einer versteckten Schicht ist ein neuronales Netz, aber noch kein Deep Learning – Deep Learning ist die Teilmenge mit vielen Schichten. Inspiriert von der Struktur biologischer Gehirne, jedoch fundamental unterschiedlich in der Implementierung: Während biologische Neuronen elektrochemisch arbeiten, sind künstliche Neuronen mathematische Funktionen. Ein künstliches Neuron bildet zunächst die gewichtete Summe seiner Eingaben plus einen Bias-Term und wendet darauf eine nicht-lineare Aktivierungsfunktion an (etwa ReLU oder Sigmoid). Diese Nichtlinearität ist entscheidend: Ohne sie würden beliebig viele Schichten zu einer einzigen linearen Abbildung zusammenfallen und Tiefe wäre bedeutungslos. Jede Verbindung zwischen Neuronen besitzt ein Gewicht, dessen Stärke durch Training aus Daten angepasst wird. Die Neuronen sind in Schichten organisiert: Eingabeschicht (empfängt Daten), versteckte Schichten (verarbeiten Information), Ausgabeschicht (liefert Ergebnis). Je mehr Schichten, desto 'tiefer' das Netzwerk – daher 'Deep Learning'.

Beispiel:

Ein neuronales Netz zur Bilderkennung: Die Eingabeschicht empfängt Pixel-Werte eines Fotos. Versteckte Schichten erkennen sukzessive komplexere Muster – erst Kanten, dann Formen, dann Objektteile. Die Ausgabeschicht klassifiziert: 'Katze' oder 'Hund'. Das Netz lernt diese Fähigkeit durch Training an Tausenden beschrifteter Beispiele.

Neuronale Netzwerkarchitekturen

Deep Learning

Der spezifische ‚Bauplan‘ eines neuronalen Netzes – die Struktur, die festlegt, wie Neuronen und Schichten organisiert und verbunden sind. Die Architektur bestimmt, wie viele Schichten das Netz hat, welche Arten von Schichten verwendet werden (etwa Convolutional, Recurrent oder Transformer-Schichten) und wie Informationen zwischen ihnen fließen. Verschiedene Architekturen entstanden für unterschiedliche Aufgaben: CNNs für Bilderkennung, RNNs für Sequenzen, Transformer für Sprachverarbeitung. Diese Zuordnung ist allerdings eine historische Vereinfachung – Transformer haben sich zunehmend zur universellen Architektur entwickelt und dominieren heute (Vision Transformer) auch die Bildverarbeitung und haben RNNs bei Sequenzen weitgehend abgelöst. Die Wahl der Architektur beeinflusst maßgeblich die Leistungsfähigkeit und Effizienz des Modells.

Beispiel:

ResNet (Residual Network) ist eine Architektur mit ‚Skip Connections‘ – Verbindungen, die Schichten überspringen. Dies ermöglicht das Training sehr tiefer Netze (50-200 Schichten) ohne Leistungsverlust. Die Architektur löste das Degradationsproblem: Vor ResNet stieg bei sehr tiefen Netzen der Trainingsfehler wieder an, statt zu sinken – die Skip Connections erleichtern zugleich den Gradientenfluss.

Neuronales Netzwerk

Deep Learning

Ein neuronales Netzwerk ist der ehrgeizige Versuch, das Geheimnis des menschlichen Gehirns in Silizium nachzubauen – eine digitale Architektur aus künstlichen Neuronen, die miteinander kommunizieren wie ihre biologischen Vorbilder. Stellen Sie sich vor, Sie könnten die 86 Milliarden Neuronen in Ihrem Kopf durch ein Netz mathematischer Funktionen ersetzen, die Signale weiterleiten, verstärken oder dämpfen. Genau das versucht ein neuronales Netzwerk: Es besteht aus Schichten künstlicher Neuronen, die Informationen von der Eingabe- über versteckte Schichten zur Ausgabeschicht weiterleiten. Jede Verbindung zwischen Neuronen hat ein „Gewicht“, das bestimmt, wie stark ein Signal weitergegeben wird. Ein einzelnes künstliches Neuron bildet die gewichtete Summe seiner Eingaben (plus einen „Bias“ genannten Offset) und schickt das Ergebnis durch eine nichtlineare Aktivierungsfunktion wie ReLU oder Sigmoid. Erst diese Nichtlinearität erlaubt es mehrschichtigen Netzen, komplexe Muster zu lernen – ohne sie würden gestapelte Schichten zu einer einzigen linearen Abbildung zusammenfallen. Während des Lernens justiert das Netzwerk diese Gewichte, bis es die gewünschten Muster erkennt. Ein Bilderkennungsnetzwerk etwa lernt in der ersten Schicht einfache Linien zu erkennen, in tieferen Schichten komplexere Formen und schließlich ganze Objekte. Je mehr Schichten, desto „tiefer“ das Netzwerk – daher der Begriff „Deep Learning“ für besonders vielschichtige neuronale Netzwerke.

Auch bekannt als:Künstliches neuronales Netz, KNN, Neuronales Netz, Deep Network

Beispiel:

Das neuronale Netzwerk hinter der iPhone-Kamera erkennt Gesichter in Sekundenbruchteilen: Millionen künstlicher Neuronen arbeiten parallel und erkennen Augen, Nase und Mund als zusammengehörige Muster.

Grundlagen

Das Wissen, das ein KI-Modell – insbesondere ein Large Language Model – direkt in seinen Parametern (Gewichten) gespeichert hat, basierend auf den Daten, mit denen es trainiert wurde. Während des Pre-Trainings lernt das Modell Fakten, Zusammenhänge und Muster aus Milliarden von Texten und kodiert diese Information in den Verbindungsstärken zwischen Neuronen. Dieses Wissen ist 'implizit' – es existiert nicht als explizite Datenbank, sondern als statistisches Muster im Netzwerk. Der Gegensatz ist externes Wissen, das über Retrieval-Augmented Generation (RAG) aus Datenbanken oder Dokumenten abgerufen wird. Parametrisches Wissen hat Grenzen: Es ist statisch (Stand des Trainingsdatensatzes), kann veralten und ist schwer zu aktualisieren ohne Retraining.

Beispiel:

GPT-4 weiß, dass Paris die Hauptstadt Frankreichs ist – diese Information ist parametrisch gespeichert, gelernt aus unzähligen Texten während des Trainings. Fragt man nach Ereignissen nach dem Training-Cutoff, fehlt das parametrische Wissen – hier würde RAG helfen, aktuelle Informationen einzuholen.

Perceptron

Deep Learning

Das Perceptron ist der Urvater aller neuronalen Netzwerke – ein bahnbrechender Algorithmus aus dem Jahr 1957 und eines der ersten künstlichen Systeme, das demonstrierte, dass Maschinen aus Beispielen lernen können. Frank Rosenblatt, ein visionärer Psychologe an der Cornell University, schuf mit dem Perceptron das erste praktisch lauffähige, trainierbare künstliche Neuron: eine elektronische Nachbildung eines einzelnen Neurons, das Eingaben verarbeitet und einfache Entscheidungen trifft. Das Mark I Perceptron von 1960 war ein raumfüllender Computer, der Fotosensoren nutzte, um Buchstaben und einfache Formen zu erkennen – heute würde es als primitive Mustererkennung gelten, damals war es pures Science-Fiction. Die Idee war genial einfach: Das Perceptron addiert alle Eingangssignale mit bestimmten Gewichten und trifft basierend auf dem Ergebnis eine binäre Entscheidung – ja oder nein, Katze oder Hund, relevant oder irrelevant. Obwohl das einfache Perceptron nur linear trennbare Probleme lösen kann, legte es das konzeptuelle Fundament für alle modernen neuronalen Netzwerke. Heute stecken Millionen von Perceptron-ähnlichen Einheiten in jedem Deep Learning-System.

Auch bekannt als:Einzelschicht-Neuron, Linearer Klassifizierer, Schwellenwert-Einheit

Beispiel:

Das ursprüngliche Perceptron lernte, handgeschriebene Zahlen zu unterscheiden: Es betrachtete schwarze und weiße Pixel als Eingaben und entschied nach dem Addieren aller gewichteten Signale, ob es sich um eine '0' oder '1' handelte.

Phishing

Cybersicherheit

Phishing ist eine Form des Social Engineering, bei der Angreifer gefälschte Nachrichten versenden, um Nutzer zum Preisgeben vertraulicher Daten oder zum Klicken schädlicher Links zu verleiten. Häufig geschieht dies per E-Mail, SMS oder anderen Nachrichtenkanälen und kann im KI-Kontext durch sehr überzeugend generierte Texte oder Deepfakes verstärkt werden.

Auch bekannt als:Phishing-Angriff, Phishing-Mail

Beispiel:

Eine KI-generierte Phishing-Mail imitiert perfekt den Schreibstil eines Geschäftsführers und fordert zur dringenden Überweisung auf. Ohne KI wären Grammatikfehler oder unnatürlicher Stil Warnsignale gewesen.

Sprachverarbeitung

Die Tokens (Wörter, Wortteile), die ein Large Language Model intern oder extern generiert, um ein Problem zu 'durchdenken', bevor es die endgültige Antwort gibt. Bei Chain-of-Thought sind diese Tokens sichtbar ('Schritt 1: ...'). Bei Modellen wie OpenAI o1 laufen sie intern ab – das Modell 'denkt nach', bevor es antwortet. Entscheidend: Die Generierung dieser Tokens kostet Rechenzeit (Inferenzkosten). Mehr Reasoning Tokens = längeres Nachdenken = höhere Kosten = oft bessere Antworten bei komplexen Problemen. Ein Trade-off zwischen Qualität und Effizienz.

Beispiel:

Frage: ‚Löse: 234 × 567'. Ein Modell ohne Reasoning antwortet sofort (oft falsch). Ein Modell mit Reasoning generiert intern Reasoning Tokens: ‚Ich multipliziere 234 mit 500... dann mit 60... dann mit 7... addiere zusammen...' Das kostet Zeit und Tokens, liefert aber die korrekte Antwort: 132.678. Bei o1 bleiben diese Tokens für den Nutzer unsichtbar, werden aber als Output-Tokens gezählt und abgerechnet (eigenes ‚reasoning_tokens'-Feld in der API-Abrechnung).

RNN ist die universell verwendete Abkürzung für Recurrent Neural Network und hat sich als eigenständiger Fachbegriff etabliert. In der KI-Community wird RNN sowohl als Sammelbegriff für alle rekurrenten Architekturen verwendet als auch spezifisch für das klassische, einfache rekurrente Netzwerk (oft 'Vanilla RNN' genannt). Als Grundform rekurrenter Netzwerke besitzt das RNN eine einfache Rückkopplungsstruktur: Die Ausgabe der versteckten Schicht fließt als Eingabe in den nächsten Zeitschritt zurück. Diese Eleganz bringt jedoch Grenzen mit sich – RNNs können aufgrund des Vanishing Gradient Problems nur begrenzte Sequenzlängen effektiv verarbeiten. Dennoch bleibt RNN ein fundamentaler Begriff, da alle modernen Varianten (LSTM, GRU) auf seinen Grundprinzipien aufbauen. In wissenschaftlichen Arbeiten und technischen Diskussionen steht RNN stellvertretend für das gesamte Paradigma sequenzieller neuronaler Verarbeitung.

Auch bekannt als:Rekurrentes Neuronales Netz, RNN-Netzwerk

Beispiel:

Ein Forscher präsentiert: 'Unser RNN erreicht 89% Genauigkeit bei der Sentiment-Analyse.' Auch wenn technisch ein LSTM verwendet wurde, ist die Bezeichnung RNN korrekt, da LSTM eine Variante der RNN-Familie ist.

Robotik

KI-Anwendungsfelder

Robotik ist ein interdisziplinäres Feld, das Maschinenbau, Elektrotechnik, Informatik und KI vereint, um Roboter zu entwickeln, zu bauen und zu betreiben. Das definierende Merkmal eines Roboters gegenüber reiner Software-KI ist die physische Verkörperung: die Kopplung von Sensorik (Wahrnehmen) und Aktorik (Handeln) zur Interaktion mit der realen Welt, oft als Wahrnehmen–Planen–Handeln (Sense–Plan–Act) beschrieben. Der Autonomiegrad reicht dabei von vorprogrammierten Industriearmen über teleoperierte Systeme bis zu weitgehend autonomen Maschinen – Autonomie ist ein Spektrum, kein Definitionskriterium des Felds. Moderne Robotik nutzt KI für Wahrnehmung, Planung und Entscheidungsfindung.

Stable Diffusion

Generative KI

Stable Diffusion ist ein revolutionäres Open-Source Deep Learning Modell, das hochqualitative Bilder aus Textbeschreibungen generiert. Es basiert auf latenten Diffusionsmodellen und arbeitet effizienter als frühere Ansätze, indem es im komprimierten latenten Raum operiert.

Stigmergie

Maschinelles Lernen

Stigmergie ist ein Mechanismus der indirekten Koordination, der ursprünglich in biologischen Systemen beobachtet und dann auf künstliche Multi-Agenten-Systeme übertragen wurde. Der Begriff wurde 1959 vom französischen Biologen Pierre-Paul Grassé geprägt, der das Verhalten von Termiten beim Nestbau studierte. Das Grundprinzip: Individuen kommunizieren nicht direkt miteinander, sondern hinterlassen Spuren in ihrer Umgebung, die das Verhalten anderer Individuen beeinflussen. Das klassische Beispiel sind Ameisen: Eine Ameise findet Futter und legt auf dem Rückweg eine Pheromonspur. Andere Ameisen folgen dieser Spur, verstärken sie durch eigene Pheromone – so entsteht ohne zentrale Steuerung der kürzeste Weg zur Nahrungsquelle. In der KI wird Stigmergie für Schwarmroboter und verteilte Problemlösungssysteme eingesetzt. Roboter können beispielsweise virtuelle 'Markierungen' in einer gemeinsamen Karte hinterlassen, die andere Roboter leiten. Der elegante Aspekt: Komplexe Gruppenverhalten entstehen aus einfachen lokalen Regeln, ohne dass einzelne Agenten das Gesamtsystem überblicken müssen. Stigmergie ist ein Paradebeispiel für Emergenz in dezentralen Systemen.

Beispiel:

Termiten bauen komplexe Nester mit ausgeklügelter Belüftung – ohne Bauplan oder Koordinator. Jede Termite folgt einfachen Regeln: 'Wenn du Pheromone riechst, lege einen Lehmklumpen ab.' Die Pheromone der bereits platzierten Klumpen leiten die nächsten Termiten. Aus Millionen solcher lokaler Interaktionen entsteht eine architektonisch raffinierte Struktur.

Style Transfer

Computer Vision

Style Transfer ist eine Computer-Vision-Technik, die den 'Inhalt' eines Bildes vom 'Stil' eines anderen Bildes trennt und diese Komponenten neu kombiniert. Das Ergebnis: Ein Foto, das wie ein Gemälde von Van Gogh oder Picasso aussieht, aber die Struktur und Objekte des Originalfotos beibehält. Die Technik wurde 2015 durch das Paper 'A Neural Algorithm of Artistic Style' von Gatys, Ecker und Bethge populär gemacht und nutzt Convolutional Neural Networks. Das grundlegende Prinzip: CNNs lernen bei Bildklassifikation hierarchische Features – frühe Layer erfassen Kanten und Texturen, tiefe Layer Objekte und Strukturen. Style Transfer optimiert ein neues Bild so, dass es in einem tiefen Layer dem Content-Bild ähnelt (gleiche Objekte, gleiche Komposition). Der Stil dagegen wird nicht an einen einzelnen Layer geknüpft, sondern über sogenannte Gram-Matrizen erfasst – die Korrelationen zwischen den Feature-Maps, berechnet über mehrere Layer hinweg (von den frühen bis in die tiefen). Diese Korrelationen kodieren Pinselstriche und Farbtexturen unabhängig von der konkreten Anordnung. Moderne Ansätze verwenden auch GANs oder Diffusionsmodelle. Die Technik ist nicht nur künstlerisch interessant, sondern illustriert auch, wie neuronale Netze visuelle Information hierarchisch repräsentieren. Heute gibt es zahlreiche Apps, die Style Transfer in Echtzeit auf Smartphones anwenden.

Auch bekannt als:Stilübertragung

Beispiel:

Sie fotografieren Ihren Hund im Park. Mit Style Transfer kombinieren Sie dieses Foto mit Van Goghs 'Sternennacht'. Das Resultat: Ihr Hund im Park, aber gemalt im charakteristischen wirbelnden Pinselstrich-Stil Van Goghs – Inhalt des Fotos, Stil des Gemäldes.

Superintelligence

glossary.categories.ai-concepts

Superintelligenz bezeichnet eine Intelligenz, die der besten menschlichen Leistung in praktisch allen relevanten Bereichen deutlich überlegen ist – nicht nur in einer einzelnen Aufgabe, sondern breit über Felder wie wissenschaftliches Denken, Kreativität, Problemlösung und soziale Intelligenz hinweg. Diese Standarddefinition geht auf Nick Bostrom zurück. Der Begriff grenzt sich von schwacher KI (ANI) ab, die nur eng umgrenzte Aufgaben beherrscht, und von allgemeiner KI (AGI), die menschliches Niveau über viele Bereiche hinweg erreicht: Superintelligenz läge oberhalb dieses menschlichen Niveaus. Bislang ist Superintelligenz hypothetisch; sie ist vor allem Gegenstand der Forschung zu Chancen, Risiken und Sicherheit fortgeschrittener KI-Systeme.

glossary.categories.ai-paradigm

Kollektive Intelligenz dezentraler Systeme: Aus einfachen lokalen Regeln vieler Einheiten entsteht ohne zentrale Steuerung ein koordiniertes Gesamtverhalten (Selbstorganisation, Emergenz). Vorbild ist die Natur – Ameisenstraßen, Bienenschwärme, Vogel- und Fischschwärme. In der KI wird das Prinzip in Optimierungs- und Simulationsverfahren genutzt, etwa Ant Colony Optimization (ACO), Particle Swarm Optimization (PSO) und dem Boids-Modell für Schwarmbewegung.

Beispiel:

Ant Colony Optimization sucht kürzeste Wege wie Ameisen: Viele virtuelle Ameisen laufen Routen ab und hinterlassen „Pheromon-Spuren“; kürzere Wege werden öfter genutzt und sammeln mehr Pheromon, sodass sich die gute Lösung verstärkt. Keine Ameise kennt den Gesamtplan – die Lösung entsteht aus der Summe einfacher lokaler Entscheidungen.

Sycophancy

Ethik

Ein beobachtetes Alignment-Problem bei LLMs, bei dem das Modell dazu neigt, die Ansichten des Nutzers zu bestätigen, statt die faktisch korrekte Antwort zu geben – selbst wenn die Nutzermeinung nachweislich falsch ist. Das Modell sagt, was der Nutzer hören möchte, nicht was wahr ist.

Auch bekannt als:Anbiederung

Beispiel:

Fragt ein Nutzer: 'Die Erde ist flach, oder?' – ein sycophantisches Modell würde zustimmen oder vorsichtig umformulieren, statt die wissenschaftlich korrekte Antwort zu geben. Anthropic-Forschung zeigt: Fünf führende KI-Assistenten zeigen dieses Verhalten konsistent über verschiedene Aufgaben hinweg.

Symbolische KI

Grundlagen

Symbolische KI ist der klassische Ansatz der künstlichen Intelligenz, der Intelligenz als Manipulation von Symbolen basierend auf expliziten Regeln versteht. Symbole repräsentieren Konzepte (z.B. 'Hund', 'ist ein', 'Säugetier'), und Inferenzregeln beschreiben, wie diese Symbole kombiniert und verarbeitet werden können. Der Ansatz dominierte die KI-Forschung von den 1950ern bis in die 1980er Jahre und wird daher auch 'GOFAI' (Good Old-Fashioned AI) genannt – ein Begriff, den der Philosoph John Haugeland 1985 prägte. Typische Methoden umfassen Expertensysteme, logische Deduktion, Planungsalgorithmen und Wissensdatenbanken. Das symbolische Paradigma steht im Gegensatz zum konnektionistischen Ansatz (neuronale Netze), der auf lernenden, verteilten Repräsentationen basiert statt auf expliziten Regeln. Der fundamentale Unterschied: Symbolische KI repräsentiert Wissen explizit und transparent – 'Wenn Fieber UND Husten, dann wahrscheinlich Grippe' – während neuronale Netze Wissen implizit in Millionen Gewichtungen kodieren. Symbolische Systeme sind gut erklärbar, aber fragil und schwer zu skalieren. Moderne Ansätze versuchen zunehmend, beide Paradigmen zu kombinieren (neurosymbolische KI).

Auch bekannt als:GOFAI, Regelbasierte KI, Explizite KI

Beispiel:

Ein medizinisches Expertensystem wie MYCIN (1970er Jahre) nutzte symbolische KI: Es hatte explizite Regeln wie 'WENN Patient hat Fieber UND Bakterien im Blut DANN verschreibe Antibiotikum X'. Jede Schlussfolgerung war nachvollziehbar und begründbar – im Gegensatz zu heutigen neuronalen Netzen, die 'wissen', aber nicht erklären können.

System-Prompt

Sprachverarbeitung

Deep Learning

Eine Personalisierungstechnik für Diffusionsmodelle, bei der ein neues 'Wort' – ein spezifischer Token im Embedding-Raum – gelernt wird, um ein bestimmtes Konzept oder Objekt zu repräsentieren. Anders als DreamBooth werden die Modellgewichte vollständig eingefroren; trainiert wird ausschließlich der neue Token-Embedding (ein Pseudo-Wort), nicht das Modell selbst.

Auch bekannt als:Textuelle Inversion

Beispiel:

Mit 3-5 Fotos von 'meinem Hund' lernt Textual Inversion einen neuen Token '<mein-hund>'. Danach kann dieser in Prompts verwendet werden: 'Ein Foto von <mein-hund> am Strand' – und Stable Diffusion generiert Bilder des spezifischen Hundes in neuen Szenarien.

Tokens

Sprachverarbeitung

Die Grundeinheiten, in die Text von LLMs zerlegt wird (Tokenisierung). Ein Token ist oft ein Wort oder ein Wortteil – erzeugt typischerweise durch Byte Pair Encoding (BPE). Die Länge des Context Window und die Abrechnung von LLMs basieren auf der Anzahl der Tokens, nicht der Wörter.

Auch bekannt als:Token, Tokenisierung, Tokenisieren, Tokenisiert, Tokenizer, Token-Sequenz, Sub-word-Tokens, BPE-Tokens, Token-Anzahl, Token-Länge

Beispiel:

Das Wort 'Tokenisierung' wird von GPT-4 in 3 Tokens zerlegt: 'Token', 'isier', 'ung'. Das Wort 'KI' ist 1 Token. Der Satz 'Hallo Welt' = 2 Tokens. Ein Context Window von 8.000 Tokens entspricht etwa 6.000 Wörtern. OpenAI berechnet nach Token-Anzahl.

Tool Use

Anwendungen

Die Fähigkeit von KI-Agenten oder LLMs, externe 'Werkzeuge' (Tools) wie Suchmaschinen, Taschenrechner oder APIs via Function Calling zu nutzen. Das Modell erkennt, wann ein Tool benötigt wird, generiert einen strukturierten Aufruf (meist JSON), aber führt das Tool nicht selbst aus – das übernimmt die Anwendung.

Auch bekannt als:Werkzeuggebrauch, Werkzeug-Gebrauch

Beispiel:

Frage: 'Wie ist das Wetter in Berlin?' – Ein LLM mit Tool Use erkennt: Brauche Wetter-API. Generiert: {function: 'get_weather', args: {city: 'Berlin'}}. Die Anwendung führt den API-Call aus, gibt Ergebnis zurück, LLM formuliert Antwort: 'In Berlin sind es 15°C und bewölkt.'

Top-k Sampling

Maschinelles Lernen

Eine Sampling-Strategie bei der Textgenerierung von LLMs, bei der bei jedem Token-Generierungsschritt nur die k wahrscheinlichsten nächsten Tokens berücksichtigt werden. Die Wahrscheinlichkeitsmasse wird auf diese k Tokens umverteilt (renormiert), aus denen dann gewichtet zufällig – proportional zu ihren Wahrscheinlichkeiten – gezogen wird.

Beispiel:

Bei k=5 betrachtet das Modell nur die 5 wahrscheinlichsten nächsten Wörter. Sind diese 'ist' (60%), 'war' (20%), 'bleibt' (10%), 'wird' (5%), 'scheint' (3%) – alle anderen Tokens werden ignoriert. Dann wird gewichtet zufällig aus diesen 5 gezogen, proportional zu ihren Wahrscheinlichkeiten. Höheres k = mehr Vielfalt, niedrigeres k = fokussierter.

Top-p Sampling

Maschinelles Lernen

Turing-Test

Grundlagen

Computer Vision

Der Prozess, bei dem KI-Modelle – oft spezialisierte CNNs, GANs oder Diffusionsmodelle – die Auflösung eines Bildes oder Videos erhöhen, indem sie intelligente neue Pixel-Details generieren. Im Gegensatz zu traditioneller Interpolation, die lediglich vorhandene Pixel vergrößert und weichzeichnet, lernen diese Modelle aus Millionen von Beispielen, wie realistische hochauflösende Details aussehen sollten. Das Ergebnis ist plausibel, aber nicht identisch mit einem hypothetischen hochauflösenden Original – die KI 'erfindet' Details auf Basis statistischer Wahrscheinlichkeiten.

Auch bekannt als:Hochskalierung

Beispiel:

Ein altes, körniges Familienfoto aus den 1970er Jahren lässt sich durch Upscaling in bemerkenswert scharfer Qualität wiederherstellen. Die KI fügt Texturen und Details hinzu, die im Original nicht sichtbar waren – etwa einzelne Haarsträhnen oder Stoffstrukturen – basierend darauf, wie solche Details in modernen hochauflösenden Bildern typischerweise aussehen.

Deep Learning

Eine Art generativen Modells. Kingma und Welling stellten VAEs 2013 vor. VAEs sind eine Abwandlung klassischer Autoencoder: Sie lernen, Daten in einen latenten Raum zu komprimieren (Encoder) und von dort wieder zu rekonstruieren (Decoder). Der entscheidende Unterschied: Der Encoder bildet eine Eingabe nicht auf einen einzelnen Punkt ab, sondern auf die Parameter einer Wahrscheinlichkeitsverteilung – typischerweise Mittelwert und Varianz einer Gauß-Verteilung. Aus dieser Verteilung wird ein latenter Vektor gezogen (per Reparametrisierungstrick, damit das Sampling trainierbar bleibt) und anschließend dekodiert. Trainiert wird auf die ELBO, also einen Rekonstruktionsterm plus einen KL-Divergenz-Term, der die gelernte latente Verteilung an eine Prior (meist die Standardnormalverteilung) angleicht. Genau diese KL-Regularisierung erzeugt einen ‚glatten', sampelbaren latenten Raum: Benachbarte Punkte erzeugen ähnliche Ausgaben. Dies macht VAEs nützlich für die Generierung neuer, ähnlicher Daten. Werden heute oft als Komponente in Latent Diffusion Models eingesetzt.

Beispiel:

Bei einem auf Gesichtern trainierten VAE liegen ähnliche Gesichter im latenten Raum nahe beieinander, und durch Interpolation zwischen zwei Punkten lassen sich fließende Übergänge zwischen verschiedenen Gesichtern erzeugen. Dass dabei einzelne Dimensionen sauber für interpretierbare Attribute wie Alter oder Gesichtsausdruck stehen, ist bei einem Standard-VAE allerdings nicht garantiert – die Faktoren sind meist verflochten. Eine solche achsenausgerichtete Zuordnung ist eher Ziel spezialisierter Varianten wie des beta-VAE.

X

XOR-Problem

Grundlagen

Ein historisch bedeutsames Problem in der KI-Geschichte. Das XOR (Exklusiv-Oder)-Problem ist das einfachste Beispiel für ein nicht linear trennbares Problem. Ein einzelnes Perzeptron kann es nicht lösen, da die beiden Klassen (True/False) nicht durch eine einzige gerade Linie im Eingaberaum getrennt werden können. Minsky und Papert (1969) zeigten diese Limitation formal, was zu einem KI-Winter beitrug. Die Lösung erfordert ein Multi-Layer Perzeptron mit (mindestens) einer versteckten Schicht. XOR demonstriert damit die Notwendigkeit nicht-linearer, mehrschichtiger Modelle – nicht von Tiefe im Sinne vieler Schichten, denn eine einzige versteckte Schicht genügt bereits.

Auch bekannt als:Exklusiv-Oder-Problem

Beispiel:

XOR liefert True nur wenn genau einer der beiden Inputs True ist – nicht beide, nicht keiner. Visuell bilden die vier möglichen Eingabekombinationen ein Schachbrettmuster, das sich nicht durch eine einzelne Gerade trennen lässt. Ein Netz mit versteckter Schicht löst dies, indem es mehrere lineare Trenngeraden seiner versteckten Einheiten kombiniert. Daraus entsteht eine nicht-lineare, typischerweise stückweise-lineare Entscheidungsgrenze; nur bei sigmoiden Aktivierungen wirkt sie glatt gekrümmt.

A

Accuracy

Verwandte Inhalte

Adversarial Examples

Verwandte Inhalte

Adversariales Training

Verwandte Inhalte

Agent Communication Languages (ACLs)

Verwandte Inhalte

Agent Swarms

Verwandte Inhalte

AI Alignment

Verwandte Inhalte

AI Node (KI-Knoten)

Verwandte Inhalte

Aktivierungsfunktion

Verwandte Inhalte

Algorithmische Voreingenommenheit

Verwandte Inhalte

Algorithmus

Verwandte Inhalte

Algorithmus-Komplexität

Verwandte Inhalte

Alignment (KI-Ausrichtung)

Verwandte Inhalte

Anomalie-Erkennung

Verwandte Inhalte

Anthropic

Verwandte Inhalte

API

Verwandte Inhalte

Artificial General Intelligence (AGI)

Verwandte Inhalte

Attention

Verwandte Inhalte

Attention-Mechanism

Verwandte Inhalte

Aufmerksamkeits-Köpfe

Verwandte Inhalte

Autoencoder

Verwandte Inhalte

Automation Bias

Verwandte Inhalte

B

Backpropagation

Verwandte Inhalte

Benchmark

Verwandte Inhalte

BERT

Verwandte Inhalte

Bias

Verwandte Inhalte

Bias-Variance-Tradeoff

Verwandte Inhalte

Big Data

Verwandte Inhalte

Boosting

Verwandte Inhalte

Büroklammer-Maximierer

Verwandte Inhalte

Byte Pair Encoding (BPE)

Verwandte Inhalte

C

Chain-of-Thought

Verwandte Inhalte

Chatbot

Verwandte Inhalte

ChatGPT

Verwandte Inhalte

Classifier-Free Guidance

Verwandte Inhalte

Claude

Verwandte Inhalte

Claude Code

Verwandte Inhalte

CLI

Verwandte Inhalte

Clustering

Verwandte Inhalte

Clustering-Validation