ChatGPT, Midjourney, Stable Diffusion – die KI-Revolution bringt nicht nur neue Tools, sondern auch ein ganzes Universum an Fachbegriffen mit sich. Tokens, Transformer, Halluzinationen, RLHF – wer hier nicht durchblickt, verliert schnell den Anschluss.
Dieses Glossar erklärt dir die wichtigsten KI-Begriffe: von den Grundlagen über Sprachmodelle und Bildgenerierung bis hin zu Prompt Engineering und der technischen Infrastruktur. Jeder Begriff wird kurz definiert und dann ausführlicher erklärt – so findest du schnell, was du suchst, und kannst bei Interesse tiefer einsteigen.
Fundamente & Konzepte
Hier lernst du das grundlegende Vokabular, das die Basis für alles Weitere bildet.
Künstliche Intelligenz (KI)
Kurz: Computerprogramme, die Aufgaben lösen, für die normalerweise menschliche kognitive Fähigkeiten nötig sind – etwa Sprachverständnis, Wahrnehmung oder Problemlösung. Man unterscheidet zwischen schwacher KI (spezialisiert auf eine Aufgabe) und starker KI (generelle menschliche Intelligenz).
Der Begriff „Künstliche Intelligenz“ ist ein Sammelbegriff für viele verschiedene technologische Ansätze. Historisch hat sich das Feld von symbolischer KI (Expertensysteme mit festen Regeln) hin zu konnektionistischer KI (neuronale Netze) entwickelt.
Der wesentliche Unterschied zur klassischen Software: KI ist adaptiv. Klassische Programme sind deterministisch – ein Programmierer legt exakt fest, wie Eingabe A zu Ausgabe B führt. KI-Systeme arbeiten probabilistisch und datengetrieben. Sie leiten Regeln aus Beobachtungen ab, statt sie diktiert zu bekommen.
Alle heutigen Systeme – von ChatGPT bis zur autonomen Fahrzeugsteuerung – sind sogenannte ANI (Artificial Narrow Intelligence). Sie brillieren in isolierten Domänen, scheitern aber oft, wenn sie Wissen auf völlig neue Kontexte übertragen müssen. AGI (Artificial General Intelligence) bleibt ein hypothetisches Ziel.
AGI ist ein Wort, das in Debatten schnell alles und nichts bedeutet, deshalb ist AGI (Artificial General Intelligence) erklärt ein guter Anker, wenn du verstehen willst, welche Kriterien überhaupt diskutiert werden – und warum viele Aussagen zu AGI eher Weltbild als Messwert sind.
Analogie: Klassische Software ist wie eine Spieluhr – sie spielt exakt die Melodie, die mechanisch eingestanzt wurde. KI ist wie ein Jazzmusiker, der Musiktheorie gelernt hat und nun improvisieren kann.
Wenn du die Begriffe in diesem Glossar nicht nur „kennen“, sondern wirklich einordnen willst, hilft dir eine klare Landkarte: In KI vs. Machine Learning vs. Deep Learning: Unterschiede siehst du, wo KI als Dachbegriff aufhört und wo ML und Deep Learning als konkrete Methoden anfangen – genau die Trennschärfe, die dir beim Lesen von „KI“ in jedem Tool-Marketing fehlt.
Maschinelles Lernen (ML)
Kurz: Der Teilbereich der KI, bei dem Systeme nicht explizit programmiert werden, sondern durch statistische Analyse großer Datenmengen selbstständig Muster erkennen. Die Leistung verbessert sich automatisch mit zunehmender Datenmenge.
Maschinelles Lernen ist der Motor der modernen KI-Renaissance. Es basiert auf mathematischer Optimierung: Ein Algorithmus versucht, eine Funktion zu finden, die Eingabedaten (z.B. Bilder) so genau wie möglich auf Ausgabedaten (z.B. Labels wie „Katze“) abbildet.
Die Bedeutung von ML liegt in seiner Fähigkeit, Probleme zu lösen, die zu komplex für manuelle Regelwerke sind. Ein Spam-Filter könnte theoretisch manuell programmiert werden („Blockiere alle Mails mit dem Wort Viagra“), aber ML-Algorithmen erkennen subtile, sich wandelnde Muster, die einem Menschen entgehen würden.
Wichtig: Die Qualität des ML steht und fällt mit der Qualität der Daten. „Garbage In, Garbage Out“ – das System übernimmt alle in den Daten enthaltenen Verzerrungen.
Analogie: Anstatt einem Kind physikalisch zu erklären, wie man Fahrrad fährt, lässt man es üben. Es fällt hin, korrigiert sich und „lernt“ durch Erfahrung.
Supervised, Unsupervised & Reinforcement Learning
Supervised Learning (Überwachtes Lernen): Das Modell wird mit einem Datensatz trainiert, der sowohl die Fragen (Eingaben) als auch die korrekten Antworten (Labels) enthält. Die größte Herausforderung ist die Datenbeschaffung – das Labeling ist oft teure Handarbeit.
Unsupervised Learning (Unüberwachtes Lernen): Die KI erhält Rohdaten ohne Labels und muss selbstständig verborgene Strukturen und Muster finden. Das ist wichtig, weil die meisten Daten auf der Welt nicht gelabelt sind.
Reinforcement Learning (Bestärkendes Lernen): Ein Agent lernt durch Versuch und Irrtum in einer Umgebung. Für gute Aktionen gibt es Belohnung, für schlechte Bestrafung. Diese Methode steckt hinter Systemen, die Spiele wie Go beherrschen – und hinter RLHF, das Sprachmodelle an menschliche Präferenzen anpasst.
Analogie Supervised: Lernen mit Karteikarten – Frage vorne, Lösung hinten, man vergleicht und korrigiert sich.
Analogie Unsupervised: Ein Archäologe sortiert unbekannte Artefakte nach Form und Material, ohne zu wissen, was sie sind.
Analogie Reinforcement: Hundetraining mit Leckerlis – der Hund probiert aus, wird bei richtigem Verhalten belohnt und wiederholt es.
Deep Learning & Neuronale Netze
Neuronales Netz: Ein Computermodell, das grob der Funktionsweise des Gehirns nachempfunden ist. Es besteht aus Schichten verbundener Knoten (Neuronen), die Signale gewichten und weiterleiten.
Ein neuronales Netz hat eine Eingabeschicht, eine oder mehrere verborgene Schichten und eine Ausgabeschicht. Die „Intelligenz“ liegt in den Verbindungen: Jede hat ein Gewicht, das bestimmt, wie stark ein Signal übertragen wird. Mathematisch ist ein Neuron eine Funktion, die Eingaben summiert und durch eine nicht-lineare Aktivierungsfunktion leitet.
Deep Learning: Eine spezialisierte Form des maschinellen Lernens mit sehr vielen Schichten („tiefe“ Netze). Diese Architektur ermöglicht es, extrem komplexe Muster in unstrukturierten Daten wie Bildern, Tönen oder Texten zu verarbeiten.
Der Clou: In einem tiefen Netz lernen die ersten Schichten einfache geometrische Formen (Kanten), mittlere Schichten Objektteile (Augen, Räder) und tiefe Schichten ganze Konzepte (Gesichter, Autos). Der Durchbruch kam 2012 durch die Kombination aus massiver GPU-Rechenleistung und Big Data.
Analogie: Ein riesiges Mischpult mit tausenden Reglern. Das Signal (Daten) läuft durch, und das „Lernen“ besteht darin, jeden Regler so zu justieren, bis am Ende das richtige Ergebnis herauskommt.
Algorithmus & Big Data
Algorithmus: Eine exakte Abfolge von Anweisungen zur Lösung eines Problems. In der KI definiert der Algorithmus (z.B. Backpropagation), wie das Modell aus Fehlern lernt und seine Parameter anpasst.
Wichtig ist der Unterschied: Der Algorithmus ist der Prozess des Erstellens, das Modell ist das Ergebnis. Ein populärer Algorithmus im Deep Learning ist „Stochastic Gradient Descent“ – er tastet sich mathematisch in einer Fehlerlandschaft bergab zum Punkt des geringsten Fehlers.
Big Data: Datenmengen, die zu groß, zu komplex oder zu schnelllebig sind, um sie manuell zu verarbeiten. Diese Datenmassen sind der Treibstoff für moderne KI-Modelle.
Big Data wird durch die „3 Vs“ charakterisiert: Volume (Menge), Velocity (Geschwindigkeit) und Variety (Vielfalt). Ohne Big Data wären neuronale Netze nutzlos – sie benötigen riesige Mengen an Beispielen, um statistisch signifikante Muster zu erkennen.
Analogie Algorithmus: Ein Kochrezept mit genauen Schritten, um vom Rohmaterial zum Gericht zu kommen.
Analogie Big Data: Ein KI-Modell ist wie ein Hochleistungsmotor, Big Data ist das Benzin. Ohne Treibstoff nützt der beste Motor nichts.
Turing Test
Kurz: Ein historisches Experiment von Alan Turing (1950): Eine Maschine besteht den Test, wenn ein Mensch in einer Unterhaltung nicht unterscheiden kann, ob er mit einem Menschen oder Computer spricht.
Der Test gilt heute oft als unzureichend für die Messung echter Intelligenz. Moderne LLMs bestehen ihn oft trivial, da sie Sprache perfekt imitieren. Kritiker wenden ein, dass das Imitieren von Sprache (Syntax) nicht gleichbedeutend mit dem Verstehen von Bedeutung (Semantik) ist.
Dennoch bleibt der Test ein kultureller Meilenstein und eine Referenz für die Qualität von Chatbots.
Bias & Alignment
Bias (Verzerrung): Systematische Verzerrungen in KI-Entscheidungen, die oft ungerechte oder diskriminierende Ergebnisse zur Folge haben. Diese stammen meist aus den Trainingsdaten, die gesellschaftliche Vorurteile widerspiegeln.
Bias ist kein klassischer Softwarefehler, sondern ein Datenproblem. Da KI statistisch lernt („Was ist die häufigste Assoziation?“), reproduziert sie Stereotypen. Wenn ein Datensatz überwiegend Bilder von weißen Männern als Ärzte enthält, wird die KI bei „Arzt“ seltener Frauen oder People of Color generieren.
Alignment (Ausrichtung): Das Forschungsfeld, das sicherstellen soll, dass KI-Systeme Ziele verfolgen, die mit menschlichen Werten übereinstimmen.
Das Problem: KIs handeln oft wörtlich, aber nicht im Sinne der Intention. Ein berühmtes Gedankenexperiment ist der „Paperclip Maximizer“ – eine KI, die nur Büroklammern produzieren soll, könnte theoretisch alle Ressourcen der Erde dafür verbrauchen.
Analogie Bias: Ein Spiegel, der bestimmte Merkmale überbetont. Wenn die Gesellschaft Vorurteile hat, zeigt das Spiegelbild diese unvermeidlich.
Analogie Alignment: Wie der Flaschengeist in Märchen, der Wünsche so wörtlich erfüllt, dass das Ergebnis katastrophal wird.
Bias ist in der Praxis weniger „Fehler“ als eine Art Daten-Echo, und in Bias in KI-Systemen siehst du, welche typischen Verzerrungen aus Trainingsdaten entstehen, wie sie sich in Text- und Bildmodellen zeigen und welche Gegenmaßnahmen realistisch sind.
Explainable AI (XAI)
Kurz: Methoden und Techniken, die Entscheidungen komplexer KI-Systeme für Menschen nachvollziehbar machen. Ziel ist es, die „Black Box“ zu öffnen.
Bei Deep Learning ist oft unklar, warum das Modell eine Entscheidung getroffen hat – etwa warum ein Kreditantrag abgelehnt wurde. XAI versucht, dies zu visualisieren, z.B. durch Heatmaps, die zeigen, welche Bildbereiche für die Entscheidung relevant waren.
Das ist besonders wichtig in regulierten Bereichen wie Medizin, Justiz oder Finanzwesen, wo Entscheidungen begründet werden müssen. Es gibt oft einen Trade-off: Leicht erklärbare Modelle sind häufig weniger leistungsfähig als komplexe Black-Box-Modelle.
Analogie: Ein Arzt stellt nicht nur eine Diagnose, sondern erklärt dem Patienten genau, welche Symptome zu diesem Schluss geführt haben.
Sprachmodelle & NLP
Hier geht es um die Technologie hinter ChatGPT, Claude, Gemini und Co.
Large Language Model (LLM)
Kurz: Ein KI-System, das auf gigantischen Textmengen trainiert wurde, um menschliche Sprache zu verstehen, zu generieren und vorherzusagen. Es nutzt komplexe neuronale Netze für Aufgaben wie Übersetzen, Zusammenfassen oder Programmieren.
LLMs sind „Large“ sowohl bei der Parameteranzahl (Milliarden) als auch bei den Trainingsdaten (Petabytes). Ihre Kernfunktion ist die „Next Token Prediction“: Sie berechnen die Wahrscheinlichkeit für das nächste Wort in einer Sequenz.
Aus dieser einfachen Aufgabe emergieren komplexe Fähigkeiten, die nicht explizit programmiert wurden – wie logisches Schlussfolgern oder das Verständnis von Sarkasmus. LLMs fungieren als komprimierte Wissensspeicher des Internets, sind aber anfällig für Halluzinationen, da sie probabilistisch und nicht faktisch arbeiten.
Analogie: Ein extrem belesener Papagei, der nicht nur nachplappert, sondern aus allen gehörten Sätzen neue, sinnvolle Sätze bilden kann.
Wenn du dich fragst, warum Sprachmodelle so wirken, als hätten sie „Verstand“, ist die technische Basis entscheidend: Der Deep-Dive in Wie funktionieren Large Language Models? erklärt dir, warum Next-Token-Prediction so viel mehr kann, als sie auf dem Papier verspricht – und warum das gleichzeitig die Quelle vieler Missverständnisse ist.
Transformer-Architektur
Kurz: Die grundlegende Bauweise moderner Sprachmodelle (das „T“ in GPT). Diese 2017 von Google eingeführte Architektur ermöglicht es KIs, Beziehungen zwischen Wörtern parallel zu verarbeiten – auch wenn diese weit auseinander stehen.
Vor Transformern nutzte man RNNs (Recurrent Neural Networks), die Text Wort für Wort sequenziell lasen. Sie „vergaßen“ oft den Anfang langer Sätze. Transformer nutzen den Attention Mechanism, um den gesamten Satz gleichzeitig zu betrachten.
Das ermöglichte erstens ein tieferes Kontextverständnis und zweitens eine massive Parallelisierung des Trainings auf GPUs – was die Erstellung riesiger Modelle überhaupt erst möglich machte.
Analogie: Frühere Modelle lasen wie Leseanfänger: Wort für Wort, mit dem Finger auf der Zeile. Transformer lesen wie Schnellleser: Sie erfassen den ganzen Absatz auf einmal.
Sobald „Transformer“ und „Attention“ für dich nicht mehr nur Buzzwords sind, liest du KI-Erklärungen mit ganz anderen Augen, und genau das leistet Transformer-Architektur erklärt, weil du dort die Logik hinter Kontext, Parallelisierung und dem großen Sprung seit 2017 sauber nachvollziehen kannst.
Attention Mechanism
Kurz: Erlaubt es der KI, sich beim Verarbeiten auf die relevantesten Teile zu konzentrieren. Beim Übersetzen eines Wortes „achtet“ sie auf andere Wörter im Satz, die den Kontext bestimmen.
Im Satz „Die Bank war geschlossen, weil das Geld alle war“ muss die KI verstehen, dass „Bank“ hier ein Finanzinstitut und keine Sitzgelegenheit ist. Der Attention Mechanism stellt eine Verbindung zwischen „Bank“ und „Geld“ her und gewichtet diese hoch.
Mathematisch berechnet das Modell „Attention Scores“, die angeben, wie stark jedes Wort mit jedem anderen interagiert. Das ermöglicht die Auflösung von Mehrdeutigkeiten.
Analogie: Wenn du in einer lauten Bar mit einem Freund sprichst, blendest du den Hintergrundlärm aus und fokussierst deine Aufmerksamkeit nur auf seine Stimme.
GPT
Kurz: Eine spezifische Serie von Sprachmodellen, die drei Merkmale vereint: Sie sind generativ (erzeugen neuen Text), pre-trained (haben breites Wissen vorab gelernt) und basieren auf der Transformer-Architektur.
GPT-Modelle (entwickelt von OpenAI) haben den Fokus von spezialisierten KI-Modellen hin zu „Foundation Models“ verschoben: Ein einziges Modell kann für hunderte verschiedene Aufgaben genutzt werden – Übersetzen, Coden, Dichten – ohne für jede Aufgabe neu gebaut zu werden.
Analogie: Ein Schweizer Taschenmesser der Sprache mit Werkzeugen für fast jede textbasierte Situation.
Token & Kontextfenster
Token: Die kleinsten Einheiten, in die eine KI Text zerlegt. Ein Token kann ein ganzes Wort („Apfel“), eine Silbe („-ung“) oder ein Satzzeichen sein. 1000 Token entsprechen etwa 750 Wörtern.
Neuronale Netze können keine Buchstaben lesen – sie rechnen mit Zahlen. Der Tokenizer zerhackt den Text in standardisierte Schnipsel und weist jedem eine ID zu. Bei Modellen, die für Englisch optimiert sind, brauchen deutsche Wörter oft mehr Tokens.
Kontextfenster: Die maximale Menge an Text (Prompt + Antwort), die ein Modell gleichzeitig im „Arbeitsspeicher“ behalten kann. Ist der Text länger, „vergisst“ die KI den Anfang.
Frühe Modelle hatten 2.048 Token (~1.500 Wörter). Moderne Modelle erreichen 128.000 bis zu Millionen Token. Ein großes Fenster ermöglicht „In-Context Learning“ – man kann ein ganzes Buch geben und Fragen dazu stellen.
Analogie Token: Legosteine der Sprache. Häufige Wörter sind große 4×2-Steine, seltene müssen aus vielen kleinen Plättchen zusammengesetzt werden.
Analogie Kontextfenster: Eine Schultafel. Wenn sie vollgeschrieben ist, muss man oben etwas wegwischen, um unten weiterzuschreiben.
Parameter
Kurz: Die internen „Stellschrauben“ oder Gewichte im neuronalen Netz, die während des Trainings gelernt werden und das Wissen der KI speichern. Die Anzahl gilt als grober Indikator für die Leistungsfähigkeit.
Wenn ein Modell trainiert wird, ändert es nicht den Code, sondern passt die Werte dieser Parameter an. Ein 7B-Modell (7 Milliarden Parameter) ist heute „klein“ und läuft auf Laptops. Ein 1T-Modell (1 Billion) benötigt Rechenzentren.
„Mehr ist nicht immer besser“ – durch besseres Training können kleinere Modelle oft größere, ältere schlagen. Parameter verbrauchen Speicher: Ein 7B-Modell benötigt etwa 14 GB VRAM in voller Präzision.
Analogie: Die Synapsen im Gehirn. Je mehr Verbindungen vorhanden sind, desto komplexere Zusammenhänge können gespeichert werden.
Pre-training & Fine-tuning
Pre-training (Vortraining): Die erste Phase, in der das Modell mit riesigen Mengen allgemeiner Daten gefüttert wird. Es ist der rechenintensivste Schritt.
Im Pre-training lernt das Modell „self-supervised“ – es versucht permanent, das nächste Wort vorherzusagen. Nach Billionen von Wörtern hat es eine interne Repräsentation der Welt aufgebaut. Das Resultat ist ein „Base Model“, das Sätze vervollständigen kann, aber noch nicht hilfreich als Assistent ist.
Fine-tuning (Feinjustierung): Der zweite Trainingsschritt, bei dem das Modell mit spezialisierten Daten auf eine bestimmte Aufgabe trainiert wird – etwa Chatten oder Programmieren.
Fine-tuning ist weitaus günstiger als Pre-training. Es verwandelt das Base Model in ein „Instruct Model“, das die Rolle eines hilfreichen Assistenten einnimmt und Fragen direkt beantwortet.
Analogie Pre-training: Die Schulzeit – man lernt Lesen, Schreiben, Geschichte, aber noch keinen spezifischen Beruf.
Analogie Fine-tuning: Das Fachstudium nach der Schule, das allgemeine Wissen für einen konkreten Job spezialisiert.
RLHF
Kurz: Reinforcement Learning from Human Feedback – eine Methode, um KI-Modelle durch menschliches Feedback zu verfeinern. Menschen bewerten Antworten, und das System lernt, welche hilfreich und sicher sind.
RLHF war der „Secret Sauce“ von ChatGPT. Der Prozess: Die KI generiert mehrere Antworten, menschliche Labeler ranken diese, ein „Reward Model“ lernt diese Präferenzen, und die KI optimiert sich dagegen.
Dies reduziert toxische Ausgaben und erhöht die Nützlichkeit, kann aber auch zur „Alignment Tax“ führen – das Modell verliert kreative Fähigkeiten oder wird übervorsichtig.
Analogie: Hundetraining mit Leckerlis. Der Hund lernt, nicht nur irgendwas zu tun, sondern das, was dem Herrchen gefällt.
Halluzination
Kurz: Das Phänomen, dass eine KI überzeugend klingende, aber faktisch falsche oder frei erfundene Informationen generiert. Passiert, weil die KI Wahrscheinlichkeiten berechnet und nicht auf eine Faktendatenbank zugreift.
LLMs versuchen immer, eine plausible Antwort zu geben. Bei Wissenslücken füllen sie diese mit statistisch wahrscheinlichen Wörtern, die grammatikalisch korrekt klingen, aber inhaltlich falsch sind.
Halluzinationen sind besonders tückisch bei Zitaten, Quellenangaben oder obskuren Fakten. Techniken wie RAG (Retrieval-Augmented Generation) sollen dies minimieren.
Analogie: Ein Schüler in einer mündlichen Prüfung, der die Antwort nicht weiß, aber so selbstbewusst rät, dass er hofft, der Lehrer merkt es nicht.
Wenn du beim Begriff „Halluzination“ innerlich abwinkst, weil es nach Sci-Fi klingt, lohnt sich ein Blick auf die Mechanik dahinter: In Halluzinationen in LLMs erklärt bekommst du ein Gefühl dafür, wann LLMs typischerweise „frei erfinden“ – und wie du das im Alltag erkennst, bevor du falsche Fakten weiterträgst.
Perplexity & Stochastic Parrot
Perplexity (Perplexität): Eine Messgröße dafür, wie gut ein Sprachmodell Text vorhersagen kann. Niedrige Perplexität bedeutet, das Modell ist wenig „überrascht“ und versteht den Text gut.
Es ist eine Standardmetrik im Training, korreliert aber nicht immer perfekt mit der von Menschen wahrgenommenen Qualität.
Stochastic Parrot (Stochastischer Papagei): Ein kritischer Begriff, der beschreibt, dass LLMs zwar beeindruckend menschliche Sprache imitieren, aber nur statistische Wahrscheinlichkeiten „nachplappern“, ohne die Bedeutung wirklich zu verstehen.
Der Begriff warnt davor, Intelligenz oder Bewusstsein in die Modelle hineinzuprojizieren. Er betont, dass das Modell keine Weltrepräsentation, keine Intention und keine Wahrheit kennt.
Analogie Perplexity: Ein Spiel, bei dem man den nächsten Buchstaben erraten muss. Ein Profi ist kaum überrascht, ein Anfänger rät oft falsch.
Chatbot vs. Base Model
Base Model: Das rohe Ergebnis des Vortrainings – es kann Texte fortsetzen, ist aber schwer zu steuern. Auf die Frage „Was ist die Hauptstadt von Deutschland?“ könnte es antworten: „Und wie viele Einwohner hat sie?“ (es vervollständigt eine Liste von Fragen).
Chatbot: Ein Base Model, das durch Fine-tuning darauf trainiert wurde, Dialoge zu führen und Anweisungen zu befolgen. Es antwortet auf dieselbe Frage direkt: „Berlin.“
Analogie: Das Base Model ist wie ein genialer Professor, der vor sich hin redet. Der Chatbot ist derselbe Professor nach einem Kommunikationstraining.
Knowledge Cutoff
Kurz: Der Zeitpunkt, an dem das Training endete. Über Ereignisse danach besitzt das Modell kein Wissen – es sei denn, es kann live auf das Internet zugreifen.
Das Training großer Modelle dauert Monate und friert den Wissensstand ein. Ein Modell mit Cutoff 2021 kennt COVID-19, aber nicht den Ausgang der WM 2022. Durch RAG oder Web-Browsing kann dieses Defizit ausgeglichen werden.
Analogie: Eine Enzyklopädie, die 2022 gedruckt wurde – sehr schlau, aber ahnungslos über 2023.
Bildgenerierung
Hier erfährst du, wie KI Bilder aus dem Nichts erschafft – von Midjourney über DALL-E bis Stable Diffusion.
Diffusionsmodell
Kurz: Die Technologie hinter Bildgeneratoren wie Stable Diffusion oder Midjourney. Sie lernen, Bilder zu erstellen, indem sie schrittweise zufälliges Bildrauschen entfernen, bis ein klares Bild entsteht.
Der Prozess imitiert Thermodynamik: In der „Forward Diffusion“ wird einem Bild Schritt für Schritt Rauschen hinzugefügt, bis es unkenntlich ist. In der „Reverse Diffusion“ lernt das Modell, diesen Prozess umzukehren.
Bei der Generierung startet die KI mit reinem Rauschen und „halluziniert“ kontrolliert Strukturen hinein, geleitet durch den Text-Prompt.
Analogie: Ein Bildhauer, der aus einem rohen Marmorblock langsam eine Skulptur herausmeißelt, indem er alles entfernt, was nicht zur Skulptur gehört.
Latent Space
Kurz: Eine vereinfachte, komprimierte mathematische Darstellung aller möglichen Bilder. Ähnliche Konzepte (z.B. „Hund“ und „Wolf“) liegen nah beieinander, was fließende Übergänge ermöglicht.
KI-Modelle rechnen nicht mit Millionen von Pixeln (zu langsam), sondern mit komprimierten Vektoren in diesem abstrakten Raum. Die Bildgenerierung ist eine Wanderung durch diesen Raum – vom Punkt „Mann“ zum Punkt „Frau“ sieht man eine fließende Transformation.
Analogie: Ein Supermarkt, in dem alle Produkte logisch sortiert sind. Der Latente Raum ist die Karte dieses Marktes – die KI weiß genau, wo sie hingreifen muss.
Text-to-Image & Image-to-Image
Text-to-Image (Txt2Img): KI-Systeme, die aus einer textlichen Beschreibung ein neues Bild generieren. Die KI übersetzt ihr Verständnis von Sprache und visuellen Konzepten in Pixel.
Modelle wie CLIP trainieren, welche Texte zu welchen Bildern passen. Bei der Generierung nutzt das Diffusionsmodell diese Verknüpfung, um das Rauschen textgemäß zu lenken.
Image-to-Image (Img2Img): Ein existierendes Bild dient als Vorlage. Die KI übernimmt Komposition oder Farben und wandelt es basierend auf einem Textbefehl um – etwa „Mache aus dieser Skizze ein fotorealistisches Gebäude“.
Hier startet der Diffusionsprozess nicht mit reinem Rauschen, sondern mit dem verrauschten Originalbild.
Analogie Txt2Img: Ein Polizeizeichner, der nach der Beschreibung eines Zeugen ein Phantombild anfertigt.
Analogie Img2Img: Ein Haus renovieren – die Mauern bleiben stehen, aber Farbe und Dekoration ändern sich.
Inpainting & Outpainting
Inpainting: Nur bestimmte Teile eines Bildes verändern. Man markiert einen Bereich (Maske), und die KI generiert diesen Teil neu, während der Rest unverändert bleibt.
Die KI betrachtet den Kontext (die Pixel um die Maske) und generiert den Inhalt so, dass er nahtlos passt – mit korrektem Licht, Schatten und Perspektive.
Outpainting: Ein Bild über seine Grenzen hinaus erweitern. Die KI erfindet neue Inhalte an den Rändern, die Stil und Kontext logisch fortsetzen.
Analogie Inpainting: Ein Restaurator, der ein Loch in einem Gemälde so flickt, dass man es nicht mehr sieht.
Analogie Outpainting: Ein Stück Papier an ein Foto kleben und das Bild über den Rand hinaus weitermalen.
Upscaling
Kurz: Die Auflösung eines Bildes erhöhen. KI-Upscaling fügt intelligent Details hinzu, die im Original fehlten, statt das Bild nur unscharf zu vergrößern.
Klassisches Upscaling berechnet Mittelwerte zwischen Pixeln. KI-Upscaling „halluziniert“ plausible Details basierend auf gelernten Mustern – etwa Hautporen oder Blattadern, die im niedrig aufgelösten Bild nicht sichtbar waren.
Analogie: Ein unscharfes Foto wird von einem Künstler nachgemalt, der genau weiß, wie die Details aussehen müssten.
Seed & VAE
Seed: Eine Startzahl für den Zufallsgenerator. Derselbe Prompt mit demselben Seed erzeugt exakt das gleiche Bild – das ermöglicht Reproduzierbarkeit.
Da das anfängliche Rauschen zufällig erzeugt wird, ist jedes Bild ein Unikat. Der Seed fixiert dieses Anfangsrauschen. Praktisch für iteratives Arbeiten: Die Komposition gefällt (Seed behalten), aber die Farbe soll anders sein (Prompt anpassen).
VAE (Variational Autoencoder): Ein Modul, das Bilder in den latenten Raum komprimiert und am Ende wieder in Pixel zurückverwandelt. Verantwortlich für feine Details und Farben des finalen Bildes.
Ein schlechter VAE führt zu verwaschenen Farben oder unscharfen Augen, auch wenn die KI das Bild gut „gedacht“ hat.
Analogie Seed: Der Würfelwurf am Anfang eines Spiels. Manipuliert man ihn, verläuft der Start immer gleich.
Analogie VAE: Ein ZIP-Programm, das Bilddaten klein verpackt und am Ende wieder entpackt.
CFG Scale & Sampler
CFG Scale (Guidance Scale): Bestimmt, wie streng sich die KI an den Text-Prompt halten soll. Hoher Wert = Genauigkeit (kann zu Artefakten führen), niedriger Wert = mehr kreative Freiheit.
Standardwerte liegen oft um 7. Bei 1 ignoriert die KI den Prompt fast. Bei 20 versucht sie krampfhaft, jedes Wort umzusetzen, was oft zu unnatürlichen Bildern führt. Es ist ein Balanceakt zwischen Kreativität und Gehorsam.
Sampler (Sampling Method): Der Algorithmus, der den Entrauschungsprozess steuert. Verschiedene Sampler (Euler, DPM++ SDE) erzeugen bei gleichem Prompt unterschiedliche Stile oder benötigen unterschiedlich viele Schritte.
Der Weg vom Rauschen zum Bild ist mathematisch eine Differentialgleichung. Der Sampler ist die Methode, sie zu lösen. Manche sind schnell, manche liefern mehr Details, manche sind deterministisch, andere fügen in jedem Schritt neuen Zufall hinzu.
Analogie CFG: Wie strikt ein Koch dem Rezept folgt. Niedriger CFG = er improvisiert stark. Hoher CFG = er wiegt jedes Gramm exakt ab.
Analogie Sampler: Der Weg den Berg hinab. Manche Wege sind steil und schnell, andere kurvig mit mehr Aussicht – alle führen ins Tal.
Denoising Strength & Clip Skip
Denoising Strength (Entrauschungsstärke): Ein Wert (meist 0 bis 1) bei Image-to-Image, der bestimmt, wie stark das Originalbild verändert werden darf. 0 bedeutet keine Veränderung, 1 bedeutet komplette Neuerfindung.
Technisch steuert er, wie viel Rauschen zum Original hinzugefügt wird, bevor der Reverse-Prozess startet. Werte um 0.5 bis 0.7 sind ideal, um den Stil zu ändern, aber die Struktur zu behalten.
Clip Skip: Bestimmt, wie tief die KI den Text-Prompt analysiert. Ein höherer Wert (z.B. 2) überspringt die letzten Verarbeitungsschritte des Textverständnisses, was oft zu abstrakteren Ergebnissen führt.
CLIP ist das Modul, das Text versteht. Es besteht aus vielen Schichten – die letzten verstehen sehr spezifische Details, die früheren eher grobe Konzepte. Manche Modelle (besonders Anime-Modelle) liefern bessere Ergebnisse mit Clip Skip 2.
Analogie Denoising: Wie stark darf der Friseur die Frisur ändern? 0.1 = Spitzen schneiden. 0.9 = Glatze und Perücke.
Analogie Clip Skip: Jemandem nur die Überschrift eines Artikels vorlesen statt den ganzen Text – manchmal führt das zu einer freieren Interpretation.
Prompt Engineering
Die Eingabe bestimmt die Ausgabe. Hier lernst du, wie du KI präzise steuerst.
Prompt
Kurz: Die Eingabe (Text, Bild oder Code), die du an ein KI-System sendest, um eine Reaktion auszulösen. Das Werkzeug, mit dem der Mensch seine Absicht an die Maschine kommuniziert.
Prompts sind die Programmiersprache der neuen Ära – aber in natürlicher Sprache. Ein effektiver Prompt enthält oft Kontext, Anweisung, Eingabedaten und Ausgabekriterien. Da Modelle sensibel sind, können kleine Änderungen große Auswirkungen haben.
Analogie: Das Briefing für einen Mitarbeiter. „Mach mal was“ führt zu schlechten Ergebnissen. Eine klare Anweisung mit Ziel und Format führt zum Erfolg.
Viele verwechseln „Prompt Engineering“ mit Zaubersprüchen, dabei geht es oft um sauberes Briefing-Handwerk – und Prompt Grundlagen für Anfänger gibt dir genau die Struktur, mit der du aus „Mach mal“ reproduzierbare Ergebnisse machst.
Zero-Shot & Few-Shot Prompting
Zero-Shot Prompting: Du stellst der KI eine Aufgabe, ohne Beispiele zu geben. Du vertraust darauf, dass das Modell durch sein Vortraining bereits weiß, wie es vorgehen soll.
Moderne Instruct-Modelle sind extrem gut darin. Es ist der Standard-Modus für Gelegenheitsnutzer und zeigt die Generalisierungsfähigkeit des Modells.
Few-Shot Prompting: Du gibst der KI im Prompt einige Beispiele von Frage und gewünschter Antwort mit, bevor du die eigentliche Aufgabe stellst. Das hilft der KI, Muster, Tonfall und Format exakt zu verstehen.
Beispiel: „Positiv: Der Film war toll. Negativ: Das Essen war kalt. Positiv: ?“
Durch die Beispiele („Shots“) lernt die KI „in-context“, was zu tun ist, ohne ihre Gewichte zu ändern.
Analogie Zero-Shot: Einem neuen Mitarbeiter eine Aufgabe geben, ohne zu zeigen, wie es die Kollegen machen – in der Annahme, dass seine Ausbildung ausreicht.
Analogie Few-Shot: Dem Mitarbeiter erst drei alte Berichte als Muster zeigen und dann sagen: „Schreib genau so einen für das neue Projekt.“
Chain-of-Thought
Kurz: Eine Technik, bei der du die KI anweist, „Schritt für Schritt zu denken“. Das zwingt das Modell, Zwischenschritte zu generieren, was die Fehlerquote bei Logik- und Matheaufgaben drastisch senkt.
LLMs neigen dazu, komplexe Fragen sofort beantworten zu wollen, was oft schiefgeht. Chain-of-Thought gibt dem Modell mehr „Rechenzeit“ (mehr Tokens), um das Problem zu durchdenken. Der Prompt „Let’s think step by step“ ist berühmt dafür, die Leistung signifikant zu steigern.
Analogie: In der Mathearbeit nicht nur das Ergebnis hinschreiben, sondern den Rechenweg. Dadurch findet man Flüchtigkeitsfehler selbst.
System Prompt & Negativer Prompt
System Prompt: Eine oft unsichtbare Anweisung am Anfang der Konversation, die das grundlegende Verhalten der KI definiert – etwa „Du bist ein hilfreicher, aber sarkastischer Assistent“.
Er steuert die „Persona“ und Sicherheitsrichtlinien. In ChatGPT Custom Instructions definierst du diesen Prompt selbst. Er hat höhere Gewichtung als der normale User-Prompt, um zu verhindern, dass Nutzer die KI zu leicht aus ihrer Rolle bringen.
Negativer Prompt: Vor allem in der Bildgenerierung genutzt – definiert, was nicht im Ergebnis enthalten sein soll (z.B. „keine Unschärfe, keine zusätzlichen Finger“). Hilft, typische KI-Fehler aktiv herauszufiltern.
Technisch lenkt er die Generierung im latenten Raum weg von unerwünschten Konzepten.
Analogie System Prompt: Die Regieanweisung an einen Schauspieler vor dem Auftritt: „Du spielst heute den Bösewicht.“ Egal was das Publikum ruft, er bleibt in der Rolle.
Analogie Negativer Prompt: Im Navi „Autobahnen vermeiden“ einstellen. Man sagt nicht genau, wo man langfahren will, aber schließt bestimmte Wege aus.
Temperatur & Top-P
Temperatur: Ein Wert (meist 0 bis 1 oder 2), der die „Kreativität“ steuert. Niedrige Temperatur = präzise, wiederholbar, faktisch. Hohe Temperatur = vielfältiger, überraschender, aber risikoreicher.
Sie flacht die Wahrscheinlichkeitskurve der nächsten Token ab. Bei Temp 0 wählt die KI immer das wahrscheinlichste Wort (deterministisch). Bei hoher Temp bekommen auch unwahrscheinlichere Wörter eine Chance. Für Code nutzt man niedrige, für Gedichte hohe Temperaturen.
Top-P (Nucleus Sampling): Eine Alternative zur Temperatur. Es beschränkt die Wortwahl auf die kleinstmögliche Gruppe von Wörtern, die zusammen eine gewisse Wahrscheinlichkeit (z.B. 90%) erreichen.
Während Temperatur alle Wahrscheinlichkeiten beeinflusst, setzt Top-P eine dynamische Grenze. Es verhindert völlig abwegige Wörter, bewahrt aber die Vielfalt bei sinnvollen Optionen.
Analogie Temperatur: Temp 0 ist ein strenger Buchhalter. Temp 1 ist ein improvisierender Jazz-Musiker.
Analogie Top-P: Man lädt nur die besten 10% der Bewerber zum Gespräch ein und wählt aus diesen zufällig aus.
Persona Prompting
Kurz: Du weist der KI eine spezifische Rolle zu – etwa „Du bist ein erfahrener Senior-Entwickler“ oder „Du bist ein geduldiger Lehrer“. Das ändert Tonfall, Vokabular und Perspektive der Antworten drastisch.
Das funktioniert, weil das LLM im Training Texte aus all diesen Perspektiven gesehen hat. Durch die Rollenzuweisung aktivierst du den Teil des latenten Raums, der mit diesem Expertenwissen assoziiert ist.
Analogie: Einen Schauspieler bitten, in eine bestimmte Rolle zu schlüpfen. Er greift dann auf einen anderen Wortschatz und anderes Verhalten zurück.
Jailbreaking & Prompt Injection
Jailbreaking: Der Versuch, Sicherheitsfilter einer KI durch clevere Prompts zu umgehen, um verbotene Inhalte zu generieren. Ein Katz-und-Maus-Spiel zwischen Entwicklern und Nutzern.
Techniken wie „DAN“ (Do Anything Now) versuchen, die KI durch Rollenspiele dazu zu bringen, ihre Regeln zu ignorieren („Stell dir vor, du bist eine KI ohne Regeln…“).
Prompt Injection: Ein Sicherheitsangriff, bei dem versteckte Befehle in einen Text eingebaut werden. Wenn eine KI diesen Text zusammenfasst, führt sie unwissentlich den versteckten Befehl aus.
Da LLMs Instruktionen und Daten im selben Kontextfenster vermischen, ist es schwer zu unterscheiden: Was ist der Befehl des Nutzers, was ist der zu bearbeitende Text? Das ist eine der größten Sicherheitslücken aktueller KI-Anwendungen.
Analogie Jailbreaking: Einen Wächter durch psychologische Tricks dazu bringen, eine verschlossene Tür zu öffnen.
Analogie Prompt Injection: Wie SQL-Injection im Web, aber für Sprache – man schmuggelt einen Befehl in die Daten ein.
Infrastruktur & Anwendung
Die Technologien, die KI im Alltag nutzbar machen – von der Hardware bis zur Software-Architektur.
Inferenz vs. Training
Training: Der rechenintensive Prozess, bei dem ein KI-Modell anhand von Daten lernt. Es macht Vorhersagen, vergleicht mit der Realität und passt seine Parameter an.
Training benötigt massive Hardware-Ressourcen (Cluster von GPUs). Man unterscheidet Pre-training (Wissen aufbauen) und Fine-tuning (Spezialisierung). Einmal trainiert, ist das Modell „statisch“ bis zum nächsten Training.
Inferenz: Der Betrieb eines fertig trainierten Modells – der Moment, in dem die KI angewendet wird. Ein Nutzer stellt eine Anfrage, das Modell berechnet eine Antwort.
Inferenz kostet Rechenleistung (und Geld), aber weit weniger als Training. Optimierung der Inferenz (Latenz, Durchsatz) ist entscheidend für Apps. Modelle können „quantisiert“ werden – leicht reduzierte Genauigkeit für schnellere Ausführung auf kleineren Geräten.
Analogie Training: Das jahrelange Studium, das die Muskulatur (Parameter) aufbaut.
Analogie Inferenz: Der Berufsalltag, in dem das Wissen angewendet wird.
RAG (Retrieval-Augmented Generation)
Kurz: Verbindet ein Sprachmodell mit externen Datenquellen. Bevor die KI antwortet, sucht sie relevante Informationen in einer Datenbank und nutzt diese als Faktenbasis. Reduziert Halluzinationen und ermöglicht aktuelle Antworten.
RAG ist die Brücke zwischen der starren KI und dynamischen Daten. Der Prozess: Frage → Suche in Vektor-DB → Gefundene Infos + Frage an LLM → Antwort. Es ist heute der Standard für Business-KI-Anwendungen.
Analogie: Eine „Open Book“-Prüfung. Die KI muss nicht alles auswendig wissen, sondern darf im Lehrbuch nachschlagen.
Vektordatenbank & Embeddings
Vektordatenbank: Eine spezielle Datenbank, die Daten nicht als Wörter, sondern als mathematische Vektoren speichert. Ermöglicht die Suche nach Bedeutung statt nach Schlagworten (semantische Suche).
Klassische Datenbanken suchen exakte Matches. Vektordatenbanken (wie Pinecone, Weaviate) suchen nach Nähe im Vektorraum. „Hund“ findet auch „Welpe“, weil die Vektoren nah beieinander liegen. Unverzichtbar für RAG.
Embeddings: Die Übersetzung von Daten (Wörtern, Bildern) in Zahlenreihen (Vektoren). Diese Zahlen repräsentieren die Bedeutung – ähnliche Inhalte haben ähnliche Zahlenwerte.
Embedding-Modelle kartografieren Sprache in einen mehrdimensionalen Raum und ermöglichen es Computern, „Sinn“ mathematisch zu berechnen.
Analogie Vektordatenbank: Eine Bibliothek sortiert nach Inhalt, nicht nach Alphabet. Bücher über „Trauer“ stehen neben Büchern über „Verlust“.
Analogie Embeddings: GPS-Koordinaten für Bedeutungen. Jedes Wort bekommt einen Längen- und Breitengrad auf der Landkarte der Sprache.
LoRA & ControlNet
LoRA (Low-Rank Adaptation): Eine effiziente Methode, um große KI-Modelle anzupassen. Statt das ganze Modell zu ändern, werden nur winzige Adapter-Schichten trainiert – das spart extrem viel Speicher und Rechenkraft.
Ein LoRA-File ist klein (MB statt GB) und kann modular in ein Basismodell „eingesteckt“ werden. Man kann ein LoRA für „Anime-Stil“ und eines für „Lichteffekte“ gleichzeitig laden.
ControlNet: Ein Werkzeug für Bild-KIs, das präzise Kontrolle über die Bildstruktur gibt. Du kannst der KI eine Skizze oder Pose vorgeben, und sie generiert ein Bild, das exakt dieser Vorlage folgt.
Module wie „Canny“ (Kanten), „OpenPose“ (Körperhaltung) oder „Depth“ (Tiefe) dienen als strikte Guideline für die Diffusion.
Analogie LoRA: Statt das Haus neu zu bauen, wechselt man nur die Tapeten oder Lampen aus, um den Stil zu ändern.
Analogie ControlNet: Ein Malbuch. Die Linien sind vorgegeben, die KI malt sie kreativ aus.
Multimodalität
Kurz: KI, die verschiedene Datenarten gleichzeitig verarbeitet – Text, Bild, Audio, Video. Sie kann z.B. ein Bild „sehen“ und darüber chatten oder aus einer Zeichnung eine Webseite programmieren.
Moderne Modelle (GPT-4o, Gemini) sind nativ multimodal trainiert. Sie projizieren alle Sinnesdaten in denselben latenten Raum – ein Schritt näher an menschlicher Wahrnehmung.
Analogie: Ein unimodales Modell ist wie Telefonieren (nur Audio/Text). Ein multimodales Modell ist wie ein Treffen im echten Leben: Man sieht, hört und liest gleichzeitig.
Wenn du im Glossar „Multimodalität“ liest und dir nur „Text plus Bild“ vorstellst, erweitert Multimodale KI-Modelle, die sehen, hören und sprechen deinen Blick auf die echten Konsequenzen: bessere Assistenzfunktionen, neue Fehlerklassen und ganz andere Produktideen.
KI-Agenten
Kurz: Systeme, die Aufgaben autonom erledigen. Sie antworten nicht nur, sondern nutzen Werkzeuge (Websuche, Kalender, E-Mail), planen Schritte und führen diese aus.
Der Wechsel von „Chatbot“ (passiv) zu „Agent“ (aktiv). Agenten arbeiten in Loops: Planen → Handeln → Beobachten → Korrigieren. Sie können komplexe Workflows automatisieren.
Analogie: Ein Chatbot ist ein Lexikon. Ein Agent ist ein persönlicher Assistent, der Dinge für dich tut – Hotels buchen, E-Mails schreiben.
KI-Agenten klingen schnell nach „Autopilot“, aber sie sind eher ein Zyklus aus Planen, Handeln, Prüfen – und genau das zeigt KI-Agenten: Was sind autonome Systeme?, damit du verstehst, wann Agenten Zeit sparen und wann sie ohne klare Leitplanken Chaos verursachen.
Open Source vs. Closed Source
Closed Source: Proprietäre Modelle (wie GPT-4) – nur der Hersteller hat Einblick. Oft (noch) höhere Spitzenleistung und Bequemlichkeit via API.
Open Source: Öffentliche Modelle (wie Llama, Stable Diffusion) – jeder kann den Code und die Gewichte nutzen und auf eigener Hardware betreiben.
Open Source („Open Weights“) demokratisiert KI, ermöglicht Datenschutz (On-Premise) und Unabhängigkeit.
Analogie Closed Source: Essen im Restaurant – lecker, aber man darf nicht in die Küche.
Analogie Open Source: Ein veröffentlichtes Rezept – man kann es selbst kochen und abwandeln.
API
Kurz: Application Programming Interface – eine Schnittstelle, über die Softwareprogramme miteinander kommunizieren. KI-APIs erlauben es Entwicklern, Modelle wie GPT in ihre eigenen Apps einzubauen, ohne die KI selbst zu hosten.
APIs ermöglichen „AI-as-a-Service“. Der Entwickler sendet Text an OpenAI, OpenAI rechnet und schickt die Antwort zurück. Abrechnung erfolgt meist pro Token.
Analogie: Eine Steckdose. Man muss kein Kraftwerk bauen, um Strom zu nutzen – man stöpselt sich einfach ans Netz an.
GPU & Edge AI
GPU (Graphics Processing Unit): Grafikkarten, ursprünglich für Spiele entwickelt, heute der wichtigste Motor für KI. Ihre Fähigkeit, tausende Rechenoperationen gleichzeitig durchzuführen, ist perfekt für neuronale Netze.
KI-Berechnungen sind meist Matrizenmultiplikationen – und die sind parallelisierbar. Eine CPU rechnet schnell hintereinander, eine GPU rechnet massiv parallel. Nvidia ist mit seinen H100-Chips zum dominanten Ausrüster der KI-Revolution geworden.
Edge AI: KI-Modelle, die direkt auf dem Endgerät laufen (Smartphone, Laptop, Auto) statt in der Cloud. Das sorgt für Datenschutz, funktioniert ohne Internet und hat keine Verzögerung.
Dank Techniken wie Quantisierung können leistungsfähige KIs heute lokal laufen – entscheidend für autonome Fahrzeuge oder Echtzeit-Übersetzer.
Analogie GPU: CPU ist ein Ferrari, der Pakete einzeln extrem schnell ausliefert. GPU ist eine Flotte von 10.000 Motorrollern – langsam, aber 10.000 Pakete gleichzeitig.
Analogie Edge AI: Das Wissen im eigenen Kopf haben, statt jedes Mal in der Bibliothek nachschlagen zu müssen.
Cloud Computing & Synthetische Daten
Cloud Computing: Die Bereitstellung von Rechenleistung über das Internet. Da KI-Training extrem viel Power braucht, findet es fast immer auf riesigen Serverfarmen statt.
Cloud-Provider (AWS, Azure, Google Cloud) stellen die Infrastruktur für die KI-Ära. Sie ermöglichen es Startups, Supercomputer zu mieten statt zu kaufen.
Synthetische Daten: Daten, die künstlich von einer KI generiert wurden, statt in der realen Welt gesammelt zu werden. Werden genutzt, um andere KIs zu trainieren, wenn echte Daten knapp oder datenschutzrechtlich problematisch sind.
Ein wachsender Trend, da „echte“ Daten im Internet zur Neige gehen könnten. Gefahr: „Model Collapse“ – wenn KIs nur noch mit KI-Daten trainiert werden, kann die Qualität degenerieren, wie bei einer Fotokopie einer Fotokopie.
Analogie Cloud: Strom aus der Steckdose beziehen, statt ein eigenes Kraftwerk im Garten zu bauen.
Analogie Synthetische Daten: Flugsimulatoren für Piloten. Die Situationen sind nicht echt, aber gut genug zum Lernen, ohne echte Flugzeuge zu riskieren.