Large Language Models wie ChatGPT, Gemini oder Claude wirken oft wie Magie. Du stellst eine Frage, und Sekunden später kommt eine Antwort, die klingt, als hätte ein Mensch sie geschrieben. Doch hinter dieser scheinbaren Intelligenz steckt keine mysteriöse Blackbox – sondern eine faszinierende Kombination aus Mathematik, Statistik und cleverer Architektur.
Die kurze Antwort: Ein LLM ist im Kern eine gigantische Vorhersagemaschine. Es berechnet für jedes Wort, das es ausgibt, die Wahrscheinlichkeit, welches Wort als nächstes am besten passt. Dass dabei etwas entsteht, das sich wie Verstehen anfühlt, ist ein Nebeneffekt davon, dass das Modell Milliarden von Texten analysiert hat – und dabei implizit Grammatik, Weltwissen und sogar logisches Denken gelernt hat.
In diesem Artikel erfährst du Schritt für Schritt, was unter der Haube passiert: Vom ersten Buchstaben, den das Modell liest, bis zur fertigen Antwort auf deinem Bildschirm.
Von Text zu Zahlen: Tokenisierung und Embeddings
Bevor ein LLM irgendetwas mit deinem Text anfangen kann, steht es vor einem grundlegenden Problem: Neuronale Netze rechnen mit Zahlen, nicht mit Buchstaben. Der Text muss also übersetzt werden – und zwar in zwei Schritten.
Wie ein LLM Text in Token zerlegt
Viele stellen sich vor, dass ein LLM einfach Wort für Wort liest. Das stimmt nicht ganz. Stattdessen zerlegt ein sogenannter Tokenizer den Text in kleinere Einheiten – die Token.
Ein Token kann ein ganzes Wort sein („Apfel“), ein Wortteil („lauf“ + „en“) oder sogar ein einzelnes Zeichen. Welche Zerlegung gewählt wird, hängt davon ab, wie häufig ein Wort in den Trainingsdaten vorkommt. Häufige Wörter bleiben ganz, seltene werden in Teile zerlegt.
Der Grund dafür ist Effizienz. Jedes Modell hat ein begrenztes Kontextfenster – also eine maximale Anzahl an Token, die es gleichzeitig verarbeiten kann. Je kompakter die Zerlegung, desto mehr Inhalt passt hinein. Moderne Tokenizer nutzen dafür statistische Verfahren wie Byte-Pair Encoding (BPE), das automatisch die optimale Balance zwischen Kompaktheit und Genauigkeit findet.
Embeddings: Wörter als Punkte im Raum
Nach der Tokenisierung hat das Modell eine Liste von Token-IDs – also Ganzzahlen. Doch eine nackte Zahl sagt nichts über Bedeutung aus. Deshalb folgt der entscheidende Schritt: Jedes Token wird in einen Embedding-Vektor umgewandelt.
Stell dir einen riesigen, mehrdimensionalen Raum vor – aktuelle Modelle arbeiten mit 4.096 bis über 16.000 Dimensionen. Jedes Wort bekommt in diesem Raum eine Position zugewiesen. Und hier wird es spannend: Wörter mit ähnlicher Bedeutung landen nah beieinander.
„Hund“ und „Katze“ liegen in diesem Raum dicht zusammen – beides sind Haustiere und Säugetiere. „Hubschrauber“ liegt weit entfernt. Man kann mit diesen Vektoren sogar rechnen: Nimm den Vektor für „König“, zieh „Mann“ ab, addiere „Frau“ – und du landest fast exakt bei „Königin“.
Der entscheidende Unterschied zu älteren Systemen: In einem modernen LLM sind Embeddings kontextabhängig. Das Wort „Bank“ bekommt in „Ich sitze auf der Bank“ eine völlig andere mathematische Repräsentation als in „Ich überweise Geld an die Bank“. Das Modell versteht also nicht nur Wörter, sondern Wörter in ihrem Zusammenhang.
Das Grundprinzip: Next Token Prediction
Das fundamentale Trainingsziel eines LLM ist verblüffend simpel: Vorhersage des nächsten Tokens.
Gegeben eine Reihe von Wörtern, berechnet das Modell für jedes mögliche nächste Wort in seinem Vokabular (oft über 100.000 Einträge) eine Wahrscheinlichkeit. Welches Wort folgt am wahrscheinlichsten auf „Die Hauptstadt von Frankreich ist…“? Das Modell sagt: „Paris“ – mit sehr hoher Wahrscheinlichkeit.
Das klingt trivial, aber genau hier liegt der Trick. Um diese Vorhersage zuverlässig zu treffen, muss das Modell enorm viel implizit lernen:
- Um geografische Fragen zu beantworten, muss es Geografie verstehen.
- Um einen Roman fortzusetzen, muss es Grammatik, Stil und menschliche Emotionen erfassen.
- Um Code zu vervollständigen, muss es Programmierlogik beherrschen.
Das Modell speichert dieses Wissen nicht in einer Datenbank. Es lernt es als Gewichte in seinen neuronalen Verbindungen – Milliarden von Zahlenwerten, die gemeinsam die Wahrscheinlichkeitsverteilung beeinflussen. Intelligenz entsteht hier als Nebeneffekt der Kompression von Weltwissen in die Parameter des Modells.
Die Transformer-Architektur im Detail
Seit dem bahnbrechenden Paper „Attention Is All You Need“ aus dem Jahr 2017 basieren praktisch alle großen Sprachmodelle auf der Transformer-Architektur. Auch 2026 bildet sie das Fundament – wenn auch mit erheblichen Weiterentwicklungen.
Self-Attention: Wie das Modell Zusammenhänge erkennt
Vor dem Transformer verarbeiteten Sprachmodelle Text Wort für Wort, streng nacheinander. Das war langsam und führte dazu, dass Zusammenhänge über längere Distanzen verloren gingen.
Der Transformer dreht das Prinzip um: Er verarbeitet alle Wörter gleichzeitig und lässt dabei jedes Wort jedes andere Wort „betrachten“. Dieser Mechanismus heißt Self-Attention.
Ein Beispiel: „Das Tier überquerte die Straße nicht, weil es zu müde war.“ Worauf bezieht sich „es“? Auf das Tier oder die Straße? Für dich ist das offensichtlich – Straßen werden nicht müde. Für einen Computer war das lange extrem schwierig.
Sobald dich besonders die Self-Attention und die internen Mechanismen interessieren, führt kein Weg an der vertieften Darstellung der Transformer-Architektur erklärt vorbei.
Self-Attention löst das, indem jedes Token drei Rollen gleichzeitig einnimmt:
- Query (Suchanfrage): Was sucht dieses Token? („es“ sucht nach dem Subjekt, auf das es sich bezieht.)
- Key (Schlüssel): Was bietet dieses Token als Information an? („Tier“ bietet die Information „Ich bin ein belebtes Subjekt“ an.)
- Value (Wert): Die eigentliche Information, die weitergegeben wird.
Das Modell berechnet nun die Ähnlichkeit zwischen der Query von „es“ und den Keys aller anderen Wörter. Wo die Ähnlichkeit hoch ist – also bei „Tier“ – fließt die Information (der Value) in die Repräsentation von „es“ ein. So versteht das Modell: „es“ = „das Tier“.
Multi-Head Attention: Mehrere Perspektiven gleichzeitig
Ein einziger Attention-Durchlauf reicht nicht aus, um die volle Komplexität von Sprache zu erfassen. Ein Satz hat grammatikalische Strukturen, semantische Bezüge, logische Verknüpfungen und vieles mehr.
Deshalb nutzen Transformer Multi-Head Attention: Der Attention-Prozess läuft mehrfach parallel ab – in großen Modellen mit 96 oder sogar 128 sogenannten „Heads“.
Jeder Head spezialisiert sich auf einen anderen Aspekt. Einer achtet vielleicht auf Subjekt-Verb-Beziehungen, ein anderer auf Pronomen-Referenzen, ein dritter ordnet Adjektive ihren Nomen zu. Am Ende werden alle Ergebnisse zusammengeführt. Das gibt dem Modell eine vielschichtige, fast holistische Sicht auf den Text.
Feed-Forward Networks: Wo das Wissen steckt
Nachdem die Token durch Attention miteinander kommuniziert haben, durchläuft jedes Token individuell ein Feed-Forward Network (FFN).
Wenn die Attention-Schichten der Ort sind, an dem Kontext entsteht („Was bedeutet dieses Wort hier?“), dann sind die FFN-Schichten der Ort, an dem das Faktenwissen gespeichert ist. Hier wird die Information transformiert – basierend auf dem, was das Modell während des Trainings gelernt hat.
In modernen Modellen wie DeepSeek-V3 oder Gemini 3 ist dieser Bereich oft hochspezialisiert. Statt eines einzigen großen FFN gibt es viele kleine Experten-Netzwerke, die je nach Thema aktiviert werden – ein Konzept namens Mixture of Experts (dazu später mehr).
Kontextfenster und Positionskodierung
Da der Transformer alle Wörter gleichzeitig verarbeitet, hat er ein Problem: Er kennt keine Reihenfolge. „Hund beißt Mann“ und „Mann beißt Hund“ wären für ihn identisch – schließlich bestehen beide Sätze aus denselben Wörtern.
Die Lösung sind Positional Encodings – zusätzliche Informationen, die dem Modell verraten, an welcher Stelle im Text ein Wort steht.
Eine der spannendsten Entwicklungen der letzten Jahre ist dabei die Explosion des Kontextfensters. Dieses Fenster bestimmt, wie viel Text ein Modell gleichzeitig „im Kopf behalten“ kann:
- 2023 lagen die meisten Modelle bei 8.000 bis 32.000 Token – etwa 50 Seiten Text.
- 2026 verarbeiten Modelle wie Gemini 3 Pro routinemäßig 1 bis 10 Millionen Token – ganze Bücherregale, stundenlange Videos oder riesige Code-Repositories in einem einzigen Prompt.
Möglich wird das durch Techniken wie RoPE (Rotary Positional Embeddings), die verhindern, dass die Positionsinformation bei extrem langen Texten mathematisch instabil wird.
Architekturen jenseits des Standard-Transformers
Der klassische Transformer hat das Fundament gelegt. Doch die wachsenden Anforderungen an Effizienz und Kontextlänge haben zu neuen Architekturvarianten geführt, die 2026 eine zentrale Rolle spielen.
Mixture of Experts (MoE): Nicht alles auf einmal aktivieren
In einem klassischen Modell wird für jedes einzelne Token das gesamte neuronale Netz aktiviert. Das ist so, als würdest du für jede Frage alle Bücher in einer Bibliothek aufschlagen – extrem rechenintensiv.
Die Mixture-of-Experts-Architektur geht einen klügeren Weg. Das Feed-Forward-Netzwerk wird in viele kleine Experten-Netzwerke unterteilt – zum Beispiel 64 oder 256 Stück. Ein vorgeschalteter Router entscheidet für jedes Token, welche Experten zuständig sind.
Das Ergebnis lässt sich am Modell DeepSeek-V3 gut veranschaulichen: Es besitzt insgesamt 671 Milliarden Parameter, aber pro Token werden nur 37 Milliarden aktiviert. Das Modell hat also das Wissen eines riesigen Netzes, läuft aber bei der Textgenerierung so schnell und günstig wie ein viel kleineres Modell.
State Space Models und Hybride: Die Alternative für lange Texte
Der Transformer hat ein fundamentales Effizienzproblem: Der Rechenaufwand wächst quadratisch mit der Textlänge. Verdoppelst du den Text, vervierfacht sich der Aufwand. Für extrem lange Dokumente wird das schnell untragbar.
Deshalb gewinnen State Space Models (SSMs) wie die Mamba-Architektur an Bedeutung. Statt jedes Token mit jedem anderen zu vergleichen, komprimiert Mamba den Kontext in einen fließenden Zustand. Der Aufwand wächst nur noch linear – doppelter Text bedeutet doppelten Aufwand, nicht vierfachen.
Der Nachteil: Reine SSMs haben Schwächen beim präzisen Abruf spezifischer Details in langen Texten. Deshalb gibt es Hybrid-Modelle wie Jamba, die beide Welten kombinieren. Mamba-Schichten liefern den groben Kontext, eingestreute Transformer-Attention-Schichten sorgen für die nötige Präzision beim Erinnern einzelner Details.
Ergänzend ermöglicht Ring Attention die Verarbeitung extrem langer Sequenzen. Dabei wird der Text in Blöcke aufgeteilt und auf viele GPUs verteilt, die in einem Ring angeordnet sind. Jede GPU berechnet die Attention für ihren Block und reicht die Schlüsselinformationen an den Nachbarn weiter. So wächst der Speicherbedarf nicht mehr quadratisch auf einer einzelnen Grafikkarte, sondern verteilt sich linear – die Grundlage für Kontextfenster von 10 Millionen Token und mehr.
Wie ein LLM trainiert wird
Ein Large Language Model entsteht nicht über Nacht. Der Weg vom leeren Netzwerk zum intelligenten Assistenten ist ein mehrstufiger Prozess – eine industrielle Kette aus Datenverarbeitung, Hochleistungsrechnen und menschlichem Feedback.
Pre-Training: Milliarden Texte lesen
Die erste und teuerste Phase ist das Pre-Training. Das Modell wird mit Billionen von Token gefüttert – Bücher, Webseiten, wissenschaftliche Paper, Code-Repositories in Dutzenden Sprachen.
Das Ziel ist dabei nicht, dem Modell explizit Regeln beizubringen. Niemand sagt ihm: „Ein Verb steht im Deutschen an zweiter Stelle.“ Stattdessen sieht es Milliarden Beispiele von Sätzen und leitet daraus implizit ab, wie Sprache funktioniert. Die Methode heißt Self-Supervised Learning: Man nimmt einen Text, verdeckt das nächste Wort und lässt das Modell raten. Dann korrigiert man die Gewichte – Milliarden Mal.
Das Ergebnis ist ein sogenanntes Base Model. Es ist beeindruckend klug, aber schwer zu kontrollieren. Wenn du es fragst „Wie backe ich einen Kuchen?“, antwortet es vielleicht mit einer weiteren Frage – weil es glaubt, eine Liste aus einem Forum fortzusetzen, nicht dir zu helfen.
Bevor man in Milliarden Parameter eintaucht, hilft es, die Lernmechanik dahinter klar zu haben. In der Einführung wie lernt KI? einfache Erklärung wird Self-Supervised Learning greifbar erklärt – also genau das Prinzip, das beim Pre-Training von LLMs Milliarden Mal angewendet wird.
Fine-Tuning: Vom Textgenerator zum Assistenten
Um aus dem rohen Base Model einen nützlichen Assistenten zu machen, folgt das Supervised Fine-Tuning (SFT). Dafür erstellen Menschen kuratierte Datensätze mit Frage-Antwort-Paaren: „Wenn der Nutzer X fragt, ist Y eine gute Antwort.“
In dieser Phase lernt das Modell, Anweisungen zu befolgen. Es lernt Formate („Antworte in Stichpunkten“), Tonalität („Sei freundlich und hilfsbereit“) und die grundlegende Rolle eines Assistenten. Das Wissen aus dem Pre-Training verschwindet nicht – das Modell lernt nur, es gezielt einzusetzen.
Alignment: RLHF und Constitutional AI
Selbst nach dem Fine-Tuning kann ein Modell noch halluzinieren, Vorurteile reproduzieren oder auf problematische Anweisungen eingehen. Hier kommt das Alignment ins Spiel – der Prozess, der das Modell an menschliche Werte und Erwartungen angleicht.
RLHF (Reinforcement Learning from Human Feedback) ist der bekannteste Ansatz, populär gemacht durch OpenAI. Das Modell generiert mehrere Antworten auf dieselbe Frage, menschliche Bewerter erstellen ein Ranking („Antwort A ist besser als B“), und ein sogenanntes Reward Model lernt diese Präferenzen. Anschließend wird das LLM per Reinforcement Learning darauf trainiert, den Score dieses Reward Models zu maximieren.
Constitutional AI, der Ansatz von Anthropic (den Machern von Claude), geht einen anderen Weg. Statt sich primär auf menschliche Bewerter zu verlassen, bekommt das Modell explizite Prinzipien – eine Art Verfassung. Zum Beispiel: „Wähle die Antwort, die am hilfreichsten, ehrlichsten und harmlosesten ist.“ Das Modell bewertet dann seine eigenen Antworten anhand dieser Prinzipien, kritisiert sich selbst und lernt daraus. Das Ergebnis sind Modelle, die oft schwerer zu manipulieren sind und deren ethische Grenzen klarer definiert sind.
Für eine tiefe Einordnung von Marktstrategien und technologischen Philosophien lohnt sich außerdem der Überblick Top-Modelle im Vergleich: OpenAI vs. Anthropic.
Reasoning Models: Wenn das Modell „nachdenkt“
Die vielleicht wichtigste Entwicklung der letzten zwei Jahre ist die Einführung von Reasoning Models – Modelle, die nicht nur intuitiv antworten, sondern tatsächlich „nachdenken“.
Klassische LLMs arbeiten wie ein Schnellschuss: Sie lesen die Frage und geben sofort eine Antwort aus. Das funktioniert bei einfachen Aufgaben gut, führt aber bei komplexer Mathematik oder mehrstufiger Logik zu Fehlern.
Reasoning Models wie die OpenAI o1/o3-Serie nutzen einen anderen Ansatz, der oft als Test-Time Compute bezeichnet wird. Bevor das Modell dem Nutzer antwortet, generiert es intern Tausende von „Gedanken-Token“ – eine versteckte Denkstrecke, die der Nutzer nicht sieht. Es plant die Lösung, zerlegt das Problem in Teilschritte, testet Hypothesen und korrigiert sich selbst, wenn es in eine Sackgasse gerät.
Der entscheidende Unterschied: Diese Modelle wurden nicht nur darauf trainiert, das nächste Wort vorherzusagen, sondern darauf, wie man denkt. Mittels Reinforcement Learning werden Gedankengänge belohnt, die zur korrekten Lösung führen.
Das ermöglicht fast perfekte Ergebnisse in Bereichen wie Mathematikwettbewerben oder komplexem Coding – Aufgaben, an denen frühere Modelle regelmäßig scheiterten.
So entsteht die Antwort: Temperatur und Sampling
Wenn du eine Frage stellst, berechnet das Modell nicht eine einzige Antwort – es berechnet eine Wahrscheinlichkeitsverteilung für alle möglichen nächsten Wörter. Wie daraus konkreter Text wird, hängt von der Decoding-Strategie ab.
Greedy Decoding wählt immer das wahrscheinlichste Wort. Das ergibt präzise, aber oft langweilige und repetitive Texte.
Spannender wird es mit dem Temperatur-Parameter, der die Kreativität steuert. Bei niedriger Temperatur (unter 0,5) werden wahrscheinliche Wörter noch wahrscheinlicher – das Ergebnis ist faktisch und konservativ. Bei hoher Temperatur (über 0,8) bekommen auch unwahrscheinlichere Wörter eine Chance – der Text wird kreativer und überraschender, aber das Risiko für Fehler steigt.
Ergänzend gibt es Top-P Sampling (auch Nucleus Sampling genannt). Dabei betrachtet das Modell nur die kleinstmögliche Menge an Wörtern, deren kumulierte Wahrscheinlichkeit einen bestimmten Schwellenwert erreicht. Das schneidet den langen Schwanz an unsinnigen Wörtern ab, erlaubt aber Variation im sinnvollen Bereich.
In der Praxis steckt hinter jeder Antwort also ein Zusammenspiel aus gelerntem Wissen, statistischer Berechnung und feinjustierten Parametern.
Gerade wenn Begriffe wie Token, Embedding oder Mixture of Experts durcheinandergehen, schafft das strukturierte KI-Glossar mit den wichtigsten Begriffen schnelle Klarheit.
Beispiel: Warum LLMs bei 9.11 vs. 9.9 scheitern
Ein besonders aufschlussreiches Beispiel für die Grenzen von LLMs ist der simple Zahlenvergleich: „Welche Zahl ist größer: 9.11 oder 9.9?“ Viele Modelle antworteten bis Ende 2025 fälschlicherweise „9.11“.
Das ist kein Logikfehler im eigentlichen Sinne – es ist ein Artefakt der Tokenisierung. Der Tokenizer sieht „9.11“ nicht als Dezimalzahl. Er zerlegt sie in einzelne Token wie „9“, „.“, „11“. Genauso wird „9.9“ zu „9“, „.“, „9“.
Jetzt greift das statistische Muster: In den Trainingsdaten kommt die Zeichenfolge „9.11“ häufig als Versionsnummer vor – und Version 9.11 kommt nach Version 9.9. Das Modell hat also gelernt, dass „11“ in diesem Kontext „später“ oder „höher“ bedeutet als „9“. Da es keine interne mathematische Repräsentation von Zahlenwerten besitzt, verlässt es sich auf dieses linguistische Muster – und liegt daneben.
Neuere Modelle lösen dieses Problem auf zwei Wegen: durch spezialisierte Tokenizer, die Zahlen Ziffer für Ziffer zerlegen, oder durch Reasoning-Tokens, bei denen das Modell den Vergleich intern logisch durchspielt, bevor es antwortet.
Warum LLMs trotzdem halluzinieren
Halluzinationen – das selbstsichere Behaupten erfundener Fakten – sind kein Bug, den man einfach beheben kann. Sie sind ein strukturelles Merkmal der Architektur.
Ein LLM arbeitet probabilistisch. Es berechnet, welches Wort als nächstes am wahrscheinlichsten passt. Wenn es eine Information nicht „weiß“ – etwa das Geburtsdatum einer wenig bekannten Person –, füllt es die Lücke mit dem statistisch Plausibelsten. Das Ergebnis klingt überzeugend, ist aber frei erfunden.
Es gibt Ansätze, die das Problem mildern. Reasoning Models können ihre eigenen Antworten intern überprüfen und Widersprüche erkennen. Retrieval Augmented Generation (RAG) bindet externe Datenbanken ein, sodass das Modell auf verifizierte Quellen zugreifen kann, statt aus dem Gedächtnis zu antworten.
Trotzdem bleibt das Kernproblem bestehen: Ein Wahrscheinlichkeitsmodell hat kein Konzept von „Wahrheit“. Es kennt nur „statistisch plausibel“. Deshalb ist es wichtig, LLM-Antworten bei kritischen Fakten immer gegenzuprüfen.
Der Unterschied zwischen generativen Sprachmodellen und klassischen Analyse-Systemen wird klarer, wenn du dir Generative KI vs. analytische KI anschaust.
Häufige Missverständnisse über Large Language Models
„LLMs verstehen Sprache wie Menschen.“ Nicht im herkömmlichen Sinn. Ein LLM hat kein Bewusstsein und keine subjektive Erfahrung von Bedeutung. Es modelliert die statistische Struktur von Sprache so präzise, dass das Ergebnis wie Verstehen wirkt – ob man das „echtes Verstehen“ nennen will, ist letztlich eine philosophische Frage.
„LLMs haben eine Datenbank mit Fakten.“ Falsch. Es gibt keine Tabelle, in der „Paris = Hauptstadt von Frankreich“ steht. Das Wissen steckt verteilt in Milliarden von Gewichten, die gemeinsam die Wahrscheinlichkeiten beeinflussen. Man kann einzelne Fakten nicht einfach nachschlagen oder gezielt löschen.
„Größere Modelle sind immer besser.“ Nicht unbedingt. Die Mixture-of-Experts-Architektur zeigt, dass clevere Architektur wichtiger sein kann als reine Größe. DeepSeek-V3 erreicht mit 37 Milliarden aktiven Parametern Ergebnisse, die mit deutlich größeren Modellen mithalten.
„LLMs können nicht rechnen.“ Das stimmte lange, wird aber zunehmend überholt. Reasoning Models können mathematische Probleme Schritt für Schritt durcharbeiten und erzielen bei Mathematikwettbewerben inzwischen fast perfekte Ergebnisse – nicht durch eingebaute Rechenfähigkeit, sondern durch gelerntes logisches Denken.
„Wenn das Modell etwas Falsches sagt, lügt es.“ Nein. Lügen setzt Absicht voraus. Ein LLM hat keine Absicht. Es generiert die statistisch wahrscheinlichste Fortsetzung – manchmal ist diese korrekt, manchmal nicht. Halluzinationen sind ein technisches Problem, kein moralisches.
FAQ
Was ist der Unterschied zwischen einem LLM und einer KI? KI (Künstliche Intelligenz) ist der Oberbegriff für alle Systeme, die intelligentes Verhalten zeigen. Ein LLM ist eine spezifische Art von KI – ein neuronales Netz, das auf Sprache spezialisiert ist. Nicht jede KI ist ein LLM (z. B. Schach-Engines), aber aktuelle LLMs gehören zu den leistungsfähigsten KI-Systemen.
Viele verwechseln LLMs mit „KI allgemein“. Wenn du sauber zwischen Begriffen unterscheiden willst, lohnt sich ein Blick auf KI vs. Machine Learning vs. Deep Learning – die Unterschiede.
Wie viele Daten braucht ein LLM fürs Training? Aktuelle Frontier-Modelle werden mit Billionen von Token trainiert – das entspricht einem Vielfachen aller Bücher, die je geschrieben wurden. Die Datenmenge ist so groß, dass 2026 fast das gesamte hochwertige Internet bereits „gelesen“ wurde und Forscher zunehmend auf synthetische Daten und Video-Daten zurückgreifen.
Was bedeutet „Kontextfenster“? Das Kontextfenster ist die maximale Menge an Text, die ein LLM gleichzeitig verarbeiten kann – sein Kurzzeitgedächtnis. Alles, was außerhalb dieses Fensters liegt, „vergisst“ das Modell. 2026 reichen die Fenster von 128.000 Token bei kompakteren Modellen bis zu 10 Millionen Token bei Googles Gemini 3 Pro.
Warum gibt ein LLM manchmal unterschiedliche Antworten auf dieselbe Frage? Weil die Textgenerierung probabilistisch ist. Das Modell wählt nicht immer das wahrscheinlichste Wort, sondern sampelt aus einer Wahrscheinlichkeitsverteilung. Je nach Temperatur-Einstellung kann das zu unterschiedlichen, aber gleichermaßen plausiblen Antworten führen.
Was ist der Unterschied zwischen GPT, Gemini und Claude? Alle drei sind LLMs, die auf der Transformer-Architektur basieren, aber unterschiedliche Schwerpunkte setzen. GPT-5.2 und die o3-Serie von OpenAI sind besonders stark in Logik und Mathematik. Gemini 3 von Google punktet mit riesigen Kontextfenstern und nativer Multimodalität. Claude 4.5 Opus von Anthropic legt den Fokus auf natürlichen Schreibstil, präzise Instruktionsbefolgung und Sicherheit durch Constitutional AI.
Können LLMs lernen, während ich mit ihnen chatte? Nein. Ein LLM verändert seine Gewichte nicht während eines Gesprächs. Es nutzt das Kontextfenster, um sich an den Verlauf der aktuellen Unterhaltung zu „erinnern“, aber sobald das Gespräch endet, ist alles vergessen. Manche Plattformen bieten Gedächtnisfunktionen an – diese speichern aber Notizen extern, das Modell selbst lernt nicht dazu.
Wie viel Energie verbraucht ein LLM? Das Training eines Frontier-Modells verbraucht Energie im Bereich von Dutzenden Gigawattstunden – vergleichbar mit dem Jahresverbrauch einer Kleinstadt. Auch der laufende Betrieb (Inference) ist energieintensiv, besonders bei Reasoning Models, die für jede Antwort Tausende zusätzliche Tokens intern generieren. Der Energiebedarf ist eine der größten offenen Herausforderungen der Branche.
Quellen und weiterführende Informationen
- Attention Is All You Need – (Das fundamentale Forschungspapier von Google, das die Transformer-Architektur und den Self-Attention-Mechanismus einführte.)
- OpenAI: Learning to Reason with LLMs – (Hintergründe zur Entwicklung von Reasoning-Modellen wie der o1-Serie, die komplexe Aufgaben durch internes Nachdenken lösen.)
- Hugging Face: Tokenization and BPE – (Ein technischer Leitfaden zur Funktionsweise von Byte-Pair Encoding und der Zerlegung von Text in Token.)
- Mamba: Linear-Time Sequence Modeling – (Forschungspapier zur Mamba-Architektur, die als State Space Model eine effiziente Alternative zum klassischen Transformer darstellt.)