Wie funktioniert ChatGPT? – Einfache Erklärung

Kategorie KI-Grundlagen

Datum Februar 2, 2026

Lesezeit 12 Min.

Autor Viktor

ChatGPT ist keine Suchmaschine. Es durchsucht keine Datenbank und liefert keine gespeicherten Antworten. Stattdessen funktioniert es wie ein extrem belesener Gelehrter, der Milliarden von Texten gelesen hat – aber im Moment der Frage keines dieser Bücher vor sich liegen hat.

Wenn du ChatGPT eine Frage stellst, schlägt es nichts nach. Es rekonstruiert die Antwort Wort für Wort, basierend auf Mustern und sprachlichen Strukturen, die es während des Trainings verinnerlicht hat. Im Kern ist ChatGPT eine mathematische Repräsentation von Sprache und Wahrscheinlichkeiten.

Die Grundidee: Ein Wort nach dem anderen vorhersagen

Wie die Textgenerierung funktioniert

Die einzige Aufgabe von ChatGPT ist die sogenannte Next-Token-Prediction – die Vorhersage des nächsten Textbausteins. Stell dir eine extrem hochgezüchtete Version der Autokorrektur auf deinem Smartphone vor.

Ein Beispiel: Du gibst ein „Der Himmel ist…“

Das Modell berechnet Wahrscheinlichkeiten für alle möglichen Fortsetzungen:

„blau“ (75%)
„bewölkt“ (15%)
„grau“ (8%)
„Banane“ (0,00001%)

Es wählt „blau“ und der Prozess beginnt sofort von neuem. Was folgt auf „Der Himmel ist blau“? Vielleicht ein Punkt, „und“ oder „weil“. Dieser Zyklus wiederholt sich hunderte Male pro Sekunde, bis ein spezielles Stop-Signal das Ende der Antwort markiert.

Diesen Vorgang nennt man autoregressive Generierung: Die Ausgabe eines Schrittes wird zur Eingabe für den nächsten. ChatGPT plant den Satz nicht im Voraus wie ein Mensch. Es tastet sich Wort für Wort voran, geleitet nur von statistischen Wahrscheinlichkeiten.

Falls du ChatGPT konkret einordnen willst – jenseits abstrakter Architektur – findest du im umfassenden Überblick alle Infos rund um ChatGPT Funktionen, Modellvarianten, Preisstufen und Einsatzbereiche gebündelt.

Tokens statt Wörter

ChatGPT verarbeitet keine Wörter im klassischen Sinne. Bevor ein Text das System erreicht, zerlegt ein Tokenizer ihn in kleinere Einheiten – sogenannte Tokens.

Ein Token kann ein ganzes Wort sein, oft ist es aber nur ein Wortteil oder ein Satzzeichen. Das Wort „ChatGPT“ wird beispielsweise in drei Tokens zerlegt. Ein häufiges Wort wie „Apfel“ ist ein einzelnes Token. Komplexe deutsche Komposita wie „Donaudampfschifffahrt“ werden in viele Silben-Tokens aufgeteilt.

Als Faustregel gilt: 1 Token entspricht etwa 0,75 Wörtern oder 4 Buchstaben im Englischen. Deutsche Texte verbrauchen oft mehr Tokens, da die Sprache längere Wörter und komplexere Grammatik hat.

Jedes Modell hat ein Kontextfenster – die maximale Anzahl an Tokens, die es gleichzeitig verarbeiten kann. Ist dieses Fenster voll, muss das Modell ältere Teile der Konversation „vergessen“. Deshalb ignoriert ChatGPT in sehr langen Chats manchmal frühere Anweisungen.

Viele Begriffe wie Tokenizer, Embeddings oder Parameter wirken abstrakt – im kompakten KI-Glossar mit den wichtigsten Begriffen bekommst du präzise Definitionen, ohne dich durch akademische Papers kämpfen zu müssen.

Vom Text zur Zahl: Embeddings

Nach der Tokenisierung passiert etwas Faszinierendes: Jedes Token wird in einen Embedding-Vektor umgewandelt – eine lange Liste von Zahlen, die seine Bedeutung repräsentiert.

Stell dir diese Vektoren als Koordinaten in einem riesigen, mehrdimensionalen Raum vor. In diesem Raum liegen „König“ und „Königin“ nah beieinander. „Apfel“ liegt weit von „König“ entfernt, aber nah bei „Banane“.

Noch spannender: Man kann mit diesen Vektoren rechnen. Zieht man vom Vektor „König“ den Vektor „Mann“ ab und addiert „Frau“, landet man fast exakt bei „Königin“. So lernt das Modell Konzepte und Zusammenhänge, nicht nur einzelne Wörter.

Das Gehirn dahinter: Die Transformer-Architektur

Was sind Parameter?

Wenn du liest, dass GPT-4 über eine Billion Parameter hat, kannst du dir diese als kleine Stellschrauben in einem riesigen Mischpult vorstellen. Jeder Regler bestimmt, wie stark ein Signal von einem künstlichen Neuron zum nächsten weitergeleitet wird.

Zu Beginn des Trainings stehen diese Regler auf zufälligen Werten – das Modell gibt nur Kauderwelsch aus. Macht es einen Fehler (sagt „Der Himmel ist grün“), werden die Regler leicht verstellt. Nach Billionen solcher Anpassungen repräsentieren die festen Einstellungen das „Wissen“ des Modells.

Das Faktum „Paris ist die Hauptstadt von Frankreich“ ist nicht als Satz gespeichert. Es existiert als spezifische Konfiguration von Gewichten, die aktiviert wird, wenn nach der Hauptstadt Frankreichs gefragt wird.

Der Aufmerksamkeitsmechanismus

Das Herzstück des Transformers ist die Self-Attention. Frühere Sprachmodelle lasen Text streng von links nach rechts und vergaßen oft den Satzanfang. Der Transformer kann den gesamten Text gleichzeitig betrachten.

Ein Beispiel: „Die Bank verweigerte dem Unternehmen den Kredit, weil es zu hoch verschuldet war.“

Worauf bezieht sich „es“? Auf die Bank oder das Unternehmen? Der Attention-Mechanismus berechnet Verbindungen zwischen allen Wörtern. Er erkennt, dass im Kontext von „verschuldet“ das Pronomen „es“ auf das „Unternehmen“ verweist – und gewichtet diese Verbindung stärker.

Dieser Prozess läuft millionenfach parallel ab, über verschiedene Ebenen hinweg. Ein Teil achtet auf Grammatik, ein anderer auf Pronomen-Referenzen, ein dritter auf den emotionalen Tonfall.

Wie ChatGPT trainiert wurde

Phase 1: Das Lesen von Milliarden Texten

In der ersten Phase lernt das Modell Sprache, Weltwissen und Logik. Es wird mit Texten aus dem Internet gefüttert – Bücher, Wikipedia, Reddit, Zeitungsartikel, Code von GitHub. Die Datenmenge ist gigantisch.

Das Modell spielt monatelang ein Spiel mit sich selbst: Lückentext. Man nimmt einen Satz, verdeckt ein Wort, und lässt das Modell raten. „Die Hauptstadt von Deutschland ist ___.“ Rät es „München“? Falsch, Parameter anpassen. „Berlin“? Richtig, Parameter bestärken.

Nach Billionen solcher Durchläufe hat das Modell eine statistische Karte der Sprache erstellt. Es weiß nicht nur, dass auf „Hauptstadt“ oft ein Städtename folgt, sondern hat auch komplexe logische Zusammenhänge gelernt.

Phase 2: Vom Sprachmodell zum Assistenten

Nach Phase 1 ist das Modell klug, aber nicht hilfreich. Fragst du „Wie backe ich einen Kuchen?“, antwortet es vielleicht mit einer weiteren Frage – weil es gelernt hat, dass im Internet auf Fragen oft Fragen folgen.

Jetzt greifen Menschen ein. KI-Trainer erstellen tausende ideale Dialoge. Sie schreiben sowohl die Nutzer-Fragen als auch die perfekten Assistenten-Antworten. Das Modell lernt das Format: „Wenn User fragt, antworte hilfreich, höflich und präzise.“

Phase 3: Lernen durch menschliches Feedback (RLHF)

Der entscheidende Schritt: Reinforcement Learning from Human Feedback. Das Modell generiert auf eine Frage mehrere Antworten. Menschen sortieren diese von „am besten“ bis „am schlechtesten“.

Ein separates Belohnungsmodell lernt aus diesen Rankings, was Menschen bevorzugen. Das Hauptmodell spielt dann Millionen Runden gegen dieses Belohnungsmodell und versucht, Antworten zu generieren, die hohe Punktzahlen bekommen.

Es ist wie Hundetraining: Man führt nicht die Pfote des Hundes, sondern gibt ein Leckerli, wenn er sich von selbst hinsetzt. So lernt das Modell Verhalten, das menschlichen Werten entspricht – Hilfsbereitschaft, Wahrheitstreue, Unschädlichkeit.

Temperatur: Warum ChatGPT mal kreativ, mal sachlich antwortet

Da das Modell Wahrscheinlichkeiten berechnet: Wählt es immer das wahrscheinlichste Wort? Nicht unbedingt. Hier kommt der Parameter Temperatur ins Spiel.

Niedrige Temperatur (z.B. 0,1): Das Modell wählt fast immer das wahrscheinlichste Wort. Die Antworten werden präzise und faktenorientiert, aber auch repetitiv.

Hohe Temperatur (z.B. 0,8–1,0): Das Modell wählt auch weniger wahrscheinliche Wörter. Statt „Der Himmel ist blau“ sagt es vielleicht „Der Himmel ist azurfarben“ oder „voller Möglichkeiten“.

Diese Einstellung ermöglicht demselben Modell, sowohl strikten Programmcode (wo Kreativität zu Fehlern führt) als auch Gedichte (wo Vorhersehbarkeit langweilig ist) zu generieren. Sie erklärt auch, warum du auf die gleiche Frage beim zweiten Mal eine andere Antwort bekommen kannst.

Die verschiedenen Versionen

Die verschiedenen Versionen chatgpt

GPT-3.5 vs. GPT-4 vs. GPT-4o vs. GPT-5.2

Merkmal	GPT-3.5	GPT-4	GPT-4o	GPT-5.2
Release	Nov. 2022	März 2023	Aug. 2024	Dez. 2025
Eingabe	Nur Text	Text, Bilder	Text, Audio, Bild, Video	Text, Audio, Bild, Video
Parameter	ca. 175 Mrd.	ca. 1,7 Bio.	–	ca. 2–5 Bio.
Kontextfenster	4.000 Token	32.000 Token	128.000 Token	400.000 Token
Stärke	Schnell	Komplexe Logik	Multimodal, schnell	Reasoning, riesiges Kontextfenster

Ein realistischer Vergleich entsteht erst im direkten Kontrast: Der Artikel ChatGPT vs. Claude vs. Gemini im Vergleich 2026 zeigt dir, wo sich Reasoning, Kontextfenster und Multimodalität konkret unterscheiden – ideal, wenn du ein Modell strategisch auswählen willst.

GPT-3.5 löste den Hype im November 2022 aus. Es ist schnell, aber neigt stark zu Halluzinationen und hat ein kleines Kontextfenster.

GPT-4 war ein massiver Sprung. Es besteht komplexe Prüfungen, folgt Anweisungen besser und kann Bilder verstehen – allerdings über eine Pipeline getrennter Modelle.

GPT-4o (das „o“ steht für Omni) ist ein einziges Modell, das nativ auf Text, Audio und Bildern trainiert wurde. Es hört Tonfall direkt, erkennt Lachen oder schnelles Atmen und kann selbst mit emotionaler Stimme antworten.

GPT-5.2 (Release: Dezember 2025) markiert einen Paradigmenwechsel. Das Modell kann echtes „Reasoning“ – also logisches Schlussfolgern. Statt nur Muster zu vervollständigen, zerlegt es komplexe Probleme in Teilschritte, plant eine Lösungsstrategie und prüft Zwischenergebnisse selbstständig.

Wer die Entwicklung von GPT-3.5 bis GPT-5.2 einordnen will, findet in der Übersicht zur Evolution der GPT-Modelle eine chronologische und technische Aufarbeitung.

GPT-5.2: Die Reasoning-Revolution

Der größte Unterschied zu GPT-4o ist die Architektur. Bei GPT-4o war „Chain of Thought“ (schrittweises Denken) eine Prompting-Technik – du musstest sagen „Denke Schritt für Schritt“. Bei GPT-5.2 ist das in die Architektur eingebaut.

GPT-5.2 gibt es in verschiedenen Varianten:

GPT-5.2 Instant: Für schnelle, einfache Aufgaben wie E-Mails oder kurze Fragen.
GPT-5.2 Thinking: Für komplexe Problemlösung, Coding und Analyse. Nutzt automatisch Chain of Thought.
GPT-5.2 Pro/Extended: Für Deep Research mit extrem langen Inferenzzeiten (bis zu einer Stunde Rechenzeit).

Das 400.000-Token-Kontextfenster ist dreimal so groß wie bei GPT-4o. Das entspricht etwa 600 Seiten Text oder mehreren kompletten Romanen. Du kannst dem Modell ganze Code-Repositories oder juristische Fallakten übergeben, ohne sie zu fragmentieren.

Der Preis für diese Fähigkeiten: GPT-5.2 ist „kälter“. Es wurde auf Objektivität und Präzision trainiert, nicht auf Wärme. Nutzer beschreiben die Interaktion als sachlicher und weniger empathisch als bei GPT-4o.

Häufige Missverständnisse

„ChatGPT ist eine Suchmaschine“

Eine Suchmaschine funktioniert wie ein Bibliothekar: Sie durchsucht einen Katalog nach existierenden Dokumenten und liefert diese unverändert zurück. ChatGPT macht das Gegenteil. Es hat keine Datenbank, in der Wissen gespeichert ist. Stattdessen generiert es jede Antwort neu – Wort für Wort, basierend auf gelernten Mustern.

Wenn ChatGPT dennoch aktuelle Informationen liefert, nutzt es ein separates Werkzeug (Browsing), um im Internet zu suchen. Ohne diesen Internetzugriff ist das Modell in der Vergangenheit gefangen.

Die Debatte, ob ChatGPT wirklich „versteht“, berührt die Grundsatzfrage nach schwacher und starker KI – genau das beleuchtet die Analyse zu schwacher vs. starker KI im aktuellen Stand.

„ChatGPT versteht, was es sagt“

Das ist die große philosophische Frage. Das Gedankenexperiment des „Chinesischen Zimmers“ veranschaulicht das Problem: Ein Mann sitzt in einem Raum und kann kein Chinesisch. Er hat aber ein riesiges Regelbuch. Schiebt jemand einen Zettel mit chinesischen Zeichen unter der Tür durch, schlägt er nach: „Wenn Zeichen X kommt, gib Zeichen Y aus.“

Für Außenstehende wirkt es, als verstünde der Mann Chinesisch. Tatsächlich manipuliert er nur Symbole nach Regeln – ohne ihre Bedeutung zu kennen.

Kritiker sagen, ChatGPT sei genau das: Ein gigantisches Regelbuch ohne Bewusstsein. „Apfel“ ist nur ein Vektor, keine saftige Frucht. Befürworter argumentieren, dass ab einer gewissen Komplexität die Simulation von Verständnis nicht mehr von echtem Verständnis zu unterscheiden ist.

„ChatGPT weiß alles“

ChatGPT weiß nichts im klassischen Sinne. Sein „Wissen“ ist in den Parametern eingefroren – einer statistischen Karte der Sprache, nicht einem Faktenlexikon. Es optimiert nicht auf Wahrheit, sondern auf Plausibilität.

Das Modell hat einen Wissensstichtag (Knowledge Cutoff). GPT-4o beispielsweise kennt „nativ“ nichts über Ereignisse nach Oktober 2023. Alles danach erfordert aktive Internetsuche.

Die Grenzen von ChatGPT

Halluzinationen: Wenn die KI Fakten erfindet

Eine Halluzination tritt auf, wenn das Modell eine falsche Aussage mit absoluter Überzeugung präsentiert. Es erfindet Zitate, Aktenzeichen oder Statistiken – weil es gelernt hat, wie diese aussehen, aber nicht prüfen kann, ob sie existieren.

Philosophen argumentieren, dass ChatGPT nicht lügt (ein Lügner kennt die Wahrheit), sondern „Bullshit“ produziert. Dem Bullshitter ist die Wahrheit egal; es geht nur darum, dass die Aussage plausibel klingt.

Praktisches Beispiel: Fragst du nach einem spezifischen Gerichtsurteil, erfindet ChatGPT oft Aktenzeichen und Namen wie „Müller vs. Meier, 2019“. Es klingt korrekt, ist aber frei erfunden.

Das Kontextfenster: Warum ChatGPT manchmal vergisst

Das Kontextfenster ist der „Arbeitsspeicher“ des Modells. Ist er voll, werden ältere Teile der Konversation gelöscht. Studien zeigen zudem das „Lost in the Middle“-Phänomen: Informationen am Anfang und Ende eines langen Textes werden gut behalten, Details in der Mitte oft übersehen.

Startest du einen neuen Chat, ist das Modell wieder „blank“. Es lernt nicht aus Gesprächen mit anderen Nutzern – ein wichtiges Datenschutz-Feature, aber auch eine Einschränkung für langfristige Personalisierung.

Der Wissensstichtag: Keine aktuellen Infos ohne Internetzugriff

Das Training ist irgendwann abgeschlossen. Danach lernt das Modell nicht mehr dazu – es sei denn, die Entwickler veröffentlichen eine neue Version. GPT-4o hatte einen Wissensstichtag von Oktober 2023, GPT-5.2 kennt Informationen bis etwa Mitte 2025. Fragt man nach gestrigen Nachrichten, ist das Modell ohne Browsing-Funktion hilflos.

FAQ

Speichert ChatGPT meine Gespräche? ChatGPT speichert Gespräche nicht dauerhaft im Modell selbst. Jeder neue Chat startet ohne Erinnerung an frühere Unterhaltungen. OpenAI speichert jedoch Chatverläufe auf seinen Servern – es sei denn, du deaktivierst diese Option.

Warum gibt ChatGPT auf die gleiche Frage unterschiedliche Antworten? Wegen des Temperatur-Parameters. Das Modell würfelt bei jedem Schritt neu, welches der wahrscheinlichen Wörter es wählt. Bei höherer Temperatur sind die Antworten variabler.

Kann ChatGPT programmieren? Ja, und zwar gut. GPT-5.2 löst in Benchmarks etwa 80% realer Software-Engineering-Probleme. Allerdings solltest du den Code immer selbst prüfen – Halluzinationen gibt es auch bei Programmierung.

Ist ChatGPT immer aktuell? Nein. Ohne aktivierte Internetsuche kennt das Modell nur Informationen bis zu seinem Wissensstichtag. Für aktuelle Ereignisse muss es aktiv im Web suchen.

Warum verweigert ChatGPT manchmal Antworten? Das ist die sogenannte „Alignment Tax“. Durch das Training auf Sicherheit und Hilfsbereitschaft ist das Modell manchmal übervorsichtig und lehnt harmlose Anfragen ab.

Was ist der Unterschied zwischen GPT-5.2 Instant und Thinking? Instant ist schnell und für einfache Aufgaben optimiert. Thinking nutzt „Chain of Thought“ – es zerlegt komplexe Probleme in Schritte und prüft Zwischenergebnisse. Das dauert länger, liefert aber bei schwierigen Aufgaben bessere Ergebnisse.

Damit du typische Denkfehler vermeidest, lohnt sich ein Blick auf die Analyse der 10 KI-Mythen, die einfach nicht stimmen.

Fazit: Ein mächtiges Werkzeug mit klaren Grenzen

ChatGPT ist ein Meisterwerk der Statistik – kein allwissendes Orakel. Es berechnet Sprache, wie ein Taschenrechner Zahlen berechnet. Mit GPT-5.2 hat das System zwar echtes „Reasoning“ gelernt – es kann Probleme in Schritte zerlegen und logisch durchdenken – aber es versteht immer noch nicht im menschlichen Sinne.

Nutze es für: Kreativität, Strukturierung, Entwürfe, Brainstorming, Erklärungen komplexer Themen, Code-Entwicklung und Analyse großer Dokumentenmengen. GPT-5.2 mit seinem 400.000-Token-Kontextfenster kann ganze Bücher oder Code-Repositories „im Kopf“ behalten.

Misstraue ihm bei: Fakten, medizinischen Ratschlägen, juristischen Texten. Die Halluzinationsgefahr ist auch bei GPT-5.2 real – trotz der verbesserten Reasoning-Fähigkeiten. Verifiziere wichtige Informationen immer aus anderen Quellen.

Das Grundprinzip bleibt: ChatGPT ist Mathematik, die gelernt hat, wie Menschen zu sprechen. Wenn du ihm eine Frage stellst, sucht es nicht die Wahrheit – es generiert die Antwort, die am plausibelsten klingt. Mit diesem Wissen im Hinterkopf wird es zu einem mächtigen Werkzeug.

Unsere Recherche-Standards

Ratgeber zu KI-Themen altern schnell — ein Modell, das heute Standard ist, kann in sechs Monaten überholt sein. Damit dir das hier nicht passiert, arbeiten wir mit klaren Regeln.

Primärquellen zuerst — Paper, offizielle Dokumentation, Release Notes. Zweitquellen nur, wenn sie etwas Neues hinzufügen
Stand und Modellversion stehen am Artikelende, damit du einschätzen kannst, wie aktuell die Einschätzung ist
Einordnung statt Checkliste — wir erklären das Warum, nicht nur das Wie
Regelmäßige Updates bei Beiträgen zu sich schnell entwickelnden Themen, dokumentiert im Änderungslog

Widersprechen sich Quellen, sagen wir das. Gibt es keine belastbare Antwort, steht auch das da — lieber ein ehrliches „kommt drauf an“ als eine erfundene Gewissheit.

Viktor

Autor

Viktor W. arbeitet seit über 10 Jahren im Online-Marketing und nutzt KI-Tools seit 2022 täglich für Content, Recherche und Automatisierung. Als Mitgründer und Content Lead von entropai testet er Tools hands-on und schreibt Ratgeber, die auf echter Nutzung basieren.