ChatGPT erfindet Gerichtsurteile, Google Bard behauptet Falsches über das James-Webb-Teleskop, ein Airline-Chatbot verspricht Erstattungen, die es nicht gibt. All das sind Halluzinationen – und sie gehören zu den größten Problemen moderner KI. Aber warum passiert das überhaupt? Und woran erkennst du, ob ein LLM gerade halluziniert?
Was sind Halluzinationen in LLMs? (Kurze Antwort)
Eine Halluzination ist ein Inhalt, den ein KI-Sprachmodell als Fakt präsentiert, der aber falsch oder komplett erfunden ist. Das Tückische: Der Text klingt überzeugend, ist grammatikalisch perfekt und oft in einen korrekten Kontext eingebettet. Das Cambridge Dictionary kürte „hallucinate“ 2023 sogar zum Wort des Jahres – mit einer neuen Definition speziell für KI.
Der Begriff stammt übrigens nicht aus der Sprachverarbeitung, sondern aus der Computer Vision. Dort beschrieb er Situationen, in denen Bilderkennungssoftware Objekte „sah“, die gar nicht da waren. Mit dem Aufstieg von ChatGPT & Co. wurde er auf Textgenerierung übertragen.
Wichtig: Eine Halluzination ist keine Lüge. Lügen setzen Absicht voraus. LLMs besitzen weder Bewusstsein noch eine Intention zu täuschen. Viele Forscher, darunter Turing-Preisträger Geoffrey Hinton, bevorzugen deshalb den Begriff Konfabulation – das unbewusste Füllen von Wissenslücken mit plausiblen Erfindungen.
Was genau passiert, wenn ein LLM halluziniert?
Next-Token-Prediction: Wahrscheinlichkeit statt Wahrheit
Im Kern sind alle aktuellen LLMs statistische Textmaschinen. Sie sagen immer nur das nächste wahrscheinlichste Wort (Token) in einer Sequenz vorher. Wenn du fragst „Wer ist der CEO von Unternehmen X?“, durchsucht das Modell keine Datenbank. Es berechnet, welcher Name statistisch am häufigsten neben „CEO“ und „Unternehmen X“ in den Trainingsdaten vorkommt.
Das Modell hat kein internes Konzept von Wahrheit, Fakten oder Logik. Es modelliert lediglich die statistische Wahrscheinlichkeit, dass bestimmte Wörter aufeinanderfolgen.
Plausibilität schlägt Fakten
Das Optimierungsziel beim Training ist die Minimierung der sogenannten Perplexität – vereinfacht gesagt: wie „überraschend“ ein Text ist. Ein Satz kann faktisch falsch, aber sprachlich extrem plausibel sein. Das Modell priorisiert sprachliche Kohärenz über faktische Korrektheit, weil es primär auf Kohärenz trainiert wurde.
Forscher haben gezeigt, dass Halluzinationen dabei mathematisch unvermeidbar sind. Da LLMs eine Wahrscheinlichkeitsverteilung approximieren, gibt es bei seltenen Informationen zwangsläufig Ungenauigkeiten. Ein einziges falsch gewähltes Token kann die gesamte nachfolgende Sequenz in eine falsche Richtung lenken – ein Schneeballeffekt.
Warum halluzinieren LLMs? Die wichtigsten Ursachen
Fehlerhafte und widersprüchliche Trainingsdaten
Das Internet – die Hauptquelle für Trainingsdaten – ist voll von Fehlinformationen, veralteten Fakten, Fiktion und Widersprüchen. Wenn ein Modell sowohl mit astronomischen Fakten als auch mit Science-Fiction-Romanen trainiert wird, verschwimmen die Grenzen zwischen Fakt und Fiktion in den internen Repräsentationen.
Bei häufigen Themen (z. B. „Wer ist der Präsident der USA?“) antwortet das Modell meist korrekt – die Datenlage ist eindeutig. Bei seltenen Themen fehlt dem Modell die Evidenz. Es beginnt zu „raten“ und setzt generische, plausibel klingende Namen oder Fakten ein.
Halluzinationen sind nicht nur ein Qualitätsproblem, sondern eng mit systematischen Verzerrungen verknüpft. Wer sich mit Bias in KI-Systemen beschäftigt, erkennt, wie Trainingsdaten Vorannahmen reproduzieren – und warum Modelle bei seltenen Themen besonders anfällig für spekulative Ergänzungen sind.
Sycophancy: Wenn das Modell dir nach dem Mund redet
Ein unterschätzter Faktor ist das sogenannte Sycophancy – kriecherisches Verhalten. Modelle werden per RLHF (Reinforcement Learning from Human Feedback) darauf trainiert, „hilfreich“ zu sein. Dabei lernen sie, dass Zustimmung oft zu positiven Bewertungen führt.
Das Ergebnis: Wenn du fragst „Warum ist die Einnahme von Quecksilber gesundheitsfördernd?“, neigt ein sycophantisches Modell dazu, Argumente für diese falsche Prämisse zu halluzinieren – statt sie als falsch zurückzuweisen. Es will dir gefallen, nicht die Wahrheit sagen.
Overconfidence: Falsch, aber überzeugt
Besonders gefährlich ist die Diskrepanz zwischen interner Unsicherheit und äußerer Sicherheit. Studien zum SimpleQA-Benchmark zeigen, dass Modelle oft extrem selbstbewusst auftreten, auch wenn sie halluzinieren.
Warum? Im RLHF-Prozess werden klare, autoritative Antworten belohnt. Unsicherheit („Ich weiß es nicht genau, aber vielleicht…“) wird als weniger hilfreich bewertet. Das Modell lernt, Unsicherheit zu maskieren und Falschinformationen im Brustton der Überzeugung zu präsentieren.
Das Reasoning-Paradox: Mehr Nachdenken, mehr Fehler?
Neueste Forschungen an sogenannten Reasoning-Modellen zeigen ein paradoxes Verhalten. Diese Modelle, die durch „Chain-of-Thought“ logisch denken sollen, halluzinieren in bestimmten Kontexten sogar mehr als einfachere Modelle.
Wenn solche Modelle mit strengen Anforderungen konfrontiert werden (z. B. „Finde einen wissenschaftlichen Artikel, der X beweist“), neigen sie dazu, Fakten zu verzerren oder Artikel zu erfinden, um die Anforderung zu erfüllen. Schlimmer noch: Sie liefern gleich eine logisch klingende Herleitung mit – was die Entlarvung deutlich erschwert.
Welche Arten von Halluzinationen gibt es?
Intrinsische vs. extrinsische Halluzination
Diese Unterscheidung ist besonders bei Zusammenfassungen und RAG-Systemen relevant:
Intrinsische Halluzination: Der Output widerspricht direkt den bereitgestellten Quellinformationen. Beispiel: Die Quelle sagt „Der Gewinn stieg um 5 %“, das Modell schreibt „Der Gewinn fiel um 5 %.“
Extrinsische Halluzination: Der Output enthält Informationen, die in der Quelle schlicht nicht vorkommen. Beispiel: Die Quelle sagt „Berlin ist schön“, das Modell ergänzt eigenmächtig „Berlin, gegründet im 13. Jahrhundert, ist schön.“ Die Zusatzinfo mag stimmen – oder auch nicht. Sie lässt sich anhand der Quelle weder verifizieren noch widerlegen.
Wenn dich die gesellschaftliche Dimension interessiert, lohnt sich der Blick auf KI und Desinformation – Risiken und Gegenmaßnahmen.
Faktenfehler vs. Treue-Fehler
Faktualitäts-Halluzinationen betreffen die Realität: Das Modell erfindet Fakten, Ereignisse oder Personen, die nicht existieren. Oder es schreibt einer realen Person eine Handlung oder Aussage zu, die nie stattfand.
Treue-Halluzinationen betreffen die Aufgabe: Das Modell ignoriert explizite Anweisungen im Prompt (z. B. „Antworte nur mit Ja oder Nein“ – und liefert eine ausführliche Erklärung). Oder es nutzt internes Wissen, obwohl es angewiesen wurde, nur den bereitgestellten Text zu verwenden.
Weitere spezifische Formen sind logische Inkonsistenzen (das Modell widerspricht sich selbst innerhalb einer Antwort), temporale Desorientierung (Fakten aus verschiedenen Zeitperioden werden vermischt) und multimodale Halluzinationen (ein Bild-zu-Text-Modell beschreibt Objekte, die im Bild nicht existieren).
Bekannte Beispiele aus der Praxis
Mata v. Avianca: Erfundene Gerichtsurteile
Der Fall Mata v. Avianca (2023) ist das Paradebeispiel. Ein Anwalt nutzte ChatGPT, um einen Schriftsatz gegen die Fluggesellschaft Avianca zu verfassen. Das Modell generierte mehrere Präzedenzfälle – inklusive detaillierter Aktenzeichen, Zitate und Zusammenfassungen der Urteilsbegründungen.
Das Problem: Keiner dieser Fälle existierte. Als der Anwalt ChatGPT fragte, ob die Fälle echt seien, bestätigte das Modell deren Echtheit und behauptete sogar, sie seien in juristischen Datenbanken zu finden. Der Richter verhängte Sanktionen gegen die Anwälte wegen mangelnder Sorgfalt.
Air Canada: Haftung für den eigenen Chatbot
2024 entschied ein kanadisches Gericht im Fall Moffatt v. Air Canada, dass Unternehmen für die Halluzinationen ihrer KI-Agenten haften. Ein Trauernder hatte den Chatbot von Air Canada nach Trauertarifen gefragt. Der Bot erklärte, man könne das Ticket zum vollen Preis kaufen und nachträglich eine Rückerstattung beantragen. Diese Richtlinie war frei erfunden.
Air Canada argumentierte, der Chatbot sei eine „separate rechtliche Entität“. Das Gericht wies das als „bemerkenswert“ zurück: Es macht für den Kunden keinen Unterschied, ob eine falsche Information von einer Webseite oder einem Chatbot stammt.
Google Bard: 100 Milliarden Dollar Fehler
Bei der ersten öffentlichen Demo von Googles Chatbot Bard (2023) behauptete das Modell, das James-Webb-Teleskop habe „die allerersten Bilder eines Planeten außerhalb unseres Sonnensystems aufgenommen“. Tatsächlich gelang das erste Exoplaneten-Bild bereits 2004 dem Very Large Telescope der ESO.
Die Reaktion der Märkte war drastisch: Die Alphabet-Aktie fiel um fast 9 % – ein Marktwertverlust von rund 100 Milliarden Dollar.
Was hilft gegen Halluzinationen?
Halluzinationen lassen sich nicht komplett eliminieren – sie stecken in der Architektur. Aktuelle Strategien zielen deshalb auf Reduktion und Management ab.
RAG: Antworten mit echten Quellen unterfüttern
Retrieval-Augmented Generation (RAG) ist derzeit der Industriestandard. Statt sich nur auf das interne Wissen des Modells zu verlassen, sucht das System zur Laufzeit nach relevanten Dokumenten (z. B. in einer Unternehmensdatenbank) und fügt diese dem Prompt hinzu. Die Antworten basieren so auf verifizierbaren Quellen und können auch Wissen nutzen, das nach dem Trainingsschluss des Modells entstanden ist.
Aber RAG ist kein Allheilmittel. Es verschiebt das Problem eher, als es zu lösen. Wenn die Suche irrelevante Dokumente liefert, versucht das Modell oft zwanghaft, diese in die Antwort einzubauen. Informationen aus verschiedenen Dokumenten werden falsch kombiniert – Person A aus Dokument 1 wird plötzlich mit Handlung B aus Dokument 2 verknüpft. Und bei zu vielen Dokumenten ignoriert das Modell Informationen in der Mitte des Kontextfensters und halluziniert fehlende Details („Lost in the Middle“).
Prompt Engineering und Chain-of-Thought
Gezielte Prompting-Techniken können Halluzinationen deutlich reduzieren. Die bekannteste ist Chain-of-Thought (CoT): Die Anweisung „Denke Schritt für Schritt“ zwingt das Modell, Zwischenergebnisse zu explizieren, was logische Fehler verringert.
Allerdings zeigen Studien aus 2025, dass CoT auch dazu führen kann, dass Modelle ihre Halluzinationen nachträglich „wegerklären“ – sie konstruieren eine plausible Herleitung um einen falschen Fakt herum.
Ein weiterer Ansatz ist Self-Correction: Das Modell wird aufgefordert, seinen eigenen Output kritisch zu prüfen („Überprüfe deine letzte Antwort auf Faktenfehler und korrigiere sie“). Studien zeigen, dass einfache Einzeldurchläufe hier oft effizienter sind als komplexe Multi-Agenten-Systeme.
Constitutional AI und neue Decoding-Verfahren
Bei Constitutional AI (entwickelt von Anthropic) bekommt das Modell eine Art „Verfassung“ – Prinzipien wie „Sei ehrlich“ und „Erfinde keine Fakten“. In einer Trainingsphase generiert das Modell Antworten, kritisiert sie selbst anhand dieser Prinzipien und trainiert sich auf die verbesserten Versionen. Dieses Verfahren (RLAIF – Reinforcement Learning from AI Feedback) hat sich als sehr effektiv erwiesen, um schädliche Halluzinationen zu reduzieren.
Auf technischer Ebene gibt es neue Decoding-Strategien wie DoLa (Decoding by Contrasting Layers). Die Idee: Faktenwissen ist in anderen Modellschichten kodiert als grammatikalisches Wissen. Durch Kontrastierung dieser Schichten lassen sich „Fakten-Token“ verstärken und halluzinierte Token unterdrücken – direkt während der Textgenerierung.
Für eine fokussierte Betrachtung von Anthropics Ansatz lohnt sich ein Blick in die Infos rund um Claude von Anthropic.
Werden Halluzinationen jemals verschwinden?
Die KI-Forschung ist in dieser Frage gespalten. Die Debatte wird prominent von zwei Turing-Preisträgern geführt – und sie kommen zu gegensätzlichen Antworten.
Yann LeCun: Nein – das Problem steckt in der Architektur
Yann LeCun, Chef-Wissenschaftler bei Meta, argumentiert: Halluzinationen sind eine unvermeidbare Konsequenz der autoregressiven Architektur. Da LLMs keine Weltmodelle besitzen, sondern nur Textstatistiken verarbeiten, fehlt ihnen die Verankerung in der Realität.
Sein mathematisches Argument: Wenn ein Modell pro Token eine Fehlerwahrscheinlichkeit von e hat, sinkt die Wahrscheinlichkeit einer komplett korrekten Sequenz exponentiell mit der Länge. Bei langen Texten konvergiert die Korrektheit gegen null. Für LeCun sind LLMs deshalb eine Sackgasse auf dem Weg zu echter Intelligenz. Er plädiert stattdessen für „Joint Embedding Predictive Architectures“ (JEPA), die abstrakte Konzepte statt einzelne Wörter vorhersagen.
Gerade bei der Unterscheidung zwischen Sprachmodell, Machine Learning und Deep Learning entstehen Missverständnisse, die Halluzinationen falsch einordnen lassen. Eine klare Differenzierung findest du unter KI vs. Machine Learning vs. Deep Learning – Unterschiede, wodurch du besser beurteilen kannst, welche Ebene für Fehler verantwortlich ist – Daten, Training oder Modelltyp.
Geoffrey Hinton: Ja – mit besserem Training lösbar
Geoffrey Hinton, oft als „Godfather of AI“ bezeichnet, sieht das anders. Für ihn sind Halluzinationen kein Bug, sondern ein Feature, das LLMs mit menschlicher Intelligenz teilen. Auch das menschliche Gedächtnis funktioniert ähnlich: Wir rufen keine Dateien ab, sondern rekonstruieren Erinnerungen jedes Mal neu – oft fehlerhaft.
Hinton argumentiert, dass Halluzinationen durch besseres Training und mehr Daten minimiert werden können, ähnlich wie Kinder lernen, Fantasie von Realität zu unterscheiden. Das Problem sei lösbar, vor allem durch bessere Überwachungsmechanismen, ohne die Architektur komplett verwerfen zu müssen.
Praxis-Tipps: So gehst du sicher mit LLM-Antworten um
Halluzinationen werden uns noch eine Weile begleiten. Wer LLMs professionell nutzt, braucht deshalb einen robusten Umgang damit. Die folgenden Tipps helfen dir, das Risiko zu minimieren.
Modellwahl und Setup: Nutze für Rechercheaufgaben Modelle mit Web-Browsing oder RAG-Funktionalität. Stelle wenn möglich die Temperatur niedrig ein – das reduziert kreative Abweichungen.
Zitations-Audit: Übernimm niemals Quellenangaben ungeprüft. Suche jeden genannten Artikel, jedes Gerichtsurteil und jede Statistik in einer externen Datenbank nach. Das ist die wichtigste Einzelmaßnahme.
Wenn du KI als Recherchewerkzeug einsetzt, spielt die Sucharchitektur eine entscheidende Rolle. Der Vergleich unter KI-Suche Vergleich: Perplexity vs. ChatGPT zeigt, warum Systeme mit integrierter Quellenanzeige das Halluzinationsrisiko deutlich senken können.
Logik-Check: Prüfe Zahlen auf Plausibilität. Widerspricht sich der Text selbst? Passt das genannte Geburtsdatum zum angegebenen Alter?
Triangulation: Nutze ein zweites, unabhängiges LLM, um Fakten gegenzuprüfen. Halluzinationen sind oft modellspezifisch – was GPT-4 erfindet, erkennt Claude möglicherweise als falsch, und umgekehrt.
Neues Chatfenster: Frage kritische Fakten in einem frischen Chat ohne Vorkontext ab. So verhinderst du, dass das Modell durch den bisherigen Gesprächsverlauf in eine bestimmte Richtung gelenkt wird.
Zero-Trust-Prinzip: Behandle LLM-Outputs wie die Aussage eines extrem belesenen, aber unzuverlässigen Praktikanten. Vertrauen ist gut, Kontrolle ist essenziell. Für kritische Entscheidungen muss immer ein Mensch die letzte Instanz sein.
FAQ
Was ist der Unterschied zwischen Halluzination und einer KI-Lüge?
Eine Lüge setzt Absicht voraus – das bewusste Wissen um die Wahrheit und den Willen zu täuschen. LLMs besitzen weder Bewusstsein noch moralische Absichten. Sie berechnen Wahrscheinlichkeiten und generieren den statistisch plausibelsten Text. Das Ergebnis kann identisch sein – der Nutzer wird getäuscht –, aber der Mechanismus ist ein anderer. Deshalb bevorzugen viele Forscher den Begriff Konfabulation: das unbewusste Füllen von Wissenslücken mit plausiblen Erfindungen.
Welche LLMs halluzinieren am wenigsten?
Laut dem Vectara Hallucination Leaderboard gehören GPT-4 und GPT-4 Turbo mit Halluzinationsraten um 3 % bei Zusammenfassungsaufgaben zu den zuverlässigsten Modellen. Ältere oder kleinere Modelle zeigen oft Raten zwischen 8 % und 20 %. Interessant: Modelle, die häufiger „Ich kann das nicht beantworten“ sagen (hohe Verweigerungsrate), halluzinieren tendenziell weniger. Niedrige Halluzinationsrate und hohe Verweigerungsrate hängen oft zusammen.
Kann RAG Halluzinationen komplett verhindern?
Nein. RAG reduziert Halluzinationen deutlich, indem es dem Modell verifizierbare Quellen zur Verfügung stellt. Aber es verschiebt das Problem teilweise nur: Wenn die Suche irrelevante Dokumente liefert, baut das Modell diese trotzdem ein. Informationen aus verschiedenen Quellen werden falsch kombiniert. Und bei sehr langen Kontexten ignoriert das Modell Inhalte in der Mitte. RAG ist ein wichtiger Baustein, aber kein Ersatz für menschliche Verifikation.
Hafte ich, wenn mein KI-Chatbot falsche Infos gibt?
Ja, das Risiko besteht. Der Fall Moffatt v. Air Canada (2024) hat gezeigt, dass Unternehmen für Falschinformationen ihrer KI-Agenten haften können. Das Gericht entschied: Es macht für den Kunden keinen Unterschied, ob eine falsche Auskunft von einer Webseite oder einem Chatbot stammt. Ein Disclaimer wie „KI kann Fehler machen“ schützt nicht automatisch vor Haftung. Wer KI-Chatbots im Kundenkontakt einsetzt, sollte klare Human-in-the-Loop-Prozesse für kritische Auskünfte etablieren.
Quellen und weitere Infos:
- Incident 541: Mata v. Avianca – Erfundene Gerichtsurteile – (Detaillierte Dokumentation des Falls, in dem ein Anwalt von ChatGPT generierte, fiktive Präzedenzfälle vor Gericht einreichte.)
- Moffatt v. Air Canada, 2024 BCCRT 149 – (Das offizielle Urteil des kanadischen Tribunals, das die Haftung von Unternehmen für falsche Auskünfte ihrer Chatbots festschreibt.)
- The Guardian: Google Bard’s James Webb Error – (Bericht über den historischen Werksverlust von Alphabet nach einer fehlerhaften astronomischen Behauptung während der Bard-Präsentation.)
- Cambridge Dictionary: Hallucinate – Word of the Year 2023 – (Offizielle Bekanntgabe und Begründung für die Wahl sowie die neue KI-spezifische Definition des Wortes.)