Wenn KI halluziniert — und warum sie dabei so überzeugend klingt (6)

Es gibt einen Moment, den viele Projektleiter kennen, die KI ernsthaft in ihrer Arbeit einsetzen: Man liest einen KI-generierten Text, alles klingt stimmig und präzise und erst bei der Überprüfung stellt sich heraus, dass eine Zahl falsch ist, eine Quelle nicht existiert oder eine Schlussfolgerung nicht belegt ist. Die KI hat halluziniert. Und niemand hatte es anhand des Textes gemerkt.

Dieser Beitrag befasst sich mit zwei eng miteinander verbundenen Phänomenen: dem Halluzinieren von KI-Systemen und den Grenzen des Kontextfensters. Beide haben in der Praxis direkte Auswirkungen auf die Qualität von KI-Ergebnissen und beide erfordern eine bewusste Haltung und Prüfroutine. Ausgangspunkt ist dabei eine Einsicht, die so naheliegt, dass sie leicht übersehen wird: KI halluziniert nicht trotz ihrer Intelligenz, sondern weil sie nach einem Prinzip funktioniert, das dem menschlichen Denken näher verwandt ist, als man auf den ersten Blick vermuten würde.

Warum KI-Systeme halluzinieren — und was das bedeutet

Bevor wir uns der technischen Erklärung zuwenden, lohnt ein Umweg über eine Erfahrung, die jeder kennt. Man ist völlig sicher, der Schwester gesagt zu haben, wann das Geburtstagsgeschenk ankommt. Die Erinnerung daran ist klar und lebendig. In Wirklichkeit hat man es nicht gesagt aber das, was man über die eigenen Gewohnheiten und den typischen Verlauf solcher Situationen weiß, hat das Gehirn zu einer stimmigen Erinnerung zusammengesetzt, die sich wie eine tatsächliche anfühlt. Die Fachpsychologie nennt dieses Phänomen Konfabulation: Das Gehirn ergänzt Gedächtnislücken unbewusst durch plausible Rekonstruktionen, ohne jede Täuschungsabsicht, und ohne dass der Betroffene es bemerkt. Erinnerungen sind keine Aufzeichnungen, sondern Rekonstruktionen aus dem, was man weiß, was man erwartet und was in der jeweiligen Situation naheliegt.

Genau dieser Mechanismus erklärt, warum KI-Systeme halluzinieren und warum das kein technischer Defekt ist, sondern eine strukturelle Eigenschaft. Ein Large Language Model wurde auf einer schier unvorstellbaren Menge menschlicher Texte trainiert: Bücher, Artikel, Gespräche, Berichte, Erzählungen, wissenschaftliche Veröffentlichungen. Dieses Trainingsmaterial ist wie alles, was Menschen geschrieben haben, durchzogen von Konfabulationen. Ungenaue Erinnerungen, plausibel klingende, aber nicht belegte Behauptungen, Schlussfolgerungen, die aus dem Kontext heraus richtig wirken, ohne es zu sein. Das Modell hat all das gelernt: nicht nur die korrekten Fakten, sondern auch die Muster, nach denen Menschen plausibel klingende Aussagen konstruieren, wenn sie etwas nicht genau wissen oder verstehen. Letztlich ein menschliches Verhalten, das die KI hier zeigt.

Wenn ein KI-System nun eine Frage beantwortet und die exakte Antwort nicht sicher abrufbar ist, tut es dasselbe wie das menschliche Gehirn: Es rekonstruiert eine plausible Antwort auf der Grundlage der gelernten Muster. Und diese Antwort klingt überzeugend, weil sie aus denselben sprachlichen Mustern besteht, aus denen auch korrekte Antworten bestehen würden. Der entscheidende Unterschied zum Menschen liegt darin, dass ein Mensch zumindest gelegentlich spürt, dass eine Erinnerung unsicher ist, er zögert, relativiert, fragt nach. Das KI-System hat diesen inneren Unsicherheitssensor nicht. Es produziert eine halluzinierte Aussage mit derselben sprachlichen Sicherheit wie eine korrekte. Halluzinationen sind damit kein Fehler im engeren Sinne, sondern eine Konsequenz des Prinzips, nach dem das System funktioniert. Die richtige Antwort darauf ist nicht Misstrauen gegenüber KI sondern ein bewusster Umgang damit.

Die häufigsten Halluzinationsmuster im Projektalltag

Halluzinationen treten nicht zufällig auf. Sie folgen erkennbaren Mustern, die es erleichtern, sie gezielt zu suchen und zu erkennen:

Erfundene Quellenangaben: Das ist einer der folgenreichsten Typen. KI-Systeme nennen Buchtitel, Autoren, Studien oder URLs, die so nicht existieren. Die Angaben klingen authentisch und spezifisch Autor, Erscheinungsjahr, Verlag sind aber bei der Prüfung nicht auffindbar. Wer solche Angaben ungeprüft in ein Dokument übernimmt, riskiert seine Glaubwürdigkeit.
Falsche oder konstruierte Zahlen: Marktanteile, Studienergebnisse, gesetzliche Fristen, Normwerte konkrete Zahlenangaben können vom Modell generiert werden, ohne einer tatsächlichen Quelle zu entsprechen. Dabei stimmt häufig die Größenordnung, nicht aber der genaue Wert. Das macht die Fehler schwerer erkennbar.
Veraltete Informationen als aktuelle dargestellt: Viele KI-Modelle haben ein Wissens-Enddatum. Entwicklungen, die danach eingetreten sind, kennen sie nicht. Dennoch antworten sie auf aktuelle Fragen, ohne darauf hinzuweisen, dass ihre Informationen möglicherweise nicht mehr zutreffen. Das betrifft insbesondere Gesetze, Normen, Marktdaten und technologische Standards.
Unzutreffende Schlussfolgerungen aus korrekten Fakten: Auch wenn die zitierten Einzelinformationen korrekt sind, kann die Schlussfolgerung des Modells falsch sein. KI-Systeme verbinden Informationen nach statistischen Mustern, nicht nach fachlicher Logik. Zwei richtige Aussagen können zu einer falschen Schlussfolgerung führen, die im Text völlig plausibel klingt.
Inkonsistenzen im selben Dokument: In längeren Texten kann es vorkommen, dass ein KI-System in einem Abschnitt eine Aussage trifft und in einem späteren Abschnitt eine damit unvereinbare. Das ist keine böswillige Täuschung, sondern eine Konsequenz der Art, wie Modelle Text generieren ohne ein konsistentes inneres Weltbild, das sie gegen ihre eigenen Aussagen abgleichen.

Der entscheidende Punkt: Es gibt im Text eines KI-Systems keinen sprachlichen Hinweis darauf, ob eine Aussage korrekt oder halluziniert ist. Beide klingen gleich. Wer das nicht weiß und KI-Outputs unkritisch übernimmt, übernimmt auch die Fehler und trägt dafür die Verantwortung.

Eine einfache Prüfroutine für den Projektalltag

Es ist weder realistisch noch notwendig, jeden Satz eines KI-Outputs zu überprüfen. Was jedoch möglich und sinnvoll ist: eine systematische Prüfroutine für jene Elemente, bei denen das Fehlerrisiko am größten ist. Die folgende Routine hat sich in der Praxis bewährt:

Konkrete Zahlen und Prozentwerte immer gesondert prüfen. Jede spezifische Zahl in einem KI-Output, Marktanteile, Wachstumsraten, Budgetangaben, statistische Werte, sollte über eine zweite, unabhängige Quelle verifiziert werden. Eine einfache Suche nach dem genannten Wert genügt in den meisten Fällen, um Fehler aufzudecken.
Quellenangaben stets überprüfen. Wenn ein KI-System eine Studie, ein Buch oder einen Artikel nennt, sollte diese Quelle vor der Verwendung verifiziert werden. Das bedeutet nicht, die Quelle vollständig zu lesen aber zu prüfen, ob sie existiert, ob der Autor tatsächlich zu diesem Thema publiziert hat und ob das genannte Erscheinungsjahr plausibel ist.
Gesetzliche Regelungen und Normen nie ungeprüft übernehmen. Fristen, Paragraphen, Grenzwerte und Normangaben gehören zu den Bereichen, in denen KI-Systeme besonders häufig veraltete oder schlicht falsche Informationen liefern. Sie müssen immer an der offiziellen Quelle Gesetzestext, Norm, Behördenwebseite überprüft werden.
Bei längeren Dokumenten auf Konsistenz prüfen. Wer KI nutzt, um längere Texte zu erstellen oder zusammenzufassen, sollte das Ergebnis auf innere Widersprüche lesen. Stimmt die Aussage in Abschnitt 3 noch mit der in Abschnitt 7 überein? Das ist keine übertriebene Vorsicht, sondern eine Konsequenz des oben beschriebenen Inkonsistenzmusters.
Das Modell nach seiner Sicherheit befragen. Formulierungen wie „Wie sicher bist du bei dieser Aussage?“ oder „Gibt es Aspekte, bei denen dein Wissen möglicherweise veraltet oder unvollständig ist?“ liefern häufig aufschlussreiche Hinweise. KI-Systeme tun das von sich aus selten aber auf direkte Nachfrage geben sie oft nützliche Einschätzungen zu den Grenzen ihres eigenen Wissens.

Das Kontextfenster: Was KI sich merkt — und was sie vergisst

Neben Halluzinationen gibt es ein zweites strukturelles Phänomen, das die Qualität von KI-Outputs beeinflusst und das in der öffentlichen Diskussion weniger Aufmerksamkeit bekommt, obwohl es im Arbeitsalltag erhebliche praktische Auswirkungen hat: das Kontextfenster.

Das Kontextfenster beschreibt die maximale Menge an Text, die ein KI-System in einer Konversation gleichzeitig „im Blick“ behalten kann. Alles, was innerhalb dieses Fensters liegt, steht dem Modell für seine Antworten zur Verfügung. Was außerhalb liegt, weil das Gespräch zu lang geworden ist oder weil zu viele Dokumente gleichzeitig eingelesen wurden, ist für das Modell nicht mehr zugänglich. Es „vergisst“ diese Informationen, ohne den Nutzer darauf hinzuweisen.

Die Maßeinheit für das Kontextfenster ist das Token. Ein Token entspricht grob einem halben bis einem Wort im Deutschen. Ein Dokument von 10 Seiten umfasst damit etwa 5.000 bis 8.000 Token; ein 100-seitiger Bericht entspricht ungefähr 50.000 bis 80.000 Token.

Wo wir technisch heute stehen

Die Größe des Kontextfensters hat sich in den vergangenen zwei Jahren dramatisch vergrößert. Die folgende Übersicht zeigt den aktuellen Stand der im Projektalltag relevanten Tools:

Tool	Lizenz	Kontextfenster	Ca. Seitenäquivalent	Praktische Einschränkung
ChatGPT Plus (GPT-4o)	ca. 20 €/Monat	128.000 Token	ca. 300 Seiten	Zuverlässig bis ca. 150 Seiten; danach sinkende Genauigkeit
Claude Pro	ca. 20 €/Monat	200.000 Token	ca. 450 Seiten	Stabil bis ca. 300 Seiten; stärker bei langen Dokumenten als ChatGPT
Microsoft Copilot (M365)	ca. 30 €/User/Monat	ca. 128.000 Token	ca. 300 Seiten	Abhängig von der Anwendung (Word, Teams, Outlook); variiert je Kontext
Perplexity Pro	ca. 20 €/Monat	variiert je Modell	nicht direkt vergleichbar	Jede Suchanfrage startet neu; kein akkumulierter Gesprächskontext

Diese Zahlen sind beeindruckend und sie laden zu einem Missverständnis ein, das in der Praxis häufig vorkommt: der Annahme, dass ein größeres Kontextfenster automatisch bessere Ergebnisse bedeutet. Das ist nicht der Fall.

Warum die angegebene Fenstergröße in der Praxis oft überschätzt wird

Untersuchungen zum Verhalten von KI-Systemen in langen Kontexten zeigen ein konsistentes Muster: Ein Modell, das ein Kontextfenster von 200.000 Token ausweist, beginnt in der Praxis bereits bei etwa 130.000 Token unzuverlässiger zu werden mit einem plötzlichen, nicht graduellen Leistungsabfall, wenn die Grenze überschritten wird. Die angegebene technische Kapazität und die tatsächlich nutzbare Kapazität klaffen damit auseinander.

Dazu kommt ein Effekt, den Forscher als „Lost in the Middle“ bezeichnet haben: KI-Modelle verarbeiten Informationen am Anfang und am Ende des Kontexts besonders gut. Informationen, die in der Mitte eines langen Gesprächs oder Dokuments stehen, werden schlechter abgerufen auch wenn sie technisch gesehen noch im Kontextfenster liegen. Aus Untersuchungen geht hervor, dass die Genauigkeit bei Informationen am Anfang oder Ende bei 85 bis 95 Prozent liegen kann, während sie für Informationen in der Mitte auf 76 bis 82 Prozent sinkt.

Praktische Konsequenz: Wichtige Informationen — Projektbeschreibungen, Rahmenbedingungen, Constraints gehören an den Anfang des Prompts, nicht in die Mitte eines langen Gesprächsverlaufs. Wer in einer langen Arbeitssitzung mit KI arbeitet, sollte entscheidende Kontextinformationen regelmäßig wiederholen oder eine neue Konversation beginnen.

Was das für den Projektalltag bedeutet

Aus dem Verständnis des Kontextfensters ergeben sich einige einfache, aber wirkungsvolle Empfehlungen für die tägliche KI-Nutzung:

Lange Gesprächsverläufe vermeiden: Wer eine neue Aufgabe beginnt, sollte eine neue Konversation öffnen nicht denselben Chat-Verlauf fortsetzen. Je länger ein Gespräch wird, desto mehr frühe Informationen fallen aus dem Fenster heraus. Ein neuer Kontext ist sauberer und zuverlässiger als ein überfüllter alter.
Wichtigen Kontext an den Anfang stellen: Wenn ein KI-System für eine bestimmte Aufgabe relevante Hintergrundinformationen kennen soll Projektart, Adressat, Rahmenbedingungen gehören diese an den Anfang des Prompts, nicht an das Ende oder in die Mitte einer längeren Eingabe.
Dokumente nicht blind „reinladen“: Wer große Dokumente in ein KI-System einliest, sollte sich bewusst sein, dass jedes Dokument Token verbraucht. Mehrere umfangreiche Dokumente gleichzeitig können das verfügbare Fenster für die eigentliche Aufgabe erheblich einschränken. Es ist oft sinnvoller, gezielt relevante Abschnitte einzufügen als ganze Dokumente.
Bei Inkonsistenzen das Kontextfenster als Ursache in Betracht ziehen: Wenn ein KI-System in einer langen Sitzung plötzlich inkonsistente oder dem früheren Gesprächsverlauf widersprechende Antworten gibt, ist das häufig kein Fehler des Modells im engeren Sinne sondern ein Hinweis darauf, dass frühere Teile des Gesprächs aus dem Kontextfenster herausgefallen sind.

Was Halluzinationen und Kontextfenster gemeinsam haben

Halluzinationen und die Grenzen des Kontextfensters sind keine Kinderkrankheiten, die mit der nächsten Modellgeneration verschwinden. Die Forschung ist sich darin einig, dass es sich um strukturelle Eigenschaften handelt, mit denen wir auf absehbare Zeit umgehen lernen müssen so wie wir gelernt haben, mit der Unzuverlässigkeit menschlicher Erinnerung umzugehen.

Dabei lohnt ein Blick auf eine These, die Dario Amodei, CEO von Anthropic, auf einem Entwicklertreffen im Jahr 2025 aufgestellt hat: Führende KI-Modelle halluzinieren bei bestimmten faktischen Aufgaben bereits seltener als Menschen. Das ist eine provokante Aussage und sie verdient es, ernst genommen zu werden. Denn wenn sie auch nur teilweise zutrifft, verschiebt sich die Frage. Nicht mehr: Wie verhindern wir, dass KI halluziniert? Sondern: Wie gehen wir mit einem System um, das zuverlässiger sein kann als wir selbst und dessen Grenzen wir dennoch kennen müssen?

Das Ziel ist damit nicht, KI-Systeme zu entwickeln, die nie halluzinieren. Das Ziel ist eine vorhersehbare, messbare Zuverlässigkeit und ein bewusster Umgang damit, der diesen Eigenschaften Rechnung trägt. Für den Projektleiter bedeutet das: nicht weniger KI nutzen, sondern bewusster. Die Prüfroutine, das Verständnis des Kontextfensters und das Wissen darüber, wie Halluzinationen entstehen, sind keine Zusatzbelastung. Sie sind der Kern einer professionellen KI-Kompetenz und der Unterschied zwischen einem Nutzer, der KI einsetzt, und einem, der sie wirklich beherrscht.

Andreas Frick ist Geschäftsführer der Projektforum Rhein Ruhr GmbH, IPMA Level A zertifizierter Trainer und Autor der Bücher „Projektkompetenz I & II“ (Springer, 2025). Er begleitet seit Jahren Projektmanagerinnen und Projektmanager auf dem Weg zur IPMA-Zertifizierung und entwickelt praxisnahe Lernformate an der Schnittstelle von Projektmanagement und digitaler Transformation.