Startseite Hub Funktionen Anwendungsfälle Anleitungen Plattform Preise Anmelden
Unkategorisiert

KI-Halluzinationsstatistiken: Forschungsbericht 2026

Radomir Basta Februar 15, 2026 16 min read
KI-Genauigkeit vs. Halluzination

Zusammenfassung

KI-Halluzinationen – Fälle, in denen Modelle falsche oder erfundene Informationen mit voller Überzeugung generieren – stellen eines der kritischsten und dennoch am meisten unterschätzten Risiken in der heutigen KI-gestützten Geschäftswelt dar. Die nachfolgenden Daten verdeutlichen das Ausmaß. Sie zeigen auch, dass kein Modell immun ist, weshalb Halluzinationsminderung durch Multi-Modell-Verifizierung zu einer strukturellen Anforderung wird, nicht zu einer optionalen Schutzmaßnahme.
Dieser Bericht kompiliert statistische Rohdaten aus mehreren maßgeblichen Benchmarks, Branchenstudien und Echtzeitvorfallverfolgung als inhaltliche Grundlage.

Die Kernzahlen sind erschütternd:

  • Globale Geschäftsverluste durch KI-Halluzinationen erreichten allein 2024 67,4 Milliarden US-Dollar[1][2]
  • 47 % der Führungskräfte haben wichtige Entscheidungen auf Basis unverifizierter KI-generierter Inhalte getroffen[3][1]
  • Selbst die besten KI-Modelle halluzinieren bei einfachen Zusammenfassungsaufgaben noch mindestens 0,7 % der Zeit – und die Raten steigen auf 18,7 % bei juristischen Fragen und 15,6 % bei medizinischen Anfragen[4]
  • Bei schwierigen Wissensfragen halluzinieren alle bis auf drei von 40 getesteten Modellen häufiger, als sie eine korrekte Antwort geben[5][6]

Was ist eine KI-Halluzination? (Technische Definition + Verständliche Erklärung)

Verständliche Erklärung

Eine KI-Halluzination entsteht, wenn ein KI-Modell sich etwas ausdenkt und dabei sehr überzeugend wirkt. Es sagt nicht „Ich weiß es nicht“ – stattdessen präsentiert es erfundene Fakten, ausgedachte Statistiken, falsche Gerichtsfälle oder nicht existierende medizinische Studien, als wären sie real. Die Antwort klingt autoritativ und liest sich perfekt. Genau das macht sie gefährlich.[7]

Technische Definition

In technischer Hinsicht bezeichnet Halluzination generierte Ausgaben, die nicht in den bereitgestellten Eingabedaten oder der faktischen Realität verankert sind. Es gibt zwei Haupttypen:

  • Intrinsische Halluzination (auch „Faithfulness-Halluzination“ genannt): Das Modell widerspricht Informationen, die in seinem Ausgangsmaterial ausdrücklich enthalten sind. Zum Beispiel fügt es beim Zusammenfassen Fakten hinzu, die im Originaldokument nicht vorkommen.[8]
  • Extrinsische Halluzination (auch „Factuality-Halluzination“ genannt): Das Modell erzeugt Informationen, die sich anhand keiner bekannten Quelle verifizieren lassen – es erfindet Fakten, Zitate, Statistiken oder Ereignisse aus dem Nichts.[9]

Eine zentrale technische Erkenntnis aus MIT-Forschung (Januar 2025): Wenn KI-Modelle halluzinieren, verwenden sie tendenziell selbstbewusstere Sprache als bei faktischen Informationen. Modelle nutzten mit 34 % höherer Wahrscheinlichkeit Formulierungen wie „definitiv“, „sicherlich“ und „ohne Zweifel“, wenn sie falsche Informationen erzeugten.[4]

Das ist das zentrale Paradoxon: Je falscher die KI liegt, desto sicherer klingt sie.

Warum es passiert

LLMs sind im Kern Vorhersage-Engines, keine Wissensdatenbanken. Sie erzeugen Text, indem sie auf Basis von Mustern aus Trainingsdaten das statistisch wahrscheinlichste nächste Wort vorhersagen. Sie „verstehen“ Wahrheit nicht – sie sagen Plausibilität voraus. Trifft das Modell auf eine Lücke in seinen Trainingsdaten oder eine mehrdeutige Anfrage, füllt es diese Lücke eher mit plausibel klingender Erfindung, statt Unsicherheit einzugestehen.[1]

Benchmark 1: Vectara Hallucination Leaderboard (HHEM)

Was es misst

Das Vectara Hughes Hallucination Evaluation Model (HHEM) Leaderboard ist der am häufigsten zitierte Halluzinations-Benchmark der Branche. Es misst Grounded Hallucination – wie oft ein LLM beim Zusammenfassen eines Dokuments, das ihm ausdrücklich gegeben wurde, falsche Informationen einführt. Man kann es so verstehen: „Hält sich das Modell an das, was direkt vor ihm steht?“[10][8]
KI-Halluzinations-Benchmarks (Live-Tabelle) mit Vectara Hughes Hallucination Evaluation Model (HHEM) Leaderboard.

Die Methodik: Über 1.000 Dokumente werden jedem Modell mit der Anweisung gegeben, ausschließlich die Fakten im Dokument zu verwenden. Vectaras HHEM-Modell prüft dann jede Zusammenfassung gegen die Quelle, um erfundene Behauptungen zu identifizieren.[10]

Warum das für Geschäftsanwender wichtig ist

Dies ist direkt analog dazu, wie KI in RAG-Systemen (Retrieval Augmented Generation) eingesetzt wird – dem Rückgrat von Unternehmens-KI-Suche, Kundensupport-Bots und Dokumentenanalysetools. Wenn ein Modell bei der Zusammenfassung halluziniert, wird es auch bei der Beantwortung von Fragen aus der Wissensdatenbank Ihres Unternehmens halluzinieren.[10]

Halluzinationsraten – Originaldatensatz (April 2025)

KI-Halluzinationsraten Vectara


Dieser Datensatz von ~1.000 Dokumenten war bis Mitte 2025 der Standard-Benchmark.[10]

ModellAnbieterHalluz.-Rate Faktische Konsistenz
Gemini-2.0-Flash-001Google0.7%99.3%
Gemini-2.0-Pro-ExpGoogle0.8%99.2%
o3-mini-highOpenAI0.8%99.2%
Gemini-2.5-Pro-ExpGoogle1.1%98.9%
GPT-4.5-PreviewOpenAI1.2%98.8%
Gemini-2.5-Flash-PreviewGoogle1.3%98.7%
o1-miniOpenAI1.4%98.6%
GPT-5 / ChatGPT-5OpenAI1.4%98.6%
GPT-4oOpenAI1.5%98.5%
GPT-4o-miniOpenAI1.7%98.3%
GPT-4-TurboOpenAI1.7%98.3%
GPT-4OpenAI1.8%98.2%
Grok-2xAI1.9%98.1%
GPT-4.1OpenAI2.0%98.0%
Grok-3-BetaxAI2.1%97.8%
Claude-3.7-SonnetAnthropic4.4%95.6%
Claude-3.5-SonnetAnthropic4.6%95.4%
Claude-3.5-HaikuAnthropic4.9%95.1%
Grok-4xAI4.8%~95,2 %
Llama-4-MaverickMeta4.6%95.4%
Claude-3-OpusAnthropic10.1%89.9%
DeepSeek-R1DeepSeek14.3%85.7%

Quelle: Vectara HHEM Leaderboard, GitHub-Repository, April 2025[10]

Wichtigste Erkenntnisse aus Vectara (alter Datensatz)

  • Google Gemini-Modelle dominieren die Spitzenplätze, mit Gemini-2.0-Flash an der Spitze bei 0,7 %[4]
  • OpenAI ist durchweg stark in der gesamten GPT-4-Familie, mit Werten zwischen 0,8 % und 2,0 %[10]
  • Grok-4 mit 4,8 % liegt deutlich höher als seine GPT- und Gemini-Konkurrenten – fast das 7-fache der Halluzinationsrate des besten Gemini-Modells[11]
  • Claude-Modelle zeigen eine überraschende Streuung: Claude-3.7-Sonnet mit 4,4 % ist respektabel, aber Claude-3-Opus mit 10,1 % ist besorgniserregend hoch[10]
  • Das o3-mini-high-Reasoning-Modell von OpenAI erreichte 0,8 %, was zeigt, dass Reasoning-Fähigkeiten tatsächlich die faktische Verankerung verbessern können[10]

Halluzinationsraten – Neuer Datensatz (November 2025 – Februar 2026)

Vectara startete Ende 2025 einen vollständig überarbeiteten Benchmark mit 7.700 Artikeln (gegenüber 1.000), längeren Dokumenten (bis zu 32.000 Token) und komplexeren Inhalten aus Recht, Medizin, Finanzen, Technologie und Bildung.[12]

Die Ergebnisse sind dramatisch höher – absichtlich. Dieser Benchmark spiegelt reale Unternehmensarbeitslasten besser wider.[12]

ModellAnbieterHalluz.-Rate
Gemini-2.5-Flash-LiteGoogle3.3%
Mistral-LargeMistral4.5%
DeepSeek-V3.2-ExpDeepSeek5.3%
GPT-4.1OpenAI5.6%
Grok-3xAI5.8%
DeepSeek-R1-0528DeepSeek7.7%
Claude Sonnet 4.5Anthropic>10%
GPT-5OpenAI>10%
Grok-4xAI>10%
Gemini-3-ProGoogle13.6%

Quelle: Vectara Hallucination Leaderboard, neuer Datensatz, November 2025[13][12]

Die Entdeckung der „Reasoning Tax“

Vectaras aktualisiertes Leaderboard zeigte eine entscheidende Erkenntnis: Reasoning-/Thinking-Modelle schneiden bei grounded Summaries tatsächlich schlechter ab. Modelle wie GPT-5, Claude Sonnet 4.5, Grok-4 und Gemini-3-Pro – die als starke „Reasoner“ vermarktet werden – lagen beim schwierigeren Benchmark alle über 10 % Halluzinationsrate.[12][14][15]

Die Hypothese: Reasoning-Modelle investieren Rechenaufwand in das „Durchdenken“ von Antworten, was sie manchmal dazu bringt, zu überdenken und vom Ausgangsmaterial abzuweichen, statt sich schlicht an den bereitgestellten Text zu halten. Das ist ein wichtiger Vorbehalt für Enterprise-RAG-Anwendungen.[15]

Benchmark 2: AA-Omniscience (Artificial Analysis)

Was es misst

Im November 2025 veröffentlicht, ist AA-Omniscience ein Wissens- und Halluzinations-Benchmark mit 6.000 Fragen über 42 Themen in 6 Bereichen: Wirtschaft, Geistes- und Sozialwissenschaften, Gesundheit, Recht, Softwareentwicklung und Naturwissenschaften/Mathematik.[5][6]

Im Gegensatz zu traditionellen Benchmarks, die einfach nur richtige Antworten zählen, bestraft der Omniscience Index falsche Antworten – das heißt, ein Modell, das falsch rät, wird härter bestraft als eines, das „Ich weiß es nicht“ zugibt. Die Skala reicht von -100 bis +100.[6]

Warum dieser Benchmark anders ist (und beängstigend)

Die meisten KI-Benchmarks belohnen Modelle dafür, jede Frage zu beantworten, was Raten begünstigt. AA-Omniscience dreht das um: Es fragt „weiß das Modell, wann es etwas nicht weiß?“ Die Antwort lautet bei den meisten Modellen nein.[6]

Ergebnisse

KI-Genauigkeit vs. Halluzination


Von 40 getesteten Modellen erreichten nur VIER einen positiven Omniscience Index – das bedeutet, 36 von 40 Modellen geben bei schwierigen Wissensfragen eher eine überzeugte falsche Antwort als eine korrekte.[5][6]

ModellGenauigkeitHalluz.-Rate* Omniscience Index
Gemini 3 Pro53%88%13
Claude 4.1 Opus36%Niedrig (beste)4.8
GPT-5.1 (hoch)35-39%51-81%Positiv
Grok 440%64%Positiv
Claude 4.5 Sonnet31%48%Negativ
Claude 4.5 Haiku26 % (niedrigste)Negativ
Claude Opus 4.543%58%Negativ
Grok 4.1 Fast72%Negativ
Kimi K2 090569%Negativ
Kimi K2 Thinking74%Negativ
DeepSeek V3.2 Ex81%Negativ
DeepSeek R1 052883%Negativ
Llama 4 Maverick87.58%Negativ

Halluzinationsrate hier = Anteil falscher Antworten an allen falschen Versuchen (Übersicherheitsmetrik)

Quelle: Artificial Analysis AA-Omniscience Benchmark, November 2025[16][5]

Domänenspezifische Leader

Kein einzelnes Modell dominiert alle Wissensbereiche:[5]

DomäneBestes Modell
RechtClaude 4.1 Opus
SoftwareentwicklungClaude 4.1 Opus
GeisteswissenschaftenClaude 4.1 Opus
WirtschaftGPT-5.1.1
GesundheitGrok 4
NaturwissenschaftenGrok 4

Das Gemini 3 Pro Paradoxon

Gemini 3 Pro erreichte mit 53 % die höchste Genauigkeit mit großem Abstand – zeigte aber auch eine 88 % Halluzinationsrate. Das bedeutet, dass es, wenn es eine Antwort nicht kennt, in 88 % der Fälle eine erfindet, anstatt Unsicherheit zuzugeben. Hohe Genauigkeit + hohe Halluzination = ein Modell, das viel weiß, aber ständig über das lügt, was es nicht weiß.[5]

Die Grok-Geschichte

Grok 4 liegt bei einer 64 % Halluzinationsrate bei AA-Omniscience, und sein neueres Geschwistermodell Grok 4.1 Fast ist mit 72 % sogar schlechter. Beim Vectara-Benchmark für verankerte Zusammenfassungen kam Grok-4 auf 4,8 % – fast das 7-fache des besten Gemini-Modells. Und in einer Studie des Columbia Journalism Review zur Genauigkeit von Nachrichtenzitaten halluzinierte Grok-3 erschreckende 94 % der Zeit.[16][11][17]

xAI behauptet, Grok 4.1 halluziniere „dreimal seltener als frühere Grok-Modelle“, und eine separate Analyse von Clarifai deutet darauf hin, dass die Halluzinationsraten durch Trainingsverbesserungen von ~12 % auf ~4 % gesunken seien. Die AA-Omniscience-Daten erzählen jedoch eine andere Geschichte, wenn die Fragen schwierig werden.[18][19]

Benchmark 3: Columbia Journalism Review Zitierstudie

Eine Studie des Columbia Journalism Review vom März 2025 testete KI-Modelle auf ihre Fähigkeit, Nachrichtenquellen korrekt zu zitieren. Die Ergebnisse waren alarmierend:[20][17]

ModellHalluzinationsrate
Perplexity37%
Copilot40%
Perplexity Pro45%
ChatGPT67%
DeepSeek68%
Gemini76%
Grok-277%
Grok-394%

Quelle: Columbia Journalism Review, März 2025, via 5GWorldPro/Groundstone AI[17][20]

Diese Studie ist besonders relevant für Perplexity-/Sonar-Nutzer: Obwohl Perplexity in diesem Test am „besten“ abschnitt, bedeutet eine Halluzinationsrate von 37 % bei Zitieraufgaben, dass mehr als jede dritte zitierte Quelle erfundene Behauptungen enthalten kann. Eine separate Analyse stellte fest, dass Perplexitys größtes Problem darin besteht, dass es „reale Quellen mit erfundenen Behauptungen zitiert“ – die URLs wirken echt, aber die diesen Quellen zugeschriebenen Informationen sind ausgedacht.[21]

Benchmark 4: Finanz-Halluzinationsraten

Eine 2025 im International Journal of Data Science and Analytics veröffentlichte Studie testete KI-Chatbots speziell auf Finanzliteratur-Referenzen:[17]

ModellHalluzinationsrate (Finanzen)
ChatGPT-4o20.0%
GPT o1-preview21.3%
Gemini Advanced76.7%

Weitere Erkenntnisse zu KI im Finanzwesen:[22]

  • 78 % der Finanzdienstleistungsunternehmen setzen jetzt KI für Datenanalyse ein
  • Finanz-KI-Aufgaben zeigen 15–25 % Halluzinationsraten ohne Schutzmaßnahmen
  • Unternehmen melden 2,3 signifikante KI-bedingte Fehler pro Quartal
  • Kosten pro Vorfall reichen von 50.000 bis 2,1 Millionen US-Dollar
  • 67 % der VC-Firmen nutzen KI für Deal-Screening; durchschnittliche Fehlerentdeckungszeit beträgt 3,7 Wochen – oft zu spät
  • Die Halluzination eines Robo-Advisors betraf 2.847 Kundenportfolios und kostete 3,2 Millionen US-Dollar an Sanierungskosten

Fachspezifische Halluzinationsraten

KI-Bereichs-Halluzinationsraten


Selbst die leistungsstärksten Modelle zeigen je nach Themengebiet dramatisch unterschiedliche Halluzinationsraten. Diese Daten von AllAboutAI sind entscheidend für das Verständnis des Risikos nach Anwendungsfall:[4]

WissensbereichTop-Modelle RateDurchschnitt aller Modelle
Allgemeinwissen0.8%9.2%
Historische Fakten1.7%11.3%
Finanzdaten2.1%13.8%
Technische Dokumentation2.9%12.4%
Wissenschaftliche Forschung3.7%16.9%
Medizin/Gesundheitswesen4.3%15.6%
Coding & Programmierung5.2%17.8%
Rechtliche Informationen6.4%18.7%

Medizinische Halluzination – Detailanalyse

Eine 2025 in MedRxiv veröffentlichte Studie analysierte 300 von Ärzten validierte klinische Vignetten:[23]

  • Ohne Minderungs-Prompts: 64,1 % Halluzinationsrate bei langen Fällen, 67,6 % bei kurzen Fällen
  • Mit Minderungs-Prompts: sank auf 43,1 % bzw. 45,3 % (33 % Reduktion)
  • GPT-4o war der beste Performer: sank von 53 % auf 23 % mit Minderung
  • Open-Source-Modelle: überschritten 80 % Halluzinationsrate in medizinischen Szenarien

Selbst bei der besten medizinischen Halluzinationsrate von 23 % enthält fast jede vierte medizinische KI-Antwort erfundene Informationen. ECRI, eine globale gemeinnützige Organisation für Gesundheitssicherheit, führte KI-Risiken als Gesundheitstechnologie-Gefahr Nr. 1 für 2025 auf.[24]

Juristische Halluzination – Detailanalyse

Die Stanford RegLab/HAI-Studie zu juristischen Halluzinationen bleibt die maßgebliche Forschung:[25][9]

  • LLMs halluzinieren bei spezifischen juristischen Anfragen zwischen 69 % und 88 % der Zeit
  • Bei Fragen zur Kernentscheidung eines Gerichts halluzinieren Modelle mindestens 75 % der Zeit
  • Modelle fehlt oft Selbstwahrnehmung über ihre Fehler und sie verstärken falsche juristische Annahmen
  • Je komplexer die juristische Anfrage, desto höher die Halluzinationsrate
  • 83 % der Juristen sind auf erfundene Rechtsprechung gestoßen, als sie KI nutzten[26]

Reale Geschäftsauswirkungen: Die Zahlen

Das 67,4-Milliarden-Dollar-Problem

Geschäftsauswirkungen von KI-Halluzinationen


Globale Geschäftsverluste, die KI-Halluzinationen zugeschrieben werden, erreichten 2024 67,4 Milliarden US-Dollar. Diese Zahl stammt aus der umfassenden AllAboutAI-Studie und repräsentiert dokumentierte direkte und indirekte Kosten von Unternehmen, die sich auf ungenaue KI-generierte Inhalte verlassen.[1][2]

Wichtigste Statistiken zu Geschäftsauswirkungen

MetrikWertQuelle
Globale Verluste durch KI-Halluzinationen (2024)67,4 Milliarden US-DollarAllAboutAI, 2025 [1]
Führungskräfte, die unverifizierte KI-Erkenntnisse nutzen47%Deloitte, 2025 [1]
KI-Fehler durch Halluzinationen/Genauigkeitsfehler82%Testlio, 2025 [27]
Kundenservice-Bots, die Überarbeitung benötigen39%Testlio, 2024 [3]
SEC-Bußgelder für KI-Falschdarstellungen12,7 Millionen US-DollarBranchenberichte [3]
Unternehmen mit Vertrauensverlusten bei Investoren54%Branchenberichte [3]
Kosten pro Mitarbeiter für Halluzinationsminderung14.200 US-Dollar/JahrForrester, 2025 [26][28]
Mitarbeiterzeit zur Verifizierung von KI-Inhalten4,3 Stunden/WocheForbes/AllAboutAI [28]
Marktwachstum für Halluzinationserkennungstools318% (2023-2025)Gartner, 2025 [26]
Unternehmens-KI-Richtlinien mit Halluzinationsprotokollen91%AllAboutAI, 2025 [26]
Gesundheitsorganisationen, die KI-Einführung verzögern64%AllAboutAI, 2025 [26]
Investitionen in halluzinationsspezifische Lösungen12,8 Milliarden US-DollarAllAboutAI, 2023–2025 [4]
RAG-Wirksamkeit bei Halluzinationsreduktion71%AllAboutAI, 2025 [4]

Das Produktivitätsparadoxon

Die grausamste Ironie: KI sollte uns produktiver machen. Stattdessen verbringen Mitarbeiter jetzt durchschnittlich 4,3 Stunden pro Woche – mehr als einen halben Arbeitstag – nur damit zu verifizieren, ob das, was die KI ihnen gesagt hat, tatsächlich wahr ist. Das sind ungefähr 14.200 US-Dollar pro Mitarbeiter pro Jahr an reinem Verifizierungs-Overhead. Für ein Unternehmen mit 500 Mitarbeitern, die KI-Tools nutzen, sind das 7,1 Millionen US-Dollar jährlich, die nur für die Überprüfung der KI-Hausaufgaben ausgegeben werden.[26][28]

Rechtsvorfälle: Die Gerichtssaalkrise

Die Zahlen werden schlechter, nicht besser

Trotz wachsenden Bewusstseins beschleunigen sich KI-Halluzinationen in Rechtsschriften:[29][30]

  • 2023: 10 dokumentierte Gerichtsurteile mit KI-Halluzinationen
  • 2024: 37 dokumentierte Urteile
  • Erste 5 Monate 2025: 73 dokumentierte Urteile
  • Allein Juli 2025: 50+ Fälle mit gefälschten Zitaten

Der Rechtsforscher Damien Charlotin führt eine öffentliche Datenbank von 120+ Fällen, in denen Gerichte KI-halluzinierte Zitate, erfundene Fälle oder gefälschte Rechtszitate fanden.[30]

Wer macht diese Fehler?

Die Verschiebung von Amateur zu Profi ist alarmierend:[30]

  • 2023: 7 von 10 Halluzinationsfällen stammten von Selbstvertretern, 3 von Anwälten
  • Mai 2025: 13 von 23 entdeckten Fällen waren die Schuld von Anwälten und Juristen

Bemerkenswerte Fälle

  • Johnson v. Dunn: Anwälte reichten zwei Anträge mit gefälschten Rechtsquellen ein, die von ChatGPT generiert wurden. Ergebnis: 51-seitige Sanktionsanordnung, öffentlicher Verweis, Disqualifikation vom Fall, Überweisung an Zulassungsbehörden[29]
  • Morgan & Morgan (Feb. 2025): Eine der größten Personenschadenskanzleien Amerikas sandte eine dringende Warnung an 1.000+ Anwälte, nachdem ein Bundesrichter in Wyoming Sanktionen wegen gefälschter KI-generierter Zitate in einer Walmart-Klage androhte[31]
  • Gerichte haben in mindestens fünf Fällen Geldsanktionen von 10.000 $ oder mehr verhängt, vier davon im Jahr 2025[30]
  • Fälle wurden in den USA, im Vereinigten Königreich, in Südafrika, Israel, Australien und Spanien dokumentiert[30]

Gesundheitswesen: Wo Halluzinationen töten können

Bedenken der FDA und zu Medizinprodukten

  • Die FDA hat bis Ende 2025 1.357 KI-gestützte Medizinprodukte zugelassen – doppelt so viele wie Ende 2022[32]
  • Forschung von Johns Hopkins, Georgetown und Yale ergab, dass 60 von der FDA zugelassene KI-Medizinprodukte in 182 Rückrufen involviert waren[32]
  • 43 % dieser Rückrufe erfolgten innerhalb eines Jahres nach der Zulassung[32]
  • Das Johnson & Johnson TruDi Navigation System (KI-gestütztes Gerät für Nasennebenhöhlen-Operationen) wurde mit mindestens 10 Verletzungen und 100 Fehlfunktionen in Verbindung gebracht, darunter Liquorlecks, Schädelperforationen und Schlaganfälle[33][32]

Medizinische KI-Fehlinformationen

Es wurde festgestellt, dass führende KI-Modelle manipulierbar sind und gefährlich falsche medizinische Ratschläge produzieren – etwa die Behauptung, Sonnencreme verursache Hautkrebs, oder die Verknüpfung von 5G mit Unfruchtbarkeit – inklusive erfundener Zitate aus Fachzeitschriften wie The Lancet.[4]

Historischer Trend: Fortschritt ist real, aber ungleichmäßig

Die gute Nachricht

historischer Trend von KI-Halluzinationen


Die Halluzinationsraten der besten Modelle sind drastisch gesunken:[4]

JahrBeste HalluzinationsrateKontext
2021~21,8 %Frühe GPT-3-Ära
2022~15,0 %Verbesserung durch RLHF
2023~8,0 %GPT-4 und Wettbewerb
2024~3,0 %Rasante Verbesserung
20250.7%Gemini-2.0-Flash führt

Das entspricht einer Reduktion um 96 % bei den Halluzinationsraten der besten Modelle über vier Jahre.[4]

Die schlechte Nachricht

  • Die Verbesserung ist je nach Anbieter ungleichmäßig. Einige Claude-Modelle wurden sogar schlechter: Claude 3 Sonnet stieg von 6,0 % auf 16,3 %, und Claude 2 verdoppelte sich nahezu von 8,5 % auf 17,4 % im Vectara-Benchmark über die Zeit.[23]
  • Neue „schwierigere“ Benchmarks zeigen die Lücke zwischen einfachen Aufgaben und realer Komplexität. Auf Vectaras neuem Datensatz liegt selbst Gemini-3-Pro bei 13,6 %.[12]
  • Die AA-Omniscience-Ergebnisse sind ernüchternd: Bei wirklich schwierigen Fragen halluzinieren 36 von 40 Modellen immer noch häufiger, als sie korrekt antworten.[6]
  • Domänenspezifische Raten bleiben gefährlich hoch: Recht (18,7 % im Durchschnitt), Medizin (15,6 %) und Coding (17,8 %).[4]

Grok: Entwicklung

  • Grok-1/2-Ära: Positioniert als stärker „personality-driven“ Modell mit weniger Fokus auf faktischer Verankerung
  • Grok-3: Erreichte 2,1 % auf Vectaras altem Summarization-Benchmark (ordentlich), aber 94 % bei Zitiergenauigkeit im Test der Columbia Journalism Review[10][17]
  • Grok-4: 4,8 % bei Vectara, 64 % bei AA-Omniscience (schwierige Fragen)[16][11]
  • Grok 4.1: xAI behauptete „3x weniger Halluzinationen“, Clarifai schätzte eine Reduktion von ~12 % auf ~4 %, aber AA-Omniscience zeigte 72 % bei Grok 4.1 Fast (schlechter als Grok 4 mit 64 %)[18][19][16]

Die Inkonsistenz zwischen Benchmarks deutet darauf hin, dass Groks Verbesserungen eher aufgabenspezifisch als allgemein übertragbar sind.

Modell-für-Modell-Zusammenfassung für Suprmind.ai-Modelle

OpenAI-Modelle

ModellVectara (Alt)Vectara (Neu)AA-OmniscienceHinweise
GPT-5 / ChatGPT-51.4%>10 %Solide Verbesserung bei einfachen Aufgaben; Schwierigkeiten bei schweren [11]
GPT-5.1 (hoch)51–81 % Halluzinationen, 35 % GenauigkeitAm besten für die Business-Domäne; positiver Omniscience Index [5]
GPT-4o1.5%Arbeitstier-Modell, konstant gute Leistung [10]
o3-mini-high0.8%Bestes OpenAI-Modell auf dem alten Vectara [10]

Anthropic-Claude-Modelle

ModellVectara (Alt)Vectara (Neu)AA-OmniscienceHinweise
Claude 4.5 Sonnet>10 %48 % Halluzinationen, 31 % GenauigkeitMittelfeld bei Wissensaufgaben [16]
Claude 4.5 Haiku26 % Halluzinationen (am niedrigsten!)Bestes Unsicherheitsmanagement [16]
Claude Opus 4.558 % Halluzinationen, 43 % GenauigkeitGute Genauigkeit, aber hohe Überkonfidenz [16]
Claude 4.1 Opus4,8 Omniscience IndexAm besten in Recht, SW Engineering, Geisteswissenschaften [5]
Claude-3.7-Sonnet4.4%Ordentlich bei Summarization [10]

xAI-Grok-Modelle

ModellVectara (Alt)Vectara (Neu)AA-OmniscienceSonstiges
Grok 44.8%>10 %64 % Halluzinationen, 40 % GenauigkeitAm besten in Gesundheit & Wissenschaft; positiver Omniscience Index [11][16]
Grok 4.172 % Halluzinationen (Fast-Variante)xAI behauptet 3x Verbesserung, Datenlage ist gemischt [16][19]
Grok 32.1%5.8%94 % im News-Citation-Test [17]

Google-Gemini-Modelle

ModellVectara (Alt)Vectara (Neu)AA-OmniscienceHinweise
Gemini 3 Pro13.6%88 % Halluzinationen, 53 % Genauigkeit, Index: 13Höchste Genauigkeit, aber extreme Überkonfidenz [5][12]
Gemini 2.5-Pro1.1%Stark auf dem alten Benchmark [10]
Gemini 2.5-Flash1.3%[10]
Gemini 2.5-Flash-Lite3.3%Am besten auf dem neuen Vectara-Benchmark [13]

Perplexity / Sonar

  • Kein direkter Vectara- oder AA-Omniscience-Eintrag für Perplexitys proprietäre Modelle
  • Perplexity nutzt zugrunde liegende Modelle (historisch u. a. DeepSeek-R1, das bei Vectara ~14,3 % Halluzinationsrate hat)[34]
  • Test der Columbia Journalism Review: Perplexity 37 % Halluzinationen bei Zitiergenauigkeit (bestes Ergebnis in diesem Test, aber immer noch 1 von 3)[20]
  • Perplexity Pro: 45 % Halluzinationen im selben Test[20]
  • Einzigartiges Risikoprofil: „zitiert reale Quellen mit erfundenen Behauptungen“ – die URLs sind echt, aber die zugeschriebenen Informationen sind erfunden[21]

Die gefährlichste Halluzination: Die, die Sie nicht bemerken

Die Daten zeigen eine entscheidende Erkenntnis, die die meisten KI-Nutzer übersehen: Halluzination ist kein gelegentlicher Bug – sie ist ein grundlegendes Merkmal der Funktionsweise dieser Modelle. Die wichtigsten Kennzahlen, die das verdeutlichen:

  1. 47 % der Führungskräfte haben auf halluzinierte KI-Inhalte reagiert – das heißt, ungefähr die Hälfte KI-gestützter Geschäftsentscheidungen könnte auf erfundenen Grundlagen beruhen[1]
  2. 82 % der KI-Bugs gehen auf Halluzinationen und Genauigkeitsfehler zurück, nicht auf Abstürze oder sichtbare Fehler – das System wirkt, als funktioniere es perfekt, liefert aber falsche Antworten[27]
  3. 4,3 Stunden pro Woche und Mitarbeitendem werden für die Verifizierung von KI-Output aufgewendet – und das in Organisationen, die wissen, dass sie prüfen müssen[28]
  4. Die durchschnittlichen Kosten pro größerem Halluzinationsvorfall reichen von 18.000 $ im Kundenservice bis zu 2,4 Mio. $ bei Behandlungsfehlern im Gesundheitswesen[1]

Herunterladbare Daten-Assets

Drei CSV-Dateien wurden als Rohdatenbasis für die Content-Erstellung vorbereitet:

  1. ai_hallucination_data.csv — Umfassende, modellweise Halluzinationsraten über alle Benchmarks hinweg
  2. domain_hallucination_rates.csv — Domänenspezifische Raten für Top-Modelle vs. alle Modelle
  3. business_impact_data.csv — 22 zentrale Business-Impact-Kennzahlen mit Quellen und Jahren

Glossar: Schlüsseldefinitionen

BegriffDefinition
HalluzinationKI-generierter Inhalt, der faktisch falsch oder erfunden ist und mit hoher Sicherheit präsentiert wird
Grounded HallucinationFalsche Informationen, die beim Zusammenfassen eines bereitgestellten Dokuments eingeführt werden
Factual HallucinationErfundene Fakten, Statistiken oder Zitate ohne Grundlage in der Realität
RAG (Retrieval Augmented Generation)Technik, die KI mit externen Wissensdatenbanken verbindet, um Halluzinationen zu reduzieren; senkt die Raten um ~71 % [4]
HHEM (Hughes Hallucination Evaluation Model)Vectaras Modell zur Erkennung von Halluzinationen in Zusammenfassungen (Score 0–1, unter 0,5 = Halluzination) [8]
Omniscience IndexAA-Omniscience-Metrik (-100 bis +100), die richtige Antworten belohnt und selbstbewusst falsche bestraft [6]
Factual Consistency Rate100 % minus Halluzinationsrate – der Anteil der Outputs, die dem Ausgangsmaterial treu bleiben
Reasoning TaxBeobachtetes Phänomen, bei dem „Thinking“-Modelle bei grounded Aufgaben stärker halluzinieren [15]
SycophancyTendenz eines Modells, dem Nutzer zuzustimmen, selbst wenn der Nutzer falsch liegt
Model CollapseFortschreitender Qualitätsverlust, wenn Modelle auf KI-generierten Inhalten trainiert werden

Quellenübersicht

Wichtigste referenzierte Benchmarks und Studien:

  • Vectara HHEM Leaderboard (ursprüngliche und aktualisierte Datensätze, 2023–2026)[10][12][13]
  • AA-Omniscience Benchmark von Artificial Analysis (November 2025)[5][6]
  • AllAboutAI Hallucination Report 2026 (umfassende Branchenanalyse)[4]
  • Columbia Journalism Review-Studie zur Zitiergenauigkeit (März 2025)[20][17]
  • Stanford RegLab/HAI-Studie zu juristischen Halluzinationen[25][9]
  • Deloitte Global Survey zu KI-gestützter Entscheidungsfindung in Unternehmen[26]
  • Forrester Research zu den wirtschaftlichen Auswirkungen von Halluzinationsminderung[26]
  • Gartner AI Market Analysis zum Marktwachstum von Erkennungstools[26]
  • MedRxiv 2025-Studie zu Halluzinationen medizinischer Fälle[23]
  • International Journal of Data Science and Analytics zu finanziellen KI-Halluzinationen[17]
  • ECRI 2025-Report zu Gefahren in der Gesundheitstechnologie[24]
  • Reuters-Berichterstattung zu juristischen KI-Vorfällen[31]
  • Business Insider-Datenbank zu Gerichtsverfahren mit KI-Halluzinationen[30]
  • VinciWorks-Analyse der Krise um juristische Zitate im Juli 2025[29]

author avatar
Radomir Basta CEO & Founder
Radomir Basta builds tools that turn messy thinking into clear decisions. He is the co founder and CEO of Four Dots, and he created Suprmind.ai, a multi AI decision validation platform where disagreement is the feature. Suprmind runs multiple frontier models in the same thread, keeps a shared Context Fabric, and fuses competing answers into a usable synthesis. He also builds SEO and marketing SaaS products including Base.me, Reportz.io, Dibz.me, and TheTrustmaker.com. Radomir lectures SEO in Belgrade, speaks at industry events, and writes about building products that actually ship.