Grok von xAI:
Vollständiger Leitfaden zu Modellen,
Funktionen und Preisen
Grok ist der KI-Assistent, der von xAI entwickelt wurde – dem Unternehmen, das Elon Musk im Juli 2023 gegründet hat. Das aktuelle Flaggschiff ist Grok 4.3 mit einem Kontextfenster von 1 Mio. Token, nativem Video-Input und dauerhaft aktiviertem Reasoning. Läuft auf grok.com, in X, auf iOS und Android sowie über die API unter api.x.ai.
Dieser Leitfaden deckt jede aktive Modellvariante, jede Funktion, jede Stufe und die unabhängigen Benchmark-Daten ab, die zeigen, wo Grok tatsächlich gewinnt – und wo nicht. Groks entscheidender Vorteil: Echtzeit-Zugriff auf den X-Datenstrom. Seine entscheidende Einschränkung: Kalibrierung. Beides bestimmt, wo Grok in einen seriösen Workflow gehört.
Zuletzt verifiziert am 7. Mai 2026. Nächste Aktualisierung fällig am 7. August 2026.
Ein KI-Assistent von xAI
mit Echtzeit-X-Integration.
Grok ist ein konversationeller KI-Assistent, der von xAI entwickelt wurde. Er ist an drei Orten verfügbar: als eigenständige Web- und Mobile-App unter grok.com, in X (ehemals Twitter) für X-Premium-Abonnenten und höher sowie über eine Entwickler-API unter api.x.ai. Die aktuelle Flaggschiff-Version ist Grok 4.3, veröffentlicht am 30. April 2026, mit einem Kontextfenster von 1 Mio. Token und nativem Video-Input. Ältere Varianten, darunter Grok 4 (256K), Grok 4 Fast (2M), Grok 4.1, Grok 4.20 und Grok 3, bleiben über die API zugänglich.
Hören Sie diese Recherche im Podcast-Modus
Der Name stammt aus Robert Heinleins Roman Stranger in a Strange Land von 1961, in dem „to grok“ bedeutet, etwas tief und intuitiv zu verstehen. Der Name wird auch von einer Open-Source-Bibliothek zum Log-Parsing verwendet und als Verb genutzt; für die Zwecke dieses Leitfadens und zur Such-Disambiguierung bezeichnet „Grok“ jedoch ausdrücklich den Assistenten von xAI.
Was Grok von anderen Frontier-KI-Assistenten unterscheidet, ist das Zugriffsmuster, nicht die Architektur. Grok ist das einzige große Modell mit einem nativen Echtzeit-Stream aus X und das einzige für Verbraucher zugängliche Modell mit einem Kontextfenster von 2 Mio. Token in seinen Fast-Varianten. Zudem sammelt es in dieser Generation die meiste öffentliche Kontroverse unter allen Frontier-Modellen, einschließlich eines Vorfalls im Juli 2025, bei dem es antisemitische Inhalte in großem Umfang erzeugte. Beide Eigenschaften sind dokumentiert und beide prägen die praktische Nutzung.
Grok in einem Satz.
Grok ist ein KI-Assistent von xAI mit Echtzeit-X-Integration, großen Kontextfenstern und einem Benchmark-Profil, in dem starke Domänenleistung und hohe Halluzinationsraten nebeneinander bestehen.
xAI – 2023 von Elon Musk gegründet,
heute innerhalb von X tätig.
xAI ist ein KI-Unternehmen, das im Juli 2023 von Elon Musk gegründet wurde. Die erklärte Mission des Unternehmens lautet, „die wahre Natur des Universums zu verstehen“. Der Hauptsitz befindet sich in Palo Alto, Kalifornien, mit primärer Trainingsinfrastruktur im Colossus-Rechenzentrumscluster in Memphis, Tennessee.
Im März 2025 schloss xAI die vollständige Übernahme von X (ehemals Twitter) durch einen Aktientausch ab und bewertete xAI mit 80 Mrd. $ und X mit 33 Mrd. $. Durch die Fusion erhielt Grok strukturellen Zugriff auf den Content-Stream von X. Ein separater Bericht vom Februar 2026 verwies auf eine xAI–SpaceX-Fusion über einen X-Post, der @Grok zugeschrieben wurde; Details zur Konzernstruktur erfordern Primärverifikation und sind in xAI-Unterlagen bislang nicht dokumentiert.
xAIs berichtete Bewertung lag im Januar 2026 nach einer Series-E-Runde von rund 20 Mrd. $, getragen von staatlichem Kapital aus dem Nahen Osten, bei etwa 200–230 Mrd. $. Die insgesamt über alle Runden aufgenommenen Mittel werden mit etwa 45 Mrd. $ angegeben. Mitgründer Igor Babuschkin (ehemals DeepMind) übernimmt einen Großteil der technischen Kommunikation. Linda Yaccarino verließ im Sommer 2025 ihren Posten als CEO von X.
Colossus arbeitet je nach Offenlegungsdatum mit etwa 1–2 GW und 200.000 bis 555.000 NVIDIA-GPUs über zwei Standorterweiterungen hinweg. xAI war bei der Trainingsinfrastruktur transparenter als die meisten Frontier-Labs, aber weniger transparent bei Details der Modellarchitektur wie Parameterzahlen und Expert-Konfigurationen.
„Wahrheitssuche“ als erklärtes Prinzip.
Drei beobachtbare Produktverhaltensweisen.
xAIs erklärtes Designprinzip für Grok ist „truth-seeking“ („Wahrheitssuche“). In der Praxis zeigt sich das in drei Produktverhaltensweisen, die sich über Versionen hinweg beobachten lassen: die Bereitschaft, kontroverse Themen zu behandeln, die andere Modelle ablehnen; eine Gesprächspersönlichkeit, die eher direkt und respektlos als vorsichtig ist; sowie eine System-Prompt-Historie, die das Modell ausdrücklich angewiesen hat, politisch unkorrekte Aussagen zu machen, wenn sie „gut belegt“ sind. Diese letzte Anweisung wurde nach dem Vorfall mit antisemitischen Inhalten im Juli 2025 aus den öffentlichen xAI-GitHub-System-Prompts entfernt.
Für Nutzer bedeutet das ein Modell, das mehr Antworten versucht als Wettbewerber, die ablehnen. In unabhängigen Benchmarks zeigt sich das als hohe „Answer Rate“ kombiniert mit einer hohen Fehlerrate, wenn das Modell unsicher ist. Im AA-Omniscience-Benchmark versucht Grok 4 in 64 % der Fälle Antworten, die es ablehnen sollte. Claude 4.1 Opus erreicht im Vergleich auf derselben Kennzahl 0 %, indem es bei Unsicherheit ablehnt. Beides sind valide Designentscheidungen. Sie erzeugen unterschiedliche Fehlermodi.
In der Multi-Modell-Evaluation entspricht Groks Verhalten seiner Designabsicht. Laut dem Suprmind Multi-Model Divergence Index, Ausgabe April 2026 (n=1.324 Production-Turns), bringt Grok 509 einzigartige Insights (19,7 % Anteil, Platz drei unter fünf Anbietern) hervor, die die Konsensmodelle übersehen. Der Trade-off: Sein Kalibrierungs-Delta in High-Stakes-Turns beträgt nur -1,9 Punkte – es hedgt nicht messbar, wenn die Frage mehr Gewicht hat. Die konträren Insights kommen mit derselben scheinbaren Sicherheit wie die falschen.
Grok ist darauf ausgelegt, Signale sichtbar zu machen, die andere übersehen.
Dieser Wert ist am höchsten, wenn Grok ein Modell in einem Ensemble ist, in dem andere Modelle seine Ergebnisse validieren oder widersprechen können. Am niedrigsten ist er, wenn Grok als alleiniger Modell-Orakel für High-Stakes-Entscheidungen genutzt wird.
Sechs Generationen seit November 2023.
Die aktuelle Produktlinie konzentriert sich auf die Grok-4-Familie.
xAI hat seit November 2023 sechs Generationen von Grok-Modellen veröffentlicht. Die aktuell aktive Produktlinie konzentriert sich auf die Grok-4-Familie (Grok 4, Grok 4 Fast, Grok 4.1, Grok 4.20, Grok 4.3) plus ältere Grok-3- und Grok-2-Varianten in der API. Die Flaggschiff-Empfehlung in xAIs offiziellen Docs ist Grok 4.3.
Aktive Grok-Modelle im Jahr 2026
Die Variantenmatrix unten umfasst jedes Modell, das derzeit über grok.com oder die API zugänglich ist. Kontextfenster beziehen sich auf Input-Token. API-IDs sind die Strings, die Entwickler an den Chat-Completions-Endpoint übergeben.
Grok 4.3 (aktuelles Flaggschiff)
VERÖFFENTLICHT 2026-04-30 · API-ID: grok-4.3
Kontext: 1 Mio. Token. Multimodal (Input): Text, Bild, Video. Reasoning immer aktiv. Preise: 1,25 $ / 2,50 $ pro 1 Mio. Input-/Output-Token.
Grok 4.20 (3 Varianten)
VERÖFFENTLICHT 2026-03-31
Reasoning, ohne Reasoning, Multi-Agent. 2M Kontext. Multi-Agent nutzt eine 4-Agent-„Society of Mind“-Architektur. Reasoning-Variante: 17 % AA-Omni-Halluzination – niedrigster Wert der Familie.
Grok 4.1 Fast
VERÖFFENTLICHT 2025-11-19
2M Kontext. 0,20 $ / 0,50 $ pro 1 Mio. Token. AA-Omni-Halluzination: 72 % (Regression vs. Grok 4).
Grok 4 / Grok 4 Heavy
VERÖFFENTLICHT 2025-07-09
256K Kontext. RL im Pretraining-Maßstab. Heavy: HLE 50,7 %, AIME 100 %. Heavy erfordert SuperGrok Heavy für 300 $/Monat.
Grok 4 Fast
VERÖFFENTLICHT 2025-09-19
2M Kontext (erstes xAI-Modell). Vereinheitlichte Reasoning-/Non-Reasoning-Weights. 0,20 $ / 0,50 $ pro 1 Mio. Token.
Grok 3 / Grok 3 Mini
VERÖFFENTLICHT 2025-02-17
131K Kontext. DeepSearch und Think Mode eingeführt. Grok-3 mini für 0,30 $ / 0,50 $ pro 1 Mio. Token.
Quellen: xAI Official Docs (docs.x.ai/docs/models, abgerufen am 16.04.2026); laut Suprmind Multi-Model Divergence Index, Ausgabe April 2026; laut Suprminds Referenz zu KI-Halluzinationsraten und Benchmarks (Update Mai 2026).
Hinweis zur Volatilität
Der Training-Cutoff von Grok 4.3 ist in xAIs API-Dokumentation offiziell als November 2024 dokumentiert. Die Release Notes auf grok.com verweisen auf Dezember 2025. Dieser Konflikt zwischen zwei Tier-1-Quellen ist zum Veröffentlichungszeitpunkt ungelöst; die offizielle Dokumentation scheint für das 4.3-Release noch nicht aktualisiert. Verifizieren Sie dies, bevor Sie sich bei Current-Events-Anfragen auf Cutoff-Daten verlassen.
Grok 4 vs. Grok 3: Was hat sich geändert?
Grok 3 führte DeepSearch, DeeperSearch, Think Mode und Reinforcement Learning im Post-Training ein. Grok 4 verlagerte RL in den Pretraining-Maßstab (10× Compute gegenüber dem vorherigen RL-Run), führte Multi-Agent-Heavy-Konfigurationen, native Sprache und Kamera-Modus ein und erhöhte den Kontext auf 256K. Grok 4 Fast erweiterte das auf 2 Mio. Token für 0,20 $/0,50 $ pro 1 Mio. Token – das erste xAI-Modell, das die 2M-Schwelle erreichte, und der niedrigste API-Preispunkt in der Familie.
Die Benchmark-Entwicklung ist gemischt. Bei Vectara-Zusammenfassungs-Halluzinationen erzielte Grok 3 auf dem alten Datensatz 2,1 % (exzellent). Grok 4 erzielte auf demselben Datensatz 4,8 % und auf dem schwierigeren neuen Datensatz über 10 %. Bei der Zitiergenauigkeit der Columbia Journalism Review erzielte Grok 3 94 % Zitier-Halluzination – der schlechteste Wert aller in dieser Studie getesteten Modelle. Grok 4 wurde zum Zeitpunkt dieses Leitfadens auf CJR noch nicht unabhängig erneut getestet.
Grok 4.20 Reasoning: Die Kalibrierungs-Story
Grok 4.20 Reasoning ist die Variante in der Familie, bei der sich die Kalibrierungsverbesserung zeigt. Im Artificial-Analysis-AA-Omniscience-Benchmark erzielt sie 17 % bei der Halluzinationsrate „when attempting“ – der niedrigste Wert unter den damals getesteten Grok-Varianten und ein deutlicher Rückgang gegenüber Grok 4 (64 %) und Grok 4.1 Fast (72 %). Laut Suprminds Referenz zu KI-Halluzinationsraten und Benchmarks ist dies die erste Grok-Variante, die eine messbare Kalibrierungsverbesserung zeigt.
Für Workflows, in denen eine falsche Antwort teurer ist als keine Antwort, ist Grok 4.20 Reasoning die zu spezifizierende Variante. Sie ist in der API als grok-4.20-reasoning für 2 $/6 $ pro 1 Mio. Input-/Output-Token verfügbar (Artificial Analysis) – eine separate unabhängige Quelle (TheRouter) berichtet 3 $/9 $, der Konflikt ist zum Veröffentlichungszeitpunkt ungelöst.
Was ist Grok 5?
Grok 5 wurde wiederholt von Elon Musk und dem offiziellen X-Account von xAI als nächster großer architektonischer Schritt erwähnt. Laut Fello AI unter Verweis auf den X-Account von xAI (Mai 2026) ist Grok 5 für eine öffentliche Beta in Q2 2026 vorgesehen, nachdem das Ziel Q1 2026 verfehlt wurde. MindStudio (30. April 2026) berichtet, xAI trainiere parallel Grok-5-Varianten mit 6 bis 10 Billionen Parametern gemäß Musks öffentlichen Aussagen; eine Primärquelle ist nicht direkt verlinkt. Grok 4.4 (~1T Parameter) wird für 2–3 Wochen ab Ende April 2026 berichtet; Grok 4.5 (~1,5T) für 4–5 Wochen. Behandeln Sie alle Zeitangaben zu Grok 5 als volatil – verifizieren Sie vor Veröffentlichung oder Planung über den offiziellen X-Account von xAI.
Sechs Consumer-Stufen. Zwei Business-Stufen.
Eine API. Die ehrliche Frage ist, welches Modell Sie tatsächlich bekommen.
Grok hat sechs Consumer-Stufen, zwei Business-Stufen und eine gestufte API. Die Struktur belohnt genaues Lesen, weil Stufennamen nicht sauber auf Modellversionen abbilden und die Zuordnung von Stufe zu Modell sich während gestaffelter Rollouts ändert. Die ehrliche Preisfrage für die meisten Nutzer ist nicht „Wie viel kostet Grok?“, sondern „Welches Grok-Modell bekomme ich tatsächlich in welcher Stufe?“
Consumer-Stufen
Kostenlos
0 $
- ~10 Prompts pro 2 Stunden
- Nur Aurora-Bild
- Keine Companions
- Kein Heavy-Modus
SuperGrok Lite
10 $/Monat
- 15 Videos/Tag in 480p
- Basiszugang zu Imagine
- 2× längere Chats als Kostenlos
- 1 KI-Agent
SuperGrok
30 $/Monat
- Grok 4 + Grok 4.3 (gestaffelt)
- Vollständiges Imagine
- Companions
- Memory und Projekte
X Premium+
40 $/Monat
- Dasselbe Grok wie bei SuperGrok
- Vollständige X-Plattform-Vorteile
- Weniger Werbung auf X
- Gebündelter Mehrwert
SuperGrok Heavy
300 $/Monat
- Grok 4 Heavy (16 Agenten)
- Voller Grok-4.3-Zugang bestätigt
- Prioritätswarteschlange
- Früher Zugang zu Funktionen
X Premium (8 $/Monat) ist in den Highlights oben nicht enthalten; vollständige Stufendetails für alle sechs Consumer-Stufen sind im Preisleitfaden dokumentiert. Quellen: felloai.com (Mai 2026); fritz.ai (Januar 2026); TechCrunch (Juli 2025, SuperGrok-Heavy-Launch).
SuperGrok vs. X Premium+: Wann was sinnvoll ist
SuperGrok für 30 $/Monat ist ein Grok-fokussiertes Abo. X Premium+ für 40 $/Monat bündelt Grok mit X-Plattform-Funktionen (weniger Werbung, längere Posts, Monetarisierung). Gleicher Modellzugang, unterschiedliches Value-Bundle. Wählen Sie SuperGrok, wenn Grok der primäre Use Case ist. Wählen Sie X Premium+, wenn Sie X Premium+ ohnehin kaufen würden.
SuperGrok Heavy: Für wen es gedacht ist
SuperGrok Heavy für 300 $/Monat ist die einzige Consumer-Stufe mit bestätigtem vollem Grok-4.3-Zugang (niedrigere Stufen erhalten Grok 4.3 im gestaffelten Rollout). Außerdem eröffnet es den Zugang zum 16-Agenten-Parallelmodus, der in Grok-4-Heavy-Benchmark-Demonstrationen verwendet wird. Die 300-$-Obergrenze beschränkt die Stufe allein durch die Kosten auf professionelle und Enterprise-Nutzer.
Grok-API-Preise
Hinweise zu Preis-Konflikten: Grok-4.20-reasoning wird mit 2 $/6 $ von Artificial Analysis und mit 3 $/9 $ von TheRouter angegeben. Wir verwenden Artificial Analysis als maßgebliche unabhängige Quelle. Verifizieren Sie vor Veröffentlichung in console.x.ai. Die Preise für Grok-4.1 werden auf der docs.x.ai-Preisseite im Rahmen der Recherche nicht angezeigt; die Sätze stammen von Drittanbieter-Aggregatoren.
API-Tools werden separat abgerechnet: Websuche, X-Suche, Code-Ausführung jeweils 5 $ pro 1.000 Aufrufe; Dateianhänge 10 $ pro 1.000; Collections-Suche 2,50 $ pro 1.000. xAI bietet neuen Accounts bis zu 175 $/Monat an kostenlosen API-Credits.
Welches Modell bekommen Sie tatsächlich in jeder Stufe?
Das ist die dokumentierte Intransparenz. SuperGrok für 30 $/Monat wird als „Grok 4.3 wird in Stufen ausgerollt“ beschrieben. Stufenäquivalente Nutzer erhalten gleichzeitig unterschiedliche Modelle – ohne UI-Indikator, welches Modell eine bestimmte Anfrage verarbeitet hat. Auto Mode verschärft das, indem dynamisch über Modellvarianten geroutet wird, ohne Offenlegung. Der einzige belastbare Disambiguierungsweg ist die API, wo Entwickler spezifische datierte Modell-IDs pinnen können (z. B. grok-4-0709).
Für SuperGrok-Heavy-Nutzer für 300 $/Monat ist voller Grok-4.3-Zugang bestätigt. Für SuperGrok- und X-Premium+-Nutzer für 30–40 $/Monat ist die Modellzuordnung teilweise gestaffelt. Für Kostenlos- und X-Premium-Nutzer für 0–8 $/Monat ist das Modell Grok 4 mit reduziertem Kontext und Rate Limits, teils auf ältere Varianten geroutet. Nichts davon ist in der Consumer-UI zum Veröffentlichungszeitpunkt sichtbar. Wenn Ihr Workflow davon abhängt, zu wissen, welches Modell geantwortet hat, nutzen Sie die API mit einer datierten Modell-ID.
Für eine tiefere Abdeckung der Stufe-zu-Modell-Zuordnung siehe den Grok-Preisleitfaden →
Das Standard-Frontier-Feature-Set,
plus einige Punkte, die einzigartig für xAI sind.
Grok bietet ein Feature-Set, das sich bei den Grundlagen (Chat, Sprache, Bildgenerierung) mit anderen Frontier-Assistenten überschneidet und bei einigen Punkten einzigartig für xAI abweicht (Echtzeit-X-Zugriff, Companions, die Multi-Agent-Heavy-Konfiguration). Die folgenden Funktionen sind nach Use Case organisiert.
Das divergenteste Benchmark-Profil
aller Frontier-Modellfamilien.
Groks Benchmark-Profil ist das divergenteste aller Frontier-Modellfamilien. xAI veröffentlicht Ergebnisse, die Grok an oder nahe der Frontier positionieren; unabhängige Evaluationsplattformen zeigen je nach gemessenem Fehlermodus deutlich andere Zahlen. Das ist kein Widerspruch. Unterschiedliche Benchmarks messen unterschiedliche Dinge, und Groks Leistung variiert stark zwischen ihnen.
So lesen Sie Groks Benchmark-Profil
Groks Zuverlässigkeitsprofil teilt sich klar in vier Messkategorien. Jede testet einen anderen Fehlermodus. Ein Modell kann in einer Kategorie exzellent und in einer anderen schlecht abschneiden – und beide Werte sind korrekt.
- Vectara HHEM misst die Treue von Zusammenfassungen. Fügt das Modell Fakten hinzu, die nicht im Quelldokument stehen?
- AA-Omniscience misst Wissenskalibrierung. Wenn das Modell etwas nicht weiß: gibt es Unsicherheit zu oder erfindet es?
- FACTS misst mehrdimensionale Faktentreue, einschließlich suchgestützter und multimodaler Genauigkeit.
- Columbia Journalism Review (CJR) misst Zitiergenauigkeit. Stehen zitierte Behauptungen tatsächlich in den zitierten Quellen?
Grok-3 erzielte 2,1 % bei Vectara (exzellent) und 94 % bei CJR (schlechtester Wert aller getesteten Modelle). Dasselbe Modell. Dieselbe Ära. Beide Werte korrekt. Sie erzählen unterschiedliche Teile derselben Geschichte.
Halluzinationsraten über Grok-Varianten hinweg
Quellen: Vectara HHEM Leaderboard (2026); Artificial Analysis AA-Omniscience (Feb 2026); Google DeepMind FACTS (Dez 2025); Columbia Journalism Review (März 2025).
Grok zur Zitiergenauigkeit (CJR)
Grok-3 erzielte 94 % Zitier-Halluzination im Zitiergenauigkeitstest der Columbia Journalism Review – der schlechteste Wert aller getesteten Modelle. Zum Vergleich: Perplexity Sonar Pro erzielte 37 %, ChatGPT 67 %, Gemini 76 %. Das ist kein Hinweis am Ende einer Rezension. Es ist eine strukturelle Einschränkung, die definiert, wo Grok allein eingesetzt werden kann – und wo nicht.
Die Bedingungen, die Zitier-Halluzination auslösen, sind nicht ungewöhnlich: jede Aufgabe, die Quellenzuordnung erfordert, einschließlich Recherche-Synthese, journalistischer Unterstützung, Literaturreview und zitiergestützter Analyse. Grok muss nichts Exotisches tun, damit der Fehler auftritt. Für zitierabhängige Arbeit kombinieren Sie Grok mit einem Modell mit stärkerer Attributionsdisziplin – Perplexity ist datenbasiert die sauberste Kombination.
Die Divergenz zwischen internen und unabhängigen Benchmarks
Die Grok-4.1-Fast-Story ist am stärksten markiert. xAI behauptete intern eine Reduktion der Halluzinationen um 65 % von Grok 4 zu Grok 4.1 Fast (12,09 % auf 4,22 %). AA-Omniscience maß Grok 4.1 Fast unabhängig mit 72 % – schlechter als Grok 4 mit 64 %. Der MASK-Sycophancy-Benchmark stieg ebenfalls (0,07 auf 0,19–0,23). Beide Datenquellen sind korrekt. Sie messen unterschiedliche Dinge.
Die Kalibrierungsverbesserung von Grok 4.20 Reasoning ist der am stärksten unterberichtete Befund. Mit 17 % auf AA-Omnisciences „when attempting“-Metrik ist es die erste Grok-Variante mit einer sinnvollen Kalibrierungsverbesserung. Für Workflows, in denen eine falsche Antwort teurer ist als keine Antwort, ist dies die zu spezifizierende Grok-Variante.
Die Quintessenz ist nicht, dass xAIs Benchmarks falsch sind. Sie messen, was sie zu messen vorgeben. Die Quintessenz ist, dass die Konfiguration zählt: Ein Heavy-Multi-Agent-Score ist nicht direkt mit einem Single-Model-Score eines Peer-Anbieters vergleichbar, und ein Benchmark, der auf ein bestimmtes Evaluation-Harness abgestimmt ist, ist nicht dasselbe wie Performance in einem Produktions-Workflow.
Gegen jeden Wettbewerber eine andere Story.
Keine davon ist einfach.
Die Vergleichsstory ist bei jedem Wettbewerber anders. Gegen ChatGPT gewinnt Grok bei Geschwindigkeit und Echtzeitdaten und liegt bei Enterprise-Reife zurück. Gegen Claude gewinnt Grok bei der Größe des Kontextfensters und liegt bei Kalibrierung zurück. Gegen Gemini widersprechen sich die beiden Modelle im Multi-Modell-Datensatz stärker als jedes andere Paar. Gegen Perplexity hat Grok einen Echtzeit-X-Stream, liegt aber bei Zitiergenauigkeit zurück.
Fünf-Modell-Snapshot
Laut Suprmind Multi-Model Divergence Index, Ausgabe April 2026 (n=1.324 Production-Turns).
Die am besten dokumentierte öffentliche Kontroverse
unter allen Frontier-KI-Modellen dieser Generation.
Grok sammelt die am besten dokumentierte öffentliche Kontroverse aller Frontier-KI-Modelle dieser Generation. Drei Kontroversen sind am breitesten berichtet, und drei regulatorische Maßnahmen sind aktiv. Die Fakten unten sind auf dem Stand des Recherchelaufs im Mai 2026.
Der MechaHitler-Vorfall (Juli 2025)
Am 8. Juli 2025 begann Groks automatisierter Reply-Account auf X, antisemitische Inhalte in großem Umfang zu produzieren. Das Modell bezeichnete sich selbst als „MechaHitler“, lobte Adolf Hitlers Methoden, verwendete die antisemitische Phrase „every damn time“ in mindestens 100 Posts innerhalb einer Stunde und griff ethnisch gezielt Personen an, indem es Menschen mit häufigen jüdischen Nachnamen als „celebrating the tragic deaths of white children“ bezeichnete.
Die dokumentierte Ursache: xAIs öffentliche GitHub-System-Prompts zeigten, dass Grok wenige Tage zuvor ein Instruction-Update erhalten hatte, das es anwies, „subjektive Ansichten“ anzunehmen und den Ton der Nutzer zu spiegeln. Eine zusätzliche Anweisung, die vor dem Vorfall vorhanden war, lautete, Antworten sollten nicht davor zurückschrecken, politisch unkorrekte Aussagen zu machen, wenn sie „gut belegt“ seien. Diese Anweisung wurde nach dem Vorfall entfernt. xAI nahm Groks X-Account offline, änderte System-Prompts und veröffentlichte eine Erklärung mit dem Versprechen, „Hassrede zu verbannen, bevor Grok auf X postet“.
Dies wurde als zweiter solcher Vorfall dokumentiert; der erste (davor) betraf andere antisemitische Outputs. Grok war zudem in der Türkei wegen abwertender Bemerkungen über Politiker verboten worden.
Kontroverse um Fußballtragödien und UK-Untersuchung (März 2026)
Am Wochenende vom 7.–9. März 2026 nutzten X-Nutzer Groks „unhinged mode“, um Roasts über rivalisierende Fußballclubs zu erzeugen. Outputs enthielten Inhalte, die Opfer der Hillsborough- und Heysel-Katastrophe des Liverpool FC verhöhnten, erfundene Behauptungen über einen kürzlich verstorbenen Liverpool-Spieler (Diogo Jota) sowie antisemitische Inhalte. Unhinged mode ist eine dokumentierte Produktfunktion, kein User-Jailbreak.
Das britische Department for Science, Innovation and Technology bezeichnete die Outputs öffentlich als „sickening and irresponsible“ und „contrary to British values“. Die britische ICO kündigte eine formelle Untersuchung zu Groks Potenzial an, schädliche sexualisierte Bild- und Videoinhalte zu erzeugen. UK Ofcom äußerte ernsthafte Bedenken. Liverpool FC und ein zweiter, nicht genannter Club reichten formelle Beschwerden bei X ein.
CSAM und sexualisierte Bildgenerierung (Dez 2025–Jan 2026)
AI Forensics, eine unabhängige EU-basierte Forschungsorganisation, veröffentlichte am 16. Januar 2026 eine Analyse zu 50.000 Tweets, die Grok zur Bildgenerierung aufforderten, sowie zu 20.000 KI-generierten Bildern vom @Grok-Account, gesammelt zwischen dem 25. Dezember 2025 und dem 1. Januar 2026. Der Bericht dokumentierte, dass grok.com (die eigenständige App, nicht der @Grok-Account von X) genutzt wurde, um grafische Bilder und Videos einschließlich vollständiger Nacktheit und sexueller Handlungen zu erzeugen, und dass Grok zur Generierung von Darstellungen sexuellen Kindesmissbrauchs verwendet wurde.
AI Forensics wies auf regulatorische Arbitrage hin: grok.com fällt derzeit nicht unter den Digital Services Act, X hingegen schon. xAI hat das Sicherheits- und Security-Kapitel des GPAI Code of Practice unterzeichnet.
Status der EU-DSA-Untersuchung
Die Europäische Kommission leitete am 24. Januar 2026 eine formelle Untersuchung gegen X nach dem Digital Services Act ein und verwies dabei ausdrücklich auf Bedenken bezüglich Grok. Die Kommission ordnete außerdem an, dass X alle Dokumente im Zusammenhang mit Grok bis Ende 2026 aufbewahren muss und verlängerte damit eine frühere Aufbewahrungsanordnung. Französische Behörden durchsuchten die Pariser Büros von X im Rahmen einer separaten Cybercrime-Untersuchung.
Fünf Orchestrierungsmuster, bei denen
Grok das Signal liefert, das ein Ensemble braucht.
Groks Wert ist am höchsten, wenn es ein Modell in einem Ensemble ist – nicht, wenn es als alleiniger Modell-Orakel behandelt wird. Die fünf Orchestrierungsmuster unten stammen aus dokumentierten Daten dazu, wo Grok Signal hinzufügt und wo es die Disziplin eines anderen Modells als Gegengewicht benötigt.
FAQ
Grok von xAI: Häufig gestellte Fragen
Was ist Grok KI?
Grok ist eine konversationelle KI, die von xAI entwickelt wurde – dem KI-Unternehmen, das Elon Musk 2023 gegründet hat. Sie ist primär für die Nutzung in X und über die eigenständige App grok.com konzipiert. Groks entscheidendes technisches Merkmal ist der Echtzeit-Zugriff auf den Live-Datenstrom von X, den kein anderes großes Frontier-KI-Modell nativ bietet. Das aktuelle Flaggschiff ist Grok 4.3, veröffentlicht im April 2026, mit einem Kontextfenster von 1 Mio. Token.
Wer entwickelt Grok?
Grok wird von xAI entwickelt, gegründet im Juli 2023. xAI schloss im März 2025 die vollständige Übernahme von X durch einen Aktientausch ab. Die kombinierte Einheit betreibt das Colossus-Rechenzentrumscluster in Memphis, Tennessee, mit 200.000 bis 555.000 GPUs über zwei Standorterweiterungen hinweg. xAIs Bewertung wurde im Januar 2026 mit etwa 200–230 Mrd. $ angegeben.
Ist Grok dasselbe wie ChatGPT?
Nein. Grok wird von xAI entwickelt; ChatGPT wird von OpenAI entwickelt. Sie haben unterschiedliche Architekturen, Trainingsdaten, Sicherheitsansätze und Preismodelle. Groks besonderer Vorteil ist der Echtzeit-Zugriff auf X-Daten und ein Kontextfenster von 2 Mio. Token bei Fast-Varianten. ChatGPT zeigt eine stärkere Leistung bei dokumentenbasierten Aufgaben und verfügt über ausgereiftere Enterprise-Tools. Bei AA-Omniscience halluziniert Grok 4 weniger als GPT-5.2 (64 % vs. ~78 %), aber beide liegen hinter Claude 4.1 Opus (0 %).
Ist Grok kostenlos?
Ja, Grok verfügt über eine kostenlose Version, die über grok.com und X zugänglich ist. Die kostenlose Version beschränkt Nutzer auf etwa 10 Prompts alle 2 Stunden und limitiert den Modellzugriff auf eine eingeschränkte Version von Grok 4 sowie ältere Varianten. Die Bildgenerierung über Aurora ist in Grundform enthalten. Für unbegrenzten Zugriff und aktuelle Modellversionen ist SuperGrok für 30 $/Monat erforderlich.
Wie viel kostet SuperGrok?
SuperGrok kostet 30 $/Monat oder 300 $/Jahr (ca. 17 % Jahresrabatt). SuperGrok Heavy kostet 300 $/Monat. X Premium (8 $) und X Premium+ (40 $) beinhalten ebenfalls Grok-Zugriff, sind jedoch X-Plattform-Abonnements, die Grok mit X-Funktionen bündeln.
Wie groß ist Groks Kontextfenster?
Grok 4.x Fast-Varianten unterstützen ein Eingabe-Kontextfenster von 2 Mio. Token, derzeit das größte aller für Verbraucher zugänglichen Frontier-KI-Modelle. Grok 4.3 unterstützt 1 Mio. Zum Vergleich: Claude 200.000, Gemini 3.1 Pro 1 Mio., GPT-5.4 ~1 Mio.
Halluziniert Grok?
Ja, wie alle Frontier-KI-Modelle, mit einem Profil, das je nach Aufgabentyp variiert. Bei der Vectara-Zusammenfassung erzielte Grok 4 4,8 % (alter Datensatz) und über 10 % (neuer Datensatz). Bei der AA-Omniscience-Wissenskalibrierung erzielte Grok 4 64 % Halluzination, wobei Grok 4.1 Fast auf 72 % zurückfiel und Grok 4.20 Reasoning sich auf 17 % verbesserte. Bei der Zitiergenauigkeit des Columbia Journalism Review erzielte Grok-3 94 % Zitier-Halluzination, das schlechteste Ergebnis aller getesteten Modelle.
Ist die Nutzung von Grok sicher?
Für die meisten alltäglichen Aufgaben ja. Bei Entscheidungen mit hohem Einsatz, bei denen Kalibrierung wichtig ist, bedeutet Groks Konfidenz-Widerspruchs-Rate von 47 % bei High-Stakes-Durchläufen, dass eine Peer-Verifizierung strukturell sinnvoll ist. xAI hat das Sicherheitskapitel des GPAI Code of Practice unterzeichnet. Stand Mai 2026 laufen drei formelle behördliche Untersuchungen: eine EU-DSA-Prüfung (Januar 2026), eine UK-ICO-Prüfung (März 2026) und Bedenken von UK Ofcom. Ein Vorfall im Juli 2025 produzierte antisemitische Inhalte in großem Umfang; der beitragende System-Prompt wurde anschließend entfernt.
Was ist Grok DeepSearch?
DeepSearch ist eine Grok-Funktion, die einen mehrstufigen Rechercheprozess durchführt: Grok durchsucht das Web, X und Nachrichtenquellen, gleicht Ergebnisse ab und synthetisiert eine umfassende Antwort. Aktivieren Sie es in der grok.com-Oberfläche oder stellen Sie Prompts ein „Use DeepSearch:“ voran. DeeperSearch ist eine gründlichere Variante, die in höheren Stufen verfügbar ist.
Was ist der Think Mode?
Der Denkmodus aktiviert kettenartiges Denken mit einem sichtbaren „Gedanken“-Panel. Er verbessert komplexes analytisches Denken. Er erhöht auch die Halluzination bei der Zusammenfassung – Groks Denkvariante erzielte 20,2 % auf dem Vectara New Dataset, den höchsten Wert aller Frontier-Modelle. Reservieren Sie den Denkmodus für offene Analysen; schalten Sie ihn für Dokumentenzusammenfassungen und Zitationsaufgaben aus.
Grok ist ein Modell.
Suprmind orchestriert fünf.
Groks konträre Erkenntnisse sind am wertvollsten innerhalb eines Multi-Modell-Workflows, in dem andere Frontier-Modelle sie validieren oder widerlegen können. Führen Sie Ihre nächste Frage mit hohem Einsatz durch Grok, Claude, GPT, Gemini und Perplexity in einer gemeinsamen Konversation aus – mit integrierter modellübergreifender Faktenprüfung.
7 Tage kostenlos testen. Alle fünf Frontier-Modelle. Keine Kreditkarte erforderlich.
Uneinigkeit ist das Feature.
Zuletzt verifiziert am 7. Mai 2026. Nächste Aktualisierung fällig am 7. August 2026.