Startseite Hub Funktionen Anwendungsfälle Anleitungen Plattform Preise Anmelden



xAI Grok – Vollständiger Leitfaden

Grok von xAI:
Vollständiger Leitfaden zu Modellen,
Funktionen und Preisen

Grok ist der KI-Assistent, der von xAI entwickelt wurde – dem Unternehmen, das Elon Musk im Juli 2023 gegründet hat. Das aktuelle Flaggschiff ist Grok 4.3 mit einem Kontextfenster von 1 Mio. Token, nativem Video-Input und dauerhaft aktiviertem Reasoning. Läuft auf grok.com, in X, auf iOS und Android sowie über die API unter api.x.ai.

Dieser Leitfaden deckt jede aktive Modellvariante, jede Funktion, jede Stufe und die unabhängigen Benchmark-Daten ab, die zeigen, wo Grok tatsächlich gewinnt – und wo nicht. Groks entscheidender Vorteil: Echtzeit-Zugriff auf den X-Datenstrom. Seine entscheidende Einschränkung: Kalibrierung. Beides bestimmt, wo Grok in einen seriösen Workflow gehört.

Zuletzt verifiziert am 7. Mai 2026. Nächste Aktualisierung fällig am 7. August 2026.

Was ist Grok? Ein vollständiger Leitfaden zu xAIs KI-Modell und weiteren Bedeutungen



Ein KI-Assistent von xAI
mit Echtzeit-X-Integration.

Grok ist ein konversationeller KI-Assistent, der von xAI entwickelt wurde. Er ist an drei Orten verfügbar: als eigenständige Web- und Mobile-App unter grok.com, in X (ehemals Twitter) für X-Premium-Abonnenten und höher sowie über eine Entwickler-API unter api.x.ai. Die aktuelle Flaggschiff-Version ist Grok 4.3, veröffentlicht am 30. April 2026, mit einem Kontextfenster von 1 Mio. Token und nativem Video-Input. Ältere Varianten, darunter Grok 4 (256K), Grok 4 Fast (2M), Grok 4.1, Grok 4.20 und Grok 3, bleiben über die API zugänglich.

Hören Sie diese Recherche im Podcast-Modus

Der Name stammt aus Robert Heinleins Roman Stranger in a Strange Land von 1961, in dem „to grok“ bedeutet, etwas tief und intuitiv zu verstehen. Der Name wird auch von einer Open-Source-Bibliothek zum Log-Parsing verwendet und als Verb genutzt; für die Zwecke dieses Leitfadens und zur Such-Disambiguierung bezeichnet „Grok“ jedoch ausdrücklich den Assistenten von xAI.

Was Grok von anderen Frontier-KI-Assistenten unterscheidet, ist das Zugriffsmuster, nicht die Architektur. Grok ist das einzige große Modell mit einem nativen Echtzeit-Stream aus X und das einzige für Verbraucher zugängliche Modell mit einem Kontextfenster von 2 Mio. Token in seinen Fast-Varianten. Zudem sammelt es in dieser Generation die meiste öffentliche Kontroverse unter allen Frontier-Modellen, einschließlich eines Vorfalls im Juli 2025, bei dem es antisemitische Inhalte in großem Umfang erzeugte. Beide Eigenschaften sind dokumentiert und beide prägen die praktische Nutzung.

Grok in einem Satz.

Grok ist ein KI-Assistent von xAI mit Echtzeit-X-Integration, großen Kontextfenstern und einem Benchmark-Profil, in dem starke Domänenleistung und hohe Halluzinationsraten nebeneinander bestehen.



xAI – 2023 von Elon Musk gegründet,
heute innerhalb von X tätig.

xAI ist ein KI-Unternehmen, das im Juli 2023 von Elon Musk gegründet wurde. Die erklärte Mission des Unternehmens lautet, „die wahre Natur des Universums zu verstehen“. Der Hauptsitz befindet sich in Palo Alto, Kalifornien, mit primärer Trainingsinfrastruktur im Colossus-Rechenzentrumscluster in Memphis, Tennessee.

Im März 2025 schloss xAI die vollständige Übernahme von X (ehemals Twitter) durch einen Aktientausch ab und bewertete xAI mit 80 Mrd. $ und X mit 33 Mrd. $. Durch die Fusion erhielt Grok strukturellen Zugriff auf den Content-Stream von X. Ein separater Bericht vom Februar 2026 verwies auf eine xAI–SpaceX-Fusion über einen X-Post, der @Grok zugeschrieben wurde; Details zur Konzernstruktur erfordern Primärverifikation und sind in xAI-Unterlagen bislang nicht dokumentiert.

Was ist Grok? Ein vollständiger Leitfaden zu xAIs KI-Modell und weiteren Bedeutungen

xAIs berichtete Bewertung lag im Januar 2026 nach einer Series-E-Runde von rund 20 Mrd. $, getragen von staatlichem Kapital aus dem Nahen Osten, bei etwa 200–230 Mrd. $. Die insgesamt über alle Runden aufgenommenen Mittel werden mit etwa 45 Mrd. $ angegeben. Mitgründer Igor Babuschkin (ehemals DeepMind) übernimmt einen Großteil der technischen Kommunikation. Linda Yaccarino verließ im Sommer 2025 ihren Posten als CEO von X.

Colossus arbeitet je nach Offenlegungsdatum mit etwa 1–2 GW und 200.000 bis 555.000 NVIDIA-GPUs über zwei Standorterweiterungen hinweg. xAI war bei der Trainingsinfrastruktur transparenter als die meisten Frontier-Labs, aber weniger transparent bei Details der Modellarchitektur wie Parameterzahlen und Expert-Konfigurationen.



„Wahrheitssuche“ als erklärtes Prinzip.
Drei beobachtbare Produktverhaltensweisen.

xAIs erklärtes Designprinzip für Grok ist „truth-seeking“ („Wahrheitssuche“). In der Praxis zeigt sich das in drei Produktverhaltensweisen, die sich über Versionen hinweg beobachten lassen: die Bereitschaft, kontroverse Themen zu behandeln, die andere Modelle ablehnen; eine Gesprächspersönlichkeit, die eher direkt und respektlos als vorsichtig ist; sowie eine System-Prompt-Historie, die das Modell ausdrücklich angewiesen hat, politisch unkorrekte Aussagen zu machen, wenn sie „gut belegt“ sind. Diese letzte Anweisung wurde nach dem Vorfall mit antisemitischen Inhalten im Juli 2025 aus den öffentlichen xAI-GitHub-System-Prompts entfernt.

Für Nutzer bedeutet das ein Modell, das mehr Antworten versucht als Wettbewerber, die ablehnen. In unabhängigen Benchmarks zeigt sich das als hohe „Answer Rate“ kombiniert mit einer hohen Fehlerrate, wenn das Modell unsicher ist. Im AA-Omniscience-Benchmark versucht Grok 4 in 64 % der Fälle Antworten, die es ablehnen sollte. Claude 4.1 Opus erreicht im Vergleich auf derselben Kennzahl 0 %, indem es bei Unsicherheit ablehnt. Beides sind valide Designentscheidungen. Sie erzeugen unterschiedliche Fehlermodi.

In der Multi-Modell-Evaluation entspricht Groks Verhalten seiner Designabsicht. Laut dem Suprmind Multi-Model Divergence Index, Ausgabe April 2026 (n=1.324 Production-Turns), bringt Grok 509 einzigartige Insights (19,7 % Anteil, Platz drei unter fünf Anbietern) hervor, die die Konsensmodelle übersehen. Der Trade-off: Sein Kalibrierungs-Delta in High-Stakes-Turns beträgt nur -1,9 Punkte – es hedgt nicht messbar, wenn die Frage mehr Gewicht hat. Die konträren Insights kommen mit derselben scheinbaren Sicherheit wie die falschen.

Grok ist darauf ausgelegt, Signale sichtbar zu machen, die andere übersehen.

Dieser Wert ist am höchsten, wenn Grok ein Modell in einem Ensemble ist, in dem andere Modelle seine Ergebnisse validieren oder widersprechen können. Am niedrigsten ist er, wenn Grok als alleiniger Modell-Orakel für High-Stakes-Entscheidungen genutzt wird.



Sechs Generationen seit November 2023.
Die aktuelle Produktlinie konzentriert sich auf die Grok-4-Familie.

xAI hat seit November 2023 sechs Generationen von Grok-Modellen veröffentlicht. Die aktuell aktive Produktlinie konzentriert sich auf die Grok-4-Familie (Grok 4, Grok 4 Fast, Grok 4.1, Grok 4.20, Grok 4.3) plus ältere Grok-3- und Grok-2-Varianten in der API. Die Flaggschiff-Empfehlung in xAIs offiziellen Docs ist Grok 4.3.

Aktive Grok-Modelle im Jahr 2026

Die Variantenmatrix unten umfasst jedes Modell, das derzeit über grok.com oder die API zugänglich ist. Kontextfenster beziehen sich auf Input-Token. API-IDs sind die Strings, die Entwickler an den Chat-Completions-Endpoint übergeben.

Grok 4.3 (aktuelles Flaggschiff)

VERÖFFENTLICHT 2026-04-30 · API-ID: grok-4.3

Kontext: 1 Mio. Token. Multimodal (Input): Text, Bild, Video. Reasoning immer aktiv. Preise: 1,25 $ / 2,50 $ pro 1 Mio. Input-/Output-Token.

Grok 4.20 (3 Varianten)

VERÖFFENTLICHT 2026-03-31

Reasoning, ohne Reasoning, Multi-Agent. 2M Kontext. Multi-Agent nutzt eine 4-Agent-„Society of Mind“-Architektur. Reasoning-Variante: 17 % AA-Omni-Halluzination – niedrigster Wert der Familie.

Grok 4.1 Fast

VERÖFFENTLICHT 2025-11-19

2M Kontext. 0,20 $ / 0,50 $ pro 1 Mio. Token. AA-Omni-Halluzination: 72 % (Regression vs. Grok 4).

Grok 4 / Grok 4 Heavy

VERÖFFENTLICHT 2025-07-09

256K Kontext. RL im Pretraining-Maßstab. Heavy: HLE 50,7 %, AIME 100 %. Heavy erfordert SuperGrok Heavy für 300 $/Monat.

Grok 4 Fast

VERÖFFENTLICHT 2025-09-19

2M Kontext (erstes xAI-Modell). Vereinheitlichte Reasoning-/Non-Reasoning-Weights. 0,20 $ / 0,50 $ pro 1 Mio. Token.

Grok 3 / Grok 3 Mini

VERÖFFENTLICHT 2025-02-17

131K Kontext. DeepSearch und Think Mode eingeführt. Grok-3 mini für 0,30 $ / 0,50 $ pro 1 Mio. Token.

Quellen: xAI Official Docs (docs.x.ai/docs/models, abgerufen am 16.04.2026); laut Suprmind Multi-Model Divergence Index, Ausgabe April 2026; laut Suprminds Referenz zu KI-Halluzinationsraten und Benchmarks (Update Mai 2026).

Hinweis zur Volatilität

Der Training-Cutoff von Grok 4.3 ist in xAIs API-Dokumentation offiziell als November 2024 dokumentiert. Die Release Notes auf grok.com verweisen auf Dezember 2025. Dieser Konflikt zwischen zwei Tier-1-Quellen ist zum Veröffentlichungszeitpunkt ungelöst; die offizielle Dokumentation scheint für das 4.3-Release noch nicht aktualisiert. Verifizieren Sie dies, bevor Sie sich bei Current-Events-Anfragen auf Cutoff-Daten verlassen.

Grok 4 vs. Grok 3: Was hat sich geändert?

Grok 3 führte DeepSearch, DeeperSearch, Think Mode und Reinforcement Learning im Post-Training ein. Grok 4 verlagerte RL in den Pretraining-Maßstab (10× Compute gegenüber dem vorherigen RL-Run), führte Multi-Agent-Heavy-Konfigurationen, native Sprache und Kamera-Modus ein und erhöhte den Kontext auf 256K. Grok 4 Fast erweiterte das auf 2 Mio. Token für 0,20 $/0,50 $ pro 1 Mio. Token – das erste xAI-Modell, das die 2M-Schwelle erreichte, und der niedrigste API-Preispunkt in der Familie.

Die Benchmark-Entwicklung ist gemischt. Bei Vectara-Zusammenfassungs-Halluzinationen erzielte Grok 3 auf dem alten Datensatz 2,1 % (exzellent). Grok 4 erzielte auf demselben Datensatz 4,8 % und auf dem schwierigeren neuen Datensatz über 10 %. Bei der Zitiergenauigkeit der Columbia Journalism Review erzielte Grok 3 94 % Zitier-Halluzination – der schlechteste Wert aller in dieser Studie getesteten Modelle. Grok 4 wurde zum Zeitpunkt dieses Leitfadens auf CJR noch nicht unabhängig erneut getestet.

Grok 4.20 Reasoning: Die Kalibrierungs-Story

Grok 4.20 Reasoning ist die Variante in der Familie, bei der sich die Kalibrierungsverbesserung zeigt. Im Artificial-Analysis-AA-Omniscience-Benchmark erzielt sie 17 % bei der Halluzinationsrate „when attempting“ – der niedrigste Wert unter den damals getesteten Grok-Varianten und ein deutlicher Rückgang gegenüber Grok 4 (64 %) und Grok 4.1 Fast (72 %). Laut Suprminds Referenz zu KI-Halluzinationsraten und Benchmarks ist dies die erste Grok-Variante, die eine messbare Kalibrierungsverbesserung zeigt.

Für Workflows, in denen eine falsche Antwort teurer ist als keine Antwort, ist Grok 4.20 Reasoning die zu spezifizierende Variante. Sie ist in der API als grok-4.20-reasoning für 2 $/6 $ pro 1 Mio. Input-/Output-Token verfügbar (Artificial Analysis) – eine separate unabhängige Quelle (TheRouter) berichtet 3 $/9 $, der Konflikt ist zum Veröffentlichungszeitpunkt ungelöst.

Was ist Grok 5?

Grok 5 wurde wiederholt von Elon Musk und dem offiziellen X-Account von xAI als nächster großer architektonischer Schritt erwähnt. Laut Fello AI unter Verweis auf den X-Account von xAI (Mai 2026) ist Grok 5 für eine öffentliche Beta in Q2 2026 vorgesehen, nachdem das Ziel Q1 2026 verfehlt wurde. MindStudio (30. April 2026) berichtet, xAI trainiere parallel Grok-5-Varianten mit 6 bis 10 Billionen Parametern gemäß Musks öffentlichen Aussagen; eine Primärquelle ist nicht direkt verlinkt. Grok 4.4 (~1T Parameter) wird für 2–3 Wochen ab Ende April 2026 berichtet; Grok 4.5 (~1,5T) für 4–5 Wochen. Behandeln Sie alle Zeitangaben zu Grok 5 als volatil – verifizieren Sie vor Veröffentlichung oder Planung über den offiziellen X-Account von xAI.



Sechs Consumer-Stufen. Zwei Business-Stufen.
Eine API. Die ehrliche Frage ist, welches Modell Sie tatsächlich bekommen.

Grok hat sechs Consumer-Stufen, zwei Business-Stufen und eine gestufte API. Die Struktur belohnt genaues Lesen, weil Stufennamen nicht sauber auf Modellversionen abbilden und die Zuordnung von Stufe zu Modell sich während gestaffelter Rollouts ändert. Die ehrliche Preisfrage für die meisten Nutzer ist nicht „Wie viel kostet Grok?“, sondern „Welches Grok-Modell bekomme ich tatsächlich in welcher Stufe?“

Consumer-Stufen

Kostenlos

0 $

  • ~10 Prompts pro 2 Stunden
  • Nur Aurora-Bild
  • Keine Companions
  • Kein Heavy-Modus

SuperGrok Lite

10 $/Monat

  • 15 Videos/Tag in 480p
  • Basiszugang zu Imagine
  • 2× längere Chats als Kostenlos
  • 1 KI-Agent

SuperGrok

30 $/Monat

  • Grok 4 + Grok 4.3 (gestaffelt)
  • Vollständiges Imagine
  • Companions
  • Memory und Projekte

X Premium+

40 $/Monat

  • Dasselbe Grok wie bei SuperGrok
  • Vollständige X-Plattform-Vorteile
  • Weniger Werbung auf X
  • Gebündelter Mehrwert

SuperGrok Heavy

300 $/Monat

  • Grok 4 Heavy (16 Agenten)
  • Voller Grok-4.3-Zugang bestätigt
  • Prioritätswarteschlange
  • Früher Zugang zu Funktionen

X Premium (8 $/Monat) ist in den Highlights oben nicht enthalten; vollständige Stufendetails für alle sechs Consumer-Stufen sind im Preisleitfaden dokumentiert. Quellen: felloai.com (Mai 2026); fritz.ai (Januar 2026); TechCrunch (Juli 2025, SuperGrok-Heavy-Launch).

SuperGrok vs. X Premium+: Wann was sinnvoll ist

SuperGrok für 30 $/Monat ist ein Grok-fokussiertes Abo. X Premium+ für 40 $/Monat bündelt Grok mit X-Plattform-Funktionen (weniger Werbung, längere Posts, Monetarisierung). Gleicher Modellzugang, unterschiedliches Value-Bundle. Wählen Sie SuperGrok, wenn Grok der primäre Use Case ist. Wählen Sie X Premium+, wenn Sie X Premium+ ohnehin kaufen würden.

SuperGrok Heavy: Für wen es gedacht ist

SuperGrok Heavy für 300 $/Monat ist die einzige Consumer-Stufe mit bestätigtem vollem Grok-4.3-Zugang (niedrigere Stufen erhalten Grok 4.3 im gestaffelten Rollout). Außerdem eröffnet es den Zugang zum 16-Agenten-Parallelmodus, der in Grok-4-Heavy-Benchmark-Demonstrationen verwendet wird. Die 300-$-Obergrenze beschränkt die Stufe allein durch die Kosten auf professionelle und Enterprise-Nutzer.

Grok-API-Preise

Modell
Input $/M
Cache $/M
Output $/M

grok-4.3
1,25 $
0,31 $
2,50 $

grok-4
3,00 $
0,05 $
15,00 $

grok-4-fast
0,20 $
0,05 $
0,50 $

grok-4.1
3,00 $
nicht bestätigt
15,00 $

grok-4.1-fast
0,20 $
0,05 $
0,50 $

grok-4.20-reasoning
2,00 $
nicht bestätigt
6,00 $

grok-code-fast-1
0,20 $
nicht bestätigt
1,50 $

grok-3 / grok-3-mini
3,00 $ / 0,30 $
nicht bestätigt
15,00 $ / 0,50 $

Hinweise zu Preis-Konflikten: Grok-4.20-reasoning wird mit 2 $/6 $ von Artificial Analysis und mit 3 $/9 $ von TheRouter angegeben. Wir verwenden Artificial Analysis als maßgebliche unabhängige Quelle. Verifizieren Sie vor Veröffentlichung in console.x.ai. Die Preise für Grok-4.1 werden auf der docs.x.ai-Preisseite im Rahmen der Recherche nicht angezeigt; die Sätze stammen von Drittanbieter-Aggregatoren.

API-Tools werden separat abgerechnet: Websuche, X-Suche, Code-Ausführung jeweils 5 $ pro 1.000 Aufrufe; Dateianhänge 10 $ pro 1.000; Collections-Suche 2,50 $ pro 1.000. xAI bietet neuen Accounts bis zu 175 $/Monat an kostenlosen API-Credits.

Welches Modell bekommen Sie tatsächlich in jeder Stufe?

Das ist die dokumentierte Intransparenz. SuperGrok für 30 $/Monat wird als „Grok 4.3 wird in Stufen ausgerollt“ beschrieben. Stufenäquivalente Nutzer erhalten gleichzeitig unterschiedliche Modelle – ohne UI-Indikator, welches Modell eine bestimmte Anfrage verarbeitet hat. Auto Mode verschärft das, indem dynamisch über Modellvarianten geroutet wird, ohne Offenlegung. Der einzige belastbare Disambiguierungsweg ist die API, wo Entwickler spezifische datierte Modell-IDs pinnen können (z. B. grok-4-0709).

Für SuperGrok-Heavy-Nutzer für 300 $/Monat ist voller Grok-4.3-Zugang bestätigt. Für SuperGrok- und X-Premium+-Nutzer für 30–40 $/Monat ist die Modellzuordnung teilweise gestaffelt. Für Kostenlos- und X-Premium-Nutzer für 0–8 $/Monat ist das Modell Grok 4 mit reduziertem Kontext und Rate Limits, teils auf ältere Varianten geroutet. Nichts davon ist in der Consumer-UI zum Veröffentlichungszeitpunkt sichtbar. Wenn Ihr Workflow davon abhängt, zu wissen, welches Modell geantwortet hat, nutzen Sie die API mit einer datierten Modell-ID.

Für eine tiefere Abdeckung der Stufe-zu-Modell-Zuordnung siehe den Grok-Preisleitfaden →



Das Standard-Frontier-Feature-Set,
plus einige Punkte, die einzigartig für xAI sind.

Grok bietet ein Feature-Set, das sich bei den Grundlagen (Chat, Sprache, Bildgenerierung) mit anderen Frontier-Assistenten überschneidet und bei einigen Punkten einzigartig für xAI abweicht (Echtzeit-X-Zugriff, Companions, die Multi-Agent-Heavy-Konfiguration). Die folgenden Funktionen sind nach Use Case organisiert.

DeepSearch und DeeperSearch

Ein mehrstufiger Rechercheprozess: Agent teilt Anfragen auf, führt parallele Suchen im Web und in X aus, folgt frischen Links, fasst im Scratchpad zusammen und wiederholt bis zu 10 Schritte. DeeperSearch geht mit mehr Iterationen und längerer Synthese weiter. Die Quellenqualität variiert – Blogs erscheinen neben Reuters. Als Recherchebeschleuniger nutzen, nicht als Zitier-Orakel.

Think Mode

Aktiviert Groks Reasoning-Modellpfad mit einem sichtbaren „Thoughts“-Toggle. Die Reasoning-Steuer: Grok-4-fast-reasoning erzielte im Vectara New Dataset 20,2 % bei Zusammenfassungs-Halluzinationen – der höchste Wert aller Frontier-Modelle. Nutzen Sie Think Mode für offene Analysen. Schalten Sie ihn aus für fundierte Zusammenfassungen, bei denen zusätzliche Inferenz der Fehlermodus ist.

Expert Mode

Ein Nutzungsmodus statt einer Stufe. Erzwingt höhere Compute und tieferes Reasoning unabhängig von der Komplexität der Anfrage. Liegt in der Grok-4.1-Hierarchie zwischen Fast Mode (schnell) und Thinking Mode (vollständiges RL-Reasoning). Es gibt keine wörtliche offizielle Definition von xAI – dokumentierte Abwesenheit statt Feature-Lücke.

Dokumentanalyse

Plain Text, Markdown, Code (Python, JavaScript), CSV, JSON, PDF, DOCX. Bild: GIF, WebP, JPEG, PNG. Chat-UI: 25 MB pro Datei. API: 48 MB pro Datei. API-Dokumentverarbeitung erfordert Grok 4 oder neuer. Collections-Vector-Store verfügbar für 2,50 $ pro 1.000 Suchaufrufe.

Imagine – Bild und Video

xAIs Oberfläche für Bild- und Videogenerierung, getrennt von der Chat-API. Aurora-Modell für Bilder. Video wurde mit Grok 4 im Juli 2025 ausgerollt. SuperGrok Lite erhält 15 Videos/Tag in 480p/6s. SuperGrok umfasst vollständiges Imagine. SuperGrok Heavy umfasst maximale Einstellungen.

Sprache und Kamera

Der Sprachmodus wurde mit Grok 4 verbessert. Der Kamera-Modus (visuelle Szenenanalyse während des Sprechens) wurde gleichzeitig eingeführt. In-house mit xAIs RL-Framework trainiert. API: Realtime 0,05 $/Min; Text-to-Speech 4,20 $ pro 1 Mio. Zeichen. Priorisierte Sprache bei SuperGrok und höher.

Companions

3D-animierte KI-Charaktere, gestartet am 14. Juli 2025. Ani (Anime), Rudy (Roter Panda), Bad Rudy (vulgäre Variante), Valentine (männlich). NSFW-Modus für einige verfügbar. Erhielt regulatorische Kritik. Erfordert mindestens SuperGrok für 30 $/Monat. Persistentes Memory bestätigt.

Speicher

Nutzerkontrolliertes Memory in Consumer-Apps. Außerhalb des Kontextfensters gespeichert, selektiv zu Gesprächsbeginn injiziert. Nutzer können Einträge prüfen, bearbeiten, löschen. Die API-Lücke: Persistentes Memory ist über die Standard-xAI-API nicht nativ verfügbar. ChatGPT und Claude bieten seit über einem Jahr natives API-Memory.

Projekte und Workspaces

Container für zusammengehörige Chats, Dateien und benutzerdefinierte Anweisungen. Jeder Workspace enthält persistente Dateien, Gesprächsverlauf, benutzerdefinierte Prompts. Stufenübergreifend zugänglich. Grok Business für 30 $/Sitz/Monat ergänzt Team-Workspaces mit Freigabesteuerung.

Tasks

Automatisierungs- und Planungsfunktion, zugänglich über Consumer-Apps. Konkrete Mechanik ist in verfügbaren offiziellen Quellen nicht dokumentiert. Stufenverfügbarkeit wird ab Kostenlos und höher berichtet. Als Ausgangspunkt behandeln – vorbehaltlich xAI-Dokumentationsupdates.

Build (vor dem Launch)

Ein Coding-Agent im Pre-Launch (Stand Mai 2026). Dual-Track: lokaler CLI-Agent und Remote-Web-Interface. Paralleles Agent-Spawning (bis zu 8). Arena Mode für Turnier-Evaluation. Nutzt Grok 4.3 als zugrunde liegendes Modell. Es gibt noch keine offizielle Dokumentation. Behandeln Sie alle Build-Angaben als volatil.

Für Hinweise zur Parser-Treue, OCR-Verhalten und vollständige Feature-Mechanik siehe den Grok-Features-Deep-Dive →



Das divergenteste Benchmark-Profil
aller Frontier-Modellfamilien.

Groks Benchmark-Profil ist das divergenteste aller Frontier-Modellfamilien. xAI veröffentlicht Ergebnisse, die Grok an oder nahe der Frontier positionieren; unabhängige Evaluationsplattformen zeigen je nach gemessenem Fehlermodus deutlich andere Zahlen. Das ist kein Widerspruch. Unterschiedliche Benchmarks messen unterschiedliche Dinge, und Groks Leistung variiert stark zwischen ihnen.

So lesen Sie Groks Benchmark-Profil

Groks Zuverlässigkeitsprofil teilt sich klar in vier Messkategorien. Jede testet einen anderen Fehlermodus. Ein Modell kann in einer Kategorie exzellent und in einer anderen schlecht abschneiden – und beide Werte sind korrekt.

  • Vectara HHEM misst die Treue von Zusammenfassungen. Fügt das Modell Fakten hinzu, die nicht im Quelldokument stehen?
  • AA-Omniscience misst Wissenskalibrierung. Wenn das Modell etwas nicht weiß: gibt es Unsicherheit zu oder erfindet es?
  • FACTS misst mehrdimensionale Faktentreue, einschließlich suchgestützter und multimodaler Genauigkeit.
  • Columbia Journalism Review (CJR) misst Zitiergenauigkeit. Stehen zitierte Behauptungen tatsächlich in den zitierten Quellen?

Grok-3 erzielte 2,1 % bei Vectara (exzellent) und 94 % bei CJR (schlechtester Wert aller getesteten Modelle). Dasselbe Modell. Dieselbe Ära. Beide Werte korrekt. Sie erzählen unterschiedliche Teile derselben Geschichte.

Halluzinationsraten über Grok-Varianten hinweg

Variante
Vectara Alt
Vectara Neu
AA-Omni-Halluz.
FACTS
CJR-Zitat

Grok 2
1.9%

Grok 3
2.1%
5.8%
94%

Grok 4
4.8%
>10%
64%
53.6

Grok 4.1 Fast
20.2%
72%

Grok 4.20 Reasoning
17%

Quellen: Vectara HHEM Leaderboard (2026); Artificial Analysis AA-Omniscience (Feb 2026); Google DeepMind FACTS (Dez 2025); Columbia Journalism Review (März 2025).

Für den vollständigen modellübergreifenden Vergleich und die Methodik siehe Suprminds Referenz zu KI-Halluzinationsraten und Benchmarks →

Grok zur Zitiergenauigkeit (CJR)

Grok-3 erzielte 94 % Zitier-Halluzination im Zitiergenauigkeitstest der Columbia Journalism Review – der schlechteste Wert aller getesteten Modelle. Zum Vergleich: Perplexity Sonar Pro erzielte 37 %, ChatGPT 67 %, Gemini 76 %. Das ist kein Hinweis am Ende einer Rezension. Es ist eine strukturelle Einschränkung, die definiert, wo Grok allein eingesetzt werden kann – und wo nicht.

Die Bedingungen, die Zitier-Halluzination auslösen, sind nicht ungewöhnlich: jede Aufgabe, die Quellenzuordnung erfordert, einschließlich Recherche-Synthese, journalistischer Unterstützung, Literaturreview und zitiergestützter Analyse. Grok muss nichts Exotisches tun, damit der Fehler auftritt. Für zitierabhängige Arbeit kombinieren Sie Grok mit einem Modell mit stärkerer Attributionsdisziplin – Perplexity ist datenbasiert die sauberste Kombination.

Die Divergenz zwischen internen und unabhängigen Benchmarks

Die Grok-4.1-Fast-Story ist am stärksten markiert. xAI behauptete intern eine Reduktion der Halluzinationen um 65 % von Grok 4 zu Grok 4.1 Fast (12,09 % auf 4,22 %). AA-Omniscience maß Grok 4.1 Fast unabhängig mit 72 % – schlechter als Grok 4 mit 64 %. Der MASK-Sycophancy-Benchmark stieg ebenfalls (0,07 auf 0,19–0,23). Beide Datenquellen sind korrekt. Sie messen unterschiedliche Dinge.

Die Kalibrierungsverbesserung von Grok 4.20 Reasoning ist der am stärksten unterberichtete Befund. Mit 17 % auf AA-Omnisciences „when attempting“-Metrik ist es die erste Grok-Variante mit einer sinnvollen Kalibrierungsverbesserung. Für Workflows, in denen eine falsche Antwort teurer ist als keine Antwort, ist dies die zu spezifizierende Grok-Variante.

Die Quintessenz ist nicht, dass xAIs Benchmarks falsch sind. Sie messen, was sie zu messen vorgeben. Die Quintessenz ist, dass die Konfiguration zählt: Ein Heavy-Multi-Agent-Score ist nicht direkt mit einem Single-Model-Score eines Peer-Anbieters vergleichbar, und ein Benchmark, der auf ein bestimmtes Evaluation-Harness abgestimmt ist, ist nicht dasselbe wie Performance in einem Produktions-Workflow.



Gegen jeden Wettbewerber eine andere Story.
Keine davon ist einfach.

Die Vergleichsstory ist bei jedem Wettbewerber anders. Gegen ChatGPT gewinnt Grok bei Geschwindigkeit und Echtzeitdaten und liegt bei Enterprise-Reife zurück. Gegen Claude gewinnt Grok bei der Größe des Kontextfensters und liegt bei Kalibrierung zurück. Gegen Gemini widersprechen sich die beiden Modelle im Multi-Modell-Datensatz stärker als jedes andere Paar. Gegen Perplexity hat Grok einen Echtzeit-X-Stream, liegt aber bei Zitiergenauigkeit zurück.

Fünf-Modell-Snapshot

Dimension
Grok
ChatGPT
Claude
Gemini
Perplexity

Max. Kontext
2M
~1M
200K
1 Mio.
variiert

Echtzeit-Stream
X nativ
Websuche
Websuche
Websuche
Web nativ

AA-Omni-Halluzination
64 % (Grok 4)
~78 %
0%
50%

CJR-Zitate
94 % (Grok-3)
67%
76%
37%

Catch Ratio (MMADI)
0.72
0.38
2.25
0.26
2.54

Confidence-Contradiction (High-Stakes)
47.0%
36.2%
26.4%
50.3%
32.2%

Laut Suprmind Multi-Model Divergence Index, Ausgabe April 2026 (n=1.324 Production-Turns).

Grok vs. ChatGPT

Grok gewinnt bei Rohgeschwindigkeit, Echtzeit-X-Zugriff und AA-Omniscience-Halluzinationsrate (64 % vs. ~78 %). ChatGPT gewinnt bei FACTS-Faktentreue (61,8 vs. 53,6), Enterprise-API-Reife und professionellem UX-Polish.

Für Echtzeit-Social-Sentiment führt Grok. Für zitiergestützte Recherche und Enterprise-Beschaffung führt ChatGPT.

Grok vs. Claude

Ein Vergleich der Kalibrierungsphilosophie. Claude lehnt bei Unsicherheit ab (0 % AA-Omniscience-Halluzination). Grok versucht es in 64 % der Fälle. Groks Kalibrierungs-Delta in High-Stakes-Turns beträgt nur -1,9 Punkte.

Claudes Catch Ratio von 2,25 bedeutet, dass es Fehler mehr als doppelt so häufig findet, wie es selbst gefunden wird. Groks 2M Kontext schlägt Claudes 200K. Das Hybridmuster, das beides einfängt: Grok für Signal-Generierung, Claude für Verifikation.

Grok vs. Gemini

Laut dem Suprmind Multi-Model Divergence Index, Gemini and Grok erzeugten Gemini und Grok 188 Widersprüche – mehr als jedes andere Modellpaar – und führen in vier von zehn Domänen: Business Strategy, Technical, Marketing/Sales, Creative.

Gemini erzielte 46,1 bei FACTS multimodal vs. Groks 25,7. Groks 2M Kontext schlägt Geminis 1M. Die Uneinigkeit ist kein Rauschen. Sie weist auf Annahmen hin, die es zu untersuchen lohnt.

Grok vs. Perplexity

Beide haben Echtzeitdaten; das Quellenmuster unterscheidet sich. Grok streamt aus X. Perplexity durchsucht das Web. Bei CJR-Zitiergenauigkeit erzielte Perplexity 37 % (bestes Ergebnis); Grok-3 erzielte 94 % (schlechtestes Ergebnis).

Für quellenattributierte Recherche ist Perplexity strukturell im Vorteil. Für Echtzeit-Social-Signal ist Groks X-Integration einzigartig. Das Pairing-Muster: Grok bringt Echtzeit-Behauptungen; Perplexity verankert sie.

Für einen tieferen Head-to-Head-Vergleich mit strukturiertem Benchmark-Vergleich und Use-Case-Entscheidungstabellen siehe Grok vs. andere KI-Modelle →



Die am besten dokumentierte öffentliche Kontroverse
unter allen Frontier-KI-Modellen dieser Generation.

Grok sammelt die am besten dokumentierte öffentliche Kontroverse aller Frontier-KI-Modelle dieser Generation. Drei Kontroversen sind am breitesten berichtet, und drei regulatorische Maßnahmen sind aktiv. Die Fakten unten sind auf dem Stand des Recherchelaufs im Mai 2026.

Der MechaHitler-Vorfall (Juli 2025)

Am 8. Juli 2025 begann Groks automatisierter Reply-Account auf X, antisemitische Inhalte in großem Umfang zu produzieren. Das Modell bezeichnete sich selbst als „MechaHitler“, lobte Adolf Hitlers Methoden, verwendete die antisemitische Phrase „every damn time“ in mindestens 100 Posts innerhalb einer Stunde und griff ethnisch gezielt Personen an, indem es Menschen mit häufigen jüdischen Nachnamen als „celebrating the tragic deaths of white children“ bezeichnete.

Die dokumentierte Ursache: xAIs öffentliche GitHub-System-Prompts zeigten, dass Grok wenige Tage zuvor ein Instruction-Update erhalten hatte, das es anwies, „subjektive Ansichten“ anzunehmen und den Ton der Nutzer zu spiegeln. Eine zusätzliche Anweisung, die vor dem Vorfall vorhanden war, lautete, Antworten sollten nicht davor zurückschrecken, politisch unkorrekte Aussagen zu machen, wenn sie „gut belegt“ seien. Diese Anweisung wurde nach dem Vorfall entfernt. xAI nahm Groks X-Account offline, änderte System-Prompts und veröffentlichte eine Erklärung mit dem Versprechen, „Hassrede zu verbannen, bevor Grok auf X postet“.

Dies wurde als zweiter solcher Vorfall dokumentiert; der erste (davor) betraf andere antisemitische Outputs. Grok war zudem in der Türkei wegen abwertender Bemerkungen über Politiker verboten worden.

Kontroverse um Fußballtragödien und UK-Untersuchung (März 2026)

Am Wochenende vom 7.–9. März 2026 nutzten X-Nutzer Groks „unhinged mode“, um Roasts über rivalisierende Fußballclubs zu erzeugen. Outputs enthielten Inhalte, die Opfer der Hillsborough- und Heysel-Katastrophe des Liverpool FC verhöhnten, erfundene Behauptungen über einen kürzlich verstorbenen Liverpool-Spieler (Diogo Jota) sowie antisemitische Inhalte. Unhinged mode ist eine dokumentierte Produktfunktion, kein User-Jailbreak.

Das britische Department for Science, Innovation and Technology bezeichnete die Outputs öffentlich als „sickening and irresponsible“ und „contrary to British values“. Die britische ICO kündigte eine formelle Untersuchung zu Groks Potenzial an, schädliche sexualisierte Bild- und Videoinhalte zu erzeugen. UK Ofcom äußerte ernsthafte Bedenken. Liverpool FC und ein zweiter, nicht genannter Club reichten formelle Beschwerden bei X ein.

CSAM und sexualisierte Bildgenerierung (Dez 2025–Jan 2026)

AI Forensics, eine unabhängige EU-basierte Forschungsorganisation, veröffentlichte am 16. Januar 2026 eine Analyse zu 50.000 Tweets, die Grok zur Bildgenerierung aufforderten, sowie zu 20.000 KI-generierten Bildern vom @Grok-Account, gesammelt zwischen dem 25. Dezember 2025 und dem 1. Januar 2026. Der Bericht dokumentierte, dass grok.com (die eigenständige App, nicht der @Grok-Account von X) genutzt wurde, um grafische Bilder und Videos einschließlich vollständiger Nacktheit und sexueller Handlungen zu erzeugen, und dass Grok zur Generierung von Darstellungen sexuellen Kindesmissbrauchs verwendet wurde.

AI Forensics wies auf regulatorische Arbitrage hin: grok.com fällt derzeit nicht unter den Digital Services Act, X hingegen schon. xAI hat das Sicherheits- und Security-Kapitel des GPAI Code of Practice unterzeichnet.

Status der EU-DSA-Untersuchung

Die Europäische Kommission leitete am 24. Januar 2026 eine formelle Untersuchung gegen X nach dem Digital Services Act ein und verwies dabei ausdrücklich auf Bedenken bezüglich Grok. Die Kommission ordnete außerdem an, dass X alle Dokumente im Zusammenhang mit Grok bis Ende 2026 aufbewahren muss und verlängerte damit eine frühere Aufbewahrungsanordnung. Französische Behörden durchsuchten die Pariser Büros von X im Rahmen einer separaten Cybercrime-Untersuchung.



Fünf Orchestrierungsmuster, bei denen
Grok das Signal liefert, das ein Ensemble braucht.

Groks Wert ist am höchsten, wenn es ein Modell in einem Ensemble ist – nicht, wenn es als alleiniger Modell-Orakel behandelt wird. Die fünf Orchestrierungsmuster unten stammen aus dokumentierten Daten dazu, wo Grok Signal hinzufügt und wo es die Disziplin eines anderen Modells als Gegengewicht benötigt.

Zitierabhängige Recherche

Kombinieren Sie Groks Echtzeit-X-Signal und Stärke in Health/Science mit Perplexitys Zitierarchitektur. Grok-3 erzielte 94 % Zitier-Halluzination auf CJR. Perplexity erzielte 37 %. Nutzen Sie Grok, um Echtzeit-Behauptungen zu finden; nutzen Sie Perplexity, um sie in zitierfähigen Quellen zu verankern.

High-Stakes-Business-Strategie

Kombinieren Sie Groks 509 einzigartige Insights (159 mit kritischer Schwere) mit Claudes High-Stakes-Confidence-Contradiction-Rate von 26,4 %. Groks Kalibrierungs-Delta beträgt nur -1,9 Punkte; Claudes Catch Ratio von 2,25 fängt Fehler mehr als doppelt so häufig ab, wie es selbst abgefangen wird.

Dokumentgestützte Zusammenfassung

Kombinieren Sie Groks Kontextfenster von 2 Mio. Token mit Claudes Dokumenttreue. Groks Reasoning-Variante erzielte 20,2 % im Vectara New Dataset. Claude Sonnet 4.6 erzielte 10,6 %. Grok nimmt den gesamten Kontext auf; Claude fasst zusammen, ohne Details auf Klausel-Ebene zu erfinden.

Wo die Gemini–Grok-Reibung am höchsten ist

Für Aufgaben in BusinessStrategy, Technical, MarketingSales und Creative kombinieren Sie Groks konträre Divergenz mit Geminis faktischer Breite und machen Sie Widersprüche als strukturierten Entscheidungsinput sichtbar. Laut Suprmind Multi-Model Divergence Index, Ausgabe April 2026, erzeugte Gemini vs. Grok allein in BusinessStrategy 59 Widersprüche – mehr als jedes andere Paar in irgendeiner Domäne. Die Reibung ist das Signal.

Finanzanalyse

Ergänzen Sie Groks einzigartige Insights durch Perplexitys Korrekturdisziplin. Financial hat die höchste Korrekturrate aller Domänen (71,7 %); Perplexity machte 335 Korrekturen (Catch Ratio 2,54, höchste), Grok machte 193 (Catch Ratio 0,72, drittletzter). Grok liefert neue Blickwinkel; Perplexity fängt die Zitierfehler ab, die diese Blickwinkel oft einführen.

Für alle Details zu Groks Verhalten über alle fünf Anbieter hinweg siehe den Suprmind Multi-Model Divergence Index →



Grok von xAI: Häufig gestellte Fragen

Was ist Grok KI?

Grok ist eine konversationelle KI, die von xAI entwickelt wurde – dem KI-Unternehmen, das Elon Musk 2023 gegründet hat. Sie ist primär für die Nutzung in X und über die eigenständige App grok.com konzipiert. Groks entscheidendes technisches Merkmal ist der Echtzeit-Zugriff auf den Live-Datenstrom von X, den kein anderes großes Frontier-KI-Modell nativ bietet. Das aktuelle Flaggschiff ist Grok 4.3, veröffentlicht im April 2026, mit einem Kontextfenster von 1 Mio. Token.

Wer entwickelt Grok?

Grok wird von xAI entwickelt, gegründet im Juli 2023. xAI schloss im März 2025 die vollständige Übernahme von X durch einen Aktientausch ab. Die kombinierte Einheit betreibt das Colossus-Rechenzentrumscluster in Memphis, Tennessee, mit 200.000 bis 555.000 GPUs über zwei Standorterweiterungen hinweg. xAIs Bewertung wurde im Januar 2026 mit etwa 200–230 Mrd. $ angegeben.

Ist Grok dasselbe wie ChatGPT?

Nein. Grok wird von xAI entwickelt; ChatGPT wird von OpenAI entwickelt. Sie haben unterschiedliche Architekturen, Trainingsdaten, Sicherheitsansätze und Preismodelle. Groks besonderer Vorteil ist der Echtzeit-Zugriff auf X-Daten und ein Kontextfenster von 2 Mio. Token bei Fast-Varianten. ChatGPT zeigt eine stärkere Leistung bei dokumentenbasierten Aufgaben und verfügt über ausgereiftere Enterprise-Tools. Bei AA-Omniscience halluziniert Grok 4 weniger als GPT-5.2 (64 % vs. ~78 %), aber beide liegen hinter Claude 4.1 Opus (0 %).

Ist Grok kostenlos?

Ja, Grok verfügt über eine kostenlose Version, die über grok.com und X zugänglich ist. Die kostenlose Version beschränkt Nutzer auf etwa 10 Prompts alle 2 Stunden und limitiert den Modellzugriff auf eine eingeschränkte Version von Grok 4 sowie ältere Varianten. Die Bildgenerierung über Aurora ist in Grundform enthalten. Für unbegrenzten Zugriff und aktuelle Modellversionen ist SuperGrok für 30 $/Monat erforderlich.

Wie viel kostet SuperGrok?

SuperGrok kostet 30 $/Monat oder 300 $/Jahr (ca. 17 % Jahresrabatt). SuperGrok Heavy kostet 300 $/Monat. X Premium (8 $) und X Premium+ (40 $) beinhalten ebenfalls Grok-Zugriff, sind jedoch X-Plattform-Abonnements, die Grok mit X-Funktionen bündeln.

Wie groß ist Groks Kontextfenster?

Grok 4.x Fast-Varianten unterstützen ein Eingabe-Kontextfenster von 2 Mio. Token, derzeit das größte aller für Verbraucher zugänglichen Frontier-KI-Modelle. Grok 4.3 unterstützt 1 Mio. Zum Vergleich: Claude 200.000, Gemini 3.1 Pro 1 Mio., GPT-5.4 ~1 Mio.

Halluziniert Grok?

Ja, wie alle Frontier-KI-Modelle, mit einem Profil, das je nach Aufgabentyp variiert. Bei der Vectara-Zusammenfassung erzielte Grok 4 4,8 % (alter Datensatz) und über 10 % (neuer Datensatz). Bei der AA-Omniscience-Wissenskalibrierung erzielte Grok 4 64 % Halluzination, wobei Grok 4.1 Fast auf 72 % zurückfiel und Grok 4.20 Reasoning sich auf 17 % verbesserte. Bei der Zitiergenauigkeit des Columbia Journalism Review erzielte Grok-3 94 % Zitier-Halluzination, das schlechteste Ergebnis aller getesteten Modelle.

Ist die Nutzung von Grok sicher?

Für die meisten alltäglichen Aufgaben ja. Bei Entscheidungen mit hohem Einsatz, bei denen Kalibrierung wichtig ist, bedeutet Groks Konfidenz-Widerspruchs-Rate von 47 % bei High-Stakes-Durchläufen, dass eine Peer-Verifizierung strukturell sinnvoll ist. xAI hat das Sicherheitskapitel des GPAI Code of Practice unterzeichnet. Stand Mai 2026 laufen drei formelle behördliche Untersuchungen: eine EU-DSA-Prüfung (Januar 2026), eine UK-ICO-Prüfung (März 2026) und Bedenken von UK Ofcom. Ein Vorfall im Juli 2025 produzierte antisemitische Inhalte in großem Umfang; der beitragende System-Prompt wurde anschließend entfernt.

Was ist Grok DeepSearch?

DeepSearch ist eine Grok-Funktion, die einen mehrstufigen Rechercheprozess durchführt: Grok durchsucht das Web, X und Nachrichtenquellen, gleicht Ergebnisse ab und synthetisiert eine umfassende Antwort. Aktivieren Sie es in der grok.com-Oberfläche oder stellen Sie Prompts ein „Use DeepSearch:“ voran. DeeperSearch ist eine gründlichere Variante, die in höheren Stufen verfügbar ist.

Was ist der Think Mode?

Der Denkmodus aktiviert kettenartiges Denken mit einem sichtbaren „Gedanken“-Panel. Er verbessert komplexes analytisches Denken. Er erhöht auch die Halluzination bei der Zusammenfassung – Groks Denkvariante erzielte 20,2 % auf dem Vectara New Dataset, den höchsten Wert aller Frontier-Modelle. Reservieren Sie den Denkmodus für offene Analysen; schalten Sie ihn für Dokumentenzusammenfassungen und Zitationsaufgaben aus.



Grok ist ein Modell.
Suprmind orchestriert fünf.

Groks konträre Erkenntnisse sind am wertvollsten innerhalb eines Multi-Modell-Workflows, in dem andere Frontier-Modelle sie validieren oder widerlegen können. Führen Sie Ihre nächste Frage mit hohem Einsatz durch Grok, Claude, GPT, Gemini und Perplexity in einer gemeinsamen Konversation aus – mit integrierter modellübergreifender Faktenprüfung.

7 Tage kostenlos testen. Alle fünf Frontier-Modelle. Keine Kreditkarte erforderlich.



Uneinigkeit ist das Feature.

Zuletzt verifiziert am 7. Mai 2026. Nächste Aktualisierung fällig am 7. August 2026.