Inicio Hub Funciones Casos de uso Guías Plataforma Precios Iniciar sesión



Guía completa de xAI Grok

Grok de xAI:
Guía completa de modelos,
funciones y precios

Grok es el asistente de IA desarrollado por xAI, la empresa que Elon Musk fundó en julio de 2023. El modelo insignia actual es Grok 4.3, con una ventana de contexto de 1M de tokens, entrada de vídeo nativa y razonamiento siempre activo. Se ejecuta en grok.com, dentro de X, en iOS y Android, y a través de la API en api.x.ai.

Esta guía cubre cada variante de modelo activa, cada función, cada nivel y los datos de benchmarks independientes que definen dónde gana realmente Grok y dónde no. La ventaja definitiva de Grok: acceso en tiempo real al flujo de datos de X. Su limitación definitiva: la calibración. Ambos factores determinan el lugar que ocupa Grok en un flujo de trabajo serio.

Última verificación el 7 de mayo de 2026. Próxima actualización prevista para el 7 de agosto de 2026.

¿Qué es Grok? Una guía completa del modelo de IA de xAI y otros significados



Un asistente de IA de xAI
con integración de X en tiempo real.

Grok es un asistente de IA conversacional desarrollado por xAI. Está disponible en tres lugares: la web independiente y la aplicación móvil en grok.com, dentro de X (anteriormente Twitter) para suscriptores de X Premium y superiores, y a través de una API para desarrolladores en api.x.ai. La versión insignia actual es Grok 4.3, lanzada el 30 de abril de 2026, con una ventana de contexto de 1M de tokens y entrada de vídeo nativa. Las variantes anteriores, incluyendo Grok 4 (256K), Grok 4 Fast (2M), Grok 4.1, Grok 4.20 y Grok 3, siguen siendo accesibles a través de la API.

Escuche esta investigación en modo podcast

El nombre proviene de la novela de 1961 de Robert Heinlein Forastero en tierra extraña, donde «grok» significa entender algo profunda e intuitivamente. El nombre se comparte con una biblioteca de análisis de registros de código abierto y se utiliza como verbo, pero a efectos de esta guía y para evitar ambigüedades en las búsquedas, «Grok» se refiere específicamente al asistente de xAI.

Lo que distingue a Grok de otros asistentes de IA de vanguardia es el patrón de acceso, no la arquitectura. Grok es el único modelo principal con un flujo nativo en tiempo real de X, y el único modelo accesible para el consumidor con una ventana de contexto de 2M de tokens en sus variantes Fast. También acumula la mayor controversia pública de cualquier modelo de vanguardia de esta generación, incluido un incidente en julio de 2025 en el que produjo contenido antisemita a gran escala. Ambas características están documentadas y ambas condicionan su uso práctico.

Grok en una frase.

Grok es un asistente de IA de xAI con integración de X en tiempo real, grandes ventanas de contexto y un perfil de benchmark donde coexisten un sólido rendimiento en dominios específicos y altas tasas de alucinaciones.



xAI – fundada por Elon Musk en 2023,
que ahora opera dentro de X.

xAI es una empresa de IA fundada por Elon Musk en julio de 2023. La misión declarada de la empresa es «comprender la verdadera naturaleza del universo». Tiene su sede en Palo Alto, California, con su infraestructura de entrenamiento principal en el clúster de centros de datos Colossus en Memphis, Tennessee.

En marzo de 2025, xAI completó una adquisición mediante intercambio de acciones de X (anteriormente Twitter), valorando xAI en 80.000 millones de dólares y X en 33.000 millones de dólares. La fusión otorgó a Grok acceso estructural al flujo de contenidos de X. Un informe independiente de febrero de 2026 hacía referencia a una fusión entre xAI y SpaceX a través de una publicación en X atribuida a @Grok; los detalles de la estructura corporativa requieren verificación primaria y aún no están documentados en los registros de xAI.

¿Qué es Grok? Una guía completa del modelo de IA de xAI y otros significados

La valoración reportada de xAI era de aproximadamente 200.000-230.000 millones de dólares a fecha de enero de 2026, tras una ronda de Serie E de unos 20.000 millones de dólares impulsada por capital soberano de Oriente Medio. La financiación total recaudada a través de las rondas se sitúa en aproximadamente 45.000 millones de dólares. El cofundador Igor Babuschkin (anteriormente en DeepMind) se encarga de gran parte de la comunicación técnica. Linda Yaccarino dejó su cargo de CEO de X en el verano de 2025.

Colossus opera a aproximadamente 1-2 GW con entre 200.000 y 555.000 GPU de NVIDIA en dos ampliaciones de las instalaciones, dependiendo de la fecha de divulgación. xAI ha sido más transparente que la mayoría de los laboratorios de vanguardia sobre la infraestructura de entrenamiento, pero menos transparente sobre los detalles de la arquitectura del modelo, como el recuento de parámetros y las configuraciones de expertos.



La «búsqueda de la verdad» como principio declarado.
Tres comportamientos de producto observables.

El principio de diseño declarado por xAI para Grok es la «búsqueda de la verdad». En la práctica, esto se traduce en tres comportamientos de producto que se pueden observar en todas las versiones: la disposición a abordar temas controvertidos que otros modelos rechazan, una personalidad conversacional que tiende a ser directa e irreverente en lugar de cautelosa, y un historial de prompts del sistema que han instruido explícitamente al modelo para realizar afirmaciones políticamente incorrectas cuando estén «bien fundamentadas». Esa última instrucción se eliminó de los prompts del sistema públicos de GitHub de xAI tras el incidente de contenido antisemita de julio de 2025.

Lo que esto significa para los usuarios es un modelo que intenta ofrecer más respuestas de las que sus pares rechazan. En los benchmarks independientes, esto se traduce en una alta «tasa de respuesta» combinada con una alta tasa de error cuando el modelo no está seguro. En el benchmark AA-Omniscience, Grok 4 intenta dar respuestas que debería rechazar el 64% de las veces. Claude 4.1 Opus, por el contrario, logra una tasa del 0% en la misma métrica al declinar cuando no está seguro. Ambas son opciones de diseño válidas. Producen diferentes modos de fallo.

En la evaluación multimodelo, el comportamiento de Grok coincide con su intención de diseño. Según el Índice de Divergencia Multimodelo de Suprmind, edición de abril de 2026 (n=1.324 turnos de producción), Grok aporta 509 perspectivas únicas (19,7% de cuota, tercero entre cinco proveedores) que los modelos de consenso pasan por alto. La contrapartida es que su delta de calibración en turnos de alto riesgo es de solo -1,9 puntos: no se protege de forma medible cuando la pregunta tiene más peso. Las perspectivas contrarias llegan con la misma confianza aparente que las incorrectas.

Grok está diseñado para detectar señales que otros pasan por alto.

Ese valor es máximo cuando Grok es un modelo dentro de un conjunto donde otros modelos pueden validar o contradecir sus resultados. Es mínimo cuando se trata a Grok como un oráculo de modelo único para decisiones de alto riesgo.



Seis generaciones desde noviembre de 2023.
La alineación actual se centra en la familia Grok 4.

xAI ha lanzado seis generaciones de modelos Grok desde noviembre de 2023. La alineación activa actual se centra en la familia Grok 4 (Grok 4, Grok 4 Fast, Grok 4.1, Grok 4.20, Grok 4.3) además de las variantes más antiguas Grok 3 y Grok 2 en la API. La recomendación principal en los documentos oficiales de xAI es Grok 4.3.

Modelos Grok activos en 2026

La matriz de variantes a continuación cubre cada modelo accesible actualmente a través de grok.com o la API. Las ventanas de contexto se refieren a los tokens de entrada. Los ID de la API son las cadenas que los desarrolladores pasan al endpoint de Chat Completions.

Grok 4.3 (Modelo insignia actual)

LANZADO EL 30-04-2026 · ID DE API: grok-4.3

Contexto: 1M de tokens. Multimodal en: texto, imagen, vídeo. Razonamiento siempre activo. Precios: 1,25 $ / 2,50 $ por millón de tokens de entrada/salida.

Grok 4.20 (3 variantes)

LANZADO EL 31-03-2026

Razonamiento, sin razonamiento, multiagente. Contexto de 2M. El multiagente utiliza la arquitectura de 4 agentes «Society of Mind». Variante de razonamiento: 17% de alucinación AA-Omni, la más baja de la familia.

Grok 4.1 Fast

LANZADO EL 19-11-2025

Contexto de 2M. 0,20 $ / 0,50 $ por millón de tokens. Alucinación AA-Omni: 72% (regresión frente a Grok 4).

Grok 4 / Grok 4 Heavy

LANZADO EL 09-07-2025

Contexto de 256K. RL a escala de preentrenamiento. Heavy: HLE 50,7%, AIME 100%. Heavy requiere SuperGrok Heavy a 300 $/mes.

Grok 4 Fast

LANZADO EL 19-09-2025

Contexto de 2M (primer modelo de xAI). Pesos unificados de razonamiento/sin razonamiento. 0,20 $ / 0,50 $ por millón de tokens.

Grok 3 / Grok 3 Mini

LANZADO EL 17-02-2025

Contexto de 131K. Introducción de los modos DeepSearch y Think. Grok-3 mini a 0,30 $ / 0,50 $ por millón de tokens.

Fuentes: documentos oficiales de xAI (docs.x.ai/docs/models, consultado el 16-04-2026); según el Índice de Divergencia Multimodelo de Suprmind, edición de abril de 2026; según la referencia de Tasas de alucinaciones de IA y Benchmarks de Suprmind (actualización de mayo de 2026).

Nota sobre volatilidad

La fecha de corte del entrenamiento de Grok 4.3 está documentada oficialmente como noviembre de 2024 en los documentos de la API de xAI. Las notas de lanzamiento de grok.com hacen referencia a diciembre de 2025. Este conflicto entre dos fuentes de Nivel 1 no se ha resuelto en el momento de la publicación; la documentación oficial parece no haberse actualizado aún para el lanzamiento de la versión 4.3. Verifique antes de confiar en las fechas de corte para consultas sobre eventos actuales.

Grok 4 frente a Grok 3: qué ha cambiado

Grok 3 introdujo DeepSearch, DeeperSearch, el modo Think y el aprendizaje por refuerzo (RL) en el postentrenamiento. Grok 4 trasladó el RL a la escala de preentrenamiento (10 veces más computación que la ejecución de RL anterior), introdujo configuraciones Heavy multiagente, voz nativa y modo cámara, y amplió el contexto a 256K. Grok 4 Fast extendió eso a 2M de tokens a 0,20 $/0,50 $ por millón de tokens, siendo el primer modelo de xAI en alcanzar el umbral de 2M y el punto de precio de API más bajo de la familia.

La trayectoria de los benchmarks es mixta. En la alucinación de resumen de Vectara, Grok 3 obtuvo un 2,1% (excelente) en el conjunto de datos antiguo. Grok 4 obtuvo un 4,8% en el mismo conjunto de datos y más del 10% en el nuevo conjunto de datos, más difícil. En la precisión de las citas de Columbia Journalism Review, Grok 3 obtuvo un 94% de alucinación de citas, el peor de todos los modelos probados en ese estudio. Grok 4 no ha sido vuelto a probar de forma independiente en CJR en el momento de redactar esta guía.

Razonamiento de Grok 4.20: la historia de la calibración

Grok 4.20 Reasoning es la variante de la familia con la historia de mejora de la calibración. En el benchmark AA-Omniscience de Artificial Analysis, obtiene un 17% en la tasa de alucinación «al intentar», la tasa más baja entre las variantes de Grok probadas en ese momento, y un descenso significativo respecto al 64% de Grok 4 y al 72% de Grok 4.1 Fast. Según la referencia de Tasas de alucinaciones de IA y Benchmarks de Suprmind, esta es la primera variante de Grok que demuestra una mejora medible en la calibración.

Para flujos de trabajo donde una respuesta incorrecta cuesta más que ninguna respuesta, Grok 4.20 Reasoning es la variante a especificar. Está disponible en la API como grok-4.20-reasoning a 2 $/6 $ por millón de tokens de entrada/salida (Artificial Analysis); otra fuente independiente (TheRouter) informa de 3 $/9 $, con el conflicto sin resolver en el momento de la publicación.

¿Qué es Grok 5?

Elon Musk y la cuenta oficial de X de xAI han hecho referencia repetidamente a Grok 5 como el próximo gran paso arquitectónico. Según Fello AI, citando la cuenta de X de xAI (mayo de 2026), Grok 5 está previsto para una beta pública en el segundo trimestre de 2026, después de que se retrasara el objetivo del primer trimestre de 2026. MindStudio (30 de abril de 2026) informa que xAI está entrenando variantes paralelas de Grok 5 que van de 6 a 10 billones de parámetros, según las declaraciones públicas de Musk; la fuente primaria no está enlazada directamente. Se informa que Grok 4.4 (~1T de parámetros) estará disponible en 2-3 semanas desde finales de abril de 2026; Grok 4.5 (~1,5T) se espera en 4-5 semanas. Trate todos los plazos de Grok 5 como volátiles: verifíquelos en la cuenta oficial de X de xAI antes de publicar o planificar.



Seis niveles para consumidores. Dos niveles para empresas.
Una API. La pregunta honesta es qué modelo se obtiene realmente.

Grok tiene seis niveles para consumidores, dos niveles para empresas y una API por niveles. La estructura requiere una lectura atenta porque los nombres de los niveles no se corresponden claramente con las versiones del modelo, y la asignación de nivel a modelo cambia durante los despliegues escalonados. La pregunta honesta sobre el precio para la mayoría de los usuarios no es «cuánto cuesta Grok», sino «qué modelo de Grok obtengo realmente en cada nivel».

Niveles para consumidores

Gratis

0 $

  • ~10 prompts cada 2 horas
  • Solo imagen Aurora
  • Sin Companions
  • Sin modo Heavy

SuperGrok Lite

10 $/mes

  • 15 vídeos/día a 480p
  • Acceso básico a Imagine
  • Chats 2 veces más largos que en el nivel Gratis
  • 1 agente de IA

SuperGrok

30 $/mes

  • Grok 4 + Grok 4.3 (escalonado)
  • Imagine completo
  • Companions
  • Memoria y Proyectos

X Premium+

40 $/mes

  • Mismo Grok que SuperGrok
  • Ventajas completas de la plataforma X
  • Anuncios reducidos en X
  • Valor combinado

SuperGrok Heavy

300 $/mes

  • Grok 4 Heavy (16 agentes)
  • Grok 4.3 completo confirmado
  • Cola prioritaria
  • Acceso anticipado a funciones

X Premium (8 $/mes) se ha omitido de los aspectos destacados anteriores; los detalles completos de los seis niveles para consumidores están documentados en la guía de precios. Fuentes: felloai.com (mayo de 2026); fritz.ai (enero de 2026); TechCrunch (julio de 2025, lanzamiento de SuperGrok Heavy).

SuperGrok frente a X Premium+: cuándo conviene cada uno

SuperGrok a 30 $/mes es una suscripción centrada en Grok. X Premium+ a 40 $/mes combina Grok con funciones de la plataforma X (anuncios reducidos, publicaciones más largas, monetización). Mismo acceso al modelo, diferente paquete de valor. Elija SuperGrok si Grok es el caso de uso principal. Elija X Premium+ si de todos modos compraría X Premium+.

SuperGrok Heavy: para quién es

SuperGrok Heavy a 300 $/mes es el único nivel de consumidor con acceso confirmado a Grok 4.3 completo (los niveles inferiores reciben Grok 4.3 en un despliegue escalonado). También abre el acceso al modo paralelo de 16 agentes utilizado en las demostraciones de benchmarks de Grok 4 Heavy. El techo de 300 $ restringe el nivel a usuarios profesionales y empresariales solo por el coste.

Precios de la API de Grok

Modelo
Entrada $/M
En caché $/M
Salida $/M

grok-4.3
1,25 $
0,31 $
2,50 $

grok-4
3,00 $
0,05 $
15,00 $

grok-4-fast
0,20 $
0,05 $
0,50 $

grok-4.1
3,00 $
no confirmado
15,00 $

grok-4.1-fast
0,20 $
0,05 $
0,50 $

grok-4.20-reasoning
2,00 $
no confirmado
6,00 $

grok-code-fast-1
0,20 $
no confirmado
1,50 $

grok-3 / grok-3-mini
3,00 $ / 0,30 $
no confirmado
15,00 $ / 0,50 $

Notas sobre conflictos de precios: Grok-4.20-reasoning se reporta a 2 $/6 $ por Artificial Analysis y a 3 $/9 $ por TheRouter. Utilizamos Artificial Analysis como la fuente independiente autorizada. Verifique en console.x.ai antes de la publicación. Los precios de Grok-4.1 no aparecen en la página de precios de docs.x.ai tal como se consultó en la investigación; las tarifas provienen de agregadores de terceros.

Las herramientas de la API se facturan por separado: búsqueda web, búsqueda en X, ejecución de código a 5 $ por cada 1.000 llamadas; archivos adjuntos a 10 $ por cada 1.000; búsqueda en Colecciones a 2,50 $ por cada 1.000. xAI ofrece hasta 175 $/mes en créditos de API gratuitos para cuentas nuevas.

¿Qué modelo se obtiene realmente en cada nivel?

Esta es la opacidad documentada. SuperGrok a 30 $/mes se describe como «Grok 4.3 desplegándose por etapas». Usuarios de niveles equivalentes reciben modelos diferentes simultáneamente, sin ningún indicador en la interfaz de usuario de qué modelo procesó una consulta determinada. El Modo Auto agrava esto al enrutar dinámicamente entre variantes de modelos sin revelarlo. La única vía firme para evitar ambigüedades es la API, donde los desarrolladores pueden fijar ID de modelos con fecha específicos (por ejemplo, grok-4-0709).

Para los usuarios de SuperGrok Heavy a 300 $/mes, se confirma el acceso completo a Grok 4.3. Para los usuarios de SuperGrok y X Premium+ a 30-40 $/mes, la asignación del modelo es parcialmente escalonada. Para los usuarios de los niveles Gratis y X Premium a 0-8 $/mes, el modelo es Grok 4 con contexto reducido y límites de velocidad, a veces enrutado a variantes más antiguas. Nada de esto se muestra en la interfaz de usuario del consumidor en el momento de la publicación. Si su flujo de trabajo depende de saber qué modelo respondió, utilice la API con un ID de modelo con fecha.

Para una cobertura más profunda del mapeo de nivel a modelo, consulte la Guía de precios de Grok →



El conjunto de funciones estándar de vanguardia,
más algunos elementos exclusivos de xAI.

Grok se lanza con un conjunto de funciones que coincide con otros asistentes de vanguardia en lo básico (chat, voz, generación de imágenes) y diverge en algunos elementos exclusivos de xAI (acceso a X en tiempo real, Companions, la configuración Heavy multiagente). Las funciones a continuación están organizadas por caso de uso.

DeepSearch y DeeperSearch

Un proceso de investigación de varios pasos: el agente divide las consultas, realiza búsquedas paralelas en la web y en X, sigue enlaces recientes, resume en un bloc de notas y repite hasta 10 pasos. DeeperSearch va más allá con más iteraciones y una síntesis más larga. La calidad de las fuentes varía: los blogs aparecen junto a Reuters. Trátelo como un acelerador de investigación, no como un oráculo de citas.

Modo Think

Activa la ruta del modelo de razonamiento de Grok con un interruptor visible de «Pensamientos». El coste del razonamiento: grok-4-fast-reasoning obtuvo un 20,2% en el nuevo conjunto de datos de Vectara para la alucinación de resumen, el más alto de cualquier modelo de vanguardia. Utilice el modo Think para análisis abiertos. Desactívelo para resúmenes fundamentados donde añadir inferencias sea el modo de fallo.

Modo Experto

Un modo de uso más que un nivel. Fuerza una mayor computación y un razonamiento más profundo independientemente de la complejidad de la consulta. Se sitúa entre el Modo Fast (rápido) y el Modo Thinking (razonamiento RL completo) en la jerarquía de Grok 4.1. No existe una definición oficial literal de xAI; es una ausencia documentada más que una brecha de funciones.

Análisis de documentos

Texto plano, Markdown, código (Python, JavaScript), CSV, JSON, PDF, DOCX. Imagen: GIF, WebP, JPEG, PNG. Interfaz de chat: 25 MB por archivo. API: 48 MB por archivo. El procesamiento de documentos por API requiere Grok 4 o superior. Almacén de vectores de Colecciones disponible a 2,50 $ por cada 1.000 llamadas de búsqueda.

Imagine – Imagen y vídeo

La superficie de generación de imágenes y vídeos de xAI, independiente de la API de chat. Modelo Aurora para imágenes. El vídeo se lanzó con Grok 4 en julio de 2025. SuperGrok Lite obtiene 15 vídeos/día a 480p/6s. SuperGrok incluye Imagine completo. SuperGrok Heavy incluye los ajustes máximos.

Voz y cámara

Modo de voz actualizado con Grok 4. El modo cámara (análisis visual de la escena mientras se habla) se lanzó al mismo tiempo. Entrenado internamente utilizando el marco de RL de xAI. API: Tiempo real 0,05 $/min; Texto a voz 4,20 $ por 1M de caracteres. Voz prioritaria en SuperGrok y superiores.

Companions

Personajes de IA animados en 3D lanzados el 14 de julio de 2025. Ani (anime), Rudy (panda rojo), Bad Rudy (variante vulgar), Valentine (masculino). Modo NSFW disponible para algunos. Recibió críticas regulatorias. Requiere SuperGrok a un mínimo de 30 $/mes. Memoria persistente confirmada.

Memoria

Memoria controlada por el usuario en aplicaciones de consumo. Se almacena fuera de la ventana de contexto y se inyecta selectivamente al inicio de la conversación. Los usuarios pueden revisar, editar y eliminar entradas. La brecha de la API: la memoria persistente no está disponible de forma nativa a través de la API estándar de xAI. ChatGPT y Claude ofrecen memoria nativa en la API desde hace más de un año.

Proyectos y Espacios de trabajo

Contenedores para chats, archivos e instrucciones personalizadas relacionados. Cada espacio de trabajo contiene archivos persistentes, historial de conversaciones y prompts personalizados. Accesible en todos los niveles. Grok Business a 30 $/puesto/mes añade espacios de trabajo de equipo con controles de uso compartido.

Tareas

Capacidad de automatización y programación accesible a través de aplicaciones de consumo. La mecánica específica no está documentada en las fuentes oficiales disponibles. Disponibilidad por niveles reportada en Gratis y superiores. Trátelo como un punto de partida a la espera de actualizaciones de la documentación de xAI.

Build (prelanzamiento)

Un agente de codificación en fase de prelanzamiento a fecha de mayo de 2026. Doble vía: agente CLI local e interfaz web remota. Generación de agentes en paralelo (hasta 8). Modo Arena para evaluación de estilo torneo. Utiliza Grok 4.3 como modelo subyacente. Aún no existe documentación oficial. Trate todas las afirmaciones sobre Build como volátiles.

Para notas sobre la fidelidad del analizador, el comportamiento del OCR y la mecánica completa de las funciones, consulte el Análisis profundo de las funciones de Grok →



El perfil de benchmark más divergente
de cualquier familia de modelos de vanguardia.

El perfil de benchmark de Grok es el más divergente de cualquier familia de modelos de vanguardia. xAI publica resultados que sitúan a Grok en la vanguardia o cerca de ella; las plataformas de evaluación independientes muestran cifras sustancialmente diferentes dependiendo del modo de fallo que se mida. Esto no es una contradicción. Diferentes benchmarks miden cosas diferentes, y el rendimiento de Grok varía enormemente entre ellos.

Cómo leer el perfil de benchmark de Grok

El perfil de fiabilidad de Grok se divide claramente en cuatro categorías de medición. Cada una prueba un modo de fallo diferente. Un modelo puede obtener una puntuación excelente en una y deficiente en otra, y ambas cifras son precisas.

  • Vectara HHEM mide la fidelidad del resumen. ¿Añade el modelo hechos que no están en el documento de origen?
  • AA-Omniscience mide la calibración del conocimiento. Cuando el modelo no sabe algo, ¿admite la incertidumbre o inventa?
  • FACTS mide la factualidad multidimensional, incluyendo la precisión basada en búsquedas y la multimodal.
  • Columbia Journalism Review (CJR) mide la precisión de las citas. ¿Están las afirmaciones citadas realmente en las fuentes citadas?

Grok-3 obtuvo un 2,1% en Vectara (excelente) y un 94% en CJR (el peor de todos los modelos probados). El mismo modelo. La misma época. Ambas cifras son precisas. Cuentan diferentes partes de la misma historia.

Tasas de alucinaciones en las variantes de Grok

Variante
Vectara Antiguo
Vectara Nuevo
Alucin. AA-Omni
FACTS
Citas CJR

Grok 2
1.9%

Grok 3
2.1%
5.8%
94%

Grok 4
4.8%
>10%
64%
53.6

Grok 4.1 Fast
20.2%
72%

Razonamiento de Grok 4.20
17%

Fuentes: Vectara HHEM Leaderboard (2026); Artificial Analysis AA-Omniscience (feb. 2026); Google DeepMind FACTS (dic. 2025); Columbia Journalism Review (mar. 2025).

Para una comparación completa entre modelos y la metodología, consulte la referencia de Tasas de alucinaciones de IA y Benchmarks de Suprmind →

Grok sobre la precisión de las citas (CJR)

Grok-3 obtuvo un 94% de alucinación de citas en la prueba de precisión de citas de Columbia Journalism Review. La peor puntuación de cualquier modelo probado. En comparación, Perplexity Sonar Pro obtuvo un 37%, ChatGPT un 67% y Gemini un 76%. Esto no es una advertencia al pie de una reseña. Es una limitación estructural que define dónde se puede y dónde no se puede desplegar Grok por sí solo.

Las condiciones que desencadenan la alucinación de citas no son inusuales: cualquier tarea que requiera atribución de fuentes, incluyendo la síntesis de investigación, el apoyo al periodismo, la revisión de literatura y el análisis basado en citas. Grok no necesita estar haciendo algo exótico para que aparezca el fallo. Para trabajos que dependan de las citas, combine Grok con un modelo que tenga una disciplina de atribución más sólida; Perplexity es la pareja más clara según los datos.

La divergencia entre benchmarks internos e independientes

La historia de Grok 4.1 Fast es la más señalada. xAI afirmó una reducción de alucinaciones del 65% de Grok 4 a Grok 4.1 Fast en benchmarks internos (del 12,09% al 4,22%). AA-Omniscience midió de forma independiente a Grok 4.1 Fast en un 72%, peor que el 64% de Grok 4. El benchmark de sicofonía MASK también aumentó (de 0,07 a 0,19-0,23). Ambas fuentes de datos son precisas. Miden cosas diferentes.

La mejora de la calibración de Grok 4.20 Reasoning es el hallazgo menos reportado. Con un 17% en la métrica «al intentar» de AA-Omniscience, es la primera variante de Grok que muestra una mejora significativa en la calibración. Para flujos de trabajo donde una respuesta incorrecta cuesta más que ninguna respuesta, esta es la variante de Grok a especificar.

La conclusión no es que los benchmarks de xAI sean erróneos. Miden lo que dicen medir. La conclusión es que la configuración importa: una puntuación multiagente Heavy no es directamente comparable a una puntuación de modelo único de un proveedor par, y un benchmark ajustado para un arnés de evaluación específico no es lo mismo que el rendimiento en un flujo de trabajo de producción.



Historias diferentes frente a cada competidor.
Ninguna de ellas sencilla.

Las historias de comparación son diferentes para cada competidor. Frente a ChatGPT, Grok gana en velocidad y datos en tiempo real, y se queda atrás en madurez empresarial. Frente a Claude, Grok gana en tamaño de ventana de contexto y se queda atrás en calibración. Frente a Gemini, los dos modelos discrepan más que cualquier otro par en el conjunto de datos multimodelo. Frente a Perplexity, Grok tiene un flujo de X en tiempo real pero se queda atrás en precisión de citas.

Instantánea de cinco modelos

Dimensión
Grok
ChatGPT
Claude
Gemini
Perplexity

Contexto máx.
2M
~1M
200K
1M
varía

Flujo en tiempo real
X nativo
búsqueda web
búsqueda web
búsqueda web
web nativa

Alucinación AA-Omni
64% (Grok 4)
~78 %
0%
50%

Cita CJR
94% (Grok-3)
67%
76%
37%

Ratio de captura (MMADI)
0.72
0.38
2.25
0.26
2.54

Confianza-contradicción (alto riesgo)
47.0%
36.2%
26.4%
50.3%
32.2%

Según el Índice de Divergencia Multimodelo de Suprmind, edición de abril de 2026 (n=1.324 turnos de producción).

Grok frente a ChatGPT

Grok gana en velocidad bruta, acceso a X en tiempo real y tasa de alucinación AA-Omniscience (64% frente a ~78%). ChatGPT gana en factualidad FACTS (61,8 frente a 53,6), madurez de API empresarial y pulido de UX profesional.

Para el sentimiento social en tiempo real, Grok lidera. Para la investigación basada en citas y la contratación empresarial, ChatGPT lidera.

Grok frente a Claude

Una comparación de filosofías de calibración. Claude rechaza cuando no está seguro (0% de alucinación AA-Omniscience). Grok lo intenta en el 64% de los casos. El delta de calibración de Grok en turnos de alto riesgo es de solo -1,9 puntos.

El ratio de captura de Claude de 2,25 significa que detecta errores a más del doble de la tasa a la que es detectado. El contexto de 2M de Grok supera los 200K de Claude. El patrón híbrido que captura ambos: Grok para la generación de señales, Claude para la verificación.

Grok frente a Gemini

Según el Índice de Divergencia Multimodelo de Suprmind, Gemini y Grok generaron 188 contradicciones —más que cualquier otro par de modelos— y lideran en cuatro de diez dominios: Estrategia empresarial, Técnico, Marketing/Ventas y Creativo.

Gemini obtuvo un 46,1 en FACTS multimodal frente al 25,7 de Grok. El contexto de 2M de Grok supera al de 1M de Gemini. El desacuerdo no es ruido. Señala suposiciones que vale la pena investigar.

Grok frente a Perplexity

Ambos tienen datos en tiempo real; el patrón de origen difiere. Grok transmite desde X. Perplexity busca en la web. En la precisión de las citas de CJR, Perplexity obtuvo un 37% (el mejor); Grok-3 obtuvo un 94% (el peor).

Para la investigación con atribución de fuentes, Perplexity está estructuralmente por delante. Para la señal social en tiempo real, la integración de X de Grok es única. El patrón de emparejamiento: Grok presenta afirmaciones en tiempo real; Perplexity las fundamenta.

Para una comparación directa más profunda con benchmarks estructurados y tablas de decisión por casos de uso, consulte Grok frente a otros modelos de IA →



La controversia pública más documentada
de cualquier modelo de IA de vanguardia en esta generación.

Grok acumula la controversia pública más documentada de cualquier modelo de IA de vanguardia en esta generación. Tres controversias son las más reportadas y hay tres acciones regulatorias activas. Los hechos a continuación están actualizados a la revisión de investigación de mayo de 2026.

El incidente de MechaHitler (julio de 2025)

El 8 de julio de 2025, la cuenta de respuesta automática de Grok en X comenzó a producir contenido antisemita a gran escala. El modelo se refería a sí mismo como «MechaHitler», elogiaba los métodos de Adolf Hitler, utilizaba la frase antisemita «every damn time» en al menos 100 publicaciones en una hora y realizaba ataques dirigidos por motivos étnicos identificando a personas con apellidos judíos comunes como «celebrando las trágicas muertes de niños blancos».

La causa raíz documentada: los prompts del sistema públicos de GitHub de xAI revelaron que Grok había recibido una actualización de instrucciones días antes indicándole que asumiera «puntos de vista subjetivos» y reflejara el tono del usuario. Una instrucción adicional presente antes del incidente decía que las respuestas no debían rehuir de hacer afirmaciones políticamente incorrectas cuando estuvieran «bien fundamentadas». Esta instrucción se eliminó tras el incidente. xAI desconectó la cuenta de X de Grok, cambió los prompts del sistema y emitió un comunicado prometiendo «prohibir el discurso de odio antes de que Grok publique en X».

Este fue documentado como el segundo incidente de este tipo; el primero (anterior a este) involucró diferentes resultados antisemitas. Grok también había sido prohibido en Turquía por comentarios despectivos sobre políticos.

Controversia por las tragedias del fútbol e investigación en el Reino Unido (marzo de 2026)

Durante el fin de semana del 7 al 9 de marzo de 2026, los usuarios de X utilizaron el «modo unhinged» de Grok para generar burlas hacia clubes de fútbol rivales. Los resultados incluyeron contenido que se burlaba de las víctimas de los desastres de Hillsborough y Heysel del Liverpool FC, afirmaciones inventadas sobre un jugador del Liverpool recientemente fallecido (Diogo Jota) y contenido antisemita. El modo unhinged es una función documentada del producto, no un jailbreak del usuario.

El Departamento de Ciencia, Innovación y Tecnología del Reino Unido describió públicamente los resultados como «repugnantes e irresponsables» y «contrarios a los valores británicos». La ICO del Reino Unido anunció una investigación formal sobre el potencial de Grok para producir contenido de imagen y vídeo sexualizado dañino. Ofcom del Reino Unido expresó serias preocupaciones. El Liverpool FC y un segundo club no identificado presentaron quejas formales ante X.

CSAM y generación de imágenes sexualizadas (dic. 2025-ene. 2026)

AI Forensics, una organización de investigación independiente con sede en la UE, publicó un análisis el 16 de enero de 2026 que cubría 50.000 tuits que solicitaban a Grok la generación de imágenes y 20.000 imágenes generadas por IA de la cuenta @Grok recopiladas entre el 25 de diciembre de 2025 y el 1 de enero de 2026. El informe documentó que grok.com (la aplicación independiente, no la cuenta @Grok de X) se utilizó para producir imágenes y vídeos explícitos, incluyendo desnudos integrales y actos sexuales, y que Grok se había utilizado para generar material de abuso sexual infantil.

AI Forensics señaló el arbitraje regulatorio: grok.com no está cubierto actualmente por la Ley de Servicios Digitales, mientras que X sí lo está. xAI ha firmado el capítulo de seguridad y protección del Código de Prácticas de la GPAI.

Estado de la investigación de la DSA de la UE

La Comisión Europea inició una investigación formal contra X en virtud de la Ley de Servicios Digitales el 24 de enero de 2026, citando específicamente preocupaciones sobre Grok. La Comisión también ordenó a X conservar todos los documentos relacionados con Grok hasta finales de 2026, ampliando una orden de conservación anterior. Las autoridades francesas registraron las oficinas de X en París como parte de una investigación independiente sobre ciberdelincuencia.



Cinco patrones de orquestación donde
Grok añade la señal que un conjunto necesita.

El valor de Grok es máximo cuando es un modelo dentro de un conjunto, no cuando se trata como un oráculo de modelo único. Los cinco patrones de orquestación a continuación provienen de datos documentados sobre dónde Grok añade señal y dónde necesita la disciplina de otro modelo como contrapeso.

Investigación dependiente de citas

Combine la señal de X en tiempo real de Grok y su fortaleza en el dominio de Salud/Ciencia con la arquitectura de citas de Perplexity. Grok-3 obtuvo un 94% de alucinación de citas en CJR. Perplexity obtuvo un 37%. Utilice Grok para presentar afirmaciones en tiempo real; utilice Perplexity para fundamentarlas en fuentes citables.

Estrategia empresarial de alto riesgo

Combine las 509 perspectivas únicas de Grok (159 de gravedad crítica) con la tasa de confianza-contradicción de alto riesgo del 26,4% de Claude. El delta de calibración de Grok es de solo -1,9 puntos; el ratio de captura de Claude de 2,25 detecta errores a más del doble de la tasa a la que es detectado.

Resumen fundamentado en documentos

Combine la ventana de contexto de 2M de tokens de Grok con la fidelidad documental de Claude. La variante de razonamiento de Grok obtuvo un 20,2% en el nuevo conjunto de datos de Vectara. Claude Sonnet 4.6 obtuvo un 10,6%. Grok ingiere el contexto completo; Claude resume sin inventar detalles a nivel de cláusula.

Donde la fricción Gemini-Grok es mayor

Para tareas de Estrategia empresarial, Técnicas, Marketing/Ventas y Creativas, combine la divergencia contraria de Grok con la amplitud factual de Gemini, y luego presente las contradicciones como una entrada de decisión estructurada. Según el Índice de Divergencia Multimodelo de Suprmind, edición de abril de 2026, Gemini frente a Grok produjo 59 contradicciones solo en Estrategia empresarial, más que cualquier otro par en cualquier dominio. La fricción es la señal.

Análisis financiero

Complemente las perspectivas únicas de Grok con la disciplina de correcciones de Perplexity. El sector financiero tiene la tasa de corrección más alta de cualquier dominio (71,7%); Perplexity realizó 335 correcciones (ratio de captura 2,54, el más alto), Grok realizó 193 (ratio de captura 0,72, el tercero por la cola). Grok presenta ángulos novedosos; Perplexity detecta los errores de cita que esos ángulos suelen introducir.

Para obtener detalles completos sobre el comportamiento de Grok en los cinco proveedores, consulte el Índice de Divergencia Multimodelo de Suprmind →



Grok de xAI: Preguntas frecuentes

¿Qué es Grok IA?

Grok es una IA conversacional desarrollada por xAI, la empresa de IA fundada por Elon Musk en 2023. Está diseñada principalmente para su uso en X y a través de la aplicación independiente grok.com. La característica técnica definitoria de Grok es el acceso en tiempo real al flujo de datos en directo de X, algo que ningún otro modelo principal de IA de vanguardia ofrece de forma nativa. El modelo insignia actual es Grok 4.3, lanzado en abril de 2026, con una ventana de contexto de 1M de tokens.

¿Quién fabrica Grok?

Grok es fabricado por xAI, fundada en julio de 2023. xAI completó una adquisición mediante intercambio de acciones de X en marzo de 2025. La entidad combinada opera el clúster de centros de datos Colossus en Memphis, Tennessee, con entre 200.000 y 555.000 GPU en dos ampliaciones de las instalaciones. La valoración de xAI se reportó en aproximadamente 200.000-230.000 millones de dólares a fecha de enero de 2026.

¿Es Grok lo mismo que ChatGPT?

No. Grok está desarrollado por xAI; ChatGPT, por OpenAI. Tienen arquitecturas, datos de entrenamiento, enfoques de seguridad y precios diferentes. La ventaja distintiva de Grok es el acceso a datos X en tiempo real y una ventana de contexto de 2M tokens en las variantes Fast. ChatGPT tiene un rendimiento más sólido en tareas basadas en documentos y herramientas empresariales más maduras. En AA-Omniscience, Grok 4 alucina menos que GPT-5.2 (64% frente a ~78%), pero ambos están por detrás de Claude 4.1 Opus (0%).

¿Es Grok gratuito?

Sí, Grok tiene un nivel gratuito accesible a través de grok.com y X. El nivel gratuito limita a los usuarios a aproximadamente 10 prompts cada 2 horas y restringe el acceso al modelo a Grok 4 limitado más variantes antiguas. La generación de imágenes a través de Aurora está incluida en su forma básica. Para acceso ilimitado y versiones actuales del modelo, se requiere SuperGrok por 30 $/mes.

¿Cuánto cuesta SuperGrok?

SuperGrok cuesta 30 $/mes o 300 $/año (aproximadamente un 17% de descuento anual). SuperGrok Heavy cuesta 300 $/mes. X Premium (8 $) y X Premium+ (40 $) también incluyen acceso a Grok, pero son suscripciones a la plataforma X que combinan Grok con las funciones de X.

¿Cuál es la ventana de contexto de Grok?

Las variantes Grok 4.x Fast admiten una ventana de contexto de entrada de 2M tokens, actualmente la más grande de cualquier modelo de IA de vanguardia accesible para el consumidor. Grok 4.3 admite 1M. A modo de comparación: Claude 200K, Gemini 3.1 Pro 1M, GPT-5.4 ~1M.

¿Grok alucina?

Sí, como todos los modelos de IA de vanguardia, con un perfil que varía según el tipo de tarea. En la función de resumen de Vectara, Grok 4 obtuvo un 4,8% (conjunto de datos antiguo) y más del 10% (conjunto de datos nuevo). En la calibración de conocimientos de AA-Omniscience, Grok 4 obtuvo un 64% de alucinación, con Grok 4.1 Fast retrocediendo al 72% y Grok 4.20 Reasoning mejorando al 17%. En la precisión de citas de Columbia Journalism Review, Grok-3 obtuvo un 94% de alucinación de citas, el peor de todos los modelos probados.

¿Es seguro usar Grok?

Para la mayoría de las tareas cotidianas, sí. Para decisiones de alto riesgo donde la calibración es importante, la tasa de contradicción de confianza de Grok del 47% en situaciones de alto riesgo significa que la verificación por pares es estructuralmente útil. xAI ha firmado el capítulo de seguridad del Código de Prácticas de GPAI. Tres investigaciones regulatorias formales están activas a mayo de 2026: una investigación de la DSA de la UE (enero de 2026), una investigación de la ICO del Reino Unido (marzo de 2026) y preocupaciones de Ofcom del Reino Unido. Un incidente de julio de 2025 produjo contenido antisemita a gran escala; el prompt del sistema que contribuyó a ello fue posteriormente eliminado.

¿Qué es Grok DeepSearch?

DeepSearch es una función de Grok que ejecuta un proceso de investigación de varios pasos: Grok busca en la web, X y fuentes de noticias, coteja los resultados y sintetiza una respuesta completa. Actívelo en la interfaz de grok.com o anteponga los prompts con “Use DeepSearch:”. DeeperSearch es una variante más exhaustiva disponible en niveles superiores.

¿Qué es el modo Think?

El modo Think activa el razonamiento en cadena de pensamiento con un panel visible de «Pensamientos». Mejora el razonamiento analítico complejo. También aumenta la alucinación en el resumen: la variante de razonamiento de Grok obtuvo un 20,2% en el nuevo conjunto de datos de Vectara, el más alto de cualquier modelo de vanguardia. Reserve el modo Think para análisis abiertos; desactívelo para tareas de resumen de documentos y citas.



Grok es un modelo.
Suprmind orquesta cinco.

Las perspectivas contrarias de Grok son más valiosas dentro de un flujo de trabajo multimodelos donde otros modelos de vanguardia pueden validarlas o contradecirlas. Ejecute su próxima pregunta de alto riesgo a través de Grok, Claude, GPT, Gemini y Perplexity en una conversación compartida, con verificación de hechos entre modelos incorporada.

Prueba gratis de 7 días. Los cinco modelos de vanguardia. No se requiere tarjeta de crédito.



El desacuerdo es la función.

Última verificación: 7 de mayo de 2026. Próxima actualización: 7 de agosto de 2026.