{"id":4936,"date":"2026-05-04T03:20:45","date_gmt":"2026-05-04T03:20:45","guid":{"rendered":"https:\/\/suprmind.ai\/hub\/prueba-tasas-de-alucinaciones-de-ia-y-comparativas-en-2026\/"},"modified":"2026-05-04T12:40:53","modified_gmt":"2026-05-04T12:40:53","slug":"prueba-tasas-de-alucinaciones-de-ia-y-comparativas-en-2026","status":"publish","type":"page","link":"https:\/\/suprmind.ai\/hub\/es\/prueba-tasas-de-alucinaciones-de-ia-y-comparativas-en-2026\/","title":{"rendered":"PRUEBA: Tasas de alucinaciones de IA y comparativas en 2026"},"content":{"rendered":"\n<p>\u00daltima actualizaci\u00f3n el 26 de abril de 2026<\/p>\n\n<p>Las referencias completas de datos sobre alucinaciones de IA. Cifras brutas de Vectara,<br\/>AA-Omniscience, FACTS, tarjetas de sistema de OpenAI y m\u00e1s de 50 fuentes.<br\/>Actualizado mensualmente. <\/p>\n\n<p><em>La actualizaci\u00f3n de abril de 2026 a\u00f1adi\u00f3: datos del Stanford AI Index, Claude Opus 4.7, Grok 4.20,<\/em><em><br\/><\/em><em>la paradoja de GPT-5.5, escalada de casos legales e integraci\u00f3n del Multi-Model Divergence Index<\/em><\/p>\n\n<p><strong>67.400 M$<\/strong><\/p>\n\n<p>P\u00e9rdidas empresariales globales por alucinaciones de IA en 2024 <a href=\"\/hub?page_id=3438#ref-31\"><sup>[31]<\/sup><\/a><\/p>\n\n<p><strong>0.7%<\/strong><\/p>\n\n<p>Mejor tasa de alucinaci\u00f3n en res\u00famenes b\u00e1sicos (Gemini-2.0-Flash) <a href=\"\/hub?page_id=3438#ref-1\"><sup>[1]<\/sup><\/a><\/p>\n\n<p><strong>88%<\/strong><\/p>\n\n<p>Tasa de alucinaci\u00f3n cuando Gemini 3 Pro no conoce la respuesta (Gemini 3.1 Pro mejor\u00f3 esto al 50 %) <a href=\"\/hub?page_id=3438#ref-2\"><sup>[2]<\/sup><\/a><\/p>\n\n<p><strong>4 \/ 40<\/strong><\/p>\n\n<p>Modelos que obtuvieron una puntuaci\u00f3n mejor que el azar en preguntas de conocimiento complejo <a href=\"\/hub?page_id=3438#ref-2\"><sup>[2]<\/sup><\/a><\/p>\n\n<p>Del Multi-Model Divergence Index \u2014 Abril de 2026<\/p>\n\n<p><strong>2.63<\/strong><\/p>\n\n<p>Perspectivas \u00fanicas por turno multimodelo: puntos de vista que una sola IA no detect\u00f3 (1.324 turnos de producci\u00f3n) <a href=\"\/hub?page_id=3438#ref-61\"><sup>[61]<\/sup><\/a><\/p>\n\n<p><strong>51.4%<\/strong><\/p>\n\n<p>De las respuestas de alta confianza de Gemini fueron contradichas por otro modelo; la confianza no es precisi\u00f3n <a href=\"\/hub?page_id=3438#ref-61\"><sup>[61]<\/sup><\/a><\/p>\n\n<p><strong>26.4%<\/strong><\/p>\n\n<p>Tasa de confianza contradicha en escenarios cr\u00edticos de Claude: la m\u00e1s baja de cinco proveedores <a href=\"\/hub?page_id=3438#ref-61\"><sup>[61]<\/sup><\/a><\/p>\n\n<p><strong>72.1%<\/strong><\/p>\n\n<p>De las preguntas financieras revelaron desacuerdos entre modelos; los dominios de mayor riesgo son los que m\u00e1s divergen <a href=\"\/hub?page_id=3438#ref-61\"><sup>[61]<\/sup><\/a><\/p>\n\n<p>Todos los modelos principales de IA alucinan. La IA generativa, por su propio dise\u00f1o, no puede estar libre de alucinaciones, pero el riesgo puede mitigarse antes de que afecte a su toma de decisiones y le cueste dinero. Vea c\u00f3mo <a href=\"https:\/\/suprmind.ai\/hub\/es\/mitigacion-de-alucinaciones-de-ia\/?utm_source=hallucinations_page&amp;utm_medium=intro_paragraph&amp;utm_campaign=benchmarks_to_mitigation_link\">la verificaci\u00f3n multimodelo funciona como estrategia de mitigaci\u00f3n<\/a>.  <\/p>\n\n<p>Esta p\u00e1gina rastrea las tasas de alucinaci\u00f3n a trav\u00e9s de seis comparativas, cubre todos los modelos de frontera desde GPT-5.5 hasta Claude 4.7, pasando por Gemini 3.1 y Grok 4.20, y presenta los datos de forma objetiva. Las cifras no coinciden entre s\u00ed, y explicamos por qu\u00e9 eso importa m\u00e1s que cualquier clasificaci\u00f3n individual. <\/p>\n\n<h2 class=\"wp-block-heading\">Referencia universal de alucinaciones entre comparativas (abril de 2026)<\/h2>\n\n<h3 class=\"wp-block-heading\">C\u00f3mo leer esta tabla<\/h3>\n\n<p>Cada cifra a continuaci\u00f3n proviene de una comparativa diferente que mide un aspecto distinto de la alucinaci\u00f3n. Una alucinaci\u00f3n baja en Vectara + alta en AA-Omniscience significa que el modelo es bueno resumiendo pero malo admitiendo ignorancia. Una precisi\u00f3n alta en FACTS + baja en AA-Omniscience significa que el modelo es preciso con herramientas pero intenta responder demasiadas preguntas. Ninguna columna cuenta la historia completa. Compare al menos dos.    <\/p>\n\n<p>Gu\u00eda de columnas:<\/p>\n\n<ul class=\"wp-block-list\">\n<li>Vectara (Antiguo): Fidelidad del resumen en documentos cortos. Menor = mejor. <\/li>\n\n\n\n<li>Vectara (Nuevo): Fidelidad del resumen en documentos de longitud empresarial. Menor = mejor. <\/li>\n\n\n\n<li>AA-Omni Acc: Precisi\u00f3n en preguntas de conocimiento complejo en 42 temas. Mayor = mejor. <\/li>\n\n\n\n<li>AA-Omni Hall: Frecuencia con la que el modelo da respuestas incorrectas en lugar de negarse a responder. Menor = mejor. <\/li>\n\n\n\n<li>AA-Omni Index: Puntuaci\u00f3n combinada de fiabilidad del conocimiento (-100 a +100). Mayor = mejor. <\/li>\n\n\n\n<li>FACTS: Veracidad multidimensional en fundamentaci\u00f3n, multimodal, param\u00e9trica y b\u00fasqueda. Mayor = mejor. <\/li>\n\n\n\n<li>HalluHard: Tasa de alucinaci\u00f3n en conversaciones realistas. Menor = mejor. <\/li>\n\n\n\n<li>CJR Citation: Tasa de alucinaci\u00f3n de citas (fuentes de noticias). Menor = mejor. <\/li>\n<\/ul>\n\n<h2 class=\"wp-block-heading\">Clasificaci\u00f3n de tasas de alucinaci\u00f3n de modelos de IA de frontera<\/h2>\n\n<figure class=\"wp-block-table\"><table class=\"has-fixed-layout\"><tbody><tr><td>Modelo<\/td><td>Proveedor<\/td><td>Vectara (Antiguo)<\/td><td>Vectara (Nuevo)<\/td><td>AA-Omni Acc<\/td><td>AA-Omni Hall<\/td><td>AA-Omni Index<\/td><td>FACTS<\/td><td>HalluHard<\/td><td>Citas CJR<\/td><\/tr><tr><td>GPT-5.3 Codex<\/td><td>OpenAI<\/td><td>\u2013<\/td><td>\u2013<\/td><td>51.8%<\/td><td>\u2013<\/td><td>\u2013<\/td><td>\u2013<\/td><td>\u2013<\/td><td>\u2013<\/td><\/tr><tr><td>GPT-5.5 (muy alto)<\/td><td>OpenAI<\/td><td>\u2013<\/td><td>\u2013<\/td><td><strong>57%<\/strong><\/td><td>86%<\/td><td>20<\/td><td>\u2013<\/td><td>\u2013<\/td><td>\u2013<\/td><\/tr><tr><td>GPT-5.2 (muy alto)<\/td><td>OpenAI<\/td><td>\u2013<\/td><td>10.8%<\/td><td>43.8%<\/td><td>~78 %<\/td><td>\u2013<\/td><td>61.8<\/td><td>38.2%<\/td><td>\u2013<\/td><\/tr><tr><td>GPT-5<\/td><td>OpenAI<\/td><td>1.4%<\/td><td>&gt;10 %<\/td><td>40.7%<\/td><td>\u2013<\/td><td>\u2013<\/td><td>61.8<\/td><td>\u2013<\/td><td>\u2013<\/td><\/tr><tr><td>GPT-5.1<\/td><td>OpenAI<\/td><td>\u2013<\/td><td>\u2013<\/td><td>37.6%<\/td><td>81%<\/td><td>Positivo<\/td><td>49.4<\/td><td>\u2013<\/td><td>\u2013<\/td><\/tr><tr><td>GPT-4.1<\/td><td>OpenAI<\/td><td>2.0%<\/td><td>5.6%<\/td><td>\u2013<\/td><td>\u2013<\/td><td>\u2013<\/td><td>50.5<\/td><td>\u2013<\/td><td>\u2013<\/td><\/tr><tr><td>o3-mini-high<\/td><td>OpenAI<\/td><td><strong>0.8%<\/strong><\/td><td>4.8%<\/td><td>\u2013<\/td><td>\u2013<\/td><td>\u2013<\/td><td>52.0<\/td><td>\u2013<\/td><td>\u2013<\/td><\/tr><tr><td>Claude 4.1 Opus<\/td><td>Anthropic<\/td><td>\u2013<\/td><td>\u2013<\/td><td>\u2013<\/td><td><strong>0%<\/strong><\/td><td>\u2013<\/td><td>46.5<\/td><td>\u2013<\/td><td>\u2013<\/td><\/tr><tr><td>Claude Opus 4.6<\/td><td>Anthropic<\/td><td>\u2013<\/td><td>12.2%<\/td><td>46.4%<\/td><td>\u2013<\/td><td>14<\/td><td>\u2013<\/td><td>\u2013<\/td><td>\u2013<\/td><\/tr><tr><td>Claude Opus 4.7<\/td><td>Anthropic<\/td><td>\u2013<\/td><td>\u2013<\/td><td>\u2013<\/td><td>36%<\/td><td>26<\/td><td>\u2013<\/td><td>\u2013<\/td><td>\u2013<\/td><\/tr><tr><td>Claude Opus 4.5<\/td><td>Anthropic<\/td><td>\u2013<\/td><td>\u2013<\/td><td>45.7%<\/td><td>58%<\/td><td>Negativo<\/td><td>51.3<\/td><td><strong>30%<\/strong><\/td><td>\u2013<\/td><\/tr><tr><td>Claude Sonnet 4.6<\/td><td>Anthropic<\/td><td>\u2013<\/td><td>10.6%<\/td><td>40.0%<\/td><td>~38 %<\/td><td>\u2013<\/td><td>\u2013<\/td><td>\u2013<\/td><td>\u2013<\/td><\/tr><tr><td>Claude Sonnet 4.5<\/td><td>Anthropic<\/td><td>\u2013<\/td><td>&gt;10 %<\/td><td>\u2013<\/td><td>48%<\/td><td>\u2013<\/td><td>49.1<\/td><td>\u2013<\/td><td>\u2013<\/td><\/tr><tr><td>Claude 3.7 Sonnet<\/td><td>Anthropic<\/td><td>4.4%<\/td><td>\u2013<\/td><td>\u2013<\/td><td>\u2013<\/td><td>\u2013<\/td><td>\u2013<\/td><td>\u2013<\/td><td>\u2013<\/td><\/tr><tr><td>Claude 4.5 Haiku<\/td><td>Anthropic<\/td><td>\u2013<\/td><td>\u2013<\/td><td>\u2013<\/td><td>25%<\/td><td>\u2013<\/td><td>\u2013<\/td><td>\u2013<\/td><td>\u2013<\/td><\/tr><tr><td>Gemini 3.1 Pro<\/td><td>Google<\/td><td>\u2013<\/td><td>10.4%<\/td><td><strong>55.3%<\/strong><\/td><td>50%<\/td><td><strong>33<\/strong><\/td><td>\u2013<\/td><td>\u2013<\/td><td>\u2013<\/td><\/tr><tr><td>Gemini 3 Pro<\/td><td>Google<\/td><td>\u2013<\/td><td>13.6%<\/td><td>55.9%<\/td><td>88%<\/td><td>16<\/td><td><strong>68.8<\/strong><\/td><td>\u2013<\/td><td>\u2013<\/td><\/tr><tr><td>Gemini 3 Flash<\/td><td>Google<\/td><td>\u2013<\/td><td>\u2013<\/td><td>54.0%<\/td><td>91%<\/td><td>\u2013<\/td><td>\u2013<\/td><td>\u2013<\/td><td>\u2013<\/td><\/tr><tr><td>Gemini 2.5 Pro<\/td><td>Google<\/td><td>\u2013<\/td><td>7.0%<\/td><td>\u2013<\/td><td>\u2013<\/td><td>\u2013<\/td><td>62.1<\/td><td>\u2013<\/td><td>\u2013<\/td><\/tr><tr><td>Gemini 2.0 Flash<\/td><td>Google<\/td><td><strong>0.7%<\/strong><\/td><td>3.3%<\/td><td>\u2013<\/td><td>\u2013<\/td><td>\u2013<\/td><td>\u2013<\/td><td>\u2013<\/td><td>\u2013<\/td><\/tr><tr><td>Grok 4<\/td><td>xAI<\/td><td>4.8%<\/td><td>&gt;10 %<\/td><td>41.4%<\/td><td>64%<\/td><td>Positivo<\/td><td>53.6<\/td><td>\u2013<\/td><td>\u2013<\/td><\/tr><tr><td>Grok 4.1 Fast<\/td><td>xAI<\/td><td>\u2013<\/td><td>20.2%<\/td><td>\u2013<\/td><td>72%<\/td><td>\u2013<\/td><td>36.0<\/td><td>\u2013<\/td><td>\u2013<\/td><\/tr><tr><td>Grok 4.20 (Reasoning)<\/td><td>xAI<\/td><td>\u2013<\/td><td>\u2013<\/td><td>\u2013<\/td><td><strong>17%<\/strong><\/td><td>\u2013<\/td><td>\u2013<\/td><td>\u2013<\/td><td>\u2013<\/td><\/tr><tr><td>Grok-3<\/td><td>xAI<\/td><td>2.1%<\/td><td>5.8%<\/td><td>\u2013<\/td><td>\u2013<\/td><td>\u2013<\/td><td>\u2013<\/td><td>\u2013<\/td><td>94%<\/td><\/tr><tr><td>Perplexity Sonar Pro<\/td><td>Perplexity<\/td><td>\u2013<\/td><td>\u2013<\/td><td>\u2013<\/td><td>\u2013<\/td><td>\u2013<\/td><td>\u2013<\/td><td>\u2013<\/td><td><strong>37%<\/strong><\/td><\/tr><tr><td>DeepSeek-V3<\/td><td>DeepSeek<\/td><td>3.9%<\/td><td>6.1%<\/td><td>\u2013<\/td><td>\u2013<\/td><td>\u2013<\/td><td>\u2013<\/td><td>\u2013<\/td><td>\u2013<\/td><\/tr><tr><td>DeepSeek-R1<\/td><td>DeepSeek<\/td><td>14.3%<\/td><td>11.3%<\/td><td>\u2013<\/td><td>83%<\/td><td>\u2013<\/td><td>\u2013<\/td><td>\u2013<\/td><td>\u2013<\/td><\/tr><tr><td>Llama 4 Maverick<\/td><td>Meta<\/td><td>4.6%<\/td><td>\u2013<\/td><td>\u2013<\/td><td>87.6%<\/td><td>\u2013<\/td><td>\u2013<\/td><td>\u2013<\/td><td>\u2013<\/td><\/tr><\/tbody><\/table><\/figure>\n\n<p><em>Fuentes: Vectara HHEM Leaderboard (capturas de abril de 2025 + feb. de 2026 + 20 de abril de 2026)  <\/em><a href=\"\/hub?page_id=3438#ref-1\"><em><sup>[1]<\/sup><\/em><\/a><em>, Artificial Analysis AA-Omniscience (nov. de 2025 &#8211; abril de 2026)  <\/em><a href=\"\/hub?page_id=3438#ref-2\"><em><sup>[2]<\/sup><\/em><\/a><em>, Google DeepMind FACTS Benchmark (dic. de 2025)  <\/em><a href=\"\/hub?page_id=3438#ref-3\"><em><sup>[3]<\/sup><\/em><\/a><em>, HalluHard Benchmark (2025)  <\/em><a href=\"\/hub?page_id=3438#ref-5\"><em><sup>[5]<\/sup><\/em><\/a><em>, Columbia Journalism Review (marzo de 2025)  <\/em><a href=\"\/hub?page_id=3438#ref-6\"><em><sup>[6]<\/sup><\/em><\/a><em>. Los guiones indican que no hay datos publicados en esa comparativa para ese modelo.<\/em><\/p>\n\n<h3 class=\"wp-block-heading\">Hallazgos de referencia r\u00e1pida<\/h3>\n\n<p>Tasa de alucinaci\u00f3n m\u00e1s baja (tareas de conocimiento): Claude 4.1 Opus &#8211; 0 % en AA-Omniscience (el modelo se niega a responder cuando no est\u00e1 seguro)<\/p>\n\n<p>Mayor mejora individual: Gemini 3.1 Pro &#8211; la alucinaci\u00f3n cay\u00f3 38 puntos porcentuales (del 88 % al 50 %) con una p\u00e9rdida de precisi\u00f3n del 1 %<\/p>\n\n<p>Tasa de alucinaci\u00f3n m\u00e1s baja (cuando los modelos intentan responder): Grok 4.20 (Reasoning) &#8211; 17 % en AA-Omniscience (abril de 2026)<\/p>\n\n<p>Mayor variable en todos los modelos: El acceso a la b\u00fasqueda web reduce la alucinaci\u00f3n entre un 73 % y un 86 % cuando est\u00e1 activado<\/p>\n\n<p>Mejor precisi\u00f3n de citas: Perplexity Sonar Pro &#8211; 37 % de alucinaci\u00f3n en CJR (la m\u00e1s baja, pero a\u00fan alta)<\/p>\n\n<p>Tasa de alucinaci\u00f3n m\u00e1s baja (resumen): Gemini-2.0-Flash &#8211; 0,7 % en el conjunto de datos original de Vectara<\/p>\n\n<p>Mejor en conversaciones realistas: Claude Opus 4.5 &#8211; 30 % en HalluHard (con b\u00fasqueda web)<\/p>\n\n<p>Mejor \u00edndice de fiabilidad del conocimiento: Gemini 3.1 Pro &#8211; \u00edndice 33 en AA-Omniscience<\/p>\n\n<p>Puntuaci\u00f3n de veracidad m\u00e1s alta (multidimensional): Gemini 3 Pro &#8211; 68,8 en FACTS<\/p>\n\n<h2 class=\"wp-block-heading\">Vea c\u00f3mo el enfoque multi-IA de Suprmind mitiga las alucinaciones<\/h2>\n\n<p><a href=\"https:\/\/suprmind.ai\/\">Suprmind<\/a> reduce las alucinaciones al situar cinco modelos de frontera en la misma conversaci\u00f3n estructurada, donde desaf\u00edan las afirmaciones de los dem\u00e1s, detectan contradicciones, discrepan y ponen a prueba las conclusiones antes de que el resultado llegue a su trabajo.<\/p>\n\n<p>Cuando los modelos de IA discrepan, ese desacuerdo revela la complejidad y segmentos a menudo pasados por alto del tema o problema.<\/p>\n\n<p>Suprmind lo saca a la luz, lo cuantifica y, en tres clics, lo convierte en un entregable profesional, para que las preguntas dif\u00edciles se respondan antes de tomar la decisi\u00f3n.<\/p>\n\n<h4 class=\"wp-block-heading\"><em>El desacuerdo es la funci\u00f3n.<\/em><\/h4>\n\n<section style=\"padding: 0 48px;\">\n    <div style=\"max-width: 900px; margin: 0 auto;\">\n        <p style=\"font-size: 14px; font-weight: 600; text-transform: uppercase; letter-spacing: 0.05em; color: rgba(255,255,255,0.7); margin-bottom: 16px; text-align: center;\">V\u00c9ALO USTED MISMO<\/p>\n        <h2 style=\"font-size: 24px; font-weight: 600; text-align: center; margin: 0 0 24px 0;\">Vea el modo Sequential de Suprmind en un escenario sencillo<\/h2>\n        <p style=\"font-size: 16px; color: #9ca3af; text-align: center; margin: 0 0 32px 0;\">Esta demostraci\u00f3n interactiva de IA multi-modelo dura unos 90 segundos. Explore la barra lateral derecha y el Master Document mientras se reproduce.  Despl\u00e1cese hacia abajo para pausar; vuelva a desplazarse cuando est\u00e9 listo y continuar\u00e1 donde lo dej\u00f3.<\/p>\n    <\/div>\n<\/section>\n\n<p>Tabla de contenidos<\/p>\n\n<p><a href=\"\/hub?page_id=3438#section-1\">1. \u00bfQu\u00e9 es una alucinaci\u00f3n de IA?<\/a><\/p>\n\n<p><a href=\"\/hub?page_id=3438#section-2\">2. El problema de las comparativas<\/a><\/p>\n\n<p><a href=\"\/hub?page_id=3438#section-3\">3. Clasificaci\u00f3n de alucinaciones de Vectara<\/a><\/p>\n\n<p><a href=\"\/hub?page_id=3438#section-4\">4. Comparativa AA-Omniscience<\/a><\/p>\n\n<p><a href=\"\/hub?page_id=3438#section-5\">5. Comparativa FACTS (Google DeepMind)<\/a><\/p>\n\n<p><a href=\"\/hub?page_id=3438#section-6\">6. Perfiles de alucinaci\u00f3n de modelos de frontera<\/a><\/p>\n\n<p><a href=\"\/hub?page_id=3438#section-7\">7. Comparaciones directas entre modelos<\/a><\/p>\n\n<p><a href=\"\/hub?page_id=3438#section-8\">8. Tasas de alucinaci\u00f3n por dominio espec\u00edfico<\/a><\/p>\n\n<p><a href=\"\/hub?page_id=3438#section-9\">9. Estad\u00edsticas de impacto empresarial<\/a><\/p>\n\n<p><a href=\"\/hub?page_id=3438#section-10\">10. La paradoja del razonamiento<\/a><\/p>\n\n<p><a href=\"\/hub?page_id=3438#section-11\">11. Por qu\u00e9 la alucinaci\u00f3n cero es matem\u00e1ticamente imposible<\/a><\/p>\n\n<p><a href=\"\/hub?page_id=3438#section-12\">12. Qu\u00e9 reduce realmente la alucinaci\u00f3n<\/a><\/p>\n\n<p><a href=\"\/hub?page_id=3438#section-13\">13. La evidencia multimodelo<\/a><\/p>\n\n<p><a href=\"\/hub?page_id=3438#section-14\">14. Herramientas de detecci\u00f3n de alucinaciones<\/a><\/p>\n\n<p><a href=\"\/hub?page_id=3438#section-15\">15. Progresi\u00f3n hist\u00f3rica<\/a><\/p>\n\n<p><a href=\"\/hub?page_id=3438#section-16\">16. Metodolog\u00eda y c\u00f3mo leer estos datos<\/a><\/p>\n\n<p>Escuche la investigaci\u00f3n completa (51 min)<\/p>\n\n<h2 class=\"wp-block-heading\">\u00bfQu\u00e9 es una alucinaci\u00f3n de IA?<\/h2>\n\n<h3 class=\"wp-block-heading\">En lenguaje sencillo<\/h3>\n\n<p>Una alucinaci\u00f3n de IA ocurre cuando un modelo de IA inventa algo y lo presenta como un hecho. No se\u00f1ala incertidumbre. No dice \u00abestoy adivinando\u00bb. Ofrece estad\u00edsticas fabricadas, casos legales inventados o art\u00edculos de investigaci\u00f3n inexistentes con la misma confianza que utiliza para la aritm\u00e9tica b\u00e1sica. El resultado se lee perfectamente. Eso es lo que lo hace peligroso.     <\/p>\n\n<h3 class=\"wp-block-heading\">La definici\u00f3n t\u00e9cnica<\/h3>\n\n<p>La alucinaci\u00f3n se refiere al contenido generado que no est\u00e1 fundamentado en la informaci\u00f3n proporcionada o en la realidad f\u00e1ctica. Existen dos tipos: <\/p>\n\n<p>Alucinaci\u00f3n intr\u00ednseca (fallo de fidelidad): El modelo contradice la informaci\u00f3n que se le dio expl\u00edcitamente. Entr\u00e9guele un contrato y p\u00eddale un resumen; a\u00f1ade cl\u00e1usulas que no existen en el documento original. <\/p>\n\n<p>Alucinaci\u00f3n extr\u00ednseca (fallo de veracidad): El modelo genera informaci\u00f3n que no puede verificarse con ninguna fuente conocida. Inventa hechos, estad\u00edsticas, citas o eventos desde cero. No se contradijo ning\u00fan material de origen porque no se consult\u00f3 ninguno.  <\/p>\n\n<h3 class=\"wp-block-heading\">La paradoja de la confianza<\/h3>\n\n<p>Investigadores del MIT descubrieron algo inquietante en enero de 2025: los modelos de IA utilizan un <em>lenguaje m\u00e1s seguro<\/em> cuando alucinan que cuando exponen hechos. Los modelos ten\u00edan un 34 % m\u00e1s de probabilidades de usar frases como \u00abdefinitivamente\u00bb, \u00abciertamente\u00bb y \u00absin duda alguna\u00bb al generar informaci\u00f3n incorrecta. <\/p>\n\n<p><em>Cuanto m\u00e1s equivocada est\u00e1 la IA, m\u00e1s segura suena.<\/em><\/p>\n\n<h3 class=\"wp-block-heading\">Por qu\u00e9 sucede<\/h3>\n\n<p>Los modelos de lenguaje extensos son motores de predicci\u00f3n, no bases de conocimiento. Generan texto prediciendo el siguiente token estad\u00edsticamente m\u00e1s probable bas\u00e1ndose en patrones de los datos de entrenamiento. No entienden la verdad. Predicen la verosimilitud.   <\/p>\n\n<p>Cuando el modelo encuentra un vac\u00edo en sus datos de entrenamiento o se enfrenta a una consulta ambigua, llena el vac\u00edo con algo veros\u00edmil en lugar de admitir que no lo sabe. La arquitectura no tiene un mecanismo para decir \u00abno estoy seguro\u00bb; simplemente elige la siguiente palabra m\u00e1s probable. <\/p>\n\n<p>Y esto no es un error que se corregir\u00e1 en la pr\u00f3xima actualizaci\u00f3n. Dos pruebas matem\u00e1ticas independientes han demostrado ahora que la alucinaci\u00f3n es una limitaci\u00f3n fundamental y <em>demostrable<\/em> de la arquitectura. No es una deficiencia de ingenier\u00eda. Es una certeza matem\u00e1tica. (M\u00e1s sobre esto en la secci\u00f3n <a href=\"\/hub?page_id=3438#section-11\">Imposibilidad matem\u00e1tica<\/a> a continuaci\u00f3n). <a href=\"\/hub?page_id=3438#ref-20\"><sup>[20]<\/sup><\/a><a href=\"\/hub?page_id=3438#ref-21\"><sup>[21]<\/sup><\/a>    <\/p>\n\n<h2 class=\"wp-block-heading\">El problema de las comparativas: por qu\u00e9 las cifras se contradicen entre s\u00ed<\/h2>\n\n<p>Antes de analizar cualquier dato sobre alucinaciones, debe entender por qu\u00e9 las diferentes comparativas arrojan puntuaciones radicalmente distintas para el mismo modelo.<\/p>\n\n<p>Grok-3 obtiene un 2,1 % en la comparativa de resumen de Vectara. Excelente. Ese mismo modelo obtiene un 94 % en la prueba de precisi\u00f3n de citas de la Columbia Journalism Review. Catastr\u00f3fico. El mismo modelo, el mismo periodo de tiempo, conclusiones opuestas.    <\/p>\n\n<p>Esto no es un error. Se est\u00e1n midiendo cosas diferentes. Y tratar cualquier comparativa individual como \u00abla tasa de alucinaci\u00f3n\u00bb le inducir\u00e1 a error.  <\/p>\n\n<p>La siguiente matriz resume lo que cada comparativa eval\u00faa realmente. Haga clic en el nombre de cualquier comparativa para ir a su secci\u00f3n dedicada. <\/p>\n\n<figure class=\"wp-block-table\"><table class=\"has-fixed-layout\"><tbody><tr><td>Benchmark<\/td><td>Qu\u00e9 mide<\/td><td>Ideal para<\/td><td>No apto para<\/td><\/tr><tr><td><a href=\"\/hub?page_id=3438#section-3\">Vectara HHEM<\/a><\/td><td>Fidelidad del resumen: \u00bfa\u00f1ade el modelo hechos no respaldados al resumir documentos de origen?<\/td><td>Flujos de RAG, preguntas y respuestas sobre documentos, b\u00fasqueda en bases de conocimiento<\/td><td>Preguntas de conocimiento abiertas<\/td><\/tr><tr><td><a href=\"\/hub?page_id=3438#section-4\">AA-Omniscience<\/a><\/td><td>Cuando el modelo no conoce una respuesta, \u00bflo admite o fabrica una? El Omniscience Index penaliza las respuestas incorrectas y premia la negativa a responder. <\/td><td>Trabajo de asesor\u00eda de alto riesgo: legal, m\u00e9dico, financiero<\/td><td>Tareas de resumen o fundamentadas<\/td><\/tr><tr><td><a href=\"\/hub?page_id=3438#section-5\">FACTS<\/a><\/td><td>Veracidad multidimensional en fundamentaci\u00f3n, multimodal, param\u00e9trica y b\u00fasqueda. Cada dimensi\u00f3n se punt\u00faa por separado. <\/td><td>Comparar d\u00f3nde son fuertes o d\u00e9biles los modelos seg\u00fan el tipo de tarea<\/td><td>Producir una cifra \u00fanica de tasa de alucinaci\u00f3n<\/td><\/tr><tr><td><a href=\"\/hub?page_id=3438#section-10\">SimpleQA \/ PersonQA<\/a><\/td><td>Preguntas f\u00e1cticas cortas y precisi\u00f3n sobre personas reales. Los modelos de razonamiento m\u00e1s nuevos suelen rendir <em>peor<\/em> que sus predecesores aqu\u00ed. <\/td><td>Pruebas r\u00e1pidas de veracidad en preguntas directas<\/td><td>Consultas complejas, de varios pasos o de dominios espec\u00edficos<\/td><\/tr><tr><td><a href=\"\/hub?page_id=3438#mega-table\">HalluHard<\/a><\/td><td>Tasa de alucinaci\u00f3n en entornos conversacionales realistas. Incluso el mejor modelo sigue alucinando el 30 % de las veces. <\/td><td>Predecir tasas del mundo real en aplicaciones de chat de producci\u00f3n<\/td><td>Comparaciones de modelos controladas y reproducibles<\/td><\/tr><tr><td><a href=\"\/hub?page_id=3438#mega-table\">CJR Citation<\/a><\/td><td>Si los modelos de IA atribuyen correctamente la informaci\u00f3n a las fuentes citadas. Modo de fallo: URL reales con contenido fabricado adjunto. <\/td><td>Investigaci\u00f3n, periodismo, cualquier tarea de atribuci\u00f3n de fuentes<\/td><td>Evaluaci\u00f3n de conocimiento general o res\u00famenes<\/td><\/tr><\/tbody><\/table><\/figure>\n\n<p><em>Fuentes: Vectara HHEM  <\/em><a href=\"\/hub?page_id=3438#ref-1\"><em><sup>[1]<\/sup><\/em><\/a><em>, AA-Omniscience  <\/em><a href=\"\/hub?page_id=3438#ref-2\"><em><sup>[2]<\/sup><\/em><\/a><em>, FACTS  <\/em><a href=\"\/hub?page_id=3438#ref-3\"><em><sup>[3]<\/sup><\/em><\/a><em>, SimpleQA\/PersonQA  <\/em><a href=\"\/hub?page_id=3438#ref-4\"><em><sup>[4]<\/sup><\/em><\/a><em>, HalluHard  <\/em><a href=\"\/hub?page_id=3438#ref-5\"><em><sup>[5]<\/sup><\/em><\/a><em>, Estudio de citas de CJR  <\/em><a href=\"\/hub?page_id=3438#ref-6\"><em><sup>[6]<\/sup><\/em><\/a><\/p>\n\n<h4 class=\"wp-block-heading\">Dos comparativas que se deben ignorar<\/h4>\n\n<p>TruthfulQA fue una vez el est\u00e1ndar de oro. Ahora est\u00e1 parcialmente saturado: los modelos han sido entrenados con sus preguntas. Peor a\u00fan, los investigadores demostraron que un simple \u00e1rbol de decisiones puede obtener un 79,6 % en la opci\u00f3n m\u00faltiple de TruthfulQA <em>sin siquiera ver la pregunta formulada<\/em>, solo explotando patrones estructurales en el formato de las respuestas. Citar puntuaciones de TruthfulQA para modelos de 2025-2026 no es fiable.     <a href=\"\/hub?page_id=3438#ref-29\"><sup>[29]<\/sup><\/a><\/p>\n\n<p>HaluEval tiene un problema similar. Un clasificador basado en la longitud logra una precisi\u00f3n del 93,3 % en HaluEval QA simplemente marcando como alucinadas las respuestas de m\u00e1s de 27 caracteres. La comparativa mide la longitud de la respuesta m\u00e1s que la veracidad.    <a href=\"\/hub?page_id=3438#ref-30\"><sup>[30]<\/sup><\/a><\/p>\n\n<h4 class=\"wp-block-heading\">La conclusi\u00f3n pr\u00e1ctica<\/h4>\n\n<p>Ninguna comparativa individual le ofrece \u00abla tasa de alucinaci\u00f3n\u00bb de ning\u00fan modelo. Si alguien cita una sola cifra, o bien est\u00e1 simplificando por conveniencia o est\u00e1 seleccionando datos a conveniencia para marketing. <\/p>\n\n<p>El enfoque responsable: contrastar al menos dos comparativas que midan cosas diferentes (una tarea fundamentada como Vectara, una tarea de conocimiento abierta como AA-Omniscience), especificar la versi\u00f3n exacta del modelo y las condiciones de llamada, y se\u00f1alar si el acceso a herramientas estaba activado. Las secciones que siguen hacen exactamente eso. <\/p>\n\n<h2 class=\"wp-block-heading\">Clasificaci\u00f3n de alucinaciones de IA de Vectara (HHEM)<\/h2>\n\n<p>La clasificaci\u00f3n de Vectara es la comparativa de alucinaciones m\u00e1s citada en la industria. Mide la fidelidad del resumen: dado un documento de origen, \u00bfel resumen del modelo se ci\u00f1e a lo que realmente hay en el documento o a\u00f1ade hechos no respaldados? Esto lo convierte en un indicador directo de c\u00f3mo se comporta la IA en flujos de RAG, herramientas de b\u00fasqueda empresarial y flujos de trabajo de an\u00e1lisis de documentos. La clasificaci\u00f3n existe en dos versiones, y la brecha entre ellas cuenta una historia importante.     <a href=\"\/hub?page_id=3438#ref-1\"><sup>[1]<\/sup><\/a><\/p>\n\n<h3 class=\"wp-block-heading\">Conjunto de datos original \u2014 ~1.000 documentos (abril de 2025)<\/h3>\n\n<p>Este es el conjunto de datos al que hacen referencia la mayor\u00eda de los art\u00edculos cuando citan tasas de alucinaci\u00f3n. Los documentos son relativamente cortos y las tareas de resumen son directas. <\/p>\n\n<figure class=\"wp-block-table\"><table class=\"has-fixed-layout\"><tbody><tr><td>Modelo<\/td><td>Proveedor<\/td><td>Tasa de alucinaci\u00f3n<\/td><td>Consistencia f\u00e1ctica<\/td><\/tr><tr><td>Gemini-2.0-Flash-001<\/td><td>Google<\/td><td><strong>0.7%<\/strong><\/td><td>99.3%<\/td><\/tr><tr><td>Gemini-2.0-Pro-Exp<\/td><td>Google<\/td><td>0.8%<\/td><td>99.2%<\/td><\/tr><tr><td>o3-mini-high<\/td><td>OpenAI<\/td><td>0.8%<\/td><td>99.2%<\/td><\/tr><tr><td>Gemini-2.5-Pro-Exp<\/td><td>Google<\/td><td>1.1%<\/td><td>98.9%<\/td><\/tr><tr><td>GPT-4.5-Preview<\/td><td>OpenAI<\/td><td>1.2%<\/td><td>98.8%<\/td><\/tr><tr><td>Gemini-2.5-Flash-Preview<\/td><td>Google<\/td><td>1.3%<\/td><td>98.7%<\/td><\/tr><tr><td>o1-mini<\/td><td>OpenAI<\/td><td>1.4%<\/td><td>98.6%<\/td><\/tr><tr><td>GPT-5 \/ ChatGPT-5<\/td><td>OpenAI<\/td><td>1.4%<\/td><td>98.6%<\/td><\/tr><tr><td>GPT-4o<\/td><td>OpenAI<\/td><td>1.5%<\/td><td>98.5%<\/td><\/tr><tr><td>GPT-4o-mini<\/td><td>OpenAI<\/td><td>1.7%<\/td><td>98.3%<\/td><\/tr><tr><td>GPT-4-Turbo<\/td><td>OpenAI<\/td><td>1.7%<\/td><td>98.3%<\/td><\/tr><tr><td>GPT-4<\/td><td>OpenAI<\/td><td>1.8%<\/td><td>98.2%<\/td><\/tr><tr><td>antgroup\/finix_s1_32b<\/td><td>Ant Group<\/td><td>1.8%<\/td><td>98.2%<\/td><\/tr><tr><td>Grok-2<\/td><td>xAI<\/td><td>1.9%<\/td><td>98.1%<\/td><\/tr><tr><td>GPT-4.1<\/td><td>OpenAI<\/td><td>2.0%<\/td><td>98.0%<\/td><\/tr><tr><td>Grok-3-Beta<\/td><td>xAI<\/td><td>2.1%<\/td><td>97.8%<\/td><\/tr><tr><td>GPT-5.4-nano<\/td><td>OpenAI<\/td><td>3.1%<\/td><td>96.9%<\/td><\/tr><tr><td>Claude-3.7-Sonnet<\/td><td>Anthropic<\/td><td>4.4%<\/td><td>95.6%<\/td><\/tr><tr><td>Claude-3.5-Sonnet<\/td><td>Anthropic<\/td><td>4.6%<\/td><td>95.4%<\/td><\/tr><tr><td>o4-mini<\/td><td>OpenAI<\/td><td>4.6%<\/td><td>95.4%<\/td><\/tr><tr><td>Llama-4-Maverick<\/td><td>Meta<\/td><td>4.6%<\/td><td>95.4%<\/td><\/tr><tr><td>Grok-4<\/td><td>xAI<\/td><td>4.8%<\/td><td>~95,2 %<\/td><\/tr><tr><td>Claude-3.5-Haiku<\/td><td>Anthropic<\/td><td>4.9%<\/td><td>95.1%<\/td><\/tr><tr><td>Gemma-4-26B<\/td><td>Google<\/td><td>5.2%<\/td><td>94.8%<\/td><\/tr><tr><td>DeepSeek-V3.2-Exp<\/td><td>DeepSeek<\/td><td>5.3%<\/td><td>94.7%<\/td><\/tr><tr><td>Qwen3-14B<\/td><td>Qwen\/Alibaba<\/td><td>5.4%<\/td><td>94.6%<\/td><\/tr><tr><td>GPT-5.4-mini<\/td><td>OpenAI<\/td><td>5.5%<\/td><td>94.5%<\/td><\/tr><tr><td>Claude-3-Opus<\/td><td>Anthropic<\/td><td>10.1%<\/td><td>89.9%<\/td><\/tr><tr><td>DeepSeek-R1<\/td><td>DeepSeek<\/td><td>14.3%<\/td><td>85.7%<\/td><\/tr><\/tbody><\/table><\/figure>\n\n<p><em>Fuente: Vectara HHEM Leaderboard, repositorio de GitHub, conjunto de datos de abril de 2025 (\u00faltima actualizaci\u00f3n el 20 de abril de 2026 con nuevas incorporaciones de modelos, incluyendo finix_s1_32b de Ant Group liderando con un 1,8 %) <\/em><a href=\"\/hub?page_id=3438#ref-1\"><em><sup>[1]<\/sup><\/em><\/a><\/p>\n\n<p>En este conjunto de datos, las cifras parecen alentadoras. Los modelos Gemini de Google dominan los tres primeros puestos. La familia GPT de OpenAI se agrupa entre el 0,8 % y el 2,0 %. Incluso los de peor rendimiento se mantienen por debajo del 15 %.   <\/p>\n\n<p>Actualizaci\u00f3n de abril de 2026: El modelo finix_s1_32b de Ant Group se uni\u00f3 a la clasificaci\u00f3n con una tasa de alucinaci\u00f3n del 1,8 %, siendo la primera vez que un modelo empresarial chino compite por la primera posici\u00f3n en el conjunto de datos original de Vectara. El GPT-5.4 nano de OpenAI (3,1 %) entr\u00f3 con una tasa notablemente superior a la de GPT-4.1 (2,0 %), reforzando el patr\u00f3n de que las variantes de OpenAI m\u00e1s peque\u00f1as y recientes suelen alucinar m\u00e1s que los modelos base anteriores, lo cual es coherente con el coste del razonamiento analizado en la Secci\u00f3n 10.   <a href=\"\/hub?page_id=3438#ref-1\"><sup>[1]<\/sup><\/a><\/p>\n\n<p>Pero este conjunto de datos es f\u00e1cil. Los documentos son cortos, las tareas de resumen son n\u00edtidas y el mundo real no es ninguna de las dos cosas. <\/p>\n\n<figure class=\"wp-block-image size-large\"><img decoding=\"async\" width=\"1024\" height=\"652\" src=\"https:\/\/suprmind.ai\/hub\/wp-content\/uploads\/2026\/05\/image-4-1024x652.png\" alt=\"\" class=\"wp-image-4099\" srcset=\"https:\/\/suprmind.ai\/hub\/wp-content\/uploads\/2026\/05\/image-4-1024x652.png 1024w, https:\/\/suprmind.ai\/hub\/wp-content\/uploads\/2026\/05\/image-4-300x191.png 300w, https:\/\/suprmind.ai\/hub\/wp-content\/uploads\/2026\/05\/image-4-768x489.png 768w, https:\/\/suprmind.ai\/hub\/wp-content\/uploads\/2026\/05\/image-4-1536x978.png 1536w, https:\/\/suprmind.ai\/hub\/wp-content\/uploads\/2026\/05\/image-4.png 1696w\" sizes=\"(max-width: 1024px) 100vw, 1024px\" \/><\/figure>\n\n<p><em>Vectara HHEM Leaderboard: Clasificaci\u00f3n completa de modelos con c\u00f3digo de colores por proveedor en el conjunto de datos original. Fuente: Vectara [1] <\/em><\/p>\n\n<h3 class=\"wp-block-heading\">Nuevo conjunto de datos \u2014 7.700 art\u00edculos (noviembre de 2025 &#8211; febrero de 2026)<\/h3>\n\n<p>Vectara lanz\u00f3 una comparativa renovada a finales de 2025 con documentos m\u00e1s largos (hasta 32.000 tokens) que abarcan derecho, medicina, finanzas, tecnolog\u00eda y educaci\u00f3n. Esta versi\u00f3n refleja mejor a lo que se enfrentan realmente los sistemas de IA empresariales. <\/p>\n\n<p>Las tasas aumentaron de forma generalizada:<\/p>\n\n<figure class=\"wp-block-table\"><table class=\"has-fixed-layout\"><tbody><tr><td>Modelo<\/td><td>Proveedor<\/td><td>Tasa de alucinaci\u00f3n<\/td><\/tr><tr><td>Gemini-2.5-Flash-Lite<\/td><td>Google<\/td><td><strong>3.3%<\/strong><\/td><\/tr><tr><td>Mistral-Large<\/td><td>Mistral<\/td><td>4.5%<\/td><\/tr><tr><td>DeepSeek-V3.2-Exp<\/td><td>DeepSeek<\/td><td>5.3%<\/td><\/tr><tr><td>GPT-4.1<\/td><td>OpenAI<\/td><td>5.6%<\/td><\/tr><tr><td>Grok-3<\/td><td>xAI<\/td><td>5.8%<\/td><\/tr><tr><td>DeepSeek-R1-0528<\/td><td>DeepSeek<\/td><td>7.7%<\/td><\/tr><tr><td>Claude Sonnet 4.5<\/td><td>Anthropic<\/td><td>&gt;10 %<\/td><\/tr><tr><td>GPT-5<\/td><td>OpenAI<\/td><td>&gt;10 %<\/td><\/tr><tr><td>Grok-4<\/td><td>xAI<\/td><td>&gt;10 %<\/td><\/tr><tr><td>Gemini-3-Pro<\/td><td>Google<\/td><td>13.6%<\/td><\/tr><\/tbody><\/table><\/figure>\n\n<p><em>Fuente: Vectara Hallucination Leaderboard, nuevo conjunto de datos, noviembre de 2025 <\/em><a href=\"\/hub?page_id=3438#ref-1\"><em><sup>[1]<\/sup><\/em><\/a><\/p>\n\n<h3 class=\"wp-block-heading\">Captura del 25 de febrero de 2026 \u2014 \u00daltimas incorporaciones de modelos<\/h3>\n\n<p>La captura m\u00e1s reciente de Vectara a\u00f1ade los modelos de frontera m\u00e1s nuevos a la evaluaci\u00f3n del nuevo conjunto de datos:<\/p>\n\n<figure class=\"wp-block-table\"><table class=\"has-fixed-layout\"><tbody><tr><td>Modelo<\/td><td>Proveedor<\/td><td>Tasa de alucinaci\u00f3n<\/td><\/tr><tr><td>o3-mini-high<\/td><td>OpenAI<\/td><td>4.8%<\/td><\/tr><tr><td>GPT-4.1<\/td><td>OpenAI<\/td><td>5.6%<\/td><\/tr><tr><td>Grok-3<\/td><td>xAI<\/td><td>5.8%<\/td><\/tr><tr><td>DeepSeek-V3<\/td><td>DeepSeek<\/td><td>6.1%<\/td><\/tr><tr><td>Command R+<\/td><td>Cohere<\/td><td>6.9%<\/td><\/tr><tr><td>Gemini 2.5 Pro<\/td><td>Google<\/td><td>7.0%<\/td><\/tr><tr><td>Llama 4 Scout<\/td><td>Meta<\/td><td>7.7%<\/td><\/tr><tr><td>GPT-5.2-low<\/td><td>OpenAI<\/td><td>8.4%<\/td><\/tr><tr><td>Gemini 3.1 Pro Preview<\/td><td>Google<\/td><td>10.4%<\/td><\/tr><tr><td>Claude Sonnet 4.6<\/td><td>Anthropic<\/td><td>10.6%<\/td><\/tr><tr><td>GPT-5.2-high<\/td><td>OpenAI<\/td><td>10.8%<\/td><\/tr><tr><td>DeepSeek-R1<\/td><td>DeepSeek<\/td><td>11.3%<\/td><\/tr><tr><td>Claude Opus 4.6<\/td><td>Anthropic<\/td><td>12.2%<\/td><\/tr><tr><td>Grok-4-fast-reasoning<\/td><td>xAI<\/td><td>20.2%<\/td><\/tr><\/tbody><\/table><\/figure>\n\n<p><em>Fuente: Vectara HHEM Leaderboard, <\/em><a href=\"https:\/\/suprmind.ai\/hub\/insights\/ai-hallucination-statistics-research-report-2026\/\"><em>captura del informe de investigaci\u00f3n del 25 de febrero de 2026<\/em><\/a><em> <\/em><a href=\"\/hub?page_id=3438#ref-1\"><em><sup>[1]<\/sup><\/em><\/a><\/p>\n\n<h3 class=\"wp-block-heading\">El coste del razonamiento<\/h3>\n\n<p>El nuevo conjunto de datos revel\u00f3 algo contraintuitivo: los modelos de razonamiento \u2014aquellos comercializados como los m\u00e1s capaces\u2014 rinden sistem\u00e1ticamente <em>peor<\/em> en res\u00famenes fundamentados. GPT-5, Claude Sonnet 4.5, Grok-4 y Gemini-3-Pro superaron todos el 10 %. La variante Grok-4-fast-reasoning alcanz\u00f3 el 20,2 %. <a href=\"\/hub?page_id=3438#ref-48\"><sup>[48]<\/sup><\/a><a href=\"\/hub?page_id=3438#ref-49\"><sup>[49]<\/sup><\/a>  <\/p>\n\n<p>La hip\u00f3tesis es sencilla. Los modelos de razonamiento invierten esfuerzo computacional en \u00abpensar\u00bb las respuestas. Durante el resumen, este pensamiento les lleva a a\u00f1adir inferencias, establecer conexiones y generar ideas que van m\u00e1s all\u00e1 de lo que hay en el documento de origen. Eso es \u00fatil para el an\u00e1lisis, pero es una alucinaci\u00f3n en una comparativa de res\u00famenes.    <\/p>\n\n<p>Esto plantea una decisi\u00f3n cr\u00edtica para los equipos empresariales: el modo de razonamiento ayuda en tareas abiertas y perjudica en tareas fundamentadas. Saber cu\u00e1ndo activarlo y cu\u00e1ndo desactivarlo no es opcional. <\/p>\n\n<h2 class=\"wp-block-heading\">Comparativa AA-Omniscience (Artificial Analysis)<\/h2>\n\n<p>AA-Omniscience plantea una pregunta fundamentalmente diferente a la de Vectara. En lugar de \u00ab\u00bfpuedes resumir sin a\u00f1adir cosas?\u00bb, pregunta \u00abcuando no sabes algo, \u00bflo admites o inventas algo?\u00bb. <a href=\"\/hub?page_id=3438#ref-2\"><sup>[2]<\/sup><\/a> <\/p>\n\n<p>La comparativa abarca 6.000 preguntas sobre 42 temas en seis dominios. El Omniscience Index (escala: -100 a +100) penaliza las respuestas incorrectas y no penaliza la negativa a responder. Esto la convierte en la \u00fanica comparativa importante que premia expl\u00edcitamente a los modelos por conocer sus propios l\u00edmites.  <\/p>\n\n<h3 class=\"wp-block-heading\">Clasificaci\u00f3n de los mejores modelos por precisi\u00f3n y tasa de alucinaci\u00f3n<\/h3>\n\n<figure class=\"wp-block-table\"><table class=\"has-fixed-layout\"><tbody><tr><td>Modelo<\/td><td>Proveedor<\/td><td>Precisi\u00f3n<\/td><td>Tasa de alucinaci\u00f3n<\/td><td>Omniscience Index<\/td><\/tr><tr><td>Gemini 3 Pro Preview (alto)<\/td><td>Google<\/td><td>55.9%<\/td><td>88%<\/td><td>16<\/td><\/tr><tr><td>Gemini 3.1 Pro Preview<\/td><td>Google<\/td><td>55.3%<\/td><td>50%<\/td><td><strong>33<\/strong><\/td><\/tr><tr><td>Gemini 3 Flash (Reasoning)<\/td><td>Google<\/td><td>54.0%<\/td><td>92%<\/td><td>\u2013<\/td><\/tr><tr><td>GPT-5.5 (muy alto)<\/td><td>OpenAI<\/td><td><strong>57%<\/strong><\/td><td>86%<\/td><td>20<\/td><\/tr><tr><td>GPT-5.3 Codex (muy alto)<\/td><td>OpenAI<\/td><td>51.8%<\/td><td>\u2013<\/td><td>\u2013<\/td><\/tr><tr><td>Claude Opus 4.6 (m\u00e1x.)<\/td><td>Anthropic<\/td><td>46.4%<\/td><td>\u2013<\/td><td>14<\/td><\/tr><tr><td>Claude Opus 4.7 (Adaptive Reasoning, M\u00e1x.)<\/td><td>Anthropic<\/td><td>~47 %<\/td><td>36%<\/td><td>26<\/td><\/tr><tr><td>Claude Opus 4.5 (thinking)<\/td><td>Anthropic<\/td><td>45.7%<\/td><td>58%<\/td><td>Negativo<\/td><\/tr><tr><td>GPT-5.2 (muy alto)<\/td><td>OpenAI<\/td><td>43.8%<\/td><td>\u2013<\/td><td>\u2013<\/td><\/tr><tr><td>Grok 4<\/td><td>xAI<\/td><td>41.4%<\/td><td>64%<\/td><td>Positivo<\/td><\/tr><tr><td>Claude Opus 4.5<\/td><td>Anthropic<\/td><td>40.7%<\/td><td>\u2013<\/td><td>\u2013<\/td><\/tr><tr><td>GPT-5 (alto)<\/td><td>OpenAI<\/td><td>40.7%<\/td><td>\u2013<\/td><td>\u2013<\/td><\/tr><tr><td>Claude Sonnet 4.6 (m\u00e1x.)<\/td><td>Anthropic<\/td><td>40.0%<\/td><td>\u2013<\/td><td>\u2013<\/td><\/tr><tr><td>Claude Sonnet 4.6<\/td><td>Anthropic<\/td><td>38.0%<\/td><td>~38 %<\/td><td>\u2013<\/td><\/tr><tr><td>GPT-5.1 (alto)<\/td><td>OpenAI<\/td><td>37.6%<\/td><td>81%<\/td><td>Positivo<\/td><\/tr><\/tbody><\/table><\/figure>\n\n<p><em>Fuente: Artificial Analysis AA-Omniscience, noviembre de 2025 &#8211; abril de 2026 <\/em><a href=\"\/hub?page_id=3438#ref-2\"><em><sup>[2]<\/sup><\/em><\/a><\/p>\n\n<figure class=\"wp-block-image size-large\"><img decoding=\"async\" width=\"1024\" height=\"666\" src=\"https:\/\/suprmind.ai\/hub\/wp-content\/uploads\/2026\/05\/image-5-1024x666.png\" alt=\"\" class=\"wp-image-4100\" srcset=\"https:\/\/suprmind.ai\/hub\/wp-content\/uploads\/2026\/05\/image-5-1024x666.png 1024w, https:\/\/suprmind.ai\/hub\/wp-content\/uploads\/2026\/05\/image-5-300x195.png 300w, https:\/\/suprmind.ai\/hub\/wp-content\/uploads\/2026\/05\/image-5-768x499.png 768w, https:\/\/suprmind.ai\/hub\/wp-content\/uploads\/2026\/05\/image-5-1536x999.png 1536w, https:\/\/suprmind.ai\/hub\/wp-content\/uploads\/2026\/05\/image-5.png 1661w\" sizes=\"(max-width: 1024px) 100vw, 1024px\" \/><\/figure>\n\n<p><em>AA-Omniscience: Precisi\u00f3n frente a tasa de alucinaci\u00f3n. El cuadrante verde muestra los modelos fiables. Fuente: Artificial Analysis [2]  <\/em><\/p>\n\n<h3 class=\"wp-block-heading\">Tasas de alucinaci\u00f3n m\u00e1s bajas<\/h3>\n\n<figure class=\"wp-block-table\"><table class=\"has-fixed-layout\"><tbody><tr><td>Modelo<\/td><td>Proveedor<\/td><td>Tasa de alucinaci\u00f3n<\/td><\/tr><tr><td>Claude 4.1 Opus (Reasoning)<\/td><td>Anthropic<\/td><td><strong>0%*<\/strong><\/td><\/tr><tr><td>Claude 4 Opus (Reasoning)<\/td><td>Anthropic<\/td><td><strong>0%*<\/strong><\/td><\/tr><tr><td>Grok 4.20 (Reasoning)<\/td><td>xAI<\/td><td><strong>17%<\/strong><\/td><\/tr><tr><td>MiMo-V2.5-Pro<\/td><td>Xiaomi<\/td><td>25%<\/td><\/tr><tr><td>Claude 4.5 Haiku<\/td><td>Anthropic<\/td><td>25%<\/td><\/tr><tr><td>Claude Sonnet 4.6<\/td><td>Anthropic<\/td><td>~38 %<\/td><\/tr><tr><td>Claude 4.5 Sonnet<\/td><td>Anthropic<\/td><td>48%<\/td><\/tr><tr><td>Gemini 3.1 Pro Preview<\/td><td>Google<\/td><td>50%<\/td><\/tr><tr><td>Claude Opus 4.5<\/td><td>Anthropic<\/td><td>58%<\/td><\/tr><tr><td>Grok 4<\/td><td>xAI<\/td><td>64%<\/td><\/tr><tr><td>Grok 4.1 Fast<\/td><td>xAI<\/td><td>72%<\/td><\/tr><tr><td>DeepSeek R1 0528<\/td><td>DeepSeek<\/td><td>83%<\/td><\/tr><tr><td>Llama 4 Maverick<\/td><td>Meta<\/td><td>87.6%<\/td><\/tr><tr><td>Gemini 3 Pro Preview<\/td><td>Google<\/td><td>88%<\/td><\/tr><\/tbody><\/table><\/figure>\n\n<p><em>Nota: La tasa de alucinaci\u00f3n en AA-Omniscience mide con qu\u00e9 frecuencia el modelo responde incorrectamente cuando deber\u00eda haberse negado a hacerlo; es la proporci\u00f3n de respuestas incorrectas sobre todas las respuestas no correctas. Esta es una m\u00e9trica de exceso de confianza. <\/em><em>*Asterisco:<\/em><em> Claude 4.1 Opus logra un 0 % al rechazar todas las preguntas dudosas; produce menos alucinaciones al responder a menos preguntas. Grok 4.20 (Reasoning) logra un 17 % mientras intenta una mayor proporci\u00f3n de respuestas (abril de 2026). La estrategia \u00f3ptima depende de si negarse a responder o dar respuestas incorrectas es m\u00e1s costoso para el caso de uso. Fuente: Artificial Analysis AA-Omniscience <\/em><a href=\"\/hub?page_id=3438#ref-2\"><em><sup>[2]<\/sup><\/em><\/a><\/p>\n\n<h3 class=\"wp-block-heading\">La paradoja de Gemini 3 Pro<\/h3>\n\n<p>Gemini 3 Pro cuenta la historia m\u00e1s interesante de estos datos. Logr\u00f3 la mayor precisi\u00f3n (55,9 %) por un amplio margen: sabe m\u00e1s que cualquier otro modelo probado. Pero tambi\u00e9n mostr\u00f3 una tasa de alucinaci\u00f3n del 88 %. Cuando no conoce una respuesta, fabrica una el 88 % de las veces en lugar de admitir la incertidumbre.     <a href=\"\/hub?page_id=3438#ref-2\"><sup>[2]<\/sup><\/a><\/p>\n\n<p>Alto conocimiento + baja autoconciencia = un modelo que es brillante cuando acierta y peligroso cuando se equivoca.<\/p>\n\n<p>La actualizaci\u00f3n de Gemini 3.1 Pro abord\u00f3 esto parcialmente. El ajuste de calibraci\u00f3n de Google redujo la tasa de alucinaci\u00f3n del 88 % al 50 % manteniendo una precisi\u00f3n casi id\u00e9ntica (55,3 % frente a 55,9 %). El Omniscience Index salt\u00f3 de 16 a 33, el m\u00e1s alto de cualquier modelo. Esto demostr\u00f3 que es posible una reducci\u00f3n dr\u00e1stica de las alucinaciones sin un sacrificio significativo de la precisi\u00f3n.     <a href=\"\/hub?page_id=3438#ref-15\"><sup>[15]<\/sup><\/a><\/p>\n\n<h3 class=\"wp-block-heading\">El dato de GPT-5.5 (abril de 2026)<\/h3>\n\n<p>GPT-5.5, lanzado por OpenAI a principios de 2026, registra la precisi\u00f3n m\u00e1s alta jam\u00e1s registrada en AA-Omniscience con un 57 %. Tambi\u00e9n registra una tasa de alucinaci\u00f3n del 86 % en la misma comparativa, la brecha m\u00e1s extrema entre precisi\u00f3n y calibraci\u00f3n observada hasta ahora. Cuando GPT-5.5 no conoce una respuesta, fabrica una el 86 % de las veces. El patr\u00f3n de Gemini 3 Pro (conocimiento sin autoconciencia) parece haberse intensificado con la \u00faltima generaci\u00f3n de modelos de alta capacidad. <a href=\"\/hub?page_id=3438#ref-2\"><sup>[2]<\/sup><\/a><a href=\"\/hub?page_id=3438#ref-63\"><sup>[63]<\/sup><\/a>   <\/p>\n\n<p>Claude Opus 4.7, lanzado por Anthropic el 16 de abril de 2026, toma el camino opuesto: una tasa de alucinaci\u00f3n del 36 % en la misma comparativa, con una precisi\u00f3n bruta algo menor. Las dos decisiones de lanzamiento, con seis semanas de diferencia, representan la divisi\u00f3n m\u00e1s clara hasta ahora entre optimizar lo que un modelo sabe frente a lo que un modelo sabe sobre sus propios l\u00edmites. <a href=\"\/hub?page_id=3438#ref-58\"><sup>[58]<\/sup><\/a><a href=\"\/hub?page_id=3438#ref-63\"><sup>[63]<\/sup><\/a> <\/p>\n\n<h3 class=\"wp-block-heading\">L\u00edderes por dominio espec\u00edfico<\/h3>\n\n<p>Ning\u00fan modelo individual domina todas las \u00e1reas de conocimiento:<\/p>\n\n<figure class=\"wp-block-table\"><table class=\"has-fixed-layout\"><tbody><tr><td>Dominio<\/td><td>Mejor modelo<\/td><\/tr><tr><td>Derecho<\/td><td>Claude 4.1 Opus<\/td><\/tr><tr><td>Ingenier\u00eda de software<\/td><td>Claude 4.1 Opus<\/td><\/tr><tr><td>Humanidades y Ciencias Sociales<\/td><td>Claude 4.1 Opus<\/td><\/tr><tr><td>Negocios<\/td><td>GPT-5.1.1<\/td><\/tr><tr><td>Salud<\/td><td>Grok 4<\/td><\/tr><tr><td>Ciencia y Matem\u00e1ticas<\/td><td>Grok 4<\/td><\/tr><\/tbody><\/table><\/figure>\n\n<p><em>Fuente: Artificial Analysis AA-Omniscience <\/em><a href=\"\/hub?page_id=3438#ref-2\"><em><sup>[2]<\/sup><\/em><\/a><\/p>\n\n<p>Los modelos Claude lideran en dominios donde el razonamiento preciso y la exactitud de las citas son fundamentales. Grok lidera en dominios donde importa una amplia cobertura de conocimientos. GPT lidera en aplicaciones empresariales. Esta fragmentaci\u00f3n es en s\u00ed misma un dato: significa que ning\u00fan modelo es la opci\u00f3n m\u00e1s segura para todos los casos de uso profesional.   <\/p>\n\n<h3 class=\"wp-block-heading\">Una estad\u00edstica que importa m\u00e1s que el resto<\/h3>\n\n<p>La precisi\u00f3n se correlaciona con el tama\u00f1o del modelo. La tasa de alucinaci\u00f3n, no. <\/p>\n\n<p><em>Los modelos m\u00e1s grandes saben m\u00e1s, pero no necesariamente saben lo que no saben.<\/em><\/p>\n\n<p>A\u00f1adir m\u00e1s par\u00e1metros al problema aumenta el conocimiento sin aumentar la autoconciencia. Por eso el problema de las alucinaciones no desaparecer\u00e1 simplemente con la pr\u00f3xima generaci\u00f3n de modelos. <\/p>\n\n<h2 class=\"wp-block-heading\">Comparativa FACTS (Google DeepMind)<\/h2>\n\n<p>El benchmark FACTS de Google DeepMind, publicado en diciembre de 2025, adopta un enfoque diferente al de la mayor\u00eda de las evaluaciones: en lugar de generar una \u00fanica puntuaci\u00f3n de alucinaci\u00f3n, desglosa la factualidad en cuatro dimensiones distintas. Esta visi\u00f3n multidimensional revela que los modelos presentan fortalezas dr\u00e1sticamente diferentes seg\u00fan el tipo de tarea. Grok 4 obtiene una puntuaci\u00f3n de 75,3 en B\u00fasqueda, pero solo de 25,7 en Multimodal, lo que supone una diferencia de 50 puntos dentro del mismo modelo.   <a href=\"\/hub?page_id=3438#ref-3\"><sup>[3]<\/sup><\/a><\/p>\n\n<h3 class=\"wp-block-heading\">Qu\u00e9 miden las cuatro secciones<\/h3>\n\n<p>Fundamentaci\u00f3n: \u00bfPuede el modelo utilizar fielmente la informaci\u00f3n de los documentos proporcionados? Se eval\u00faa mediante tareas de resumen y extracci\u00f3n con material de origen. <\/p>\n\n<p>Multimodal: \u00bfPuede el modelo describir y razonar con precisi\u00f3n sobre contenido visual junto con el texto?<\/p>\n\n<p>Param\u00e9trica: \u00bfEl conocimiento interno del modelo (almacenado en sus pesos tras el entrenamiento) produce respuestas correctas sin herramientas externas?<\/p>\n\n<p>B\u00fasqueda: \u00bfQu\u00e9 precisi\u00f3n tiene el modelo cuando tiene acceso a herramientas de b\u00fasqueda web y recuperaci\u00f3n?<\/p>\n\n<h3 class=\"wp-block-heading\">Puntuaciones de los modelos en las cuatro secciones<\/h3>\n\n<figure class=\"wp-block-table\"><table class=\"has-fixed-layout\"><tbody><tr><td>Modelo<\/td><td>Global<\/td><td>Fundamentaci\u00f3n<\/td><td>Multimodal<\/td><td>Param\u00e9trica<\/td><td>B\u00fasqueda<\/td><\/tr><tr><td>Gemini 3 Pro<\/td><td><strong>68.8<\/strong><\/td><td>69.0<\/td><td>46.1<\/td><td><strong>76.4<\/strong><\/td><td><strong>83.8<\/strong><\/td><\/tr><tr><td>Gemini 2.5 Pro<\/td><td>62.1<\/td><td>\u2013<\/td><td>\u2013<\/td><td>\u2013<\/td><td>\u2013<\/td><\/tr><tr><td>GPT-5<\/td><td>61.8<\/td><td>\u2013<\/td><td>\u2013<\/td><td>\u2013<\/td><td>77.7<\/td><\/tr><tr><td>Grok 4<\/td><td>53.6<\/td><td>\u2013<\/td><td>\u2013<\/td><td>\u2013<\/td><td>75.3<\/td><\/tr><tr><td>GPT o3<\/td><td>52.0<\/td><td>36.2<\/td><td>\u2013<\/td><td>57.1<\/td><td>\u2013<\/td><\/tr><tr><td>Claude 4.5 Opus<\/td><td>51.3<\/td><td>\u2013<\/td><td>\u2013<\/td><td>\u2013<\/td><td>\u2013<\/td><\/tr><tr><td>GPT 4.1<\/td><td>50.5<\/td><td>\u2013<\/td><td>\u2013<\/td><td>\u2013<\/td><td>\u2013<\/td><\/tr><tr><td>Gemini 2.5 Flash<\/td><td>50.4<\/td><td>\u2013<\/td><td>\u2013<\/td><td>\u2013<\/td><td>\u2013<\/td><\/tr><tr><td>GPT 5.1<\/td><td>49.4<\/td><td>\u2013<\/td><td>\u2013<\/td><td>\u2013<\/td><td>\u2013<\/td><\/tr><tr><td>Claude 4.5 Sonnet Thinking<\/td><td>49.1<\/td><td>\u2013<\/td><td>\u2013<\/td><td>\u2013<\/td><td>\u2013<\/td><\/tr><tr><td>Claude 4.1 Opus<\/td><td>46.5<\/td><td>\u2013<\/td><td>\u2013<\/td><td>\u2013<\/td><td>\u2013<\/td><\/tr><tr><td>GPT 5 mini<\/td><td>45.9<\/td><td>\u2013<\/td><td>\u2013<\/td><td>\u2013<\/td><td>\u2013<\/td><\/tr><tr><td>Claude 4 Sonnet<\/td><td>42.8<\/td><td>\u2013<\/td><td>\u2013<\/td><td>\u2013<\/td><td>\u2013<\/td><\/tr><tr><td>GPT o4 mini<\/td><td>37.6<\/td><td>\u2013<\/td><td>\u2013<\/td><td>\u2013<\/td><td>\u2013<\/td><\/tr><tr><td>Grok 4 Fast<\/td><td>36.0<\/td><td>\u2013<\/td><td>\u2013<\/td><td>\u2013<\/td><td>\u2013<\/td><\/tr><\/tbody><\/table><\/figure>\n\n<p><em>Nota: Los guiones indican puntuaciones por secci\u00f3n no reportadas por separado en las fuentes publicadas. La puntuaci\u00f3n global de FACTS es un agregado de las cuatro secciones. Fuente: FACTS Benchmark Suite, diciembre de 2025 <\/em><a href=\"\/hub?page_id=3438#ref-3\"><em><sup>[3]<\/sup><\/em><\/a><\/p>\n\n<h3 class=\"wp-block-heading\">Qu\u00e9 revelan estos datos<\/h3>\n\n<p>Ning\u00fan modelo supera el 70 %. La mejor puntuaci\u00f3n en FACTS es el 68,8 de Gemini 3 Pro. Todos los modelos se equivocan m\u00e1s del 30 % de las veces en esta evaluaci\u00f3n de veracidad multidimensional.  <\/p>\n\n<p>La b\u00fasqueda es la secci\u00f3n m\u00e1s fuerte para todos. Gemini 3 Pro alcanza un 83,8 y GPT-5 un 77,7 en veracidad con b\u00fasqueda activada. Cuando los modelos pueden consultar informaci\u00f3n, son sustancialmente m\u00e1s precisos. Cuando dependen solo del conocimiento almacenado, la precisi\u00f3n cae. Esto coincide con los hallazgos de \u00abnavegaci\u00f3n activada\u00bb frente a \u00abdesactivada\u00bb de las tarjetas de sistema de OpenAI.    <\/p>\n\n<p>Grok 4 tiene una brecha interna de 50 puntos. Obtiene un 75,3 en B\u00fasqueda pero un 25,7 en Multimodal, una inconsistencia masiva que significa que puede encontrar hechos bien pero tiene dificultades con el contenido visual. Cualquier evaluaci\u00f3n que promedie estos datos en una sola puntuaci\u00f3n oculta esta brecha.  <\/p>\n\n<p>La mejora de Gemini 3 Pro es real. En comparaci\u00f3n con Gemini 2.5 Pro, Gemini 3 Pro redujo las tasas de error en un 55 % en la secci\u00f3n de B\u00fasqueda y en un 35 % en la secci\u00f3n Param\u00e9trica. Se trata de una gran mejora generacional en la precisi\u00f3n f\u00e1ctica, impulsada principalmente por mejores capacidades de b\u00fasqueda y fundamentaci\u00f3n.  <\/p>\n\n<h2 class=\"wp-block-heading\">Perfiles de alucinaci\u00f3n de modelos de frontera<\/h2>\n\n<p>Cada modelo a continuaci\u00f3n se perfila a trav\u00e9s de m\u00faltiples comparativas. Las comparaciones de una sola comparativa inducen a error; los perfiles muestran d\u00f3nde es fiable cada modelo y d\u00f3nde no. <\/p>\n\n<figure class=\"wp-block-image size-large\"><img decoding=\"async\" width=\"1024\" height=\"849\" src=\"https:\/\/suprmind.ai\/hub\/wp-content\/uploads\/2026\/05\/image-6-1024x849.png\" alt=\"\" class=\"wp-image-4102\" srcset=\"https:\/\/suprmind.ai\/hub\/wp-content\/uploads\/2026\/05\/image-6-1024x849.png 1024w, https:\/\/suprmind.ai\/hub\/wp-content\/uploads\/2026\/05\/image-6-300x249.png 300w, https:\/\/suprmind.ai\/hub\/wp-content\/uploads\/2026\/05\/image-6-768x637.png 768w, https:\/\/suprmind.ai\/hub\/wp-content\/uploads\/2026\/05\/image-6.png 1302w\" sizes=\"(max-width: 1024px) 100vw, 1024px\" \/><\/figure>\n\n<p><em>Perfiles de modelos de frontera a trav\u00e9s de 5 dimensiones de alucinaci\u00f3n. Fuentes: Vectara [1], AA-Omniscience [2], FACTS [3], SimpleQA [4] <\/em><\/p>\n\n<h3 class=\"wp-block-heading\">Familia GPT-5 (OpenAI)<\/h3>\n\n<p>GPT-5.3 Instant (marzo de 2026) \u2014 El m\u00e1s nuevo de OpenAI. Reduce la alucinaci\u00f3n en un 26,8 % con b\u00fasqueda web y en un 19,7 % sin ella, en relaci\u00f3n con los modelos anteriores.   <a href=\"\/hub?page_id=3438#ref-10\"><sup>[10]<\/sup><\/a><\/p>\n\n<p>GPT-5.2 (diciembre de 2025) \u2014 El caballo de batalla profesional. Precisi\u00f3n en AA-Omniscience: 43,8 %. Con b\u00fasqueda web: 93,9 % de respuestas sin errores. Sin ella: la tasa de error salta al 12 %. HalluHard: 38,2 % con web. FACTS global: 61,8.       <a href=\"\/hub?page_id=3438#ref-9\"><sup>[9]<\/sup><\/a><\/p>\n\n<p>GPT-5 (agosto de 2025) \u2014 Conjunto de datos antiguo de Vectara: 1,4 % (fuerte). Nuevo conjunto de datos de Vectara: &gt;10 % (d\u00e9bil). Modo de pensamiento HealthBench: 1,6 %, una de las mejores puntuaciones de alucinaci\u00f3n m\u00e9dica registradas. SimpleQA sin web: 47 %. Con web: 9,6 %. FACTS global: 61,8. <a href=\"\/hub?page_id=3438#ref-8\"><sup>[8]<\/sup><\/a><a href=\"\/hub?page_id=3438#ref-12\"><sup>[12]<\/sup><\/a>     <\/p>\n\n<p>El patr\u00f3n en la familia GPT-5: el acceso a la b\u00fasqueda web es la variable individual m\u00e1s importante. Con la navegaci\u00f3n activada, los modelos GPT-5 compiten por las tasas de alucinaci\u00f3n m\u00e1s bajas de la industria. Sin ella, las tasas se multiplican por 3-5. Si va a implementar una variante de GPT-5, mantenga activado el acceso a la web.   <\/p>\n\n<h3 class=\"wp-block-heading\">Familia Claude (Anthropic)<\/h3>\n\n<p>Claude 4.1 Opus \u2014 Tasa de alucinaci\u00f3n en AA-Omniscience: 0 %. La m\u00e1s baja de todos los modelos probados. Lo logr\u00f3 neg\u00e1ndose a responder cuando no estaba seguro. FACTS: 46,5. L\u00edder de dominio en Derecho, Ingenier\u00eda de software y Humanidades.      <a href=\"\/hub?page_id=3438#ref-2\"><sup>[2]<\/sup><\/a><\/p>\n\n<p>Claude Opus 4.6 (febrero de 2026) \u2014 Precisi\u00f3n en AA-Omniscience: 46,4 %, \u00edndice: 14. Nuevo conjunto de datos de Vectara (captura de feb. de 2026): 12,2 %. Tercer Omniscience Index m\u00e1s alto fuera de Gemini. <a href=\"\/hub?page_id=3438#ref-14\"><sup>[14]<\/sup><\/a><a href=\"\/hub?page_id=3438#ref-2\"><sup>[2]<\/sup><\/a>  <\/p>\n\n<p>Claude Opus 4.5 (noviembre de 2025) \u2014 Alucinaci\u00f3n en AA-Omniscience: 58 %, precisi\u00f3n: 45,7 %. HalluHard: 30 % con b\u00fasqueda web (la m\u00e1s baja de todos los modelos probados), 60 % sin ella. FACTS: 51,3.    <a href=\"\/hub?page_id=3438#ref-5\"><sup>[5]<\/sup><\/a><\/p>\n\n<p>Claude Sonnet 4.6 (febrero de 2026) \u2014 Alucinaci\u00f3n en AA-Omniscience: ~38 %, por debajo del 48 % de Sonnet 4.5. Los usuarios prefirieron Sonnet 4.6 sobre Opus 4.5 el 59 % de las veces, citando menos alucinaciones. Nuevo conjunto de datos de Vectara: 10,6 %. <a href=\"\/hub?page_id=3438#ref-13\"><sup>[13]<\/sup><\/a><a href=\"\/hub?page_id=3438#ref-50\"><sup>[50]<\/sup><\/a>  <\/p>\n\n<p>Claude Opus 4.7 (16 de abril de 2026) \u2014 \u00cdndice AA-Omniscience: 26 (segundo m\u00e1s alto globalmente, solo por detr\u00e1s del 33 de Gemini 3.1 Pro). Tasa de alucinaci\u00f3n: 36 %, el perfil de calibraci\u00f3n m\u00e1s s\u00f3lido de cualquier modelo de frontera que intente responder preguntas a escala, y 50 puntos porcentuales mejor que GPT-5.5 en la misma comparativa. BenchLM global: 87. La recuperaci\u00f3n de contexto largo cay\u00f3 al 32,2 % (frente al 78,3 % de Opus 4.6); Anthropic lo atribuye expl\u00edcitamente a que el modelo ahora informa de errores cuando falta informaci\u00f3n en lugar de fabricar una respuesta. La estrategia de rechazo hecha medible. <a href=\"\/hub?page_id=3438#ref-58\"><sup>[58]<\/sup><\/a><a href=\"\/hub?page_id=3438#ref-63\"><sup>[63]<\/sup><\/a>    <\/p>\n\n<p>El patr\u00f3n en Claude: los modelos de Anthropic est\u00e1n calibrados para negarse a responder en lugar de adivinar. Esto les otorga las tasas de alucinaci\u00f3n m\u00e1s bajas en comparativas de conocimiento (AA-Omniscience), pero una precisi\u00f3n bruta menor en comparaci\u00f3n con Gemini. Para aplicaciones donde una respuesta incorrecta es peor que ninguna respuesta \u2014investigaci\u00f3n legal, consulta m\u00e9dica, trabajo de cumplimiento\u2014, el enfoque de Claude es estructuralmente m\u00e1s seguro.  <\/p>\n\n<h3 class=\"wp-block-heading\">Familia Gemini (Google)<\/h3>\n\n<p>Gemini 3.1 Pro Preview (febrero de 2026) \u2014 \u00cdndice AA-Omniscience: 33 (el m\u00e1s alto de cualquier modelo). Precisi\u00f3n: 55,3 %. Tasa de alucinaci\u00f3n: 50 %, por debajo del 88 % de Gemini 3 Pro. Esta fue la mayor mejora individual en alucinaciones mediante una actualizaci\u00f3n en 2025-2026. Nuevo conjunto de datos de Vectara: 10,4 %.      <a href=\"\/hub?page_id=3438#ref-15\"><sup>[15]<\/sup><\/a><\/p>\n\n<p>Gemini 3 Pro \u2014 FACTS global: 68,8 (el m\u00e1s alto de cualquier modelo). FACTS B\u00fasqueda: 83,8. FACTS Param\u00e9trica: 76,4. Precisi\u00f3n en AA-Omniscience: 55,9 % (la m\u00e1s alta) con un 88 % de alucinaci\u00f3n. La paradoja de Gemini: el m\u00e1s conocedor, el menos autoconsciente.      <a href=\"\/hub?page_id=3438#ref-3\"><sup>[3]<\/sup><\/a><\/p>\n\n<p>Gemini 3 Flash (diciembre de 2025) \u2014 Precisi\u00f3n en AA-Omniscience: 54,0 % (la m\u00e1s alta de cualquier modelo en su lanzamiento). Tasa de alucinaci\u00f3n: 91 %. Velocidad: 218 tokens\/s. La versi\u00f3n m\u00e1s extrema de la paradoja de Gemini: brillante y poco fiable a partes iguales. Adecuado solo para tareas con verificaci\u00f3n externa.      <a href=\"\/hub?page_id=3438#ref-16\"><sup>[16]<\/sup><\/a><\/p>\n\n<p><em>Los modelos de Google son los que m\u00e1s saben, pero los que menos lo admiten.<\/em><\/p>\n\n<p>El patr\u00f3n en Gemini es claro: los modelos Gemini intentan responder a todas las preguntas, lo que les da las mejores puntuaciones de precisi\u00f3n, pero tasas de alucinaci\u00f3n catastr\u00f3ficas cuando alcanzan los l\u00edmites de su conocimiento. La actualizaci\u00f3n 3.1 Pro demostr\u00f3 que esto se puede abordar mediante ajuste de calibraci\u00f3n: la alucinaci\u00f3n cay\u00f3 38 puntos porcentuales con solo un 1% de p\u00e9rdida de precisi\u00f3n. <\/p>\n\n<h3 class=\"wp-block-heading\">Familia Grok (xAI)<\/h3>\n\n<p>Grok 4 \u2014 conjunto de datos antiguo de Vectara: 4,8%. AA-Omniscience: 41,4% de precisi\u00f3n, 64% de alucinaci\u00f3n, \u00edndice positivo. FACTS: 53,6 (B\u00fasqueda: 75,3; Multimodal: 25,7). L\u00edder por dominio en Salud y Ciencia en AA-Omniscience.     <a href=\"\/hub?page_id=3438#ref-2\"><sup>[2]<\/sup><\/a><\/p>\n\n<p>Grok 4.1 Fast \u2014 xAI afirma una reducci\u00f3n del 65% de alucinaciones (del 12,09% al 4,22% en benchmarks internos). AA-Omniscience cuenta otra historia: 72% de tasa de alucinaci\u00f3n, peor que el 64% de Grok 4. Tambi\u00e9n aument\u00f3 la complacencia (benchmark MASK: de 0,07 a 0,19-0,23).    <a href=\"\/hub?page_id=3438#ref-17\"><sup>[17]<\/sup><\/a><\/p>\n\n<p>Grok-3 \u2014 Columbia Journalism Review: 94% de tasa de alucinaci\u00f3n en citas. Con diferencia, la peor puntuaci\u00f3n en este benchmark.   <a href=\"\/hub?page_id=3438#ref-6\"><sup>[6]<\/sup><\/a><\/p>\n\n<p>El patr\u00f3n en Grok: los benchmarks internos y los independientes discrepan de forma marcada. xAI informa de mejoras; AA-Omniscience muestra regresi\u00f3n. La tasa de alucinaci\u00f3n del 94% en citas de CJR no procede de un modelo antiguo: Grok-3 se prob\u00f3 en marzo de 2025. Existe valor espec\u00edfico por dominio en Salud y Ciencia, pero la inconsistencia entre benchmarks hace que Grok sea arriesgado como \u00fanico modelo para cualquier aplicaci\u00f3n de alto riesgo.   <\/p>\n\n<h3 class=\"wp-block-heading\">Perplexity Sonar (Perplexity AI)<\/h3>\n\n<p>Sonar Reasoning Pro \u2014 puntuaci\u00f3n en Search Arena: 1136, estad\u00edsticamente empatado con Gemini 2.5 Pro en el #1. F-score de SimpleQA: 0,858, el m\u00e1s alto de cualquier modelo en el momento de la prueba. Precisi\u00f3n de citas CJR: 37% de alucinaci\u00f3n (el mejor probado). Precisi\u00f3n de respuesta: &gt;90% para consultas factuales (94% en general, 95% acad\u00e9micas, 94% t\u00e9cnicas). <a href=\"\/hub?page_id=3438#ref-18\"><sup>[18]<\/sup><\/a><a href=\"\/hub?page_id=3438#ref-19\"><sup>[19]<\/sup><\/a>   <\/p>\n\n<p>Sonar Pro \u2014 basado en Llama 3.3 70B, ajustado para factualidad en b\u00fasqueda. F-score de SimpleQA: 0,858. Supera a GPT-4o y Claude 3.5 Sonnet en benchmarks de factualidad.    <a href=\"\/hub?page_id=3438#ref-19\"><sup>[19]<\/sup><\/a><\/p>\n\n<p>El riesgo de Perplexity: Perplexity introduce un modo de fallo que ning\u00fan otro modelo comparte. Cita URL reales con afirmaciones inventadas. Las fuentes parecen leg\u00edtimas \u2014 sitios web reales, nombres de publicaciones reales\u2014, pero la informaci\u00f3n atribuida a esas fuentes puede estar inventada. Esto hace que las alucinaciones de Perplexity sean m\u00e1s dif\u00edciles de detectar que las de modelos que no presentan citas externas. Una tasa de alucinaci\u00f3n en citas del 37% significa que m\u00e1s de una de cada tres atribuciones de fuente puede contener contenido fabricado.      <a href=\"\/hub?page_id=3438#ref-51\"><sup>[51]<\/sup><\/a><\/p>\n\n<h3 class=\"wp-block-heading\">DeepSeek (DeepSeek AI)<\/h3>\n\n<p>DeepSeek-V3 \u2014 conjunto de datos antiguo de Vectara: 3,9%. Un rendimiento s\u00f3lido en resumen con base (grounded summarization). <\/p>\n\n<p>DeepSeek-R1 \u2014 conjunto de datos antiguo de Vectara: 14,3%, casi 4 veces m\u00e1s que V3. Alucinaci\u00f3n en AA-Omniscience: 83%. El an\u00e1lisis de Vectara encontr\u00f3 que R1 produce un 71,7% de \u201calucinaciones benignas\u201d (a\u00f1adidos plausibles) frente al 36,8% de V3. <a href=\"\/hub?page_id=3438#ref-49\"><sup>[49]<\/sup><\/a><a href=\"\/hub?page_id=3438#ref-48\"><sup>[48]<\/sup><\/a>  <\/p>\n\n<p>El patr\u00f3n: el modelo de razonamiento de DeepSeek (R1) alucina de forma dr\u00e1sticamente mayor que su modelo base (V3). Este es el \u201cimpuesto del razonamiento\u201d en su forma m\u00e1s extrema. La brecha (3,9% frente a 14,3%) lo convierte en uno de los ejemplos m\u00e1s claros de que las capacidades de razonamiento y la fiabilidad factual no avanzan en la misma direcci\u00f3n.  <\/p>\n\n<h3 class=\"wp-block-heading\">Modelos de c\u00f3digo abierto<\/h3>\n\n<p>Llama 4 Maverick (Meta) \u2014 conjunto de datos antiguo de Vectara: 4,6% (competitivo). Alucinaci\u00f3n en AA-Omniscience: 87,6% (catastr\u00f3fico). La brecha entre el resumen con base y el conocimiento abierto es mayor en los modelos de c\u00f3digo abierto que en cualquier familia propietaria.    <a href=\"\/hub?page_id=3438#ref-2\"><sup>[2]<\/sup><\/a><\/p>\n\n<p>Los modelos de c\u00f3digo abierto superaron el 80% de tasa de alucinaci\u00f3n en escenarios m\u00e9dicos en las pruebas de MedRxiv. Para aplicaciones cr\u00edticas, la brecha de alucinaci\u00f3n entre los modelos de frontera de c\u00f3digo abierto y los propietarios sigue siendo grande.   <a href=\"\/hub?page_id=3438#ref-40\"><sup>[40]<\/sup><\/a><\/p>\n\n<h2 class=\"wp-block-heading\">Comparaciones directas entre modelos<\/h2>\n\n<p>Los perfiles de modelos de la Secci\u00f3n 6 muestran el rendimiento individual. Esta secci\u00f3n responde a las preguntas que la gente realmente busca: \u201c\u00bfEs Claude o GPT m\u00e1s preciso?\u201d \u201c\u00bfDeber\u00eda usar Gemini o Claude?\u201d La respuesta siempre es \u201cdepende de lo que est\u00e9 haciendo\u201d, pero los datos concretan los compromisos.  <\/p>\n\n<figure class=\"wp-block-image size-large\"><img decoding=\"async\" width=\"1024\" height=\"640\" src=\"https:\/\/suprmind.ai\/hub\/wp-content\/uploads\/2026\/05\/image-1-1024x640.png\" alt=\"\" class=\"wp-image-4095\" srcset=\"https:\/\/suprmind.ai\/hub\/wp-content\/uploads\/2026\/05\/image-1-1024x640.png 1024w, https:\/\/suprmind.ai\/hub\/wp-content\/uploads\/2026\/05\/image-1-300x188.png 300w, https:\/\/suprmind.ai\/hub\/wp-content\/uploads\/2026\/05\/image-1-768x480.png 768w, https:\/\/suprmind.ai\/hub\/wp-content\/uploads\/2026\/05\/image-1-1536x960.png 1536w, https:\/\/suprmind.ai\/hub\/wp-content\/uploads\/2026\/05\/image-1.png 1600w\" sizes=\"(max-width: 1024px) 100vw, 1024px\" \/><\/figure>\n\n<p><em>Mapa de calor de comparaci\u00f3n directa: qu\u00e9 proveedor gana en qu\u00e9 benchmark. Verde = ganador, amarillo = empate, rojo = perdedor. <\/em><\/p>\n\n<h3 class=\"wp-block-heading\">Claude vs GPT<\/h3>\n\n<p>La comparaci\u00f3n m\u00e1s buscada en IA, y la m\u00e1s dependiente del contexto.<\/p>\n\n<figure class=\"wp-block-table\"><table class=\"has-fixed-layout\"><tbody><tr><td>Benchmark<\/td><td>Claude<\/td><td>GPT<\/td><td>Ganador<\/td><\/tr><tr><td>Vectara (conjunto de datos antiguo)<\/td><td>4,4% (Sonnet 3.7)<\/td><td>1,4% (GPT-5)<\/td><td>GPT<\/td><\/tr><tr><td>Vectara (nuevo conjunto de datos, feb 2026)<\/td><td>10,6% (Sonnet 4.6)<\/td><td>10,8% (GPT-5.2-high)<\/td><td>Empate<\/td><\/tr><tr><td>Alucinaci\u00f3n AA-Omniscience<\/td><td>0% (Claude 4.1 Opus)<\/td><td>~78% (GPT-5.2)<\/td><td>Claude<\/td><\/tr><tr><td>Precisi\u00f3n AA-Omniscience<\/td><td>46,4% (Opus 4.6)<\/td><td>43,8% (GPT-5.2)<\/td><td>Claude (ligeramente)<\/td><\/tr><tr><td>FACTS general<\/td><td>51,3 (Opus 4.5)<\/td><td>61,8 (GPT-5)<\/td><td>GPT<\/td><\/tr><tr><td>HealthBench<\/td><td>\u2013<\/td><td>1,6% (GPT-5 thinking)<\/td><td>GPT<\/td><\/tr><tr><td>HalluHard (con web)<\/td><td>30% (Opus 4.5)<\/td><td>38,2% (GPT-5.2)<\/td><td>Claude<\/td><\/tr><\/tbody><\/table><\/figure>\n\n<p><em>Fuentes: HealthBench [52], HalluHard [5], FACTS [3], Vectara [1], AA-Omniscience [2]<\/em><\/p>\n\n<p>El patr\u00f3n no es \u201cuno es mejor\u201d. Son dos filosof\u00edas distintas medidas en escalas diferentes. <\/p>\n\n<p>Los modelos GPT son m\u00e1s fuertes cuando la tarea tiene material fuente con el que trabajar. Resumen, an\u00e1lisis de documentos, canalizaciones RAG, preguntas y respuestas con base en b\u00fasqueda \u2014 GPT se ci\u00f1e m\u00e1s al texto proporcionado y punt\u00faa bien en benchmarks de fidelidad. La ventaja en FACTS (61,8 frente a 51,3) lo refleja: GPT-5 gestiona tareas de grounding y b\u00fasqueda con mayor precisi\u00f3n.  <\/p>\n\n<p>Los modelos Claude son m\u00e1s fuertes cuando la tarea requiere que el modelo conozca sus propios l\u00edmites. En AA-Omniscience, Claude 4.1 Opus logr\u00f3 una tasa de alucinaci\u00f3n del 0% al negarse a responder preguntas que no pod\u00eda verificar. La tasa de alucinaci\u00f3n de ~38% de Claude Sonnet 4.6 es menos de la mitad del ~78% de GPT-5.2 en el mismo benchmark. En la prueba de conversaci\u00f3n realista de HalluHard, Claude Opus 4.5 con b\u00fasqueda web alcanz\u00f3 el 30% \u2014 la m\u00e1s baja de cualquier modelo probado.   <\/p>\n\n<p>La divisi\u00f3n pr\u00e1ctica: use GPT para flujos de trabajo basados en documentos cuando el material fuente est\u00e9 disponible y completo. Use Claude para flujos de trabajo de asesoramiento cuando el modelo deba apoyarse en su propio conocimiento y se\u00f1alar la incertidumbre. Esto no es preferencia de marca: es lo que respaldan los datos de los benchmarks.  <\/p>\n\n<p>Una variable m\u00e1s que a menudo se pasa por alto: el acceso a b\u00fasqueda web cambia de forma dr\u00e1stica el rendimiento de GPT. GPT-5 baja del 47% de alucinaci\u00f3n al 9,6% con navegaci\u00f3n. Sin acceso web, la comparaci\u00f3n Claude-GPT se inclina a favor de Claude en tareas factuales abiertas. Con acceso web, GPT se adelanta.   <\/p>\n\n<h3 class=\"wp-block-heading\">Claude vs Gemini<\/h3>\n\n<figure class=\"wp-block-table\"><table class=\"has-fixed-layout\"><tbody><tr><td>Benchmark<\/td><td>Claude<\/td><td>Gemini<\/td><td>Ganador<\/td><\/tr><tr><td>\u00cdndice AA-Omniscience<\/td><td>14 (Opus 4.6)<\/td><td>33 (3.1 Pro)<\/td><td>Gemini<\/td><\/tr><tr><td>Precisi\u00f3n AA-Omniscience<\/td><td>46,4% (Opus 4.6)<\/td><td>55,3% (3.1 Pro)<\/td><td>Gemini<\/td><\/tr><tr><td>Alucinaci\u00f3n AA-Omniscience<\/td><td>0% (Claude 4.1 Opus)<\/td><td>50% (3.1 Pro)<\/td><td>Claude<\/td><\/tr><tr><td>FACTS general<\/td><td>51,3 (Opus 4.5)<\/td><td>68,8 (3 Pro)<\/td><td>Gemini<\/td><\/tr><tr><td>Vectara (conjunto de datos antiguo)<\/td><td>4,4% (Sonnet 3.7)<\/td><td>0,7% (2.0-Flash)<\/td><td>Gemini<\/td><\/tr><tr><td>Vectara (nuevo conjunto de datos, feb 2026)<\/td><td>10,6% (Sonnet 4.6)<\/td><td>10,4% (3.1 Pro)<\/td><td>Empate<\/td><\/tr><tr><td>HalluHard (con web)<\/td><td>30% (Opus 4.5)<\/td><td>\u2013<\/td><td>Claude<\/td><\/tr><\/tbody><\/table><\/figure>\n\n<p><em>Fuentes: HalluHard [5], FACTS [3], Vectara [1], AA-Omniscience [2]<\/em><\/p>\n\n<p>Gemini sabe m\u00e1s. Claude es m\u00e1s honesto sobre lo que no sabe. <\/p>\n\n<p>Gemini 3.1 Pro lidera en casi todas las m\u00e9tricas de precisi\u00f3n. Obtiene la puntuaci\u00f3n m\u00e1s alta en FACTS (68,8), la mayor precisi\u00f3n en AA-Omniscience (55,3%) y mantiene el mejor Omniscience Index (33). Cuando Gemini tiene la respuesta, la ofrece con m\u00e1s frecuencia que Claude.  <\/p>\n\n<p>El problema es cuando no la tiene. Incluso despu\u00e9s de la actualizaci\u00f3n de calibraci\u00f3n 3.1 que redujo la alucinaci\u00f3n del 88% al 50%, Gemini sigue invent\u00e1ndose una respuesta la mitad de las veces cuando deber\u00eda decir \u201cno lo s\u00e9\u201d. Claude 4.1 Opus se la inventa el 0% de las veces en ese escenario.  <\/p>\n\n<p>La divisi\u00f3n pr\u00e1ctica: Gemini para tareas de amplitud de conocimiento donde exista verificaci\u00f3n externa \u2014 investigaci\u00f3n, an\u00e1lisis comparativo, recopilaci\u00f3n de informaci\u00f3n. Claude para tareas de profundidad de confianza donde una respuesta inventada tenga consecuencias \u2014 revisiones de cumplimiento, investigaci\u00f3n jur\u00eddica, consulta m\u00e9dica. Si puede comprobar el trabajo de Gemini, use Gemini. Si no puede, use Claude.   <\/p>\n\n<h3 class=\"wp-block-heading\">GPT vs Gemini<\/h3>\n\n<figure class=\"wp-block-table\"><table class=\"has-fixed-layout\"><tbody><tr><td>Benchmark<\/td><td>GPT<\/td><td>Gemini<\/td><td>Ganador<\/td><\/tr><tr><td>Vectara (conjunto de datos antiguo)<\/td><td>0,8% (o3-mini)<\/td><td>0,7% (2.0-Flash)<\/td><td>Empate<\/td><\/tr><tr><td>Vectara (nuevo conjunto de datos)<\/td><td>5,6% (GPT-4.1)<\/td><td>3,3% (2.5-Flash-Lite)<\/td><td>Gemini<\/td><\/tr><tr><td>FACTS general<\/td><td>61,8 (GPT-5)<\/td><td>68,8 (3 Pro)<\/td><td>Gemini<\/td><\/tr><tr><td>FACTS B\u00fasqueda<\/td><td>77,7 (GPT-5)<\/td><td>83,8 (3 Pro)<\/td><td>Gemini<\/td><\/tr><tr><td>Precisi\u00f3n AA-Omniscience<\/td><td>43,8% (GPT-5.2)<\/td><td>55,3% (3.1 Pro)<\/td><td>Gemini<\/td><\/tr><tr><td>HealthBench<\/td><td>1,6% (GPT-5 thinking)<\/td><td>\u2013<\/td><td>GPT<\/td><\/tr><\/tbody><\/table><\/figure>\n\n<p><em>Fuentes: FACTS [3], Vectara [1], AA-Omniscience [2]<\/em><\/p>\n\n<p>Gemini lidera en la mayor\u00eda de los benchmarks. La ventaja de GPT es espec\u00edfica de la tarea: aplicaciones m\u00e9dicas (1,6% en HealthBench), precisi\u00f3n a nivel de afirmaci\u00f3n en producci\u00f3n con modo thinking (4,5% de afirmaciones incorrectas) y el enorme volumen de datos de evaluaci\u00f3n interna que publica OpenAI. <\/p>\n\n<p>La divisi\u00f3n pr\u00e1ctica: ambos son s\u00f3lidos con acceso a herramientas. Sin \u00e9l, el mayor conocimiento param\u00e9trico de Gemini (FACTS Parametric: 76,4) le da ventaja en tareas de conocimiento almacenado. El modo thinking de GPT le da una ventaja espec\u00edfica en consultas m\u00e9dicas y relacionadas con la salud, donde el razonamiento reduce de forma dr\u00e1stica la alucinaci\u00f3n.  <\/p>\n\n<h3 class=\"wp-block-heading\">Grok vs el resto<\/h3>\n\n<figure class=\"wp-block-table\"><table class=\"has-fixed-layout\"><tbody><tr><td>Benchmark<\/td><td>Grok<\/td><td>Media del sector<\/td><\/tr><tr><td>Factualidad interna de xAI<\/td><td>4,22% (Grok 4.1)<\/td><td>\u2013<\/td><\/tr><tr><td>AA-Omniscience<\/td><td>64% de alucinaci\u00f3n (Grok 4)<\/td><td>~60% de media<\/td><\/tr><tr><td>AA-Omniscience (variante Fast)<\/td><td>72% de alucinaci\u00f3n (Grok 4.1 Fast)<\/td><td>Peor que el base<\/td><\/tr><tr><td>FACTS general<\/td><td>53,6 (Grok 4)<\/td><td>~52 de media<\/td><\/tr><tr><td>FACTS B\u00fasqueda<\/td><td>75,3 (Grok 4)<\/td><td>Competitivo<\/td><\/tr><tr><td>FACTS Multimodal<\/td><td>25,7 (Grok 4)<\/td><td>Muy por debajo de la media<\/td><\/tr><tr><td>Citas CJR<\/td><td>94% de alucinaci\u00f3n (Grok-3)<\/td><td>El peor probado<\/td><\/tr><tr><td>Vectara (nuevo conjunto de datos)<\/td><td>20,2% (Grok-4-fast)<\/td><td>El peor probado<\/td><\/tr><\/tbody><\/table><\/figure>\n\n<p><em>Fuentes: Grok 4.1 [17], CJR [6], FACTS [3], AA-Omniscience [2]<\/em><\/p>\n\n<p>xAI informa de una reducci\u00f3n del 65% de alucinaciones de Grok 4 a 4.1 en pruebas internas. AA-Omniscience muestra lo contrario: Grok 4.1 Fast alucina al 72% frente al 64% de Grok 4. El estudio de citas de CJR encontr\u00f3 que Grok-3 alucin\u00f3 el 94% de las veces en la atribuci\u00f3n de fuentes de noticias.  <\/p>\n\n<p>Grok s\u00ed tiene fortalezas reales por dominio: lidera las categor\u00edas de Salud y Ciencia en AA-Omniscience. Pero la brecha entre las afirmaciones de xAI y las mediciones independientes es mayor que la de cualquier otro proveedor. <\/p>\n\n<p>Conclusi\u00f3n pr\u00e1ctica: no use Grok como \u00fanico modelo para decisiones de alto riesgo. Su valor est\u00e1 en ser una voz dentro de una evaluaci\u00f3n multimodelo, donde sus fortalezas por dominio (salud, ciencia) puedan aportar mientras otras IA detectan sus inconsistencias. <\/p>\n\n<h3 class=\"wp-block-heading\">Perplexity vs ChatGPT vs Claude<\/h3>\n\n<figure class=\"wp-block-table\"><table class=\"has-fixed-layout\"><tbody><tr><td>Benchmark<\/td><td>Perplexity<\/td><td>ChatGPT<\/td><td>Claude<\/td><\/tr><tr><td>Precisi\u00f3n de citas CJR<\/td><td>37% de alucinaci\u00f3n<\/td><td>67% de alucinaci\u00f3n<\/td><td>\u2013<\/td><\/tr><tr><td>F-score de SimpleQA<\/td><td><strong>0,858 (mejor)<\/strong><\/td><td>0,38 (GPT-4o)<\/td><td>0,35 (Sonnet 3.5)<\/td><\/tr><tr><td>Ranking en Search Arena<\/td><td>#1 (empatado)<\/td><td>\u2013<\/td><td>\u2013<\/td><\/tr><tr><td>Precisi\u00f3n de respuesta<\/td><td>&gt;90% factual<\/td><td>\u2013<\/td><td>\u2013<\/td><\/tr><\/tbody><\/table><\/figure>\n\n<p><em>Fuentes: Perplexity Sonar [18][19], CJR [6]<\/em><\/p>\n\n<p>Perplexity gana en consultas factuales de b\u00fasqueda. Su arquitectura nativa de RAG, construida en torno a la recuperaci\u00f3n en lugar del conocimiento param\u00e9trico, le da una ventaja estructural para preguntas con respuestas verificables. <\/p>\n\n<p>La trampa: Perplexity cita URL reales con afirmaciones inventadas. Las fuentes parecen leg\u00edtimas \u2014 sitios web reales, nombres de publicaciones reales\u2014, pero la informaci\u00f3n atribuida a esas fuentes puede estar inventada. Con una tasa de alucinaci\u00f3n en citas del 37%, m\u00e1s de una de cada tres atribuciones de fuente podr\u00eda contener contenido fabricado. Esto hace que las alucinaciones de Perplexity sean m\u00e1s dif\u00edciles de detectar que las de modelos que no presentan citas externas.   <\/p>\n\n<p>La divisi\u00f3n pr\u00e1ctica: Perplexity para investigaci\u00f3n inicial y verificaci\u00f3n de hechos, cuando vaya a comprobar las afirmaciones clave. No para escenarios de respuesta final en los que alguien lea la fuente citada y asuma que la atribuci\u00f3n es correcta. <\/p>\n\n<h2 class=\"wp-block-heading\">Tasas de alucinaci\u00f3n espec\u00edficas por dominio<\/h2>\n\n<p>Las tasas de alucinaci\u00f3n var\u00edan de forma dr\u00e1stica seg\u00fan la materia. Un modelo que es preciso en conocimiento general puede estar peligrosamente equivocado en cuestiones legales. Esta tabla muestra la dispersi\u00f3n en ocho dominios de conocimiento:  <\/p>\n\n<h3 class=\"wp-block-heading\">Tasas por dominio<\/h3>\n\n<figure class=\"wp-block-table\"><table class=\"has-fixed-layout\"><tbody><tr><td>Dominio de conocimiento<\/td><td>Mejores modelos<\/td><td>Media de todos los modelos<\/td><\/tr><tr><td>Conocimiento general<\/td><td>0.8%<\/td><td>9.2%<\/td><\/tr><tr><td>Hechos hist\u00f3ricos<\/td><td>1.7%<\/td><td>11.3%<\/td><\/tr><tr><td>Datos financieros<\/td><td>2.1%<\/td><td>13.8%<\/td><\/tr><tr><td>Documentaci\u00f3n t\u00e9cnica<\/td><td>2.9%<\/td><td>12.4%<\/td><\/tr><tr><td>Investigaci\u00f3n cient\u00edfica<\/td><td>3.7%<\/td><td>16.9%<\/td><\/tr><tr><td>Medicina \/ atenci\u00f3n sanitaria<\/td><td>4.3%<\/td><td>15.6%<\/td><\/tr><tr><td>C\u00f3digo y programaci\u00f3n<\/td><td>5.2%<\/td><td>17.8%<\/td><\/tr><tr><td>Informaci\u00f3n legal<\/td><td>6.4%<\/td><td>18.7%<\/td><\/tr><\/tbody><\/table><\/figure>\n\n<p><em>Fuente: AllAboutAI, 2025 <\/em><a href=\"\/hub?page_id=3438#ref-31\"><em><sup>[31]<\/sup><\/em><\/a><\/p>\n\n<figure class=\"wp-block-image size-large\"><img decoding=\"async\" width=\"1024\" height=\"563\" src=\"https:\/\/suprmind.ai\/hub\/wp-content\/uploads\/2026\/05\/image-3-1024x563.png\" alt=\"\" class=\"wp-image-4098\" srcset=\"https:\/\/suprmind.ai\/hub\/wp-content\/uploads\/2026\/05\/image-3-1024x563.png 1024w, https:\/\/suprmind.ai\/hub\/wp-content\/uploads\/2026\/05\/image-3-300x165.png 300w, https:\/\/suprmind.ai\/hub\/wp-content\/uploads\/2026\/05\/image-3-768x422.png 768w, https:\/\/suprmind.ai\/hub\/wp-content\/uploads\/2026\/05\/image-3-1536x845.png 1536w, https:\/\/suprmind.ai\/hub\/wp-content\/uploads\/2026\/05\/image-3.png 1920w\" sizes=\"(max-width: 1024px) 100vw, 1024px\" \/><\/figure>\n\n<p><em>Tasas de alucinaci\u00f3n espec\u00edficas por dominio: mejores modelos vs. media. La brecha de 3x en Legal y Programaci\u00f3n muestra cu\u00e1nto importa la selecci\u00f3n del modelo. Fuente: AllAboutAI [31]  <\/em><\/p>\n\n<p>La brecha entre los mejores modelos y la media le indica cu\u00e1nto importa la selecci\u00f3n del modelo. En informaci\u00f3n legal, los mejores modelos alucinan el 6,4% de las veces. El modelo medio alucina el 18,7%. Elegir el modelo adecuado para su dominio no es una preferencia: es una diferencia de 3x en fiabilidad.   <\/p>\n\n<h3 class=\"wp-block-heading\">Legal: la crisis en los tribunales<\/h3>\n\n<p>Las alucinaciones de IA en escritos judiciales se est\u00e1n acelerando pese a la creciente concienciaci\u00f3n.<\/p>\n\n<p>Los casos judiciales que implican alucinaciones de IA pasaron de 10 resoluciones documentadas en 2023 a 37 en 2024 y a 73 solo en los primeros cinco meses de 2025, con m\u00e1s de 50 casos solo en julio de 2025. A fecha de abril de 2026, esa trayectoria se ha acelerado con fuerza: la base de datos del investigador jur\u00eddico Damien Charlotin documenta ya m\u00e1s de 1.200 casos a nivel mundial, con aproximadamente 800 solo en tribunales de EE. UU. El 31 de marzo de 2026, diez tribunales distintos dictaron resoluciones sobre incidentes de alucinaci\u00f3n de IA en un solo d\u00eda. <a href=\"\/hub?page_id=3438#ref-38\"><sup>[38]<\/sup><\/a><a href=\"\/hub?page_id=3438#ref-37\"><sup>[37]<\/sup><\/a><a href=\"\/hub?page_id=3438#ref-59\"><sup>[59]<\/sup><\/a>  <\/p>\n\n<figure class=\"wp-block-image size-large\"><img decoding=\"async\" width=\"1024\" height=\"640\" src=\"https:\/\/suprmind.ai\/hub\/wp-content\/uploads\/2026\/05\/image-1-1024x640.png\" alt=\"\" class=\"wp-image-4096\" srcset=\"https:\/\/suprmind.ai\/hub\/wp-content\/uploads\/2026\/05\/image-1-1024x640.png 1024w, https:\/\/suprmind.ai\/hub\/wp-content\/uploads\/2026\/05\/image-1-300x188.png 300w, https:\/\/suprmind.ai\/hub\/wp-content\/uploads\/2026\/05\/image-1-768x480.png 768w, https:\/\/suprmind.ai\/hub\/wp-content\/uploads\/2026\/05\/image-1-1536x960.png 1536w, https:\/\/suprmind.ai\/hub\/wp-content\/uploads\/2026\/05\/image-1.png 1600w\" sizes=\"(max-width: 1024px) 100vw, 1024px\" \/><\/figure>\n\n<p><em>Incidentes legales de alucinaci\u00f3n de IA: la aceleraci\u00f3n de 10 \u2192 37 \u2192 73 \u2192 50+ casos. Fuentes: Business Insider [38], Charlotin [37] <\/em><\/p>\n\n<p>El problema ya no es de aficionados. En 2023, la mayor\u00eda de los casos de alucinaci\u00f3n implicaban a litigantes sin representaci\u00f3n. Para mayo de 2025, 13 de 23 casos detectados proced\u00edan de abogados en ejercicio. Morgan &amp; Morgan, uno de los mayores bufetes de lesiones personales de Estados Unidos, envi\u00f3 una advertencia urgente a m\u00e1s de 1.000 abogados tras amenazas de sanciones por citas generadas por IA. El ritmo de las sanciones se ha intensificado: en el T1 de 2026, las sanciones sumaron al menos 145.000 $ \u2014 el mayor total trimestral en la historia legal. La mayor sanci\u00f3n individual registrada, 109.700 $ contra un abogado de Oreg\u00f3n, se impuso a principios de 2026. El Cuarto Circuito amonest\u00f3 p\u00fablicamente a un abogado en abril de 2026 por presentar escritos que conten\u00edan citas falsas generadas por IA. Pese a las sanciones r\u00e9cord, la tasa de incidentes sigue aumentando.         <a href=\"\/hub?page_id=3438#ref-59\"><sup>[59]<\/sup><\/a><\/p>\n\n<p>Los datos subyacentes de los benchmarks explican por qu\u00e9. Stanford RegLab y el Stanford Human-Centered AI Institute encontraron que los LLM alucinan entre el 69% y el 88% en consultas legales espec\u00edficas. En preguntas sobre el fallo principal de un tribunal, los modelos alucinan al menos el 75% de las veces. Incluso las herramientas de IA legal dise\u00f1adas espec\u00edficamente fallan: Lexis+ AI produjo informaci\u00f3n incorrecta en m\u00e1s del 17% de las ocasiones, y Westlaw AI-Assisted Research alucin\u00f3 en m\u00e1s del 34%.     <a href=\"\/hub?page_id=3438#ref-36\"><sup>[36]<\/sup><\/a><\/p>\n\n<h3 class=\"wp-block-heading\">Sanidad: donde las alucinaciones pueden matar<\/h3>\n\n<p>ECRI, la organizaci\u00f3n sin \u00e1nimo de lucro global de seguridad sanitaria, incluy\u00f3 los riesgos de la IA como el peligro tecnol\u00f3gico sanitario #1 para 2025. Los n\u00fameros respaldan la preocupaci\u00f3n.   <a href=\"\/hub?page_id=3438#ref-39\"><sup>[39]<\/sup><\/a><\/p>\n\n<p>La FDA ha autorizado 1.357 dispositivos m\u00e9dicos mejorados con IA \u2014 el doble que a finales de 2022. De ellos, 60 dispositivos estuvieron implicados en 182 retiradas, y el 43% de las retiradas se produjo dentro del primer a\u00f1o desde la aprobaci\u00f3n.   <a href=\"\/hub?page_id=3438#ref-42\"><sup>[42]<\/sup><\/a><\/p>\n\n<p>Un estudio de MedRxiv de 2025 midi\u00f3 las tasas de alucinaci\u00f3n en res\u00famenes de casos cl\u00ednicos: 64,1% sin prompts de mitigaci\u00f3n, bajando a 43,1% con mitigaci\u00f3n (una mejora del 33%). GPT-4o fue el que mejor rindi\u00f3 en este estudio, bajando del 53% al 23% con mitigaci\u00f3n estructurada. Los modelos de c\u00f3digo abierto superaron el 80% de alucinaci\u00f3n en escenarios m\u00e9dicos.    <a href=\"\/hub?page_id=3438#ref-40\"><sup>[40]<\/sup><\/a><\/p>\n\n<p>El punto positivo: GPT-5 con modo thinking logr\u00f3 un 1,6% de alucinaci\u00f3n en HealthBench, frente al 15,8% de GPT-4o. En aplicaciones m\u00e9dicas espec\u00edficamente, los modelos de frontera con capacidad de razonamiento y el modo thinking activo muestran una mejora dr\u00e1stica respecto a generaciones anteriores. <a href=\"\/hub?page_id=3438#ref-41\"><sup>[41]<\/sup><\/a><a href=\"\/hub?page_id=3438#ref-52\"><sup>[52]<\/sup><\/a> <\/p>\n\n<p>HealthBench Professional (abril de 2026): OpenAI lanz\u00f3 un nuevo benchmark de nivel cl\u00ednico el 22 de abril de 2026, junto con el lanzamiento de \u201cChatGPT for Clinicians\u201d. A diferencia del HealthBench original (conversaciones sint\u00e9ticas), HealthBench Professional utiliza escenarios cl\u00ednicos reales en tareas de consulta, documentaci\u00f3n e investigaci\u00f3n. En HealthBench Hard, el segmento m\u00e1s exigente del nuevo benchmark, las puntuaciones divergen con fuerza: Muse Spark lidera con 42,8; GPT-5.4 (que impulsa ChatGPT for Clinicians) obtiene 40,1; Gemini 3.1 Pro obtiene 20,6; Grok 4.2 obtiene 20,3; y Claude Sonnet 4.6 obtiene 14,8. Los dise\u00f1adores del benchmark informan de que las respuestas impulsadas por GPT-5.4 superan a las respuestas redactadas por m\u00e9dicos en el segmento de consulta, aunque la metodolog\u00eda sigue bajo revisi\u00f3n independiente.     <a href=\"\/hub?page_id=3438#ref-60\"><sup>[60]<\/sup><\/a><\/p>\n\n<h3 class=\"wp-block-heading\">Finanzas: fallos silenciosos con consecuencias ruidosas<\/h3>\n\n<p>Las alucinaciones de IA en finanzas no acaparan titulares como las legales, pero los costes son mayores.<\/p>\n\n<p>El 78% de las empresas de servicios financieros ya despliegan IA para an\u00e1lisis de datos. Sin salvaguardas, las tasas de alucinaci\u00f3n en tareas financieras se sit\u00faan entre el 15% y el 25%. Las empresas informan de 2,3 errores significativos impulsados por IA por trimestre, con costes por incidente que oscilan entre 50.000 $ y 2,1 millones de $.    <a href=\"\/hub?page_id=3438#ref-44\"><sup>[44]<\/sup><\/a><\/p>\n\n<p>Un estudio de benchmarks encontr\u00f3 que ChatGPT-4o alucin\u00f3 un 20,0% en referencias a literatura financiera. Gemini Advanced alucin\u00f3 un 76,7% en la misma tarea. <\/p>\n\n<p>El 67% de las firmas de capital riesgo usan IA para el filtrado de oportunidades, pero el tiempo medio para descubrir un error generado por IA es de 3,7 semanas \u2014 a menudo demasiado tarde para revertir una decisi\u00f3n. Una alucinaci\u00f3n de un robo-advisor afect\u00f3 a 2.847 carteras de clientes, con un coste de 3,2 millones de $ en remediaci\u00f3n. La SEC impuso 12,7 millones de $ en multas por tergiversaciones relacionadas con IA durante 2024-2025.    <a href=\"\/hub?page_id=3438#ref-43\"><sup>[43]<\/sup><\/a><\/p>\n\n<h2 class=\"wp-block-heading\">Estad\u00edsticas de impacto empresarial<\/h2>\n\n<h3 class=\"wp-block-heading\">El coste de confiar en la IA sin verificaci\u00f3n<\/h3>\n\n<p>67,4 mil millones de $ \u2014 p\u00e9rdidas empresariales globales atribuidas a alucinaciones de IA en 2024.  <a href=\"\/hub?page_id=3438#ref-31\"><sup>[31]<\/sup><\/a><\/p>\n\n<p>El 47% de los directivos empresariales ha tomado decisiones importantes basadas en contenido generado por IA sin verificar.  <a href=\"\/hub?page_id=3438#ref-32\"><sup>[32]<\/sup><\/a><\/p>\n\n<p>El 82% de los fallos de IA en sistemas en producci\u00f3n proviene de alucinaciones y fallos de precisi\u00f3n.  <a href=\"\/hub?page_id=3438#ref-34\"><sup>[34]<\/sup><\/a><\/p>\n\n<p>4,3 horas por semana \u2014 tiempo que el empleado medio dedica a verificar contenido generado por IA. A escala, eso supone 14.200 $ por empleado al a\u00f1o en costes de verificaci\u00f3n. <a href=\"\/hub?page_id=3438#ref-33\"><sup>[33]<\/sup><\/a><a href=\"\/hub?page_id=3438#ref-31\"><sup>[31]<\/sup><\/a> <\/p>\n\n<p>El 39% de los chatbots de atenci\u00f3n al cliente requiri\u00f3 retrabajo debido a fallos relacionados con alucinaciones.  <a href=\"\/hub?page_id=3438#ref-34\"><sup>[34]<\/sup><\/a><\/p>\n\n<p>El 54% de las empresas experiment\u00f3 ca\u00eddas de confianza de los inversores directamente atribuibles a errores generados por IA.<\/p>\n\n<h3 class=\"wp-block-heading\">La respuesta institucional<\/h3>\n\n<p>El 91% de las pol\u00edticas de IA empresarial ya incluye protocolos espec\u00edficos para alucinaciones.  <a href=\"\/hub?page_id=3438#ref-31\"><sup>[31]<\/sup><\/a><\/p>\n\n<p>El 64% de las organizaciones sanitarias retras\u00f3 la adopci\u00f3n de IA espec\u00edficamente por preocupaciones sobre alucinaciones.  <a href=\"\/hub?page_id=3438#ref-31\"><sup>[31]<\/sup><\/a><\/p>\n\n<p>12,8 mil millones de $ invertidos en soluciones espec\u00edficas de detecci\u00f3n y mitigaci\u00f3n de alucinaciones entre 2023 y 2025.  <a href=\"\/hub?page_id=3438#ref-31\"><sup>[31]<\/sup><\/a><\/p>\n\n<p>Crecimiento del mercado del 318% en herramientas de detecci\u00f3n de alucinaciones de 2023 a 2025.  <a href=\"\/hub?page_id=3438#ref-35\"><sup>[35]<\/sup><\/a><\/p>\n\n<h3 class=\"wp-block-heading\">La crisis de credibilidad acad\u00e9mica<\/h3>\n\n<p>M\u00e1s de 53 art\u00edculos aceptados en NeurIPS 2025 \u2014 una de las conferencias m\u00e1s prestigiosas de IA\u2014 conten\u00edan citas alucinadas por IA que sobrevivieron a m\u00e1s de 3 revisores. La tasa de aceptaci\u00f3n de NeurIPS es del 24,52%, lo que significa que estos art\u00edculos con alucinaciones superaron a m\u00e1s de 15.000 env\u00edos competidores.   <a href=\"\/hub?page_id=3438#ref-45\"><sup>[45]<\/sup><\/a><\/p>\n\n<p>Cuando las citas alucinadas pasan la revisi\u00f3n por pares en el principal foro del campo, el problema de verificaci\u00f3n se extiende m\u00e1s all\u00e1 de la empresa y alcanza los cimientos de la propia investigaci\u00f3n en IA.<\/p>\n\n<h3 class=\"wp-block-heading\">Stanford AI Index 2026: los incidentes aumentaron un 55% en 2025<\/h3>\n\n<p>El Stanford Human-Centered AI Institute public\u00f3 su AI Index Report 2026 el 13 de abril de 2026 \u2014 una revisi\u00f3n anual de 423 p\u00e1ginas que cubre IA responsable, despliegue, gobernanza y benchmarks. Tres hallazgos se refieren directamente a las alucinaciones.   <a href=\"\/hub?page_id=3438#ref-58\"><sup>[58]<\/sup><\/a><\/p>\n\n<p>362 incidentes de IA documentados en 2025 \u2014 frente a 233 en 2024, un aumento interanual del 55% y el mayor recuento anual en la historia de la AI Incident Database.  <a href=\"\/hub?page_id=3438#ref-58\"><sup>[58]<\/sup><\/a><\/p>\n\n<p>Alucinaci\u00f3n inducida por complacencia: del 22% al 94% en 26 modelos de frontera. El informe introduce un nuevo benchmark de precisi\u00f3n que prueba c\u00f3mo responden los modelos a afirmaciones falsas presentadas de dos maneras: como algo que cree un tercero (los modelos lo gestionan bien) y como algo que cree el propio usuario (los modelos colapsan). La precisi\u00f3n de GPT-4o cay\u00f3 del 98,2% al 64,4%; DeepSeek R1 cay\u00f3 de m\u00e1s del 90% al 14,4%. El rango 22%-94% se aplica espec\u00edficamente a este encuadre de falsa creencia atribuida al usuario. El mejor modelo sigue produciendo salidas falsas el 22% de las veces cuando el usuario insin\u00faa una creencia falsa; el peor alucina el 94% en esas condiciones. Este es un modo de fallo fundamentalmente distinto de los benchmarks de resumen o conocimiento: el modelo est\u00e1 de acuerdo con el usuario incluso cuando el usuario se equivoca.       <a href=\"\/hub?page_id=3438#ref-58\"><sup>[58]<\/sup><\/a><\/p>\n\n<p>85% de adopci\u00f3n de IA empresarial (Gartner, 2026). La adopci\u00f3n ha alcanzado ya un nivel en el que los errores de IA se acumulan a escala, aunque la cifra de coste de 67,4 mil millones de $ de 2024 no se ha actualizado para 2025. Los roles de gobernanza de IA crecieron un 17% en 2025, y la proporci\u00f3n de empresas sin pol\u00edticas de IA responsable cay\u00f3 del 24% al 11% \u2014 pero las puntuaciones de transparencia de modelos fundacionales volvieron a bajar de 58 a 40, con grandes lagunas en divulgaciones sobre datos de entrenamiento, recursos de c\u00f3mputo e impacto posterior al despliegue.  <\/p>\n\n<h3 class=\"wp-block-heading\">Cuando una IA alucina, otra lo detecta.<\/h3>\n\n<p>Vea c\u00f3mo funciona la validaci\u00f3n multimodelo \u2014 pru\u00e9belo con una pregunta real en la que la precisi\u00f3n importe.<\/p>\n\n<p><a href=\"https:\/\/suprmind.ai\/playground?scenario=hallucination\">Probar la validaci\u00f3n multimodelo<\/a><\/p>\n\n<h2 class=\"wp-block-heading\">La paradoja del razonamiento<\/h2>\n\n<p>Uno de los hallazgos m\u00e1s contraintuitivos de la investigaci\u00f3n sobre alucinaciones en 2025-2026: los modelos de IA comercializados como los m\u00e1s inteligentes suelen ser los menos fiables en tareas factuales b\u00e1sicas.<\/p>\n\n<h3 class=\"wp-block-heading\">La contradicci\u00f3n central<\/h3>\n\n<p>Los modelos de razonamiento \u2014 GPT-5 con thinking, Claude con thinking extendido, DeepSeek-R1\u2014 utilizan procesos de cadena de pensamiento que mejoran de forma dr\u00e1stica el rendimiento en problemas complejos. Son mediblemente mejores en matem\u00e1ticas, l\u00f3gica, an\u00e1lisis de varios pasos y diagn\u00f3stico m\u00e9dico. <\/p>\n\n<p>Tambi\u00e9n son mediblemente peores a la hora de ce\u00f1irse a los hechos que se les han proporcionado.<\/p>\n\n<h3 class=\"wp-block-heading\">La evidencia<\/h3>\n\n<p>Nuevo conjunto de datos de Vectara: todos los modelos de razonamiento probados superaron el 10% de alucinaci\u00f3n. GPT-5, Claude Sonnet 4.5, Grok-4 y Gemini-3-Pro superaron ese umbral. La variante Grok-4-fast-reasoning alcanz\u00f3 el 20,2%. Los modelos sin razonamiento, como Gemini-2.5-Flash-Lite, obtuvieron un 3,3%.     <a href=\"\/hub?page_id=3438#ref-1\"><sup>[1]<\/sup><\/a><\/p>\n\n<p>DeepSeek: R1 (razonamiento) alucina al 14,3% en Vectara frente al 3,9% de V3 (base). Casi una diferencia de 4x del mismo proveedor. El an\u00e1lisis de Vectara encontr\u00f3 que R1 produce un 71,7% de \u201calucinaciones benignas\u201d (a\u00f1adidos plausibles) en comparaci\u00f3n con el 36,8% de V3. <a href=\"\/hub?page_id=3438#ref-48\"><sup>[48]<\/sup><\/a><a href=\"\/hub?page_id=3438#ref-49\"><sup>[49]<\/sup><\/a>  <\/p>\n\n<p>Regresi\u00f3n en PersonQA: el o3 de OpenAI alucina un 33% en preguntas sobre personas reales frente al 16% de o1. El o4-mini es peor, con un 48%. Son modelos m\u00e1s nuevos y m\u00e1s capaces que rinden peor en una prueba factual b\u00e1sica. <a href=\"\/hub?page_id=3438#ref-53\"><sup>[53]<\/sup><\/a><a href=\"\/hub?page_id=3438#ref-54\"><sup>[54]<\/sup><\/a>  <\/p>\n\n<p>Modo thinking de GPT-5: la alucinaci\u00f3n en HealthBench baja al 1,6% (excelente). Pero en el nuevo conjunto de datos de Vectara, GPT-5 supera el 10% (malo). Mismo modelo, mismo modo thinking, resultados opuestos seg\u00fan la tarea.  <\/p>\n\n<p>GPT-5.5 (abril de 2026): el dato m\u00e1s contundente hasta ahora. Precisi\u00f3n AA-Omniscience del 57% \u2014 la m\u00e1s alta jam\u00e1s registrada\u2014 junto con una tasa de alucinaci\u00f3n del 86%. El modelo m\u00e1s capaz que OpenAI ha lanzado tambi\u00e9n es uno de los peor calibrados. La expansi\u00f3n del conocimiento parece haber superado las mejoras de calibraci\u00f3n en la frontera. Claude Opus 4.7 (16 de abril de 2026) hace el intercambio opuesto: 36% de alucinaci\u00f3n con menor precisi\u00f3n bruta. <a href=\"\/hub?page_id=3438#ref-2\"><sup>[2]<\/sup><\/a><a href=\"\/hub?page_id=3438#ref-58\"><sup>[58]<\/sup><\/a><a href=\"\/hub?page_id=3438#ref-63\"><sup>[63]<\/sup><\/a>    <\/p>\n\n<h3 class=\"wp-block-heading\">Por qu\u00e9 ocurre esto<\/h3>\n\n<p>El mecanismo es sencillo. Cuando un modelo de razonamiento procesa una tarea de resumen, no solo extrae: <em>piensa<\/em>. Extrae inferencias, identifica patrones y genera ideas. Estas adiciones van m\u00e1s all\u00e1 del documento fuente. En un benchmark que mide la fidelidad al material fuente, cada idea que a\u00f1ade el modelo cuenta como una alucinaci\u00f3n.    <\/p>\n\n<p>Es la diferencia entre \u201cresuma este contrato\u201d y \u201canalice este contrato\u201d. El modo de razonamiento a\u00f1ade an\u00e1lisis incluso cuando usted pide un resumen. Ese an\u00e1lisis suele ser \u00fatil. En un benchmark de resumen, se punt\u00faa como un fallo.   <\/p>\n\n<h3 class=\"wp-block-heading\">El efecto de la navegaci\u00f3n es mayor que el efecto del razonamiento<\/h3>\n\n<p>Los datos de la system card de OpenAI revelan algo a lo que se presta menos atenci\u00f3n: el acceso web tiene un impacto mayor en las tasas de alucinaci\u00f3n que el modo de razonamiento. <a href=\"\/hub?page_id=3438#ref-11\"><sup>[11]<\/sup><\/a><a href=\"\/hub?page_id=3438#ref-8\"><sup>[8]<\/sup><\/a><\/p>\n\n<figure class=\"wp-block-table\"><table class=\"has-fixed-layout\"><tbody><tr><td>Modelo<\/td><td>Navegaci\u00f3n DESACTIVADA<\/td><td>Navegaci\u00f3n ACTIVADA<\/td><td>Reducci\u00f3n<\/td><\/tr><tr><td>o4-mini FActScore<\/td><td>37.7%<\/td><td>5.1%<\/td><td><strong>86%<\/strong><\/td><\/tr><tr><td>o3 FActScore<\/td><td>24.2%<\/td><td>5.7%<\/td><td>76%<\/td><\/tr><tr><td>GPT-5 thinking FActScore<\/td><td>3.7%<\/td><td>1.0%<\/td><td>73%<\/td><\/tr><tr><td>GPT-5 SimpleQA<\/td><td>47%<\/td><td>9.6%<\/td><td>80%<\/td><\/tr><\/tbody><\/table><\/figure>\n\n<p><em>Fuentes: system card de o3\/o4-mini [11], system card de GPT-5 [8]<\/em><\/p>\n\n<figure class=\"wp-block-image size-large\"><img decoding=\"async\" width=\"1024\" height=\"571\" src=\"https:\/\/suprmind.ai\/hub\/wp-content\/uploads\/2026\/05\/image-1024x571.png\" alt=\"\" class=\"wp-image-4094\" srcset=\"https:\/\/suprmind.ai\/hub\/wp-content\/uploads\/2026\/05\/image-1024x571.png 1024w, https:\/\/suprmind.ai\/hub\/wp-content\/uploads\/2026\/05\/image-300x167.png 300w, https:\/\/suprmind.ai\/hub\/wp-content\/uploads\/2026\/05\/image-768x428.png 768w, https:\/\/suprmind.ai\/hub\/wp-content\/uploads\/2026\/05\/image-1536x857.png 1536w, https:\/\/suprmind.ai\/hub\/wp-content\/uploads\/2026\/05\/image.png 1900w\" sizes=\"(max-width: 1024px) 100vw, 1024px\" \/><\/figure>\n\n<p><em>El efecto de la navegaci\u00f3n: reducci\u00f3n del 73-86% de alucinaciones con un \u00fanico cambio de configuraci\u00f3n. Fuentes: system cards de OpenAI [8][11][10] <\/em><\/p>\n\n<p><em>Activar la b\u00fasqueda web reduce m\u00e1s las alucinaciones que activar el razonamiento.<\/em><\/p>\n\n<p>En despliegues empresariales, garantizar el acceso a herramientas es m\u00e1s determinante que elegir entre variantes de modelo con o sin razonamiento.<\/p>\n\n<h3 class=\"wp-block-heading\">El marco de decisi\u00f3n<\/h3>\n\n<p>Esto crea una matriz pr\u00e1ctica para la selecci\u00f3n de modelos:<\/p>\n\n<p>Razonamiento ACTIVADO + Web ACTIVADA: lo mejor para an\u00e1lisis complejos, diagn\u00f3stico m\u00e9dico e investigaci\u00f3n de varios pasos, donde importan tanto la profundidad como el acceso a informaci\u00f3n actual. Las tasas de alucinaci\u00f3n m\u00e1s bajas en tareas abiertas. <\/p>\n\n<p>Razonamiento DESACTIVADO + Web ACTIVADA: lo mejor para resumen de documentos, canalizaciones RAG y preguntas y respuestas con base (grounded Q&amp;A), cuando se quiere que el modelo se mantenga cerca del material fuente. Menor riesgo de a\u00f1adidos por \u201csobrepensar\u201d. <\/p>\n\n<p>Razonamiento ACTIVADO + Web DESACTIVADA: combinaci\u00f3n arriesgada. El modelo sobrepiensa y no puede verificar. Adecuado solo para problemas de l\u00f3gica de mundo cerrado, matem\u00e1ticas y c\u00f3digo donde no se necesitan hechos externos.  <\/p>\n\n<p>Razonamiento DESACTIVADO + Web DESACTIVADA: el mayor riesgo de alucinaci\u00f3n en general. Ev\u00edtelo para cualquier tarea factual. <\/p>\n\n<h2 class=\"wp-block-heading\">Por qu\u00e9 la alucinaci\u00f3n cero es matem\u00e1ticamente imposible<\/h2>\n\n<p>Esto no es especulaci\u00f3n. Dos equipos de investigaci\u00f3n independientes lo demostraron. <\/p>\n\n<h3 class=\"wp-block-heading\">Prueba 1: la alucinaci\u00f3n es inherente a la arquitectura<\/h3>\n\n<p>Xu et al. (2024) formalizaron el problema de la alucinaci\u00f3n matem\u00e1ticamente y demostraron que eliminar la alucinaci\u00f3n en los modelos de lenguaje grandes es imposible. No dif\u00edcil. No requiere m\u00e1s c\u00f3mputo ni mejores datos de entrenamiento. Imposible \u2014 es decir, demostrablemente imposible dada la arquitectura fundamental de c\u00f3mo estos sistemas generan texto.     <a href=\"\/hub?page_id=3438#ref-20\"><sup>[20]<\/sup><\/a><\/p>\n\n<p>El argumento central: cualquier sistema que genere texto prediciendo secuencias probables a partir de distribuciones estad\u00edsticas aprendidas, por necesidad matem\u00e1tica, a veces producir\u00e1 salidas no fundamentadas en hechos. El propio mecanismo generativo lo garantiza. <\/p>\n\n<h3 class=\"wp-block-heading\">Prueba 2: cuatro objetivos que no pueden ser todos ciertos<\/h3>\n\n<p>Karpowicz (2025) atac\u00f3 el problema desde tres marcos matem\u00e1ticos distintos \u2014 teor\u00eda de subastas, teor\u00eda de puntuaci\u00f3n propia y an\u00e1lisis log-sum-exp para arquitecturas transformer\u2014 y lleg\u00f3 a la misma conclusi\u00f3n en cada caso.  <a href=\"\/hub?page_id=3438#ref-21\"><sup>[21]<\/sup><\/a><\/p>\n\n<p>Ning\u00fan mecanismo de inferencia de LLM puede lograr simult\u00e1neamente estas cuatro propiedades:<\/p>\n\n<ol class=\"wp-block-list\">\n<li>Generaci\u00f3n de respuestas veraces \u2014 producir siempre una salida factualmente correcta<\/li>\n\n\n\n<li>Conservaci\u00f3n de la informaci\u00f3n sem\u00e1ntica \u2014 preservar el significado del material fuente<\/li>\n\n\n\n<li>Revelaci\u00f3n de conocimiento relevante \u2014 aflorar conocimiento almacenado cuando sea aplicable<\/li>\n\n\n\n<li>Optimalidad restringida por el conocimiento \u2014 mantenerse dentro de los l\u00edmites de lo que realmente sabe<\/li>\n<\/ol>\n\n<p>Puede optimizar cualquiera de tres. No puede obtener las cuatro. Las matem\u00e1ticas no lo permiten.  <\/p>\n\n<h3 class=\"wp-block-heading\">OpenAI est\u00e1 de acuerdo<\/h3>\n\n<p>OpenAI reconoci\u00f3 p\u00fablicamente estos hallazgos e identific\u00f3 tres factores matem\u00e1ticos que hacen inevitable la alucinaci\u00f3n: <a href=\"\/hub?page_id=3438#ref-22\"><sup>[22]<\/sup><\/a><\/p>\n\n<p>Incertidumbre epist\u00e9mica \u2014 cuando la informaci\u00f3n aparece raramente en los datos de entrenamiento, el modelo no tiene una base fiable para generar una salida precisa sobre ese tema, pero aun as\u00ed lo intentar\u00e1.<\/p>\n\n<p>Limitaciones del modelo \u2014 algunas tareas exceden lo que la arquitectura puede representar, independientemente del volumen o la calidad de los datos de entrenamiento.<\/p>\n\n<p>Intratabilidad computacional \u2014 ciertos problemas de verificaci\u00f3n son computacionalmente tan dif\u00edciles que ni siquiera un sistema superinteligente te\u00f3rico podr\u00eda resolverlos en un tiempo razonable.<\/p>\n\n<h3 class=\"wp-block-heading\">Qu\u00e9 significa esto en la pr\u00e1ctica<\/h3>\n\n<p>La alucinaci\u00f3n no es un bug que se vaya a arreglar en el pr\u00f3ximo lanzamiento de modelo. Es una propiedad matem\u00e1tica permanente de c\u00f3mo funcionan los modelos de lenguaje. <\/p>\n\n<p>Esto cambia la pregunta. La pregunta correcta no es \u201c\u00bfqu\u00e9 IA no alucina?\u201d: toda IA alucina. La pregunta correcta es: \u00bfqu\u00e9 sistemas tiene usted implantados para detectar alucinaciones antes de que lleguen a quien toma decisiones?  <\/p>\n\n<p>Las organizaciones que hacen esto bien no est\u00e1n esperando un modelo sin alucinaciones. Est\u00e1n construyendo capas de detecci\u00f3n, canalizaciones de validaci\u00f3n cruzada y puntos de control de revisi\u00f3n humana. Los datos sobre lo que funciona (y cu\u00e1nto ayuda) est\u00e1n en la secci\u00f3n <a href=\"\/hub?page_id=3438#section-12\">T\u00e9cnicas de reducci\u00f3n<\/a> a continuaci\u00f3n.  <\/p>\n\n<h2 class=\"wp-block-heading\">Qu\u00e9 reduce realmente la alucinaci\u00f3n \u2014 clasificado por evidencia<\/h2>\n\n<p>No todas las t\u00e9cnicas de reducci\u00f3n de alucinaciones son iguales. Algunas est\u00e1n respaldadas por estudios controlados con mediciones precisas. Otras tienen un fuerte soporte te\u00f3rico pero datos de producci\u00f3n limitados. Esta clasificaci\u00f3n refleja la base de evidencia, no las afirmaciones de marketing.   <\/p>\n\n<figure class=\"wp-block-image size-large\"><img decoding=\"async\" width=\"1024\" height=\"849\" src=\"https:\/\/suprmind.ai\/hub\/wp-content\/uploads\/2026\/05\/image-6-1024x849.png\" alt=\"\" class=\"wp-image-4101\" srcset=\"https:\/\/suprmind.ai\/hub\/wp-content\/uploads\/2026\/05\/image-6-1024x849.png 1024w, https:\/\/suprmind.ai\/hub\/wp-content\/uploads\/2026\/05\/image-6-300x249.png 300w, https:\/\/suprmind.ai\/hub\/wp-content\/uploads\/2026\/05\/image-6-768x637.png 768w, https:\/\/suprmind.ai\/hub\/wp-content\/uploads\/2026\/05\/image-6.png 1302w\" sizes=\"(max-width: 1024px) 100vw, 1024px\" \/><\/figure>\n\n<p><em>T\u00e9cnicas de reducci\u00f3n de alucinaciones clasificadas por impacto medido. Fuentes: OpenAI [8][11], AllAboutAI [31], HealthBench [52], UAF [24], CoVe [23], VeriFY [25], Gemini 3.1 [15], MedRxiv [40] <\/em><\/p>\n\n<h3 class=\"wp-block-heading\">Nivel 1: mayor impacto medido<\/h3>\n\n<h4 class=\"wp-block-heading\">1. Acceso a b\u00fasqueda web<\/h4>\n\n<p>Impacto medido: reducci\u00f3n del 73-86% de alucinaciones (FActScore, navegaci\u00f3n activada vs desactivada)<\/p>\n\n<p>La intervenci\u00f3n individual de mayor impacto documentada en la investigaci\u00f3n de 2025-2026. GPT-5 baja del 47% al 9,6% de alucinaci\u00f3n con acceso web. El o4-mini baja del 37,7% al 5,1%. GPT-5.3 Instant muestra una reducci\u00f3n del 26,8% al usar web frente a modelos anteriores. <a href=\"\/hub?page_id=3438#ref-8\"><sup>[8]<\/sup><\/a><a href=\"\/hub?page_id=3438#ref-11\"><sup>[11]<\/sup><\/a><a href=\"\/hub?page_id=3438#ref-10\"><sup>[10]<\/sup><\/a>   <\/p>\n\n<p>El mecanismo es simple: en lugar de depender de datos de entrenamiento potencialmente obsoletos o incorrectos, el modelo recupera informaci\u00f3n actual y fundamenta su respuesta en fuentes externas. Para cualquier despliegue empresarial, habilitar el acceso web o a herramientas deber\u00eda ser la primera decisi\u00f3n de configuraci\u00f3n, no algo secundario. <\/p>\n\n<h4 class=\"wp-block-heading\">2. RAG (Retrieval Augmented Generation)<\/h4>\n\n<p>Impacto medido: hasta un 71% de reducci\u00f3n en tareas de base de conocimiento empresarial <a href=\"\/hub?page_id=3438#ref-31\"><sup>[31]<\/sup><\/a><\/p>\n\n<p>RAG conecta los modelos con bases de conocimiento externas \u2014 documentos de la empresa, bases de datos, fuentes verificadas\u2014 e instruye al modelo para generar respuestas fundamentadas en el contenido recuperado en lugar de en la memoria param\u00e9trica. Los recuperadores h\u00edbridos que combinan m\u00e9todos dispersos y densos logran la mitigaci\u00f3n m\u00e1s s\u00f3lida. <\/p>\n\n<p>RAG es m\u00e1s eficaz para alucinaciones por brecha de conocimiento (el modelo carece de datos de entrenamiento relevantes). Es menos eficaz para alucinaciones basadas en l\u00f3gica (el modelo razona de forma incorrecta a partir de premisas correctas). Para preguntas y respuestas sobre documentos empresariales y aplicaciones de base de conocimiento, RAG es el est\u00e1ndar de referencia.  <\/p>\n\n<h3 class=\"wp-block-heading\">Nivel 2: evidencia s\u00f3lida, dependiente del contexto<\/h3>\n\n<h4 class=\"wp-block-heading\">3. Modo thinking\/razonamiento<\/h4>\n\n<p>Impacto medido: reducci\u00f3n del 55-75% en tareas m\u00e9dicas y factuales abiertas; <em>aumenta<\/em> la alucinaci\u00f3n en resumen con base <a href=\"\/hub?page_id=3438#ref-52\"><sup>[52]<\/sup><\/a><\/p>\n\n<p>Modo thinking de GPT-5: HealthBench baja del 3,6% al 1,6%. Tr\u00e1fico de ChatGPT en producci\u00f3n: el 4,8% de las respuestas contiene afirmaciones incorrectas importantes frente al 11,6% sin thinking. Son mejoras significativas.  <\/p>\n\n<p>Pero el modo de razonamiento aumenta la alucinaci\u00f3n en el benchmark de resumen de Vectara (v\u00e9ase la <a href=\"\/hub?page_id=3438#section-10\">Secci\u00f3n 10<\/a>). El impacto depende de la tarea. Active el razonamiento para an\u00e1lisis, diagn\u00f3stico y consultas complejas. Desact\u00edvelo para resumen, extracci\u00f3n y tareas fieles a la fuente.   <\/p>\n\n<h4 class=\"wp-block-heading\">4. Validaci\u00f3n cruzada multimodelo<\/h4>\n\n<p>Impacto medido: mejora del 8% en precisi\u00f3n frente a enfoques de un solo modelo (marco UAF) <a href=\"\/hub?page_id=3438#ref-24\"><sup>[24]<\/sup><\/a><\/p>\n\n<p>El marco Uncertainty-Aware Fusion de Amazon (publicado en ACM WWW 2025) combin\u00f3 varios LLM ponderados por su precisi\u00f3n y la calidad de su autoevaluaci\u00f3n. El hallazgo clave: distintos modelos destacan en distintos tipos de preguntas, por lo que combinarlos captura fortalezas complementarias. <\/p>\n\n<p>La detecci\u00f3n de desacuerdos entre modelos detecta alucinaciones porque los modelos rara vez fabrican la misma informaci\u00f3n falsa. Cuando un modelo hace una afirmaci\u00f3n sin fundamento, otros suelen se\u00f1alar la inconsistencia o proporcionar datos contradictorios. La investigaci\u00f3n sobre la \u00absabidur\u00eda de la multitud de silicio\u00bb muestra que los conjuntos de LLM pueden rivalizar con la precisi\u00f3n de la predicci\u00f3n humana colectiva mediante una agregaci\u00f3n simple.  <\/p>\n\n<p>La cifra del 8% subestima el valor pr\u00e1ctico. En producci\u00f3n, los enfoques multimodelos detectan errores que ninguna verificaci\u00f3n de un solo modelo se\u00f1alar\u00eda, porque el modelo de verificaci\u00f3n tiene diferentes datos de entrenamiento, diferentes sesgos y diferentes puntos ciegos. <\/p>\n\n<h4 class=\"wp-block-heading\">5. Cadena de Verificaci\u00f3n (CoVe)<\/h4>\n\n<p>Impacto medido: mejora del 28% en FActScore <a href=\"\/hub?page_id=3438#ref-23\"><sup>[23]<\/sup><\/a><\/p>\n\n<p>Un flujo de trabajo de cuatro pasos: generar una respuesta de referencia, planificar preguntas de verificaci\u00f3n, responder a esas preguntas de verificaci\u00f3n de forma independiente y, a continuaci\u00f3n, refinar el resultado final. Publicado en ACL 2024, supera al prompt de cero-shot, few-shot y cadena de pensamiento en la precisi\u00f3n de la generaci\u00f3n de formato largo. <\/p>\n\n<p>El coste es la latencia y la computaci\u00f3n: cuatro pasos en lugar de uno. Para aplicaciones donde la precisi\u00f3n importa m\u00e1s que la velocidad \u2014generaci\u00f3n de informes, s\u00edntesis de investigaci\u00f3n, documentaci\u00f3n de cumplimiento\u2014, la compensaci\u00f3n merece la pena. <\/p>\n\n<h3 class=\"wp-block-heading\">Nivel 3: Significativo, pero m\u00e1s limitado<\/h3>\n\n<h4 class=\"wp-block-heading\">6. VeriFY (Verificaci\u00f3n en Tiempo de Entrenamiento)<\/h4>\n\n<p>Impacto medido: reducci\u00f3n de la alucinaci\u00f3n del 9,7-53,3% en familias de modelos <a href=\"\/hub?page_id=3438#ref-25\"><sup>[25]<\/sup><\/a><\/p>\n\n<p>Publicado en ICML 2025, VeriFY ense\u00f1a a los modelos a evaluar la incertidumbre f\u00e1ctica durante la generaci\u00f3n en lugar de depender de una verificaci\u00f3n post-hoc. El modelo aprende a verificar sus propias afirmaciones a medida que las produce. La p\u00e9rdida de recuperaci\u00f3n es modesta: 0,4-5,7%.  <\/p>\n\n<p>Esta es una intervenci\u00f3n en tiempo de entrenamiento, lo que significa que los usuarios finales no la controlan. Su valor radica en se\u00f1alar hacia d\u00f3nde se dirige el campo: las futuras generaciones de modelos probablemente internalizar\u00e1n la verificaci\u00f3n como una capacidad central en lugar de a\u00f1adirla despu\u00e9s de la generaci\u00f3n. <\/p>\n\n<h4 class=\"wp-block-heading\">7. Ajuste de Calibraci\u00f3n<\/h4>\n\n<p>Impacto medido: reducci\u00f3n de 38 puntos porcentuales en la alucinaci\u00f3n de la IA (Gemini 3.1 Pro, del 88% al 50%) con solo un 1% de p\u00e9rdida de precisi\u00f3n <a href=\"\/hub?page_id=3438#ref-15\"><sup>[15]<\/sup><\/a><\/p>\n\n<p>Google demostr\u00f3 que ajustar la calibraci\u00f3n de un modelo \u2014su capacidad para hacer coincidir la confianza con la precisi\u00f3n real\u2014 puede reducir dr\u00e1sticamente la alucinaci\u00f3n sin sacrificar el conocimiento. El \u00cdndice de Omnisciencia de Gemini 3.1 Pro salt\u00f3 de 16 a 33 con este enfoque. <\/p>\n\n<p>Al igual que VeriFY, esta es una intervenci\u00f3n del lado del proveedor. Los usuarios se benefician de ella al seleccionar versiones de modelos m\u00e1s nuevas, pero no pueden aplicarla ellos mismos. <\/p>\n\n<h4 class=\"wp-block-heading\">8. Prompts de Mitigaci\u00f3n Espec\u00edficos del Dominio<\/h4>\n\n<p>Impacto medido: reducci\u00f3n del 33% en tareas m\u00e9dicas (del 64,1% al 43,1%); GPT-4o baj\u00f3 del 53% al 23% <a href=\"\/hub?page_id=3438#ref-40\"><sup>[40]<\/sup><\/a><\/p>\n\n<p>Prompts estructurados que instruyen al modelo para que restrinja las salidas a informaci\u00f3n verificada, se\u00f1ale la incertidumbre y evite la especulaci\u00f3n. Funcionan mejor en dominios estrechos con l\u00edmites claros y terminolog\u00eda bien definida. <\/p>\n\n<p>Los resultados m\u00e9dicos son alentadores, pero las tasas absolutas siguen siendo altas (el 43,1% con mitigaci\u00f3n sigue siendo peligrosamente incorrecto para uso cl\u00ednico). Los prompts de dominio son una capa, no una soluci\u00f3n. <\/p>\n\n<h3 class=\"wp-block-heading\">Lo que no funciona (o funciona menos de lo que se afirma)<\/h3>\n\n<p>Solo modelos m\u00e1s grandes: la precisi\u00f3n se correlaciona con el tama\u00f1o del modelo. La tasa de alucinaci\u00f3n no. Los modelos m\u00e1s grandes saben m\u00e1s, pero no necesariamente saben lo que no saben.  <\/p>\n\n<p>Reducci\u00f3n simple de la temperatura: reducir la temperatura de generaci\u00f3n reduce la variedad, pero no elimina la alucinaci\u00f3n. El modelo sigue eligiendo el token m\u00e1s probable, solo que lo hace de forma m\u00e1s consistente, incluyendo tokens consistentemente incorrectos. <\/p>\n\n<p>Prompts de sistema para \u00abser preciso\u00bb: las instrucciones gen\u00e9ricas para evitar alucinaciones muestran un efecto medido m\u00ednimo. Los modelos ya \u00abintentan\u00bb ser precisos. El problema es estructural, no motivacional.  <\/p>\n\n<h2 class=\"wp-block-heading\">La evidencia multimodelos<\/h2>\n\n<p>La investigaci\u00f3n publicada entre 2024 y 2026 converge cada vez m\u00e1s en un hallazgo espec\u00edfico: consultar a m\u00faltiples modelos de IA sobre la misma pregunta detecta errores que los enfoques de un solo modelo pasan por alto. Esto no es un argumento te\u00f3rico. M\u00faltiples estudios revisados por pares proporcionan evidencia medida.  <\/p>\n\n<h3 class=\"wp-block-heading\">El marco UAF de Amazon (ACM WWW 2025)<\/h3>\n\n<p>El marco de Fusi\u00f3n Consciente de la Incertidumbre (UAF) combina m\u00faltiples LLM ponderados por dos factores: la precisi\u00f3n de cada modelo en la tarea y la capacidad de cada modelo para autoevaluarse cuando no est\u00e1 seguro. El resultado medido: una mejora del 8% en la precisi\u00f3n sobre cualquier modelo individual.  <a href=\"\/hub?page_id=3438#ref-24\"><sup>[24]<\/sup><\/a><\/p>\n\n<p>La idea cr\u00edtica del estudio: \u00abLas capacidades de precisi\u00f3n y autoevaluaci\u00f3n de los LLM var\u00edan ampliamente, con diferentes modelos destacando en diferentes escenarios\u00bb. Ning\u00fan modelo \u00fanico domina todos los tipos de preguntas. GPT puede ser el m\u00e1s fuerte en tareas fundamentadas, Claude en tareas de calibraci\u00f3n de conocimiento, Gemini en tareas de amplitud de conocimiento. El conjunto captura las tres fortalezas.   <\/p>\n\n<h3 class=\"wp-block-heading\">El mecanismo de detecci\u00f3n de desacuerdos<\/h3>\n\n<p>Los modelos entrenados con diferentes datos, con diferentes arquitecturas y diferentes ajustes de alineaci\u00f3n, desarrollan diferentes patrones de fallo. Cuando cinco modelos analizan la misma pregunta, rara vez fabrican la misma informaci\u00f3n falsa. <\/p>\n\n<p>Un modelo afirma que existe un precedente legal. Otros cuatro no lo mencionan. Ese desacuerdo es una se\u00f1al. Un revisor humano puede investigar la afirmaci\u00f3n espec\u00edfica en lugar de revisar todo el resultado.   <\/p>\n\n<p>Esto funciona porque las alucinaciones son estoc\u00e1sticas, no sistem\u00e1ticas. Un modelo no alucina consistentemente el mismo hecho incorrecto, sino que rellena los huecos con contenido diferente que suena plausible cada vez. Cuando varios modelos rellenan el mismo hueco con contenido contradictorio, el hueco se hace visible.  <\/p>\n\n<h3 class=\"wp-block-heading\">La investigaci\u00f3n sobre la \u00absabidur\u00eda de la multitud de silicio\u00bb<\/h3>\n\n<p>M\u00faltiples estudios muestran que la agregaci\u00f3n simple de las salidas de los LLM puede rivalizar con la precisi\u00f3n de la predicci\u00f3n humana colectiva. El mecanismo es paralelo al experimento del peso del buey de Galton y a la \u00abSabidur\u00eda de las multitudes\u00bb de Surowiecki: las estimaciones individuales est\u00e1n sesgadas, pero el agregado anula los errores no correlacionados.  <a href=\"\/hub?page_id=3438#ref-28\"><sup>[28]<\/sup><\/a><\/p>\n\n<p>Para la IA, esto significa: cinco modelos con un 60% de precisi\u00f3n individual, con errores no correlacionados, pueden producir resultados agregados significativamente por encima del 60% de precisi\u00f3n. Las matem\u00e1ticas favorecen la diversidad sobre la excelencia individual. <\/p>\n\n<h3 class=\"wp-block-heading\">Evidencia de producci\u00f3n (Suprmind DMI, abril de 2026)<\/h3>\n\n<p>Los hallazgos acad\u00e9micos anteriores describen el mecanismo. El \u00cdndice de Divergencia Multimodelo de Suprmind lo mide en la pr\u00e1ctica. <a href=\"\/hub?page_id=3438#ref-61\"><sup>[61]<\/sup><\/a><a href=\"\/hub?page_id=3438#ref-62\"><sup>[62]<\/sup><\/a> <\/p>\n\n<p>El conjunto de datos: 1.324 turnos de conversaci\u00f3n multimodelos de 299 usuarios reales en 10 dominios durante 45 d\u00edas (del 5 de marzo al 19 de abril de 2026). Cinco modelos de vanguardia (GPT, Claude, Gemini, Grok y Perplexity) respondiendo a las mismas preguntas, con cada modelo leyendo lo que se dijo antes. Despu\u00e9s de cada turno, un clasificador registra lo que sucedi\u00f3 entre los modelos: contradicciones, correcciones e ideas \u00fanicas.   <a href=\"\/hub?page_id=3438#ref-61\"><sup>[61]<\/sup><\/a><\/p>\n\n<p>Lo que mide el DMI y lo que no. El \u00edndice rastrea el comportamiento de desacuerdo y correcci\u00f3n. No mide qu\u00e9 modelo es f\u00e1cticamente correcto en un intercambio dado. Que un modelo sea contradicho es una se\u00f1al de detecci\u00f3n, no un veredicto. El DMI complementa los puntos de referencia de precisi\u00f3n como Vectara y AA-Omniscience; no los reemplaza.    <\/p>\n\n<h4 class=\"wp-block-heading\">Hallazgo 1: El mecanismo de detecci\u00f3n se activa en casi cada turno multimodelos.<\/h4>\n\n<p>En los 1.324 turnos, el 99,1% produjo al menos una contradicci\u00f3n, correcci\u00f3n o idea \u00fanica que provino solo de un modelo diferente al del primer respondedor. La tasa de \u00abacuerdo silencioso\u00bb \u2014turnos en los que todos los modelos estuvieron de acuerdo sin sacar nada nuevo\u2014 fue del 0,9%. En cinco de los diez dominios rastreados (Legal, M\u00e9dico, Educaci\u00f3n, Investigaci\u00f3n, Creativo), la tasa silenciosa fue cero.   <a href=\"\/hub?page_id=3438#ref-61\"><sup>[61]<\/sup><\/a><\/p>\n\n<p>Una consulta de un solo modelo habr\u00eda pasado por alto algo en 99 de cada 100 de estos turnos. Si lo que se pas\u00f3 por alto fue f\u00e1cticamente cr\u00edtico var\u00eda. Que se pas\u00f3 por alto algo no est\u00e1 en discusi\u00f3n.  <\/p>\n\n<h4 class=\"wp-block-heading\">Hallazgo 2: La paradoja de la confianza aparece en producci\u00f3n.<\/h4>\n\n<p>La investigaci\u00f3n del MIT citada anteriormente en esta p\u00e1gina encontr\u00f3 que los modelos de IA tienen un 34% m\u00e1s de confianza cuando se equivocan que cuando aciertan. Los datos del DMI muestran el mismo patr\u00f3n en conversaciones multimodelos en vivo: una respuesta de alta confianza (autoevaluada con 7 o m\u00e1s sobre 10) no es un escudo contra ser contradicha por otro modelo. <\/p>\n\n<figure class=\"wp-block-table\"><table class=\"has-fixed-layout\"><tbody><tr><td>Modelo (respuestas de alta confianza)<\/td><td>Contradecido o corregido por otro modelo<\/td><\/tr><tr><td>Gemini<\/td><td>51.4%<\/td><\/tr><tr><td>Grok<\/td><td>48.9%<\/td><\/tr><tr><td>GPT<\/td><td>39.6%<\/td><\/tr><tr><td>Perplexity<\/td><td>33.9%<\/td><\/tr><tr><td>Claude<\/td><td>33.9%<\/td><\/tr><\/tbody><\/table><\/figure>\n\n<p><em>Fuente: \u00cdndice de Divergencia Multimodelo de Suprmind, edici\u00f3n de abril de 2026 <\/em><a href=\"\/hub?page_id=3438#ref-61\"><em><sup>[61]<\/sup><\/em><\/a><\/p>\n\n<p>En los cinco proveedores, entre una de cada tres y una de cada dos respuestas declaradas con confianza tuvieron un problema sustantivo detectado por un modelo par. Espec\u00edficamente en los turnos de alto riesgo, la tasa de Claude baj\u00f3 al 26,4% \u2014la m\u00e1s baja de los cinco\u2014, mientras que la de Gemini apenas se movi\u00f3 (50,3%).  <a href=\"\/hub?page_id=3438#ref-61\"><sup>[61]<\/sup><\/a><\/p>\n\n<p>Esta no es una tasa de alucinaci\u00f3n. Es una tasa de detecci\u00f3n por revisi\u00f3n por pares. Pero la implicaci\u00f3n para el uso de un solo modelo es directa: la confianza en la respuesta de un modelo, sin ninguna verificaci\u00f3n externa, es el modo de fallo m\u00e1s com\u00fan en los datos. Este patr\u00f3n se alinea con el hallazgo del Stanford AI Index 2026 anterior: cuando las declaraciones falsas se enmarcan como algo que el usuario cree, la precisi\u00f3n de un solo modelo colapsa. El mecanismo de revisi\u00f3n multimodelos captura este modo de fallo porque un segundo modelo, no anclado al marco demasiado confiado del primer modelo, aplica su propia base a la misma afirmaci\u00f3n. <a href=\"\/hub?page_id=3438#ref-58\"><sup>[58]<\/sup><\/a><a href=\"\/hub?page_id=3438#ref-61\"><sup>[61]<\/sup><\/a>    <\/p>\n\n<h4 class=\"wp-block-heading\">Hallazgo 3: Diferentes modelos detectan cosas diferentes, y la asimetr\u00eda es grande.<\/h4>\n\n<p>Cada modelo en el conjunto de datos DMI tiene una \u00abtasa de detecci\u00f3n\u00bb: correcciones que hizo a otros, divididas por las correcciones que recibi\u00f3 de otros. Una tasa superior a 1,0 significa que el modelo detecta m\u00e1s de lo que es detectado. <\/p>\n\n<figure class=\"wp-block-table\"><table class=\"has-fixed-layout\"><tbody><tr><td>Proveedor<\/td><td>Detecciones realizadas<\/td><td>Veces detectado<\/td><td>Tasa de detecci\u00f3n<\/td><\/tr><tr><td>Perplexity<\/td><td>335<\/td><td>132<\/td><td><strong>2.54<\/strong><\/td><\/tr><tr><td>Claude<\/td><td>304<\/td><td>135<\/td><td>2.25<\/td><\/tr><tr><td>Grok<\/td><td>193<\/td><td>269<\/td><td>0.72<\/td><\/tr><tr><td>GPT<\/td><td>111<\/td><td>295<\/td><td>0.38<\/td><\/tr><tr><td>Gemini<\/td><td>109<\/td><td>416<\/td><td>0.26<\/td><\/tr><\/tbody><\/table><\/figure>\n\n<p><em>Fuente: \u00cdndice de Divergencia Multimodelo de Suprmind, edici\u00f3n de abril de 2026 <\/em><a href=\"\/hub?page_id=3438#ref-61\"><em><sup>[61]<\/sup><\/em><\/a><\/p>\n\n<p>Perplexity detecta aproximadamente diez veces m\u00e1s a menudo que Gemini. Esto no es una clasificaci\u00f3n de qu\u00e9 modelo es \u00abmejor\u00bb; la ventaja de Perplexity proviene en parte de su arquitectura basada en la b\u00fasqueda, que le otorga una ventaja estructural para se\u00f1alar afirmaciones sin fundamento. El punto es que la detecci\u00f3n no es aleatoria. Diferentes arquitecturas producen diferentes perfiles de detecci\u00f3n, que es exactamente lo que predice la tesis multimodelos.    <a href=\"\/hub?page_id=3438#ref-61\"><sup>[61]<\/sup><\/a><\/p>\n\n<h4 class=\"wp-block-heading\">Hallazgo 4: Donde las apuestas son m\u00e1s altas, el acuerdo es m\u00e1s bajo.<\/h4>\n\n<p>Tasa de desacuerdo por dominio, clasificada de mayor a menor:<\/p>\n\n<figure class=\"wp-block-table\"><table class=\"has-fixed-layout\"><tbody><tr><td>Dominio<\/td><td>Turnos multimodelos<\/td><td>Turnos con desacuerdo<\/td><\/tr><tr><td>Financiero<\/td><td>258<\/td><td>72.1%<\/td><\/tr><tr><td>Otros<\/td><td>153<\/td><td>59.6%<\/td><\/tr><tr><td>Marketing y Ventas<\/td><td>131<\/td><td>55.0%<\/td><\/tr><tr><td>Estrategia de Negocio<\/td><td>257<\/td><td>54.9%<\/td><\/tr><tr><td>An\u00e1lisis de Investigaci\u00f3n<\/td><td>74<\/td><td>52.7%<\/td><\/tr><tr><td>T\u00e9cnico<\/td><td>172<\/td><td>49.4%<\/td><\/tr><tr><td>Creativo<\/td><td>38<\/td><td>42.1%<\/td><\/tr><tr><td>Legal<\/td><td>135<\/td><td>41.5%<\/td><\/tr><tr><td>M\u00e9dico<\/td><td>56<\/td><td>33.9%<\/td><\/tr><tr><td>Educaci\u00f3n<\/td><td>49<\/td><td>28.6%<\/td><\/tr><\/tbody><\/table><\/figure>\n\n<p><em>Fuente: \u00cdndice de Divergencia Multimodelo de Suprmind, edici\u00f3n de abril de 2026 <\/em><a href=\"\/hub?page_id=3438#ref-61\"><em><sup>[61]<\/sup><\/em><\/a><\/p>\n\n<p>Las preguntas financieras producen desacuerdo entre modelos en casi tres de cada cuatro turnos. Las preguntas de educaci\u00f3n lo producen en aproximadamente uno de cada cuatro. Los dominios de alto riesgo donde esta p\u00e1gina document\u00f3 las peores consecuencias de la alucinaci\u00f3n \u2014financiero, legal, m\u00e9dico\u2014 son los mismos dominios donde ejecutar preguntas a trav\u00e9s de m\u00e1s de un modelo saca a la luz la mayor divergencia. Espec\u00edficamente en el An\u00e1lisis de Investigaci\u00f3n: el 52,2% de las contradicciones en ese dominio se clasificaron como de gravedad cr\u00edtica (7 o m\u00e1s en una escala de 10 puntos), la mayor proporci\u00f3n cr\u00edtica de cualquier dominio. Cuando los modelos discrepan sobre preguntas de investigaci\u00f3n, tienden a discrepar sobre algo que importa.     <a href=\"\/hub?page_id=3438#ref-61\"><sup>[61]<\/sup><\/a><\/p>\n\n<h4 class=\"wp-block-heading\">Lo que esto a\u00f1ade al caso multimodelos<\/h4>\n\n<p>La investigaci\u00f3n acad\u00e9mica estableci\u00f3 que los conjuntos superan a los modelos individuales. El DMI muestra que el mecanismo de detecci\u00f3n se activa en el uso real de producci\u00f3n, no en puntos de referencia dise\u00f1ados para ello, no en condiciones de laboratorio, sino en conversaciones en vivo con usuarios de pago sobre preguntas reales. El mecanismo que predice la investigaci\u00f3n es el mecanismo que muestran los datos de producci\u00f3n.  <\/p>\n\n<p>La advertencia honesta restante de la secci\u00f3n anterior sigue siendo v\u00e1lida: la validaci\u00f3n cruzada aumenta la probabilidad de detecci\u00f3n, no garantiza la ausencia de alucinaciones. Dos hallazgos en este conjunto de datos refuerzan ese punto. Primero, los modelos ocasionalmente todav\u00eda est\u00e1n de acuerdo en la misma respuesta incorrecta; el DMI no detecta errores de datos de entrenamiento compartidos. Segundo, el DMI cuenta las contradicciones y correcciones, no sus resoluciones. Saber que dos modelos discreparon no es lo mismo que saber cu\u00e1l ten\u00eda raz\u00f3n.    <\/p>\n\n<p><em>El desacuerdo es la se\u00f1al; la verificaci\u00f3n sigue siendo tarea del usuario.<\/em><\/p>\n\n<h3 class=\"wp-block-heading\">Lo que la validaci\u00f3n cruzada detecta (y lo que no)<\/h3>\n\n<p>Detecta bien:<\/p>\n\n<ul class=\"wp-block-list\">\n<li>Citas y referencias fabricadas (diferentes modelos citan diferentes fuentes; las citas contradictorias se\u00f1alan el problema)<\/li>\n\n\n\n<li>Estad\u00edsticas y puntos de datos inventados (es poco probable que el 47% fabricado de un modelo coincida con el 47% fabricado de otro modelo)<\/li>\n\n\n\n<li>Entidades, jurisprudencia, trabajos de investigaci\u00f3n inventados (es dif\u00edcil para cinco modelos inventar de forma independiente el mismo caso inexistente)<\/li>\n\n\n\n<li>Errores de razonamiento donde un modelo toma un atajo l\u00f3gico que otro modelo cuestiona<\/li>\n<\/ul>\n\n<p>Detecta menos bien:<\/p>\n\n<ul class=\"wp-block-list\">\n<li>Errores presentes en datos de entrenamiento compartidos (todos los modelos entrenados con el mismo art\u00edculo incorrecto de Wikipedia reproducir\u00e1n el mismo error)<\/li>\n\n\n\n<li>Conceptos err\u00f3neos ampliamente aceptados codificados en m\u00faltiples conjuntos de entrenamiento<\/li>\n\n\n\n<li>Sesgos sistem\u00e1ticos compartidos entre familias de modelos (por ejemplo, narrativas hist\u00f3ricas centradas en Occidente)<\/li>\n<\/ul>\n\n<p>La validaci\u00f3n multimodelos es una capa de detecci\u00f3n, no una garant\u00eda. Aumenta la probabilidad de detectar alucinaciones. No las elimina. Las organizaciones que obtienen los mejores resultados combinan la validaci\u00f3n cruzada multimodelos con la verificaci\u00f3n espec\u00edfica del dominio, los puntos de control de revisi\u00f3n humana y la fundamentaci\u00f3n habilitada por herramientas.    <a href=\"\/hub?page_id=3438#ref-27\"><sup>[27]<\/sup><\/a><\/p>\n\n<h3 class=\"wp-block-heading\">La brecha de investigaci\u00f3n<\/h3>\n\n<p>Todav\u00eda hay informes p\u00fablicos estandarizados limitados que midan \u00abla validaci\u00f3n cruzada de cinco modelos reduce la alucinaci\u00f3n en un X%\u00bb en todos los dominios bajo condiciones controladas. La mejora del 8% del marco UAF es el n\u00famero \u00fanico m\u00e1s s\u00f3lido. Est\u00e1n surgiendo estudios de casos de producci\u00f3n de plataformas multimodelos, pero a\u00fan no se han publicado en revistas revisadas por pares.  <\/p>\n\n<p>La posici\u00f3n m\u00e1s segura basada en la evidencia: la orquestaci\u00f3n multimodelos es una arquitectura de reducci\u00f3n de riesgos que aumenta la probabilidad de detecci\u00f3n. No es una garant\u00eda de cero alucinaciones. Ning\u00fan enfoque logra esa garant\u00eda, como demuestran las pruebas matem\u00e1ticas en la <a href=\"\/hub?page_id=3438#section-11\">Secci\u00f3n 11<\/a>.  <\/p>\n\n<h3 class=\"wp-block-heading\">Pruebe la verificaci\u00f3n de hechos entre modelos con su propia pregunta.<\/h3>\n\n<p>Pregunte algo donde la precisi\u00f3n importe. Observe c\u00f3mo responden cinco modelos de IA y vea d\u00f3nde discrepan. <\/p>\n\n<p><a href=\"https:\/\/suprmind.ai\/playground\">Abrir el Playground<\/a><\/p>\n\n<h2 class=\"wp-block-heading\">Herramientas de detecci\u00f3n de alucinaciones de IA<\/h2>\n\n<h3 class=\"wp-block-heading\">El panorama de las herramientas<\/h3>\n\n<p>El mercado de detecci\u00f3n de alucinaciones creci\u00f3 un 318% de 2023 a 2025, con 12.800 millones de d\u00f3lares invertidos en soluciones dedicadas. Esta tasa de crecimiento refleja la seriedad con la que las empresas se toman el problema y lo inadecuadas que son las salvaguardas integradas en los modelos para el uso en producci\u00f3n.  <a href=\"\/hub?page_id=3438#ref-35\"><sup>[35]<\/sup><\/a><\/p>\n\n<h3 class=\"wp-block-heading\">Principales herramientas de detecci\u00f3n (2025-2026)<\/h3>\n\n<figure class=\"wp-block-table\"><table class=\"has-fixed-layout\"><tbody><tr><td>Herramienta<\/td><td>Precisi\u00f3n de detecci\u00f3n<\/td><td>Punto fuerte clave<\/td><\/tr><tr><td>W&amp;B Weave<\/td><td>91%<\/td><td>Razonamiento en cadena de pensamiento, integraci\u00f3n de flujo de trabajo de producci\u00f3n<\/td><\/tr><tr><td>Arize Phoenix<\/td><td>90%<\/td><td>Salidas basadas en etiquetas, puntuaci\u00f3n de confianza, monitorizaci\u00f3n en tiempo real<\/td><\/tr><tr><td>Comet Opik<\/td><td>72%<\/td><td>100% de precisi\u00f3n (cero falsos positivos), enfoque conservador<\/td><\/tr><tr><td>Galileo<\/td><td>N\/A<\/td><td>Puntuaci\u00f3n del \u00cdndice de Alucinaci\u00f3n, bloqueo en tiempo real, integraci\u00f3n CI\/CD<\/td><\/tr><tr><td>Verificaci\u00f3n de citas GPTZero<\/td><td>99%+<\/td><td>Citas verificadas contra bases de datos web\/acad\u00e9micas<\/td><\/tr><tr><td>AGI Futura<\/td><td>N\/A<\/td><td>Detecci\u00f3n de alucinaciones espec\u00edficas de RAG, monitorizaci\u00f3n de experimentos<\/td><\/tr><tr><td>Pythia<\/td><td>N\/A<\/td><td>Verificaci\u00f3n de hechos basada en grafos de conocimiento, industrias reguladas<\/td><\/tr><\/tbody><\/table><\/figure>\n\n<p><em>Fuentes: Benchmark AIMultiple (2026) <\/em><a href=\"\/hub?page_id=3438#ref-46\"><em><sup>[46]<\/sup><\/em><\/a><em>, Future AGI (2025) <\/em><a href=\"\/hub?page_id=3438#ref-47\"><em><sup>[47]<\/sup><\/em><\/a><em>, GPTZero\/Fortune <\/em><a href=\"\/hub?page_id=3438#ref-45\"><em><sup>[45]<\/sup><\/em><\/a><\/p>\n\n<h3 class=\"wp-block-heading\">Lo que significa la brecha de precisi\u00f3n<\/h3>\n\n<p>Las principales herramientas de detecci\u00f3n detectan el 90-91% de las alucinaciones. Esto significa que aproximadamente 1 de cada 10 resultados alucinados a\u00fan pasa desapercibido a trav\u00e9s de la mejor verificaci\u00f3n automatizada disponible. Para aplicaciones donde una sola alucinaci\u00f3n no detectada tiene consecuencias materiales \u2014documentos legales, decisiones m\u00e9dicas, informes financieros\u2014, la detecci\u00f3n automatizada es una capa necesaria, pero no suficiente.  <\/p>\n\n<p>El enfoque de Comet Opik merece una menci\u00f3n aparte. Con una precisi\u00f3n de detecci\u00f3n del 72%, detecta menos alucinaciones. Pero tiene una precisi\u00f3n del 100% \u2014cero falsos positivos\u2014. Nunca marca una afirmaci\u00f3n correcta como alucinada. Para flujos de trabajo donde las falsas alarmas son costosas (interrumpir a un m\u00e9dico en medio de un diagn\u00f3stico, marcar una cita legal correcta para revisi\u00f3n), esta compensaci\u00f3n puede ser preferible.    <\/p>\n\n<h2 class=\"wp-block-heading\">Progresi\u00f3n hist\u00f3rica<\/h2>\n\n<h3 class=\"wp-block-heading\">Cuatro a\u00f1os de mejora en tareas simples<\/h3>\n\n<figure class=\"wp-block-table\"><table class=\"has-fixed-layout\"><tbody><tr><td>A\u00f1o<\/td><td>Mejor tasa de alucinaci\u00f3n<\/td><td>Contexto<\/td><\/tr><tr><td>2021<\/td><td>~21,8%<\/td><td>Era temprana de GPT-3<\/td><\/tr><tr><td>2022<\/td><td>~15,0%<\/td><td>Mejoras de alineaci\u00f3n RLHF<\/td><\/tr><tr><td>2023<\/td><td>~8,0%<\/td><td>Lanzamiento de GPT-4 y presi\u00f3n competitiva<\/td><\/tr><tr><td>2024<\/td><td>~3,0%<\/td><td>R\u00e1pida iteraci\u00f3n en todos los proveedores<\/td><\/tr><tr><td>2025<\/td><td><strong>0.7%<\/strong><\/td><td>Gemini-2.0-Flash en el conjunto de datos original de Vectara<\/td><\/tr><\/tbody><\/table><\/figure>\n\n<p><em>Fuentes: AllAboutAI <\/em><a href=\"\/hub?page_id=3438#ref-31\"><em><sup>[31]<\/sup><\/em><\/a><em>; Vectara HHEM <\/em><a href=\"\/hub?page_id=3438#ref-1\"><em><sup>[1]<\/sup><\/em><\/a><\/p>\n\n<figure class=\"wp-block-image size-large\"><img decoding=\"async\" width=\"1024\" height=\"569\" src=\"https:\/\/suprmind.ai\/hub\/wp-content\/uploads\/2026\/05\/image-2-1024x569.png\" alt=\"\" class=\"wp-image-4097\" srcset=\"https:\/\/suprmind.ai\/hub\/wp-content\/uploads\/2026\/05\/image-2-1024x569.png 1024w, https:\/\/suprmind.ai\/hub\/wp-content\/uploads\/2026\/05\/image-2-300x167.png 300w, https:\/\/suprmind.ai\/hub\/wp-content\/uploads\/2026\/05\/image-2-768x427.png 768w, https:\/\/suprmind.ai\/hub\/wp-content\/uploads\/2026\/05\/image-2-1536x853.png 1536w, https:\/\/suprmind.ai\/hub\/wp-content\/uploads\/2026\/05\/image-2.png 1800w\" sizes=\"(max-width: 1024px) 100vw, 1024px\" \/><\/figure>\n\n<p><em>Cuatro a\u00f1os de mejora en la alucinaci\u00f3n en tareas de resumen simples: 21,8% \u2192 0,7%. Fuentes: Vectara [1], AllAboutAI [31] <\/em><\/p>\n\n<p>Eso es una reducci\u00f3n del 96% en las tasas de alucinaci\u00f3n del mejor modelo en cuatro a\u00f1os en el benchmark de resumen de Vectara. La tendencia es real y pronunciada. <\/p>\n\n<h3 class=\"wp-block-heading\">La comprobaci\u00f3n de la realidad<\/h3>\n\n<p>Estas mejoras miden la versi\u00f3n m\u00e1s f\u00e1cil del problema: resumir documentos cortos sin a\u00f1adir hechos sin fundamento. Cuando se pasa a evaluaciones m\u00e1s dif\u00edciles y realistas, la imagen cambia: <\/p>\n\n<p>AA-Omniscience (preguntas de conocimiento dif\u00edciles): 36 de 40 modelos tienen m\u00e1s probabilidades de dar una respuesta incorrecta y segura que una correcta. Solo cuatro modelos lograron un \u00cdndice de Omnisciencia positivo.  <a href=\"\/hub?page_id=3438#ref-2\"><sup>[2]<\/sup><\/a><\/p>\n\n<p>HalluHard (conversaciones realistas): Incluso el mejor modelo (Claude Opus 4.5 con b\u00fasqueda web) alucina el 30% de las veces. La mayor\u00eda de los modelos se encuentran en el rango del 50-70%.  <a href=\"\/hub?page_id=3438#ref-5\"><sup>[5]<\/sup><\/a><\/p>\n\n<p>Nuevo conjunto de datos de Vectara (documentos de longitud empresarial): las tasas aumentan de 3 a 10 veces en comparaci\u00f3n con el conjunto de datos original. La mejor puntuaci\u00f3n es del 3,3%, no del 0,7%.  <a href=\"\/hub?page_id=3438#ref-1\"><sup>[1]<\/sup><\/a><\/p>\n\n<p>Tareas espec\u00edficas del dominio: la alucinaci\u00f3n legal promedia el 18,7%. La m\u00e9dica promedia el 15,6%. Estas no han mostrado la misma trayectoria de mejora que el resumen general.   <a href=\"\/hub?page_id=3438#ref-31\"><sup>[31]<\/sup><\/a><\/p>\n\n<p>La mejora es real. Pero extrapolar de puntos de referencia simples a la fiabilidad empresarial es un error que los datos no respaldan. <\/p>\n\n<h2 class=\"wp-block-heading\">Metodolog\u00eda y c\u00f3mo leer estos datos<\/h2>\n\n<h3 class=\"wp-block-heading\">Fuentes<\/h3>\n\n<p>Esta p\u00e1gina se basa en las siguientes fuentes primarias:<\/p>\n\n<p>Benchmarks: Vectara HHEM Leaderboard (tanto el conjunto de datos original de ~1.000 documentos como el conjunto de datos actualizado de 7.700 art\u00edculos), Artificial Analysis AA-Omniscience, Google DeepMind FACTS Benchmark, OpenAI SimpleQA y PersonQA, HalluHard (consorcio de investigaci\u00f3n suizo-alem\u00e1n) y el estudio de precisi\u00f3n de citas de Columbia Journalism Review.<\/p>\n\n<p>Tarjetas de sistema e informes t\u00e9cnicos: tarjeta de sistema OpenAI GPT-5, actualizaci\u00f3n de implementaci\u00f3n GPT-5.2, tarjeta de sistema o3\/o4-mini, anuncios de modelos Anthropic para Claude Opus 4.5\/4.6 y Sonnet 4.6, documento de metodolog\u00eda Google DeepMind FACTS.<\/p>\n\n<p>Estudios de la industria y datos de incidentes: estudio de IA legal de Stanford RegLab\/HAI, investigaci\u00f3n de alucinaciones m\u00e9dicas de MedRxiv, Encuesta Global de IA de Deloitte, an\u00e1lisis de costes de IA empresarial de Forrester, compilaci\u00f3n de estad\u00edsticas de alucinaciones de AllAboutAI, rastreador de sentencias judiciales de Business Insider, base de datos de alucinaciones de citas legales de Damien Charlotin y el an\u00e1lisis NeurIPS 2025 de GPTZero\/Fortune.<\/p>\n\n<p>Investigaci\u00f3n acad\u00e9mica: Xu et al. (2024) sobre la imposibilidad de eliminar las alucinaciones, Karpowicz (2025) sobre la imposibilidad matem\u00e1tica en tres marcos de prueba, marco de fusi\u00f3n consciente de la incertidumbre de Amazon\/ACM WWW 2025, verificaci\u00f3n en tiempo de entrenamiento VeriFY de ICML 2025, cadena de verificaci\u00f3n de ACL 2024.<\/p>\n\n<p>Adiciones de abril de 2026: Informe del \u00cdndice de IA de Stanford HAI 2026 (benchmark de adulaci\u00f3n y base de datos de incidentes de IA), instant\u00e1nea de Vectara HHEM del 20 de abril de 2026, estado de Artificial Analysis AA-Omniscience de abril de 2026 (Claude Opus 4.7, GPT-5.5, Grok 4.20), base de datos de Damien Charlotin (m\u00e1s de 1.200 casos legales), OpenAI HealthBench Professional y la edici\u00f3n de abril de 2026 del \u00cdndice de Divergencia Multimodelo de Suprmind.<\/p>\n\n<h3 class=\"wp-block-heading\">Datos de producci\u00f3n de primera mano<\/h3>\n\n<p>Esta p\u00e1gina ahora incluye datos del \u00cdndice de Divergencia Multimodelo (DMI) de Suprmind, una publicaci\u00f3n trimestral que rastrea los patrones de desacuerdo y correcci\u00f3n entre modelos en el uso real de producci\u00f3n de la plataforma Suprmind. La edici\u00f3n de abril de 2026 cubre 1.324 turnos de conversaci\u00f3n multimodelos de 299 usuarios en 10 dominios durante un per\u00edodo de 45 d\u00edas (del 5 de marzo al 19 de abril de 2026). <a href=\"\/hub?page_id=3438#ref-61\"><sup>[61]<\/sup><\/a><a href=\"\/hub?page_id=3438#ref-62\"><sup>[62]<\/sup><\/a> <\/p>\n\n<p>Lo que mide el DMI: con qu\u00e9 frecuencia los modelos de IA se contradicen, se corrigen y sacan a la luz ideas que otros modelos pasaron por alto cuando se ejecutan juntos en la misma pregunta.<\/p>\n\n<p>Lo que el DMI no mide: la precisi\u00f3n f\u00e1ctica frente a la verdad. El DMI registra que un modelo contradijo a otro. No juzga qu\u00e9 modelo era correcto. El desacuerdo se trata como una se\u00f1al de detecci\u00f3n, no como un veredicto sobre la precisi\u00f3n.   <\/p>\n\n<p>Tratamos los datos del DMI y los benchmarks de precisi\u00f3n como complementarios, no intercambiables. Vectara, AA-Omniscience, FACTS y los otros benchmarks de esta p\u00e1gina miden con qu\u00e9 frecuencia los modelos se equivocan de forma aislada. El DMI mide con qu\u00e9 frecuencia los modelos se detectan entre s\u00ed en producci\u00f3n. Ambas preguntas importan. No son la misma pregunta.    <\/p>\n\n<p>El conjunto de datos DMI, la metodolog\u00eda y los doce archivos CSV subyacentes est\u00e1n disponibles p\u00fablicamente en la p\u00e1gina enlazada en las referencias. Los datos de cuentas internas est\u00e1n excluidos; el conjunto de datos publicado es solo para usuarios externos. <\/p>\n\n<p>Frecuencia de actualizaci\u00f3n: trimestral. Pr\u00f3xima edici\u00f3n: julio de 2026. <\/p>\n\n<h3 class=\"wp-block-heading\">Lo que excluimos<\/h3>\n\n<p>TruthfulQA \u2014 parcialmente saturado. Incluido en los datos de entrenamiento del modelo, contiene algunas respuestas doradas incorrectas y puede ser manipulado para lograr un 79,6% de precisi\u00f3n mediante un \u00e1rbol de decisi\u00f3n que nunca ve la pregunta. <\/p>\n\n<p>HaluEval \u2014 resoluble por longitud de respuesta. Un clasificador que marca las respuestas de m\u00e1s de 27 caracteres como alucinadas logra un 93,3% de precisi\u00f3n, lo que socava la validez del benchmark para la comparaci\u00f3n de modelos. <\/p>\n\n<p>Benchmarks comunitarios no verificados \u2014 se excluyeron las publicaciones de Reddit, las afirmaciones de Twitter y los art\u00edculos de blog que citaban n\u00fameros de benchmark sin documentaci\u00f3n de metodolog\u00eda o informaci\u00f3n de reproducibilidad, a menos que pudieran ser cotejados con fuentes primarias.<\/p>\n\n<p>Afirmaciones de marketing de proveedores \u2014 cuando un proveedor afirma una tasa de alucinaci\u00f3n espec\u00edfica, pero los benchmarks independientes muestran n\u00fameros diferentes, ambos se presentan con la discrepancia se\u00f1alada. Esto se aplica particularmente a los benchmarks internos de Grok de xAI frente a los resultados de AA-Omniscience. <\/p>\n\n<h3 class=\"wp-block-heading\">Fechas y versiones de los benchmarks<\/h3>\n\n<p>Las instant\u00e1neas de Vectara est\u00e1n fechadas. El conjunto de datos original se evalu\u00f3 hasta abril de 2025. El conjunto de datos actualizado cubre de noviembre de 2025 a febrero de 2026, con la instant\u00e1nea m\u00e1s reciente fechada el 25 de febrero de 2026. AA-Omniscience se lanz\u00f3 en noviembre de 2025 y se ha actualizado a medida que se lanzan nuevos modelos. FACTS se public\u00f3 en diciembre de 2025. Las tarjetas de sistema de OpenAI est\u00e1n fechadas seg\u00fan la versi\u00f3n.     <\/p>\n\n<p>Cuando dos benchmarks muestran n\u00fameros diferentes para el mismo modelo, esto generalmente refleja diferentes fechas de evaluaci\u00f3n, diferentes versiones del conjunto de datos o diferentes aspectos de la factualidad que se est\u00e1n midiendo. Se\u00f1alamos estas discrepancias en lugar de promediarlas. <\/p>\n\n<h3 class=\"wp-block-heading\">Lagunas de datos conocidas<\/h3>\n\n<p>Los modelos Perplexity Sonar no figuran en AA-Omniscience ni en Vectara. Perplexity utiliza modelos subyacentes (incluidas variantes de GPT y DeepSeek) lo que hace que la atribuci\u00f3n de alucinaciones sea compleja. Sus resultados de SimpleQA y Search Arena se incluyen cuando est\u00e1n disponibles.  <\/p>\n\n<p>Claude Opus 4.6 y Sonnet 4.6 se lanzaron en febrero de 2026. Los datos de AA-Omniscience est\u00e1n apareciendo, pero son tempranos. Las puntuaciones del nuevo conjunto de datos de Vectara a\u00fan no est\u00e1n disponibles para la generaci\u00f3n 4.6.  <\/p>\n\n<p>GPT-5.3 tiene datos de AA-Omniscience (51,8% de precisi\u00f3n para la variante Codex), pero una cobertura limitada en otros benchmarks a partir de este escrito.<\/p>\n\n<p>Los desgloses espec\u00edficos del dominio para la mayor\u00eda de los benchmarks prueban el conocimiento general. Los datos de alucinaci\u00f3n espec\u00edficos de la industria (financiera, m\u00e9dica, legal) provienen principalmente de estudios especializados en lugar de los principales leaderboards. <\/p>\n\n<p>Las cifras de costes empresariales provienen de encuestas y estimaciones en lugar de bases de datos de incidentes verificadas. La cifra de 67.400 millones de d\u00f3lares, los costes de verificaci\u00f3n por empleado y los rangos por incidente deben tratarse como indicativos en lugar de precisos. <\/p>\n\n<h3 class=\"wp-block-heading\">Frecuencia de actualizaci\u00f3n<\/h3>\n\n<p>Mensual: instant\u00e1neas del leaderboard de Vectara, nuevas adiciones de modelos de AA-Omniscience, actualizaciones de tarjetas de sistema de OpenAI, nuevos datos de lanzamiento de modelos.<\/p>\n\n<p>Trimestral: cambios en el leaderboard de FACTS, introducci\u00f3n de nuevos benchmarks, hallazgos de art\u00edculos acad\u00e9micos, desarrollos regulatorios (particularmente la aplicaci\u00f3n de la Ley de IA de la UE relacionada con los requisitos de precisi\u00f3n).<\/p>\n\n<p>Seg\u00fan sea necesario: lanzamientos importantes de modelos, informes de incidentes significativos, hitos de sentencias judiciales y cambios en la metodolog\u00eda de los benchmarks.<\/p>\n\n<p>Preguntas frecuentes<\/p>\n\n<h2 class=\"wp-block-heading\">Preguntas frecuentes sobre las alucinaciones de IA<\/h2>\n\n<p>\u00bfQu\u00e9 es una tasa de alucinaci\u00f3n de IA?<\/p>\n\n<p>Una tasa de alucinaci\u00f3n de IA mide con qu\u00e9 frecuencia un modelo genera informaci\u00f3n falsa o fabricada presentada como un hecho. La tasa var\u00eda seg\u00fan el benchmark porque diferentes pruebas miden diferentes modos de fallo. Vectara mide con qu\u00e9 frecuencia un modelo a\u00f1ade hechos inventados al resumir un documento. AA-Omniscience mide con qu\u00e9 frecuencia un modelo da una respuesta incorrecta y segura en lugar de admitir que no sabe. FACTS mide la factualidad en cuatro dimensiones: fundamentaci\u00f3n, multimodal, conocimiento param\u00e9trico y b\u00fasqueda. Un modelo puede obtener un 0,7% en Vectara y un 88% en AA-Omniscience simult\u00e1neamente porque las pruebas miden cosas completamente diferentes.     <\/p>\n\n<p>\u00bfQu\u00e9 modelo de IA tiene la tasa de alucinaci\u00f3n m\u00e1s baja en 2026?<\/p>\n\n<p>No hay una respuesta \u00fanica, depende completamente de la tarea. En preguntas de conocimiento donde el modelo debe admitir ignorancia: Claude 4.1 Opus logr\u00f3 un 0% de alucinaci\u00f3n en AA-Omniscience al negarse a responder en lugar de adivinar. En resumen de documentos: Gemini-2.0-Flash lidera el conjunto de datos original de Vectara con una tasa de alucinaci\u00f3n del 0,7%. En factualidad multidimensional: Gemini 3 Pro obtuvo 68,8 en el benchmark FACTS. En tareas conversacionales realistas: Claude Opus 4.5 logr\u00f3 un 30% en HalluHard con la b\u00fasqueda web habilitada. Ning\u00fan modelo \u00fanico lidera en todos los benchmarks.     <\/p>\n\n<p>\u00bfCu\u00e1l es la tasa de alucinaci\u00f3n de Claude en 2026?<\/p>\n\n<p>La tasa de alucinaci\u00f3n de Claude var\u00eda significativamente seg\u00fan la versi\u00f3n del modelo y el benchmark. Claude 4.1 Opus: 0% de alucinaci\u00f3n en AA-Omniscience (se niega a responder en lugar de adivinar), puntuaci\u00f3n FACTS 46,5. Claude Opus 4.6: 12,2% en el nuevo conjunto de datos de Vectara, 46,4% de precisi\u00f3n en AA-Omniscience, \u00cdndice de Omnisciencia 14. Claude Opus 4.5: 45,7% de precisi\u00f3n en AA-Omniscience con una tasa de alucinaci\u00f3n del 58%, puntuaci\u00f3n FACTS 51,3, 30% en HalluHard. Claude Sonnet 4.6: 10,6% en el nuevo conjunto de datos de Vectara, aproximadamente 38% de tasa de alucinaci\u00f3n en AA-Omniscience. Claude 4.5 Haiku: 25% de tasa de alucinaci\u00f3n en AA-Omniscience, la tercera m\u00e1s baja de cualquier modelo probado. En el conjunto de datos m\u00e1s dif\u00edcil de Vectara, los modelos Claude superan consistentemente el 10%.      <\/p>\n\n<p>\u00bfCu\u00e1l es la tasa de alucinaci\u00f3n de GPT-5?<\/p>\n\n<p>GPT-5.3 Codex: 51,8% de precisi\u00f3n en AA-Omniscience, a\u00fan sin datos de Vectara. GPT-5.2 (xhigh): 10,8% en el nuevo conjunto de datos de Vectara, 43,8% de precisi\u00f3n en AA-Omniscience con aproximadamente un 78% de tasa de alucinaci\u00f3n, puntuaci\u00f3n FACTS 61,8, HalluHard 38,2%. GPT-5: 1,4% en el Vectara original, m\u00e1s del 10% en el nuevo conjunto de datos, 40,7% de precisi\u00f3n en AA-Omniscience. GPT-4.1: 2,0% en el Vectara original, 5,6% en el nuevo, puntuaci\u00f3n FACTS 50,5. GPT-5.2 obtiene la puntuaci\u00f3n m\u00e1s alta entre los modelos de OpenAI en FACTS (61,8), pero alucina aproximadamente un 78% en las preguntas de conocimiento dif\u00edciles de AA-Omniscience.    <\/p>\n\n<p>\u00bfCu\u00e1l es la tasa de alucinaci\u00f3n de Grok en 2026?<\/p>\n\n<p>Grok 4: 4,8% en el Vectara original, m\u00e1s del 10% en el nuevo conjunto de datos, 41,4% de precisi\u00f3n en AA-Omniscience con una tasa de alucinaci\u00f3n del 64%, puntuaci\u00f3n FACTS 53,6. Grok 4.1 Fast Reasoning: 20,2% en el nuevo conjunto de datos de Vectara (el m\u00e1s alto de cualquier modelo de vanguardia probado), 72% de tasa de alucinaci\u00f3n en AA-Omniscience, puntuaci\u00f3n FACTS 36,0. Grok-3: 2,1% en el Vectara original, 5,8% en el nuevo, 94% de alucinaci\u00f3n de citas en CJR. La variante Grok 4.1 Fast Reasoning funciona notablemente peor que la base Grok 4, lo que sugiere que el modo de razonamiento a\u00f1ade inferencias que se convierten en alucinaciones en tareas f\u00e1cticas.   <\/p>\n\n<p>\u00bfCu\u00e1l es la tasa de alucinaci\u00f3n de Gemini en 2026?<\/p>\n\n<p>Gemini 3.1 Pro: 10,4% en el nuevo conjunto de datos de Vectara, 55,3% de precisi\u00f3n en AA-Omniscience (la m\u00e1s alta de cualquier modelo) con una tasa de alucinaci\u00f3n del 50%, \u00cdndice de Omnisciencia 33 (el m\u00e1s alto en general). Gemini 3 Pro: 13,6% en el nuevo Vectara, 55,9% de precisi\u00f3n, pero 88% de alucinaci\u00f3n en AA-Omniscience, puntuaci\u00f3n FACTS 68,8 (la m\u00e1s alta en general). Gemini 2.0 Flash: 0,7% en el Vectara original (el m\u00e1s bajo de cualquier modelo), 3,3% en el nuevo conjunto de datos. La actualizaci\u00f3n 3.1 Pro fue significativa: la alucinaci\u00f3n se redujo del 88% al 50% con solo un 1% de p\u00e9rdida de precisi\u00f3n. Los modelos Gemini son los que m\u00e1s saben, pero fabrican de forma m\u00e1s agresiva cuando no est\u00e1n seguros.    <\/p>\n\n<p>\u00bfCu\u00e1l es la tasa de alucinaci\u00f3n de Perplexity?<\/p>\n\n<p>Perplexity Sonar Pro obtuvo un 37% de alucinaci\u00f3n de citas en el benchmark de Columbia Journalism Review, la m\u00e1s baja de cualquier modelo probado, pero a\u00fan as\u00ed significa que m\u00e1s de una de cada tres fuentes citadas conten\u00eda afirmaciones fabricadas. ChatGPT alcanz\u00f3 el 67% en la misma prueba. Gemini alcanz\u00f3 el 76%. Grok-3 lleg\u00f3 al 94%. El modo de fallo de Perplexity es singularmente peligroso: las URL que cita son reales, pero la informaci\u00f3n que atribuye a esas fuentes a veces es fabricada. No existen datos de benchmark de Vectara o AA-Omniscience para los modelos Perplexity Sonar.     <\/p>\n\n<p>\u00bfPor qu\u00e9 diferentes benchmarks dan diferentes tasas de alucinaci\u00f3n para el mismo modelo de IA?<\/p>\n\n<p>Diferentes benchmarks miden modos de fallo fundamentalmente distintos. Vectara prueba la fidelidad del resumen. AA-Omniscience prueba la calibraci\u00f3n del conocimiento. FACTS prueba la factualidad multidimensional en tareas de fundamentaci\u00f3n, multimodalidad, conocimiento param\u00e9trico y b\u00fasqueda. CJR prueba la precisi\u00f3n de las citas. Un modelo como Grok-3 obtiene un 2,1% en Vectara (se adhiere bien a los documentos fuente) pero un 94% en CJR (fabrica casi todas las citas). Ambos n\u00fameros son precisos. Miden diferentes habilidades. El enfoque responsable: cotejar al menos dos benchmarks que midan cosas diferentes, especificar la versi\u00f3n exacta del modelo y la configuraci\u00f3n, y se\u00f1alar si la b\u00fasqueda web o el modo de razonamiento estaban habilitados.        <\/p>\n\n<p>\u00bfSe pueden eliminar por completo las alucinaciones de la IA?<\/p>\n\n<p>No. Dos pruebas matem\u00e1ticas independientes han demostrado que la alucinaci\u00f3n es una limitaci\u00f3n fundamental de la arquitectura del modelo de lenguaje. No es un problema de ingenier\u00eda que espere una soluci\u00f3n. Las mejores tasas de alucinaci\u00f3n han disminuido del 21,8% al 0,7% en cuatro a\u00f1os en tareas de resumen simples. Pero en tareas m\u00e1s dif\u00edciles \u2014preguntas legales (18,7% de media), consultas m\u00e9dicas (15,6%), preguntas de conocimiento que requieren que el modelo se base en sus propios datos de entrenamiento\u2014 las tasas siguen siendo altas en todos los modelos. La comunidad de investigaci\u00f3n ha pasado de eliminar las alucinaciones a gestionar el riesgo de alucinaci\u00f3n mediante la detecci\u00f3n, el marcado, la contenci\u00f3n y la validaci\u00f3n cruzada. El acceso a la b\u00fasqueda web es el mayor reductor, disminuyendo las tasas de alucinaci\u00f3n entre un 73% y un 86% cuando est\u00e1 habilitado.      <\/p>\n\n<p>\u00bfCu\u00e1nto cuestan las alucinaciones de la IA a las empresas?<\/p>\n\n<p>Las p\u00e9rdidas empresariales globales por alucinaciones de IA alcanzaron un estimado de 67.400 millones de d\u00f3lares en 2024. El 47% de los ejecutivos empresariales informaron haber tomado decisiones importantes bas\u00e1ndose en contenido generado por IA no verificado. El 66% de los usuarios conf\u00edan en la salida de la IA sin evaluar su precisi\u00f3n. Hay m\u00e1s de 944 casos legales documentados que involucran informaci\u00f3n falsa generada por IA. Los costes espec\u00edficos del dominio oscilan entre 18.000 d\u00f3lares por incidente de servicio al cliente y 2,4 millones de d\u00f3lares en casos de negligencia m\u00e9dica. La FDA ha autorizado m\u00e1s de 1.350 dispositivos m\u00e9dicos mejorados con IA, con 60 dispositivos involucrados en 182 retiradas del mercado.     <\/p>\n\n<p>\u00bfEl uso de m\u00faltiples modelos de IA reduce la alucinaci\u00f3n?<\/p>\n\n<p>La investigaci\u00f3n apoya cada vez m\u00e1s esto. Diferentes modelos de IA rara vez alucinan la misma informaci\u00f3n falsa porque tienen diferentes datos de entrenamiento, diferentes arquitecturas y diferentes puntos ciegos. Un estudio del marco UAF midi\u00f3 una mejora del 8% en la precisi\u00f3n a trav\u00e9s de enfoques de conjunto multimodelos. El desacuerdo entre modelos detecta fabricaciones espec\u00edficamente porque los modos de fallo no se superponen. Cuando tres modelos analizan la misma pregunta y dos discrepan con el tercero, el desacuerdo en s\u00ed mismo es una se\u00f1al de que una afirmaci\u00f3n necesita revisi\u00f3n humana. Este es el principio detr\u00e1s de las plataformas de orquestaci\u00f3n multi-IA que dirigen las preguntas a m\u00faltiples modelos de vanguardia simult\u00e1neamente.      <a href=\"https:\/\/suprmind.ai\/hub\/es\/como-suprmind-combate-las-alucinaciones-de-ia\/\">Vea c\u00f3mo Suprmind utiliza este enfoque \u2192<\/a><\/p>\n\n<h2 class=\"wp-block-heading\">Referencias y fuentes<\/h2>\n\n<h3 class=\"wp-block-heading\">Benchmarks y Leaderboards<\/h3>\n\n<ul class=\"wp-block-list\">\n<li>Vectara. \u00abHallucination Leaderboard (HHEM-2.3)\u00bb. Repositorio de GitHub. \u00daltima actualizaci\u00f3n: 25 de febrero de 2026.    <a href=\"https:\/\/github.com\/vectara\/hallucination-leaderboard\">github.com\/vectara\/hallucination-leaderboard<\/a><\/li>\n\n\n\n<li>Artificial Analysis. \u00abAA-Omniscience: Knowledge and Hallucination Benchmark\u00bb. Noviembre de 2025.   <a href=\"https:\/\/artificialanalysis.ai\/evaluations\/omniscience\">artificialanalysis.ai\/evaluations\/omniscience<\/a><\/li>\n\n\n\n<li>Google DeepMind. \u00abFACTS Grounding: Evaluating and Improving Factuality in Large Language Models\u00bb. FACTS Benchmark Suite, diciembre de 2025.  <\/li>\n\n\n\n<li>OpenAI. \u00abSimpleQA: Measuring Short-form Factuality\u00bb. OpenAI Research, 2024.  <\/li>\n\n\n\n<li>M\u00fcller, R. et al. \u00abHalluHard: A Challenging Hallucination Benchmark for Realistic Conversations\u00bb. 2025.  <a href=\"https:\/\/the-decoder.com\/new-benchmark-shows-ai-models-still-hallucinate-far-too-often\/\">the-decoder.com<\/a><\/li>\n\n\n\n<li>Columbia Journalism Review. \u00abAI Citation Accuracy Study\u00bb. Marzo de 2025.  <\/li>\n\n\n\n<li>OpenAI. \u00abHALOGEN: Evaluating Hallucination of Generative Foundation Models\u00bb. arXiv, 2024.  <a href=\"https:\/\/arxiv.org\/abs\/2404.00730\">arxiv.org\/abs\/2404.00730<\/a><\/li>\n<\/ul>\n\n<h3 class=\"wp-block-heading\">Tarjetas de sistema de modelos y anuncios de proveedores<\/h3>\n\n<ul class=\"wp-block-list\">\n<li>OpenAI. \u00abGPT-5 System Card\u00bb. Agosto de 2025.   <a href=\"https:\/\/wandb.ai\/byyoung3\/ml-news\/reports\/GPT-5-Benchmark-Scores---VmlldzoxMzkwMTYyMg\">Resumen de W&amp;B<\/a><\/li>\n\n\n\n<li>OpenAI. \u00abIntroducing GPT-5.2\u00bb. Diciembre de 2025.   <a href=\"https:\/\/openai.com\/index\/introducing-gpt-5-2\/\">openai.com<\/a><\/li>\n\n\n\n<li>OpenAI. \u00abGPT-5.3 Instant: Conversaciones cotidianas m\u00e1s fluidas y \u00fatiles\u00bb. Marzo de 2026.   <a href=\"https:\/\/openai.com\/index\/gpt-5-3-instant\/\">openai.com<\/a><\/li>\n\n\n\n<li>OpenAI. \u00abo3 and o4-mini System Card\u00bb. 2025.  <a href=\"https:\/\/cdn.openai.com\/pdf\/2221c875-02dc-4789-800b-e7758f3722c1\/o3-and-o4-mini-system-card.pdf\">openai.com (PDF)<\/a><\/li>\n\n\n\n<li>OpenAI. \u00abGPT-5 hallucinates less\u00bb. Mashable, agosto de 2025.   <a href=\"https:\/\/mashable.com\/article\/openai-gpt-5-hallucinates-less-system-card-data\">mashable.com<\/a><\/li>\n\n\n\n<li>Anthropic. \u00abIntroducing Claude Sonnet 4.6\u00bb. Febrero de 2026.   <a href=\"https:\/\/www.anthropic.com\/news\/claude-sonnet-4-6\">anthropic.com<\/a><\/li>\n\n\n\n<li>Anthropic. \u00abClaude Opus 4.5 Benchmarks and Analysis\u00bb. Artificial Analysis, noviembre de 2025.   <a href=\"https:\/\/artificialanalysis.ai\/articles\/claude-opus-4-5-benchmarks-and-analysis\">artificialanalysis.ai<\/a><\/li>\n\n\n\n<li>Artificial Analysis. \u00abGemini 3.1 Pro Preview: The new leader in AI\u00bb. Febrero de 2026.   <a href=\"https:\/\/artificialanalysis.ai\/articles\/gemini-3-1-pro-preview-new-leader-in-ai\">artificialanalysis.ai<\/a><\/li>\n\n\n\n<li>Artificial Analysis. \u00abGemini 3 Flash \u2014 Everything you need to know\u00bb. Diciembre de 2025.   <a href=\"https:\/\/artificialanalysis.ai\/articles\/gemini-3-flash-everything-you-need-to-know\">artificialanalysis.ai<\/a><\/li>\n\n\n\n<li>Digital Applied. \u00abGrok 4.1: xAI Emotional AI Complete Guide\u00bb. 2026.  <a href=\"https:\/\/www.digitalapplied.com\/blog\/grok-4-1-xai-complete-guide\">digitalapplied.com<\/a><\/li>\n\n\n\n<li>Perplexity AI. \u00abPerplexity Sonar Dominates New Search Arena Evaluation\u00bb. <a href=\"https:\/\/www.perplexity.ai\/hub\/blog\/perplexity-sonar-dominates-new-search-arena-evolution\">perplexity.ai<\/a> <\/li>\n\n\n\n<li>Perplexity AI. \u00abIntroducing the Sonar Pro API\u00bb. <a href=\"https:\/\/www.perplexity.ai\/hub\/blog\/introducing-the-sonar-pro-api\">perplexity.ai<\/a> <\/li>\n<\/ul>\n\n<h3 class=\"wp-block-heading\">Investigaci\u00f3n acad\u00e9mica \u2014 Teor\u00eda e imposibilidad de las alucinaciones<\/h3>\n\n<ul class=\"wp-block-list\">\n<li>Xu, Z. et al. \u00abHallucination is Inevitable: An Innate Limitation of Large Language Models\u00bb. arXiv, 2024.  <a href=\"https:\/\/arxiv.org\/abs\/2401.11817\">arxiv.org\/abs\/2401.11817<\/a><\/li>\n\n\n\n<li>Karpowicz, M. \u00abOn the Fundamental Impossibility of Hallucination Control in Large Language Models\u00bb. arXiv, 2025. <a href=\"https:\/\/www.arxiv.org\/abs\/2506.06382v3\">arxiv.org\/abs\/2506.06382v3<\/a><\/li>\n\n\n\n<li>OpenAI \/ Computerworld. \u00abOpenAI admite que las alucinaciones de IA son matem\u00e1ticamente inevitables\u00bb. <a href=\"https:\/\/www.computerworld.com\/article\/4059383\/openai-admits-ai-hallucinations-are-mathematically-inevitable-not-just-engineering-flaws.html\">computerworld.com<\/a> <\/li>\n<\/ul>\n\n<h3 class=\"wp-block-heading\">Investigaci\u00f3n acad\u00e9mica \u2014 T\u00e9cnicas de reducci\u00f3n de alucinaciones<\/h3>\n\n<ul class=\"wp-block-list\">\n<li>Dhuliawala, S. et al. \u00abChain-of-Verification Reduces Hallucination in Large Language Models\u00bb. ACL 2024 Findings.   <a href=\"https:\/\/aclanthology.org\/2024.findings-acl.212.pdf\">aclanthology.org<\/a><\/li>\n\n\n\n<li>Luo, Y. et al. \u00abUncertainty-Aware Fusion: An Ensemble Framework for Mitigating Hallucinations in Large Language Models\u00bb. Amazon \/ ACM WWW 2025.   <a href=\"https:\/\/arxiv.org\/abs\/2503.05757\">arxiv.org\/abs\/2503.05757<\/a><\/li>\n\n\n\n<li>Zhou, Y. et al. \u00abDo I Really Know? Learning Factual Self-Verification for LLMs (VeriFY)\u00bb. ICML 2025.   <a href=\"https:\/\/arxiv.org\/html\/2602.02018v1\">arxiv.org<\/a><\/li>\n\n\n\n<li>Singh, A. et al. \u00abCombining CoT, RAG, Self-Consistency, and Self-Verification\u00bb. arXiv, 2025.  <a href=\"https:\/\/arxiv.org\/abs\/2505.09031\">arxiv.org\/abs\/2505.09031<\/a><\/li>\n\n\n\n<li>Li, J. et al. \u00abMitigating Hallucination in Large Language Models (LLMs): Survey\u00bb. arXiv, 2025.  <a href=\"https:\/\/arxiv.org\/html\/2510.24476v1\">arxiv.org<\/a><\/li>\n<\/ul>\n\n<h3 class=\"wp-block-heading\">Investigaci\u00f3n acad\u00e9mica \u2014 Enfoques de conjunto y multimodelo<\/h3>\n\n<ul class=\"wp-block-list\">\n<li>Schoenegger, P. et al. \u00abWisdom of the silicon crowd: LLM ensemble prediction capabilities rival the human crowd\u00bb. PNAS \/ PMC, 2025.   <a href=\"https:\/\/pmc.ncbi.nlm.nih.gov\/articles\/PMC11800985\/\">pmc.ncbi.nlm.nih.gov<\/a><\/li>\n<\/ul>\n\n<h3 class=\"wp-block-heading\">Cr\u00edticas a la metodolog\u00eda de los bancos de pruebas<\/h3>\n\n<ul class=\"wp-block-list\">\n<li>Hilgard, S. \u00abGaming TruthfulQA: Simple Heuristics Exposed Dataset Weaknesses\u00bb. <a href=\"https:\/\/turntrout.com\/original-truthfulqa-weaknesses\">turntrout.com<\/a><\/li>\n\n\n\n<li>Li, J. et al. \u00abHaluEval: A Large-Scale Hallucination Evaluation Benchmark\u00bb. arXiv. Cr\u00edtica referenciada: solucionable mediante heur\u00edstica de longitud de respuesta.  <\/li>\n<\/ul>\n\n<h3 class=\"wp-block-heading\">Estudios e informes del sector<\/h3>\n\n<ul class=\"wp-block-list\">\n<li>AllAboutAI. \u00abEstad\u00edsticas de alucinaciones de IA e informe de investigaci\u00f3n 2025-2026\u00bb. Fuente de compilaci\u00f3n principal para tasas espec\u00edficas del dominio, cifras de impacto empresarial y datos de progresi\u00f3n hist\u00f3rica.  <\/li>\n\n\n\n<li>Deloitte. \u00abGlobal AI Survey 2025\u00bb. Fuente de estad\u00edsticas sobre la toma de decisiones ejecutivas (el 47 % tom\u00f3 decisiones basadas en contenido de IA no verificado).  <\/li>\n\n\n\n<li>Forrester. \u00abEnterprise AI Cost Analysis 2025\u00bb. Fuente de datos sobre el coste de verificaci\u00f3n por empleado (14.200 $\/a\u00f1o, 4,3 horas\/semana).  <\/li>\n\n\n\n<li>Testlio. \u00abAI Testing and Quality Report 2025\u00bb. Fuente de estad\u00edsticas sobre errores de IA en producci\u00f3n (el 82 % provienen de alucinaciones, tasa de retrabajo de chatbots del 39 %).  <\/li>\n\n\n\n<li>Gartner. \u00abHallucination Detection Tools Market Report 2025\u00bb. Fuente de la cifra de crecimiento del mercado del 318 % y de la inversi\u00f3n total de 12.800 millones de d\u00f3lares.  <\/li>\n<\/ul>\n\n<h3 class=\"wp-block-heading\">Datos sobre alucinaciones legales<\/h3>\n\n<ul class=\"wp-block-list\">\n<li>Stanford RegLab \/ Stanford Human-Centered AI Institute (HAI). \u00abLegal AI Hallucination Study\u00bb. <a href=\"https:\/\/hai.stanford.edu\/\">hai.stanford.edu<\/a> <\/li>\n\n\n\n<li>Charlotin, D. \u00abAI Hallucination Cases Database\u00bb. Sciences Po \/ HEC Paris. M\u00e1s de 1.200 casos globales documentados (abril de 2026), aproximadamente 800 en tribunales de EE. UU.   <a href=\"https:\/\/www.damiencharlotin.com\/hallucinations\/\">damiencharlotin.com\/hallucinations<\/a><\/li>\n\n\n\n<li>Business Insider. Rastreador de fallos judiciales: 10 casos (2023), 37 (2024), 73 (primeros 5 meses de 2025), m\u00e1s de 50 (solo en julio de 2025). <\/li>\n<\/ul>\n\n<h3 class=\"wp-block-heading\">Datos sobre alucinaciones en el sector sanitario<\/h3>\n\n<ul class=\"wp-block-list\">\n<li>ECRI. \u00abTop 10 Health Technology Hazards for 2025\u00bb. Los riesgos de la IA ocupan el puesto n.\u00ba 1.  <\/li>\n\n\n\n<li>MedRxiv. \u00abMedical Case Hallucination Study 2025\u00bb. 64,1 % sin mitigaci\u00f3n, 43,1 % con mitigaci\u00f3n, GPT-4o del 53 % al 23 %. <\/li>\n\n\n\n<li>NIH \/ PMC. \u00abMarked reduction in hallucination rates with GPT-5\u00bb. <a href=\"https:\/\/pmc.ncbi.nlm.nih.gov\/articles\/PMC12701941\/\">pmc.ncbi.nlm.nih.gov<\/a> <\/li>\n\n\n\n<li>FDA. Datos de dispositivos m\u00e9dicos mejorados con IA: 1.357 autorizados, 60 implicados en 182 retiradas, 43 % en el primer a\u00f1o. <\/li>\n<\/ul>\n\n<h3 class=\"wp-block-heading\">Datos sobre alucinaciones financieras<\/h3>\n\n<ul class=\"wp-block-list\">\n<li>Datos de cumplimiento de la SEC: 12,7 millones de d\u00f3lares en multas por declaraciones falsas de IA, 2024-2025.<\/li>\n\n\n\n<li>Informes del sector (agregados): el 78 % de las empresas financieras despliegan IA; 15-25 % de alucinaciones sin salvaguardas; entre 50.000 $ y 2,1 millones de $ por incidente.<\/li>\n<\/ul>\n\n<h3 class=\"wp-block-heading\">Integridad acad\u00e9mica<\/h3>\n\n<ul class=\"wp-block-list\">\n<li>GPTZero \/ Fortune. \u00abNeurIPS research papers contained 100+ AI-hallucinated citations that survived peer review\u00bb. Enero de 2026.   <a href=\"https:\/\/fortune.com\/2026\/01\/21\/neurips-ai-conferences-research-papers-hallucinations\/\">fortune.com<\/a><\/li>\n<\/ul>\n\n<h3 class=\"wp-block-heading\">Herramientas de detecci\u00f3n<\/h3>\n\n<ul class=\"wp-block-list\">\n<li>AIMultiple. \u00abAI Hallucination Detection Tools Benchmark 2026\u00bb. W&amp;B Weave 91 %, Arize Phoenix 90 %, Comet Opik 72 %.   <a href=\"https:\/\/research.aimultiple.com\/ai-hallucination-detection\/\">research.aimultiple.com<\/a><\/li>\n\n\n\n<li>Future AGI. \u00abTop 5 AI Hallucination Detection Tools in 2025\u00bb. <a href=\"https:\/\/futureagi.com\/blogs\/top-5-ai-hallucination-detection-tools-2025\">futureagi.com<\/a> <\/li>\n<\/ul>\n\n<h3 class=\"wp-block-heading\">Estudios detallados de Vectara<\/h3>\n\n<ul class=\"wp-block-list\">\n<li>Vectara. \u00abDeepSeek-R1 hallucinates more than DeepSeek-V3\u00bb. <a href=\"https:\/\/www.vectara.com\/blog\/deepseek-r1-hallucinates-more-than-deepseek-v3\">vectara.com<\/a> <\/li>\n\n\n\n<li>Vectara. \u00abWhy does Deepseek-R1 hallucinate so much?\u00bb. <a href=\"https:\/\/www.vectara.com\/blog\/why-does-deepseek-r1-hallucinate-so-much\">vectara.com<\/a> <\/li>\n<\/ul>\n\n<h3 class=\"wp-block-heading\">Datos espec\u00edficos del modelo (adicional)<\/h3>\n\n<ul class=\"wp-block-list\">\n<li>Datos de la comunidad Reddit \/ AA-Omniscience. \u00abSonnet 4.6 significantly decreases hallucinations compared to Opus\u00bb. <a href=\"https:\/\/www.reddit.com\/r\/singularity\/comments\/1r7o122\/sonnet_46_significantly_decreases_hallucinations\/\">reddit.com<\/a> <\/li>\n\n\n\n<li>Incremys. \u00abPerplexity AI statistics: 2025-2026 trends and SEO impact\u00bb. <a href=\"https:\/\/www.incremys.com\/en\/resources\/blog\/perplexity-statistics\">incremys.com<\/a> <\/li>\n\n\n\n<li>Vellum. \u00abGPT-5 Benchmarks\u00bb. An\u00e1lisis profundo de HealthBench.   <a href=\"https:\/\/www.vellum.ai\/blog\/gpt-5-benchmarks\">vellum.ai<\/a><\/li>\n\n\n\n<li>Tech Transformation. \u00abOpenAI&#8217;s o3 and o4-mini Reasoning Models Exhibit Increased Hallucination\u00bb. <a href=\"https:\/\/tech-transformation.com\/daily-tech-news\/openais-o3-and-o4%E2%80%91mini-reasoning-models-exhibit-increased-hallucination\/\">tech-transformation.com<\/a> <\/li>\n\n\n\n<li>Blockchain.news. \u00abPersonQA Benchmark Reveals Increasing Hallucination Rates in OpenAI Models\u00bb. <a href=\"https:\/\/blockchain.news\/ainews\/personqa-benchmark-reveals-increasing-hallucination-rates-in-openai-models-o1-vs-o3-vs-o4-mini\">blockchain.news<\/a> <\/li>\n\n\n\n<li>Voronoi App. \u00abLeading AI Models Show Persistent Hallucinations Despite Accuracy Gains\u00bb. <a href=\"https:\/\/www.voronoiapp.com\/technology\/Leading-AI-Models-Show-Persistent-Hallucinations-Despite-Accuracy-Gains-7284\">voronoiapp.com<\/a> <\/li>\n<\/ul>\n\n<h3 class=\"wp-block-heading\">Referencias regulatorias<\/h3>\n\n<ul class=\"wp-block-list\">\n<li>Ley de IA de la UE, Art\u00edculo 15. \u00abLos sistemas de IA de alto riesgo deben alcanzar un nivel adecuado de precisi\u00f3n y funcionar de forma coherente durante todo su ciclo de vida\u00bb. EUR-Lex.  <\/li>\n\n\n\n<li>NIST. \u00abAI Risk Management Framework (AI RMF 1.0)\u00bb. Incluyendo el perfil complementario AI 600-1, aprobado en julio de 2024.  <\/li>\n<\/ul>\n\n<h3 class=\"wp-block-heading\">Adiciones de abril de 2026<\/h3>\n\n<ul class=\"wp-block-list\">\n<li>Stanford HAI. \u00ab2026 AI Index Report \u2014 Responsible AI Chapter\u00bb. Stanford Human-Centered AI Institute, publicado el 13 de abril de 2026.   <a href=\"https:\/\/hai.stanford.edu\/ai-index\/2026-ai-index-report\/responsible-ai\">hai.stanford.edu\/ai-index\/2026-ai-index-report<\/a><\/li>\n\n\n\n<li>The Ethics Reporter. \u00abThe Plague Spreads: How 1,200 AI Hallucination Cases Prove the Failed Register\u00bb. 12 de abril de 2026.   <a href=\"https:\/\/www.theethicsreporter.com\/article\/ai-hallucination-epidemic-sanctions-failed-register-analysis-april-2026\">theethicsreporter.com<\/a><\/li>\n\n\n\n<li>OpenAI. \u00abHealthBench Professional \u2014 Clinician-Grade Health AI Benchmark\u00bb. Publicado el 22 de abril de 2026.   <a href=\"https:\/\/cdn.openai.com\/dd128428-0184-4e25-b155-3a7686c7d744\/HealthBench-Professional.pdf\">openai.com (PDF)<\/a><\/li>\n\n\n\n<li>Suprmind. \u00abMulti-Model Divergence Index \u2014 April 2026 Edition\u00bb. Publicado en abril de 2026.   <a href=\"\/hub?page_id=3246\">suprmind.ai\/hub\/multi-model-ai-divergence-index<\/a><\/li>\n\n\n\n<li>Suprmind. \u00abDMI April 2026 Edition \u2014 Public CSV Bundle (12 archivos: contradicciones, correcciones, perspectivas, gravedad, desgloses por dominio)\u00bb. <a href=\"\/hub?page_id=3246#downloads\">suprmind.ai\/hub\/multi-model-ai-divergence-index\/#downloads<\/a> <\/li>\n\n\n\n<li>Kingy AI. \u00abGPT-5.5 vs. Claude Opus 4.7: A Benchmark-by-Benchmark Field Guide to the New Frontier\u00bb. 22 de abril de 2026.   <a href=\"https:\/\/kingy.ai\/uncategorized\/gpt-5-5-vs-claude-opus-4-7-a-benchmark-by-benchmark-field-guide-to-the-new-frontier\/\">kingy.ai<\/a><\/li>\n<\/ul>\n\n<h3 class=\"wp-block-heading\">Deje de confiar en una sola IA para las decisiones importantes.<\/h3>\n\n<p>Cinco modelos Frontier. Una conversaci\u00f3n. Cada respuesta es verificada. Descubra por qu\u00e9 los profesionales que no pueden permitirse errores se est\u00e1n pasando a la validaci\u00f3n multimodelo. <\/p>\n\n<p><a href=\"https:\/\/suprmind.ai\/hub\/es\/precios\/\">Seleccione su plan &#8211;&gt;<\/a><\/p>\n<style>\r\n.lwrp.link-whisper-related-posts{\r\n            \r\n            margin-top: 40px;\nmargin-bottom: 30px;\r\n        }\r\n        .lwrp .lwrp-title{\r\n            \r\n            \r\n        }.lwrp .lwrp-description{\r\n            \r\n            \r\n\r\n        }\r\n        .lwrp .lwrp-list-container{\r\n        }\r\n        .lwrp .lwrp-list-multi-container{\r\n            display: flex;\r\n        }\r\n        .lwrp .lwrp-list-double{\r\n            width: 48%;\r\n        }\r\n        .lwrp .lwrp-list-triple{\r\n            width: 32%;\r\n        }\r\n        .lwrp .lwrp-list-row-container{\r\n            display: flex;\r\n            justify-content: space-between;\r\n        }\r\n        .lwrp .lwrp-list-row-container .lwrp-list-item{\r\n            width: calc(12% - 20px);\r\n        }\r\n        .lwrp .lwrp-list-item:not(.lwrp-no-posts-message-item){\r\n            \r\n            \r\n        }\r\n        .lwrp .lwrp-list-item img{\r\n            max-width: 100%;\r\n            height: auto;\r\n            object-fit: cover;\r\n            aspect-ratio: 1 \/ 1;\r\n        }\r\n        .lwrp .lwrp-list-item.lwrp-empty-list-item{\r\n            background: initial !important;\r\n        }\r\n        .lwrp .lwrp-list-item .lwrp-list-link .lwrp-list-link-title-text,\r\n        .lwrp .lwrp-list-item .lwrp-list-no-posts-message{\r\n            \r\n            \r\n            \r\n            \r\n        }@media screen and (max-width: 480px) {\r\n            .lwrp.link-whisper-related-posts{\r\n                \r\n                \r\n            }\r\n            .lwrp .lwrp-title{\r\n                \r\n                \r\n            }.lwrp .lwrp-description{\r\n                \r\n                \r\n            }\r\n            .lwrp .lwrp-list-multi-container{\r\n                flex-direction: column;\r\n            }\r\n            .lwrp .lwrp-list-multi-container ul.lwrp-list{\r\n                margin-top: 0px;\r\n                margin-bottom: 0px;\r\n                padding-top: 0px;\r\n                padding-bottom: 0px;\r\n            }\r\n            .lwrp .lwrp-list-double,\r\n            .lwrp .lwrp-list-triple{\r\n                width: 100%;\r\n            }\r\n            .lwrp .lwrp-list-row-container{\r\n                justify-content: initial;\r\n                flex-direction: column;\r\n            }\r\n            .lwrp .lwrp-list-row-container .lwrp-list-item{\r\n                width: 100%;\r\n            }\r\n            .lwrp .lwrp-list-item:not(.lwrp-no-posts-message-item){\r\n                \r\n                \r\n            }\r\n            .lwrp .lwrp-list-item .lwrp-list-link .lwrp-list-link-title-text,\r\n            .lwrp .lwrp-list-item .lwrp-list-no-posts-message{\r\n                \r\n                \r\n                \r\n                \r\n            };\r\n        }<\/style>\r\n<div id=\"link-whisper-related-posts-widget\" class=\"link-whisper-related-posts lwrp\">\r\n            <h3 class=\"lwrp-title\">Related Topics and Pages<\/h3>    \r\n        <div class=\"lwrp-list-container\">\r\n                                            <ul class=\"lwrp-list lwrp-list-single\">\r\n                    <li class=\"lwrp-list-item\"><a href=\"https:\/\/suprmind.ai\/hub\/es\/decisiones-de-alto-riesgo\/\" class=\"lwrp-list-link\"><span class=\"lwrp-list-link-title-text\">Decisiones de alto riesgo<\/span><\/a><\/li><li class=\"lwrp-list-item\"><a href=\"https:\/\/suprmind.ai\/hub\/es\/acerca-de-suprmind\/\" class=\"lwrp-list-link\"><span class=\"lwrp-list-link-title-text\">Acerca de Suprmind<\/span><\/a><\/li><li class=\"lwrp-list-item\"><a href=\"https:\/\/suprmind.ai\/hub\/es\/casos-de-uso\/due-diligence\/\" class=\"lwrp-list-link\"><span class=\"lwrp-list-link-title-text\">Due Diligence<\/span><\/a><\/li><li class=\"lwrp-list-item\"><a href=\"https:\/\/suprmind.ai\/hub\/es\/la-mejor-ia-para-empresas\/\" class=\"lwrp-list-link\"><span class=\"lwrp-list-link-title-text\">La mejor IA para empresas<\/span><\/a><\/li><li class=\"lwrp-list-item\"><a href=\"https:\/\/suprmind.ai\/hub\/es\/mitigacion-de-alucinaciones-de-ia\/\" class=\"lwrp-list-link\"><span class=\"lwrp-list-link-title-text\">Mitigaci\u00f3n de alucinaciones de IA<\/span><\/a><\/li><li class=\"lwrp-list-item\"><a href=\"https:\/\/suprmind.ai\/hub\/es\/guia-practica-como-crear-un-equipo-de-ia-especializado-para-su-sector\/herramientas-de-ia-para-analisis-de-inversiones\/\" class=\"lwrp-list-link\"><span class=\"lwrp-list-link-title-text\">Herramientas de IA para an\u00e1lisis de inversiones<\/span><\/a><\/li><li class=\"lwrp-list-item\"><a href=\"https:\/\/suprmind.ai\/hub\/es\/chatgpt-en-2026-modelos-funciones-precios-y-lo-que-muestran-los-datos\/\" class=\"lwrp-list-link\"><span class=\"lwrp-list-link-title-text\">ChatGPT en 2026: modelos, funciones, precios y lo que muestran los datos<\/span><\/a><\/li><li class=\"lwrp-list-item\"><a href=\"https:\/\/suprmind.ai\/hub\/es\/guia-practica-como-crear-un-equipo-de-ia-especializado-para-su-sector\/ia-para-investigadores\/\" class=\"lwrp-list-link\"><span class=\"lwrp-list-link-title-text\">IA para investigadores<\/span><\/a><\/li>                <\/ul>\r\n                        <\/div>\r\n<\/div>","protected":false},"excerpt":{"rendered":"<p>\u00daltima actualizaci\u00f3n el 26 de abril de 2026 Las referencias completas de datos sobre alucinaciones de IA. Cifras brutas de Vectara,AA-Omniscience, FACTS, tarjetas de sistema de OpenAI y m\u00e1s de 50 fuentes.Actualizado mensualmente. La actualizaci\u00f3n de abril de 2026 a\u00f1adi\u00f3: datos del Stanford AI Index, Claude Opus 4.7, Grok 4.20,la paradoja de GPT-5.5, escalada de [&hellip;]<\/p>\n","protected":false},"author":1,"featured_media":0,"parent":0,"menu_order":0,"comment_status":"closed","ping_status":"closed","template":"","meta":{"footnotes":""},"class_list":["post-4936","page","type-page","status-publish","hentry"],"aioseo_notices":[],"aioseo_head":"\n\t\t<!-- All in One SEO Pro 4.9.0 - aioseo.com -->\n\t<meta name=\"description\" content=\"\u00daltima actualizaci\u00f3n el 26 de abril de 2026 Las referencias completas de datos sobre alucinaciones de IA. Cifras brutas de Vectara,AA-Omniscience, FACTS, tarjetas de sistema de OpenAI y m\u00e1s de 50 fuentes.Actualizado mensualmente. La actualizaci\u00f3n de abril de 2026 a\u00f1adi\u00f3: datos del Stanford AI Index, Claude Opus 4.7, Grok 4.20,la paradoja de GPT-5.5, escalada de\" \/>\n\t<meta name=\"robots\" content=\"max-image-preview:large\" \/>\n\t<link rel=\"canonical\" href=\"https:\/\/suprmind.ai\/hub\/es\/prueba-tasas-de-alucinaciones-de-ia-y-comparativas-en-2026\/\" \/>\n\t<meta name=\"generator\" content=\"All in One SEO Pro (AIOSEO) 4.9.0\" \/>\n\t\t<meta property=\"og:locale\" content=\"es_ES\" \/>\n\t\t<meta property=\"og:site_name\" content=\"Suprmind - Multi-Model AI Decision Intelligence Chat Platform for Professionals for Business: 5 Models, One Thread .\" \/>\n\t\t<meta property=\"og:type\" content=\"website\" \/>\n\t\t<meta property=\"og:title\" content=\"PRUEBA: Tasas de alucinaciones de IA y comparativas en 2026 - Suprmind\" \/>\n\t\t<meta property=\"og:description\" content=\"\u00daltima actualizaci\u00f3n el 26 de abril de 2026 Las referencias completas de datos sobre alucinaciones de IA. Cifras brutas de Vectara,AA-Omniscience, FACTS, tarjetas de sistema de OpenAI y m\u00e1s de 50 fuentes.Actualizado mensualmente. La actualizaci\u00f3n de abril de 2026 a\u00f1adi\u00f3: datos del Stanford AI Index, Claude Opus 4.7, Grok 4.20,la paradoja de GPT-5.5, escalada de\" \/>\n\t\t<meta property=\"og:url\" content=\"https:\/\/suprmind.ai\/hub\/es\/prueba-tasas-de-alucinaciones-de-ia-y-comparativas-en-2026\/\" \/>\n\t\t<meta property=\"fb:admins\" content=\"567083258\" \/>\n\t\t<meta property=\"og:image\" content=\"https:\/\/suprmind.ai\/hub\/wp-content\/uploads\/2026\/01\/disagreement-is-the-feature-og-scaled.png\" \/>\n\t\t<meta property=\"og:image:secure_url\" content=\"https:\/\/suprmind.ai\/hub\/wp-content\/uploads\/2026\/01\/disagreement-is-the-feature-og-scaled.png\" \/>\n\t\t<meta name=\"twitter:card\" content=\"summary_large_image\" \/>\n\t\t<meta name=\"twitter:site\" content=\"@suprmind_ai\" \/>\n\t\t<meta name=\"twitter:title\" content=\"PRUEBA: Tasas de alucinaciones de IA y comparativas en 2026 - Suprmind\" \/>\n\t\t<meta name=\"twitter:description\" content=\"\u00daltima actualizaci\u00f3n el 26 de abril de 2026 Las referencias completas de datos sobre alucinaciones de IA. Cifras brutas de Vectara,AA-Omniscience, FACTS, tarjetas de sistema de OpenAI y m\u00e1s de 50 fuentes.Actualizado mensualmente. La actualizaci\u00f3n de abril de 2026 a\u00f1adi\u00f3: datos del Stanford AI Index, Claude Opus 4.7, Grok 4.20,la paradoja de GPT-5.5, escalada de\" \/>\n\t\t<meta name=\"twitter:creator\" content=\"@RadomirBasta\" \/>\n\t\t<meta name=\"twitter:image\" content=\"https:\/\/suprmind.ai\/hub\/wp-content\/uploads\/2026\/01\/disagreement-is-the-feature-og-scaled.png\" \/>\n\t\t<meta name=\"twitter:label1\" content=\"Written by\" \/>\n\t\t<meta name=\"twitter:data1\" content=\"Radomir Basta\" \/>\n\t\t<meta name=\"twitter:label2\" content=\"Est. reading time\" \/>\n\t\t<meta name=\"twitter:data2\" content=\"85 minutes\" \/>\n\t\t<script type=\"application\/ld+json\" class=\"aioseo-schema\">\n\t\t\t{\"@context\":\"https:\\\/\\\/schema.org\",\"@graph\":[{\"@type\":\"BreadcrumbList\",\"@id\":\"https:\\\/\\\/suprmind.ai\\\/hub\\\/es\\\/prueba-tasas-de-alucinaciones-de-ia-y-comparativas-en-2026\\\/#breadcrumblist\",\"itemListElement\":[{\"@type\":\"ListItem\",\"@id\":\"https:\\\/\\\/suprmind.ai\\\/hub\\\/es\\\/prueba-tasas-de-alucinaciones-de-ia-y-comparativas-en-2026\\\/#listItem\",\"position\":1,\"name\":\"PRUEBA: Tasas de alucinaciones de IA y comparativas en 2026\"}]},{\"@type\":\"Organization\",\"@id\":\"https:\\\/\\\/suprmind.ai\\\/hub\\\/es\\\/#organization\",\"name\":\"Suprmind\",\"description\":\"Decision validation platform for professionals who can't afford to be wrong. Five smartest AIs, in the same conversation. They debate, challenge, and build on each other - you export the verdict as a deliverable. Disagreement is the feature.\",\"url\":\"https:\\\/\\\/suprmind.ai\\\/hub\\\/es\\\/\",\"email\":\"team@suprmind.ai\",\"foundingDate\":\"2025-10-01\",\"numberOfEmployees\":{\"@type\":\"QuantitativeValue\",\"value\":4},\"logo\":{\"@type\":\"ImageObject\",\"url\":\"https:\\\/\\\/suprmind.ai\\\/hub\\\/wp-content\\\/uploads\\\/2026\\\/02\\\/suprmind-slash-new-bold-italic.png\",\"@id\":\"https:\\\/\\\/suprmind.ai\\\/hub\\\/es\\\/prueba-tasas-de-alucinaciones-de-ia-y-comparativas-en-2026\\\/#organizationLogo\",\"width\":1920,\"height\":1822,\"caption\":\"Suprmind\"},\"image\":{\"@id\":\"https:\\\/\\\/suprmind.ai\\\/hub\\\/es\\\/prueba-tasas-de-alucinaciones-de-ia-y-comparativas-en-2026\\\/#organizationLogo\"},\"sameAs\":[\"https:\\\/\\\/www.facebook.com\\\/suprmind.ai.orchestration\",\"https:\\\/\\\/x.com\\\/suprmind_ai\"]},{\"@type\":\"WebPage\",\"@id\":\"https:\\\/\\\/suprmind.ai\\\/hub\\\/es\\\/prueba-tasas-de-alucinaciones-de-ia-y-comparativas-en-2026\\\/#webpage\",\"url\":\"https:\\\/\\\/suprmind.ai\\\/hub\\\/es\\\/prueba-tasas-de-alucinaciones-de-ia-y-comparativas-en-2026\\\/\",\"name\":\"PRUEBA: Tasas de alucinaciones de IA y comparativas en 2026 - Suprmind\",\"description\":\"\\u00daltima actualizaci\\u00f3n el 26 de abril de 2026 Las referencias completas de datos sobre alucinaciones de IA. Cifras brutas de Vectara,AA-Omniscience, FACTS, tarjetas de sistema de OpenAI y m\\u00e1s de 50 fuentes.Actualizado mensualmente. La actualizaci\\u00f3n de abril de 2026 a\\u00f1adi\\u00f3: datos del Stanford AI Index, Claude Opus 4.7, Grok 4.20,la paradoja de GPT-5.5, escalada de\",\"inLanguage\":\"es-ES\",\"isPartOf\":{\"@id\":\"https:\\\/\\\/suprmind.ai\\\/hub\\\/es\\\/#website\"},\"breadcrumb\":{\"@id\":\"https:\\\/\\\/suprmind.ai\\\/hub\\\/es\\\/prueba-tasas-de-alucinaciones-de-ia-y-comparativas-en-2026\\\/#breadcrumblist\"},\"datePublished\":\"2026-05-04T03:20:45+00:00\",\"dateModified\":\"2026-05-04T12:40:53+00:00\"},{\"@type\":\"WebSite\",\"@id\":\"https:\\\/\\\/suprmind.ai\\\/hub\\\/es\\\/#website\",\"url\":\"https:\\\/\\\/suprmind.ai\\\/hub\\\/es\\\/\",\"name\":\"Suprmind\",\"alternateName\":\"Suprmind.ai\",\"description\":\"Multi-Model AI Decision Intelligence Chat Platform for Professionals for Business: 5 Models, One Thread .\",\"inLanguage\":\"es-ES\",\"publisher\":{\"@id\":\"https:\\\/\\\/suprmind.ai\\\/hub\\\/es\\\/#organization\"}}]}\n\t\t<\/script>\n\t\t<!-- All in One SEO Pro -->\r\n\t\t<title>PRUEBA: Tasas de alucinaciones de IA y comparativas en 2026 - Suprmind<\/title>\n\n","aioseo_head_json":{"title":"PRUEBA: Tasas de alucinaciones de IA y comparativas en 2026 - Suprmind","description":"\u00daltima actualizaci\u00f3n el 26 de abril de 2026 Las referencias completas de datos sobre alucinaciones de IA. Cifras brutas de Vectara,AA-Omniscience, FACTS, tarjetas de sistema de OpenAI y m\u00e1s de 50 fuentes.Actualizado mensualmente. La actualizaci\u00f3n de abril de 2026 a\u00f1adi\u00f3: datos del Stanford AI Index, Claude Opus 4.7, Grok 4.20,la paradoja de GPT-5.5, escalada de","canonical_url":"https:\/\/suprmind.ai\/hub\/es\/prueba-tasas-de-alucinaciones-de-ia-y-comparativas-en-2026\/","robots":"max-image-preview:large","keywords":"","webmasterTools":{"miscellaneous":""},"schema":{"@context":"https:\/\/schema.org","@graph":[{"@type":"BreadcrumbList","@id":"https:\/\/suprmind.ai\/hub\/es\/prueba-tasas-de-alucinaciones-de-ia-y-comparativas-en-2026\/#breadcrumblist","itemListElement":[{"@type":"ListItem","@id":"https:\/\/suprmind.ai\/hub\/es\/prueba-tasas-de-alucinaciones-de-ia-y-comparativas-en-2026\/#listItem","position":1,"name":"PRUEBA: Tasas de alucinaciones de IA y comparativas en 2026"}]},{"@type":"Organization","@id":"https:\/\/suprmind.ai\/hub\/es\/#organization","name":"Suprmind","description":"Decision validation platform for professionals who can't afford to be wrong. Five smartest AIs, in the same conversation. They debate, challenge, and build on each other - you export the verdict as a deliverable. Disagreement is the feature.","url":"https:\/\/suprmind.ai\/hub\/es\/","email":"team@suprmind.ai","foundingDate":"2025-10-01","numberOfEmployees":{"@type":"QuantitativeValue","value":4},"logo":{"@type":"ImageObject","url":"https:\/\/suprmind.ai\/hub\/wp-content\/uploads\/2026\/02\/suprmind-slash-new-bold-italic.png","@id":"https:\/\/suprmind.ai\/hub\/es\/prueba-tasas-de-alucinaciones-de-ia-y-comparativas-en-2026\/#organizationLogo","width":1920,"height":1822,"caption":"Suprmind"},"image":{"@id":"https:\/\/suprmind.ai\/hub\/es\/prueba-tasas-de-alucinaciones-de-ia-y-comparativas-en-2026\/#organizationLogo"},"sameAs":["https:\/\/www.facebook.com\/suprmind.ai.orchestration","https:\/\/x.com\/suprmind_ai"]},{"@type":"WebPage","@id":"https:\/\/suprmind.ai\/hub\/es\/prueba-tasas-de-alucinaciones-de-ia-y-comparativas-en-2026\/#webpage","url":"https:\/\/suprmind.ai\/hub\/es\/prueba-tasas-de-alucinaciones-de-ia-y-comparativas-en-2026\/","name":"PRUEBA: Tasas de alucinaciones de IA y comparativas en 2026 - Suprmind","description":"\u00daltima actualizaci\u00f3n el 26 de abril de 2026 Las referencias completas de datos sobre alucinaciones de IA. Cifras brutas de Vectara,AA-Omniscience, FACTS, tarjetas de sistema de OpenAI y m\u00e1s de 50 fuentes.Actualizado mensualmente. La actualizaci\u00f3n de abril de 2026 a\u00f1adi\u00f3: datos del Stanford AI Index, Claude Opus 4.7, Grok 4.20,la paradoja de GPT-5.5, escalada de","inLanguage":"es-ES","isPartOf":{"@id":"https:\/\/suprmind.ai\/hub\/es\/#website"},"breadcrumb":{"@id":"https:\/\/suprmind.ai\/hub\/es\/prueba-tasas-de-alucinaciones-de-ia-y-comparativas-en-2026\/#breadcrumblist"},"datePublished":"2026-05-04T03:20:45+00:00","dateModified":"2026-05-04T12:40:53+00:00"},{"@type":"WebSite","@id":"https:\/\/suprmind.ai\/hub\/es\/#website","url":"https:\/\/suprmind.ai\/hub\/es\/","name":"Suprmind","alternateName":"Suprmind.ai","description":"Multi-Model AI Decision Intelligence Chat Platform for Professionals for Business: 5 Models, One Thread .","inLanguage":"es-ES","publisher":{"@id":"https:\/\/suprmind.ai\/hub\/es\/#organization"}}]},"og:locale":"es_ES","og:site_name":"Suprmind - Multi-Model AI Decision Intelligence Chat Platform for Professionals for Business: 5 Models, One Thread .","og:type":"website","og:title":"PRUEBA: Tasas de alucinaciones de IA y comparativas en 2026 - Suprmind","og:description":"\u00daltima actualizaci\u00f3n el 26 de abril de 2026 Las referencias completas de datos sobre alucinaciones de IA. Cifras brutas de Vectara,AA-Omniscience, FACTS, tarjetas de sistema de OpenAI y m\u00e1s de 50 fuentes.Actualizado mensualmente. La actualizaci\u00f3n de abril de 2026 a\u00f1adi\u00f3: datos del Stanford AI Index, Claude Opus 4.7, Grok 4.20,la paradoja de GPT-5.5, escalada de","og:url":"https:\/\/suprmind.ai\/hub\/es\/prueba-tasas-de-alucinaciones-de-ia-y-comparativas-en-2026\/","fb:admins":"567083258","og:image":"https:\/\/suprmind.ai\/hub\/wp-content\/uploads\/2026\/01\/disagreement-is-the-feature-og-scaled.png","og:image:secure_url":"https:\/\/suprmind.ai\/hub\/wp-content\/uploads\/2026\/01\/disagreement-is-the-feature-og-scaled.png","twitter:card":"summary_large_image","twitter:site":"@suprmind_ai","twitter:title":"PRUEBA: Tasas de alucinaciones de IA y comparativas en 2026 - Suprmind","twitter:description":"\u00daltima actualizaci\u00f3n el 26 de abril de 2026 Las referencias completas de datos sobre alucinaciones de IA. Cifras brutas de Vectara,AA-Omniscience, FACTS, tarjetas de sistema de OpenAI y m\u00e1s de 50 fuentes.Actualizado mensualmente. La actualizaci\u00f3n de abril de 2026 a\u00f1adi\u00f3: datos del Stanford AI Index, Claude Opus 4.7, Grok 4.20,la paradoja de GPT-5.5, escalada de","twitter:creator":"@RadomirBasta","twitter:image":"https:\/\/suprmind.ai\/hub\/wp-content\/uploads\/2026\/01\/disagreement-is-the-feature-og-scaled.png","twitter:label1":"Written by","twitter:data1":"Radomir Basta","twitter:label2":"Est. reading time","twitter:data2":"85 minutes"},"aioseo_meta_data":{"post_id":"4936","title":"#post_title #separator_sa #site_title","description":"#post_excerpt","keywords":null,"keyphrases":{"focus":{"keyphrase":"","score":0,"analysis":{"keyphraseInTitle":{"score":0,"maxScore":9,"error":1}}},"additional":[]},"canonical_url":null,"og_title":null,"og_description":null,"og_object_type":"default","og_image_type":"default","og_image_custom_url":null,"og_image_custom_fields":null,"og_custom_image_width":null,"og_custom_image_height":null,"og_video":"","og_custom_url":null,"og_article_section":null,"og_article_tags":null,"twitter_use_og":true,"twitter_card":"default","twitter_image_type":"default","twitter_image_custom_url":null,"twitter_image_custom_fields":null,"twitter_title":null,"twitter_description":null,"schema_type":null,"schema_type_options":null,"pillar_content":false,"robots_default":true,"robots_noindex":false,"robots_noarchive":false,"robots_nosnippet":false,"robots_nofollow":false,"robots_noimageindex":false,"robots_noodp":false,"robots_notranslate":false,"robots_max_snippet":"-1","robots_max_videopreview":"-1","robots_max_imagepreview":"none","tabs":null,"priority":null,"frequency":"default","local_seo":null,"seo_analyzer_scan_date":"2026-05-04 12:23:12","created":"2026-05-04 12:40:47","updated":"2026-05-04 12:41:00","og_image_url":null,"twitter_image_url":null},"aioseo_breadcrumb":null,"aioseo_breadcrumb_json":[{"label":"PRUEBA: Tasas de alucinaciones de IA y comparativas en 2026","link":"https:\/\/suprmind.ai\/hub\/es\/prueba-tasas-de-alucinaciones-de-ia-y-comparativas-en-2026\/"}],"_links":{"self":[{"href":"https:\/\/suprmind.ai\/hub\/es\/wp-json\/wp\/v2\/pages\/4936","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/suprmind.ai\/hub\/es\/wp-json\/wp\/v2\/pages"}],"about":[{"href":"https:\/\/suprmind.ai\/hub\/es\/wp-json\/wp\/v2\/types\/page"}],"author":[{"embeddable":true,"href":"https:\/\/suprmind.ai\/hub\/es\/wp-json\/wp\/v2\/users\/1"}],"replies":[{"embeddable":true,"href":"https:\/\/suprmind.ai\/hub\/es\/wp-json\/wp\/v2\/comments?post=4936"}],"version-history":[{"count":1,"href":"https:\/\/suprmind.ai\/hub\/es\/wp-json\/wp\/v2\/pages\/4936\/revisions"}],"predecessor-version":[{"id":4937,"href":"https:\/\/suprmind.ai\/hub\/es\/wp-json\/wp\/v2\/pages\/4936\/revisions\/4937"}],"wp:attachment":[{"href":"https:\/\/suprmind.ai\/hub\/es\/wp-json\/wp\/v2\/media?parent=4936"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}