Extraibilidad de fragmentos
¿Qué es la extraibilidad de fragmentos?
La extraibilidad de fragmentos mide lo fácil que es para los sistemas RAG (Retrieval Augmented Generation) extraer de sus páginas fragmentos de contenido autocontenidos y con sentido. Los sistemas de IA no leen las páginas de arriba abajo: capturan fragmentos concretos que responden a preguntas concretas.
Piense en ello como la diferencia entre piezas de Lego (modulares, reutilizables) y una masa sólida (no se puede separar sin perder el significado).
Hallazgo clave: Las páginas que obtienen 80/100 en extraibilidad de fragmentos se citan 3 veces más a menudo que las páginas con mucha narrativa y la misma información (análisis del rastreador de FAII, N=1.000 páginas).
Cómo se calcula la extraibilidad de fragmentos
La extraibilidad de fragmentos se puntúa en función de elementos estructurales que permiten una extracción limpia:
| Elemento | Puntos | Objetivo |
|---|---|---|
| Jerarquía H2-H3 | 30 puntos | Preguntas como encabezados («¿Qué es X?», «¿Cómo Y?») |
| Listas y tablas | 40 puntos | >70% del contenido del cuerpo en formato estructurado |
| Marcado schema | 20 puntos | Schemas DefinedTerm, FAQPage, HowTo |
| Longitud de los párrafos | 10 puntos | <100 palabras por párrafo |
Nuestro rastreador simula patrones de extracción de IA y puntúa las páginas según lo limpiamente que se puedan aislar los fragmentos de contenido. Cada fragmento se prueba en: (1) autocontención, (2) completitud de la respuesta, (3) claridad de atribución.
Por qué importa la extraibilidad de fragmentos
Los sistemas RAG recuperan contenido en fragmentos, no páginas. Cuando una IA necesita responder a «¿Qué es [su tema]?», hace lo siguiente:
- Busca contenido relevante en miles de páginas
- Extrae los fragmentos más relevantes (normalmente de 200-500 tokens cada uno)
- Sintetiza una respuesta a partir de los mejores fragmentos
- Atribuye las fuentes cuando los fragmentos son claramente extraíbles
Si su contenido es un muro de texto, la IA podría extraer un fragmento que:
- Se corta a mitad de frase
- Pierde contexto crítico
- No se puede atribuir con claridad
| Tipo de contenido | Calidad de extracción | Probabilidad de cita |
|---|---|---|
| Párrafos narrativos largos | Deficiente: los fragmentos se rompen a mitad de idea | Baja |
| Definición + viñetas | Buena: límites claros | Media |
| Tablas + párrafos cortos | Excelente: autocontenidos | Alta |
La extraibilidad de fragmentos complementa la ganancia de información: el contenido con alta novedad sigue necesitando una extracción limpia para que se cite.
Cómo mejorar la extraibilidad de fragmentos
1. Estructure los encabezados como preguntas (30 puntos)
- Use «¿Qué es [X]?», en lugar de solo «[X]», como H2
- Haga que los encabezados coincidan con cómo los usuarios realmente escriben prompts para la IA («¿Cómo…», «¿Por qué…?»)
- Mantenga los H3 concisos y específicos
2. Maximice listas y tablas (40 puntos)
- Convierta explicaciones de varias frases en listas con viñetas
- Use tablas comparativas para cualquier contenido «X vs Y»
- Añada tablas de datos con encabezados y pies de tabla claros
- Objetivo: 70%+ del cuerpo del contenido en formatos estructurados
3. Añada marcado schema (20 puntos)
DefinedTermpara entradas de glosarioFAQPagepara secciones de preguntas y respuestasHowTopara guías paso a pasoTablepara comparaciones de datos
4. Mantenga los párrafos cortos (10 puntos)
- Objetivo: <100 palabras por párrafo
- Una idea por párrafo
- Empiece por el punto clave y, después, amplíe
Referencias de extraibilidad de fragmentos
| Puntuación | Interpretación | Tipo de contenido habitual |
|---|---|---|
| 0-40 | Deficiente: mucha narrativa, difícil de extraer | Entradas de blog, liderazgo de pensamiento |
| 41-60 | Media: algo de estructura | Artículos de formato mixto |
| 61-80 | Buena: bien estructurada | Documentación, guías |
| 81-100 | Excelente: optimizada para la extracción | Glosarios, páginas de datos, preguntas frecuentes |
Preguntas frecuentes sobre la extraibilidad de fragmentos
¿Puedo lograr una extraibilidad de fragmentos del 70%+ en cualquier página?
Sí: incluso el contenido narrativo se puede reestructurar. Añada un recuadro TL;DR, divida los párrafos largos en viñetas, inserte tablas de resumen y use el schema de FAQ. Las guías y la documentación suelen puntuar 85+ de forma natural.
¿Una alta extraibilidad de fragmentos perjudica la legibilidad?
Al contrario: el contenido en fragmentos suele ser más fácil también para las personas. Los formatos escaneables (viñetas, tablas, encabezados claros) mejoran tanto la comprensión humana como la extracción por IA. Los objetivos están alineados.
¿Cómo se relaciona la extraibilidad de fragmentos con la ganancia de información?
La ganancia de información mide la novedad: si su contenido aporta conocimiento nuevo. La extraibilidad de fragmentos mide la accesibilidad: si las IA pueden extraer ese conocimiento de forma limpia. Necesita ambas: ideas únicas Y extracción limpia.
¿Cuál es la forma más rápida de auditar mi extraibilidad de fragmentos?
Comprobación manual rápida: ¿puede copiar cualquier sección H2 y pegarla en un documento donde tenga sentido completo sin el resto de la página? Si sí, esa sección es apta para fragmentos. Si no, reestructúrela.