Extraktions-Rausch-Verhältnis
TL;DR: Das Extraktions-Rausch-Verhältnis beschreibt, wie viel von dem, was ein Bot extrahiert, aus Template-Rauschen statt aus dem Hauptinhalt besteht. Hohes Rauschen verringert die Retrieval-Qualität und erhöht Fehlzitate.
Was ist das Extraktions-Rausch-Verhältnis?
Das Extraktions-Rausch-Verhältnis ist der Anteil des extrahierbaren Textes einer Seite, der entfällt auf:
- Wiederholte CTAs
- Navigation, verwandte Beiträge, Sidebars
- Footer, rechtliche Blöcke
- Pop-ups und injizierte UI
- Generische Markenslogans, die auf jeder Seite wiederholt werden
KIs „sehen“ Ihr Layout nicht so wie Menschen. Wenn das DOM verrauscht ist, zahlen Sie eine Sichtbarkeitssteuer.
Wie das Extraktions-Rausch-Verhältnis gemessen wird
Auf einer grundlegenden Ebene: Vergleichen Sie die Wortanzahl des Hauptinhalts mit der des Nicht-Inhalts.
| Komponente | So erkennen Sie sie | Was zu tun ist |
|---|---|---|
| Hauptinhalt | <main>-Container, Artikeltext | Sauber und konsistent halten |
| Boilerplate | Header/Footer, wiederkehrende Module | Wiederholungen und Ausführlichkeit reduzieren |
| Injizierte UI | Pop-ups, Sticky Bars | Nicht innerhalb des Artikel-DOM einfügen |
Einfache Formel: Rausch-Verhältnis = Boilerplate-Wörter / (Boilerplate + Hauptinhalt-Wörter)
Warum das Extraktions-Rausch-Verhältnis wichtig ist
Rauschen reduziert nicht nur die Auswahl. Es erhöht die Fehlermodi:
- KI zitiert Ihren CTA statt Ihrer Definition
- KI übersieht die eine Tabelle, die wichtig war
- KI extrahiert einen unvollständigen Abschnitt, der den Kontext verliert
| Seitentyp | Häufiges Risiko | Typische Lösung |
|---|---|---|
| Blog-Templates | wiederkehrende Module zwischen Abschnitten | Layout innerhalb von main vereinfachen |
| Produktseiten | viel UI, wenig Text | einen „Fakten“-Abschnitt mit sauberem HTML hinzufügen |
| Vergleichsseiten | nur interaktive Tabellen | statisches HTML-Tabellen-Fallback bereitstellen |
So reduzieren Sie das Extraktions-Rausch-Verhältnis
- Verwenden Sie einen echten main-Container. Halten Sie den Inhalt in einem vorhersehbaren Bereich.
- Hören Sie auf, Verkaufsblöcke mitten im Artikel zu wiederholen. Platzieren Sie sie nach den wichtigsten extrahierbaren Abschnitten.
- Stellen Sie statische Tabellen-Fallbacks bereit. Insbesondere, wenn Sie JS-Rendering verwenden.
- Standardisieren Sie Ihr Glossar-Template. Jedes Mal dasselbe DOM-Muster.
FAQs zum Extraktions-Rausch-Verhältnis
Ist das nur ein SEO-Rebranding des „Content-to-Code Ratio“?
Verwandt, aber nicht dasselbe. Hier geht es darum, was Extraktoren herausziehen, nicht darum, wie Google HTML indexiert.
Kann ich CTAs beibehalten?
Ja. Platzieren Sie sie so, dass sie Definition und Kernergebnisse nicht verunreinigen.