Schutz vor KI-Scraping: Inhalte mit Cloudflare absichern

OpenAI, Anthropic, Google, Meta – sie alle brauchen Daten. Viele Daten. Und woher kommen die? Von Ihnen. Von Ihrer Website. Von Ihrem mühsam erstellten Content.

Die meisten Website-Betreiber wissen nicht, dass ihre Inhalte längst in KI-Modellen stecken. Niemand hat gefragt. Niemand zahlt dafür. So läuft das Geschäft.

Dieser Artikel zeigt, wie Sie sich schützen können. Und warum der Schutz Grenzen hat.

Das Problem: Ihr Content, deren Modell

KI-Crawler sind keine normalen Bots. Sie kommen nicht, um Ihre Website zu indexieren und Nutzer zu Ihnen zu schicken (wie Google). Sie kommen, um Ihre Inhalte abzusaugen und in Trainingssets zu packen.

Was das für Sie bedeutet:

Ihre Texte trainieren Modelle, die mit Ihnen konkurrieren
Niemand fragt, niemand zahlt, niemand verlinkt
Das “Produkt” (ChatGPT, Claude, etc.) gibt Ihre Inhalte wieder – ohne Quellenangabe
Sie bekommen nicht mehr Traffic, sondern weniger

Die Ironie: Sie investieren in SEO, damit Google Sie findet. Google trainiert seine KI mit Ihren Inhalten. Die KI beantwortet die Fragen, für die Nutzer bisher zu Ihnen kamen. Sie werden obsolet – finanziert durch Ihre eigene Arbeit.

Was Sie tun können (und was nicht)

Spoiler vorweg: Perfekter Schutz existiert nicht. Wer wirklich will, kommt an Ihre öffentlichen Inhalte. Aber Sie können es deutlich schwerer machen.

Cloudflare: Die Basics

Ihre Domain muss über Cloudflare laufen. Falls nicht: 10 Minuten Arbeit, kostenlos. Dashboard → Website hinzufügen → Nameserver umstellen → fertig.

Dann haben Sie Zugang zu den Werkzeugen.

Schritt 1: Die einfache Lösung

Cloudflare blockiert bekannte KI-Crawler automatisch. Sie müssen es nur einschalten.

Pfad: Security → Bots → “AI Scrapers and Crawlers” → “Block all known AI bots”

Damit blockieren Sie:

GPTBot (OpenAI)
CCBot (Common Crawl – trainiert viele Modelle)
ClaudeBot (Anthropic)
Bytespider (Bytedance/TikTok)

Das ist im kostenlosen Tarif. Aktivieren Sie es. Jetzt.

Schritt 2: Rate Limiting

KI-Scraper sind gefräßig. Sie schicken hunderte Anfragen pro Minute. Das können Sie unterbinden.

Pfad: Security → WAF → Rate Limiting Rules

Beispiel: Mehr als 30 Anfragen pro 10 Sekunden von einer IP auf /blog/* → Block für 1 Minute.

Das stoppt keine ausgefeilten Crawler, aber die plumpen. Und davon gibt es viele.

Schritt 3: Verdächtige User Agents blockieren

Viele Scraper identifizieren sich nicht mal. Sie kommen mit python-requests oder curl daher. Menschliche Nutzer tun das nicht.

Pfad: Security → WAF → Firewall Rules

Regeln:

If User Agent contains "python" or "curl" or "scrapy" or "wget" → Block
If User Agent contains "bot" and not "Googlebot" → Challenge
If Referer is empty → Managed Challenge

Das letzte ist wichtig: Menschliche Nutzer haben fast immer einen Referer. Bots oft nicht.

Schritt 4: Bot Fight Mode

Viele Crawler führen kein JavaScript aus. Cloudflare kann JavaScript-Challenges ausspielen – wer kein JS kann, kommt nicht durch.

Pfad: Security → Bots → Bot Fight Mode aktivieren

Das funktioniert überraschend gut gegen die Masse der Scraper.

robots.txt: Der höfliche Hinweis

Die robots.txt ist wie ein “Bitte nicht stören”-Schild. Höfliche Gäste respektieren es. KI-Crawler sind keine höflichen Gäste.

Trotzdem sollten Sie es einrichten – aus rechtlichen Gründen und weil manche Crawler es tatsächlich befolgen:

User-agent: GPTBot
Disallow: /

User-agent: CCBot
Disallow: /

User-agent: ClaudeBot
Disallow: /

User-agent: Bytespider
Disallow: /

User-agent: anthropic-ai
Disallow: /

Die unbequeme Wahrheit: OpenAI behauptet, GPTBot zu respektieren. Aber Ihre Daten sind wahrscheinlich längst im Modell – von Crawls vor der Ankündigung. Und Common Crawl, deren Daten praktisch alle Modelle nutzen, fragt seit Jahren niemanden.

Meta-Tags: Das neue Experiment

<meta name="robots" content="noai, noimageai">

Das ist neu, experimentell, und wird von den wenigsten Crawlern respektiert. Aber es schadet nicht, und vielleicht wird es irgendwann Standard.

Fortgeschritten: AI Labyrinth

Cloudflare experimentiert mit einer eleganten Lösung: Statt Crawler zu blockieren, werden sie in ein Labyrinth aus Fake-Seiten gelockt. Sie verschwenden Ressourcen, sammeln Müll, erreichen nie die echten Inhalte.

Das ist derzeit nur für ausgewählte Kunden verfügbar. Aber die Idee ist gut: Warum blockieren, wenn man auch verwirren kann?

Die Option, die niemand diskutiert

Hier wird es philosophisch.

Frage: Warum schützen Sie Ihre Inhalte?

Mögliche Antworten:

Weil sie mir gehören und ich entscheiden will, wer sie nutzt
Weil ich dafür bezahlt werden möchte
Weil KI mein Geschäftsmodell gefährdet
Aus Prinzip

Die Realität: Öffentliche Webinhalte sind öffentlich. Das war der Deal seit es das Web gibt. Jetzt, wo jemand sie auf eine Weise nutzt, die uns nicht gefällt, wollen wir die Regeln ändern.

Das ist legitim. Aber es ist auch ein Kampf gegen Windmühlen.

Alternative Gedanken:

Was wäre, wenn Sie Inhalte hinter einer Paywall haben? Dann können Crawler sie nicht erreichen – und zahlende Kunden werden wertvoller.
Was wäre, wenn Sie Ihre Inhalte proaktiv lizenzieren? Manche KI-Unternehmen zahlen für legale Trainingsdaten.
Was wäre, wenn Sie Ihre Strategie anpassen, statt zu kämpfen? First-Party-Daten, Beziehungen, Services – Dinge, die eine KI nicht replizieren kann.

Cloudflare Pay-per-Crawl: Die Zukunft?

Cloudflare testet mit Verlagen ein interessantes Modell: KI-Crawler dürfen crawlen – gegen Bezahlung. Eine Art Maut für Trainingsdaten.

Das könnte funktionieren. Oder es könnte daran scheitern, dass Tech-Konzerne lieber juristisch kämpfen als zahlen. Wir werden sehen.

Die Firewall-Regeln: Copy & Paste

Regel 1: Bekannte KI-Bots blockieren

Bedingung: http.user_agent contains "GPTBot" or "CCBot" or "ClaudeBot" or "Bytespider" or "anthropic-ai"
Aktion: Block

Regel 2: Verdächtige User Agents

Bedingung: http.user_agent contains "python" or "curl" or "wget" or "scrapy" or "aiohttp"
Aktion: Managed Challenge

Regel 3: Leere Referer

Bedingung: http.referer eq ""
Aktion: JS Challenge

Regel 4: Rate Limiting

Pfad: /blog/*
Schwelle: >30 Anfragen/10s pro IP
Aktion: Block für 60s

Was Sie nicht tun sollten

Alle Bots blockieren – dann findet Google Sie auch nicht mehr. Das ist schlimmer als KI-Scraping.

Paranoid werden – manche “Bots” sind Nutzer mit ungewöhnlichen Browsern. False Positives sind teuer.

Nichts tun – “ist eh egal” stimmt nicht. Jede Hürde hilft.

Schutz vor KI-Scraping ist möglich, aber nicht perfekt. Cloudflare AI Bot Blocking aktivieren, Rate Limiting einrichten, User Agent Regeln anlegen, robots.txt aktualisieren – das alles dauert keine Stunde und macht es Scrapern deutlich schwerer.

Aber die eigentlichen Fragen sind andere: Sind öffentliche Inhalte noch Ihr bestes Asset? Wie schaffen Sie Wert, den eine KI nicht kopieren kann? Wollen Sie kämpfen – oder sich anpassen?

Die KI-Revolution ist nicht aufzuhalten. Wie Sie damit umgehen, schon.