Die unsichtbare Hand: Wie Substack durch robots.txt entscheidet wer deine Inhalte sieht

Nov. 07, 2025

Gestern habe ich einen Post veröffentlicht über meinen Substack Scraper. Wie ich mein eigenes Newsletter-Archiv in 42 Sekunden strukturiert habe. 18 Posts, alle Daten lokal, unter meiner Kontrolle.

Dann kam ein Kommentar von

Lukas Schreibt Shite

. Eine Frage die alles verändert hat.

“Würde sich dein Scraper daran halten, wenn die Newsletter nicht gescraped werden wollen? Durch eine Textdatei, die ihnen das sagt?”

Er meinte robots.txt.

Ich hab nachgeschaut. Und was ich gefunden habe, war nicht nur eine technische Antwort. Es war ein Blick hinter den Vorhang.

Du denkst, deine Inhalte gehören dir. Aber Substack entscheidet durch 20 Zeilen Code wer sie sehen darf. Und für wen sie optimiert sind.

Das ist die Geschichte dieser 20 Zeilen.

Was ist robots.txt überhaupt?

Bevor wir tiefer gehen: Was ist diese Datei?

robots.txt ist eine Textdatei, die auf jeder Website liegt. Sie sagt Bots und Crawlern: “Das darfst du crawlen. Das nicht.”

Jeder Bot der eine Website besucht, schaut zuerst hier rein. Google. Bing. ChatGPT. Alle.

Die Datei liegt immer an der gleichen Stelle:

https://deine-website.com/robots.txt

Bei Substack also:

https://dein-newsletter.substack.com/robots.txt

Das Format ist simpel:

User-agent: = Welcher Bot
Disallow: = Was verboten ist
Allow: = Was erlaubt ist

Beispiel:

User-agent: Googlebot
Disallow: /private/

Das heißt: “Hey Google, crawl alles außer /private/”.

Simpel. Transparent. Jeder kann es lesen.

Aber die Regeln, die da drinstehen? Die sagen mehr über die Plattform aus, als du denkst.

Die Analyse: Substacks robots.txt

Nachdem Lukas gefragt hat bin ich zu meiner eigenen robots.txt gegangen:

https://stevennoack.substack.com/robots.txt

Hier ist was ich gefunden habe:

User-agent: BLEXBot
Disallow: /

User-agent: Twitterbot
Disallow:

User-agent: *
Disallow: /action/
Disallow: /publish
Disallow: /sign-in
Disallow: /channel-frame
Disallow: /session-attribution-frame
Disallow: /visited-surface-frame
Disallow: /feed/private
Disallow: /feed/podcast/*/private/*.rss
Disallow: /subscribe
Disallow: /lovestack/*
Disallow: /p/*/comment/*
Disallow: /inbox/post/*
Disallow: /notes/post/*
Disallow: /embed

User-agent: facebookexternalhit
Allow: /
Allow: /subscribe

SITEMAP: https://stevennoack.substack.com/sitemap.xml
SITEMAP: https://stevennoack.substack.com/news_sitemap.xml

Lass uns das auseinandernehmen.

Die drei Kategorien von Bots

Kategorie 1: Die Ausgesperrten

User-agent: BLEXBot
Disallow: /

BLEXBot ist komplett geblockt. Darf gar nichts crawlen.

Was ist BLEXBot? Ein automatischer SEO-Crawler der Webseiten durchsucht, um Backlink-Daten zu sammeln. Firmen nutzen solche Tools um zu analysieren, wer auf sie verlinkt. Oder um Konkurrenzanalysen zu machen.

Das Problem: BLEXBot crawlt aggressiv. Verbraucht Bandbreite. Bringt Substack keinen direkten Nutzen. Kein Traffic, kein Growth, keine User.

Also: Raus. Komplettes Disallow.

Das ist die erste Lektion: Plattformen entscheiden, wer wertvoll ist. BLEXBot ist es nicht. Also darf er nicht rein.

Kategorie 2: Die Bevorzugten

User-agent: Twitterbot
Disallow:

User-agent: facebookexternalhit
Allow: /
Allow: /subscribe

Twitterbot: Darf alles. Keine Einschränkungen.

Facebook: Darf auch alles. Plus explizit /subscribe.

Das sind keine normalen Bots. Das sind VIP-Gäste.

Kategorie 3: Alle anderen

User-agent: *
Disallow: /subscribe
Disallow: [... lange Liste ...]

User-agent: *⁣ Bedeutet: Alle anderen Bots. Google, Bing, ChatGPT,
mein Scraper xD.

Die dürfen:

✅ /p/* (deine Posts)
✅ /archive (dein Archiv)
✅ Öffentliche Seiten

Die dürfen NICHT:

❌ /subscribe (Subscribe-Button)
❌ /publish (Admin-Bereich)
❌ /feed/private (Private Feeds)
❌ /p/*/comment/* (Kommentare)

Moment. Warte.

Twitter und Facebook dürfen /subscribe crawlen. Google nicht?

Die Bevorzugung

Zufall? Nein, das ist Strategie.

Warum Twitter und Facebook bevorzugt werden:

Wenn du einen Substack-Link auf Twitter teilst, passiert folgendes:

Twitterbot crawlt die Seite
Findet den Post UND den Subscribe-Button
Baut einen schönen Preview mit Call-to-Action
User klickt → direkt zu Subscribe

Für Facebook das gleiche.

Das ist Virality-by-Design. Social Media wird zur Growth-Machine.

Warum Google NICHT /subscribe crawlen darf:

Google soll deine Posts indexieren. Für SEO. Für Discovery. Aber die Subscribe-Mechanik? Die bleibt auf Social Media.

Das ist kein Bug. Das ist Feature.

Substack optimiert für die Big-Tech-Ökosysteme. Twitter und Facebook sind Partner im Growth-Game. Google ist nur ein Werkzeug für Traffic.

Was das bedeutet

Auf den ersten Blick: Smart Business-Strategie. Substack nutzt die Reichweite von Social Media für Wachstum.

Auf den zweiten Blick: Du hast keine Kontrolle.

Das Problem:

Als Autor auf Substack kannst du diese robots.txt NICHT ändern.

Du kannst nicht sagen: “Ich will, dass Google auch /subscribe sehen darf.”

Du kannst nicht sagen: “Ich will Twitter NICHT bevorzugen.”

Du kannst nicht mal eine eigene robots.txt hochladen.

Die Regeln sind zentral. Von Substack. Für alle. Und du hast keinen Einfluss.

Das ist genau der Grund, warum ich parallel auf eigener Infrastruktur publiziere. Auf meinem WriteFreely-Blog praktiziere ich, wie man Content für LLM-Sichtbarkeit optimiert] – mit voller Kontrolle über robots.txt. Wenn ich will, dass ein bestimmter LLM mich crawlen darf, schreibe ich es einfach rein. So einfach.

Die größere Frage:

Wenn Substack morgen beschließt, andere Bots zu bevorzugen. Oder andere Bots zu blocken. Oder die Spielregeln komplett zu ändern.

Du wirst es nicht mitbekommen. Bis es zu spät ist.

Deine Inhalte leben auf fremdem Land. Und der Vermieter entscheidet, wer durchs Tor darf.

Die Ironie

Ich hab meinen Scraper gebaut um genau diese Abhängigkeit zu brechen.

Meine Posts. Meine Daten. Lokal. Unter meiner Kontrolle.

Aber dann zeigt Lukas mir: Selbst das bewegt sich in einem Rahmen, den Substack definiert hat.

Die robots.txt sagt: “Ja, du darfst /p/* crawlen.”

Aber was wenn Substack morgen sagt: “Nicht mehr”?

Dann ist mein Scraper nutzlos. Nicht weil er technisch nicht funktioniert. Sondern weil die Plattform die Regeln geändert hat.

Das ist Realität.

William Wallace schrie “FREIHEIT!” und meinte es. Ich baue sie: Meine eigene Infrastruktur im Fediverse. Nicht als Ersatz für Substack, sondern als Fundament. Wenn Substack morgen die Regeln ändert – ich habe meine Posts. Lokal. Auf eigener Domain. Mit meiner eigenen robots.txt.

Plattformen ändern ihre Regeln. Ständig. Twitter wurde zu X und hat API-Zugriff abgeschaltet. Reddit hat API-Preise so hochgeschraubt, dass Apps sterben mussten. YouTube ändert Algorithmen und Creator verlieren über Nacht ihre Reichweite.

Substack könnte morgen sagen: “Nur noch Twitterbot darf crawlen. Alle anderen geblockt.”

Und du hättest keine Wahl.

Die Entscheidung

Deshalb habe ich nach Lukas’ Kommentar eine Entscheidung getroffen.

Der Scraper bleibt auf den ursprünglichen Use Case fokussiert: Dein eigenes Archiv.

Die Session-Authentifizierung ist fest an deinen Account gebunden. Das heißt: Du kannst nur deine eigenen Posts scrapen.

Für fremde Newsletter bräuchtest du deren Login-Credentials. Und das ist weder der Zweck noch ethisch vertretbar.

Ursprünglich hatte ich geplant: Top 100 deutschsprachige Newsletter scrapen. Embeddings erstellen. Semantische Suche über alle Posts.

Aber ehrlich: Ich will meine Zeit nicht damit verbringen, mich mit Urheberrechtsfragen auseinanderzusetzen. Oder im Graubereich zu navigieren, wo Plattformen ihre Regeln ändern können, wann sie wollen.

Stattdessen:

Nächster Schritt ist eine Top 100 Liste deutschsprachiger Newsletter. Aber basierend auf frei verfügbaren Metadaten und RSS-Feeds. Keine Content-Extraktion. Nur Discovery und Empfehlungen.

Das ist ethisch sauber. Das ist plattformunabhängig. Das ist nachhaltig.

Die größere Lektion

Diese 20 Zeilen robots.txt sind ein Spiegel.

Sie zeigen wie Plattformen funktionieren. Wie sie entscheiden wer Zugriff hat. Wie sie optimieren für die die ihnen nützen.

Twitter und Facebook bringen Growth. Also bekommen sie VIP-Zugang.

Google bringt Traffic. Also bekommt er eingeschränkten Zugang.

Kleine Bots oder dein persönlicher Scraper? Die spielen nach den Regeln für “alle anderen”.

Das ist keine Böswilligkeit. Das ist Business.

Aber es zeigt auch: Digitale Souveränität ist eine Illusion solange du auf fremdem Land baust.

Die Fragen die bleiben:

Besitzt du deine Inhalte wirklich? Oder nur eine Lizenz auf einer Platform?
Was passiert wenn die Plattform verschwindet? Oder die Regeln ändert?
Wie viel Kontrolle bist du bereit aufzugeben für Convenience?

Meine Antwort: Keine. Deshalb experimentiere ich mit LLMO – LLM Optimization auf eigener Infrastruktur. Die zentrale Erkenntnis: Gutes Schreiben für Menschen ist automatisch gutes Schreiben für LLMs – aber nur wenn die Plattform es zulässt. Und auf Substack? Substack entscheidet, nicht du.

Das sind keine theoretischen Fragen. Das sind existenzielle Fragen für jeden der auf Content-Basis arbeitet.

Warum ich trotzdem auf Substack bin

Bevor jemand denkt: “Dann verlasse Substack halt.”

Nein.

Substack ist ein gutes Tool. Die Plattform funktioniert. Die Distribution ist stark. Die Community ist real.

Aber ich gehe mit offenen Augen rein.

Ich weiß, dass Substack die Regeln macht. Ich weiß, dass Twitter und Facebook bevorzugt werden. Ich weiß, dass ich keine Kontrolle über robots.txt habe.

Und genau deshalb baue ich meine eigenen Systeme.

Der Scraper ist mein Backup. Meine Unabhängigkeit. Mein Plan B.

Wenn Substack morgen sagt: “Neue Regeln.” Dann habe ich meine Daten. Lokal. Strukturiert. Ready für Migration zu Ghost. Zu WordPress. Zu meiner eigenen Domain.

Das ist keine Exit-Strategie. Das ist Versicherung.

William Wallace schrie “FREIHEIT!” bevor er starb. Ich baue sie, während ich lebe. Wie das konkret aussieht, beschreibe ich in meiner Reise ins Fediverse – warum ich eine eigene Mastodon-Instanz und einen WriteFreely-Blog betreibe. Nicht weil Substack schlecht ist, sondern weil Freiheit unbezahlbar ist.

Du nutzt die Plattform. Aber die Plattform besitzt dich nicht.

Das ist der Unterschied zwischen Convenience und Souveränität.

Zurück zu Lukas

Lukas hat mit seiner Frage etwas Wichtiges getan.

Er hat nicht nur nach robots.txt gefragt. Er hat nach den Regeln gefragt. Nach der Ethik. Nach der Kontrolle.

Und genau solche Fragen braucht es.

Nicht “Wie funktioniert das Tool?” sondern “Wer macht die Regeln?”

Nicht “Kann ich das scrapen?” sondern “Sollte ich das scrapen?”

Nicht “Was ist technisch möglich?” sondern “Was ist richtig?”

Diese Fragen machen Tools besser. Sie machen Strategien klarer. Sie machen die Mission ehrlicher.

Das ist auch der Grund, warum ich auf digitale Freiheit durch eigene Infrastruktur setze. Parallel zu diesem Substack betreibe ich fediverse.stevennoack.de – meine eigene Mastodon-Instanz. Dort schreibe ich die Regeln. Dort kontrolliere ich robots.txt. Dort bin ich frei.

Also danke Lukas. Dein Kommentar hat mehr bewirkt, als du denkst.

Fazit

20 Zeilen Code in robots.txt zeigen mehr über eine Plattform als ein 50-seitiges Whitepaper.

Sie zeigen, wen die Plattform bevorzugt. Für wen sie optimiert. Und wer draußen bleiben muss.

Bei Substack sind das Twitter und Facebook. VIP-Zugang. Optimiert für Virality und Growth.

Für alle anderen: Eingeschränkter Zugang. Spielen nach den Standardregeln.

Das ist nicht gut oder schlecht. Das ist einfach Realität.

Aber als Autor musst du wissen, dass diese Regeln existieren. Und dass du sie nicht ändern kannst.

Deshalb: Nutze die Plattform. Aber baue deine eigenen Systeme.

Scrape dein Archiv. Sichere deine Daten. Hab einen Plan B.

Convenience ist gut. Aber Souveränität ist besser.

Das ist die Lektion der unsichtbaren Hand.

-Steven

P.S.: Die nächste Frage ist natürlich: Wie sieht robots.txt bei Ghost aus? Bei WordPress? Bei Medium?

Spoiler: Überall unterschiedlich. Überall mit anderen Bevorzugungen. Überall mit anderen Einschränkungen.

Aber das ist Material für einen anderen Post.

P.P.S.: Wenn du wissen willst, wie robots.txt auf deiner eigenen Domain funktioniert: Einfach /robots.txt an deine URL hängen und schauen, was passiert. Die Wahrheit ist nur einen Browser-Tab entfernt.

Resources:

BLEXBot Information – Was ist BLEXBot und warum wird er geblockt
robots.txt Dokumentation – Google’s offizieller Guide
Mein Substack Scraper – Open Source Tool für Newsletter-Archivierung
LLM-Readability Checker – Teste wie LLM-ready deine Website ist

Artikel-Metadaten:

Themen: robots.txt · Plattform-Kontrolle · Substack · LLM-Zugang · digitale Souveränität · Bot-Regeln
Hauptquellen: Substacks robots.txt · Eigene Analyse · Lukas’ Kommentar · BLEXBot Dokumentation
Veröffentlicht: November 2025
Autor: Steven Noack (fediverse.stevennoack.de)
Teil von: Digitale Souveränität Serie

🛠️ Teste deine LLM-Readability

robots.txt ist nur ein Teil der Geschichte. Selbst wenn Bots crawlen dürfen – verstehen sie deine Inhalte?

Ich habe den LLM-Readability Checker genau dafür gebaut:

Was er macht:

Analysiert deine Website in 30 Sekunden
Gibt dir einen Score von 0-100 Punkten
Zeigt konkret, wo LLMs Probleme haben
Liefert Verbesserungsvorschläge

Was er kostet:

Nichts. Kostenlos. Keine Anmeldung.

Was du bekommst:

Klarheit darüber, ob ChatGPT/Perplexity/Claude dich finden können
Technische Analyse von Schema.org, Semantic HTML, Meta-Tags
Sofort umsetzbare Empfehlungen

robots.txt entscheidet, WER crawlen darf. LLM-Readability entscheidet, WAS verstanden wird.

Beide müssen stimmen.

→ Jetzt kostenlos testen: codeback.de/llm-checker

Brauchst du Hilfe beim Optimieren?

Wenn dein Score unter 70 liegt oder du nicht weißt, wie du die Empfehlungen umsetzt – ich helfe dir dabei. Ich baue LLM-native Websites für deutschsprachige Coaches und Consultants. Websites, die ChatGPT versteht und empfiehlt.

→ Kostenlose Erstberatung