Sitemap XML und robots.txt für besseres Crawling und SEO
Technisches SEO 6 Min. Lesezeit

Sitemap.xml und robots.txt: Crawl-Steuerung für Hallenser Websites

Sitemap und robots.txt korrekt konfigurieren — XML-Aufbau, Sitemap-Index, Crawl-Direktiven, häufige Fehler. Festpreis-Audit prüft beides als Standardmodul.

Arnold Wender

Arnold Wender

SEO-Experte & Gründer

Aktualisiert: 8. Mai 2026
Inhaltsverzeichnis

Sitemap.xml und robots.txt sind die zwei kleinen Dateien, mit denen Sie Google sagen, was indexiert werden soll und was nicht. Falsch konfiguriert, kann eine einzige Zeile genügen, um eine ganze Website unsichtbar zu machen — wir haben Fälle erlebt, in denen ein versehentliches Disallow: / Wochen organischen Traffic gekostet hat. Im SEO-Audit für 499 Euro prüfen wir beide Dateien als Standardmodul gleich am Anfang.

Was eine Sitemap.xml leistet

Eine Sitemap ist eine XML-Datei, die alle URLs auflistet, die Google indexieren soll. Sie ist das maschinenlesbare Inhaltsverzeichnis für den Crawler.

Sitemap-Vorteile:

  • Neue URLs werden schneller entdeckt und indexiert
  • Google erkennt, welche URLs Priorität haben sollen
  • Pflicht bei Sites mit mehr als wenigen hundert URLs
  • Hilfreich, wenn die interne Verlinkung lückenhaft ist

Brauchen kleine Sites eine Sitemap?

Strenggenommen nein — Google findet URLs auch über interne Links. Aber: Eine Sitemap schadet nie und beschleunigt die Indexierung. Empfehlung: in jedem Setup einrichten.


Aufbau einer Sitemap

Eine einfache Sitemap sieht so aus:

<?xml version="1.0" encoding="UTF-8"?>
<urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">
  <url>
    <loc>https://seo-service-halle.de/</loc>
    <lastmod>2026-05-08</lastmod>
    <changefreq>monthly</changefreq>
    <priority>1.0</priority>
  </url>
  <url>
    <loc>https://seo-service-halle.de/seo-pakete/</loc>
    <lastmod>2026-04-25</lastmod>
    <changefreq>monthly</changefreq>
    <priority>0.9</priority>
  </url>
  <url>
    <loc>https://seo-service-halle.de/blog/local-seo-guide-kmu-halle/</loc>
    <lastmod>2026-05-08</lastmod>
    <changefreq>weekly</changefreq>
    <priority>0.6</priority>
  </url>
</urlset>

Felder im Detail:

FeldBedeutungPflicht
<loc>absolute URL mit ProtokollJa
<lastmod>Datum der letzten Änderung (ISO 8601)Empfohlen
<changefreq>erwartete ÄnderungsfrequenzOptional
<priority>relative Wichtigkeit (0.0 bis 1.0)Optional

Wichtig: <changefreq> und <priority> sind für Google nur Hinweise, keine Anweisungen. Der tatsächliche Crawl-Rhythmus folgt Googles internen Signalen — nicht Ihrer Wunschvorstellung.


Sitemap-Index für umfangreiche Sites

Ab 50.000 URLs oder 50 MB Dateigröße braucht es mehrere Sitemaps, koordiniert über einen Index:

<?xml version="1.0" encoding="UTF-8"?>
<sitemapindex xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">
  <sitemap>
    <loc>https://seo-service-halle.de/sitemap-pages.xml</loc>
  </sitemap>
  <sitemap>
    <loc>https://seo-service-halle.de/sitemap-blog.xml</loc>
  </sitemap>
  <sitemap>
    <loc>https://seo-service-halle.de/sitemap-leistungen.xml</loc>
  </sitemap>
</sitemapindex>

In Astro-Projekten erzeugt @astrojs/sitemap standardmäßig ein /sitemap-index.xml mit zugehörigen Unter-Sitemaps.


Was nicht in die Sitemap gehört

Tabu für die Sitemap:

  • URLs mit noindex-Meta-Tag (Widerspruch — Google ignoriert das Canonical)
  • URLs, die per Disallow in der robots.txt blockiert sind
  • 301-weiterleitende URLs (nur die Ziel-URL)
  • 404-URLs
  • Parameter-Duplikate
  • Passwortgeschützte Seiten
  • Thin-Content-URLs ohne Mehrwert

Faustregel: Nur URLs in die Sitemap, die Sie aktiv für Rankings und Indexierung verwenden wollen.


Sitemap einreichen und überwachen

Search Console

  1. search.google.com/search-console öffnen
  2. Bereich “Sitemaps” wählen
  3. Sitemap-URL eingeben (z. B. seo-service-halle.de/sitemap-index.xml)
  4. “Senden” — Bestätigung erscheint sofort

GSC zeigt dann pro Sitemap:

  • Anzahl übermittelter URLs
  • Anzahl indexierter URLs
  • Erkannte Fehler

Klassisches Diagnose-Symptom: Sitemap übermittelt 120 URLs, indexiert sind nur 80. Ursachen sind meistens noindex-Tags auf einigen URLs oder Bewertung als Thin/Duplicate-Content. Genau diesen Abgleich aus Sitemap, GSC-Report und Live-Crawl machen wir im Festpreis-Audit systematisch.


Was die robots.txt regelt

Die robots.txt liegt im Hauptverzeichnis (ihre-domain.de/robots.txt) und sagt Crawlern, welche Bereiche sie nicht abrufen sollen.

Konzeptioneller Unterschied zur Sitemap:

  • Sitemap: “Diese URLs möchte ich indexiert.”
  • robots.txt: “Diese Bereiche bitte nicht crawlen.”

Aufbau einer sauberen robots.txt

# robots.txt für seo-service-halle.de
# Letzte Aktualisierung: 2026-05-08

User-agent: *
# Admin- und private Bereiche
Disallow: /admin/
Disallow: /intern/
Disallow: /api/

# URL-Parameter blockieren (vermeidet Duplicate Content)
Disallow: /*?*sort=
Disallow: /*?*filter=
Disallow: /*?*session=

# Sitemap bekanntgeben
Sitemap: https://seo-service-halle.de/sitemap-index.xml

Direktiven-Übersicht:

DirektiveBedeutung
User-agent: *gilt für alle Crawler
User-agent: Googlebotnur für Google
Disallow: /pfad/dieser Bereich wird nicht gecrawlt
Allow: /pfad/datei.htmlAusnahme innerhalb eines Disallow-Bereichs
Sitemap: URLHinweis auf die Sitemap-Datei

Vier robots.txt-Fehler, die wirklich Schaden anrichten

Fehler 1: Komplett-Block der Site

# Sehr gefährlich — alles wird blockiert
User-agent: *
Disallow: /

Passiert beim Klonen einer Staging-robots.txt, beim CMS-Wechsel oder durch unsaubere Setup-Scripts. Folge: Site verschwindet komplett aus dem Index. In GSC sofort als Crawl-Anomalie sichtbar.

Fehler 2: CSS/JS blockieren

# Falsch — Google kann nicht rendern
Disallow: /assets/
Disallow: /static/
Disallow: /css/
Disallow: /js/

Wenn Google CSS und JavaScript nicht laden darf, kann es die Seite nicht korrekt rendern — Mobile-Tauglichkeit, CWV und Layout-Bewertung kollabieren.

Fehler 3: robots.txt als Noindex-Ersatz

# Falsche Annahme!
User-agent: *
Disallow: /datenschutz/  # Das verhindert NICHT die Indexierung

Disallow blockiert das Crawlen, aber nicht die Indexierung. Wenn andere URLs auf /datenschutz/ verlinken, kann Google die URL ohne Inhalt indexieren. Echter Ausschluss erfordert ein <meta name="robots" content="noindex"> auf der Seite selbst.

Fehler 4: Vergessene Sitemap-Referenz

Ohne Sitemap-Verweis in robots.txt muss Google die Sitemap auf anderen Wegen finden. Immer angeben:

Sitemap: https://ihre-domain.de/sitemap-index.xml

Validierungs-Workflow

Search Console → Bereich “Einstellungen” → “robots.txt” — listet aktuelle Datei und Probleme.

Manuell: https://ihre-domain.de/robots.txt im Browser aufrufen — was Sie sehen, sieht der Crawler auch.

robots.txt-Tester (in der alten Search Console weiter verfügbar) — zeigt, ob konkrete URLs blockiert werden.


Zusammenspiel beider Dateien

robots.txt:
  Disallow: /admin/
  Sitemap: https://ihre-domain.de/sitemap-index.xml

sitemap.xml:
  enthält nur indexierbare, kanonische URLs
  enthält keine URLs, die robots.txt disallowed

Widerspruchsfreiheit prüfen:

  • URLs in der Sitemap dürfen nicht in robots.txt blockiert sein
  • URLs mit noindex dürfen nicht in der Sitemap stehen
  • In die Sitemap kommen Canonical-URLs, keine Redirect-Quellen

Häufige Fragen

Muss ich die Sitemap manuell pflegen?

In modernen Stacks (Astro, Next.js, WordPress mit Yoast/Rank Math) wird die Sitemap automatisch generiert. Manuelle Pflege ist nur bei statischen HTML-Sites nötig — und dort fehleranfällig.

Wie oft crawlt Google meine Sitemap?

Aktiv gepflegte Domains: täglich. Kleine Sites mit seltenen Updates: wöchentlich. Nach Einreichung in GSC oft schon nach wenigen Stunden der erste Crawl.

Kann eine falsche robots.txt Rankings zerstören?

Ja. Ein versehentliches Disallow: / blockiert alles, eine blockierte CSS-Datei zerstört die Mobile-Bewertung. Änderungen immer vor dem Live-Push im Tester prüfen.


Fazit

Sitemap und robots.txt sind klein im Umfang, aber groß in der Wirkung. Eine kanonische Sitemap, eine saubere robots.txt mit Sitemap-Verweis und keine widersprüchlichen Direktiven — diese drei Punkte sichern das technische Fundament jeder produktiven SEO-Strategie.

Konkrete Diagnose: SEO-Audit für 499 Euro — wir prüfen Sitemap-Vollständigkeit, robots.txt-Konsistenz und liefern eine priorisierte Korrekturliste.

Arnold Wender, SEO-Experte

SEO-Experte & Gründer

Arnold Wender ist Gründer und Geschäftsführer der SEO-Agentur Halle (Saale). Mit über 18 Jahren Erfahrung in der Suchmaschinenoptimierung hilft er Unternehmen, ihre Online-Sichtbarkeit nachhaltig zu verbessern.

Profil anzeigen