Was deine Server-Logs über Crawl-Budget verraten

Die Search Console zeigt dir, was Google crawlt. Server-Logs zeigen dir, was Google WIRKLICH macht. Der Unterschied ist größer als du denkst.

Googlebot crawlt massiv URLs, die gar nicht indexiert sind

Schau dir mal die Rohdaten an: Bei den meisten Sites gehen 40-60% aller Crawls an URLs, die du komplett blockiert hast oder die keinen Mehrwert haben. /wp-admin/, /ajax-handler/, irgendwelche Session-IDs. Das ist pures Crawl-Budget, das verbrannt wird.

Praktisches Beispiel: Ein Shop hatte 80.000 URLs in der Sitemap, aber der Googlebot hat im Schnitt 280.000 URLs pro Woche aufgerufen. Die zusätzlichen 200.000? Alte Filter-Kombinationen, die noch irgendwo verlinkt waren. Vom Jahr 2018.

Crawl-Frequenz korreliert nicht mit Wichtigkeit

Hier wird es interessant: Google crawlt nicht unbedingt deine wichtigsten Seiten am häufigsten. Oft ist es genau umgekehrt. Seiten mit vielen ausgehenden Links, die sich häufig ändern, bekommen mehr Crawls – auch wenn sie unwichtig sind.

Deine Hauptkategorie-Seite, die super wichtig ist? Vielleicht alle drei Tage. Irgendein automatisch generierter Blog-Archiv-Page von 2019? Täglich gecrawlt, weil sich dort die Sidebar-Links ändern.

Das kannst du in den Logs sehen: Gruppiere Crawls nach URL-Pattern. Du wirst Muster finden wie "/blog/20[0-9]{2}/" mit tausenden Crawls, während "/produkte/" unterrepräsentiert ist.

HTTP-Statuscodes sind das eigentliche Problem

Wie viele deiner gecrawlten URLs liefern 404, 301 oder 302? Bei vielen Sites sind das 15-25% aller Crawls. Pure Verschwendung.

Noch schlimmer: Soft-404s. Die liefern 200 OK, haben aber keinen Inhalt. Google crawlt die trotzdem immer wieder, weil der Statuscode ja "erfolgreich" signalisiert. In den Logs siehst du: 200 Status, aber nur 2KB Größe. Das sind Soft-404s.

Timing-Daten zeigen Performance-Probleme

Server-Logs haben Timestamps. Wenn Google eine Seite anfragt und die Antwort dauert 8 Sekunden, siehst du das. In der Search Console? Nicht direkt.

Ich hab Sites gesehen, wo 30% der Crawls mit Timeouts endeten. Die Seiten waren technisch erreichbar, aber so langsam, dass der Googlebot aufgab. Das Problem? Datenbankabfragen, die bei bestimmten URL-Parametern eskalieren.

Der praktische Ansatz: Exportiere einen Monat Server-Logs. Filter nach Googlebot. Gruppiere nach Verzeichnis, Statuscode und Antwortzeit. Du findest garantiert URLs, die massiv gecrawlt werden, aber null Wert haben. Blockier die per robots.txt oder noindex. Mehr Budget für die wichtigen Seiten.

Bereit für den nächsten Schritt?

Entdecke weitere praktische Strategien und konkrete Tipps, die dir helfen, deine Fähigkeiten zu erweitern und messbare Ergebnisse zu erzielen.