Das Crawl Budget und der Googlebot

Auch ihr hattet schon mehrmals Besuch vom Googlebot und anderen Webcrawlern. Wir erklären euch in diesem Beitrag, was Webcrawler tun, was es mit dem Crawl-Budget auf sich hat und wie Webseitenbetreiber darauf Einfluss nehmen können.

Damit Googles Index immer aktuell und nutzerfreundlich bleibt, schickt der Internet-Riese sogenannte Webcrawler auf die Reise durch das World Wide Web. Diese Bots durchsuchen das Internet nach neuen Informationen und gelöschten Seiten, um immer auf dem neuesten Stand zu bleiben. Google verwendet dafür den Googlebot. Er räumt den Index täglich immer wieder auf’s Neue auf. Dieser Vorgang wird als „crawling“ bezeichnet und betrifft Websites mit all ihren Unterseiten. Dabei werden einige Websites öfter und tiefergehender gecrawlt, als andere. Hier kommt das Crawl Budget ins Spiel.

Was ist das Crawl Budget?

Das Crawl Budget gibt an, wie viele Unterseiten einer Website von Google gecrawlt werden und damit in den Index wandern oder dort aktualisiert werden. Wie viele (Unter-)Seiten tatsächlich gecrawlt werden, bestimmt Google selbst und richtet sich nach der Domain-Popularität und dem “Trust-Rank” der Seite. Zwar heißt die höchste Priorität des Googlebots Crawling, aber nicht um jeden Preis. Google versucht, bei den täglichen Aufräumarbeiten im eigenen Index die User Experience bei den Suchergebnissen nicht zu verschlechtern. Deswegen gibt es Crawl Limits für jede Website.

Crawl Rate und Crawl Limit

Hier geht es vor allem um die Performance eurer Website. Laden die einzelnen Unterseiten schnell, – bekommt man also als User eine schnelle Rückmeldung – steigt auch die Crawl Rate. Genauso umgekehrt: Bei langen Ladezeiten geht der Googlebot von einem schwachen oder fehlerhaften Server aus und die Crawl Rate sinkt, das heißt es werden weniger Unterseiten gecrawlt und in den Index aufgenommen. Das Limit kann dabei auch vom Betreiber der Website in der Google Search Console gesetzt werden.

Wichtig: Nur weil ihr euer Crawl Limit hoch ansetzt heißt das nicht, dass der Googlebot mehr URL’s eurer Website crawlt. Das entscheidet immer noch Google selber.  Aber wie genau schafft man es denn jetzt, dass die Crawl Rate steigt?

via GIPHY

Crawl Demand

Es gibt zwei Faktoren, die den Googlebot dazu bewegen, seine Crawl Rate auf eurer Website zu erhöhen:

  • Popularität – Bekanntere URL’s von großen Websites werden häufiger gecrawlt, um den Index von Google aktuell zu halten.
  • Aktualität – Google versucht, die URL’s davor zu bewahren, dass sie irgendwo im Index „versauern“. Wird also an den Seiten gearbeitet, wird der Googlebot hellhörig und schaut öfter vorbei.

Packt man nun die Crawl Rate und das Crawl Demand zusammen, erhält man das Crawl Budget. Sinkt dieses Budget, werden weniger Unterseiten eurer Website gecrawlt und sie werden schlechter gefunden. Das Crawl Budget umfasst letztlich die Menge an URL’s, die der Googlebot crawlen kann und möchte.

Das solltet ihr vermeiden, wenn euer Crawl Budget nicht schrumpfen soll:

  • Website-/Serverfehler (z.B. Fehlermeldung 404)
  • gehackte Seiten
  • Infinite Space – Seiten ohne jeglichen Content (z.B. ein Eventkalender ohne eingetragene Events)
  • qualitativ schlechter Content oder Spam
  • Faceted Navigation – die Navigation muss User-freundlich bleiben und keine undurchsichtige URL-Lawine bilden
  • On-Site duplicate content – gleicher Content über verschiedene URL’s

via GIPHY

Zusammenfassung: Worauf kommt es an?

Um sich ein gleichbleibend hohes Crawl Budget zu sichern, muss eure Website kontinuierlich optimiert werden. Es dürfen keine URL-Wüsten mit fehlerhaften oder nicht funktionierten Unterseiten entstehen. Auch die Ladegeschwindigkeiten der einzelnen URL’s spielen eine große Rolle. Die Crawl Rate ist kein ausgewiesener Ranking-Faktor von Google, denn es geht hierbei nicht darum, wo ihr in den Suchergebnissen landet, sondern, ob und mit wie vielen URL’s.

Der Googlebot bestimmt, was, wie viel und wie oft er crawlt. Optimieren könnt ihr jedoch trotzdem, denn ihr könnt ihn so steuern, dass das vorhandene Crawl Budget möglichst sinnvoll ausgenutzt wird und URL’s mit besonders gutem Content oder einer hohen Bedeutung für das Geschäft gecrawlt werden. Unterseiten mit niedrigem Informationsgehalt für den User oder 404-Fehlern können identifiziert und vom Crawling ausgeschlossen werden.

Wenn ihr noch mehr über das Crawl Budget und die Funktionsweise des Googlebots erfahren wollt, findet ihr im Google Webmaster Central Blog noch mehr Informationen.

Wie ist deine Meinung?

vierzehn + siebzehn =

Bekannt aus: