Co to jest crawl budget i jak go zoptymalizować pod SEO?

Crawl budget to pojęcie, które odgrywa ważną rolę w procesie indeksowania stron internetowych przez roboty wyszukiwarek. Internet to duże miejsce, a konkurować tam można nie tylko w ramach pozycjonowania, ale również w zakresie… indeksacji. Robot Google poświęca określony czas na poruszanie się po stronach i między innymi właśnie ich indeksowanie. W przypadku dużych witryn, z ogromną liczbą podstron, proces ten może ciągnąć się w nieskończoność. Jak zatem przyciągnąć uwagę Googlebota? Jak sprawić, aby optymalizacja strony pod crawl budget przyniosła oczekiwane rezultaty i mieć pewność, że wszystko to, co tworzymy na swojej witrynie, znajdzie się w wyszukiwarce? Dzięki paru trikom, jesteśmy w stanie pomóc Googlebotowi w regularnym odwiedzeniu naszej witryny i indeksowaniu wskazanych podstron. Jak to zrobić?

Co to jest crawl budget – definicja

Zacznijmy od szczegółowego wyjaśnienia pojęcia. Crawl budget to liczba stron lub podstron na domenie, jaką w określonym czasie jest w stanie przeszukać robot wyszukiwarki w celu zaindeksowania ich. Jest to ważny czynnik, który wpływ na skuteczność indeksowania witryny w ogóle. Crawl budgetem możesz zarządzać i go kontrolować, jednocześnie może on być ograniczony przez wiele czynników.

Wyszukiwarki internetowe działają posługując się algorytmem, który narzuca sposób poruszania się robotów po stronach. Przez to, niektóre z domen mogą być przez niego odwiedzane częściej, a inne rzadziej, w zależności np. od ich ważności albo znaczenia dla użytkowników. Jednak jednym z ważniejszych czynników, które wpływają na crawl budget, jest rozmiar strony internetowej. Im większa strona internetowa, tym więcej czasu potrzebuje robot wyszukiwarki na zaindeksowanie wszystkich jej podstron.

Innymi czynnikami wpływającymi na crawl budget są np.:

liczba linków na stronie – wewnętrzna struktura linków w tym te w MENU, które pomagają albo utrudniają poruszanie się robota – przechodzenie pomiędzy podstronami,
szybkość serwera – wpływa na szybkość odczytu danych i to, czy w ogóle robot jest się w stanie po niej poruszać,
jakość skanowanej przez niego treści,
aktualność mapy strony XML,
autorytet witryny – jak bardzo informacje na niej znajdujące się są przydatne użytkownikom i jak często jest ona przez nich odwiedzana,
ogólna aktualność strony lub informacji na niej zawartych – brak przestarzałych treści, niezgodnych z aktualną wiedzą, czy ogólnie prowadzenie bloga,
ogólna liczba linków na domenie.

Ograniczenia związane z indeksowaniem strony i poruszaniem się po niej robota, mogą również wynikać z nieprawidłowości technicznych, takich jak np. błędne zapisy w pliku robots.txt, czy tymczasowe problemy z serwerem wyświetlane w postaci błędów 5XX (dostępność strony w momencie próby jej indeksacji). W drugim przypadku robot podczas nieudanej próby dostania się na stronę, po prostu zignoruje ją, a szczęście będziemy mieć, jeśli odwiedzi ją ponownie w niedługim odstępie czasu i w ogóle skutecznie zaindeksuje. Dlatego tak ważna jest optymalizacja strony pod kątem crawl budgetu. Należy zadbać o to, aby była ona zgodna z zasadami pozycjonowania i zapewniała do siebie stały dostęp nie tylko użytkownikom, ale przede wszystkim robotowi Google, od którego zależy w ogóle, czy zostanie ona przez potencjalnych klientów dostrzeżona. Dlatego dobra optymalizacja pod SEO, pozwoli i w temacie crawl budgetu uzyskać świetne efekty.

Jak Google określa crawl budget?

Crawl budget to w zasadzie wypadkowa czasu i zasobów, które Google jest w stanie poświęcić na indeksowanie Twojej witryny. Równanie jest następujące:

CRAWL RATE + CRAWL DEMAND = CRAWL BUDGET

CRAWL RATE określa prędkość, z jaką robot Google indeksuje podstrony. Czyli ile żądań indeksowania na sekundę wysyła do Twojej witryny. Celem oczywiście jest zaindeksowanie jak największej liczby podstron w zależności np. od szybkości serwera. Jeśli uznamy jednak, że Googlebot wysyła ich zbyt wiele w celu indeksacji, co spowalnia momentami działanie strony, możemy tę liczbę ograniczyć, np. w pliku robots.txt odpowiednimi komunikatami. Pamiętaj jednak, że każda ingerencja w poruszanie się robota Google po stronie, może mieć negatywny wpływ na jej indeksowanie, dlatego ważne jest, aby ustalać takie działania z profesjonalistą, np. pozycjonerem. Istnieje również możliwość automatycznego wywołania błędu HTTP 503 w momencie przeciążenia serwera, co od razu sugeruje robotowi wyjście. Należy jednak być rozważnym przy stosowaniu tego rozwiązania, ponieważ Googlebot może później zacząć rzadziej odwiedzać naszą witrynę.

CRAWL DEMAND natomiast to pojęcie odnoszące się do zapotrzebowania Google na indeksowanie konkretnej strony (całej domeny) lub pojedynczego adresu URL z witryny (np. artykułu, kategorii). Uogólniając, w mniemaniu robota wyszukiwarki, bardzo popularne strony lub te, które są często aktualizowane o ważne dla użytkowników informacje, dlatego mają one większe szanse na jego przychylność. Pamiętaj, że Google musi w jakiś sposób nadać wszystkim skanowanym stronom priorytet podczas indeksowania, a treść znajdująca się na stronach to prosty sposób na określenie, które z nich są bardziej przydatne, a tym samym popularne. Im większe zainteresowanie użytkowników wzbudzisz np. swoim produktem, tym większa szansa na lepszy wskaźnik crawl demand ze strony Googlebota. Zachęcisz go tym samym do powtórnych odwiedzin. W skrócie, aby zwiększyć szansę na lepszy crawl demand, możesz częściej aktualizować treści na domenie, regularnie optymalizować poszczególne podstrony wdrażając słowa kluczowe lub budować profil linków zwrotnych (sprawdź: Budowanie strategii linkowania – link building w SEO), a także poprawić jakość i szybkość wyświetlania się strony dla użytkowników (albo szybkość wczytywania się poszczególnych elementów: grafik, multimediów, itp. – szczególnie na urządzeniach mobilnych).

Co ciekawe, jeśli Twoja strona zmieni szablon, albo przejdzie migrację, to najpewniej Google zwiększy zapotrzebowanie na indeksowanie jej, aby szybciej zaktualizować swój indeks o nowe informacje i adresy URL. Wyszukiwarce bardzo zależy na tym, aby informacje w niej zawarte były najświeższe. Crawl budget nie jest niemal nigdy stały i pewny. Jeśli poprawisz np. szybkość serwera , a tym samym szybkość ładowania się strony, to robot Google może zacząć indeksować ją częściej. Aby dowiedzieć się więcej na temat statystyk indeksowania się Twojej witryny, zajrzyj do raportu w Google Search Console. Więcej na ten temat doczytasz np. tutaj: https://support.google.com/webmasters/answer/9679690?hl=pl.

Czy crawl budget jest ważny dla każdej witryny?

Witryny, które są bardzo małe albo koncentrują się na uzyskaniu dobrej widoczności wyłącznie na kilku podstronach, raczej nie muszą martwić się o crawl budget. Z kolei większe strony internetowe, czyli np. duże sklepy albo witryny informacyjne, czy blogi, zwłaszcza te nadmierną liczbą uszkodzonych podstron, błędami przekierowań i nieaktualnym contentem, mogą osiągnąć limit crawl budget, czyli robot niechętnie albo w ogóle nie będzie ich odwiedzał.

Szczególnie narażone są witryny e-commerce. Istnieje kilka powodów, dla których muszą one zwracać większą uwagę na to, jak są odbierane przez robota Google. Witryny te z uwagi na dużą liczbę produktów, regularnie tworzą lub usuwają tyle samo linków. Przy okazji aktualizują swoje stany magazynowe, co generuje często wiele błędów 404 lub przekierowań 301. Witryny e-commerce mają również tendencję do powielania stron (np. podstron produktów). A strony te z uwagi na niską wartość dodaną, negatywnie mogą wpływać na szybkość indeksowania. Dotyczy to również podstron spamerskich, które tworzą się niezależnie od chęci właściciela, albo tych będących pozostałościami po budowie szablonu. Dlatego duże sklepy nie powinny zapominać przede wszystkim o regularnej aktualizacji mapy strony XML i wrzuceniu linka do niej w odpowiednie miejsce w Google Search Console.

Jak zoptymalizować crawl budget?

Działania, którymi możemy się posłużyć optymalizując crawl budget, w całości zazębiają się z optymalizacją strony pod SEO. Kilka podstawowych elementów do optymalizacji w nawiązaniu do tematu, to między innymi:

Zadbaj o strukturę linków na witrynie. Upewnij się, że Twoja strona ma logiczną strukturę z przejrzystymi linkami wewnętrznymi (menu lub umieszczonymi w treści). To pozwoli na łatwe przeszukiwanie jej przez Googlebota.
Usuń duplikaty wewnętrzne i zewnętrzne. Unikaj powtarzających się treści lub podstron. Duplikaty są problematyczne dla SEO i ograniczają crawl budget.
Zredukuj czas ładowania się strony. Im szybciej witryna się ładuje, tym więcej stron Googlebot będzie mógł przecrawlować. W tym celu możesz użyć narzędzi do optymalizacji prędkości ładowania strony, takich jak np. Google PageSpeed Insights.
Sprawdź, czy Twoja witryna nie zawiera zbyt wielu błędów 404. Jeśli masz problem z ich zagospodarowaniem i nie wiesz, jak je poprawnie „wykorzystać”, dowiedz się więcej z artykułu: Czy błąd 404 szkodzi Twojej witrynie i jak go wykorzystać.
Zoptymalizuj i wykorzystaj plik robots.txt, aby wykluczyć z crawlowania niepotrzebne podstrony, takie jak np. tagi z bloga lub pozostałości po budowie szablonu.
Monitoruj swoją witrynę za pomocą narzędzi SEO, bezpłatnych i jeśli masz możliwość, to również płatnych. Możesz przede wszystkim skorzystać z podstawowego Google Search Console, ale również np. Screaming Frog.
Zadbaj o odpowiednią hierarchię treści i nagłówków. Upewnij się, że strona główna i podstrony o ważnym znaczeniu dla Twojej firmy są łatwe do znalezienia przez roboty Google (są zaindeksowane, posiadają tagi „index, follow” i znajdują się w mapie strony). Zadbaj także o to, żeby takie strony były podlinkowane z innych ważnych podstron lub np. z artykułów na blogu.
Stwórz aktualną mapę strony i umieść link do niej w Google Search Console. Zgłaszasz tym samym zapotrzebowanie na indeksację wszystkich znajdujących się w niej linków. Dlatego ważne jest, aby taką mapę zweryfikować przed publikacją, czy nie zawiera URLi, które nie chcielibyśmy, aby znalazły się w Google.
Używaj słów kluczowych odpowiednich do tematu danej podstrony, ponieważ ułatwi to wyszukiwarce zrozumienie zawartości poszczególnych linków.
Regularnie uaktualniaj informacje zawarte na stronie, twórz artykuły na bloga, wprowadzaj aktualności. Pomoże to Googlebotowi zrozumieć, że witryna jest „w ciągłym ruchu”.

Pamiętaj, że crawl budget to tylko jeden z wielu czynników, które wpływają na pozycjonowanie strony internetowej w wynikach wyszukiwania. Ważne jest również to, co robimy dla niej „na zewnątrz”, czyli korzystanie z dobrej jakości linków zewnętrznych mających polepszyć profil linkowania.

Podsumowanie

Crawl budget pozwala nam zrozumieć potężną rolę linków znajdujących się na witrynach. Właściwa ich optymalizacja może prowadzić do radykalnej poprawy rankingu widoczności. Kluczem jednak jest wskazanie tych linków Googlebotowi i sprawienie, że będą one widoczne w wyszukiwarce w najkrótszym możliwym terminie, co oznacza zachęcenie robota wyszukiwarki do odwiedzenia naszej strony. Zastosowanie wszystkich wspomnianych wyżej praktyk związanych z crawl budget może zwiększyć częstotliwość indeksowania podstron przez wyszukiwarki, co prowadzi do szybszego uwzględnienia zmian na stronie (w obrębie treści rozumianej jako ogół zmian). Zrozumienie pojęcia crawl budget i jego optymalizacja to klucz do osiągnięcia sukcesu w dzisiejszym świecie SEO.

Kasia Cieślik
Specjalistka ds. SEO