Jak diagnozować problemy z indeksacją: od GSC po logi serwera

Redakcja

15 kwietnia, 2025

Jak diagnozować problemy z indeksacją: od GSC po logi serwera

Brak indeksacji najważniejszych stron to śmiertelny wyrok dla nawet najlepszych treści i kampanii linkbuildingowych – jeśli Google nie widzi danego URL-a w swoim indeksie, żaden ruch organiczny po prostu nie jest możliwy. Skuteczna diagnoza wymaga pracy z kilkoma źródłami danych jednocześnie: Google Search Console, crawlerami i logami serwera. Tylko zestawienie tych trzech perspektyw ujawnia prawdziwe przyczyny, dla których konkretne adresy pozostają niewidoczne w wyszukiwarce.

Indeksacja jako fundament – bez niej nie ma gry

Równanie jest brutalne: indeks = szansa na ranking, brak indeksu = zero wizyt z organiki. Jak szybko przechodzisz przez pełen cykl od publikacji, przez crawl i indeksację, aż po pierwszy ruch organiczny? To jeden z najlepszych barometrów technicznych kondycji Twojej witryny. W przypadku większych projektów – sklepów, portali, platform SaaS – ograniczenia crawl budgetu potrafią sparaliżować całe działy serwisu.

Raport „Indeksowanie stron” (Page indexing) w GSC to Twój pierwszy punkt startowy. Pokazuje, które URL-e zostały zeskanowane i trafiły do indeksu, oraz gdzie tkwią techniczne przeszkody blokujące widoczność.

Google Search Console: czytanie między wierszami raportu indeksacji

Raport „Indeksowanie stron” (dawniej Index Coverage) prezentuje liczbę znanych Google adresów, ich statusy i zmiany w czasie. Kluczem jest zestawienie „Wszystkie znane strony” z „Wszystkie przesłane strony” – czyli tymi z Twojej mapy witryny. Rozbieżności między tymi widokami często zdradzają problemy z architekturą i sygnałami dla robotów.

Jak czytać raport

Dane dzielą się na trzy zakresy:

  • wszystkie znane strony – kompletny obraz tego, co Google odkrył, bez względu na sitemap,
  • wszystkie przesłane strony – URL-e z map witryny,
  • tylko nieprzesłane – świetny filtr do wyłapywania niechcianych adresów (parametry, legacy URLs, pozostałości po testach).

Statusy dzielą się na trzy główne grupy: Zindeksowano (strony dostępne w SERP-ach), Nie zindeksowano (Google zna je, ale z różnych powodów trzyma poza indeksem) oraz Błędy (statusy krytyczne: 5xx, wadliwe przekierowania, blokady robots.txt).

Protip: zanim rzucisz się „naprawiać wszystko”, wyeksportuj listy URL-i z GSC i oznacz w arkuszu, które są naprawdę ważne dla biznesu. Dopiero potem ustal priorytety – nie każda strona musi być w indeksie.

Typowe statusy i ich rzeczywiste znaczenie

Status w GSC Co się dzieje pod maską Najczęstszy winowajca Jak to naprawić
Zindeksowano URL zeskanowany i dostępny w indeksie strona OK, zwraca 200, brak blokad monitoruj, pilnuj stabilności
Odkryto – obecnie nie zindeksowano Google zna adres, ale jeszcze (albo już nie) go nie crawluje niski priorytet, słabe linkowanie wewnętrzne, problemy z wydajnością wzmocnij linkowanie, popraw performance, wzbogać content
Zeskanowano – obecnie nie zindeksowano URL był crawlowany, ale Google uznał go za niewart indeksowania thin content, duplikacja, soft 404, niska wartość podnieś jakość i unikalność treści; wyklucz strony, które faktycznie nie powinny być w indeksie
Wykluczono przez tag „noindex” meta robots noindex lub nagłówek X-Robots-Tag celowe wykluczenie lub błąd w szablonach sprawdź, czy noindex jest zamierzony; popraw szablony, jeśli blokują ważne strony
Zablokowano przez robots.txt crawler nie może pobrać strony zbyt restrykcyjne disallow, stare reguły po migracji zmodyfikuj robots.txt; pamiętaj: blokada nie usuwa z indeksu, tylko zatrzymuje crawl
Nie znaleziono (404) serwer zwraca 404 usunięte treści, źle przeprowadzona migracja, martwe linki 301 do odpowiednika lub zostaw 404, jeśli strona naprawdę powinna zniknąć
Soft 404 zwraca 200, ale treść wygląda jak „nie znaleziono” produkty niedostępne, przekierowania na mało trafne URL-e zmień kod na 404/410 lub wzmocnij wartość treści docelowej
Błąd serwera (5xx) serwer zwraca 5xx podczas crawlu przeciążenie, awarie aplikacji, słaby hosting analiza logów, upgrade infrastruktury, stabilizacja środowiska

Eksperci podkreślają: gwałtowny wzrost liczby 404 lub statusu „Odkryto – obecnie nie zindeksowano” często sygnalizuje nieudaną migrację, a niekiedy nawet włamanie.

Prompt do analizy problemów z indeksacją

Skopiuj poniższy prompt i wklej do ChatGPT, Gemini, Perplexity – albo skorzystaj z naszych autorskich generatorów biznesowych dostępnych w sekcji narzędzia czy kalkulatory branżowe.

Jestem specjalistą SEO i muszę zdiagnozować problemy z indeksacją witryny. Parametry mojego serwisu:

[ZMIENNA_1: Typ serwisu (np. e-commerce, blog, portal informacyjny)]
[ZMIENNA_2: Liczba stron (np. 5 000, 50 000, 500 000)]
[ZMIENNA_3: Dominujący status w GSC (np. „Odkryto – obecnie nie zindeksowano", „Zeskanowano – obecnie nie zindeksowano", „Soft 404")]
[ZMIENNA_4: Dodatkowy problem techniczny, jeśli wystąpił (np. migracja 3 miesiące temu, nagły spadek crawl rate, błędy 5xx)]

Przygotuj szczegółowy plan diagnostyczny krok po kroku – od analizy GSC, przez crawling, po logi serwera. Wskaż najważniejsze metryki i możliwe przyczyny problemów w kontekście moich zmiennych.

Kiedy GSC nie wystarczy: wejście w logi serwera

Google Search Console to tylko perspektywa Google – próbkowana, z opóźnieniem i ograniczona. Logi serwera HTTP pokazują każdą wizytę Googlebota (i innych botów), zwracany kod odpowiedzi, user-agenta. Dzięki nim widzisz dokładnie, co zostało pobrane, jak często i z jakim skutkiem.

Po co logi w skomplikowanych przypadkach

W logach zobaczysz które URL-e Googlebot faktycznie crawlował, a które ignoruje – nawet jeśli teoretycznie są w sitemapie. Możesz policzyć częstotliwość odwiedzin dla kluczowych sekcji (/blog/, /produkty/) i zestawić to z rankingami czy konwersją. Logi ujawniają też nadmierne crawlowanie zasobów technicznych (/wp-admin/, parametry, filtry), które „zjadają” crawl budget.

Według dostawców narzędzi logowych analiza logów wykrywa znaczące rozbieżności między tym, co raportuje GSC, a rzeczywistym zachowaniem crawlerów – szczególnie w dużych witrynach z milionami adresów (Oncrawl).

Protip: w dużych serwisach traktuj logi jak „czarną skrzynkę SEO” – agreguj je miesięcznie, porównuj z danymi z GSC i analityki, by wykrywać anomalie (np. nagły spadek crawlu na ważnych kategoriach po zmianie linkowania).

Narzędzia do analizy logów: od Screaming Frog po platformy enterprise

Dla mniejszych witryn (do ~100–200 tys. URL)

Screaming Frog Log File Analyser – desktopowe narzędzie, które pozwala wgrywać logi, filtrować ruch Googlebota, analizować kody odpowiedzi i łączyć dane z crawlem. Dla serwisów poniżej ~100 tys. stron to zwykle wystarczające i niskokosztowe rozwiązanie.

Dla średnich i dużych witryn (500k+ URL)

Oncrawl, Botify, JetOctopus – platformy SaaS enterprise oferujące monitoring logów w czasie rzeczywistym (lub prawie), integrację z crawlami, wizualizacje, alerty i segmentację po sekcjach. Oncrawl podkreśla, że logi pozwalają monitorować czas między publikacją, crawlem i pierwszym ruchem organicznym oraz wychwytywać problemy techniczne, zanim uderzą w widoczność.

Dla zespołów technicznych

Własne skrypty w Pythonie lub R dają pełną kontrolę nad parsowaniem, segmentacją i łączeniem logów z innymi źródłami (GSC, GA, CRM).

Jakie problemy wychodzą dopiero w logach

Logi ujawniają kłopoty niewidoczne (lub widoczne zbyt późno) w Google Search Console:

  • Googlebot marnuje crawl budget na śmieciowe URL-e – setki tysięcy requestów do adresów z parametrami, nieskończoną paginacją, kombinacjami filtrów. Rozwiązania: ostrożne blokady w robots.txt, canonicale, przebudowa paginacji, ograniczenie generowania kombinacji,
  • brak crawlu kluczowych sekcji – logi pokazują prawie zero hitów na /blog/ czy /produkty/, a Google intensywnie skanuje /tag/ i /archiwum/. Rozwiązania: poprawa linkowania wewnętrznego, priorytetyzacja w sitemapie, usunięcie nofollow, uporządkowanie architektury,
  • powtarzające się błędy 5xx widziane przez Googlebota – serwer okresowo przeciążony; w logach seria requestów z 5xx w godzinach szczytu. Konsekwencje: niższe zaufanie, możliwe ograniczenie crawl budgetu,
  • stare, nieistniejące URL-e nadal crawlowane – logi ujawniają aktywny crawl adresów sprzed kilku lat, sprzed migracji, poza aktualną strukturą i sitemapem. Sygnał, by rozważyć 301 lub 410, żeby „zamknąć temat”.

Dane z narzędzi enterprise pokazują: monitorowanie logów wychwytuje krytyczne problemy techniczne wcześnie – zanim zauważalnie uderzą w widoczność i ruch (Oncrawl).

Jakość treści a status „Zeskanowano – obecnie nie zindeksowano”

Coraz częściej problemy z indeksacją wynikają nie z technikaliów, ale z decyzji algorytmów o jakości treści. Strony oznaczone „Zeskanowano – obecnie nie zindeksowano” to często sygnał, że Google nie widzi wystarczającej wartości, by dodać je do indeksu.

Sygnały niskiej jakości dla Google:

  • krótkie, szablonowe opisy (produkty z kilkoma generycznymi zdaniami),
  • duplikaty (zbliżone opisy kategorii, strony lokalne różniące się tylko nazwą miasta),
  • strony „puste” semantycznie (thin content), zdominowane przez listingi bez kontekstu.

Praktycy wskazują: nagły wzrost stron w „Odkryto – obecnie nie zindeksowano” i „Zeskanowano – obecnie nie zindeksowano” może oznaczać problemy z jakością lub nawet ataki spamowe (masowo generowane strony niskiej wartości).

Protip: w dużych serwisach twórz matryce jakości – segmentuj strony po typie (kategoria, produkt, poradnik), liczbie słów, CTR i statusie indeksacji, a potem priorytetyzuj poprawę treści tam, gdzie Google już crawluje, ale nie indeksuje.

Framework diagnostyczny: od GSC do logów krok po kroku

Krok 1: Określ, co ma być indeksowane

Lista kluczowych typów: kategorie, produkty, landing pages, blog, poradniki. Równolegle lista stron wykluczonych: wyniki wyszukiwania wewnętrznego, koszyk, parametry filtrów, testy. Weryfikacja, czy sitemap zawiera tylko docelowo indeksowalne URL-e.

Krok 2: Porównaj mapę witryny z GSC

W GSC: widok „Wszystkie przesłane strony” – sprawdź, czy wszystkie ważne URL-e są zielone. Jeśli liczba zindeksowanych znacznie odbiega od całości, Google nie znajduje lub nie akceptuje części treści.

Krok 3: Analiza statusów „Nie zindeksowano”

Grupy: „Odkryto – obecnie nie zindeksowano”, „Zeskanowano – obecnie nie zindeksowano”, „Soft 404″, „Duplikat”. Sampling: wybierz reprezentatywną pulę adresów, ręcznie zweryfikuj wartość biznesową, poprawność techniczną, linkowanie.

Krok 4: Logi serwera – czy Google w ogóle próbuje?

Sprawdź, czy kluczowe adresy pojawiają się w logach z user-agentem Googlebota. Przeanalizuj kody odpowiedzi (2xx, 3xx, 4xx, 5xx). Zidentyfikuj sekcje nigdy lub bardzo rzadko crawlowane mimo obecności w sitemapie.

Krok 5: Połączenie danych z crawlem

Crawl całej witryny (Screaming Frog / inny bot), eksport do CSV. Import do narzędzia do logów (np. SF Log File Analyser), porównanie: „URL istnieje, ale nigdy nie był crawlowany” oraz „URL crawlowany wielokrotnie, ale ma status 4xx/5xx”.

Checklista finalna: co sprawdzić, gdy strona nie jest w indeksie

  • Czy adres jest indexable? – brak noindex, brak canonicala na inną stronę, brak blokady w x-robots-tag,
  • Czy Google zna ten URL? – obecność w mapie witryny, linkowanie wewnętrzne z już zindeksowanych stron, status w GSC,
  • Czy Google go crawluje? – obecność Googlebota w logach dla tego URL-a, częstotliwość i kody odpowiedzi,
  • Czy strona jest technicznie poprawna? – brak błędnych przekierowań łańcuchowych, brak soft 404, poprawne kody odpowiedzi,
  • Czy treść spełnia kryteria jakości? – unikalność, głębokość, dopasowanie do intencji; brak masowej duplikacji i stron „pustych” dla użytkownika.

Protip końcowy: zbuduj własny dashboard indeksacji (np. w Looker Studio), łącząc dane z GSC, logów i crawla. Zobaczysz w jednym miejscu odsetek zindeksowanych URL-i z sitemap, liczbę nieindeksowanych według przyczyn oraz crawl rate Googlebota dla poszczególnych sekcji. To pozwala szybko reagować na anomalie i priorytetyzować naprawy, które faktycznie wpłyną na ruch organiczny.

Wypróbuj bezpłatne narzędzia

Skorzystaj z narzędzi, które ułatwiają codzienna pracę!

Powiązane tematy

Powiązane wpisy