Przejdź do treści
ARDURA LAB
·2 min

Robots.txt

robots.txtSEO technicznecrawlability

Czym jest robots.txt?

Robots.txt to plik tekstowy umieszczony w katalogu głównym witryny (https://example.com/robots.txt), który informuje crawlery wyszukiwarek, które sekcje strony mogą skanować, a których powinny unikać. Jest to pierwszy plik, który Googlebot sprawdza przed rozpoczęciem crawlowania witryny.

Składnia robots.txt

User-agent: *
Allow: /
Disallow: /admin/
Disallow: /api/

Sitemap: https://example.com/sitemap.xml
  • User-agent — określa, którego crawlera dotyczy reguła (* = wszystkie)
  • Allow — zezwala na crawlowanie podanej ścieżki
  • Disallow — blokuje crawlowanie podanej ścieżki
  • Sitemap — wskazuje lokalizację sitemap XML

Czego NIE blokować?

  • Plików CSS i JavaScript (Google potrzebuje ich do renderowania)
  • Stron, które chcesz mieć w indeksie
  • Obrazów, które powinny pojawiać się w Google Images

Robots.txt a meta noindex

Robots.txt blokuje crawlowanie, ale nie gwarantuje braku indeksacji. Jeśli inna strona linkuje do zablokowanego URL-a, Google może go zaindeksować (bez treści). Aby pewnie usunąć stronę z indeksu, użyj meta tagu noindex.

Robots.txt a crawlery AI

Rosnąca liczba crawlerów AI (GPTBot, ClaudeBot, PerplexityBot) respektuje robots.txt. Jeśli chcesz kontrolować, czy Twoje treści są używane do trenowania modeli AI, możesz dodać specyficzne reguły:

User-agent: GPTBot
Disallow: /

To ważny element strategii GEO — decyzja, czy blokować, czy wpuszczać crawlery AI.