Domovská stránka        |      O mně       |       Kontakt

5 SEO triků pro Screaming Frog 

Robots.txt, user-agent, vizualizace a crawling

Aktualizováno 28. 2. 2022 | Martin Beneš |  Image result for linkedin icon

Dostat ze Screaming Frogu užitečná data může být náročný úkol, neboť tento nástroj poskytuje mnoho různých nastavení a funkcí, které nejsou vždy intuitivní. Účelem následujících tipů je proto představit některé SEO fígle, které ušetří čas a zefektivní práci s nástrojem.

1. Simulace různých crawlerbotů

Při procházení webu se vhodné použít konkrétního user agenta takových vyhledávačů, ve kterých se stránky snaží umístit na předních příčkách. Pokud je tedy cílem zobrazení webu primárně na Googlu a odhalení, jak konkrétně Google prochází jednotlivé stránky, měl by být user agent nastaven jako Googlebot.

Configuration -> User-Agent

Je také důležité poznamenat, že pokud je cílem zobrazovat se především na mobilních zařízeních, měl by být user agent nastaven jako Googlebot (Smartphone). V nastavení Screaming Frogu je mnoho příkladů nejrůznějších botů, např. Bingbot nebo Seznambota, což se hodí pro co nejvíce realistickou simulace konkrétního vyhledávače.

2. Obcházení souboru robots.txt

U některých webů je nežádoucí, aby crawleři některých společností mohli volně procházet stránky, a proto mají upravené soubory robots.txt tak, aby se roboti nemohli jakkoliv dostat do struktury webu. Nastavení v robots.txt může vypadat například následovně pro blokaci crawlera Screaming Frogu:

User-agent: Screaming Frog SEO Spider
Disallow: /

Jedním z možných řešení, které však ne vždy funguje, je změna v “Robots Settings” na “Ignore robots.txt”, což bude mít za následek přehlížení tohoto souboru. Ideálně toto nastavení komplementuje simulaci Googlebota jako výchozího uživatelského agenta, neboť většina webů umožňuje Googlu procházet své stránky, aby je bylo možné zaindexovat a zobrazit na stránkách s výsledky vyhledávání.

Configuration -> robots.txt -> Settings

Pokud výše uvedená nastavení nefungují, třetí možností je doplnit blokaci o přidání nového HTTP Headeru “X-Forwarded-For” s obecně známou Google IP adresou (66.249.66.1).

Configuration -> HTTP Header

3. Procházení seznamu stránek místo celého webu

Někdy není nutné procházet celý web a možnost nahrát definovaný seznam adres URL se proto může hodit. Screaming Frog umožňuje nejen vložit seznam manuálně, ale také nahrát URL z textových souborů nebo přímo z odkazu na Sitemap.xml.

Mode -> List -> Upload -> Enter Manually

Tato možnost je zvláště užitečná, když je potřeba zkontrolovat odchozí odkazy, stavové kódy nebo metadata konkrétních stránek.

4. Omezení crawlera na konkrétní adresář

Zejména u rozsáhlých webů je parsování crawlingu důležitou strategií a někdy jediným způsobem, jak postupně zkompletovat celý výstupní dokument, aniž by byl výpočetní výkon alokován na neadekvátní adresáře. 

A právě pro takový scénář je ve Screaming Frogu pole “Crawl Outside of Start Folder”, které je potřeba odškrtnout. Následující obrázek ukazuje příklad, jak nechat crawlera volně procházet celý web bez omezení adresáře nebo subdomény.

Configuration -> Spider

5. Vizualizace struktury webu

Výstup nástroje ve formě tabulky s několika tisíci řádky se může zdát nepřehledný a často z něj nejsou patrné následné akční kroky. Vizualizace je proto užitečným způsobem, jak efektivně zobrazit strukturu webu a odhalit problémy s distribucí odkazového flow a potenciální překážky pro robota. 

Pokud je z vizualizace například vidět, že v některých adresářích existuje pouze několik stránek, může mít smysl sloučit takové adresáře s dalšími podobnými případy dohromady.

Visualisations -> Crawl Tree Graph

Triků, jak práci s nástrojem Screaming Frog zefektivnit, je mnohem více a proto se budu snažit tento seznam postupně aktualizovat o další užitečné tipy.


Další články o SEO

Ozvěte se

Máte-li nějaké zapeklité otázky ohledně SEO, na které nemůžete najít odpověď, rád vám pomůžu dobrat se vhodného řešení. Můžete napsat na email martin@benes.me nebo se připojit na Linkedinu.

Email:

Follow:

martin@benes.me

LinkedIn Image result for linkedin icon