Meta tag "robots" a robots.txt
02. 01. 2017
Jak robotům zakázat nebo povolit procházení určitých částí webu? Podíváme se, proč zákaz procházení zapsaný v robots.txt nezabrání zaindexování stránky do vyhledávače. A dále si ukážeme, jak vyhledávačům v zobrazení stránky ve výsledcích vyhledávání skutečně zabránit.
Pro úspěšné pochopení fungování souboru robots.txt je potřeba znát oba následující pojmy:
Crawlování - proces, při kterém si vyhledávače při návštěvě vašeho webu stahují informace přímo ze stránky. Tyto informace následně používá v indexu.
Indexování - po dokončení crawlování vyhledávač přijaté informace zapíše do svých výsledků vyhledávání.
Robots.txt
Souborem robots.txt upravujeme crawlování robotů na našem webu. To ale neslouží k zákazu zobrazování stránek ve vyhledávačích, tedy k úpravě indexování. Pokud robotu zakážeme souborem robots.txt crawlování některé ze stránek webu, sice má zakázáno stáhnout si odkaz a obsah stránky, ale díky informacím z jiných částí webu se stránka přesto může ve vyhledávání objevit. Neobjeví se pouze informace uvedené přímo na stránce, odkaz bude funkční a dále povede do zakázané části.
Praktické využití souboru robots.txt tak naleznete spíše v případech, kdy chcete zakázat procházení celého webu nebo administrace, kde jste si jistí, že robot již nemá, kde odkazy k zaindexování získat.
V inPage můžete soubor upravovat v administraci pod položkou Nastavení → Soubor robots.txt
Ve výchozím stavu máme přístup robotů ke stránkám administrace již zakázán. Toto pravidlo doporučujeme v souboru ponechat:
User-agent: * Disallow: /admin/
Syntaxe
User-agent: jméno robota, pro kterého se vztahují zapsaná pravidla
Disallow: cesta URL, které chcete zakázat procházení
Allow: cesta URL, kterou chcete povolit, aby nebyla kvůli předchozímu pravidlu zakázána
Zástupné znaky:
* - libovolné znaky
$ - konec adresy
Příklady
User-agent: *
Disallow:
Všichni roboti mohou stahovat všechny stránky webu.
User-agent: *
Allow:
Všichni roboti mohou stahovat všechny stránky webu. Toto je výchozí chování robotů.
User-agent: *
Disallow: /
Všichni roboti mají zákaz stahovat všechny stránky webu.
User-agent: *
Disallow: /rubrika/
Všichni roboti mají zákaz vstupovat do adresáře /rubrika/.
User-agent: *
Disallow: /rubrika
Všichni roboti mají zákaz stahovat stránky začínající slovem "rubrika".
User-agent: *
Disallow: /
Allow: /rubrika/
Všichni roboti mají zákaz stahovat všechny stránky s výjimkou adresáře /rubrika/ a jeho podadresářů.
User-agent: *
Disallow: /
Allow: /rubrika/
Disallow: /rubrika/test/
Všichni roboti mohou stahovat pouze z adresáře /rubrika/ a jeho podadresářů s výjimkou podadresáře /test/.
User-agent: *
Disallow: *.jpg$
Všichni roboti mají zákaz stahovat všechny soubory jakéhokoliv názvu končící na ".jpg".
Meta tag "robots"
Pokud chceme zakázat robotovi indexování, necháme mu tyto části v robots.txt přístupné a index zakážeme pomocí meta tagu v hlavičce:
<html>
<head>
<meta name="robots" content="noindex, nofollow">
<title>inPage</title>
...
noindex - obsah nebude zapsán do indexu
index - obsah bude zapsán do indexu
nofollow - odkaz nebude zapsán do indexu
follow - odkaz bude zapsán do indexu
all - vše povoleno ( = index, follow)
Pro aplikaci meta tagů si v administraci vaší inPage v sekci Nastavení → Nastavení prostředí zapněte Funkce pro experty. Na stránkách editace jednotlivých stránek, kategorií či produktů pak v dolní části naleznete nové zaškrtávací pole Vlastní hlavička. Po zaškrtnutí se zobrazí textové pole, do kterého již můžete zapisovat.
Například:
<meta name="robots" content="noindex, nofollow">
Příklad zakáže zaindexování obsahu i odkazu.
Přidat komentář
Přehled komentářů
Dotaz na meta tag robots
3. 4. 2017 7:24:52 | Tadeáš
Pokud mám např. hlavní stránku Download a v ní několik složek s dejme tomu dvaceti soubory ke stažení (stránek) ale nechci aby celý obsah konkrétní složky byl indexován a dohledatelný ve vyhledávačích, musím upravit meta tag robots u každé stránky (souboru) v této složce anebo stačí úpravu meta tags robot provést u složky která je souborům-stránkám nadřazená ? Odkazy na konkrétní stránky(soubory) od jinud nevedou, než ze složky.
Odpovědět