Robots.txt het vergeten SEO bestandje

Met een robots.txt bestand kun je aangeven welke pagina's zoekmachines en andere crawlers je website mogen bezoeken. Een pagina die je uitsluit door middel van een robots.txt bestand zal niet door elke zoekmachine of robots gerespecteerd worden.

Zet er dus geen pagina's met gevoelige informatie in, deze pagina's moet je afschermen achter een inloggedeelte of helemaal verwijderen.

Waarom is een robots.txt bestand zo belangrijk?

Zoals Google zelf zegt:

“You don’t want your server to be overwhelmed by Google’s crawler or to waste crawl budget crawling unimportant or similar pages on your site.”

En dat is logisch want ook Google en andere zoekmachines hebben een bepaalde capaciteit van pagina's die ze per dag kunnen bezoeken. Het robots.txt bestand helpt je om Google aan te geven welke pagina's niet relevant zijn en zo dus vaker langs komt op de pagina's die wel relevant zijn.

Het robots.txt bestand van je website controleren

Je kunt het robots.txt bestand van je website controleren door naar: www.jedomeinnaam.nl/robots.txt te gaan. Als je geen robots.txt bestand hebt zul je een lege pagina of een 404 pagina te zien krijgen.

Voorbeelden robots.txt

Hieronder vind je een aantal voorbeelden van robots.txt bestanden voor verschillende websites of toepassingen.

Meest simpele variant, sta alles toe

De meest simpele variant van het robots.txt bestand is de volgende, hiermee sta je elke robot toe om alle pagina's van je website te indexeren. De User-agent * betekend dat je alle robots toestaat (ook wel wildcard genoemd). En de slash staat voor alle pagina's op je website.

User-agent: *
 Allow: /

Voorbeelden van User-agents zijn:

Google: Googlebot
Google Images: Googlebot-Image
Bing: Bingbot
Yahoo: Slurp
Baidu: Baiduspider
DuckDuckGo: DuckDuckBot

Op de volgende manier kun je aangeven dat alleen de Googlebot de pagina's van je website mag bezoeken:

User-agent: *
 Disallow: /

 User-agent: Googlebot
 Allow: /

Blokkeer alles (disallow all)

Met het volgende bestand geef je aan dat je alle robots geen enkele pagina hoeven te crawlen.

User-agent: *
 Disallow: /

Let op! Dit is dus geen manier om gevoelige informatie op je website te verbergen. Robots.txt is slechts indicatie voor zoekmachines om de pagina's niet te crawlen. Maar er zijn genoeg robots die dit wel op grote schaal doen. Gevoelige data beveilig je altijd met een wachtwoord/login.

Robots.txt voor een Wordpress website

User-agent: * Disallow: /wp-admin/ Allow: /wp-admin/admin-ajax.php

Wordpress sluit automatisch het admin gedeelte voor crawlers met uitzondering van het "admin-ajax.php" bestand. De disallow: /wp-admin/ houdt in dat de hele map: "wp-admin" met alle onderliggende pagina's niet bezocht hoeven te worden. De Allow /wp-admin/admin-ajax.php geeft aan dat alléén dit bestand wel bezocht mag worden. Dit bestand word bijvoorbeeld gebruikt om de prijs en producten die in je winkelwagen zitten te laten zien.

Robots.txt en duplicated content

De belangrijkste reden om je robots.txt bestand goed in te richten is om te voorkomen dat Google je gaat straffen voor duplicated content. Duplicated content houdt simpelweg in dat je dezelfde content beschikbaar hebt op twee verschillende URL's van je website. Google straft dit af om te voorkomen dat je een website kopieert met dezelfde content om zo meer bezoekers naar je website te krijgen.
Enkele voorbeelden van duplicated content kunnen zijn:

Je website is beschikbaar op www.domeinnaam.nl en domeinnaam.nl (kies één van beide varianten en verwijs de niet gebruikte versie automatisch door met een 301 redirect)
Je hebt een printbare versie van je website met minder design elementen maar met exact dezelfde inhoud (blokkeer de printbare versie in je robots.txt)

Robots.txt bestand uploaden

Het robots.txt bestand werkt alleen als het in de root map van je hosting geplaatst wordt. Voor Direct Admin en Cpanel gebruikers is dit de: "public_html" map. En voor Plesk gebruikers is dit de: "httpdocs" map.