Met een robots.txt bestand kun je aangeven welke pagina's zoekmachines en andere crawlers je website mogen bezoeken. Een pagina die je uitsluit door middel van een robots.txt bestand zal niet door elke zoekmachine of robots gerespecteerd worden.
Zet er dus geen pagina's met gevoelige informatie in, deze pagina's moet je afschermen achter een inloggedeelte of helemaal verwijderen.
Zoals Google zelf zegt:
“You don’t want your server to be overwhelmed by Google’s crawler or to waste crawl budget crawling unimportant or similar pages on your site.”
En dat is logisch want ook Google en andere zoekmachines hebben een bepaalde capaciteit van pagina's die ze per dag kunnen bezoeken. Het robots.txt bestand helpt je om Google aan te geven welke pagina's niet relevant zijn en zo dus vaker langs komt op de pagina's die wel relevant zijn.
Je kunt het robots.txt bestand van je website controleren door naar: www.jedomeinnaam.nl/robots.txt te gaan. Als je geen robots.txt bestand hebt zul je een lege pagina of een 404 pagina te zien krijgen.
Hieronder vind je een aantal voorbeelden van robots.txt bestanden voor verschillende websites of toepassingen.
De meest simpele variant van het robots.txt bestand is de volgende, hiermee sta je elke robot toe om alle pagina's van je website te indexeren. De User-agent * betekend dat je alle robots toestaat (ook wel wildcard genoemd). En de slash staat voor alle pagina's op je website.
User-agent: *
Allow: /
Voorbeelden van User-agents zijn:
Op de volgende manier kun je aangeven dat alleen de Googlebot de pagina's van je website mag bezoeken:
User-agent: *
Disallow: /
User-agent: Googlebot
Allow: /
Met het volgende bestand geef je aan dat je alle robots geen enkele pagina hoeven te crawlen.
User-agent: *
Disallow: /
Let op! Dit is dus geen manier om gevoelige informatie op je website te verbergen. Robots.txt is slechts indicatie voor zoekmachines om de pagina's niet te crawlen. Maar er zijn genoeg robots die dit wel op grote schaal doen. Gevoelige data beveilig je altijd met een wachtwoord/login.
User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php
Wordpress sluit automatisch het admin gedeelte voor crawlers met uitzondering van het "admin-ajax.php" bestand. De disallow: /wp-admin/ houdt in dat de hele map: "wp-admin" met alle onderliggende pagina's niet bezocht hoeven te worden. De Allow /wp-admin/admin-ajax.php geeft aan dat alléén dit bestand wel bezocht mag worden. Dit bestand word bijvoorbeeld gebruikt om de prijs en producten die in je winkelwagen zitten te laten zien.
De belangrijkste reden om je robots.txt bestand goed in te richten is om te voorkomen dat Google je gaat straffen voor duplicated content. Duplicated content houdt simpelweg in dat je dezelfde content beschikbaar hebt op twee verschillende URL's van je website. Google straft dit af om te voorkomen dat je een website kopieert met dezelfde content om zo meer bezoekers naar je website te krijgen.
Enkele voorbeelden van duplicated content kunnen zijn:
Het robots.txt bestand werkt alleen als het in de root map van je hosting geplaatst wordt. Voor Direct Admin en Cpanel gebruikers is dit de: "public_html" map. En voor Plesk gebruikers is dit de: "httpdocs" map.