Een crawler, ook wel ‘web crawler’ of spider genoemd, is een soort spin die binnen pagina’s van websites kruipt, ‘crawlt’. Elke zoekmachine downloadt pagina’s over het gehele internet en haalt informatie op wanneer dat nodig is. Dit wordt het crawlen genoemd. Het is dus niets anders dan het afstruinen naar pagina’s op het internet door zoekmachines. Crawlers worden ‘web crawlers’ genoemd vanwege het feit dat ze pagina’s automatisch kunnen openen en toegang hebben tot websitegegevens via een softwareprogramma.
Een crawler bezoekt je website om te kijken of er content is toegevoegd of is aangepast. Zodat bijvoorbeeld Google jou altijd de juiste en up-to-date informatie kan laten zien.
Je kunt het in principe vergelijken met een bibliotheekmedewerker. Wanneer je naar de bibliotheek gaat en hulp wilt bij het verkrijgen van specifieke informatie, gaat de bibliotheekmedewerker voor jou aan de slag. De medewerker gaat diverse schappen langs, bekijkt de diverse titels en haalt een stapel voor jou tevoorschijn. Deze boeken bieden voor jou de meest relevante resultaten voor jou gevraagde informatie. De bibliotheekmedewerker is in weze de crawler, en in tegenstelling tot de ‘medewerker’ op het internet zal de crawler geen fysieke stapels boeken presenteren, maar een relevante lijst met grote hoeveelheden informatie.
Een crawler kiest welke pagina’s als eerst worden ‘gecrawld’ door te kijken of er andere pagina’s zijn die naar deze pagina doorverwijzen. Ook kijkt de crawler hoeveel er op deze site klikken en zijn er tal van andere die de crawler informatie bieden over het nut een bepaalde pagina.
Gezien het internet verandert veranderd en intens breed is, maakt de crawler een up-to-date selectie met pagina’s die nog moeten worden ‘gecrawld’, hoe vaak deze opnieuw gecrawld moeten worden en in welke volgorde dit gebeurt. Met deze selectie zorgt een crawler ervoor dat informatie zoveel mogelijk gecontroleerd wordt op inhoudsupdates. Door een overzichtelijke lijst te presenteren, maakt de crawler het web stukken publiekstoegankelijker met informatie die het meest origineel en relevant is.
Echter is de crawler ook beïnvloedbaar en zijn er vele bedrijven of andere instellingen die hierop inspelen. Zo kan een crawler in je voordelen werken wanneer je weet hoe je hier goed mee op kunt gaan, en kan het je tegenwerken wanneer jouw website niet aan de juiste criteria voldoet of de meest originele content vertoont. Hier lees je verder op meer informatie over.
Een crawler struint het internet af opzoek naar bruikbare informatie, maar hoe gaat dit in zijn werk?
De crawler presenteert een zo goed mogelijk overzicht en let daarbij op tal van criteria en stappen. De crawler doet dit ten eerste doormiddel van een bepaalde set aan de meest bekendste webpagina’s. Dit zijn pagina’s die veel bezoekers trekken en vaak dus vaak worden gebruikt. Vervolgens kijkt de crawler of er binnen deze set veel gebruikte webpagina’s zijn. Zo kan specifieke informatie zich bijvoorbeeld bevinden op een bepaalde webpagina.
Daarna kijkt de crawler of er hyperlinks van bepaalde pagina’s zijn die doorverwijzen naar een andere pagina. Hyperlinks op deze pagina naar andere pagina’s worden vervolgens ook weer gevolgd door de crawler. Hoeveel de crawler nu daadwerkelijk afspit is niet bekend en varieert per crawler. Het internet barst van de informatie en is dus allesbehalve een overzichtelijk en gestructureerde omgeving.
Het internet is over het algemeen een publieke plaats waar informatie beschikbaar wordt gesteld voor de hele wereld. Echter zijn er ook websites die niet bestemd zijn voor het bredere publiek, zoals websites met privacygevoelige informatie. Door speciale beveiligingsmaatregelingen en aanpassingen, kan een webdesigner de pagina onvindbaar maken voor de crawler, waardoor deze niet wordt mee genomen tijdens het crawled.
Ook kan het zo zijn dat een website-eigenaar bepaalde delen van een website niet wil laten ‘zien’ aan de crawler. Dat kan bijvoorbeeld zo zijn wanneer een bedrijf aan een pagina werkt, of bepaalde specifieke marketinggerichte uitingen naar een specifieke doelgroep wil richten. Daarnaast kan het zijn dat een website bepaalde pagina’s bevat die door de crawler als mindere kwaliteit ervaart en daardoor de website in het geheel omlaag brengt. Een webdesigner kan er dan voor zorgen dat de crawler geen toegang kan krijgen tot deze delen van de website.
Een indexeringsstatus is een overzicht van pagina’s die zijn opgenomen in een index van de crawler. Het zijn dus de pagina’s van je website die de zoekmachine heeft geïndexeerd. Je indexeringsstatus is te beïnvloeden en wordt vaak gebruikt als marketingstrategie door vele bedrijven om daarmee zo zichtbaar mogelijk te zijn op het web.
Er zijn tal van manieren om een hoger indexeringsstatus te krijgen. Dit hangt allemaal samen met de vindbaarheid van jouw pagina’s, de aantrekkelijkheid en de originaliteit van de content. Dit kun je uiteraard zo optimaal mogelijk inrichten om zo een zo hoog mogelijke status te krijgen. Hier lees je verderop meer over.
De crawler is een belangrijke term in de wereld van IT, marketing en online ondernemen. Wil je als bedrijf goed gezien worden op het internet? Dan moet je ervoor zorgen dat een crawler jouw pagina’s kan vinden en ‘aantrekkelijk’ genoeg ervaart. Dat houdt in, zijn er genoeg clicks op jouw pagina, wordt jouw pagina lang genoeg bekeken en door wie wordt jouw pagina bekeken? Wanneer de crawler jouw pagina omhoog rankt in de indexeringsstatus, zal jouw pagina beter vindbaar zijn en beschikbaar zijn voor het grotere publiek.
Een webpagina die vaak door andere webpagina's wordt doorgelinkt en vele clicks heeft, zal ongetwijfeld meer bruikbare informatie bevatten en daardoor vaker worden bezocht door andere mensen. Dit is een simpele formule in de wereld van marketing. Wanneer een product gezien wordt als populair, zoals bijvoorbeeld een boek dat ook door andere mensen vaak wordt uitgeleend, zal het ongetwijfeld eerder de aandacht trekken dan een onbekend product dat niet door andere bekeken wordt.
Een crawler is in zekere mate beïnvloedbaar. Dit wil zeggen, het is en blijft een machine die registreert wat het ‘ziet’. Zo registreert een crawler bijvoorbeeld wanneer een website bepaalde pagina’s heeft van lage kwaliteit. Om te zorgen dat de crawler deze pagina’s niet ziet, en alsnog de pagina mee neemt tijdens het crawlen, zijn er diverse mogelijkheden waarmee de crawler kan worden beïnvloed, zoals bijvoorbeeld door een Robots. Txt bestand, een Meta Robot of een Cononical URL.
Een robots.txt bestand geeft door aan de crawler welke websites wel en welke niet mogen worden geïndexeerd. Hierdoor kun je er dus voor zorgen dat jouw pagina’s die kwalitatief minder zijn, niet mee worden genomen door de crawler. Een robots.txt bestand kan een pagina echter niet verwijderen wanneer deze onlangs is geïndexeerd. Het bestand zorgt er echt alleen voor dat een pagina niet zal worden geïndexeerd door een crawlers.
Een meta-tag is een specifieke tag in de header section van een specifieke HTML pagina die de crawler informeert over wat deze moet indexeren. Er zijn diverse soorten meta-tags waarmee je dit kunt doen, zoals de NoFollow of de NoIndex tag. Met deze tags voorkom je dat de crawler jouw pagina geïndexeerd of de links op jouw pagina worden gevolgd. Meta-tags bevatten onder andere ook de informatie die in Google weergegeven wordt.
Voorbeeld meta-tags:
De cononical URL of cononical-tag, is een bepaalde webpagina die door de crawler wordt geregistreerd als origineel. Dit is bijvoorbeeld van belang bij sites/URLS die dezelfde content laten zien. Bijvoorbeeld als je een printbare versie hebt van je website waar je alleen de tekst laat zien. De cononical URL geeft hierbij aan welke van deze URLs de originele versie is en daarmee voorkomt dat de originele content bovenaan wordt gerankt. Dit fenomeen wordt ook wel duplicated content genoemd.
Met het beïnvloeden van de crawler zorg je er dus voor dat je zelf bepaald wat de crawler wel en niet crawled. Dit wordt ook wel ‘zoekmachine optimalisatie’ genoemd en zorgt ervoor dat je optimaal zichtbaar wordt op het internet.