Spider
Van Wikipedia
Een spider (ook wel Webcrawler genaamd) is een software computerprogramma dat het World Wide Web op een methodische en geautomatiseerde manier doorbladert. Een spider functioneert daarbij als een soort robot. Spiders maken veelal een lokale kopie van de gevonden pagina's om deze later te kunnen verwerken en indexeren voor bijvoorbeeld zoekmachines.
De manier waarop ze werken is dat een spider een lijst met URL's bezoekt. Alle hyperlinks welke gevonden worden op deze pagina's worden aan de lijst van te bezoeken URL's toegevoegd. Een spider kan op deze manier vrijwel alle publiekelijk toegankelijke pagina's op het internet langsgaan. Veelal komen spiders met een vaste regelmaat langs om de index actueel te houden.
Spiders hebben zich tijdens hun rondgang te gedragen omdat ze pagina's nu eenmaal sneller opvragen en verwerken dan een mens. De meeste spiders nemen de moeite om pagina's van één webserver niet allemaal in een korte periode op te vragen maar deze over een tijdsbestek te spreiden om te voorkomen dat de betreffende webserver overbelast raakt.
Voor eigenaars en beheerders van websites zijn methodes geïntroduceerd om het gedrag van de spiders te beïnvloeden. Zo kan in de root van de website een tekstbestandje genaamd 'robots.txt' worden gezet met beperkingen voor één of meerdere spiders. Er kan worden aangegeven welke delen van de website door bepaalde spiders niet mogen worden bezocht. Alvorens een website te bezoeken zal een goede spider controleren of dit bestand bestaat en of er voor de betreffende spider beperkingen staan aangegeven. Zie bijvoorbeeld: http://nl.wikipedia.org/robots.txt
Sommige spiders kunnen robots.txt negeren. Dit kan nadelige gevolgen hebben voor de website die ze bezoeken. Om dit tegen te gaan kan men op een webserver het IP-adres van de spider blokkeren. Robots die zich goed gedragen, houden zich aan de regels die in robots.txt staan.
Het is mogelijk in de header van individuele webpagina's META tag's op te nemen voor robots. Als deze META-tag niet aanwezig is dan gaat de robot uit van de default:
<meta name="robots" content="index,follow">
De content kent de volgende variaties:
- index / - wel of niet indexeren van de pagina
- follow / - wel of niet volgen van hyperlinks op de pagina
- noarchive - de pagina niet lokaal archiveren
Een spider meldt zich aan met een bepaalde User Agent. Bijvoorbeeld, de spiders van Google melden zich met user agent Googlebot of om compleet te zijn 'Googlebot/2.X (+http://www.googlebot.com/bot.html)'. Bedrijven die spiders inzetten doen er goed aan om uit te leggen wat ze beogen met de spider en welk gedrag deze vertonen. De grotere zoekmachines doen dat al.
Spiders worden niet alleen ingezet om data te verzamelen voor zoekmachines. Er zijn spiders actief die op soortgelijke wijze het internet afstruinen op zoek naar e-mailadressen. Een e-mailadres heeft een standaard opmaak en is daardoor goed herkenbaar. De verzamelde e-mailadressen worden vervolgens verkocht om hier Spam naar te verzenden.