Crawler

Um crawler é um programa que visita websites e lê as suas páginas e outras informações para criar entradas para um índice de motores de busca. Os principais motores de busca na Web têm todos um programa deste tipo, que também é conhecido como um "spider" ou um "bot". Os rastreadores são normalmente programados para visitar sites que foram submetidos pelos seus proprietários como novos ou atualizados. Sites inteiros ou páginas específicas podem ser visitados e indexados de forma seletiva. Os Crawlers aparentemente ganharam o nome porque rastejam através de um site uma página de cada vez, seguindo os links para outras páginas do site até que todas as páginas tenham sido lidas.

O crawler para o motor de busca do AltaVista e o seu site chama-se Scooter. A Scooter adere às regras de polidez para os rastejadores da Web que são especificadas no Standard for Robot Exclusion (SRE). Pergunta a cada servidor quais arquivos devem ser excluídos de serem indexados. Ele não passa (ou não pode) por firewalls. E usa um algoritmo especial de espera entre sucessivas solicitações do servidor para não afetar o tempo de resposta para outros usuários.