Googlebot

Googlebot é um robot de pesquisa de software de rastreamento da web (também conhecido como spider ou webcrawler) que reúne as informações da página web usadas para fornecer as páginas de resultados do mecanismo de pesquisa do Google (SERP).

Googlebot coleta documentos da web para construir o índice de pesquisa do Google. Através da recolha constante de documentos, o software descobre novas páginas e actualizações para páginas existentes. O Googlebot usa um design distribuído que abrange muitos computadores para que possa crescer como a web.

O webcrawler usa algoritmos para determinar quais sites devem ser navegados, quais as taxas de navegação e de quantas páginas devem ser buscadas. O Googlebot começa com uma lista gerada a partir de sessões anteriores. Esta lista é então aumentada pelos sitesmaps fornecidos pelos webmasters. O software rastreia todos os elementos ligados nas páginas web em que navega, anotando novos sites, atualizações para sites e links mortos. As informações coletadas são usadas para atualizar o índice do Google no web.

Googlebot cria um índice dentro das limitações estabelecidas pelos webmasters em seus arquivos robots.txt. Caso um webmaster deseje manter páginas ocultas da pesquisa do Google, por exemplo, ele pode bloquear o Googlebot em um arquivo robots.txt na pasta de nível superior do site. Para evitar que o Googlebot siga qualquer link em uma determinada página de um site, ele pode incluir a meta tag nofollow; para evitar que o bot siga links individuais, o webmaster pode adicionar rel="nofollow" aos próprios links.

O webmaster de um site pode detectar visitas a cada poucos segundos de computadores em google.com, mostrando o Googlebot do agente do usuário. Geralmente, o Google tenta indexar o máximo possível de um site sem sobrecarregar a largura de banda do site. Se um webmaster descobrir que o Googlebot está a utilizar demasiada largura de banda, pode definir uma taxa na página inicial da consola de pesquisa do Google que permanecerá em vigor durante 90 dias.

Apresentando na conferência SearchLove 2011, Josh Giardino afirmou que o Googlebot é, na verdade, o navegador Chrome. Isso significaria que o Googlebot não só tem a capacidade de navegar em páginas de texto, como os rastreadores fazem, mas também pode executar scripts e mídia como os navegadores da web fazem. Essa capacidade poderia permitir ao Googlebot encontrar informações ocultas e realizar outras tarefas que não são reconhecidas pelo Google. Giardino chegou ao ponto de dizer que o Googlebot pode ser a razão original pela qual a empresa criou o Chrome.