Robots.txt – Biblioteca

Robots.txt é um arquivo em um site que instrui aos mecanismos de busca quais partes do site não devem ser acessadas pelos bot programs. Robots.txt é um arquivo de texto simples mas usa comandos especiais e sintaxe para webcrawlers. Embora não oficialmente padronizado, robots.txt é geralmente seguido por todos os mecanismos de busca.

Programas Spider, como o Googlebot, indexam um site usando instruções estabelecidas pelo webmaster.&nbsp do site; às vezes um webmaster pode ter partes do site que não foram otimizadas para mecanismos de busca, ou algumas partes de sites podem ser propensas à exploração por parte de spammers através, por exemplo, de links de spam em uma página que apresenta conteúdo gerado pelo usuário (UGC). Caso um webmaster deseje manter páginas escondidas da pesquisa do Google, ele pode bloquear a página com um arquivo robots.txt na pasta de nível superior do site.Robots.txt também é conhecido como "o protocolo de exclusão de robôs". Impedir que os crawlers indexem o conteúdo spammy significa que a página não será considerada ao determinar a classificação PageRank e a colocação em páginas de resultados de motores de busca (SERP).

A etiqueta nofollow é outra forma de controlar o comportamento dos webcrawlers. A etiqueta nofollow impede os rastejadores de marcar links dentro das páginas para determinar a classificação PageRank. Os webmasters podem usar o nofollow para evitar penalidades de Search Engine Optimization (SEO). Para evitar que o Googlebot siga qualquer link em uma determinada página de um site, o webmaster pode incluir uma meta tag nofollow no arquivo robots.txt; para evitar que o bot siga links individuais, eles podem adicionar rel="nofollow" aos próprios links.