Site scraper

Um site scraper é um tipo de software usado para copiar conteúdo de um website.

Raspadores de sites funcionam de forma semelhante aos raspadores de sites, que desempenham essencialmente a mesma função para fins de indexação de sites. Os web crawlers cobrem toda a web, no entanto, ao contrário dos site scrapers, que têm como alvo sites especificados pelo usuário.

Dependente do programa scraper específico e das especificações do usuário, o software pode baixar quaisquer dados, incluindo sites inteiros, e seguir links para outros conteúdos para downloads posteriores. Os dados obtidos podem ser salvos como arquivos de texto, CSV, HTML ou XML; algumas ferramentas scraper também permitem a exportação para uma base de dados compatível.

Raspagem de conteúdo tem inúmeros propósitos legítimos, mas também é freqüentemente usado para roubo e plágio de dados. Websites com conteúdo raspado de outros sites são chamados scraper sites.

Exemplos de raspadores de sites incluem Web Content Extractor, Wget, ScrapeGoat e Scraper, uma extensão Chrome.  

Asheesh Laroia explica a raspagem da web neste vídeo: