Apache Lucene

Apache Lucene é uma biblioteca de software de recuperação de informação livremente disponível que funciona com campos de texto dentro de ficheiros de documentos. Este empreendimento em evolução também é chamado de Projeto Apache Lucene. Apache é um servidor que é distribuído sob uma licença de código aberto.

A interface de programação da aplicação Lucene (API) permanece a mesma, independentemente do formato do arquivo a ser indexado. Desde que a informação de texto possa ser recuperada e extraída, o Lucene pode indexar praticamente qualquer tipo de documento contendo texto. Lucene se tornou popular para uso em mecanismos de busca na Internet, bem como para operações de busca em um único site.

O Projeto Apache Lucene compreende quatro componentes principais:

  • Lucene Core: indexação, busca, verificação ortográfica, destaque de acertos e tokenization.
  • PyLucene: Porta Python para Lucene Core.
  • Solr: Extensible Markup Language (XML), Hypertext Transfer Protocol (HTTP), e APIs para Javascript Object Notation (JSON), Python, e Ruby, assim como hit highlighting, faceted search, caching, replicação, e uma interface para administradores de sites.
  • Open Relevance Project: Distribuição gratuita de materiais para teste de performance e avaliação de relevância.