Fuzzy search

Uma pesquisa fuzzy é um processo que localiza páginas Web que provavelmente são relevantes para um argumento de pesquisa mesmo quando o argumento não corresponde exactamente à informação desejada. Uma pesquisa fuzzy é feita por meio de um programa de correspondência fuzzy, que retorna uma lista de resultados baseada na provável relevância, mesmo que as palavras e ortografias do argumento de pesquisa não correspondam exatamente. As correspondências exactas e altamente relevantes aparecem perto do topo da lista. As classificações de relevância subjetiva, geralmente como porcentagem, podem ser dadas.

Um programa de correspondência fuzzy pode operar como um corretor ortográfico e um corretor ortográfico de erros. Por exemplo, se um usuário digitar "Misissippi" no Yahoo ou Google (ambos usam correspondência fuzzy), uma lista de acertos é retornada junto com a pergunta, "Você quis dizer Mississippi? São dadas ortografias alternativas, e palavras que soam o mesmo mas são soletradas de forma diferente. Um programa de correspondência fuzzy pode compensar erros de digitação comuns, bem como erros introduzidos pelo reconhecimento óptico de caracteres ( OCR ) na digitalização de documentos impressos. O programa pode retornar acertos com conteúdo que contém uma palavra base especificada, juntamente com prefixos e sufixos. Por exemplo, se "planeta" for inserido como palavra de busca, ocorrem hits para sites que contêm palavras como "protoplanet" ou "planetário". O programa também pode encontrar sinônimos e termos relacionados, funcionando como um thesaurus online ou uma ferramenta de referência cruzada enciclopédica. No motor de busca Ask Jeeves, se a palavra "galáxia" for introduzida, são retornados hits como "Galaxy Photography", "Milky Way" e "The Nine Planets Solar System Tour"

Fuzzy matching programs geralmente retornam hits irrelevantes assim como os relevantes. Resultados supérfluos são susceptíveis de ocorrer para termos com múltiplos significados, apenas um dos quais é o significado que o utilizador pretende. Se o usuário tem apenas uma idéia vaga ou geral do tópico, ou não sabe exatamente o que procurar, a proporção de hits relevantes para hits irrelevantes tende a ser baixa. (A razão é ainda mais baixa, no entanto, quando um programa de correspondência exata é usado nesta situação.)

Procura difusa é muito mais poderosa do que a busca exata quando usada para pesquisa e investigação. A pesquisa difusa é especialmente útil quando se pesquisa termos desconhecidos, de língua estrangeira ou sofisticados, cujas grafias próprias não são amplamente conhecidas. A pesquisa difusa também pode ser usada para localizar indivíduos com base em informações de identificação incompletas ou parcialmente imprecisas.