Lei do Zipf

A Lei do Zipf é uma distribuição estatística em certos conjuntos de dados, tais como palavras num corpus linguístico, em que as frequências de certas palavras são inversamente proporcionais às suas fileiras. Nomeado para o linguista George Kingsley Zipf, que por volta de 1935 foi o primeiro a chamar a atenção para este fenómeno, a lei examina a frequência das palavras em linguagem natural e como a palavra mais comum ocorre duas vezes mais vezes do que a segunda palavra mais frequente, três vezes mais do que a palavra seguinte e assim sucessivamente até à palavra menos frequente. A palavra na posição n aparece 1/n vezes mais frequentemente que a mais frequente.

Quando as palavras são classificadas de acordo com as suas frequências numa colecção suficientemente grande de textos e depois a frequência é traçada contra a classificação, o resultado é uma curva logarítmica. (Ou se você grafar em uma escala logarítmica, o resultado é uma linha reta.)

A palavra mais comum em inglês é "the," que aparece cerca de um décimo do tempo em um texto típico; a próxima palavra mais comum (ranking 2) é "of," que aparece cerca de um vigésimo do tempo. Neste tipo de distribuição, a frequência diminui drasticamente à medida que o número de palavras aumenta, por isso um pequeno número de itens aparece muito frequentemente, e um grande número raramente ocorre.

Uma distribuição Zipfian de palavras é universal em linguagem natural: Ela pode ser encontrada na fala de crianças com menos de 32 meses de idade, bem como no vocabulário especializado dos livros didáticos universitários. Estudos mostram que este fenômeno também se aplica em quase todas as línguas.

Individualmente, nem a sintaxe nem a semântica são suficientes para induzir uma distribuição Zipfian por si só. Entretanto, sintaxe e semântica trabalham em conjunto para uma distribuição Zipfian.

Apenas recentemente a Lei Zipf foi testada rigorosamente em bases de dados suficientemente grandes para garantir a validade estatística. Pesquisadores do Centre de Recerca Matematica, parte da rede CERCA do Governo da Catalunha, que estão ligados ao Departamento de Matemática da Universitat Autonoma de Barcelona, analisaram a coleção completa de textos em inglês no Project Gutenberg, uma base de dados gratuita com mais de 30.000 trabalhos. Quando as palavras mais raras foram deixadas de fora, a Lei Zipf aplicou-se a mais de metade das palavras.

A lei pode ser aplicada a outros campos além da literatura. Foram encontradas distribuições Zipfian nas fileiras populacionais das cidades em vários países, tamanhos de corporações, classificações de renda e classificações do número de pessoas assistindo o mesmo canal de TV.