Part-of-speech tagger (PoS tagger)

A part-of-speech (PoS) tagger é uma ferramenta de software que etiqueta palavras como uma das várias categorias para identificar a função da palavra em uma determinada língua. Na língua inglesa, as palavras enquadram-se em uma das oito ou nove partes da fala. As categorias de parte da fala incluem substantivo, verbo, artigo, adjetivo, preposição, pronome, advérbio, conjunção e interjeição.

PoS taggers usam algoritmos para etiquetar termos em corpos de texto. Esses taggers fazem categorias mais complexas do que aquelas definidas como PdS básico, com tags como "substantivo-plural" ou até mesmo etiquetas mais complexas. A categorização de parte da linguagem é ensinada às crianças em idade escolar na gramática inglesa, onde as crianças realizam a etiquetagem básica de PdV como parte de sua educação.

Taggers de PdV categorizam termos em tipos de PdV pela sua posição relacional em uma frase, relação com termos próximos e pela definição da palavra. Os taggers de PdV caem naqueles que usam métodos estocásticos, aqueles baseados em probabilidade e aqueles que são baseados em regras.

Um dos primeiros taggers de PdV desenvolvidos foi o E. Brill tagger, uma ferramenta de etiquetagem baseada em regras. E. Brill ainda é comumente usado hoje em dia. Outras ferramentas que realizam tagging de PdV incluem o Stanford Log-linear Part-Of-Speech Tagger, Tree Tagger e o POS Tagger da Microsoft. A tagging Part-of-speech também é referida como desambiguação de categoria de palavras ou tagging gramatical.

PoS tagging é usada no processamento de linguagem natural (NLP) e no entendimento de linguagem natural (NLU).