Modelo de canal ruidoso

O modelo de canal ruidoso é uma estrutura usada no processamento de linguagem natural (NLP) para identificar a palavra correta em situações onde ela não é clara. O framework ajuda a detectar palavras destinadas a verificadores ortográficos, assistentes virtuais, programas de tradução, sistemas de resposta a perguntas e software de fala para texto. <

Noise, neste contexto, é qualquer coisa que obscureça signals e dados. O modelo de canal ruidoso é assim chamado porque o sinal original - a palavra pretendida - é obscurecido na transmissão quando interrupções ou erros criam ruído no canal. Neste caso, o ruído pode consistir de uma má ortografia na linguagem escrita, por exemplo, ou de sons ambientes, de pronúncias erradas ou de fala mal pronunciada na linguagem falada.

Aqui está um exemplo básico de como o modelo de canal ruidoso pode funcionar com um programa de verificação ortográfica:

Quando uma palavra não é encontrada no dicionário de verificação ortográfica, ela é identificada como um erro ortográfico e as palavras candidatas são sugeridas com base na sua probabilidade de ser a palavra pretendida, geralmente como resultado de quão próximas essas palavras estão do erro ortográfico. Como regra, os candidatos mais prováveis envolverão uma única alteração, e existem quatro tipos diferentes de erros de alteração única: eliminação, inserção, substituição e inversão. If the misspelled word is acress, for example, acres could have been intended but an extra s added; actress could have been intended but the t missed; across could have been intended but e typed instead of o; caress could have been intended but the first two letters typed in the wrong sequence. Thus, if the user types acress, the spell check program might suggest those four words.

Due to the vagaries of human speech and the potential for actual noise, speech recognition software has additional challenges to text-based systems. However, the basic framework is similar.