Extracção de informação (IE) é a recuperação automática de informação específica relacionada com um tópico seleccionado a partir de um corpo ou corpos de texto.
Ferramentas de extracção de informação tornam possível extrair informação de documentos de texto, bases de dados, websites ou fontes múltiplas. O IE pode extrair informações de texto não estruturado, semi-estruturado ou estruturado, legível por máquina. Normalmente, porém, o IE é usado em processamento de linguagem natural (PNL) para extrair informações estruturadas de texto não estruturado.
Exploração de informações depende do reconhecimento da entidade nomeada (NER), uma subferramenta usada para encontrar informações específicas a serem extraídas. O NER reconhece primeiro as entidades como uma das várias categorias, como localização (LOC), pessoas (PER) ou organizações (ORG). Uma vez reconhecida a categoria de informação, um utilitário de extração de informação extrai a informação relacionada à entidade nomeada e constrói um documento legível por máquina a partir dela, que os algoritmos podem processar para extrair o significado. O IE encontra significado por meio de outras subtarefas, incluindo resolução de co-referência, extração de relacionamento, análise de linguagem e vocabulário e, às vezes, extração de áudio.
IE remonta aos primeiros dias do Processamento de Linguagem Natural da década de 1970. JASPER é um sistema para o IE que para a Reuters da Carnegie Melon University é um exemplo precoce. Os esforços atuais no processamento de documentos multimídia no IE incluem anotações automáticas e reconhecimento e extração de conteúdo de imagens e vídeos também podem ser vistos como IE.
Por causa da complexidade da linguagem, o IE de alta qualidade é uma tarefa desafiadora para sistemas de inteligência artificial (IA).