Conjunto de validação

Um conjunto de validação é um conjunto de dados usado para treinar inteligência artificial (IA) com o objetivo de encontrar e otimizar o melhor modelo para resolver um determinado problema. Os conjuntos de validação também são conhecidos como dev sets.

A a IA&nbsp supervisionada;é treinada em um corpus de dados de treinamento. Treinamento, ajuste, seleção do modelo e testes são realizados com três conjuntos de dados diferentes: o conjunto de treinamento, o conjunto de validação e o conjunto de testes. Os conjuntos de validação são usados para selecionar e ajustar o modelo AI final.

Conjuntos de treinamento compõem a maioria dos dados totais, com média de 60%. Nos testes, os modelos são ajustados a parameters em um processo conhecido como ajuste de pesos.

O conjunto de validação compõe cerca de 20% da maior parte dos dados utilizados. O conjunto de validação contrasta com os conjuntos de treinamento e testes, pois é uma fase intermediária usada para escolher o melhor modelo e otimizá-lo. A validação é às vezes considerada como parte da fase de treinamento. É nesta fase que ocorre o ajuste de parâmetros para a otimização do modelo selecionado. O ajuste excessivo é verificado e evitado no conjunto de validação para eliminar erros que podem ser causados for previsões e observações futuras se uma análise corresponder com demasiada precisão a um conjunto de dados específico.

Conjuntos de teste constituem 20% da maior parte dos dados. Esses conjuntos são dados e resultados ideais para verificar o funcionamento correto de uma IA. O conjunto de teste é assegurado para ser os dados de entrada agrupados com as saídas corretas verificadas, geralmente por verificação humana. Este ideal set é usado para testar resultados e avaliar o desempenho do modelo final.

É geralmente considerado imprudente tentar mais ajustes após a fase de teste. A tentativa de adicionar mais otimização fora da fase de validação provavelmente aumentará a sobreajuste.