A higiene dos dados é o processo coletivo conduzido para garantir a limpeza dos dados. Os dados são considerados limpos se estiverem relativamente isentos de erros. Dados sujos podem ser causados por uma série de fatores, incluindo registros duplicados, dados incompletos ou desatualizados e a análise inadequada de campos de registros de sistemas díspares. Os erros podem ser introduzidos em qualquer etapa à medida que os dados são inseridos, armazenados e gerenciados.
A qualidade dos dados é crucial para os processos operacionais e transacionais dentro da empresa e para a confiabilidade dos relatórios de análise de negócios (BA) / business intelligence (BI).
A limpeza de dados, também chamada de limpeza de dados, é o processo de alteração ou remoção de dados em uma base de dados que está incorreta, incompleta, formatada de forma inadequada ou duplicada. Normalmente o processo envolve atualizá-lo, padronizá-lo e de-duplicar registros para criar uma visão única dos dados, mesmo que estejam armazenados em vários sistemas díspares.