Um zelador de dados é um funcionário de TI que limpa grandes fontes de dados para prepará-los para analistas de dados e cientistas de dados. O trabalho foi criado para permitir que aqueles com habilidades de alto nível sejam empregados mais efetivamente do que no trabalho que poderia ser feito por outros.
Estima-se que o tempo de preparação de dados pode representar mais de 80 por cento do tempo envolvido na análise de dados. Os zeladores de dados, também conhecidos como "data wranglers", realizam o trabalho de preparação necessário que deve ser concluído antes que um processamento e análise mais sofisticados sejam possíveis. Um zelador de dados adquire, inspeciona, consolida, limpa e organiza dados díspares e desorganizados, tornando possível o trabalho de analistas e cientistas de dados em muito menos tempo, descarregando trabalho que uma equipe de TI mais capacitada normalmente teria que fazer antes de realmente trabalhar com os dados.
Antes que os zeladores de dados façam seu trabalho, grandes dados não estão prontos para análises complexas. Sua preparação também prepara dados para uso com ferramentas como Hadoop, Pig, Hive, Spark and MapReduce, e linguagens de programação que incluem linguagem de consulta estruturada (SQL), Python, Scala and Perl, assim como linguagens de computação estatística como R.
As empresas de TI adquirem e processam cada vez mais dados, a divisão da carga de trabalho é cada vez mais importante para entregar análises de qualidade a tempo. Muitas vezes, são os funcionários juniores na área de análise de dados que realizam este trabalho de preparação minuciosa. Quase um terço dos trabalhadores de inteligência empresarial pode ser considerado zelador de dados, pelo menos como parte de seu trabalho. O termo zelador de dados normalmente não é um título de trabalho, mas mais uma descrição da tarefa. Um empregado cuja função principal é a preparação de dados pode ser referido como um engenheiro de dados.