Etiquetagem de dados, no contexto da aprendizagem de máquinas, é o processo de detecção e etiquetagem de amostras de dados. O processo pode ser manual mas normalmente é realizado ou auxiliado por software.
Para que serve a etiquetagem de dados?
A etiquetagem de dados é uma parte importante do pré-processamento de dados para o ML, particularmente para a aprendizagem supervisionada, na qual os dados de entrada e saída são etiquetados para classificação, a fim de fornecer uma base de aprendizagem para o futuro processamento de dados.
Um treinamento do sistema para identificar animais em imagens, por exemplo, pode ser fornecido com múltiplas imagens de vários tipos de animais dos quais aprenderia as características comuns de cada um, permitindo identificar corretamente os animais em imagens não etiquetadas.
A etiquetagem de dados também é utilizada na construção de algoritmos ML para veículos autônomos. Veículos autónomos, tais como carros auto-condutores, precisam de ser capazes de distinguir os objectos no seu percurso para que possam processar o mundo externo e conduzir em segurança. A etiquetagem de dados é usada para permitir que a inteligência artificial (IA) do carro possa dizer a diferença entre uma pessoa, a rua, outro carro e o céu, etiquetando as principais características desses objetos ou pontos de dados e procurando semelhanças entre eles.
Como funciona a etiquetagem de dados?
ML e sistemas de aprendizagem profunda muitas vezes requerem grandes quantidades de dados para estabelecer uma base para padrões de aprendizagem confiáveis. Os dados que eles usam para informar a aprendizagem devem ser rotulados ou anotados com base em características de dados que ajudam o modelo a organizar os dados em padrões que produzem uma resposta desejada.
As etiquetas usadas para identificar características de dados devem ser informativas, discriminatórias e independentes para produzir um algoritmo de qualidade. Um conjunto de dados devidamente etiquetado fornece uma verdade básica que o modelo ML usa para verificar suas previsões para precisão e para continuar refinando seu algoritmo.
Um algoritmo de qualidade é alto tanto em precisão quanto em qualidade. A precisão refere-se à proximidade de certas etiquetas no conjunto de dados com a verdade de terra. Qualidade refere-se à precisão consistente de todo um conjunto de dados.
Erros na etiquetagem de dados prejudicam a qualidade do conjunto de dados de treinamento e o desempenho de quaisquer modelos preditivos para os quais ele é usado. Para mitigar isso, muitas organizações adotam uma abordagem Human-in-the-Loop (HITL), mantendo o envolvimento humano no treinamento e testando modelos de dados ao longo de seu crescimento iterativo.
Métodos de rotulagem de dados
Uma empresa pode usar vários métodos para estruturar e rotular seus dados. As opções variam desde o uso de pessoal interno até o crowdsourcing e serviços de etiquetagem de dados. Estas opções incluem o seguinte:
- >forte>Crowdsourcing. Uma plataforma de terceiros dá a uma empresa acesso a muitos trabalhadores ao mesmo tempo.
- >forte>Contratantes. Uma empresa pode contratar trabalhadores freelance temporários para processar e rotular dados.
- forte> Equipes gerenciadas. Uma empresa pode alistar uma equipe gerenciada para processar dados. Equipes gerenciadas são treinadas, avaliadas e gerenciadas por uma organização terceirizada.
- In-house staff. Uma empresa pode usar seus funcionários existentes para processar dados.
Não há um método ideal para rotular dados. As empresas devem usar o método ou combinação de métodos que melhor se adapte às suas necessidades. Alguns critérios a considerar ao escolher um método de etiquetagem de dados são os seguintes:
- o tamanho da empresa;
- o tamanho do conjunto de dados que requer etiquetagem;
- o nível de qualificação dos empregados do pessoal;
- as restrições financeiras da empresa; e
- o propósito do modelo ML ser complementado com dados etiquetados.
uma boa equipe de etiquetagem de dados deve idealmente ter conhecimento de domínio da indústria que uma empresa serve. Os rotuladores de dados que têm um contexto externo que os orienta são mais precisos. Eles também devem ser flexíveis e ágeis, porque a etiquetagem de dados e ML são processos iterativos, sempre mudando e evoluindo à medida que mais informações são tomadas em.
Importância da etiquetagem de dados
Um relatório recente da empresa de pesquisa e consultoria em IA Cognilytica descobriu que mais de 80% do tempo que as empresas gastam em projetos de IA vai para a preparação, limpeza e etiquetagem de dados. A etiquetagem manual de dados é o método mais demorado e caro, mas pode ser garantido para aplicações importantes.
Críticas da IA especulam que a automação colocará em risco trabalhos de baixa habilidade, tais como trabalho de call center, caminhão e condução Uber, porque as tarefas de rotina estão se tornando mais fáceis de executar para as máquinas. No entanto, alguns especialistas acreditam que a etiquetagem de dados pode apresentar uma nova oportunidade de trabalho de baixa qualificação para substituir os que são anulados pela automação, porque há um excedente sempre crescente de dados e máquinas que precisam processá-lo para realizar as tarefas necessárias para ML avançado e AI.