Over sampling e under sampling

Over amostragem e under sampling são técnicas usadas em data mining e data analytics para modificar classes de dados desiguais para criar conjuntos de dados equilibrados. Over sampling e under sampling também são conhecidas como resampling.

Estas técnicas de análise de dados são frequentemente usadas para ser mais representativas dos dados do mundo real. Por exemplo, ajustes de dados podem ser feitos para fornecer materiais de treinamento balanceados para algoritmos de IA e aprendizagem de máquinas.

Uma área onde técnicas de sobre amostragem e subamostragem são usadas é para pesquisa de levantamento. Uma população de amostras de pesquisa pode ser desequilibrada em termos de tipos de participantes, o que pode deter a população maior que a pesquisa se destina a estudar. Utilizando sobre ou subamostragem, as razões de características pesquisadas, tais como sexo, faixa etária e etnia, podem ser utilizadas para tornar o peso dos dados mais representativo das razões do grupo dentro das maiores populações.

Sobre amostragem vs. subamostragem

Quando uma classe de dados é a classe minoritária subrepresentada na amostra de dados, técnicas de sobre amostragem podem ser utilizadas para duplicar esses resultados para uma quantidade mais equilibrada de resultados positivos no treinamento. A sobreamostragem é usada quando a quantidade de dados coletados é insuficiente. Uma técnica popular de sobreamostragem é SMOTE (Synthetic Minority Over-sampling Technique), que cria amostras sintéticas por amostragem aleatória das características das ocorrências na classe minoritária.

Conversamente, se uma classe de dados for a classe majoritária sobrerepresentada, a sub-amostragem pode ser usada para equilibrá-la com a classe minoritária. Em amostragem é usado quando a quantidade de dados coletados é suficiente. Métodos comuns de subamostragem incluem centróides de cluster e ligações Tomek, ambos com características de potencial sobreposição teórica dentro dos conjuntos de dados coletados para reduzir a quantidade de dados majoritários.

Em ambos sobreamostragem e subamostragem, raramente é sugerida a duplicação simples de dados. Geralmente, a sobreamostragem é preferível, pois a subamostragem pode resultar na perda de dados importantes. Subamostragem é sugerida quando a quantidade de dados coletados é maior que o ideal e pode ajudar as ferramentas de mineração de dados a permanecer dentro dos limites do que eles podem efetivamente processar.