Dimensionality reduction is a machine learning (ML) or statistical technique of reducing the amount of random variables in a problem by obtaining a set of principal variables. Este processo pode ser realizado usando uma série de métodos que simplificam a modelagem de problemas complexos, eliminam redundância e reduzem a possibilidade do modelo overfitting e assim incluindo resultados que não pertencem.
O processo de redução de dimensionalidade é dividido em dois componentes, seleção de características e extração de características. Na seleção de características, subconjuntos menores de características são escolhidos de um conjunto de muitos dados dimensionais para representar o modelo através de filtragem, embrulho ou incorporação. A extração de características reduz o número de dimensões em um conjunto de dados para modelar variáveis e realizar análise de componentes.
Métodos de redução de dimensionalidade incluem:
- Factor Analysis
- Low Variance Filter
- High Correlation Filter
- Backward Feature Elimination
- Forward Feature Selection
- Principal Component Analysis (PCA)
- Linear Discriminant Analysis
- Methods Based on Projections
- t-Distributed Stochastic Neighbor Embedding (t-SNE)
- UMAP
- Independent Component Analysis
- Missing Value Ratio
- Random Forest
Dimensionality reduction is advantageous to AI developers or data professionals working with massive datasets, performing data visualization and analyzing complex data. It aids in the process of data compression, allowing the data to take up less storage space as well as reduces computation times.