Dimensionality reduction

Dimensionality reduction is a machine learning (ML) or statistical technique of reducing the amount of random variables in a problem by obtaining a set of principal variables. Este processo pode ser realizado usando uma série de métodos que simplificam a modelagem de problemas complexos, eliminam redundância e reduzem a possibilidade do modelo overfitting e assim incluindo resultados que não pertencem.

O processo de redução de dimensionalidade é dividido em dois componentes, seleção de características e extração de características. Na seleção de características, subconjuntos menores de características são escolhidos de um conjunto de muitos dados dimensionais para representar o modelo através de filtragem, embrulho ou incorporação. A extração de características reduz o número de dimensões em um conjunto de dados para modelar variáveis e realizar análise de componentes.

Métodos de redução de dimensionalidade incluem:

Factor Analysis
Low Variance Filter
High Correlation Filter
Backward Feature Elimination
Forward Feature Selection
Principal Component Analysis (PCA)
Linear Discriminant Analysis
Methods Based on Projections
t-Distributed Stochastic Neighbor Embedding (t-SNE)
UMAP
Independent Component Analysis
Missing Value Ratio
Random Forest

Dimensionality reduction is advantageous to AI developers or data professionals working with massive datasets, performing data visualization and analyzing complex data. It aids in the process of data compression, allowing the data to take up less storage space as well as reduces computation times.