La reducción de dimensionalidad es otra de las grandes aplicaciones de los algoritmos no supervisados. El objetivo de este tipo de algoritmo es convertir un dataset de una cierta dimensión -digamos, 1000 características- en otro con una menor dimensión -digamos, 300-. Los motivos para desear realizar esta reducción son variados:
- Puede reducir los recursos necesarios para pasar dichos datos por un algoritmo supervisado
- Puede eliminar ruido presente en el dataset original
- Los resultados pueden ser más fácilmente interpretables
Grosso modo, hay tres métodos para realizar reducción de dimensionalidad:
- Selección de características, es decir, escoger un subconjunto de las características originales que, según cierto criterio, representen bien el conjunto de datos.
- Derivación de características, método consistente en la creación de nuevas características a partir de las originales. Lógicamente, ésto supone una reducción de dimensionalidad solo si creamos características que combinen dos o más de las originales y podemos sustituir las originales por las nuevas sin que se produzca una pérdida de información excesiva.
- Agrupación de muestras, o aplicación de algoritmos de clustering para la identificación de clusters de muestras que sean identificables usando un menor número de características.