Reducción de dimensionalidad

La reducción de dimensionalidad es otra de las grandes aplicaciones de los algoritmos no supervisados. El objetivo de este tipo de algoritmo es convertir un dataset de una cierta dimensión -digamos, 1000 características- en otro con una menor dimensión -digamos, 300-. Los motivos para desear realizar esta reducción son variados:

  • Puede reducir los recursos necesarios para pasar dichos datos por un algoritmo supervisado
  • Puede eliminar ruido presente en el dataset original
  • Los resultados pueden ser más fácilmente interpretables

Grosso modo, hay tres métodos para realizar reducción de dimensionalidad:

  1. Selección de características, es decir, escoger un subconjunto de las características originales que, según cierto criterio, representen bien el conjunto de datos.
  2. Derivación de características, método consistente en la creación de nuevas características a partir de las originales. Lógicamente, ésto supone una reducción de dimensionalidad solo si creamos características que combinen dos o más de las originales y podemos sustituir las originales por las nuevas sin que se produzca una pérdida de información excesiva.
  3. Agrupación de muestras, o aplicación de algoritmos de clustering para la identificación de clusters de muestras que sean identificables usando un menor número de características.