Clustering

Los algoritmos de clustering o agrupamiento (también denominados a veces algoritmos de clasificación no supervisada) tienen como objetivo la agrupación de las muestras de acuerdo a un determinado criterio. Este criterio suele ser habitualmente la distancia, la similitud o la verosimilitud.

Cuando el criterio es de distancia, será necesario establecer una función distancia, como la Euclídea o la distancia Manhattan. Si el criterio es la similitud, habrá que establecer también un criterio de medición, utilizándose frecuentemente la llamada matriz de correlación. Por último, el criterio de verosimilitud tiene como objetivo la maximización de esta propiedad estadística.

Veamos un caso sencillo: En la siguiente imagen de puntos resulta sencillo determinar a simple vista la existencia de, al menos, dos claros grupos de puntos, el primero ocupando el cuadrante superior izquierdo, y el segundo ocupando el resto de la imagen:

Clustering

El resultado de ejecutar un algoritmo de clustering sobre estos datos sería un conjunto de etiquetas (por ejemplo 0 y 1) asociadas a los puntos indicando el grupo o cluster al que el algoritmo los ha asociado.

El algoritmo más conocido en esta categoría es k-Means, basado en el concepto de distancia entre puntos. Veremos también DBSCAN, que se basa en el concepto de densidad de puntos.