k-Means

El algoritmo k-Means es uno de los más sencillos y frecuentemente usados. Se le debe indicar el número de clusters a crear y tiene como objetivo la identificación de los centroides de dichos clusters. "Centroide" es el nombre que reciben los centros de los clusters según el criterio de distancia aplicado, centros que no tienen por qué ser muestras del conjunto de datos.

Se ejecuta en dos pasos: asigna cada punto al cluster más próximo y recalcula los centroides, repitiendo este proceso hasta que no se producen cambios en las asignaciones.

Scikit-Learn ofrece este algoritmo implementado en la clase sklearn.cluster.KMeans. El primer argumento a indicar en la instanciación del mismo es el número de clusters a aplicar.