Clustering con tres métricas

En el ejemplo visto, cada item (cada ciudad) viene determinado por dos atributos: el importe medio de compras y el número medio de unidades vendidas, lo que es equivalente a situar las ciudades en un espacio bidimensional en el que un eje contenía información sobre el primer atributo (el importe medio de compras), y el otro sobre el segundo (el número medio de unidades vendidas). Y, en función de la distancia entre las ciudades en ese plano, KMeans determinaba la composición de cada clúster.

Pero es posible involucrar en el análisis no dos atributos, sino tres, y trabajar en un espacio, por lo tanto, tridimensional. El proceso será el mismo: KMeans determinará las distancias entre ciudades en ese espacio tridimensional y creará los clusters que hayamos solicitado en función de aquellas.
Para esto eliminemos, en primer lugar, el campo “City (clústeres)” que se ha creado en los apartados anteriores, y llevemos la métrica que va a determinar la posición en el tercer eje de nuestro espacio tridimensional al campo de configuración Tamaño del objeto visual. Por ejemplo, llevemos el coste de flete, campo Freight de la tabla Sales, con la función de agregación Promedio:

Clustering con tres métricas

(se ha modificado el tamaño relativo de las burbujas, su color y se ha seleccionado la opción de mostrar borde alrededor de ellas)

Ahora podemos repetir el proceso: hacemos clic en los tres puntos que encontramos en la esquina superior derecha del objeto visual, otro clic en Buscar clústers automáticamente, en la ventana de configuración que se abre fijamos, por ejemplo, 4 como número de clusters a identificar y hacemos clic en Aceptar.

Nuevamente, se habrá añadido una columna a la tabla Geography en la que encontraremos el nombre del clúster asignado a cada registro. Y este nuevo campo se habrá llevado al campo de configuración Leyenda de nuestro objeto visual:

Clustering con tres variables

En este caso, la asignación de cada ciudad a cada clúster se ha realizado en función de la distancia a cada centroide considerando las tres métricas involucradas, haciendo nuestro análisis -en general- más completo.

Y como los clusters se han identificado en un espacio tridimensional vemos que, proyectados en el plano, solapan.

Y también en este caso podríamos utilizar la asignación realizada de cada ciudad a un clúster en el resto del informe.

Eliminemos el campo añadido a la tabla Geography con la información sobre la asignación de clusters a las ciudades antes de continuar.