Escala

Siguiendo con el mismo ejemplo, aun aceptando que el dato pueda ser relevante, el hecho es que los valores correspondientes a la longitud del sépalo van a variar entre 4.3 y 7.9 (los datos de longitudes en la tabla se muestran en centímetros). El hecho de que las temperaturas puedan variar, por ejemplo, entre 4º y 35º supone que las diferencias en esta última característica tiendan a imponerse a las demás.

Una solución a este problema puede ser la normalización de los datos: modificarlos de forma que las variaciones entre ellos sean menores. Por ejemplo podemos escalar las variables para que todas contengan datos entre dos valores dados (0 y 1, por ejemplo), o aplicar un escalado estándar de forma que los datos se muestren con el mismo valor medio y desviación estándar (0 y 1 respectivamente, por ejemplo).

En cualquiera de los dos casos podríamos estar distorsionando la distribución de los datos, forzando una semejanza que no siempre está justificada (es posible que la temperatura sí tenga un mayor peso que otras características) o estar potenciando el ruido existente en el conjunto de datos.