Atributos irrelevantes

Supongamos que somos el botánico Edgar Anderson y estamos recogiendo muestras de flores Iris, anotando el ancho y el alto de los pétalos y sépalos de las flores:

sepal_length sepal_width petal_length petal_width species
6.1 2.9 4.7 1.4 versicolor
6.7 3.1 4.4 1.4 versicolor
4.4 2.9 1.4 0.2 setosa
5.0 3.5 1.6 0.6 setosa
4.9 3.6 1.4 0.1 setosa

Lo que, en este conjunto de datos, se considera próximo o lejano depende, por supuesto, de los propios datos, y solo un análisis -como mínimo visual- nos permitiría hacernos una idea de estas distancias. Así, podría ocurrir que de las cinco muestras anteriores, las dos primeras se mostrasen próximas entre sí, pero lejos de las tres últimas que, a su vez, tal vez se mostrasen próximas entre sí.

Pero supongamos que hemos cometido el error de anotar también la temperatura del aire en el momento de la recogida de las muestras, y supongamos que hemos estado recogiendo las muestras a lo largo de todo un año, con las variaciones de temperatura consecuentes. Nuestra tabla de datos podría tener el siguiente aspecto:

sepal_length sepal_width petal_length petal_width species temperature
6.1 2.9 4.7 1.4 versicolor 32
6.7 3.1 4.4 1.4 versicolor 7
4.4 2.9 1.4 0.2 setosa 10
5.0 3.5 1.6 0.6 setosa 8
4.9 3.6 1.4 0.1 setosa 29

Aunque no vamos a hacer el cálculo, parece claro que ahora la distancia entre los puntos va a venir claramente determinada por la diferencia de los valores de la característica "temperature", haciendo que la primera y la última flor se muestren muy próximas entre sí y distantes de las otras tres, por ejemplo. ¿Y vamos a pensar que la temperatura en el momento de la recogida de la flor va a determinar sus dimensiones? ¿Si de un momento del día en el que hay 30 grados pasamos a otro de la noche en la que la temperatura cae a 13 grados va a cambiar, digamos, la longitud del pétalo de la flor? Podríamos pensar que la temperatura media de la época de floración puede influir (y que un año más cálido pueda resultar en flores con sépalos más anchos, quién sabe...), pero el dato recogido en la tabla anterior no solo es irrelevante sino que distorsiona el concepto de distancia en nuestro espacio de trabajo.