El dataset Iris

Iris

Para probar la implementación del Perceptrón de Scikit-learn, vamos a utilizar el famoso dataset Iris. Este dataset contiene medidas de longitud y ancho de pétalos y sépalos de flores de tres especies de Iris recogidas por el botánico Edgar Anderson. Es uno de los datasets más clásicos en el mundo del Machine Learning. Utilizaremos la versión ofrecida por seaborn:

iris = sns.load_dataset("iris")
iris.sample(5, random_state = 0)

El dataset Iris
iris.shape
(150, 5)

El dataset iris tiene apenas 150 registros y las ya comentadas 4 características predictivas.

Salvo ciertas excepciones, los datos con los que entrenemos un algoritmo deberán ser numéricos, por lo que convendrá transformar la columna “species” en otra equivalente en la que cada especie de flor se referencie con un número (proceso de conversión denominado “codificación”). En este caso vamos a mantener la columna “species”, la consideraremos una serie categórica y extraeremos los códigos asignados por defecto por Pandas (veremos más adelante otros métodos más adecuados), llevándolos a una nueva columna (“label”):

iris["label"] = iris.species.astype("category").cat.codes
iris.sample(5, random_state = 0)
El dataset Iris