El dataset wine

Realicemos un segundo ejemplo, esta vez con un dataset un poco más complejo: el dataset wine que podemos encontrar en Scikit-Learn. Este dataset incluye información sobre tres clases de vinos producidos en Italia y 13 características predictivas.

Comencemos importando la función que nos da acceso a los datos:

from sklearn.datasets import load_wine

Ejecutémosla y almacenemos el resultado en la variable wine:

wine = load_wine()

Ahora construyamos el DataFrame Pandas leyendo tanto las características predicitivas como las etiquetas, y renombremos dos de los campos, que resultan demasiado largos:

data = pd.DataFrame(data = wine.data, columns = wine.feature_names)
data.rename({
    "nonflavanoid_phenols": "nonflavanoid",
    "od280/od315_of_diluted_wines": "od280/od315"
}, axis = 1, inplace = True)
data["label"] = wine.target

Ahora quedémonos solo con las dos primeras clases de vinos para reducir el escenario a clasificación binaria:

data = data[data.label.isin([0, 1])]

y generemos la estructura con las características predictivas:

X = data.drop("label", axis = 1)
X.head()
dataset wine

y la estructura con las etiquetas:

y = data.label
y

dataset wine