Realicemos un segundo ejemplo, esta vez con un dataset un poco más complejo: el dataset wine que podemos encontrar en Scikit-Learn. Este dataset incluye información sobre tres clases de vinos producidos en Italia y 13 características predictivas.
Comencemos importando la función que nos da acceso a los datos:
Ejecutémosla y almacenemos el resultado en la variable wine:
Ahora construyamos el DataFrame Pandas leyendo tanto las características predicitivas como las etiquetas, y renombremos dos de los campos, que resultan demasiado largos:
data.rename({
"nonflavanoid_phenols": "nonflavanoid",
"od280/od315_of_diluted_wines": "od280/od315"
}, axis = 1, inplace = True)
data["label"] = wine.target
Ahora quedémonos solo con las dos primeras clases de vinos para reducir el escenario a clasificación binaria:
y generemos la estructura con las características predictivas:
X.head()
y la estructura con las etiquetas:
y