Este conjunto de datos es otro de los clásicos. Contiene información sobre pasajeros del Titanic en su último viaje incluyendo información sobre si sobrevivieron o no, lo que lo hace especialmente útil en clasificación. Vamos a utilizar la versión ofrecida por seaborn:
titanic = sns.load_dataset("titanic")
titanic.head()
La variable objetivo habitualmente usada está contenida en el campo "survived". Hay varios campos con valores nulos, lo que habrá que considerar llegado el momento:
titanic.isnull().sum()
También es necesario resaltar que las diferentes variables categóricas (sex, embarked, etc.) no han sido codificadas y se muestran en formato de texto.
En total, tenemos 891 registros en este conjunto de datos.