Titanic

Titanic

Este conjunto de datos es otro de los clásicos. Contiene información sobre pasajeros del Titanic en su último viaje incluyendo información sobre si sobrevivieron o no, lo que lo hace especialmente útil en clasificación. Vamos a utilizar la versión ofrecida por seaborn:

titanic = sns.load_dataset("titanic")
titanic.head()

Dataset Titanic

La variable objetivo habitualmente usada está contenida en el campo "survived". Hay varios campos con valores nulos, lo que habrá que considerar llegado el momento:

titanic.isnull().sum()

Campos con valores nulos en el dataset Titanic

También es necesario resaltar que las diferentes variables categóricas (sex, embarked, etc.) no han sido codificadas y se muestran en formato de texto.

titanic.shape
(891, 15)

En total, tenemos 891 registros en este conjunto de datos.