Gestión de valores nulos

En ocasiones debemos trabajar con datasets que incluyen valores nulos: valores incompletos, corruptos, etc. Por ejemplo, visualicemos el dataset correspondiente al último viaje del Titanic proveído por la librería seaborn:

titanic = sns.load_dataset("titanic")
titanic.sample(5, random_state = 1877)

Gestión de valores nulos

En la imagen anterior, todos los NaN ("Not a Number") son valores nulos que pueden impedirnos aplicar ciertos algoritmos (la mayoría, de hecho). Las posibles soluciones para resolver este problema incluyen:

  • Eliminación de muestras o de características que incluyan valores nulos
  • Reemplazo por un valor (la media, mediana, moda, etc.)
  • Asignación de una categoría exclusiva
  • Predicción de los valores nulos