Gestión de valores nulos

En ocasiones debemos trabajar con datasets que incluyen valores nulos: valores incompletos, corruptos, etc. Por ejemplo, visualicemos el dataset correspondiente al último viaje del Titanic proveído por la librería seaborn:

titanic = sns.load_dataset("titanic")
titanic.sample(5, random_state = 1877)

En la imagen anterior, todos los NaN ("Not a Number") son valores nulos que pueden impedirnos aplicar ciertos algoritmos (la mayoría, de hecho). Las posibles soluciones para resolver este problema incluyen:

Eliminación de muestras o de características que incluyan valores nulos
Reemplazo por un valor (la media, mediana, moda, etc.)
Asignación de una categoría exclusiva
Predicción de los valores nulos

About Interactive Chaos

Contact information