Cálculo del número de NaN por columna en un dataframe

Para calcular el número de NaN que hay en cada una de las columnas de un dataframe df vamos a hacer uso del método "isnull" de pandas. Éste método detecta valores NaN en arrays numéricos y valores "None" o "NaN" en arrays de objetos, devolviendo una estructura semejante a la de entrada (un dataframe en este ejemplo) en el que cada elemento se sustituye por "True" o "False" en el caso de que se trate de un NaN o no. Finalmente, aplicamos el método "sum" para obtener el número de "True" por columna:

print(df.isnull().sum())

Probemos este método con el dataset Titanic proveído por la librería seaborn:

import seaborn as sns

titanic = sns.load_dataset("titanic")
titanic.head()

Dataset Titanic

Calculamos ahora el número de valores nulos por columna:

titanic.isnull().sum()

Número de nulos por columna en el dataset Titanic

Por último calculamos el número total de valores nulos:

titanic.isnull().sum().sum()

869

 

Categoría
Submitted by admin on Mon, 12/03/2018 - 21:27