Métodos de agregación y estadística

Los dataframes poseen un útil método que devuelve información estadística sobre los valores contenidos en él: pandas.DataFrame.describe:

El método describe

Como se aprecia en la anterior imagen, este método devuelve el número de elementos no nulos por columna, el valor medio, la desviación estándar, el valor mínimo y el máximo, y los valores correspondientes a los percentiles 25, 50 y 75.

Otras funciones estadísticas útiles disponibles como métodos de los dataframes son:

  • pandas.DataFrame.mean: Devuelve la media aritmética de los valores del dataframe a lo largo de un determinado eje (eje 0 -vertical- por defecto):
El método pandas.DataFrame.mean
  • pandas.DataFrame.median: Devuelve la mediana de los valores del dataframe a lo largo de un determinado eje.
  • pandas.DataFrame.mode: Devuelve la moda de los valores del dataframe a lo largo de un determinado eje.
  • pandas.DataFrame.std: Devuelve la desviación estándar de los valores del dataframe a lo largo de un determinado eje.
  • pandas.DataFrame.var: Devuelve la varianza de los valores del dataframe a lo largo de un determinado eje
  • pandas.DataFrame.pct_change: Devuelve el porcentaje de cambio de un valor con respecto al de la fila anterior (también puede aplicarse a columnas usando el parámetro axis):
El método pandas.DataFrame.pct_change

Podemos ver que los valores de la primera fila, al no existir una anterior con respecto a la que realizar el cálculo, reciben un valor NaN por defecto. En todo caso, es posible regular el comportamiento del método al respecto de los valores NaN con el parámetro fill_method.

  • pandas.DataFrame.nunique: Devuelve el número de elementos distintos a lo largo de un determinado eje. El parámetro dropna controla si se incluyen los NaN en el recuento o no.

Siguiendo con el ejemplo anterior:

El método pandas.DataFrame.nunique