Los dataframes poseen un útil método que devuelve información estadística sobre los valores contenidos en él: pandas.DataFrame.describe:
Como se aprecia en la anterior imagen, este método devuelve el número de elementos no nulos por columna, el valor medio, la desviación estándar, el valor mínimo y el máximo, y los valores correspondientes a los percentiles 25, 50 y 75.
Otras funciones estadísticas útiles disponibles como métodos de los dataframes son:
- pandas.DataFrame.mean: Devuelve la media aritmética de los valores del dataframe a lo largo de un determinado eje (eje 0 -vertical- por defecto):
- pandas.DataFrame.median: Devuelve la mediana de los valores del dataframe a lo largo de un determinado eje.
- pandas.DataFrame.mode: Devuelve la moda de los valores del dataframe a lo largo de un determinado eje.
- pandas.DataFrame.std: Devuelve la desviación estándar de los valores del dataframe a lo largo de un determinado eje.
- pandas.DataFrame.var: Devuelve la varianza de los valores del dataframe a lo largo de un determinado eje
- pandas.DataFrame.pct_change: Devuelve el porcentaje de cambio de un valor con respecto al de la fila anterior (también puede aplicarse a columnas usando el parámetro axis):
Podemos ver que los valores de la primera fila, al no existir una anterior con respecto a la que realizar el cálculo, reciben un valor NaN por defecto. En todo caso, es posible regular el comportamiento del método al respecto de los valores NaN con el parámetro fill_method.
- pandas.DataFrame.nunique: Devuelve el número de elementos distintos a lo largo de un determinado eje. El parámetro dropna controla si se incluyen los NaN en el recuento o no.
Siguiendo con el ejemplo anterior: