Estimación de densidad kernel

La estimación de densidad kernel (KDE) es menos usada que el histograma, pero puede ser una útil herramienta para mostrar la distribución de una variable. Al igual que aquel, los KDE codifican la densidad de observaciones en un eje mostrando una altura proporcional en el otro eje, pero los KDE pueden ser dotados de propiedades como la suavidad o continuidad.

Para construir el KDE se considera una función no negativa -el kernel- y un parámetro de suavizado denominado bandwidth. Cuando el kernel es una función gaussiana, cada observación es sustituida por una curva de este tipo centrada en dicho valor. A continuación, se suman las curvas para obtener el valor de la densidad en cada punto. Por último, la curva resultante se normaliza para que el área bajo ella sea igual a 1.

Usando la función seaborn.distplot basta con ocultar el histograma -lo que controlamos con el parámetro hist- para obtener el KDE:

y = np.random.normal(size = 100)

sns.distplot(y, hist = False);

Estimación de densidad kernel

También aquí tenemos a disposición el "rug":

sns.distplot(y, hist = False, rug = True);

Estimación de densidad kernel