Presentación

La librería pandas (nombre derivado de panel data, término usado para referirse a conjuntos de datos estructurados multidimensionales) proporciona estructuras de datos y funciones de alto nivel que nos permiten trabajar con datos estructurados de manera muy cómoda. Estas estructuras y funciones son, normalmente, de las más usadas en análisis de datos.

Los principales objetos ofrecidos por pandas son el dataframe, estructura tabular bidimensional y la serie, ambas basadas en el array multidimensional de NumPy. Aun cuando NumPy ofrece una muy conveniente y eficiente estructura para el almacenamiento de datos, el ndarray, éste presenta importantes limitaciones cuando, durante un análisis, se hace necesaria más flexibilidad a la hora de aplicar etiquetas a nuestros datos, gestionar valores inexistentes, realizar agrupaciones por etiquetas, etc., limitaciones que son resueltas por las estructuras de más alto nivel ofrecidas por pandas.

La documentación oficial está disponible en el sitio web oficial de pandas.

Esta librería se importa habitualmente con el alias pd:

import pandas as pd

Para poder hacer uso de las estructuras ofrecidas por pandas o de cualquiera de las funciones o métodos que incluye, deberás importar previamente la librería con la instrucción anterior. Aunque en las capturas de pantalla incluidas en este tutorial no se muestre, la importación de pandas se realiza en la primera celda del notebook Jupyter:

Importación de pandas y de NumPy

Como se ha comentado, pandas se basa en la funcionalidad de NumPy, por lo que numerosas funciones de esta última librería son perfectamente aplicables a las series y a los dataframes. Para poder probarlas, también deberemos importar la función NumPy, tal y como se ve en la anterior imagen.