Hay varias librerías de Python que son fundamentales en Data Science. Echemos un vistazo rápido al tipo de funcionalidad que ofrecen:
- NumPy: Ofrece una estructura crítica para el almacenamiento y operaciones con datos: el array multidimensional. NumPy es una librería de bajo nivel sobre la que se han desarrollado otras.
- pandas: Ejemplo de librería desarrollada sobre NumPy. Ofrece dos estructuras de datos basadas en el array NumPy: la serie (estructura unidimensional) y el DataFrame (estructura bidimensional).
- SciPy: Esta librería ofrece herramientas matemáticas de todo tipo: resolución de ecuaciones diferenciales, distribuciones, gestión de matrices...
- Matplotlib: Es la librería de visualización referencia en el entorno Python. Aun cuando ofrece herramientas de bajo nivel y su uso no es especialmente amigable, sigue siendo obligado su conocimiento, más cuando otras librerías de visualización se han construido sobre ésta.
- seaborn: Otra librería de visualización, en este caso desarrollada sobre Matplotlib. Mucho más amigable que Matplotlib y con un estilo visual mucho más atractivo, es la primera opción en muchos casos.
- Bokeh: Tercera librería de visualización de esta lista, aunque en este caso no está basada en Matplotlib. Bokeh ofrece visualizaciones interactivas muy atractivas y útiles.
- Scikit-learn: Librería de referencia en el mundo del Machine Learning para Python. Ofrece innumerables algoritmos y herramientas imprescindibles en cualquier proyecto de análisis de datos.
- TensorFlow: TensorFlow ofrece herramientas para la definición y entrenamiento de redes neuronales.
- Keras: Keras se ofrece como interfaz de alto nivel para librerías como TensorFlow, Theano o CNTK.
- NLTK: Librería de procesamiento de lenguaje natural, con multitud de herramientas orientadas al análisis de textos.
- XGBoost, LightGBM: Librerías que implementan los algoritmos homónimos, fundamentales en entornos tabulares.