Librerías en Data Science

Hay varias librerías de Python que son fundamentales en Data Science. Echemos un vistazo rápido al tipo de funcionalidad que ofrecen:

  • NumPy(link is external): Ofrece una estructura crítica para el almacenamiento y operaciones con datos: el array multidimensional. NumPy es una librería de bajo nivel sobre la que se han desarrollado otras.
  • pandas(link is external): Ejemplo de librería desarrollada sobre NumPy. Ofrece dos estructuras de datos basadas en el array NumPy: la serie (estructura unidimensional) y el DataFrame (estructura bidimensional).
  • SciPy(link is external): Esta librería ofrece herramientas matemáticas de todo tipo: resolución de ecuaciones diferenciales, distribuciones, gestión de matrices...
  • Matplotlib(link is external): Es la librería de visualización referencia en el entorno Python. Aun cuando ofrece herramientas de bajo nivel y su uso no es especialmente amigable, sigue siendo obligado su conocimiento, más cuando otras librerías de visualización se han construido sobre ésta.
  • seaborn(link is external): Otra librería de visualización, en este caso desarrollada sobre Matplotlib. Mucho más amigable que Matplotlib y con un estilo visual mucho más atractivo, es la primera opción en muchos casos.
  • Bokeh(link is external): Tercera librería de visualización de esta lista, aunque en este caso no está basada en Matplotlib. Bokeh ofrece visualizaciones interactivas muy atractivas y útiles.
  • Scikit-learn(link is external): Librería de referencia en el mundo del Machine Learning para Python. Ofrece innumerables algoritmos y herramientas imprescindibles en cualquier proyecto de análisis de datos.
  • TensorFlow(link is external): TensorFlow ofrece herramientas para la definición y entrenamiento de redes neuronales.
  • Keras(link is external): Keras se ofrece como interfaz de alto nivel para librerías como TensorFlow, Theano o CNTK.
  • NLTK(link is external): Librería de procesamiento de lenguaje natural, con multitud de herramientas orientadas al análisis de textos.
  • XGBoost(link is external), LightGBM(link is external): Librerías que implementan los algoritmos homónimos, fundamentales en entornos tabulares.