Repetimos una y otra vez que vivimos en un mundo gobernado por los datos. Y es verdad. Con el paso del tiempo se han ido perfilando dos grandes enfoques para el análisis y explotación de dichos datos: la aplicación de algoritmos de Machine Learning (Aprendizaje Automático en español) para -en general- realizar predicciones, y el uso de soluciones de Business Intelligence (Inteligencia de Negocio en español) para ofrecer a la empresa sistemas basados en herramientas visuales que sirvan de ayuda a la toma de decisiones.
Estos dos enfoques, en todo caso, no son excluyentes entre sí pues, a día de hoy, encontramos herramientas basadas en algoritmos de Machine Learning en cualquier software de Business Intelligence de suficiente calidad.
En cualquier caso, éstos no son procesos sencillos. En primer lugar, porque, para explotar adecuadamente un conjunto de datos, hay que disponer de datos. O, mejor dicho, hay que disponer de datos con una calidad suficiente. Y los datos raramente se generan o se registran con esta calidad mínima necesaria, conteniendo éstos habitualmente valores nulos, registros duplicados, valores inconsistentes entre sí...
Otro problema surge del hecho de que los datos que generamos no siempre tienen la forma adecuada. Por poner un sencillo ejemplo, podemos tener en una columna información geográfica del tipo "Madrid (España)" (es decir, datos que incluyen el nombre de una ciudad y, entre paréntesis, el nombre de un país) cuando tal vez necesitaríamos tener la ciudad y el país en dos campos separados. La información está ahí, simplemente no en la forma correcta.
Y un tercer problema que merece la pena comentar es el que surge al trabajar con datos con diferente formato. Por ejemplo, podemos estar trabajando con una tabla de datos en la que las fechas aparecen con el formato 31/12/2020 (día/mes/año) y con otra en la que las fechas aparecen con el formato 12/31/2020 (mes/día/año). Resulta obvio decir que no sería posible trabajar con ambas tablas simultáneamente salvo que transformásemos dichos campos temporales a un formato común.
Todo esto -y otras muchas cosas- lleva a la necesidad de disponer de sistemas especializados en la lectura y transformación de los datos antes de poder explotarlos.