Bienvenido a este tutorial de Machine Learning. En las próximas secciones vamos a revisar el concepto de Aprendizaje Automático -como suele traducirse el término "Machine Learning" en español-, veremos cómo clasificamos los algoritmos, ejemplos de cada tipo y las principales aplicaciones de éstos, centrándonos en los algoritmos supervisados y no supervisados. Dedicaremos también tiempo a conocer las herramientas de transformación y selección de características predictivas, tareas no tan sofisticadas, pero críticas si deseamos obtener el mejor rendimiento de nuestros modelos.
En todo caso, aunque esto puede decirse de cualquier tutorial, éste especialmente va a ser una obra en continuo mantenimiento.
Para el seguimiento del tutorial convendrá que tengas instalada la versión más actualizada de Python, así como las principales librerías usadas en Data Science (las denominadas "librerías del stack científico": NumPy, pandas, Scikit-learn, matplotlib y seaborn). Mi recomendación es que simplemente instales el software Anaconda, pues incluye Python, el entorno de desarrollo Jupyter e instala automáticamente decenas de librerías usadas en Data Science, incluyendo las mencionadas anteriormente.
Jupyter es una aplicación web que permite crear documentos con código Pyhon dividido en celdas que podemos ejecutar de forma autónoma, aplicación con la que están hechos todos los ejemplos mostrados en este tutorial. Bien es cierto que, en ciertos escenarios (desarrollo de librerías, por ejemplo), resulta más cómodo el uso de otro tipo de entornos como Visual Studio Code, pero Jupyter nos ofrece el tipo de interacción que necesitamos para aprender Machine Learning.
Si vas a seguir los ejemplos que se incluyen en Python, doy por sentado que tienes conocimientos de programación en este lenguaje -aunque sean limitados-. Tienes aquí a tu disposición un tutorial introductorio de Python.