El dataset MNIST es el considerado "Hello World" de la visión artificial. Contiene un conjunto de entrenamiento de 60.000 imágenes de dígitos manuscritos (de 0 a 9), y otro conjunto de pruebas con 10.000 muestras adicionales.
Tal y como explican en el sitio web, las imágenes originales fueron normalizadas de forma que cupiesen en un grid de 20x20 píxels manteniendo las proporciones de la imagen original, y el resultado se centró en un grid de 28x28 píxels. Es de estas modificaciones de donde proviene la "M" de "MNIST" (Modified National Institute of Standards and Technology, Instituto de Estándares y Tecnología de los Estados Unidos).
Las muestras incluidas en el conjunto de entrenamiento fueron el resultado de escanear dígitos manuscritos de 250 personas (estudiantes de "high schools" y empleados de la oficina del Censo de los Estados Unidos). El dataset de pruebas contiene dígitos escaneados de otras 250 personas diferentes (con los mismos perfiles), lo que permite asegurar que los modelos obtenidos son capaces de interpretar dígitos incluso de personas no involucradas en la generación de los datos de entrenamiento. En todo caso, en este tutorial vamos a trabajar exclusivamente con el conjunto de entrenamiento aplicando validación cruzada o "hold out" según convenga en cada caso. Puedes descargar el fichero con el que vamos a trabajar haciendo clic aquí. Deberás descomprimirlo o leerlo desde pandas indicando el tipo de compresión zip.