En este tipo de análisis queremos clasificar cada elemento como perteneciente a una clase de entre varias (más de dos, en general). Por ejemplo, si volvemos a nuestras imágenes de 28x28 píxels que representan números manuscritos entre 0 y 9, queremos que cada imagen se clasifique como perteneciendo a la "clase número 0", a la "clase número 1", a la "clase número 2", etc.
En estos casos la capa de salida deberá tener tantas neuronas como clases existan. En el ejemplo mencionado harían falta 10 neuronas, cada una devolviendo un valor que determinará hasta qué punto la red "cree" que una imagen determinada pertenece a dicha clase.
Aunque lo veremos más adelante, una forma de convertir estos valores en probabilidades es utilizar la función softmax.