Veamos entonces cual es el proceso de entrenamiento de un perceptrón multicapa:
- Inicialmente los parámetros (pesos y bias) se inicializan con algunos valores, típicamente valores aleatorios.
- A continuación, se pasan todas las muestras del dataset de entrenamiento por la red, una por una, obteniendo predicciones para cada una de ellas.
- Para cada muestra se obtiene el gradiente parcial de la función de coste achacable a ella (el conjunto de derivadas parciales con respecto a todos y cada uno de los parámetros)
- Una vez obtenidas todas las predicciones se calcula el gradiente total de la función de coste como suma de los gradientes parciales
- Se modifica cada parámetro de la red restando el producto de la derivada parcial de la función de coste que le corresponda y la tasa de aprendizaje
En este punto la red está configurada de forma que el error global cometido es algo inferior al que existía antes de comenzar este proceso.